データクレンジング(またはデータスクラビング)とは、データベースから不正確なデータや記録を検出し、修正または削除するプロセスです。また、不適切にフォーマットされたデータや重複したデータ、記録を修正、削除することもあります。このプロセスで削除されたデータは、しばしば「ダーティ・データ」と呼ばれます。データクレンジングは、データの品質を維持するために不可欠な作業です。大規模なデータセットや資産を持つ大企業では、通常、自動化されたツールやアルゴリズムを活用して、このような記録を識別し、一般的なエラー (顧客情報の郵便番号の欠落など) を修正します。
テラデータの見解:最も強力なビッグデータ環境は、厳密なデータクレンジングツールとプロセスを備えており、大規模な環境でもデータ品質が維持され、あらゆるタイプのユーザーにとってデータセットに対する信頼性が高く保たれるようになっています。