データ ウェアハウスの機能強化
詳細はこちら
データ マートは、狭いユーザーグループに対応するデータ ウェアハウス論理モデルのサブジェクト指向のスライスです。多くのデータ マートは、 データ ウェアハウスの完全なテーブルのデータのサブセットのみを必要とします。たとえば、マートには、販売トランザクション、製品、および在庫レコードのみを含む場合があります。ほとんどのデータ マートには、4,000 個ではなく 5 ~ 20 個のテーブルしかありません。
データ マートファクト テーブル
データ マート内のテーブルの数は、データベースのサイズとは関係ありません。ファクト テーブルと呼ばれる主要なテーブルは、たとえば、通信会社の 100 バイトの通話詳細レコードを使用できます。データ マート自体は巨大になる可能性がありますが、データ ウェアハウスで使用できるすべてのデータを絞り込むことができます。
データ マートは、多くの場合、データの集計のみを並べ替えて結果表を集計し、通常は詳細データを捨てることによって、データの要約のみをキャプチャします。一部のデータ マートは、週単位または月単位で完全に再読み込みされます。すべてのデータを削除して更新するのは比較的簡単なので、レポートは過去 30 日間のトランザクションのみを確認できます。
データマートとスタースキーマ
データ マートとスター スキーマは密接にリンクされています。5 つのスプレッドシートでデータの行と列を想像してみてください。4 つのスプレッドシートは、ファクト テーブルと呼ばれる最大のシートに一致するキー フィールドを介して接続されます。ファクトテーブルが5,000万レコードで、実際にはスプレッドシートに収まらないため、データマートテーブルに保存されているとします。ほとんどのデータ マートには、このスター スキーマの設計に 5 ~ 10 のテーブルがあり、スター アーム上の小さなテーブルはディメンション テーブルと呼ばれます。
データ マートとスノーフレーク スキーマ
ディメンションは重要な情報を持つ小さなテーブルです。ファクト テーブルは、データの大部分 (おそらく数十億レコード) が格納されている場所であり、顧客テーブルに結合して実際の顧客名と住所フィールドを取得できます。バリエーションであるスノーフレーク スキーマには、複数のファクト テーブルがキー フィールドによってリンクされています。各ファクト テーブルには、4 つまたは 5 つのディメンション テーブルしかありません。テーブルとリレーションシップのセットの図は、スノーフレークに似ていますが、データ マートです。
データ マートとデータ ウェアハウスの違いは何ですか。
データ マートとデータ ウェアハウスの違いは、データベース サイズではなくスキーマの複雑さによって分離された、サブジェクト領域と統合に関するものです。そのため、すべてのデータがウェアハウスにあるため、データ ウェアハウスの場合よりもデータ ウェアハウスの方が 100 倍複雑になります。
データウェアハウスには多くの「パズルピース」があり、すべての統合テーブルが主題領域にグループ化されています。データ ウェアハウスは巨大である必要はありません。5 テラバイトのストレージしか使用できません。または、数百テラバイトのレコードを持つ可能性があります。別の方法として、3 つの巨大なテーブルをデータ マートに格納する方法があります。
データマートとロード、データの移動
データ統合のための優れたツールや、データを保持する優れたリレーショナルデータベースが数多くあり、データを分析するための優れたツールも数多くあります。幸いにも、ビジネス インテリジェンス (BI) ツールへのデータの移動は、労力が激しく、また多くのデータ転送も行いません。BI ツールに少量のデータが送信され、レポートやダッシュボードに表示されます。
実際のコストは、データを移動し、他の目的のためにそれを変換することです。データの抽出と変換はコストがかかり、多くの場合、処理が遅くなります。統合のステップは、作業と計算処理の面で非常に厳しいですが、代わりに、ビジネスユーザーに破損、不完全、または不正確なデータを与えます。ビジネス ユーザーにデータ ウェアハウスやデータ マートを放棄させる最も早い方法は、データをダーティで不完全なデータに提供することです。データを信頼できない場合は、スプレッドシートに戻ります。データ ウェアハウスのデータが非常に価値ある理由と、実際のビジネスの状態を真に回避する能力を持つ場合に、組織全体でデータ マートが急増することがリスクを伴う理由を説明します。