データファブリックとは何か?
データファブリックとは、クラウドとオンプレミスのデータエンドポイント間の結合として機能する、統一されたデータ統合および管理レイヤーのことです。データファブリックの目的は、すべてのデータを統合し、一貫した分散アクセスと、探索、統合、オーケストレーション、ガバナンスの各機能をユーザーに提供することで、データサイロを排除することです。
データファブリックは、分析エコシステムが分散している現在、特に重要です。これは、クラウド化の波が大きく影響しています。企業は、データウェアハウスを利用したビジネスインテリジェンス・プラットフォームやHadoopベースのデータレイクなど、さまざまな場所にデータを分散させています。データファブリックは、これらすべてを貫く糸として機能し、データソースとデータ活用するユーザーを一貫性、信頼性、柔軟性のあるクエリで接続します。
データファブリックは高度に自動化されて、バルク/バッチやデータ仮想化アプローチなど、既存のデータ統合や配信スタイルをつなぎ合わせます。これらはオーケストレーション、つまり自動的に構成、管理、調整します。データファブリックの概念を提唱したガートナーは、最新のデータファブリックには、次のような最新のテクノロジーやプラクティスも取り入れる必要があるとしています:
- メタデータの活用や能動的な管理を目的とした、組み込み型の人工知能(AI)やマシンラーニング(ML)
- 新しいノードを容易に実現し、自然言語処理などのユースケースをサポートするセマンティックナレッジグラフ
- 自動化されたテスト、モニタリング、統計的プロセス制御などを実行し、分析サイクルを短縮するアジャイル的な手法であるDataOps
完全なデータファブリックを構築できるオールインワンのデータファブリックソフトウェアは存在しません。その代わりに、各企業は、構築したインフラや購入したインフラを組み合わせて、特定のニーズを満たすデータファブリックを作成する必要があります。
データファブリックに必要な5つの機能
データファブリックを構築するために、企業は以下の機能を持つ必要があります:
1. どこからでも一貫したクエリーが可能
データファブリックは、データサイエンティストのようなエンドユーザーがどこからでもクエリーを実行できるように、相互接続する異種システムの根本的な複雑さを極限まで抽象化する必要があります。このようないつでもどこでも利用できる利便性が、データファブリックの基本的な利点です。ユーザーはHadoopデータレイクから始めるかもしれないし、データウェアハウスから始めるかもしれない。しかし、どのような状況であっても、双方向のデータアクセスと並行して動作する高品質のコネクタを使用して、必要なクエリを完了できるようにする機能がなければなりません。
2. 継続的なデータの発見、統合、カタログ化
データファブリックアーキテクチャの自動化により、あらゆるソースからデータを積極的に検索し、それらのソースを統合して、重要な関係を明らかにするナレッジグラフにする必要があります。データカタログもデータファブリックの重要なコンポーネントです。データカタログは、データレイク、データウェアハウス、その他のデザインパターンのいずれに存在する場合でも、ユーザーが探しているものを取得するのに役立つメタデータと検索ツールを組み合わせたものだからです。
3. 民主化されたセルフサービス
クラウドインフラストラクチャと同様に、データファブリックアーキテクチャは、安全なセルフサービスインタフェースを通じて、ユーザーのアクセスを合理化しなければなりません。Forrester社は、企業におけるデータファブリックの利用に関する最近のレポートの中で、このセルフサービスを実現する2つの重要な要素を指摘しています。
- 探索、分類から取り込みと変換に至るまで、上記の機能を自動化するAI/ML
- 非常に複雑なデータファブリックアーキテクチャでも簡単に導入できるゼロコードとローコードの導入オプション
セルフサービス機能は、ビジネスユーザーがデータ準備のワークフローをコントロールできるようにするものです。サンドボックス環境で、あらゆるソースからデータにアクセスし、好みのツールを使ってデータを操作し、場合によっては本番環境に送信することも可能でなければなりません。
4. メタデータのパッシブからアクティブへの変換
ガートナーは、この機能をデータファブリックのコンセプトの基礎となるものとして強調しています。
パッシブなメタデータは静的なものです。通常、設計時に作成され、データスキーマやビジネス定義のような項目の文書として維持されます。アクティブなメタデータは動的であり、アクセス頻度やデータ品質などのパラメータについて変化するインサイトを提供します。
データファブリック内では、AIやMLがメタデータを継続的に分析し、ユーザーが理解しやすいグラフモデルを構築することで、パッシブメタデータをアクティブメタデータに変換します。そして、AIとMLのアルゴリズムは、この分析結果を利用して、企業のエコシステム全体でデータを自動的に管理する方法を最適化します。このように、アクティブ・メタデータは、データを準備し探索する際の手作業の必要性を低減するのに役立ちます。
5. 拡張性と柔軟性
ファブリック(生地)と同様に、データファブリックも変化に対応できる柔軟性を持つべきであり、決してデータアクセスの障害になるものであってはなりません。この目標を達成するための重要な機能には、以下のようなものがあります:
- 並列およびクラスタを意識したデータ転送
- データフォーマットの自動変換とタイプ管理
- プラットフォーム固有の機能/プラットフォームネイティブの機能を活用する能力
- プラットフォームを超えて展開するポリシーベースのセキュリティ
- ローカルおよびリモートシステムのロギングとモニタリング
- ワークロードのパフォーマンスを最適化するプッシュダウン処理
データファブリックの最大のメリットは何か?
データファブリックの主なメリットは、データへの一貫した分散アクセスにより、使い勝手が向上することです。これは、3つのサブメリットに分けることができます:
1. 品質を落とすことなく、データ配信を高速化
データファブリック技術は、データ探索やデータ取り込みから配信・活用までの時間を短縮します。さらに、エンタープライズデータを統合・管理するためのアクティブメタデータを使用するAIやMLアルゴリズムによって、データ品質を継続的に向上させます。
2. セルフサービスによる活用とコラボレーション
データファブリック・ソリューションを使用すれば、ビジネスユーザーも技術ユーザーも、求めているものを迅速かつ一貫して見つけることができます。これは、企業がデータソースやサイロの数を増やし、ビッグデータのユースケースに対処している現在、非常に重要なことです。データファブリックは、それらをすべて、簡単にアクセスできるように結合します。
3. 自動化された統合、管理、データガバナンス
データファブリックアーキテクチャは高度に自動化されているため、データソースの統合やデータの品質分析など、かつては手作業で大きな労力を必要とした作業を実行することができます。自動化によって時間が短縮され、エラーやコンプライアンス問題のリスクも軽減されます。
データファブリックの可能性を取り込む
高速並列データファブリックシステムであるTeradata QueryGridは、企業がデータに求める拡張性、柔軟性、統合性、包括的な管理、徹底したガバナンスを提供します。ユーザーは、マルチクラウド、ハイブリッドクラウド、またはオンプレミス環境において、選択したツールを使用してデータにアクセスし、作業することができます。
データファブリックを構築する方法、QueryGridがTeradata VantageおよびStarburst Enterprise Prestoと連携してアナリティクス環境を近代化し、インサイト獲得を加速させる方法について、ぜひテラデータにお問い合わせください。
Watch our data fabric webinar