企業と消費者はこれまで以上に多くのデータを生成しています。デジタルデバイスと製品の急増は、デジタルユニバースの指数関数的拡大を推進しています。概念的には資産ですが、このデータの規模には課題があります。企業は実際に情報を整理して、実用的な洞察を明らかにするにはどうすればよいでしょうか。
データマイニングとビジネスインテリジェンスはそのような洞察の貴重な抽出と提示を提供しますが、データウェアハウス(DWH)は、多くの場合複数の場所に存在する膨大な基礎となるデータの準備的な集約と再編成です。データサイエンス、データマイニング、ビジネスインテリジェンスのより広範なエコシステムにおけるDWHの役割を理解することは、現代のマネージャーにとって不可欠です。
DWHは、デジタル情報の一元化されたリポジトリであり、さまざまな異なるソースから集約され、レポート用に最適化された構造に編成されています。最も重要なことは、DWHが企業全体に実用的な情報を提供し、従業員がカスタマイズされた分析を実行し、より適切な意思決定を行えるようにすることです。
リレーショナルモデルと次元モデル
データウェアハウスの機能を理解するには、リレーショナルモデルとディメンションモデルの違いを理解することが重要です。技術的に聞こえますが、それらは簡単に区別できます。
実用的な観点から、リレーショナルデータベースとディメンションデータベースは、情報の流れという1つの重要な基準が異なります。リレーショナルデータベースはデータ入力用に最適化されていますが、ディメンションデータベースは、特に次のようなレポートと分析の形式で出力用に構築されています。 ビジネス・インテリジェンス 。
リレーショナルモデルは、顧客名などの単一の情報ポイントを中心に情報を編成します。このようなモデルでは、顧客名は1つの場所に存在し、連絡先の詳細や取引日などの関連情報はすべて、関連するテーブルまたは関連するテーブルにリストされます。
対照的に、ディメンションデータベースは基本的にリレーショナルデータベースを「アンパック」し、ユーザーがレポートのニーズを満たすために必要な順列でデータを簡単に「スライスアンドダイス」できるようにします。たとえば、上記のリレーショナルデータベースエントリでは、顧客の連絡先の詳細は、電話番号、住所、都市、州、郵便番号などの個別のフィールドに分割されます。
ディメンションデータベースは基本的にリレーショナルデータベースを「アンパック」し、ユーザーがデータを簡単に「スライスアンドダイス」できるようにします
リレーショナルデータベースとディメンションデータベースの違いは抽象的に見えるかもしれません。ただし、ますます複雑になる分析とレポートの提供を担当する人にとって、その違いを理解することは、これらのリソースを維持する技術チームと協力するための貴重な基礎的理解を提供します。
データウェアハウスの作成者の1人であるBillInmonが詳しく説明しているように、データウェアハウスの設計にはいくつかの特定の特性があります。 Inmonによると、データウェアハウスは、経営陣の決定をサポートする、サブジェクト指向の不揮発性の統合された時変データのコレクションです。
これは一口ですが、部分に分解すると、この定義はDWHの基本構造を明確に示します。これらの基準を覚えやすくするために、アナグラム「It’sOn」に従ってInmonの基準を再編成しました。
統合: データは一貫した形式である必要があります。多くの場合、さまざまなソースから取得されるため、データフィールドには一貫した命名規則が必要です。
時変: DWHは、時間の経過に伴う変化に依存する傾向を明らかにします。時間の経過とともにデータポイントを記録することは、データ間の関係を明らかにするための基本です。
主題指向: DWHは、主題に焦点を合わせた分析とレポートを可能にします。たとえば、企業は、製品の売上を経時的に評価してから、地域または顧客セグメント固有の傾向にドリルダウンしたい場合があります。
不揮発性: データがウェアハウスに入ると、変更されません。
DWHとトランザクションデータベースシステムは、基本的に異なる機能を実行し、異なるユーザーにサービスを提供します。 DWHはレポートと分析用に最適化されていますが、トランザクションシステム(オンライントランザクション処理(OLTP)と呼ばれることもあります)は、可用性と処理速度が最適化されています。
OLTPユーザーは通常、フロントエンドの従業員であり、通常、一度に複数のレコードにアクセスします。 DWHユーザーは多くの場合、アナリストおよびマネージャーであり、そのレポートは同時に最大数百万のレコードを呼び出す可能性があります。
トランザクションシステムとDWHも、データの粒度と永続性が異なります。 OLTPでは、データには現在の値が含まれています。これらの値は詳細で非常に変動します(数秒ごとに、何千ものトランザクションがこれらのレコードの値を変更します)。対照的に、DWHには、一度ロードすると変更できない再構築されたデータが含まれています。
消費者ローンのプロセスは、これらのシステム間の主な違いを簡潔に示しています。たとえば、顧客が自動車ローンを確保すると、トランザクションデータベースは、自動車の種類、色、購入年、購入価格、購入者の個人情報などの詳細を取得します。 DWHモデルに変換されると、トランザクション情報(単一の顧客トランザクションに関する)はコンポーネントパーツに分解されます。これらのパーツは、他のトランザクションの同等のパーツとプールされます。
DWHにクエリを実行すると、貸し手の従業員は、集約された顧客データで構成されるレポートにアクセスする可能性があります。たとえば、広告費を最適化しようとすると、マーケティングマネージャーは、ローン承認率が最も高い特定のタイプまたは価格帯の車、または長期にわたるローン申請者の平均年齢と収入レベルを探す場合があります。このような情報は、よりターゲットを絞ったメッセージングを使用して、より関連性の高いチャネルに広告費をリダイレクトする可能性があります。
データウェアハウスとデータマートおよびデータレイク
DWHには、関連するデータベース(データマートとデータレイク)が付属している場合があります。これらのデータベースの説明的な名前は、異なる機能を示しています。 DWHのサブセットであるデータマートは、特定のユーザーグループ、たとえば部門や特定のビジネスユニットにサービスを提供します。 DWHは、販売、顧客、製品、在庫、サプライヤなど、複数の部門に関連する複数のサブジェクトを保持しますが、データマートは通常、販売や財務など、1つの部門に対して1つのサブジェクト領域を保持します。
データマートには、依存型と独立型の2種類があり、それぞれに固有の利点があります。依存データマートはDWHから取得し、一貫性があるという利点があります。すべてのデータが一元化され、DWH内で一貫性があるため、結果のデータマートも一貫性があります。より堅牢ですが、依存データマートにはDWHが必要であるため、開発にコストがかかります。
一方、独立したデータマートは、ミニDWHのように、同じソースデータベースから直接データを取得します。独立して開発されたデータマート間でデータ定義の一貫性が失われる可能性があるため、独立したデータマートの開発はより迅速で低コストですが、リスクが高まります。ただし、規律を持って開発された場合、独立したデータマートは最終的にDWHに組み立てることができます。
データレイクは通常、安価でスケーラブルなコモディティハードウェアのクラスター上に構成されます。これにより、ストレージ容量を気にすることなく、データを湖にダンプできます。 DWHは通常、テキストと数値データに限定されていますが、湖にはソーシャルメディア、センサーデータ、画像など、さまざまな種類があります。
DWHはデータマイニングを可能にし、企業に未来を予測する力を与えます。データマイニングの主な目的は、大規模なデータセットのパターンを明らかにすることです。このようなパターンは、データのさまざまなカテゴリとその基盤となるビジネス機能との関係を明らかにします。
このような関係は、マネージャーに実用的な情報、本質的には顧客の成長や顧客あたりの売上の増加などの望ましいビジネス成果を推進するための新しい手段を提供します。たとえば、地理的または業界セグメントごとに過去の販売データを確認すると、異常な成長が浮き彫りになる可能性があります。その原因により、販売マネージャーは他のセグメントに適用するための学習を行うことができます。