DWH(データウェアハウス)は、企業内の複数システムで取り扱う膨大なデータを統合し、時系列ごとに蓄積することが可能なデータベースです。企業戦略において迅速な意思決定を求められるようになった昨今、精度の高い効果的なデータ分析を行うためには、DWHは欠かすことができません。
そこで本記事では、DWHの定義や類似した言葉との比較をはじめ、メリットやデメリットなどについて分かりやすく解説していきます。
目次
DWH(Date warehouse)とは直訳するとデータの倉庫という意味です。複数のシステムから集めた多くのデータを分析しやすいように、「売上」や「顧客」といったサブジェクト(項目)ごとに整理したデータのことです。
企業では多くのデータを取り扱っていますが、業務で使うためのデータベースは社内のあちこちに分散しており、集約や整理がされていません。データを集約しておくことで、各部門が共通した認識を持ち問題解決に向けより良い方法を考えられるようになります。
また、多くのデータを集約しておくことで、のちにBI(ビジネスインテリジェンス)ツールとしての活用も可能になります。
DWHはどのように使われるものなのか、混同されがちな言葉との違いと共に紹介します。
DBは、さまざまなシステム上で蓄積されたままのデータで、書き込みや読み取りなど使用するのに最適化した状態です。
それに対し、DWHはデータを整理した状態で、分析することに最適化しています。データの形式は揃っており、データは時系列で収集してサブジェクトごとに整理してあるので、詳細に分析可能です。
また、DWHはDBよりも大きな容量を扱えます。容量が大きいとDBではサマリデータとして蓄積することになりますが、要約では分析しにくいです。DWHなら目的に応じた整理方法でデータを管理することができます。
データレイクとは、さまざまなソースから集めたビックデータを、元のフォーマットのままで格納する領域です。DWHのように構造化されたデータだけはなく、動画・画像・eメールなど、構造定義がされていない非構造化データも格納できることが特徴です。ただし、未加工のまま保管されているため、分析向きではありません。
DWHではデータレイクに格納されたデータのフォーマットを揃え、分析しやすいようにファイル化するなど、整理された状態で格納して あります。
データマートは、DWHのように整理されたデータ群ですが、サブジェクトごとに細かく切り取られていて用途が制限されています。例えば、「売上データ」「顧客データ」などです。
DWHはサブジェクトごとに整理はされていますが切り取られてはおらず、より大きなデータ群となります。
BIとは、Business Inteligence(ビジネス・インテリジェンス)の略称です。企業の経営戦略のための意思決定に活用することを目的として、各部門や部署に蓄積されたデータを収集・分析・加工することを指しており、BIの実現に不可欠なツールのことをBIツールといいます。
DWHに蓄積されている目的に合わせて整理されたデータを、より分析しやすいようにレポートやグラフのような形式で可視化させる役割があり、組み合わせることで膨大なデータをより分かりやすい形にして活用することができます。
こちらの無料ダウンロード資料では、DWH、BIツールを活用した、継続的に業務に生かすためのデータ分析基盤の作り方をご紹介しています。
DWHを利用すると、次のようなメリットがありますのでご紹介します。
データを分析しやすいようにフォーマットが揃えてあり、時系列やサブジェクトごとに確認できるようになっています。分析しやすいのでデータに基づいた精度の高い意思決定を迅速に行うことが可能です。
緊急性のある問題に対応する際も、経営者の勘や急いで準備した不完全なデータに頼ることがなくなります。
DWHは複数の部門からデータを集約し整理しているので、部門をまたいだデータ活用ができます。
例えば、小売店の接客担当者が顧客の動向を確認するために、顧客情報や商品情報を分析したいというニーズがあるとします。販売管理システムのDBからデータを抽出・加工し分析することは可能ですが、時間がかかります。
DWHでデータが整理されていれば、いつでも分析を開始できます。また、大きなデータを扱えるので、より長期間のデータをもとに分析が可能です。
DWHで取り扱われるデータはETLというプロセスが完了しています。ETLとは、Extract Transform Load(抽出、変換、格納)の略で、データを統合する際に発生するものです。複数のシステムから顧客データを収集する際、重複している顧客データがあることで、本来であれば1人分のデータであるはずが複数人のデータとして取り扱われることがあります。そこで、DWHに収集する過程で、ETLを利用し重複データの統合を行うことにより、整合性がとれた理解しやすいデータを蓄積することができます。
DWHのデメリットは、あらかじめ決められたデータのみを取り扱う点です。そのため定型分析は得意ですが、変則的な分析や頻繁なデータの追加・更新・削除は苦手です。どのようなデータが欲しいのか、目的をはっきりさせたうえでDWHを使い始める必要があります。
また、膨大なデータを取り扱うためのシステム構築・管理・維持のコストも課題です。特にサーバーなども自社で用意するオンプレミスでの運用は、費用がかかります。
よく使われているDWHのシステムをご紹介します。
Googleが提供するBigQueryは、クラウド型のDWHです。サーバレスなのが特徴で、ペタバイト規模の膨大なデータもほぼリアルタイムで分析できます。また、Googleのプラットフォームと統合しているので、Google内にあるさまざまなツールとの連携がしやすいです。
AWS(Amazon Web Service)が提供するAmazon Redshiftも、クラウド型のDWHです。AWSとの連携に優れていて、Amazon AthenaやAmazon EMRなどのAWSの他のサービスを使ってより詳細な分析も可能です。
2012年創業のSnowflake Inc.が提供するクラウド型DWHは、マルチクラウドプラットフォームであり、ストレージとコンピュートノードが分離しているので同時に複数の分析ができます。
DWHはサーバーの形態によって大きく2つに分かれます。
前章でよく使われているシステムを紹介しましたが、現在はクラウド型のDWHが増えてきています。理由としては、コスト面の他に、DWHはデータを蓄積しながら使うので拡張がしやすいためです。また、自然災害などでサーバーが壊れ、データが失われるリスクが低い点も評価されています。
クラウド型DWHの詳細はこちらの記事をご覧下さい。
DWHで取りまとめたデータを活用するには、BIやその他のツールやシステムと連携させることが重要です。しかし重要であることはわかっていても、ツールやシステム同士の連携のための開発が難しいと考える企業も多くあります。
ASTERIA Warpはデータ連携を自動化できるノーコード開発ツールです。ASTERIA Warpでは次のような導入事例があります。
メディア事業やゲーム事業、インターネット広告事業を展開している株式会社サイバーエージェントは、サービスごとに最適なテクノロジーを採用していました。収集したデータの管理や蓄積についても、別のソフトウェアやサービスで行っていました。これらのデータを連携させるため、AWSアダプターやBigQueryアダプターなどを用いてノーコードで売り上げ管理システムを再構築、工期は3日間でした。
サイバーエージェントの詳しい事例についてはこちらからご覧ください。
ベビー・子供服の企画・生産・販売を国内外に向けて行う株式会社F・O・インターナショナルは、より的確な販売戦略の立案のために、全社の事業のデータ集約と分析をすることにしました。現場の業務用システムとは別にデータ利活用のための分析システムを立ち上げ、業務用システムからデータを集約させました。
ASTERIA Warpが選ばれた理由は、アイコンをドラッグ&ドロップするだけでデータ連携フローを追加できるという点です。収集・分析するだけでなく、要求に応じてデータをDWHからエクセル形式に出力するシステムも開発し、意思決定の精度の向上に役立てています。
株式会社F・O・インターナショナルの詳しい事例についてはこちらからご覧ください。
DWHとは企業のあちこちに分散しているデータを集約し、分析しやすい形で整理しておくシステムです。企業の意思決定がよりスピーディになる上、データに基づいているため精度も上がります。
また、全社的に集約することで部門による認識の差が起こりにくく、フォーマットを揃えることで内容が確認しやすいのもメリットです。データが多く集まればBIツールなどでも活用できます。
BIツールの活用については、こちらのページを確認してください。
DWHには自社でサーバーを運用するオンプレミス型とクラウド型がありますが、膨大なデータを扱うため拡張しやすく自然災害への対応も可能なクラウド型が主流になりつつあります。
ASTERIA WarpではさまざまなシステムをDWHと連携させるシステムをノーコードで開発することが可能です。ドラッグ&ドロップでデータ連携を追加できるノーコード開発なので、工期も短く内製化できます。内製化しているためツールの追加や変更にも柔軟に対応で、将来的な機能拡張にも使いやすいです。ASTERIA WarpとDWHを使ったデータ活用については、こちらの資料もおすすめです。
PM・SE・マーケティングなど多彩なバックグラウンドを持つ「データ連携」のプロフェッショナルが、専門領域を超えたチームワークで「データ活用」や「業務の自動化・効率化」をテーマにノウハウやWarp活用法などのお役立ち情報を発信していきます。
ASTERIA Warp製品の技術情報やTips、また情報交換の場として「ADNフォーラム」をご用意しています。
アステリア製品デベロッパー同士をつなげ、技術情報の共有やちょっとしたの疑問解決の場とすることを目的としたコミュニティです。