目次
データレイクの必要性や特徴を解説する前に、まずはデータレイクがどういったものかという基本から解説していきましょう。データレイクとは、直訳すれば「情報の湖」です。その名の通り、湖に貯まる水のようにデータを一元管理するリポジトリ(貯蔵庫)のことを指し、形式を問わずさまざまなデータを管理できます。これを活用することで膨大なデータを必要とする分析分野にてさまざまな利点を発揮します。
データには非構造化データと構造化データの2種が存在しています。それぞれ下記のような違いがあります。
特徴 | 非構造化データ | 構造化データ |
---|---|---|
概要 | 構造定義されていないデータの事。データベース化が行えず、データ単体で意味を持つ。 | 列や行の概念を持つ、構造定義が存在する構造化されたデータの事。集計や比較が容易でデータの分析に適している。 |
形式 | 動画 画像 音声 eメール 企画書や提案書 見積書や発注書等 | Excel CSV 固定長等 |
データレイクと共に名前が挙がることがある「データウェアハウス」。データレイクとの違いは構造化データしか保管していないといった点にあります。データレイクは非構造化データ・構造化データ関係なく保管していて、データウェアハウスは構造化データのみであり、関係としてはデータレイクから構造化データを取り出して整理し、管理している倉庫がデータウェアハウスです。
データウェアハウスについてはこちらの記事で詳しく紹介しています。
同じくデータレイクと一緒に名前が挙がるリポジトリとして「データマート」というものも存在します。こちらも構造化データのみを取り扱いますが、数TBまで保管できるデータウェアハウスに対し100GBまでしか取り扱えないため、より細分化されていると言えます。
データマートについてはこちらの記事で詳しく紹介しています。
データレイクはなぜ必要なのか?活用をすることでのメリットをここからは紹介していきます。
データレイクの最大の利点はデータの管理を一元化できる点にあります。そのため管理のために別の保管場所を参照する必要がなく、データレイク内で完結することができます。これによりデータ管理・参照の際の手間を簡素化することができます。とはいえデータ整理を怠っていると、膨大なデータが雑多に突っ込まれている状態であるため、管理が難しくなります。そのため、データレイクの利点を活かすのであれば、データ整理は必須と言えるでしょう。
大雑把に言うと、データレイクは様々な形式の電子データ全てを突っ込んで一元管理できるシステムです。ごちゃごちゃとした大量のデータをデータレイクという一箇所に詰め込むということは、それだけでデータを個別管理するよりも圧倒的に低コストになります。様々なシステムやクラウドに分かれて情報を管理していた場合は、それぞれのデータやシステムの管理にかかるコストなども削減することができるため、インフラコストの削減につながります。
一元管理によって同じデータレイク内でデータを取り扱うため、高速なデータ処理を行うことも可能です。例えばデータウェアハウスなどにデータを格納する際には成形処理を行う必要があります。しかしデータレイクは非構造化・構造化を問わずにデータを格納できるため成形処理が不要です。
データを一元管理することは、セキュリティの向上にもつながります。宝石が1つ1つ入った箱を10個や100個に分けて管理するより、全部の宝石が並べられたショーケース1つを管理する方が把握しやすく、守りやすいということです。データレイク自体のセキュリティを守るシステムに検討・比較が必要ではありますが、それぞれのシステムに対してのセキュリティ管理を細かに検討する必要はなくなります。
データレイクと他のリポジトリの異なる点として、成形処理を行わないため生データ、いわゆる「rawデータ」というものが蓄積されていきます。このrawデータを元にデータ分析を行うことができるほか、このrawデータが確実に残るような環境を構築することによって、同じデータを違う視点から分析することも可能になります。このようにrawデータを活用してその他BIツールや様々なツールと連携し分析を行えるのもデータレイクの一つの利点です。
管理の容易さやデータの処理を高速化はもちろんですが、部署間の連携が容易になるのもデータレイクの一つの利点です。同じデータを扱うため、再度データの収集を行う必要などはなくなり、部署間でも新鮮なデータの利活用を行うことができます。リアルタイムなデータ取得が可能なデータレイクは目に見えて業務のスピードを向上でき、意思決定に必要なデータを迅速に用意できます。
データレイクを導入・利用する際の注意点やポイントについても解説していきます。データレイクを導入する上で意識するべき注意点は以下の3つになります。
それぞれ解説していきましょう。
データレイクのメリットである非構造化・構造化データを問わずに保管できる点は同時にデメリットにもなり得ます。非構造化・構造化データを問わずになんでもデータを集積してしまうため、保管期間に比例して「誰が何のために入れたデータかわからないもの」が増えていきます。そのため、無計画に利用していると時間に比例して内部が混沌としていき業務効率の低下にもつながるため、運用する前にきちんと運用プランやルールとなるデータアーキテクチャを考える必要があります。あらゆるデータを保管できるからといってなんでもかんでも保管するのではなく、データアーキテクチャやデータガバナンスなどの基準とルールをしっかりと定めて取捨選択することが大事です。データレイクの運用においては、専門の役職としてデータスチュワードというものを用意する企業も存在しています。
データレイクを滞りなく運用するためには、データアーキテクチャだけでは不十分です。データアーキテクチャはあくまでも「どのようなデータを保管し運用するか」というプラン、ルールでしかありません。そのため、より厳密にデータの管理・運用を統制するためのデータガバナンス(データ管理の統治・運用ポリシー)を準備する必要があります。
データレイクはただ導入をするだけでなくその中のデータの整理をしたうえで、様々な他ツールと連携を行うと、その他業務の効率化に圧倒的に影響があります。データレイクと共に現在社内で活用しているシステムと連携を行うことができるデータ連携ツールも検討してみるのがおすすめです。今回はそんなデータ連携ツール「ASTERIA Warp」を導入してデータを活用した事例をご紹介しましょう。
オルビス株式会社様は、AWS上のS3/RedShiftに連携しデータレイクを構築し卸先管理業務・売上情報の商品登録業務効率化に繋げています。
元々はDBに登録されている中から必要な情報をSASで参照し、分析していましたが、今回のデータレイクの構築により商品の売上情報を直接登録しその場で分析することができるようになりました。
様々な企業から様々な形式で商品情報が提供されたとしても、連携先が豊富なASTERIA Warpを活用することによって、データレイクに貯められるようなデータとし、一括管理をすることができています。
それまで手作業で時間をかけて行われていた作業を自動化した結果、月10時間もの時間を削減でき、基幹システムの改修も本来予定していた開発工数から4割削減、開発期間も半分に短縮できたというように、大幅な効率化を実現しています。
事例の詳細はこちらからご覧ください。
以上、データレイクについて利点や注意点を解説していきました。
同じ企業内でも部署によって散らばりがちなデータを一元管理できるデータレイク。活用することによって部署を問わず効率的なデータ利用が可能になりますが、その反面無差別にデータを保管してしまうことによるカオス化という注意点も存在しています。
正しくデータレイクを導入し活用していくためにも、その他社内ツールとの連携を考えながら導入を決めると良いでしょう。
PM・SE・マーケティングなど多彩なバックグラウンドを持つ「データ連携」のプロフェッショナルが、専門領域を超えたチームワークで「データ活用」や「業務の自動化・効率化」をテーマにノウハウやWarp活用法などのお役立ち情報を発信していきます。
ASTERIA Warp製品の技術情報やTips、また情報交換の場として「ADNフォーラム」をご用意しています。
アステリア製品デベロッパー同士をつなげ、技術情報の共有やちょっとしたの疑問解決の場とすることを目的としたコミュニティです。