現代では日々データが急激に増大しており、大規模なデータ(ビッグデータ)を扱う機会が多くなりました。それと同時に、データマネジメントの重要性が注目されつつあります。
データマネジメントは、社内のデータを誰でも円滑に活用できる環境を管理・維持することを指します。今後のビジネス活動において、社内に散在しているデータを集めてマネジメントしていくことが不可欠でしょう。
しかし、社内に散在するデータをデータウェアハウス(DWH)上に統合し、ビッグデータを分析可能な状態にすることは、データマネジメントの第一歩にすぎません。扱うデータの量が増えるほど、高度なデータマネジメントが求められます。
そこで必要となるのが、膨大なデータを格納する「データレイク」です。
本記事では、データレイクの概要やメリット、また良く混同されるDWHとの違いを解説します。
データレイクの基礎知識をわかりやすく解説

データレイクとは、さまざまなデータソースからのビッグデータを加工せず、元の多様な形式のまま保管するシステムのことです。
日々増えていくデータを湖に住む魚に例えると、データレイクの定義を理解しやすいかもしれません。いつかその魚を目的に応じて活用できるよう、そのままの姿で泳がせておく巨大な湖(データの貯水湖)がデータレイクです。
収集した生のデータには、
【構造化データ】
- XMLファイル
- CSVファイル
【非構造化データ】
- 文書データ
- 電子メール
- 画像ファイル
- 動画ファイル
など、さまざまな形式のデータが混在しています。
一般的に形式が統一されていない生データは、分析をするにあたって加工や変換を要する不便なデータといえます。しかし、あえてそれらのデータを加工することなく格納しておくことで、将来必要になった時に利用者のニーズに合わせて活用できるメリットがあるのです。
データレイクの仕組みと目的

データレイクは、スキーマオンリード(Schema On Read)と呼ばれる原則に基づいた仕組みを採用しています。
スキーマオンリードとは、データを格納する際に、そのデータに事前定義されたスキーマがないことを指します。実際にクエリを実行し、データを読み込むときにのみ解析が実行され、定義と適合するかどうか判断します。
一般にデータベースを使用する際にはスキーマといった、データの構造やほかのデータとの関連、データベースを操作するときのルールを定義する必要があります。
しかし、スキーマオンリードの仕組みの利用により、スキーマの定義にかかる多くの時間を削減できます。また構造化/非構造化を問わずあらゆる形式のデータの格納も可能です。
したがってデータレイクは、利用目的の定義がされていない、生データを保管しておく目的で使われるケースが多いです。機械学習と組み合わせることで、新たなインサイトを得てビジネスや経営の活動にも活かせます。
データレイクとデータマート、データウェアハウスとの違い

本章では、混同されやすいデータレイクとデータマート、データウェアハウスの3つの違いを表を用いて説明します。
データレイク | データマート | データウェアハウス | |
目的 | 一次データ(生データ)を保管すること | 特定のデータの分析に使うこと | データ活用のベースにすること |
ターゲットユーザー | 組織全体(データエンジニア、データアーキテクトなど) | 特定のコミュニティや部門 | 組織全体(データサイエンティスト、ビジネスアナリストなど) |
データ量 | 無制限 | 小規模 | 大規模 |
データの保管方法 | データを取得した順に格納 | 決まっていない | データを行ごとに時系列順に整理 |
データマートとの違い
データレイクはあくまでデータを保管しておく場所であるため、一次データをあらゆる形式のまま保管しておくことが目的です。
ターゲットは、データエンジニアやデータアーキテクト、データサイエンティストなどを含む組織全体です。
またデータレイクでは一次データを保管するため取得した順に格納されます。
一方データマートは、特定のデータを分析するために使われ、ターゲットを特定の組織や部門に絞っています。
ターゲットが限定されているため、データ量が小規模である点もデータレイクとの違いのひとつです。ユーザーが自由に変更や加工をできるため、データの保管方法が定まっていない点が特徴です。
データウェアハウスとの違い
データレイクとデータウェアハウスの一番の違いは、それらを使う目的にあるでしょう。
データレイクでは利用目的が定義されていないデータを格納します。ターゲットは、データエンジニアやデータアーキテクトを含む組織全体です。
データウェアハウスでは活用目的に必要なデータのみを保管し、その目的に応じて加工します。ターゲットは、組織の中でもビジネスアナリストやデータサイエンティスト、データデベロッパーに絞られます。
さらにデータを取得した順に保管するデータレイクに対し、データウェアハウスでは分析しやすいよう時系列順に保管する点が大きな違いのひとつです。
データレイクのメリット・魅力

データレイクのメリットや、どのような点が魅力的なのかを紹介します。
- 収集したデータをそのまま格納できる
- 一元管理でコスト削減につながる
- データ連携に対する柔軟性が高い
収集したデータをそのまま格納できる
データレイクの一番のメリットは、収集したデータをそのまま格納できる点です。
収集したデータを加工する必要がないため、多種多様な形式や構造のデータを格納できます。
収集したデータをそのまま保存できることで、後から必要になったデータがあった場合にも簡単に取得・利用ができます。
価値あるデータの見落としを減らすことができ、再度データを見直すことで新たなインサイトを得られた、ということもあるでしょう。
また、データを取得した際のありのままの形で保管しておくことで、部門間でのデータの形式の違いに影響されることなく、社内での横断的な共有が可能になります。
一元管理でコスト削減につながる
データレイクではデータの形式にとらわれず、大量のデータを一元管理することが可能です。たとえば、オンプレミスのデータソースとクラウドのデータソースをまとめて湖のように貯蔵できます。したがって、それらを個別に管理するよりも大幅にコストを削減することができます。
データウェアハウスやデータマートでは、これほど膨大な量のデータを一元管理するのは不可能です。データの保管場所が散在していないため、データの管理や参照をする際に手間がかからないのも一元管理のメリットです。
データ連携に対する柔軟性が高い
データレイクのデータマートやデータウェアハウスと違う点として、生データを保管する点が挙げられます。
生データを保管しておくことで、同じデータでもさまざまな観点から分析を行うことができます。分析の視点が多様であるため、その分BIツールやそのほかのツールとの連携の柔軟性が高いのです。
連携の柔軟性が高ければ、データの活用の方向性もより選択肢が広がっていきます。
意外と知らないデータレイクの罠と対処法

データレイクには、魅力的な点だけでなく思わぬ落とし穴も潜んでいます。たとえば以下の2つです。
- データスワンプに陥る→データガバナンスを活用
- 分析に労力がかかる→ツールの導入で効率化
それぞれくわしく解説します。
データスワンプに陥る→データガバナンスを活用
データレイクを利用しているユーザーは、データスワンプ(データの沼)と呼ばれる状態に陥るケースがあります。
そもそもデータレイクは、構造や形式を気にせず取得したデータを次々に格納する仕組みです。データの保管期間が長いほど、誰がどのような目的で保管したデータなのかわからなくなる課題があります。この状態をデータスワンプといいます。
結果的にそれらのデータは、データスワンプの名のとおり底なし沼のように大量のデータの中に埋もれてしまいます。データを放置しカオス化が進むと、「膨大なデータをどう活用すればいいのか?」「どこから手をつければいいのか?」と、まったく活用できないデータとなってしまいます。
そのようなデータスワンプの対処法が、データガバナンスです。
データガバナンスとは、「組織内のデータを有意義に活用できるように統制すること」を指します。データレイクには、形式の異なるデータが混在していますが、データガバナンスに沿って記録されるデータは、あらかじめ定義されたルールに則って保管されます。
保管されるデータは整合性が保たれた状態となり、データ活用時にユーザーが望んでいる結果を導きやすくなるのです。
分析に労力がかかる→ツールの導入で効率化
データレイクには生データを保管しておく役割があるため、利用目的の定義されていない大量のデータであふれかえってしまう状況に陥りがちです。
PDFや画像、動画が混在しているケースもあります。これらのデータは数値情報ではないため、Excelなどを用いて計算処理に進むことは不可能です。
必要となるデータの中に重複したデータが含まれていたり、データガバナンスが活用されていなかったりすると、余計な労力を要してしまうでしょう。
そこで対処法となるのが、データの整理や変換の効率化を促すツールの導入です。たとえば、データカタログを備えたツールの導入がデータレイクには効果的です。
データカタログ機能では、データを蓄積し更新する際に、カタログ(タイトル、概要、出所、鮮度、ファイル形式など)を付与し管理できます。
利用者は、カタログを参照することで、必要な生データをデータレイクから即座に見つけられます。これにより、それらのデータを分析して今後の戦略や施策の効果を測定するといった真に価値ある作業へリソースを集中することが可能となります。
またデータ分析の効率化には、データクレンジングに役立つツールを導入することも効果的です。
データクレンジングは、データレイクに格納されているさまざまな形式のデータを分析可能な形まで修正することを指します。データクレンジングツールの導入によって、おもに「データ品質・精度の向上」や「業務の効率化」などの効果が期待できます。
データレイクの効率化・構築に役立つおすすめのツール・製品3選

本章では、データレイクの構築を始めたい方やデータレイクの活用をより効率的に行いたいと考えている方に向けて、3つのおすすめのツールをご紹介します。
- trocco®
- Azure Data Lake Storage
- Amazon S3
trocco®
弊社が提供する「データ分析基盤構築サービスtrocco®」は、データのETLがメインの機能を持ちます。
データクレンジングを手助けする「データチェック機能」も備わっており、エラーデータなどの検出や件数、差分の検証が可能です。データレイクからデータを取り出す際に、必須となるデータクレンジングの手助けになります。
またデータカタログ機能も備えています。「どこに何のデータがあるかわからない」「このデータはどういう情報が入っているのだろう」などの課題を解決できます。
誰もが手軽に使えるデータ分析基盤であるため、データレイクの活用に慣れていないユーザーでもデータの民主化を素早く実現できます。
Azure Data Lake Storage
Microsoft Azure(クラウド)から提供される「Azure Data Lake Storage」は、PaaSのデータレイクサービスです。
さまざまなサイズや形式のデータを簡単に格納できる点や、複数のプラットフォームと言語で、あらゆる種類の処理と分析を容易に実行できる点が特徴です。
Azure Data Lake Storageには、大きく3つの機能が備わっています。
- Azure Data Lake Store:データを格納する領域
- Azure Data Lake Analytics:格納したデータを分析する
- Azure HDInsight:データを管理する
これらの機能により、ビッグデータやさまざまな種類のデータでも容易に格納でき、処理・分析を簡単に実行できるようになります。
Amazon S3
Amazon S3(Amazon Simple Storage Service)とは、AWSのサービスに含まれる機能のひとつで、オブジェクトストレージサービスの一種です。
データ容量を気にすることなく保存することができる点や、オブジェクトのファイル単位での出し入れが可能なため、自由で柔軟なデータ保存が実行できる点が特徴です。
データレイクとしては、ビッグデータ分析、人工知能 (AI)、機械学習 (ML)、ハイパフォーマンスコンピューティング (HPC) などのアプリケーションを実行して、データから得られるインサイトを引き出すことができる強みがあります。
データレイクの構築以外にも、
- 重要なデータのバックアップを取りたい方
- データアーカイブを移行したい方
- クラウドネイティブアプリケーションを実行したい方
におすすめです。
まとめ

本記事では、データレイクのメリットやおすすめのツール、陥りやすい罠を解説しました。
ビッグデータを扱う機会が多くなった現代では、データレイクやデータマート、データウェアハウスの有効的な活用がビジネスの成功のキーとなります。うまく活用できるほど、ビジネス活動でよい恩恵を受けられるでしょう。
ただしデータレイクが単なるデータスワンプとならないよう、対策が必要です。データカタログ機能などを効果的に活用し、ぜひデータ分析に役立ててみてはいかがでしょうか。
弊社が提供するtrocco®は、「データカタログ機能」や「データチェック機能」にくわえ、「データリネージ機能」も備えています。
データリネージ機能は、データレイクを使用していくうえで求められる
- いつ、どこで、どのように取得されたデータなのか
- どのようなETLを経たデータなのか
- どのような分析にかけられるデータなのか
などの情報を明確にし、データパイプラインを適切に管理するのに役立ちます。
trocco®では、クレジットカード不要のフリープランをご案内しています。
データレイクのさらなる効率化を考えている方は、ぜひこの機会にお試しください。
