はじめに
近年、データ分析の世界でDWH(データウェアハウス)という言葉が盛んに聞かれるようになりました。
この記事ではそのDWHについて
- DWHはデータレイク、データベースと何が違うのか
- データ分析におけるDWHの役割
- DWHの導入方法
以上の3点にフォーカスして解説していきます。
DWHとは
DWHは一言でいえば
- 収集したデータを分析する目的で
- 時系列形式で保管した
- 大容量かつ高速処理が可能なデータベース
と定義出来ます。
つまりDWHとは目的や形式が決まったデータベースの一種であり、格納されるデータは形式や時系列の並びが既に整えられたデータになります。
一方データレイク(データの湖)は
- 収集したデータをそのまま保管する目的で
- データを取得順に保管した
- 大容量かつ高速処理が可能なデータベース
を指します。
このようにデータレイクもデータベースの一種ですが、DWHとはその目的が異なります。データの並び替えや不要なデータの削除といった作業を行う前の生のデータを保管することが目的なので格納されるデータのイメージもDWHとは違ってきます。

データ分析におけるDWHの役割
身近な例として、Microsoft ExcelやGoogle Spreadsheetsなどの表計算ソフトを用いれば表データから基本的なグラフを描くことが可能です。このようなグラフの作成もデータ分析のひとつですが、これらのソフトだけでいわゆる”ビッグデータ”と呼ばれるような膨大なデータをスピーディーに分析するのは困難です。
そこでデータ分析の各工程に特化したシステムを複数組み合わせてデータ分析基盤を構築するのが一般的です。DWHもそのシステムのひとつで、整備されていないデータの中(=データレイク)から必要なデータを抽出し、分析ができる形式に加工・整形して格納しておくためのシステムです。
ただしデータの量がそれほど膨大ではなかったり、データを集める段階で適切な形式に加工できるケースではデータレイクを経由せず直接DWHへデータの統合を行うこともあります。

DWHの実装
このようにデータ分析において不可欠なDWHですが、実際に導入するにはどのような手段が考えられるでしょうか。
DWHはあくまでデータベースの一種なので、自前でデータベース用のサーバーを用意して管理する、いわゆるオンプレミスでの導入が可能です。
しかしサーバーの管理コストや設計の難しさ、初期コストの高さなどから近年はクラウド上にDWHを構築するSaaS型のDWHが一般的になりつつあります。
主なSaaS型のDWHサービスとしては
- Amazon社のAmazon Redshift
- Google社のGoogle BigQuery
- Microsoft社のAzure Synapse Analytics
- Snowflake社のSnowflake
などがあり、いずれもオンプレミスでの導入より遥かに安価なコストかつサーバー管理不要という手軽さでDWHを導入することが可能です。
まとめ
DWHとは何かについて、
- DWHはデータレイク、データベースと何が違うのか
- データ分析におけるDWHの役割
- DWHの導入方法
こちらの3点から解説しました。
高度なデータ分析には必要不可欠なDWHですが、導入が容易なSaaS型のDWHが普及する一方でそれを活用するためのデータのETL(ETLについてはこちらをご覧ください。)は依然として難易度が高いという現状があります。
弊社では、データ分析基盤の構築に必要なETL機能をそろえたツール「trocco®」を提供しており、容易にデータ分析が可能です。
現在、クレジットカード不要のフリープランを提供しています。DWHを活用したいと考えている方はぜひこの機会にお試しください。
>troccoサービス紹介資料のダウンロード【無料】はこちら
