はじめに

近年、データ分析の世界でDWH(データウェアハウス)という言葉が盛んに聞かれるようになりました。

この記事ではそのDWHについて

  • DWHはデータレイク、データベースと何が違うのか
  • データ分析におけるDWHの役割
  • DWHの導入方法

以上の3点にフォーカスして解説していきます。

DWHとは

DWHは一言でいえば

  1. 収集したデータを分析する目的
  2. 時系列形式で保管した
  3. 大容量かつ高速処理が可能なデータベース

と定義出来ます。

つまりDWHとは目的や形式が決まったデータベースの一種であり、格納されるデータは形式や時系列の並びが既に整えられたデータになります。

一方データレイク(データの湖)は

  1. 収集したデータをそのまま保管する目的
  2. データを取得順に保管した
  3. 大容量かつ高速処理が可能なデータベース

を指します。

このようにデータレイクもデータベースの一種ですが、DWHとはその目的が異なります。データの並び替えや不要なデータの削除といった作業を行う前の生のデータを保管することが目的なので格納されるデータのイメージもDWHとは違ってきます。

DWH(データウェアハウス)とデータレイクの違い
DWHとデータレイクの違い

データ分析におけるDWHの役割

身近な例として、Microsoft ExcelやGoogle Spreadsheetsなどの表計算ソフトを用いれば表データから基本的なグラフを描くことが可能です。このようなグラフの作成もデータ分析のひとつですが、これらのソフトだけでいわゆる”ビッグデータ”と呼ばれるような膨大なデータをスピーディーに分析するのは困難です。

そこでデータ分析の各工程に特化したシステムを複数組み合わせてデータ分析基盤を構築するのが一般的です。DWHもそのシステムのひとつで、整備されていないデータの中(=データレイク)から必要なデータを抽出し、分析ができる形式に加工・整形して格納しておくためのシステムです。

ただしデータの量がそれほど膨大ではなかったり、データを集める段階で適切な形式に加工できるケースではデータレイクを経由せず直接DWHへデータの統合を行うこともあります。

データレイク・データウェアハウス・BIのパイプライン
多種多様なデータの分析にはDWHへの統合が必要不可欠です。

DWHの実装

このようにデータ分析において不可欠なDWHですが、実際に導入するにはどのような手段が考えられるでしょうか。

DWHはあくまでデータベースの一種なので、自前でデータベース用のサーバーを用意して管理する、いわゆるオンプレミスでの導入が可能です。

しかしサーバーの管理コストや設計の難しさ、初期コストの高さなどから近年はクラウド上にDWHを構築するSaaS型のDWHが一般的になりつつあります。

主なSaaS型のDWHサービスとしては

  • Amazon社のAmazon Redshift
  • Google社のGoogle BigQuery
  • Microsoft社のAzure Synapse Analytics
  • Snowflake社のSnowflake

などがあり、いずれもオンプレミスでの導入より遥かに安価なコストかつサーバー管理不要という手軽さでDWHを導入することが可能です。

まとめ

DWHとは何かについて、

  • DWHはデータレイク、データベースと何が違うのか
  • データ分析におけるDWHの役割
  • DWHの導入方法

こちらの3点から解説しました。

高度なデータ分析には必要不可欠なDWHですが、導入が容易なSaaS型のDWHが普及する一方でそれを活用するためのデータのETL(ETLについてはこちらをご覧ください。)は依然として難易度が高いという現状があります。

弊社では、データ分析基盤の構築に必要なETL機能をそろえたツール「trocco®」を提供しており、容易にデータ分析が可能です。
無料トライアル期間があり、導入したDWHを容易に活用することが可能です。

>troccoサービス紹介資料のダウンロード【無料】はこちら

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社し、データエンジニアとして同社分析基盤立ち上げをリード。2017年より現職に入社し。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。