ビジネスにおけるデータの役割は、日々急速に進化し続けています。データを活用することで、企業は競争力を維持し、新たなインサイトを獲得し、業績を向上させることが可能になります。

こうしたデータ駆動のビジネスを可能にする重要なツールの一つが、データウェアハウス(DWH)です。しかし、どのデータウェアハウスを選べばいいのか、またどのように活用すれば最大の効果を引き出せるのかは、多くの企業が直面する課題です。

本記事では、実際の企業でのデータウェアハウスの活用事例を通じて、どのようなポイントでデータウェアハウスを選定すればよいのか、さらに各種サービスを比較し、最適な選択を支援します。

企業がデータウェアハウス(DWH)を導入すべき理由

まず、データウェアハウスが必要とされる背景には、企業が日々膨大なデータを生成・収集していることがあります。たとえば、「会計」・「販売」・「顧客」・「生産」・「在庫」・「購買」といった多種多様な業務は、個別にシステム化されています。それぞれが独立したシステムで管理されていますが、そのデータを組み合わせて総合的な分析を行うことが難しいという問題があります。そうした問題を解消できるのが、データの統合的な分析を可能にするデータウェアハウスです。

データウェアハウスの最大の特長は、オンプレミス型とクラウド型の両方に対応していることです。オンプレミス型はセキュリティの強固さとカスタマイズ性が魅力ですが、現在では、柔軟性と拡張性に優れているクラウド型のデータウェアハウスが主流となっています。

次に、データ分析におけるデータウェアハウスの重要性を説明します。
従来のシステムでは、表計算ソフトを使用して基本的なグラフを作成することはできますが、大規模なデータであるビッグデータを迅速に分析することは非常に困難です。

そこで、データ分析の各工程に特化したシステムを組み合わせてデータ分析基盤を構築するのが一般的な手法となっています。データウェアハウスは、データレイクから必要なデータを抽出し、分析可能な形式に加工・整形して保管する役割を果たします。
ただし、データ量が少なかったりデータ収集段階で適切な形式に加工できたりする場合は、データレイクを経由せず直接データウェアハウスへのデータ統合が行われることもあります。

そして、データウェアハウスの具体的なメリットには、まず効率的なデータ収集が可能になる点が挙げられます。データウェアハウスの導入により、企業内の各部門に散在する多様なデータを収集し、利用しやすい形で保管できるため、全社的な生産性が向上します。

また、データウェアハウスに蓄積された膨大なデータを適切に分析することで、効果的な経営戦略を立てられます。ビッグデータの活用が注目される中で、データを戦略的に活用できない企業も少なくありません。しかし、データウェアハウスを導入することで、データに基づいた合理的な意思決定が可能となり、結果として売り上げの向上や経営の安定化に繋がります。

それ以外にも、データウェアハウスを利用すれば、データが時系列で永続的に保存されるという利点を享受できます。従来のデータベースでは古いデータが削除されることがあり、長期間のデータ分析に必要なデータが欠損する可能性があります。

しかし、データウェアハウスを導入することで、過去のデータでも品質を保持したまま保管でき、データの正確性や一貫性を担保できます。

データウェアハウス(DWH)の活用事例3選

この章では、Google BigQuery、Amazon Redshift、Snowflakeを利用している企業・事業をとりあげ、データウェアハウス導入の活用事例を紹介します。

ソーシャルゲーム事業での活用事例

ソーシャルゲーム事業を行う株式会社ルーデルはGoogle BigQueryとtrocco®︎を導入しデータ分析基盤を構築しました。

株式会社ルーデルは、データ分析基盤の導入と分析データの可視化を目指し、Google BigQueryをデータウェアハウスとして導入し、データパイプラインとしてtrocco®を導入しました。

従来の業務では、本番環境のデータベースをクラウド上にコピーして分析していたため、大量のデータを一度に取得することが困難でした。これにより、データの抽出に時間がかかることや、データベースの処理がタイムアウトするなどの課題が生じていたことがGoogle BigQueryとtrocco®︎導入のきっかけでした。

Google BigQueryとtrocco®︎を導入し、データ分析基盤を構築したことにより、複数のデータソースから効率的にデータを取得できる仕組みが整備され、収集するデータを総合的に分析できるようになりました。また、データの可視化が進んだことでKPIの計測が容易になったり、売上の増減の原因が分かりやすくなったりし、結果として改善施策の精度が向上しました。

株式会社ルーデルがデータウェアハウスを導入し、さらにtrocco®を採り入れデータ分析基盤を構築した事例の詳細は以下の記事をご覧ください。

デジタルメディア事業での活用事例

デジタルメディア事業を行う株式会社キュービックはAmazon Redshiftとtrocco®を用いてデータ分析基盤をリニューアルをし、業務改善に成功しました。

データ分析基盤のリニューアルは、DX戦略の一環として、売上予測の精度向上や財務管理データの統合管理を目的に行われました。
これまで認知できていなかった種別のデータを取得、分析したいと考え、それまで運用してきた自社データ分析基盤<CBA>をリニューアルするに至ったといいます。

従来の業務では、データソースから手動でデータをダウンロードし、事業基幹システムに手動でインポートする手間がかかり、売上データの毎日確認が手作業で行われていました。そして、GoogleとYahoo!のAPI連携の追随が難しく、結局手動の作業に頼らざるを得ない状況でした。

そこで、広告データの収集とレポーティングの効率化と自社のデータウェアハウス上にしっかりデータが溜まるような状況を作ることをめざし、Amazon Redshiftとtrocco®を導入するに至りました。

Amazon Redshiftとtrocco®の導入により、データ運用の工数が40%削減され、システムの保守運用に関わる工数が70%削減される見込みが立っています。また、trocco®︎をHUBにしてデータを統合管理する体制が確立され、経営の意思決定がスピーディになることが期待されています。今後はユーザーの行動分析や機械学習基盤の構築も計画されています。

株式会社キュービックの事例の詳細を知りたい方は、以下の記事・セミナーの録画をご覧ください。

運用型テレビCMサービス事業での活用事例

ノバセル株式会社ではSnowflakeとtrocco®︎、BIツールにRedashを導入し、データ分析基盤を構築しました。

データウェアハウスとデータレイクを一体化する設計を採用し、従来のデータウェアハウスとデータレイクのアーキテクチャを一新し、データ分析基盤を改善しました。
新しいアーキテクチャでは、データが生成されるデータソースが存在し、このデータは分断せずに利用しやすい形で保存されるデータゾーンに集約されます。そして、蓄積されたデータは、BIツールなどを用いて分析を行うデータコンシューマに送られる設計になっています。

このアプローチにおいて、データソースからデータの投入を担う重要な役割を果たしているのがtrocco®︎です。trocco®︎は基本的にノーコードでデータソースからデータを取り込めるため、データ収集の効率化が実現され、コンテナによるバックエンド処理によって並列処理も可能です。また、trocco®︎はデータの転送中にバッファリングすることでSnowflakeの稼働時間を最小限に抑え、コスト削減にも寄与します。

データ分析基盤構築の課題を解決するためには、最新のテクノロジーを採り入れるだけでなく、戦略的なビジョンとそれを具現化する柔軟なアプローチが重要です。データ分析基盤の最適化を図りながらSnowflakeやtrocco®︎を組み合わせれば、株式会社ノバセルのようにサイロ化とコストの問題を解決できるでしょう。

この事例の詳細を知りたい方は、以下の記事をご覧ください。
データサイロ化とコストの課題を克服してノバセルが迅速にデータ基盤を構築できた理由【デブサミ2022】

データウェアハウス(DWH)の7つの選定ポイント

データウェアハウスを選定する際にどのようなポイントをみるべきか、以下の7つのポイントを取り上げ、それぞれ詳しく説明します。

  • スケーラビリティ
  • データの処理速度
  • データ連携のしやすさ
  • セキュリティ
  • 操作性・視認性
  • コスト
  • サポート・メンテナンス

スケーラビリティ

データウェアハウスのスケーラビリティは、事業の成長に合わせてシステムを柔軟に拡張・向上させる能力を指します。事業の成長に伴い扱うデータ量が増加しても、スケールアップ(システムの性能向上)およびスケールアウト(システムの拡張)を円滑に行えることで、持続的なデータ処理と分析を実現します。

データの処理速度

膨大なデータを高速かつ効率的に処理することもデータウェアハウスの最も重要な役割の一つです。データの処理速度が遅いと、リアルタイムな意思決定に遅れが生じ、ビジネス上のチャンスを逃してしまう可能性があります。事業にフィットしたデータウェアハウスを選定することで、迅速なデータ処理によって、競争力強化に貢献します。

データ連携のしやすさ

データウェアハウスは孤立した存在ではないため、他のシステムやデータソースとの連携がしやすいかも重要なチェックポイントになります。シームレスなデータ連携ができれば、異なるデータソースからの情報を一元化し、包括的な分析を可能とします。データの抽出・変換・ロード(ETL)プロセスの円滑な運用が、データウェアハウスの効果を高めます。

セキュリティ

企業の貴重な資産であるデータを保護する上で、高度なセキュリティ機能を持つことが必須です。たとえば、アクセス制御、暗号化、データの脅威検知などの万全なセキュリティ対策が整備されていることで、データ漏洩やセキュリティ侵害から企業の信頼性を守ります。

操作性・視認性

使いやすい操作性と洞察力の高い視認性があるかどうかもデータウェアハウス選定の際の大きな確認ポイントです。直感的なユーザーインターフェースを有し、ユーザーが迷うことなくデータを探索・分析できることが重要です。視覚的に理解しやすいダッシュボードやレポートによって、ビジネス価値を生み出すデータウェアハウスとなります。

コスト

導入から運用・保守にかかる総コストを慎重に評価することも欠かせません。初期導入費用、ライセンス料、ハードウェアおよびソフトウェアの維持費用、スタッフの教育やトレーニングにかかるコストを考慮し、コスト対効果の高いソリューションを選択します。

サポート・メンテナンス

データウェアハウスの選定においては、提供されるサポートとメンテナンスの品質も重要な要素です。サポート体制が充実していることで、障害時の迅速な対応やシステムの安定性が確保されます。また、継続的なアップデートやサービス向上によって、データウェアハウスの効果を最大化します。

主要サービスのそれぞれの特徴

データウェアハウスの導入を検討する際、Google BigQuery、Amazon Redshift、Snowflakeが候補に上がることが多いでしょう。

各サービスの特徴を簡潔にまとめると、以下の表のようになります。

Google BigQueryGoogle Cloud(GCP)とのシームレスな統合ができる機械学習の前処理に適しているクエリの最適化とテーブルの最適化が重要
Amazon Redshift列指向データベースを採用フルマネージド型サービス
Snowflakeデータウェアハウスは全体の一部の機能マイクロパーティション化したストレージ層とコンピュート層に分離されているデータ復元機能であるTimeTravelを提供

ここからは、それぞれのサービスの特徴を説明します。どのサービスを利用するか迷っているという方はぜひご覧ください。

Google BigQuery

Google BigQueryはGoogle Cloudが提供するビッグデータ分析ツールで、数テラバイトから数ペタバイトの膨大なデータを数秒〜数十秒で処理できる特徴を持っています。Googleが開発した独自の技術であるDremelにより、エンジニアでなくてもSQLを使って高速なデータ分析が可能です。

また、スケーラビリティが高く、ペタバイト単位のデータもリアルタイムに処理できるので、成長する企業に適しているという点があげられます。Columnar StorageとTree Architectureにより高いパフォーマンスを実現しています。

それ以外にも、Google Cloud(GCP)とシームレスに統合でき、他のサービスと連携しながらデータ活用が可能です。SQLクエリを使って高度な分析ができ、機械学習のモデル作成や地理空間データの分析も容易に行えます。利用料金もリーズナブルで従量課金制であるため、コスト面でもメリットがあります。

セキュリティも重視されており、Googleの堅牢なセキュリティインフラストラクチャによってデータが保護されています。

活用方法としては、ビッグデータの解析、リアルタイムな分析、機械学習の前処理、データの可視化などが挙げられます。クエリの最適化、テーブルの最適化、セキュリティの最適化、テストの実施、ドキュメンテーションの整備などを実施するとうまく活用できるでしょう。

Amazon Redshift

Amazon RedshiftはAmazon Web Services(AWS)が提供するフルマネージド型のデータウェアハウスサービスです。その高速な分析性能とスケーラビリティにより、ペタバイト単位のデータをわずか数時間で処理できる能力を持っています。この特徴により、企業は大量のデータをもとに迅速な意思決定や戦略策定を行えます。

列指向データベースを採用しているため、この優れた性能が実現されています。通常のリレーショナルデータベースシステムでは行単位でデータを管理するのに対し、列指向データベースでは列単位でデータの保存を行うことで、高い圧縮率と効率的なデータ処理が可能となります。さらに、データの分散処理を実現するために複数のコンピュートノードを使用することで、大規模なデータセットに対しても高速な分析を実現します。

もう一つの魅力は、高いスケーラビリティを持つことです。企業の成長に伴いデータ量が増加しても、Amazon Redshiftは必要に応じてシステムを柔軟に拡張できます。そのため、初期投資を最小限に抑え、サービスの利用に応じて料金を支払う従量課金制度を活用できます。

また、堅牢なセキュリティインストラクチャも備えています。データの暗号化、ネットワークの隔離、アクセス制御などのセキュリティ対策により、企業の重要なデータを安全に保管できます。これにより、顧客情報や機密情報などの保護が確保されます。

それ以外にも、フルマネージド型サービスであるため、AWSがハードウェアの設定やソフトウェアのインストール、監視などの運用作業を担当します。これにより、ユーザーはデータ分析に集中できるだけでなく、運用コストの削減も実現できます。

Amazon Redshiftは、多岐にわたるユースケースで活用されています。

データの可視化と分析では、Business Intelligence(BI)ツールを活用して直感的なダッシュボードを作成し、ビジネスの課題や改善点を可視化します。データのETL処理では、データウェアハウスにデータを取り込むための抽出・変換・ロードのプロセスを自動化できます。また、機械学習の分野でもRedshiftは高速なSQLエンジンを活用し、大量のデータを扱うことが可能です。

さらに、IoTデータの処理やログデータの分析、セキュリティ上のリスク低減など、多様な用途に対応しています。そのため、これらの機能を組み合わせて、ビジネスの成長を支える強力なデータ分析基盤を構築することが可能です。

利用料金は、使用したリソースと時間に応じて従量課金制が採用されています。リソースの種類や利用時間、ストレージの使用量によって料金が決定されます。また、長期利用を前提とした料金削減策も提供されており、利用パターンとニーズに合わせた最適なコスト管理が可能です。

Snowflake

Snowflakeはデータエンジニアリング、データレイク、データウェアハウス、データサイエンス、データアプリケーション、そしてデータシェアリングの6つの機能を持つ画期的なプラットフォームです。一般的にデータウェアハウスサービスと見なされていますが、データウェアハウスに付随する機能を含めた多機能なデータプラットフォームとなっています。

特徴的なアーキテクチャには、マイクロパーティション化したデータベースを保管するストレージとコンピュート層の分離があります。

マイクロパーティションは、データベース内で無数の細かいテーブルにデータをパーティションしており、ユーザーは単一のテーブルかのように扱えます。これによって、メタデータを用いてデータ全体を検索せずに必要なデータを最小限に読み込むことが可能となり、効率的な処理を実現しています。

ストレージ層とコンピュート層の分離は、データの保管と処理を分離させることで、互いの影響を受けない状態を維持しています。これにより、複雑な処理を行ってもパフォーマンスが低下しにくくなっており、またストレージ層のデータへのアクセスが容易になっています。

それ以外にも、他のデータウェアハウスに先駆けてTimeTravel機能を提供しており、削除されたデータを最大90日間は完全には削除せずに復元可能としています。ストレージ層が独立しているため、大規模なデータの復元でもデータベースを停止させることなく復旧が可能です。

Snowflakeはウェアハウスのサイズと起動時間に応じて料金が決定されるため、データエンジニアリングの知識がある場合、最小限のリソース・コストでデータの処理が可能です。

まとめ

事業にフィットしたデータウェアハウスを導入すれば大きなビジネスチャンスにつながります。

データウェアハウスの導入やデータパイプラインの構築をする際には、データ分析の重要な工程であるETLツールの導入も併せて検討すればデータ分析基盤の構築・運用全体が非常に効率化されます。

ETLをツールなしで行うにはデータエンジニアの助けが必要であり、また人手で作業する場合にはヒューマンエラーが起きるリスクも孕みます。そのためツールを利用しない手はないでしょう。

主要な機能としてETLを備えているtrocco®では、ジョブをスケジューリングでき自動実行できるほか、Git・APIの連携機能や日本語でのサポートがあるなど初心者にも使いやすくできております。

trocco®にはクレジットカード登録や契約が不要なフリープランが用意されているため、ご関心のある方はぜひお気軽にお試しください。

trocco® ライター

trocco®ブログの記事ライター データマネジメント関連、trocco®の活用記事などを広めていきます!