モダンデータスタックとは?

モダンデータスタックは、近年メジャーになったデータエンジニアリングサービスのなかでも、クラウドで動作するSaaSタイプのサービスを30のカテゴリーに分類したものです。

各カテゴリーはさらに大きく4つのカテゴリーに大別でき、それぞれデータ分析の各プロセス(後述)に対応しています。

  • データ統合、ETLサービス
    • 社内のデータをDWHへ統合、データ分析サービスと連携させ、データパイプラインを構築するためのサービス
  • DWH、データレイクサービス
    • 膨大なデータも高速処理が可能で、データの一次保存先に使用するサービス
  • データ変換サービス
    • DWH上のデータを分析用に加工・整備するためのサービス
  • データ分析サービス
    • 整備したデータを分析・可視化して共有するためのサービス

各カテゴリーのサービスを組み合わせることで、クラウドベースのデータ分析基盤を構築できます。

従来のオンプレミス環境主体の体制から、クラウドサービスへ転換することでコストを抑えたデータ活用の体制を作れる点がメリットです。

またモダンデータスタックに数えられるサービスの多くは、データエンジニアだけでなく非エンジニアにも利用可能な作りを志向しており、コスト面にくわえてデータエンジニアリングのハードルを下げられます。

実際にモダンデータスタックを唱えたFivetran社は、既存環境からの移行だけでなく、新規の基盤構築にもモダンデータスタック内のサービスを積極的に利用するべきとしています。

なぜモダンデータスタックはトレンド化しているのか

ビッグデータという言葉が登場して以降、オンプレミス環境主体のデータ分析基盤(レガシーデータスタック)は2つの課題を抱えていました。

  • データ分析に基づいたスピーディーな意思決定が必要とされるのに、分析がそのスピードに追いつかない
  • 増え続ける社内のデータ量が物理サーバーに収まらない

データ量の課題は、物理サーバーからクラウドベースのサーバーへ移行することで、簡単に解決できます。クラウドサービスは保守運用の手間がなく、データエンジニアの負担軽減にも効果的です。

データベースだけでなく、データ分析基盤の各ツールも部分的にクラウド化した結果、基盤全体をクラウドベースに移行し、レガシーデータスタックの課題を解決できるのではないかという機運が高まります。

「オンプレミスからクラウドへ」というトレンドをうけ、GoogleやMicrosoftなどの大手IT企業から非エンジニアにも扱いやすいサービスが次々とリリースされ、ユーザーが自由にクラウドサービスを選べるようになりました。

モダンデータスタックの普及は、「クラウド」が当たり前となり、そのなかでも「最適なサービスの組み合わせはなにか」がトレンドになりつつあることを示しています。

モダンデータスタックとレガシーデータスタック、dbtとの関わり

モダンデータスタックとレガシーデータスタック、dbtとの関わりをまとめました。

モダンデータスタックとレガシーデータスタックの違い

レガシーデータスタックとモダンデータスタックを分ける大きな特徴は、「オンプレミス(物理)環境ベースか」「クラウド環境ベースか」です。

従来はそもそもクラウドサービスが普及しておらず、オンプレミス環境が当たり前でした。しかしオンプレミスでの基盤構築には、以下の課題があります。

  • 物理サーバーの購入費用など導入コストが高い
  • 環境の保守運用のコストが発生する
  • データ量が増えるとサーバーを追加する必要があり、スケーラビリティに欠ける

オンプレミス環境はサービス内容がベンダーに依存してしまう欠点があります。一方でクラウドベースの基盤構築は、前述で挙げた課題をまとめて解決できます。

仮に欲しいサービスをベンダーが提供していなかったとしても、モダンデータスタックに数えられるサービスはユーザーによるプラグインの開発に対応しています。現在はオンプレミス環境の基盤構築がごく稀になるほど、クラウドサービスが普及しました。

モダンデータスタックとdbtの関係性

dbt(data build tool)は、モダンデータスタックのサービスのひとつです。

後述するカテゴリー分けでは、「データ変換レイヤー」に属するサービスです。

なかでもdbtはデータ加工の難易度に秀でているため、多くの分析基盤がデータ変換にdbtを利用しています。

dbtはデータ変換機能だけでなく、データマネジメントサービスとしての機能を備えている点が特徴です。詳しくは下記の記事で紹介しているのでぜひご覧ください。

dbtとは?データ変換、データマネジメントを加速する注目のツールについて紹介

データベースのクラウド移行でデータ量のパンクは避けられましたが、そのデータをどう管理するか、データマネジメントが次の課題となっています。

データ変換は元データに対して数値の変換など、複雑な加工を実施するプロセスであり、dbtが多く利用されているのはこのプロセスでのデータマネジメントの重要性が認識されていることの表れです。

モダンデータスタックの4つの構成要素

モダンデータスタックのサービスは大きく4つのカテゴリーに分けられます。

4つのカテゴリーはデータパイプラインの構成に対応しており、各カテゴリーからそれぞれサービスを選択することでデータ分析基盤を構築できます。

いずれのカテゴリーにおいてもサービスを選ぶ際のポイントが存在します。各カテゴリーの役割を押さえ、自社のデータ用途にもっとも適したサービスを選ぶようにしましょう。

データパイプライン

データパイプラインサービスは、データの移動を担当します。

  • セールスが使用するSFAツール
  • マーケティングが使用するMAツール

など、各サービスから取得されたデータを収集して分析基盤へ取り込むほか、後述する3つの構成要素のサービスを連携させる役割も持ちます。

データパイプラインのサービスで重要なのは以下の2つです

  • 自社で扱っているサービスの転送に対応している
  • データの自動転送などラクな運用が可能

とくに海外サービスのモダンデータスタックでありがちなのが、国内サービスのデータ転送に対応していないケースです。

対応してないサービスのデータは、転送に対応しているサービスに手作業で移動させて取り込む必要があります。運用上のネックになるため、必ず確認しておきましょう。

またデータの転送自体は可能でも、毎回人の手で転送を手動で実行するのは、人的・時間的コストがかかります。ルーチンワークのデータ転送くらいは自動で実行できるようなワークフロー機能があるかも確認してみてください。

デスティネーション(データ保存)

デスティネーション(データ保存)は、データ分析基盤の核となる中央データベースサービスのカテゴリーです。

データ分析基盤におけるデータベースは、単なるデータの保存先ではなく、各サービスからのデータを統合する大規模DWH(データウェアハウス)サービスを指します。

GoogleやMicrosoft、AWSの大手3社が、それぞれ特徴あるDWHを提供しているほか、近年はSnowflakeも注目されています。

いずれのDWHもごくわずかなデータからビッグデータまで、円滑にスケールさせられる点が特徴です。

データの処理速度やセキュリティなどの基本的な機能はそれほど差がないため、一度利用してみて扱いやすさなどを基準に選ぶとよいでしょう。

データ変換レイヤー

データ変換レイヤーは、DWHに統合したデータを分析用に加工するサービスです。

DWH上でもSQLを記述することでデータの加工自体はできます。しかし単純な並び替えやデータの抽出ではなく、数値の書き換えや複数データ間の書式の統一など、複雑なデータの加工にはデータ変換レイヤーのサービスが必要です。

サービスを選ぶ際にもっとも意識したいのが、「サービスの使いやすさ」「データの加工しやすさ」です。

たとえば先述のdbtは、SQLでいうところの「SELECT文」のみで、データ加工が実施できる扱いやすさを特徴としています。

データ変換レイヤーで扱いづらいサービスを選んでしまうと、データ加工のたびにデータエンジニアの工数が必要になり、データ活用のボトルネックになるため注意して選びましょう。

 BIツール/データ可視化プラットフォーム

BIツール/データ可視化プラットフォームは、実際にデータ分析を行うためのサービスです。

基本統計量をはじめとする各種数値の算出は、Excelなど表計算ソフトでも可能です。しかしグラフ化できるデータ量の制限があるため、大規模データの可視化ができません。

BIツール/データ可視化プラットフォームのカテゴリーのサービスは、データの加工をほかのサービスに委ねる代わりに、大規模データも高速でグラフ化できます。また高度な統計分析手法を提供しています。

いずれも直感的な操作でのグラフ化を特徴としており、基本的な機能に大きな差はないため、「触ってみての使いやすさ」や「利用料金の安さ」で選ぶと良いでしょう。

モダンデータスタックの魅力

モダンデータスタックの魅力は、モダンデータスタックのサービスそのものではなくデータ分析基盤のクラウド化にあります。

オンプレミス環境からクラウドサービスへのシフトは、自社のデータ活用に以下のメリットをもたらします。

  • 高いスケーラビリティ/高い可用性
  •  コスト面での優位性
  • フレキシブルな構成
  • 非エンジニア人材視点での使いやすさ
  • 主要なSaaSとの親和性
  • モダンなデータエンジニアリング手法との相性

クラウドサービスは、ミニマムスケールから導入が可能で、導入コストが安価に抑えられるのがメリットです。

また会社の規模や扱うデータ量が変化しても従量料金の増加だけで済むため、無駄なコストがかからず導入時点のミニマムスケールから円滑にスケールアップさせられます。

データエンジニアリング特有のメリットとして、データパイプラインの各工程でサービスを選んで構成を柔軟に決められるのも魅力です。

モダンデータスタックのサービスはいずれも高い評価を受けていますが、運用コストや扱いやすさなどそれぞれに特徴があるため、自社の事情に応じてサービスが選択できます。

0から各工程を開発するより、サービスの組み合わせで基盤を構築するほうがはるかにラクであるのはもちろん、必要な機能に応じてサービスを追加するなど、カスタマイズが容易です。

モダンデータスタックの採用で解決できる課題とそれぞれのメリット

モダンデータスタックは一見すると、データエンジニアだけのためのキーワードと思われがちですが、実際はデータエンジニアだけでなく非エンジニアにもメリットがあります。

本記事ではモダンデータスタックにおけるデータエンジニアのメリット、非エンジニアのメリットの2つに分けて紹介します。

非データエンジニアにとっての課題とメリット

「何かデータを分析したいけど、データエンジニアの工数が限られているため、いつまで経っても順番が回ってこない」

非データエンジニアの方は、このような課題を抱えているのではないでしょうか。

モダンデータスタックを採用することで、データエンジニア人材を採用するより遥かに、安価かつスピーディーに章の冒頭の課題を解決できます。

直感的な操作でも扱える各種サービスの導入により、非エンジニアでもデータ活用が可能になります。

データエンジニアに頼らずともデータ分析ができるようになる体制が構築され、社内の至るところでデータ分析の結果をふまえたPDCAをスピーディーに回せるようになります。

素早いPDCAサイクルにより施策を効率よく改善し、有効でない施策を打ち続ける無駄のカットが期待できます。

データエンジニアにとっての課題とメリット

従来とは異なり、データエンジニアにはユーザーからのデータ整備・加工に応えつつデータ基盤全体のマネジメント業務も求められています。

しかし増え続けるデータ量と多様化するデータ用途を前に、データ整備・加工にばかり工数を取られデータマネジメント業務が疎かになってはいないでしょうか。

モダンデータスタックのようなパフォーマンスのよいサービスをデータ分析基盤に組み込むことで、データの処理時間の短縮が期待できます。

また従来すべて手作業で対応していたデータの抽出・加工処理を、データのユーザーに任せられるようになります。その結果、データベースの管理など、データエンジニアにしかできない業務に集中することが可能です。

データエンジニアリングはまだ発展途上の分野です。

たとえば、メタデータを活用したデータマネジメントやデータETLから発展したELT、リバースETLなど、日々新たなノウハウが生まれ続けています。

モダンデータスタックに数えられるサービスは、上記の例のような最新のトレンドにも積極的に対応します。変化の速いデータエンジニアリングの最前線についていくには、フルマネージドというクラウドサービスのメリットを最大限に活かしましょう。

日本でのモダンデータスタック

モダンデータスタックはアメリカFivetran社が唱えたカテゴリー分けであり、対象サービスはいずれも海外サービスになります。

とはいえ日本国内で展開しているサービスもあるため、モダンデータスタックの採用は可能ですが、注意すべき点が2つあります。

データパイプラインサービスの対応

各種サービスから簡単にデータを取得するには、データパイプラインサービスが自社で利用しているサービスに対応している必要があります。

  • 国産SFAサービスの「e-セールスマネージャー」
  • ノーコードのアプリ開発が魅力の「kintone」

など、国内サービスのデータを取得したい場合は、それらサービスにもきちんと対応している国内のデータパイプラインサービスを採用しましょう。

サポートの充実

モダンデータスタックは、非エンジニアに利用されてこそ大きなメリットを発揮します。しかし海外サービスは、日本語でのヘルプドキュメントや問い合わせ対応が不十分なケースがあります。
非エンジニアのデータ活用を期待するのであれば、なるべく問題を自己解決できるよう日本人オペレーターに対応してもらえる国内サービスを利用すると安心です。

まとめ

データエンジニアリングの分野でトレンドのモダンデータスタックの概要や構成要素、魅力を紹介しました。

モダンデータスタックの各サービスを組み合わせることで、クラウドサービスの特徴を活かして安価な導入コストでデータ分析基盤を構築できます。

すでに自社でデータ分析基盤を構築している企業も、まだ分析基盤をもたない企業も、クラウドベースのデータ分析基盤へ移行し、誰でも使いやすいデータ分析基盤を作ってはいかがでしょうか。

弊社では、データパイプラインサービスに分類されるデータ分析基盤構築サービス「trocco®」を提供しています。国内サービスとのコネクタ(対応サービス)数も充実しており、サポートも十分です。

無料で始められるフリープランもあり、クレジットカード登録不要ではじめられるので、少しでも興味がある方はぜひお試しください。

trocco® ライター

trocco®ブログの記事ライター データマネジメント関連、trocco®の活用記事などを広めていきます!