はじめに

企業規模を問わず、現代のビジネスにおいてデータの利活用の重要さは改めて述べるまでもないでしょう。収集したデータをグラフや表にしてわかりやすく可視化、あるいは統計的に分析し、その結果から経験や直感ではなくデータに基づいた戦略を立てていくデータ分析も重要な利活用のひとつです。

近年急速にデータの利活用が盛んになったのは、まず膨大な量のデータも高速で処理できるツールが生まれたことが一因です。それと同時にデータエンジニアリングの知識がない非エンジニアの人間でもデータを簡単に扱えるようなツールが生まれたことも一因でしょう。つまり、扱えるデータ量が増えたという縦の広がりツールによりデータ分析の敷居が下がったという横の広がり、この2つがデータの利活用を促しました。

そんなデータ分析のためのツールのひとつが今回紹介するETLツールです。

ETLツールとは

データ分析基盤の構築に必要なものは大きく分けて以下の3つです。

  • 広告データ、営業データ、ログデータなど「分析の元になるデータ」
  • データの高速処理に長け、データベースの核となる「DWH(データウェアハウス)」
  • DWHと連携し、データを可視化して分析を助ける「BIツール」

これら3つの要素をつなぐのがデータのETL(E:抽出、T:変換、L:格納)であり、端的に言えばETLツールとはデータエンジニアに代わってこのETLを実行するツールです。

自前でのETL実装は各種サービスのAPIについての知識が必要となったり、転送用のプログラムを構築する必要があるほか、一旦構築したデータ分析基盤もサービスのバージョン変化やAPIの仕様変更、エラー対処など保守運用にかかるコストがとても大きいというのが従来の認識でしたが、ETLツールはこれらの課題に応えるツールとして登場しました。

ETLツール選び方のおすすめ

ETLツールには文字通りETLのみを行うもののほか、ETLだけでなくデータ分析基盤の構築から運用までをサポートする多機能なETLツールがあります。それを踏まえ、ETLツールを導入する際の比較検討のポイントをいくつかご紹介します。

ETL機能の充実度で選ぶ

転送に対応しているサービスの数で選ぶ

そもそも自社で扱っているサービスが転送に対応していなければETLツールを導入したとしてもデータの転送はできません。まず最初に選定するポイントとしては、自社で使っているサービスのうち、ETLツールで転送できるサービスの数です。また、新規サービスへの対応やバージョンアップを頻繁にリリースしているか、サポートページが充実しているか、日本語でのサポート対応があるか(ETLツールは海外製品も多い)、使いやすいUIとなっているかも選ぶポイントとなっています。

データ分析の自動化をサポートしているかで選ぶ

データには鮮度があり、時間が経過したデータを参考にしても鮮度の落ちた分析になってしまうため、日々データを更新し続けてデータ分析結果をアップデートするのが一般的です。

ETLツールはユーザーのETLを助けるツールですが、データ分析基盤の構築はできても結局人の手でデータを更新し続けるという運用では大きな負担になってしまうため、データの定期的な転送機能といったデータ分析基盤の運用面もサポートする機能を備えているかがツール検討のポイントになります。

ELTにも対応しているかで選ぶ

近年DWHツールの性能が大きく向上したことで生のデータを一度全てDWHへ統合し、そのデータを抽出、分析用に加工して同じDWH上の別のテーブルに格納するというELTも一般的になってきました。ETLツールを選ぶ際には、このようなELT機能に対応しているかに注目するとモダンなデータエンジニアリングの手法にも対応出来ます。

リバースETLにも対応しているかで選ぶ

ETLはあるデータをDWHへと統合することですが、そこから発展して、DWHからデータ元のサービスへとデータを逆流させるというETLとは逆の流れ、すなわちリバースETLという考え方があります。

例えばSalesforceのようなCRMツールでは営業データ・顧客データがDWHへと統合され、分析・管理しやすい形式に変換されたとしてもデータ元となるSalesforce上ではその恩恵が得られません。リバースETLはこのような場合に効果を発揮し、データ活用の幅を拡張してくれます。特にデータ分析基盤の構築だけを目的とせず、部署や部門を問わず全社的にデータの活用を進めていくのであればリバースETLへの対応も検討ポイントになります。

メタデータのサポート

近年データマネジメントの重要性が高まり、それに伴ってメタデータを活用したデータマネジメントが注目されつつあります。

データパイプラインの流れをメタデータとして管理するデータリネージ、ユーザーのデータに対する検索性を高めるデータカタログなどがその例ですが、これらのデータマネジメントは日々全てのデータに対してメタデータを作成・収集する困難さから、人の手で運用を賄うのはあまり現実的ではないというのが現状です。

もちろん別途メタデータ管理のツールを導入してもよいですが、転送のたびにデータがETLツールをツールを通過するという性質からこの段階でメタデータの作成・収集が可能で、ETLツールはメタデータを活用したデータマネジメントと相性が良いといえます。まだサービス数は多くありませんが、メタデータに関連した機能を備えているETLツールであれば、データ分析基盤の構築と並行して社内のデータマネジメントも向上させることが可能で、日々の運用において大きな助けになります。

ETLツールの次は?

冒頭でも触れたように、データ分析においては

  • 広告データ、営業データ、ログデータなど分析の元になるデータ
  • データの高速処理に長け、データベースの核となるDWH
  • DWHと連携し、データを可視化して分析を助けるBIツール

これらの3つの要素をベースに、それらをつなぐ要素としてETLが必要です。ETLツールが決まったら、自社の抱える課題やデータ分析の活用イメージに応じてこれらのツールについても検討し、データ分析基盤を構築していきます。

また自社にデータエンジニアリングのノウハウがなければデータ分析基盤の構築・運用についてもサポートしているツールを選んでおくと人の手がかからない運用が可能です。加えて扱うデータ量が増加しても運用面に対する負担が軽減します。

まとめ

ETLツールとは何か?から、ETLツールの選び方のポイントについて解説してきました。

これらのポイントを参考に自社のデータ分析基盤にとって最適なETLツールを選定していきましょう。

また弊社ではデータ分析基盤構築サービスtrocco®を提供しており、単なるETL機能だけでなく分析基盤の運用支援、メタデータを活用したデータマネジメントサポートなどデータ分析をトータルに支援するツールとなっています。

導入にあたっては無料のトライアルも実施しているため、本当にETLツールが必要か、他のETLツールと比べてどうか、などの疑問点を実際に触りながら解消することが可能です。

https://trocco.io/lp/index.html

ETLツール導入の際にはぜひご検討ください。

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。