社内に散逸するデータをデータ分析基盤へ統合、活用するデータ分析の分野では日々技法・技術が進歩しています。

いまでは扱いやすいツールによってデータの統合もハードルが下がり、クラウドサービスの普及によって安価な導入コストで基盤の構築が可能です。またツールの発展とともに、そのツールの機能を活かしてより効率的なデータエンジニアリングの手法も模索されています。

そのなかの一つが本記事のテーマである「ELT」です。

本記事ではELTの概要やメリット・デメリット、活用に成功した事例を紹介します。

伝統的なデータ統合の手法であるETLと、モダンな手法のELT、2つの手法の違いをおさえ、自社のデータ活用へ活かしていきましょう。

ELTとは

ELTとは、

  • E:Extract(抽出)
  • L:Load(格納)
  • T:Transformation(変換)

の略称で、データエンジニアリング分野の用語です。

具体的には、下記のデータ処理を指します。

類似する用語にはETLがあります。

ELT・ETLともにDWH上に分析用のデータを整える点は同じですが、データを抽出したあとのプロセスが異なる特徴があります。詳しくは後述の「ELTとETLの違い」で解説します。

データ分析におけるELTの位置付け

データを分析基盤(DWH)に統合して分析用に加工、専用のツール上で分析されるまでの流れをデータパイプラインと言います。ELTは、データパイプラインのデータ統合・加工の処理部分を担っています。

まず各サービスからデータを抽出し、データをDWHへ格納します。

取得してきた生データは、分析に不要なデータを含んでいるなど最適な形式に整えられていません。そこで、DWH上に別のテーブルを作成します。

生データのうち分析に必要なデータだけをDWH上の別テーブルへ転送したり並び替えたり、分析用のテーブル(データマート)を整えたりするのが、ELTの具体的な内容です。

ELTとETLの違い

DWH上に分析用のデータマートを作成する手法にはETLもあります。

ETLとELTでは、データ処理の順番に違いがあります。

  • ETL
    • データの抽出と同時に分析用の加工も行う
    • DWHに直接データマートを作成する
  • ELT
    • データをそのまま抽出し、DWH上で分析用の加工を行う
    • 生データとデータマートが併存する

という違いがあります。

従来のDWHはデータの処理に不向きで、データはETLツールで加工してから格納するのが一般的でした。しかし昨今は、DWHの機能が充実してデータ加工にも対応した結果、ELTの手法が注目されています。

どちらにも共通する最終的な目的とパフォーマンスの違い

ETL・ELTともに、分析用のデータベースを整理・処理する目的は同じです。

ただしデータ加工を、抽出と同時に実施するETLとDWH上で行うELTでは、処理のパフォーマンスに違いがあります。

抽出したデータをそのまま格納するELTは、ETLとくらべてデータの処理スピードに優れています。しかしDWH上に生データと、データマートが同時に存在してしまいます。

DWHは扱うデータ量が多いほど料金が高くなるものが多く、直接DWH上にデータマートを作成するETLに対して運用コストが高くなりがちです。

また通常はセキュリティが確保されている各サービスから生データを持ち出して分析するため、データの管理にも注意する必要があります。

それぞれの活用シーン

ETLもELTもそれぞれにメリット・デメリットを持っています。

近年のデータ活用では、扱うデータ量が増える傾向にあります。また環境の変化に柔軟に対応するため、データ分析にスピードが求められることも多いです。

データのETLはデータ量が増加するほど処理に時間がかかる弱点があり、大規模なデータの統合には「処理スピードの速いELTが適している」と言われています。

ELTはデータ量が増えても処理パフォーマンスが変わりませんが、DWHの運用コスト、データ管理が課題になります。

ETLとELTをうまく活用するには、それぞれのメリット・デメリット、転送するデータの量や加工の複雑さなどを勘案して選択するのが重要です。

たとえば、顧客データのようなセンシティブなデータを扱う際は、データの持ち出しと同時にマスキング処理ができるETLが適しています。

上記のケースでELTを選択すると、DWH上のアクセス権限をきちんと管理しないと流出の可能性が発生するからです。

不特定多数のユーザーがアクセスできるDWH上に、センシティブなデータがそのまま持ち出されてしまいます。

また、ETLでも十分なスピードで転送ができていれば無理にELTを使う必要はありません。スピードを優先し、ELTばかりをしていると、生データとデータマートのテーブルがいくつも並立し、管理・運用コストが膨らんでしまうからです。

反対にELTの活用シーンで適しているのは、「多くの人がアクセスしたいデータを統合するケース」と言われています。

ETLはオリジナルのデータを残さないため、一度切り捨てられたデータを使いたい場合はまた別のETLが必要になり、二度手間になってしまいます。しかしELTではオリジナルのデータがDWH上に残るので、ユーザーは共通のデータから自分のニーズに応じたデータマートを作成でき無駄がありません。

ELTのメリット・デメリット

扱いやすいクラウドサービスの誕生によって、データ分析基盤は構築しやすくなりました。しかしデータ分析基盤全体のパフォーマンスを最適化するためには、データエンジニアリングの知識やノウハウにも精通している必要があります。

すでに「ELTとETLの違い」で触れたように、ETL・ELTそれぞれのメリット・デメリットがあります。「ETL」だけ、あるいは「ELT」だけでデータ統合のすべてを賄うのは有効ではないのです。

ETL・ELTそれぞれのメリットをおさえ、使い分けられるようになりましょう。

メリット

ELTのメリットはETLとくらべデータ処理のスピードが速く、データ量が大きくなってもスピードが落ちにくい点です。

現在は更新のたびに膨大なデータ量を取り込むような分析も、一般的になりつつあります。抽出と同時にデータを加工する、従来のETLでは処理が追いつかないケースELTであれば対応できます。

たとえばデータ処理の遅さに不満を感じているケースであれば、データの処理をELTに変更して、DWHの処理能力を生かしたスピーディーなデータ処理が可能になります。

またデータの加工をDWHのユーザーが行うため、必ずしもデータエンジニアが実施しなくてもよい点もメリットの一つといえるでしょう。

データエンジニアの業務を生データの格納に留めることで負担を軽減しつつ、データのユーザーが自由にデータを加工して活用しやすい体制を作れます。

デメリット

ELTのデメリットは、

  • セキュリティ
  • コスト
  • データマネジメント

の3つです。

必要に応じて、個人情報・機密情報のマスキング処理を施してからデータを持ち出すETLに対し、ELTでは生データをいったんDWHへ移動させるため、情報セキュリティを管理する必要があります。

データ加工を現場のユーザーが担う体制では、一つの生データに対して複数のデータマートが乱立するケースも珍しくありません。ユーザーはデータをアドホックに扱えて便利ですが、従量課金制が多いDWHは運用コストが膨らみがちです。

またELTは、「DWH上のテーブルをどのように管理すればよいか」というデータマネジメントの課題も発生します。エンジニア管理のもと、必要なデータだけを転送するETLとは異なるからです。

ELTのデメリットはコストがかさみがちで、DWHの運用に注意する必要が発生することです。

ELTの活用に成功した事例

株式会社アイスタイル様では、「@cosme」を中心に、ECや店舗事業などを展開しています。一元管理した商品や会員情報を活用して、BLOOMBOX by@cosme、@cosme STOREなどのソリューションを化粧品業界向けに提供しています。

膨大なデータを管理するために、Google提供のDWH「Google BigQuery」を中心にしたデータ活用を推進。しかしデータの加工を各事業部に委ねた結果、データマートが乱立し、データの流れが属人化するデータマネジメントの課題を抱えていました。

そこでデータ分析基盤構築サービスtrocco®を導入、trocco®経由で「データELT」を実施して、各事業部でサイロ化していたデータの流れを一元管理できる体制の構築に成功しています。

データ統合のハードルが下がったのはもちろん、データエンジニアチーム主導でDWHが適切に管理できるようになりました。そのため異なる事業部が同様のデータマートを作ってしまうなど、運用上の無駄を省く合理化にも成功しています

無料お試しができる代表的なELT(データマート作成)ツール3選

ETL、およびELTは各サービスのAPI、オープンソースのソフトウェアを活用して、ゼロから実装することも可能です。しかし現在は、ETLツールと呼ばれるサービスを利用するのが一般的です。

ETLツールは、サービスを提供するベンダー側が機能をアップデートするフルマネージドサービスであり、ELTはじめモダンなデータエンジニアリング手法にもスピーディーに対応してくれる点が期待できます。

実際にELTを試してみたい方は、以下のサービスでELTを体験してはいかがでしょうか。

trocco®

株式会社primeNumberが提供する「trocco®」は、ETLツールながらELT機能にも対応しています。

通常ELTを行う際はデータを格納したのち、DWHのコンソール画面上から別途データを加工する必要がありますtrocco®のELT機能であれば、コンソール画面を触ることなく、trocco®からDWH上にデータマートを作成できます。

また生データを統合する無加工のETL、その後のデータマート作成(ELT)を一つのワークフローで管理できるため、データ分析基盤が膨大になっても効率的な運用が可能です。

 AWS Glue

AWS Glueは、Amazon Web Service(以下AWS)が提供するETLツールです。

AWSはエンジニアが利用するクラウド型の開発環境を提供しており、データエンジニアリングサービスも提供しています。

AWS GlueはAWS提供のストレージサービスAmazon S3や、DWHAmazon Redshiftとの連携を得意としています。またAWS GlueもDWHのコンソール画面にふれることなく、データマートの作成が可能です。

AWS環境で収集したデータを分析したいデータエンジニアにおすすめのサービスです。

Stitch

Stitchはすでに挙げた2つのサービスとくらべて、コンパクトなサービスです。

データの連携に特化したETLサービスであり、データの加工自体は各DWHのコンソール画面から行う必要があります。

またStichは海外のサービスです。国内で普及しているサービスへの対応数もあまり多くはありませんが、とりあえずデータの統合を試してみたいという方におすすめのサービスです。

まとめ

技術の発展とともに生まれたモダンなデータエンジニアリング手法のELTの概要、ETLのメリット・デメリットを紹介しました。

ELTは、DWHデータマネジメントが必要なデメリットはあるものの、今後データの活用においてますます需要が増えていく有効な手法です。

ETLとの違いを理解し、両者をうまく使い分けて、自社のデータ分析基盤の運用に活かしてみてはいかがでしょうか。

また本記事で紹介したtrocco®はETL(ELT)機能にくわえ、データ分析基盤の運用をトータルでサポートする多機能なサービスです。

trocco®では、クレジットカード不要のフリープランをご案内しています。ご興味がある方はぜひこの機会に一度お試しください。

trocco® ライター

trocco®ブログの記事ライター データマネジメント関連、trocco®の活用記事などを広めていきます!