はじめに

データ分析基盤を構築すると、そのデータをどのように活用するかという課題の他に適切なデータマネジメントが求められます。そしてデータマネジメントのひとつにデータリネージ(Data Lineage)という考え方があります。

この記事では、データマネジメントに欠かせないデータリネージの考え方について解説します。

データリネージとは

リネージ(Lineage)は日本語で「血統」「系統」といった意味になります。データリネージとは直訳すれば「データの血統」です。具体的にはDWH(データウェアハウス)へ統合されたそれぞれのデータについて

  • いつ、どこで、どのように取得されたデータなのか
  • どのようなETLを経たデータなのか
  • どのような分析にかけられるデータなのか

これらの情報を明確にし、データが取得されてからETLを経て分析にかけられるまでの流れ(これをデータパイプラインといいます)を適切に管理するという考え方です。

またこのようにデータについてのデータを特にメタデータといい、データリネージのようなメタデータを活用したデータマネジメントが近年注目されつつあります。

同様の考え方に食のトレーサビリティがあり、ある食品・食材について、製造元がどこで、どのような加工を経て、どこの店頭に並ぶのかという一連の流れを適切に管理しようとするものです。

データリネージのメリット

自社のデータに対してデータリネージを適切に行き届かせるとどのようなメリットが生まれるのでしょうか。ここでは大きく3つのメリットについて解説します。

異常値・エラーへの対処が容易に

社内の様々な部署からDWHへとデータを統合し、いざ分析を行っていると、ある日の分析結果が明らかに異常なデータを含んでいた、あるいは一部のデータが欠落してしまっていて分析が行えなかった等のケースに遭遇します。

このとき、問題のあるデータがDWHへ統合されるまでのうちどこに問題があったかを細かく切り分けてトラブルシューティングを行っていきますが、そのデータが複雑なETLを経たデータであれば、形式(例:1234年12月12日 → 1234/12/12)やカラム名(例:”年” → “year”)が元のデータと異なってしまっていたり、元のデータが既に削除されていれば異常なデータかどうか比較ができないなど、問題の原因の特定が困難になります。

対してデータリネージが行き届いていれば、問題のあるデータが分析までのどの段階で問題を抱えたか容易に原因が特定でき、対処が容易となります。

データ分析結果にエラーがあってもDWHでの処理が管理できていなければ原因の特定は困難
分析結果にエラーがあっても、DWHでの処理が管理できていなければ原因の特定は困難です

分析結果の信頼性が向上

社内での意思決定に利用する際はもちろん、顧客に対してデータ分析結果を提示、あるいはその結果に基づく提案を行う際には、分析結果の正確さに加えて元データへの信頼性も重視されます。

仮に分析結果が正確なものであったとしても、元となるデータのソースは一部曖昧で、どのような加工を行ったかよくわからない、という分析では結果に対する信頼度は大きく損なわれてしまいます。

対して社内のデータにデータリネージが行き届いていれば、それが適切なデータの運用に基づく分析という保証になります。また社内の意思決定者や顧客に対し分析までの流れを詳細に説明することも可能です。

既存データパイプラインの活用

データ分析に使用するデータはその分析に不要なデータの除去や、単位やカラム名を揃えるための加工を行うケースが多いです。したがって、同じデータを用いて異なる視点から新たな分析を行おうとすると加工後のデータでは分析に使えないということがあります。

通常の運用であれば、その分析のために最適化されたデータパイプラインを別で構築する必要が生じます。

一方ETLの各処理でデータにどのような加工を行っていたかきちんと管理していれば、2つのデータパイプラインに共通するETLはそのまま、新たな分析に必要な処理のみを分岐させるという形で既存のデータバイプラインを活用することが可能です。

これにより、データパイプラインの構築にかかる物理的な手間や構築後の管理コストが抑えられるのはもちろんのこと、クラウド型のDWHサービスはDWHでのETLに対する従量課金であることが多いため、既存のデータパイプラインの活用はコスト面でもメリットがあります。

データパイプラインの活用方法
既存のデータパイプラインの活用にはメリットがあります

まとめ

データマネジメントには欠かせないデータリネージの考え方についてそのメリットに触れながら解説してきました。

データリネージは大規模なデータ分析基盤で価値を発揮しますが、その導入は規模の小さい初期の段階から少しずつ徹底させていく必要があります。今後のデータ分析ではぜひデータリネージを導入し、さらにデータ分析を加速させていきましょう。

また弊社が提供するデータ分析基盤構築・運用支援サービスのtrocco®にはデータリネージ機能があり、trocco®を利用したETLは、すべて下図のようにGUI上で容易に管理が可能です。

複雑な分析もフローがGUI上で確認出来ます
各ノードをクリックすると関連するDWHやワークフローを一覧にして確認出来ます

trocco®は無料のプラン・資料提供を行っており、実際に試してみての導入検討も可能です。

データリネージの導入に興味がおありの方はぜひご検討ください。

>troccoサービス紹介資料のダウンロード【無料】はこちら

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。