はじめに

技術の進歩により膨大な量のデータが取り扱われるようになり、データの利活用が進む一方で増え続けるデータをどのように管理するのかというデータマネジメントが大きな課題となります。

この記事ではビッグデータのマネジメントにおいて大きな強みを発揮するデータカタログについて解説します。また最後にはデータカタログ実践のヒントについても触れることにします。

データカタログとは?

「どのような構造のデータであるか」「いまどこにあるのか」「どのように取得されたのか」などデータを説明するデータをメタデータといいます。そしてデータカタログとは一言でいうなら“メタデータを管理するシステム”です。メタデータの管理を通じて、大元のデータに対してより高度なデータマネジメントを可能とするのがデータカタログの意義となります。

データカタログの作り方

メタデータの管理というと身構えてしまいますが、イメージとしては図書館の蔵書目録を集中的に管理するようなものです。ある市内の図書館それぞれで蔵書の目録を作り、それが集中管理されているからこそ図書館の利用者はひとつの図書館の窓口から市内全域の図書館へ蔵書の検索がかけられます。

データカタログも同様に、まずメタデータを作成、収集してユーザーが求めるデータに簡単にアクセスできるよう整えるというのが基本的な考え方です。

したがって社内のデータについてデータカタログを構築する際は

  1. ユーザーの検索ニーズを洗い出す
  2. 洗い出したニーズをカバーしたメタデータを作成する
  3. メタデータを収集し、メタデータのデータベースを作る
  4. ユーザーがそのメタデータベースにアクセスできるよう整える
  5. メタデータのデータベースを常に最新の状態にアップデートし続ける

というステップを踏んで完成します。

データカタログのメリット

データカタログによって大きく2つのポイントからデータの活用が促されます。

データ分析サイクルのスピード向上

データレイク層のデータベースには形式や書式、データの順序がバラバラな生のデータが格納されるため、DWHを作成しようとする際には、その膨大なデータから必要なデータを取り出してくるという作業から始まるのが一般的です。(データレイクとDWHとの関係についてはこちらをご覧ください。)

取り扱うデータの量が大きいほどこの作業の負担も大きくなり、この泥臭い作業は社内のデータエンジニア/サイエンティストにとって分析の大きな足かせとなってしまいます。

対してデータカタログの仕組みがきちんと整備された体制下では、どれだけデータ量が膨大であっても抽出作業が容易なため、それらのデータを分析して今後の戦略や施策の効果を測定するといった真に価値ある作業へリソースを集中することが可能となります。

データ分析の信頼性向上

データリネージについてでも触れたように、適切なデータマネジメントはデータ分析の信頼性を高めることが可能です。

先ほど上で触れたように、データ分析の第一歩は膨大なデータから必要なデータを取得してくることですが、本来は分析に含めるべきデータが欠落したまま、あるいは本来含めるべきでないデータ(データの二重集計など)が含まれたまま分析を行ってしまうと正しい分析結果を得ることが出来ません。

必要なデータへ容易にアクセスできるというのは、裏を返せばデータの検索段階で分析に関係のないデータを弾くのもまた容易になるということで、したがって分析元のデータへの信頼性が高まり、間接的にデータ分析の結果をより確かなものにしてくれます。

またデータベースの管理者といったセキュリティ情報をメタデータに含めて記述しておくことで社内データに対するガバナンスを高めることが出来ます。

データカタログの課題

取り扱うデータの量に比例して大きなメリットを発揮してくれるデータカタログですが、その運用にあたってはいくつか注意すべき点があります。

データに対するニーズは変化する

ユーザーのニーズが不明確なままデータカタログを整備した場合、結局ユーザーが欲しいデータにたどり着けない、逆に欲しいデータに対してメタデータが過剰などアンバランスなデータカタログになってしまうかもしれません。はじめにユーザーのニーズを明確化し、それに沿って整備をしていくことが理想ですが、ユーザーのニーズは必ずしも不変のものではないため、ニーズの変化によってはデータカタログ側にも対応が必要となり、改修が発生する可能性があります。

メタデータの作成と収集の大変さ

一度データカタログの仕組みを整備したとしても、その運用にあたっては日々蓄えられる新たなデータの全てに対してメタデータを作成し、中身をアップデートし続ける必要があります。

メタデータの作成と収集に時間的なコストがかかってしまうようでは本末転倒であるため、データカタログの整備と並行して効率よくメタデータを作成、収集できる仕組みの整備が求められます。

まとめ

メリットとデメリットの両面に触れながらデータカタログについて解説しました。

その導入、運用のハードルは高いかもしれませんが、自社のデータ分析をさらに加速させるデータカタログをぜひ取り入れてみましょう。

また弊社のtrocco®にはデータカタログ/データディスカバリー機能があり、Google BigQuery・Snowflakeをベースとしたメタデータの自動作成・収集、メタデータ検索が可能なほか、ユーザーに対して各テーブルの情報を視覚的に共有することが可能で、これまで述べてきたデメリットを解消しつつ容易にデータカタログのシステムを整えることが可能です。

その他データ分析を強力にサポートする機能が多くあります。

https://trocco.io/lp/function/data-cataloging.html

現在、クレジットカード不要のフリープランや無料の製品資料を提供しています。興味がおありの方は、この機会にぜひご検討ください。

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。