はじめに

データエンジニアリング、データ分析の世界でいまメタデータ(meta data、あるいはメタ情報とも)が注目されつつあります。

Googleトレンドから過去5年間の「meta data」についての検索について調べてみると近年急速にホットなワードになったことがわかります。

この記事では、そんないま押さえておきたいメタデータについて、様々な例を交えながら解説していきます。

メタデータとは?

メタデータとは、一言で言えばあるデータを説明するための「データについてのデータ」と定義できます。

例えると、Wordのドキュメントなどは作成者や最終更新日などの情報が内部的に記録されており、必要に応じて「いつ」「だれが」「何を」更新したのか確認することができます。
このとき、これらのデータ(作成者や最終更新日など)は元のドキュメントに対するメタデータになります。さらにいえば、メールアドレスや社員ナンバーといったドキュメントの作成者についてのデータも記録されていれば、それらのデータは元のドキュメントからするといわばメタデータに対するメタデータいえます。

このようにメタデータはどこまでも細かく記述することが可能ですが、実際にはある基準に従って切り捨てられています。この点は後で詳しく解説します。

メタデータとデータマネジメント

なぜ、近年メタデータが注目されるようになってきたのでしょうか。ひとつには近年の技術の発展に伴って、我々が扱うデータが量・質ともに膨大かつ高度になったことが挙げられます。

つまり、日々社内に蓄積される膨大なデータを安定的に処理し、データの利活用を進めるべくデータマネジメント(データ管理)が求められるようになりました。
データマネジメントは広い概念で、データベースに使用しているツールの保守運用や、データベースにアクセスできる人間を制限するなどもデータマネジメントの一環といえますが、このデータマネジメントにおいて注目されたもののひとつがまさにメタデータでした。

メタデータの活用

データマネジメントにおいてメタデータが活用されている例を2つ取り上げます。

データカタログへの活用

データマネジメントにおいて、メタデータはまずデータ利用者のニーズに応じて求めるデータに簡単、かつ正確にアクセスするための目録としての用途が期待されました。

ちょうど図書館の蔵書目録を作成して検索に使用するようなもので、あるデータについて誰がどのように取得したデータなのかなど他のユーザーが検索しやすいデータをメタデータとして付記しておくことでデータの検索性を高めるという仕組みです。

このようなメタデータの活用法を文字どおりデータのカタログ(目録)で特に「データカタログ」といいます。いわゆるメタデータの活用といえば、真っ先にイメージするのがこのデータカタログへの活用という方もいるのではないでしょうか。

またデータカタログについては詳しくこちらで取り上げておりますので、この機会にぜひご覧ください。

データリネージへの活用

データカタログと並んでメタデータの活用法として期待されたのがデータリネージへの活用です。

データ分析において、オリジナルの生データの改変・消失リスクや、未整備のためそもそも分析に使用しづらいなどの理由から、生のデータをそのまま分析に使用することは一般的ではありません。通常、生のデータは目的に応じて複雑な加工・変換作業にかけ、分析用のデータベースに整備されていきます。ときには無関係の別のデータベースからデータを引っ張ってくることもあります。

このとき、あるデータがどこのデータベースに由来するデータなのか、どのような加工を経たデータなのかといったデータをメタデータとして付記しておくことでデータリネージを高めることが可能です。

データリネージについても詳しくこちらで取り上げておりますので、この機会にぜひご覧ください。

メタデータの課題

データマネジメントの分野で活用が期待されるメタデータですが、一方でメタデータを理解する上でいくつか課題を認識しておく必要があります。

メタデータの活用イメージが必要

冒頭ではメタデータの例としてWordのドキュメント等に記録される作成者や最終更新日などを挙げましたが、これら作成者や最終更新日についてのメタデータを記述し、さらにそのデータについてのデータを記述していくなど、メタデータは際限なく記述することが可能です。

したがって、実際にメタデータを活用する際には、そのメタデータの活用法をなるべく具体的にイメージし、その活用イメージに対して適切な範囲・内容でメタデータを記述するというハンドリングが必要になります。

ただし、メタデータの活用は0からイメージを膨らませても具体的な形にならないかもしれません。メタデータを活用する際には自社のデータベースが抱える課題と、上記の活用法などとを照らし合わせてイメージを固めていくことが有効です。

メタデータの作成・収集の大変さ

上記で述べたようなメタデータの活用は、いずれも社内のデータひとつひとつについてメタデータがきちんと作成・収集され、集中管理されていることが前提となります。

ですが、例えばデータの作成者(あるいは収集者、管理者など)というメタデータひとつ取ってもこれをひとつひとつ人が手入力で管理することは現実的ではなく、メタデータの活用は同時にメタデータを効率よく作成・収集し、管理できるシステムの整備とセットで考える必要があります。

このようなシステムの整備なしにメタデータの活用法を膨らませたとしても、結局実用に堪えないシステムとなってしまいます。

まとめ

いまデータの世界でもっともホットなワードのひとつであるメタデータについて、データマネジメントへの活用という点から解説していきました。

今回紹介した活用例はいずれもデータマネジメント上ある程度の効果が期待できるものです。「せっかく社内にデータが揃っているのにマネジメントが行き届かず上手く活用できていない」、「各エンジニアがデータベースをいじりすぎてもはや全体像を管理できない」、「社内データベースが実質ごく少数のエンジニアチームのブラックボックスと化している」などの課題を感じている方は、ぜひこれらの例を参考にメタデータを活用したデータマネジメントを進めてはいかがでしょうか。

なお弊社が提供するデータ分析基盤構築サービスtrocco®は今回紹介したデータカタログ、データリネージの機能を標準で提供しており、trocco®が自動的にメタデータの作成から収集、管理を行い、高度なデータマネジメントを提供します。

trocco®は無料のトライアルも実施しておりますので、メタデータの活用に興味がある方はご検討ください。

https://trocco.io/lp/index.html

メタデータが育てる、もっと使いたくなる分析基盤
hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。