はじめに

データエンジニアリング、データ分析の世界でいまメタデータ(meta data、あるいはメタ情報とも)が注目されつつあります。

Googleトレンドから過去5年間の「meta data」についての検索について調べてみると近年急速にホットなワードになったことがわかります。

この記事では、そんないま押さえておきたいメタデータについて、様々な例を交えながら解説していきます。

メタデータとは?

メタデータとは、一言で言えばあるデータを説明するための「データについてのデータ」と定義できます。

たとえば、Wordのドキュメントなどは作成者や最終更新日などの情報が内部的に記録されており、必要に応じて「いつ」「だれが」「何を」更新したのか確認することができます。
このとき作成者や最終更新日などのデータが元のドキュメントに対するメタデータになります。

さらに、メールアドレスや社員ナンバーなどドキュメントの作成者についてのデータも記録されていれば、それらのデータは元のドキュメントからするとメタデータに対するメタデータといえます。

メタデータはどこまでも細かく記述することが可能ですが、実際にはある基準に従って切り捨てられています。この点は後ほどくわしく解説します。

メタデータとデータマネジメント

なぜ、近年メタデータが注目されるようになってきたのでしょうか。

ひとつには近年の技術の発展に伴って、我々が扱うデータが量・質ともに膨大かつ高度になったことが挙げられます。

つまり、日々社内に蓄積される膨大なデータを安定的に処理し、データの利活用を進めるべくデータマネジメント(データ管理)が求められるようになりました。
データマネジメントは広い概念で、データベースに使用しているツールの保守運用や、データベースにアクセスできる人間を制限するなどもデータマネジメントの一環です。

このデータマネジメントにおいて注目されたもののひとつがまさにメタデータでした。

メタデータの活用

データマネジメントにおいてメタデータが活用されている例を2つ取り上げます。

データカタログへの活用

データマネジメントにおいて、メタデータはまずデータ利用者がデータに簡単かつ正確にアクセスするための目録としての用途が期待されました。

ちょうど図書館の蔵書目録を作成して検索に使用するのと同様のしくみです。

あるデータについて誰がどのように取得したデータなのかなど他のユーザーが検索しやすいデータをメタデータとして付記しておくことでデータの検索性を高めます。

このようなメタデータの活用法を文字どおりデータのカタログ=目録でとくに「データカタログ」といいます。いわゆるメタデータの活用といえば、真っ先にイメージするのがこのデータカタログという方もいるのではないでしょうか。

データリネージへの活用

データカタログと並んでメタデータの活用法として期待されたのがデータリネージへの活用です。

データ分析において、「オリジナルの生データが改変・消失するリスクがある」「データが未整備でそもそも分析に使用しづらい」などの理由から、取得してきたままの生のデータをそのまま分析に使用することは一般的ではありません。

通常、生のデータは目的に応じて複雑な加工・変換作業にかけ、分析用のデータベースに整備されていきます。ときには無関係の別のデータベースからデータを抽出して結合することもあります。

このとき、あるデータが「どこのデータベースに由来するデータなのか」「どのような加工を経たデータなのか」などの情報をメタデータとして付記しておくことで、データリネージを高めることが可能です。

メタデータの課題

データマネジメントの分野で活用が期待されるメタデータですが、一方でメタデータを理解する上でいくつか課題を認識しておく必要があります。

メタデータの活用イメージが必要

冒頭ではメタデータの例としてWordのドキュメント等に記録される作成者や最終更新日などを挙げました。これら作成者や最終更新日についてのメタデータを記述し、さらにそのデータについてのデータを記述していくなど、メタデータは際限なく記述することが可能です。

したがって、実際にメタデータを活用する際には、そのメタデータの活用法を具体的にイメージし、その活用イメージに対して適切な範囲・内容でメタデータを記述するというハンドリングが必要になります。

ただし、メタデータの活用は0からイメージを膨らませても具体的な形にならないかもしれません。メタデータを活用する際には自社のデータベースが抱える課題と、上記の活用法などとを照らし合わせてイメージを固めていくことが有効です。

メタデータの作成・収集の大変さ

上記で述べたようなメタデータの活用は、いずれも社内のデータひとつひとつについてメタデータがきちんと作成・収集され、集中管理されていることが前提となります。

ですが、たとえばデータの作成者(あるいは収集者、管理者など)というメタデータひとつ取ってもこれをひとつひとつ人が手入力で管理することは現実的ではありません。

メタデータの活用は、同時にメタデータを効率よく作成・収集し、管理できるシステムの整備とセットで考える必要があります。

このようなシステムの整備なしにメタデータの活用を試みても、結局実用に堪えないシステムとなってしまいがちです。

まとめ

いまデータの世界でもっともホットなワードのひとつであるメタデータについて、データマネジメントへの活用という点から解説していきました。

今回紹介した活用例は、どちらも全社的なデータ活用には欠かせないマネジメントのひとつです。

「せっかく社内にデータが揃っているのにマネジメントが行き届かず上手く活用できていない」、「各エンジニアがデータベースをいじりすぎてもはや全体像を管理できない」、「社内データベースが実質ごく少数のエンジニアチームのブラックボックスと化している」などの課題を感じている方は、ぜひメタデータを活用したデータマネジメントを進めてはいかがでしょうか。

なお弊社が提供するデータ分析基盤構築サービスtrocco®は今回紹介した「データカタログ」「データリネージ」機能を標準で提供しており、trocco®が自動的にメタデータの作成から収集、管理を行い、高度なデータマネジメントを提供します。

trocco®は、クレジットカード不要のフリープランや無料の資料請求を提供しています。メタデータの活用に興味がある方はぜひこの機会にお試ください。

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。