全社的な経営方針の決定から、現場レベルの施策評価まで、規模の大きさを問わずデータの活用はますます盛んになっています。

一方で、増え続けるデータ量と複雑化するデータ活用のプロセスに対し、企業は「いかにデータを適切に管理するか」というデータマネジメントの課題に直面しています。

データマネジメントは11の領域にわかれて体系化されており、そのうちのひとつが本記事のテーマである「データ品質」を高める取り組みです。

本記事でデータの品質とはなにか、データの品質を高めることの意味を理解し、自社のデータマネジメントに役立てていきましょう。

データ品質とは

データをある製品(プロダクト)とみなし、品質管理の手法をデータマネジメントに取り入れる「プロダクトとしてのデータ」の考え方があります。

データアナリスト・セールスやマーケティングなど現場のデータユーザーにとって、どのようなデータが使いやすいかを考える際に用いられる考え方です。

この「プロダクトとしてのデータ」に基づき、製造業の品質管理と同様にデータの質をある基準によって評価し、データの良し悪しを決めるのがデータ品質です。データ品質の評価基準は、自社のデータの用途に応じて決める必要があります。

後述する評価基準のひとつ「適時性」は、データにいつでもアクセスできるかを評価する基準です。しかしたとえば年次レポートのデータは年に一度しか利用されないため、データの適時性を高めてもあまり意味がなく、データ品質の向上につながったとはいえません。

同様に、一般社員に共有するにはリスクの大きい機密データの適時性を高めても、セキュリティ上のリスクが増すばかりです。

一方で、毎日・毎週の頻度で振り返る必要があるデータには、高い適時性が求められます。データに対するユーザーのニーズを踏まえて最適な要素を高めることで、品質の高いデータを提供できます。

データ品質の管理を怠るリスクと重要性

データの主な用途の一つ「データ分析」では、分析元のデータが誤りを含んだまま分析を実行すると、分析結果も誤りを含んでしまいます。

誤った分析結果に基づく意思決定は、知らず知らずのうちに自社へのダメージにつながるかもしれません。

もちろん分析結果の大筋が間違っていなければ、結果の誤りは無視できる程度の影響しか生まないでしょう。ですが本来有意でない要素を有意と誤解して、それを重視した判断をしてしまうなど、ビジネス上のリスクを防ぐためにもなるべく誤差が生まれるのは避けたいところです。

データ分析の誤差はさまざまな原因が考えられます。

  • 元のデータのエラー
  • 分析前の仮説のエラー
  • 分析結果の解釈のエラー

上記のうち、人の目でもっとも気づきにくいのが元データのエラーです。

とくにデータを収集する現場と、データ分析チームとが異なる体制では、データにくわしくないデータ分析チームが元データのエラーに気づくことはまず不可能です。

データ品質の管理を怠ると、期待した結果が得られないばかりか、その原因の特定も困難になり、円滑なデータ活用を大きく妨げてしまいます。

データ分析だけでなく、画像認識や音声データの活用においても同様です。用途を問わず、データをうまく活用するには少しでもデータ品質を向上させておくことが重要になるのです。データ品質を高めておくことでユーザーは安心してデータを利用でき、精度の高いデータ活用の土台を提供できます。

データ品質を測定する評価基準

データ品質の考え方は歴史的にはまだ浅い考え方であるため、統一的なデータの評価基準はまだありません。

データ分析やシステムエラーの監視、レポートの作成など、自社のデータの用途に応じて、企業ごとにデータ品質の評価基準を定める必要があります。

参考までに、国際基準のひとつ「ISO/IEC 25012(データ品質の評価)」をベースに日本政府が提供している評価基準は15種類が存在します。その評価基準のなかでも以下の7種類の基準を取り入れると有効です。

  • 正確性
  • 完全性
  • 一貫性
  • 一意性
  • 整合性
  • 適時性
  • 有効性

以上の評価基準を基本にしたうえで、自社独自の評価基準を定めてもよいでしょう。

正確性

正確性は、もっとも基本的なデータの評価基準のひとつで、主にデータ分析に使用されるデータではとくに重要です。

集めたデータが「入力ミスや表記揺れなどの誤りを含んでいないか」、「分析するに足る最新のデータか」などを確認しましょう。

データを取得する段階での正確性にも注意が必要です。

たとえば、ユーザーアンケートではユーザーが故意に不正確な回答をする可能性があります。データが正確性を欠く要因を予め考えておき、不正確なデータをチェックして弾ける仕組みが必要です。

完全性

完全性は、データが必要な情報をきちんと備えているかを評価する基準です。

顧客の属性分析では年齢や性別を属性として使用しますが、その情報を欠いた顧客データは分析に使用できません。

完全性はデータの母数にも影響します。

多くのサンプルからデータを集めても、完全性が低ければ結局母数の小さいデータ分析になってしまい、分析結果の精度が下がってしまいます。

データの完全性を高めるには有効な手段が2つあります。

ひとつはデータの取得段階で入力必須の項目を作っておくことで、正確な入力かはともかく、完全性の低下を防止できます。

ふたつめは統計的な補完です。

ほかの情報から欠けている部分の情報を統計的に推測し、補えるケースがあります。ただし実際のデータと完全な一致は期待できないため、始めから正確なデータを取得するよう工夫するほうがベターといえます。

一貫性

一貫性は、同じ対象のデータベースが複数ある場合に、それらが共通のデータを保持しているかを評価する基準です。

たとえば、2人のデータサイエンティストが同じ手法・同じ仮説でデータを分析したにもかかわらず、元にするデータが違うために結果が異なってしまっては、どちらを信じればいいかわかりません。

一貫性の確保に有効なのは、社内すべてのデータが格納されているマスターのデータベースを用意することです。元にするデータを明確にしておくと、一貫したデータ分析の結果が得られます。

統一されたデータベースがなく、セールスとマーケティングなど異なる部門がそれぞれのデータベースで顧客データを分析するケースがあります。

  • セールス:顧客AのデータをデータベースBで分析
  • マーケティング:顧客AのデータをデータベースCで分析

そのような場合は、どちらのデータベースのデータをマスターとみなすか、一貫性を考慮する必要があります。

一意性

一意性は、データを一意に特定できるような工夫があるかを評価する基準です。

「データを一意に特定する」とは、たとえば同姓同名の顧客に関するデータのように一見見分けがつかないデータがあるとしましょう。そのような場合に、両者を明確に区別できるような工夫がなされていることです。

上記のケースでは、「ユニークな=重複のない顧客ID」を付す工夫が有効です。しかしさきに述べた一貫性がないデータベースでは、ユニークなはずの顧客IDも重複してしまい、顧客IDで見分けがつかなくなります。

一貫性と一意性は深い関係にあるため、一貫性と一意性はセットで検討されることが多いです。

整合性

整合性は、データ同士の整合性を評価する基準です。

データは収集したのちに用途に応じて加工することがあります。

「データを並び替え」や「分析に不要なデータを削除する」など、シンプルな操作であればデータ同士の整合性を意識する必要はほとんどありません。

「データ間の桁数を揃えるためにデータを100倍する」

上記のケースのように、データの値が書き換わるような加工であれば、加工後のデータが想定通りのデータか整合性を検証する必要があります。

整合性の評価は正確性の評価とも関係していますが、整合性はとくにデータの加工による正確性の低下を防ぐための評価基準です。

適時性

適時性は、データへのアクセシビリティを評価する基準です。

高いデータ品質のデータベースを構築しても、ユーザーがデータを利用するたびにデータエンジニアに頼らなければいけない体制では、データ活用のボトルネックになってしまいます。

非データエンジニアでもデータの加工が可能なツールを導入するなど、データエンジニアに頼らずとも、ユーザーがデータへアクセスできる体制を整える必要があります。

一方で、過度にユーザーにアクセスを許してしまうと、データエンジニアがユーザーの動きを管理できなくなってしまうリスクもあります。

つまり高い適時性の実現はユーザーにとって「必要なデータに」「必要な範囲」でアクセスできるよう管理することが理想です。

有効性

有効性は、データがきちんと分析に使えるかどうかを評価する工夫です。

データの取り扱いでは「データ型」を意識する必要があります。

たとえば、”数値”の「0」や「1」と、”文字列”の「0」や「1」は異なるものと認識されます。半角の数字と全角の数字も同様です。

そのため、売上など数値を分析する場合は、前もってデータを数値に整えておく必要があります。

ほかにも売上データを「3,000,000(千円)」などと入力しているケースでは、実際の値とデータとして入力されている値が異なり、分析前に実際の値へならしが必要です。

男性の人数や既婚者の人数を数えるケースでは、これらの属性を「0」や「1」など数値として扱える有効なデータに整えておく必要があります。

データ品質を維持・向上させるための戦略

ビジネス上の目的を達成するための戦略としてデータ品質を向上させるには、大きく分けて以下の4つのステップが有効です。

  • プロセスの設計
  • 組織の体制づくり
  • 不要なデータの切り捨て
  • 定期的なフィードバック

データ品質の向上を一時的なもので終わらせないようにしましょう。

新規サービスとの連携や新しいデータ活用の用途など、データ環境の変化のなかでもデータ品質を維持し続けるには、上記のステップを継続的に回すことが重要になります。

プロセスの設計

データ品質は「プロダクトとしてのデータ」の考えに基づく考えです。

実際の製品設計と同様、社内のデータユーザーからのニーズをヒアリングし、そのニーズを満たすようなデータ品質の要件を考えます。

データの取得方法やクレンジング、運用のモニタリングなど、要件が固まってきたらデータを提供するための基本的なプロセスを設計しましょう。

また、このデータベース全体の設計は「データモデリング」とも呼ばれており、ある程度ノウハウが定式化されています。参考にしてください。

注意すべきは、社内のデータに対するニーズを一挙に満たそうとすると設計が終わらない点です。細かい改善サイクルを回す前提で、部署・部門などに区切ってプロセス設計するのが有効な対策です。

組織の体制づくり

プロセスを設計するなかで、組織の体制をそのプロセスに最適化する必要が生じるかもしれません。

データエンジニアチーム内でデータの加工処理の担当、モニタリングの担当を決めるなど、設計したプロセスに合わせて運用を最適化しましょう。

データエンジニアチームの工夫だけでなく、ほかのチームの協力が必要になるケースもあります。

データを部署・部門に分散管理させるデータメッシュの要素を持つアーキテクチャを採用すれば、各部署・部門にデータの責任者を設定して彼らにデータの品質管理責任を担ってもらう必要があります。

不要なデータの切り捨て

データを抱えすぎて管理が行き届いてない企業は少なくありません。

たとえば部署・部門間の連携が取れていないために、似たようなデータベースがいくつも併存しているケースは多いです。

データの整頓も重要ですが、不要データの整理もまた重要です。

自社のデータ活用の実態を把握していくなかで、不要なデータがあれば切り捨てていきましょう。

必要なデータのみを残していくことで、トータルの管理コストを下げることができるのはもちろん、データの一貫性・一意性の向上が期待できます。データ品質を維持・向上させるためは、不要なデータを切り捨てるステップが欠かせません。

まとめ

本記事ではデータマネジメントのひとつである、データ品質の重要性や向上へ向けた取り組みのステップを紹介しました。

日本ではデータ品質に対する意識はまだ高くないかもしれません。しかし海外のデータ活用の現場では、「Garbage In, Garbage Out (GIGO). “ゴミを入れたら、ゴミがでてくる。」というフレーズが広く知られており、データ品質を高める重要性が認識されています。

今後ますますデータ品質を意識した運用は一般的になってくることでしょう。ぜひ先の未来を見越して、自社のデータ品質を高める取り組みを導入してはいかがでしょうか。

※海外でのデータ品質を高める取り組みは下記の記事をご覧ください。

「データコントラクト」超入門〜データパイプラインのスケールを促進するチーム間「契約」の考え方とは?〜

また弊社が提供するデータ分析基盤構築サービスtrocco®は、単なるETL機能だけでなくデータ品質を高めるシステムを多く備えています。

ワークフロー機能を利用したデータ統合の自動化により、適時性を高めることができるほか、データチェック機能によりエラーデータを検出、正確性を高めるモニタリングをサポートするなど、データ分析の運用をトータルで支援するツールです。

trocco®では、クレジットカード不要のフリープランをご案内しています。ご興味がある方はぜひこの機会に一度お試しください。

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。