非エンジニアにも扱えるETLツールや、安価な導入コストで利用できるクラウド型のDWH(データウェアハウス)の普及によりデータ分析のハードルは大きく下がりました。

その結果、データ分析は簡単になったものの、データの品質を保ち運用するために、どのようなデータを管理すればよいかを考える「データマネジメント」が課題になっています。

データマネジメントは、アメリカのデータエンジニアによって17の領域にカテゴリー化されています。(データマネジメント知識体系ガイド 第二版

カテゴリーのなかのひとつ、「データ品質」を高める取り組みが、本記事のテーマ「データクレンジング」です。

本記事ではデータクレンジングを導入し、データの整理整頓を進めるステップを解説しています。データクレンジングを導入し、データ品質の向上をとおしてデータ分析をさらに高度化させましょう。

データクレンジングとは

データクレンジングは、収集した一次データを修正、削除してデータの品質を向上させることです。

欠損したデータを補ったり、エラーデータを削除したり、安心して分析に使用できるデータを用意することが、データクレンジングの目的です。

類似するワードに「データクリーニング」がありますが、データクレンジングと同じ意味と捉えて問題ありません。

またデータの整理整頓と聞くと、「名寄せ」のキーワードが思い浮かぶ人もいるでしょう。複数のデータからひとつのターゲットのデータを集約する名寄せに対して、データクレンジングは一つひとつのデータを整える違いがあります。

データクレンジングはなぜ必要?

一般的に、収集された状態の一次データを、品質をチェックしないまま分析・活用するのは難しいと言われています。

ユーザーアンケートを例に挙げてみましょう。アンケート項目を緻密に考えたとしても、ユーザーが意図的に偽った回答をするのは可能で、すべてのアンケート対象者が期待通りの回答をしてくれるとは限りません。

ユーザーが正確な回答をしていても、そのデータをPCへ手入力していればうっかり誤入力してしまうケースもあります。

正確でないデータを分析に使用してしまうと、分析結果も誤りを含んでしまいます。その結果、ビジネス上の意思決定で、進むべき方向性を間違えるなどのリスクがあります。

また仮に一次データが正確であっても、正確さを保証する仕組みがなければ分析結果の信頼性が低下し、意思決定に役立てることができません。

いずれにせよ、一次データをそのまま分析・活用するのは信頼性の面から難しく、事前にデータの正確性を高める取り組みが必要です。

そのための工程がデータクレンジングになります。重要な意思決定にも活用できる信頼性の高いデータ分析が欠かせません。

具体的なメリットは次の章で解説します。

データクレンジングを実施するメリット

データクレンジングを行うことでデータの正確性を高め、分析結果の信頼性の向上が期待できます。

従来のデータクレンジングは、データの正確性のみにフォーカスしたデータの整頓作業でした。しかし近年は形式の異なる複数のデータを交えて分析にするケースもあり、正確性にくわえ単位や書式なども整える広義のデータクレンジングが一般的になっています。

そのような背景情報をふまえて、データクレンジングを通じて得られる3つの大きなメリットを解説します。

データ品質・精度の向上

データを整える際にもっとも注目されるのがデータの正確性です。しかし、データを評価する基準はデータの正確性だけではありません。

データの正確さにくわえ、データの形式などからデータのクオリティの良し悪しを評価するのが、「データ品質」という考え方です。

部署・部門ごとに異なっているデータ形式を共通の規格に整える、社内で定義が異なるデータ(「売上のデータ」といったときに日次データや月次データが混在しているなど)を統一できるのも、データクレンジングのメリットです。

データ形式が統一され、分析元のデータに対する認識が揃っていると複数のデータベースを用いた大規模な分析も高い精度で行うことができます。

データ品質を高めるクレンジングを行うことで、最終的な分析結果も正確で信頼できるものになり、安心して意思決定に活用できます。

データ品質については以下の記事でくわしく解説しています。

データ品質とは?評価基準や品質を向上させる戦略、管理を怠るリスクを解説

業務の効率化

データの正確性が高くても、「数値表記」と「%表記」が混在しているのは分析業務のボトルネックになります。分析のたびにデータ形式をいずれかに統一する必要があるからです。

また形式や単位が異なったデータを分析に使用すると、「(千円)1,000」と入力されたデータをそのまま¥1,000と扱ってしまうなど、分析でミスを招く原因になってしまいます。

そこで大きく役立つのがデータクレンジングの数値の形式や単位を統一できる役割です。データを分析しやすい形に整え、分析業務の効率化につなげられます。

さらに同時に分析ミスのリスクを下げられる利点もあります。

データベースの運用コストの削減

近年主流のクラウド型のデータベースサービスは、内部を流れるデータの量に応じて利用料金が決まる従量課金制のサービスが多く、扱うデータ量が少ないほど運用コストを安価に抑えられます。

データクレンジングは、データを整理整頓してデータ分析を最適化できます。分析に不要なデータは削除することで、データ分析基盤の運用コストを抑えられるメリットがあります。

顧客データを例にすると、具体的な顧客の氏名や住所、電話番号などの個人情報データが該当します。分析に使われることはほとんどないため、クレンジングで削除してしまうとよいでしょう。

また分析に不要なデータをいくつも含んだまま分析しようとすると、どのデータが分析に必要かわかりずらく、分析業務の効率化を下げる一因にもなってしまいます。

データ分析が浸透すると社内で扱うデータ量も増え、運用コストがかさみます。

定期的なクレンジングによって運用コストを削減することは、効率よくデータ分析基盤を拡大していくにあたって大きなメリットです。

失敗しない!データクレンジングを進める5つの手順

データ分析のたびに使用するデータを個別にクレンジングするのもひとつの手段です。しかし現実には人の手では追いつかないほど膨大な量のデータを整える必要があるため、システムを活用した自動化が失敗しないデータクレンジングの前提条件になります。

人の手に頼らないデータクレンジングのシステムを構築し、データを活用するには以下の5つのステップで進めていくのが有効です。

社内に存在する重要なデータの選定

データクレンジングを社内のすべてのデータに対して、一斉に実施するのは困難です。まずはじめに、データクレンジングの効果が大きい重要データから取り掛かるのが有効です。

あるデータは、そのデータが元データに近いほど重要度が高いと考えられます。

多くのユーザーが参照し、さまざまな分析に使用されているためです。

たとえば、社内の各所で参照されている名寄せ後の顧客データに課題を感じており、クレンジングしたとします。

クレンジングによって、これを参照している多くのデータでメリットが得られそうですが、そもそもの名寄せ前の段階のデータがクレンジングされていないとデータの正確性が保証されず、クレンジングによるメリットが小さくなってしまいます。

したがって、この顧客データの例であれば、一見重要度は低いように思えても名寄せ前のデータからクレンジングすることが重要です。

元データに近いデータでなくとも、社内の重要な意思決定に活用されているデータは、優先的にクレンジング対象に選びましょう。

データ収集・整理

データエンジニアを中心にして、社内のデータマネジメントを進めるには、彼らがデータに直接アクセスできる領域にデータが一元管理されていることが前提条件です。

選定した重要なデータをそのデータの責任者から収集し、データエンジニア管轄の中央データベースに統合して整理しましょう。データを統合する際は、そのデータを元にしている別のデータもある程度まとめて芋づる式に統合するのが有効です。

無闇にデータをひとつずつ統合していくと、データベース上での再構築が大変になってしまいます。しかしデータ同士のまとまりを意識することで統合ハードルを下げられます。

データクレンジング

統合したデータベース上でデータクレンジングを行います。

具体的にはデータに必要な要件を考えながら、ひとつずつデータ品質を高める作業を実施しましょう。

またデータクレンジング作業はSQLを用いて行う場合が多いです。どのような基準で、どのデータを修正・削除したのかをSQLに残しておくとよいです。

新たにデータが追加されても同様の基準でクレンジングが実施でき、結果を担当者のセンスに委ねず同じ結果を再現できます。

名寄せの実施

データクレンジングと名寄せは正確には別の作業ですが、名寄せを行うことでデータ品質のうち一貫性や一意性を高められます。

中央データベースへのデータ統合により、サイロ化していたいくつかのデータ同士でより高度な名寄せができるようになるため、データクレンジングと同時に、名寄せも実施しましょう。

名寄せは、各部署・部門からデータを収集して統合します。データのユニークキーが「顧客名」だったり「顧客ID」だったりとルールが異なるケースが考えられます。

データを統合していくなかで、各部署・部門の責任者と認識を合わせながら名寄せのルールを決めましょう。

また今後は新しい名寄せのルールに従ってもらうよう、現場のデータユーザーにも協力してもらう必要があります。

データ検証

データクレンジング・名寄せが一段落したらデータが扱いやすくなっているか、きちんとクレンジングされているかデータの検証を行いましょう。

データの検証ができたら、メタデータ(データについてのデータ)として残しておくことが重要です。具体的にどのようなクレンジングを行ったかをあらためて確認できます。

データは一度統合したら終わりではありません。絶えず生成される新しいデータを統合し続け、またクレンジングも行い続ける必要があります。その際に同様のルールでデータのクレンジングが行えるようにしておくために、メタデータを残しておく工程が必要です。

Excelを活用したデータクレンジングのやり方

数万行を超える大規模なデータのクレンジングは、SQL、正規表現を利用しなければ追いつきません。しかしそこまでのデータでなければ、Excelで簡易的にデータクレンジングが可能です。

たとえばエラーの値があるかどうかは、範囲内の最大値・最小値を返す関数によってチェックできます。形式のルールを決め、そぐわないデータをハイライトするよう条件付けることで、形式面での不一致を検出可能です。

エラーデータを見つけてデータ品質を高めるデータチェックは、以下の記事でくわしく解説しています。

データチェックとは?7種類の概要や活用範囲の例をわかりやすく解説

データクレンジングを実施するうえで守るべきルール

データクレンジングを導入してデータマネジメントを高めるうえでの注意点は、クレンジングの基準をルール化、そのクレンジングのプロセスを標準化して再現可能にすることの2点です。

いずれのポイントもクレンジングの結果が担当者のセンスに属人化してしまうことを防ぐとともに、新しいデータが加わるたびに人の手でクレンジング作業を行う工程のボトルネックを解消します。

とはいえ、初回のクレンジングだけは人の手で行う必要があります。

データクレンジングの基準は、そのデータがどのように活用されているかを考慮して定める必要があり、システムの自動設定でこれを賄うのは難しいからです。

人の手でどのような基準でどのようなデータを修正・削除したのかをメモし、システムで同様の手順が再現できるようにしましょう。

また、クレンジングの結果は定期的に目視で確認し、設定した基準が現在も意図した通りのクレンジングを行っているかチェックしてください。これらのルールを守ることで、データクレンジングの恩恵を最大限に受けられます。

データクレンジングの目的は単に形式の統一、エラーデータの修正そのものではなく、データ分析に適した品質の高いデータを提供することです。そのためには人の手で確認するプロセスも重要であることを覚えておきましょう。

まとめ

データ品質を高め、分析業務の効率化も期待できるデータクレンジングの手順やメリット、Excelを活用したやり方を解説しました。

データ基盤を導入したもののデータの正確さに自信がないという方は、データクレンジングを取り入れ、自社のデータマネジメントを高めてはいかがでしょうか。

また現状のデータをクレンジングすることも重要ですが、そもそもエラーデータ、形式に合わないデータをシャットアウトするのも有効です。

弊社のデータ分析基盤構築サービスTROCCO®はデータのETLがメイン機能です。しかしデータマネジメントをサポートする機能や、エラーデータをチェックするデータチェック機能を備えています。

非エンジニアにも使いやすいETL機能だけでなく、エンジニアチームによるデータマネジメントもトータルでサポートでき、別途ツールを導入することなく大規模なデータ基盤でも高いレベルのデータマネジメントを実現できます。

データの連携・整備・運用を効率的に進めていきたいとお考えの方や、プロダクトにご興味のある方はぜひ資料をご覧ください。

TROCCO® ライター

TROCCO®ブログの記事ライター データマネジメント関連、TROCCO®の活用記事などを広めていきます!