デジタル化が進んだ現代では、社内でのデータ活用が欠かせません。

しかし、いざデータ活用を始めようとすると、

  • 分析したいデータはあるが、そのままでは使えない
  • 使えるようになるまでには手間やコストがかかる
  • 扱えるデータが限定的で、データ活用に生かせない

などの課題を抱えている方が多いのではないでしょうか。

これらの課題を解決し、データの活用を促進するために必要なのがデータプレパレーションです。

本記事では、データプレパレーションの概要やメリット、ETLとの違いを解説します。

データプレパレーションとは

データプレパレーション(Data Preparation)とは、生データを変換・加工してビジネスの現場や機械学習に活用できる状態にする一連のプロセスのことです。

データ分析を行うためには、一定以上の統一性や定型性が担保されたデータが必要となりますが、収集したデータソースには表記ゆれや欠損値、外れ値などが存在します。

これらのデータが分析する際に存在していると、分析結果の品質が落ちてしまい、正確性の担保された意思決定ができなくなります。一般にこれらのデータを修正するのは「データクレンジング」ですが、手間やコストがかかります。

しかしデータプレパレーションを実施すると、データの収集やデータクレンジングを自動化し、データ活用の速度や質を向上させることができます。

データプレパレーションの必要性

データプレパレーションの需要が高まった要因として、おもに以下の2つの背景があります。

  • データの準備にコストがかかる
  • データ量の急激な増加

データの準備にコストがかかるのがもっとも大きな課題です。

一次データを分析できる形まで整形するには、ツールを用いてデータクレンジングを実施する必要があり、データクレンジングツールを新たに導入するとコストがかかります。

しかしデータプレパレーションでは、

  • データ収集や欠損値、表記ゆれなどを効率よく処理できるGUIの搭載
  • 分散コンピューティングの利用
  • 一般のビジネスユーザーやデータアナリストの使用を想定

などによりコストを削減できます。

またSNSやクラウドサービスの普及により、データ量が膨大になったのも、データプレパレーションの需要が高まった要因です。従来のように、Excelなどを使った手動でのアナログな作業では通用しなくなってしまう可能性が高い傾向にありますが、

データプレパレーションでは、データの収集やデータクレンジングを自動化できるため、大量のデータでも迅速かつ正確に処理できます。

データプレパレーションの一連の流れ

データプレパレーションの大まかな手順は以下のとおりです。

  1. データ活用の目的の明確化
  2. データ収集
  3. データクレンジングの実施
  4. データ変換・結合
  5. データの格納・活用

データを活用する目的の明確化

データを活用して最終的にどのような情報を得たいか、目的を明確化します。

データを活用する目的として、

  • 自社製品の売上の推移を調べたい
  • 他社製品との比較をしたい
  • ある情報の変化や傾向を掴みたい

などが挙げられます。データ活用のゴールをより具体化しておくとよいでしょう。

データ収集

データ活用の目的を明確化したら、そのために必要なデータを収集していきます。

分析のためのデータは社内基幹システムやCRM、SFAなどの業務システムや特定のコミュニティで管理しているExcelやデータマートにも散逸しています。また定期的に更新されるデータは、以降の作業をカットするために、データの収集方法を担当部署と調整しておくと効率化につながります。

この段階でフォーマットが統一されていない場合は、Excelなどを用いて簡易的に統一しておくとよいでしょう。

データクレンジングの実施

データの集約がおわったら、データクレンジングを実施します。データクレンジングは一次データの品質を確保するために必須の作業です。

データプレパレーションにおいて、重要なデータクレンジングの項目はおもに以下の4つです。

  • 無関係なデータや外れ値の除去
  • 欠損値の補完
  • 半角/全角などの表記ゆれの統一
  • 個人データや機密データのマスキング

データクレンジング完了後は、現時点でデータプレパレーションのエラーがないか、データをテストして検証します。

データクレンジングとは?エクセルのやり方や手順、ルールをわかりやすく解説

データ変換・結合

データクレンジングが完了したら、複数のソースから収集したデータを結合していきます。

データ結合の際、部門ごとに異なるシステムやソフトウェアを利用しており、データが散在しているケースがよくあります。この場合、データのフォーマットやラベル名も部門ごとに異なるため、滞りなくデータを連携させられません。

データを統合し分析するためには、組織内に分散しているデータを変換することが必要です。

たとえば、csvファイルやxmlファイルはShift-JIS、UTF-8などといった複数の文字コードを持つケースがあります。どのファイルでどの文字コードを扱っているかを調べ、ツールが読み取れる形式に統一します。

データの格納・活用

必要なデータの変換・結合が完了したら、データウェアハウス(DWH)やBIツールにデータを格納し、データの集計や分析を行います。

また過去に施したアクションの結果にフィードバックすることも大切です。顧客を分析するケースで、過去のキャンペーンに反応があったかどうかに関して分析できると、これからのデータ分析の精度を上げるために役立ちます。

さらに一度分析した結果に基づくアクションのデータに対しても、次の分析の際にかならず取り込むよう心掛けましょう。

  1. 分析結果を利用する
  2. 次へのアクションや意思決定を素早く行う
  3. 結果をフィードバックする

上記の手順でプロセスを継続していくことが重要です。

データプレパレーションを実行する方法

データプレパレーションを実行する際、扱うデータ量や活用の方向性によって適した方法が異なります。

本章では、データプレパレーションの実行によく用いられる代表的な3つの方法を紹介します。

  • Excelを使う
  • SQLやPythonを使う
  • ツールを使う

Excelを使う

Excelによるデータプレパレーションのメリットは、「多くのビジネスパーソンがExcelを扱い慣れており手軽に行える」ことです。

多くの企業で日常的にExcelは使われているため、データプレパレーションを始めようとしている方にとって、比較的難易度が低い方法といえるでしょう。

一方で数MB以上の膨大なデータを処理するケースには不向きです。変換の必要なカラムが多ければ、定義ファイルを大量に作らなければいけません。

手動の作業になるため、データ準備だけで時間がかかりすぎたり、ミスを誘発しやすかったりするのも課題です。

SQLやPythonを使う

SQLやPythonを用いたデータプレパレーションの方法は、売上データや顧客データ、経理データなどさまざまな業務データに対応できる利点を持ちます。対応できるデータの種類が増えれば、それだけ活躍できるシーンも増えるでしょう。

使いこなすためには、ITシステム部門のエンジニアのようにデータベース言語に精通している必要があります。非IT人材がSQLやPythonを習得するには時間やコストを要します。

またExcelと同様に手動の作業となるため、「ミスを誘発しやすい」「時間や手間がかかる」といったデメリットもあるでしょう。

しかしSQLやPythonを使いこなせるようになれば、Excelでは太刀打ちできなかった膨大なデータや複雑なデータの処理が可能です。より高度なデータ活用が推進できます。

ツールを使う

データプレパレーションツールを使用するメリットには、おもに以下の2点が挙げられます。

  • ITの専門知識を持たない人でも高速かつ正確にデータ準備を行える
  • データ準備にかかる時間と手間も減らせる

Excelやデータベース言語を用いたデータプレパレーションは、基本的に人の手で実行します。そのためデータが増えるほど処理に手間と時間がかかる点が課題でした。手作業特有のミスを誘発してしまい、非効率的で貴重な時間的リソースを無駄にしてしまいます。

しかしツールの利用により、データクレンジングの自動化が可能になるため、このような課題を解決できます。

とはいえツールの導入に費用がかかるなどのデメリットもあります。ツールを導入する前には、導入によって実際にコスト低減や生産性の向上につながるかどうか吟味しましょう。

データプレパレーションツールとETLの違いを比較

データプレパレーションとよく混同される言葉にETLがあります。

本章ではデータプレパレーションツールとETLの違いを、4つの観点で比較してご説明します。

データプレパレーションツールETL
対象ユーザー一般のビジネスユーザーシステム開発者
ユースケースデータ分析の前準備点在するデータの集約DWHの構築
専門知識の要否ITに関する専門知識不要場合に応じてプログラミングの知識が必要
扱えるデータ構造構造化データ・非構造化データ構造化データのみ

データプレパレーションツールは、データサイエンティストやデータアナリストなどの非IT部門のビジネスユーザーをメインターゲットです。

ユースケースはデータ加工を想定しており、データセット構築が基本です。またデータプレパレーションツールでは、構造化データや非構造化データの扱いも可能です。

一方ETLは、システム開発のエンジニアをターゲットにしており、社内に散在するデータを集約しDWHを構築するために用いられます。

データプレパレーションツールを操作する際にIT関連の知識は不要ですが、ETLではプログラミングの知識を必要とするケースが多々あります。

ETLは構造化データの扱いのみを得意としている点も違いのひとつです。

データプレパレーションツールのメリット

データプレパレーションツールはデータ分析の前準備に特化しているため、データ処理の効率化や正確性の向上を図りたいと考えている人におすすめです。

さらに、データプレパレーションツールを利用するメリットには以下の3点が挙げられます。

  • IT関連の専門知識がない非エンジニアでも直感的に扱える
  • データの準備にかかる時間と手間を減らせる
  • データソースの扱える幅が広がる

データプレパレーションツールではノーコードでデータ加工を行えるためプログラミングなどの専門知識を必要としません。非エンジニアの方でも、データの前準備を少ない労力で短時間に行えます。

また、構造化データにくわえ非構造化データも扱えるため、扱えるデータソースの対象範囲が広がります。さらに多くのデータをもとに分析できるようになり、より高度なデータ活用が実現可能になります。

ETLツールのメリット

ETLツールとは、データエンジニアに代わってデータのETL(E:抽出、T:変換、L:格納)を実行するツールです。

メリットとしては、おもに以下の3点が挙げられます。

  • APIの知識が不要
  • 転送用のプログラムを構築する必要がない
  • コストを抑えられる

従来自前でETL実装をする場合、各種サービスのAPIに関する知識が求められ、転送用のプログラムを構築する必要がありました。

また一旦構築したデータ分析基盤もサービスのバージョン変化やAPIの仕様変更、エラー対処など保守運用にかかるコストが非常に大きいことも課題でした。

これらの課題を解決したのがETLツールです。

ETLツールには、直感的に開発が行えるGUIと呼ばれるインターフェースが装備されています。このGUIによって、プログラミングスキルなどの専門知識を持たないユーザーでも、開発が容易になりました。また開発工数の削減にも大きな効果を発揮します。

データプレパレーションの効率化につながるおすすめのツール3選

データプレパレーションを効率的に進めるためには、いかにツールを有効的に用いるかがカギです。本章では、データプレパレーションに役立つツールを3つご紹介します。

  • trocco®
  • Tableau
  • Alteryx Designer

trocco®

弊社が提供する「データ分析基盤構築サービスtrocco®」は、データを収集してからBIツールで分析するまでのデータパイプラインの構築を、ほぼノーコードで実装可能です。

さらに、社内に散在する各サービスのデータをひとつのDWHへと集約し、DWHとBIツールを連携させることでデータパイプラインの管理・運用もしやすくなります。

また、データプレパレーションを実施するうえで必須となる工程が、データクレンジングです。trocco®ではエラーデータを検出する「データチェック機能」を備えており、データクレンジングの際に欠損値や外れ値などを効率的に検出できます。

trocco®は無料体験を実施しているため、コストをかけずとも実際の効果をお試しいただけます。データのETLに手間がかかっている方やデータクレンジングの方法に困っている方は、ぜひこの機会にtrocco®のフリープランを試してみてはいかがでしょうか。

Tableau

Tableau社が提供する「Tableau」は、セルフBIツールです。

おもに「Tableau Desktop」と「Tableau Prep」の2種類がありますが、Tableau Desktopはデータ分析を行い、Tableau Prepでは扱うデータの前処理を行うイメージです。

特徴として、マウス操作だけでほとんどのデータ分析作業が完結するため、操作性が高いことが挙げられます。

分散しているデータを抽出し、ノンコーディングで変換・加工して、大量のデータを素早く分析できることも強みのひとつです。

Alteryx Designer

「Alteryx Designer」はアルテリックス・ジャパンが提供するBIツールです。

データプレパレーションとしての強みは、データの収集からデータクレンジング、データの変換・結合、分析までの一連の作業がワンストップで実行できる点です。

操作性の高いGUIを採用しており、あらゆるデータソースとも簡単に接続が可能です。コーディングの知識を必要としない点も、Alteryx Designerが支持されるひとつの要因でしょう。

まとめ

本記事では、データプレパレーションの概要やメリット、ETLとの違いを解説しました。

データ活用がビジネスの中心となった現代では、データ分析を効率的に行うためにデータプレパレーションが欠かせません。データプレパレーションツールを導入する際には、混同されやすいETLツールとの特徴の違いを理解し、自社の目的にあった形で導入することが大切です。

データ活用を効率的に進められていないと感じている方は、この機会にデータプレパレーションの工程を一度見直してみてはいかがでしょうか。

弊社が提供するtrocco®は、データのETL作業をほぼノーコーディングで実現できるほか、データプレパレーションに必要不可欠なデータクレンジングへの貢献も期待できます。

データの連携・整備・運用を効率的に進めていきたいとお考えの方や、プロダクトにご興味のある方はぜひ資料をご覧ください。

trocco® ライター

trocco®ブログの記事ライター データマネジメント関連、trocco®の活用記事などを広めていきます!