データマスキングとは、機密性やプライバシーを保護するために、実際のデータを変更または隠ぺいする手法です。データの利用価値を維持しつつ、情報漏えいのリスクを最小限に抑えることを目的に行われます。
データマスキングでは、使用状況や要件に応じて置換、シャッフル、ハッシュ化、暗号化などの手法が選択されます。非本番環境でのデータ使用や、データ共有時にも重要な技術です。
本記事では、データマスキングについて、概要や利用目的、手法などを紹介します。
データマスキングとは

データマスキングとは、元のデータ構造や意味を保持しつつ、特定の情報を非表示、書き換え、変更することで、データの機密性を保護する技術のことです。データマスキングによって、本番の機密データを保護しながら、テスト環境や開発環境での作業が可能になります。
近年、データの取り扱いとプライバシーの保護が社会的な課題となってます。企業や組織が情報漏えいのリスクを最小限に抑えるための手段として、データマスキングが重要視されているのです。
従来の方法では、データは機密情報の漏えいのリスクがありました。データマスキングにより、元の情報と非常に類似したデータを生成できるため、テストや開発が安全に行えるようになりました。
データマスキングの主要な目的は、元のデータ特性を保持しつつ、機密性を保護することです。データの取り扱い方が重要となるIT時代に、データマスキングの必要性が高まっています。
データマスキングは、IT時代のニーズに応える主要な技術のひとつとして注目されているのです。
データマスキングを利用する場面

データマスキングは、実データの価値を維持しながら、機密情報の保護を強化する技術です。ビジネスの多くの側面で、情報の安全性を確保しつつ、データの利用や共有が求められます。
データマスキングの活用法を知ることで、データマスキングの重要性と適用範囲が理解できます。
テスト環境でのデータ利用
新しいアプリケーションやシステムのテスト時には、動作や性能を確認するために実際のデータが必要になります。たとえばオンラインショッピングサイトの新しいバージョンをテストする場合、実際のユーザーデータや購入履歴データを使用してテストすることで、運用時の動作を予測しやすくなります。しかし、実データをそのままテスト環境で使用することは、ユーザーの個人情報や企業の貴重なデータが外部に漏れるリスクを伴います。
情報漏えいのリスクを回避する方法として、データマスキングが用いられます。データマスキングを利用すると、データの構造や特性はそのままに、中身を変更、隠ぺいできます。たとえば、名前や住所、クレジットカード番号などの情報は変換されてオリジナルの情報とは異なるものになりますが、データとしての形式や構造は変わりません。データマスキングにより、テストは実際の状況に近い環境で実施でき、機密情報の漏出リスクを大幅に軽減できます。
外部委託時のデータ提供
外部のベンダーやパートナーとデータを共有する際、元の情報をそのまま提供することはリスクが高くなります。データマスキングを適用することで、機密情報を保護しつつ、必要なデータの提供が可能になるのです。
データの解析や統計処理の際、外部のベンダーやパートナーが元のデータへアクセスすることは、セキュリティ上の懸念があります。データマスキング技術を利用して生成されたダミーデータを使用することで、リアルなデータの特性を保持したまま、外部のベンダーやパートナーが安全にデータを解析・処理できます。
データ解析
データの大規模な解析や統計処理を行う際には、機密情報の漏えいや不正アクセスなどセキュリティ上の懸念が伴います。実際の顧客情報などを利用すると、個人情報が第三者に知られるリスクが高まるため、注意が必要です。
個人情報の漏えいリスクを回避するため、データマスキング技術が用いられます。データマスキングによって、元のデータ構造や特性を保持しつつ、中身を変更あるいは隠ぺいしたダミーデータを生成できます。その結果、安全な解析作業を実施できるのです。
データマスキングのタイプ

データマスキングのタイプは、データの保護レベル、適用の瞬発性、変更の永続性などで分類されます。以下に、データマスキングの主要なタイプを紹介します。
静的データマスキング
静的データマスキングは、データベースのコピーを生成する際に機密情報をマスキングする技術です。静的データマスキングのプロセスは永続的であり、一度マスキングされたデータは元の状態に戻すことはできません。テストや開発のためのサンプルデータベースを作成する際などに利用されます。
動的データマスキング
動的データマスキングは、見る人によってデータの表示内容を変える技術です。元のデータは変更せず、見ている人やその人の役割によって、見せる情報や隠す情報をリアルタイムで変更します。たとえば、一般の従業員とマネージャーで、同じデータを見たときに、従業員には秘密の情報は見せず、マネージャーには全部の情報を見せる、といった使い方ができます。
オンザフライデータマスキング
オンザフライデータマスキングは、データベースへのクエリ時にリアルタイムでデータをマスキングする手法です。オンザフライデータマスキングにより、データ自体は変更されず、マスキングされた情報のみがユーザーに返されます。即座にマスキングが必要な場面や、大量のデータを扱う場面でよく利用されます。
決定論的データマスキング
決定論的データマスキングは、同じ入力に対して常に同じマスキング結果を出力する手法です。決定論的データマスキングにより、マスキングされたデータ間での一貫性が保たれ、データの関連性や参照性を維持できます。とくに、複数のデータベースやシステム間でデータの整合性を保つ場面で利用されます。
統計の難読化
統計の難読化は、データの集計や統計情報をマスキングする手法です。統計の難読化により、元のデータの詳細を隠ぺいしつつ、データの全体的な特性やトレンドの理解が可能となります。統計の難読化は、データの概要を共有する場面や、特定の情報を匿名化して分析する場面で有効です。
データマスキングの主な手法

データマスキングは、情報の機密性を保ちながらデータの操作や分析する手法として、多くの組織が採用しています。
データマスキングの手法は、データの種類、使用目的、セキュリティ要件などの要因に応じて選択されます。以下では、データマスキングの主要な手法について説明します。
不可逆的手法
データマスキングには、元のデータに戻せない「不可逆的手法」というカテゴリがあります。不可逆的手法は、情報を完全に匿名化する目的で採用され、一度マスキングが行われると、元の情報に復元できません。とくに、データの永続的な保護が必要な場面で利用されます。以下では、不可逆的手法の主要な種類について説明します。
ランダム化
ランダム化は、データを完全にランダムな値で置き換える手法です。ランダム化により、元のデータの特性やパターンを一切保持しない、完全な匿名データを生成できます。とくに、個人を特定できる情報や機密性の高いデータの保護に有効です。
ハッシュ化
ハッシュ化は、データを特定のハッシュ関数を通して変換し、固定長の文字列を生成する手法です。ハッシュ関数は、同じ入力に対して常に同じ出力を返しますが、元のデータからハッシュ値を逆算することは極めて困難です。
合成データ生成
合成データ生成は、実際のデータセットの特性やトレンドを模倣して、新しいデータセットを生成する手法です。合成データ生成は、実際のデータ特性を保持しつつ、元のデータとは異なる完全に新しいデータを作成するため、データの匿名化と利用のバランスをとる際に有効です。
部分的変更手法
部分的変更手法は、データの一部のみを目立たなくすることで、全体の情報や意味を維持しつつ、機密性やプライバシーを保護します。たとえば、クレジットカード番号や住所、氏名など、特定の情報を部分的に隠ぺいする際に利用されます。部分的変更手法により、データの利便性を維持しつつ、不必要に詳細な情報が露出するリスクを軽減できるのです。
伏字マスキング
伏字マスキングは、データの一部を伏せ字やアスタリスクなどで隠ぺいする手法です。伏字マスキングでは、データの全体的な形や長さは保持されますが、実際の内容は隠されます。たとえば、クレジットカード番号「1234-5678-9012-3456」を伏字マスキングすると****-****-****-*456」と表示されるなどです。
ヌル化
ヌル化は、特定の情報を空値やNULLで置き換える手法です。ヌル化により、データフィールドの情報が完全に消去され、アクセスするユーザーには何も表示されません。たとえば個人の電話番号やメールアドレスなどをマスキングする際に、情報を完全に非表示にするヌル化が用いられます。
一般化
一般化は、データをより広いカテゴリや範囲に変更する手法です。たとえば、年齢データ「27歳」を「20代」という範囲に変更することにより、個人の特定が難しくなります。一般化により、データの詳細性は失われるものの、カテゴリや範囲の特性を保持できます。一般化は、特定の情報を匿名化する際や、データの集計・分析の場面で有効です。
マスク化
マスク化は、特定の部分をぼかす手法で、主に画像データやビデオデータのマスキングに使用されます。顔認識技術と組み合わせて、個人の顔を自動的にぼかすため、プライバシー保護に役立ちます。また、テキストデータにおいても、特定の単語やフレーズをぼかすことで、情報の機密性を保護できるのです。マスク化によって、データの全体的な構造や意味を保持しつつ、特定の部分のみを非表示にできます。
全体的変更手法
全体的変更手法は、データの全体構造や内容を変更する手法です。全体的変更手法は、データの元の形や意味を変えることで、情報の機密性を保護します。全体的変更手法は、データの利用や解析に影響を及ぼす可能性があるため、適用は注意深く行われなければなりません。
代用
代用は、あるデータを別の情報で置き換えることです。たとえば、本物の顧客名を別のダミーの名前に変えるなどです。代用は、データの形はそのままに中身だけを変えて、秘密情報を隠すために使われます。とくに、テストやデータ分析に、実際のデータを安全に使いたい場合に役立ちます。
シャッフル
シャッフルは、データの順序をランダムに変更する手法を指します。シャッフルにより、元のデータの関連性やパターンが失われるため、情報の機密性が高まります。しかし、シャッフルされたデータは、元のデータと比較して分析や解釈が難しくなるため、使用時には注意が必要です。
データスワッピング
データスワッピングは、異なるレコード間でデータを交換する手法です。データスワッピングにより、データの関連性やパターンが破壊されるため、情報の機密性を保護できます。データスワッピングは、データの特性を維持しつつ、機密情報の露出を防ぐ方法として使用されます。
可逆的手法
「可逆的手法」は、特定のキーや情報を使用して元のデータに戻すことが可能な手法です。可逆的手法は、データを保護しながらも、必要に応じて元の情報を利用できるという利点があります。以下で、代表的な可逆的手法を解説しましょう。
暗号化
暗号化は、情報を読み取り困難な形式に変換する技術です。暗号への変換は、特定のキーを使用して行われ、キーを持つ者のみが暗号化されたデータを復号化して元の情報にアクセスできます。暗号化により、データの安全性を保ちながら、必要な場面で元の情報を利用できます。データの転送やストレージにおいて、外部からの不正アクセスを防ぐために広く採用されています。
トークン化
トークン化は、実際のデータを一意のトークン(代替値)に置き換える技術です。トークンは、実際のデータとは異なる値でありながら、特定のキーを使用して元のデータに戻せます。トークン化によって、データベース内に実際の機密データを保持せず、トークンのみを保存することで、データ漏えいのリスクを大幅に軽減できるのです。クレジットカード情報の取り扱いなどでよく用いられます。
サブセット化
サブセット化とは、大量のデータの中から必要な一部分だけを取り出すことです。サブセット化はデータマスキング技術ではありませんが、よく一緒に使われます。たとえば、大量にある実際のデータからテストに必要なデータだけをサブセット化で取り出し、取り出したデータに対してデータマスキングで秘密情報を守る、という流れで使用されます。
まとめ

現代のデータドリブンな時代において、データマスキングは情報セキュリティとプライバシー保護の重要な手段です。データマスキングの技術は、データの機密性を保ちながら、テストや分析を可能にします。
データマスキングを適切に運用することで、企業や組織が持つデータの真価を最大限に引き出せるでしょう。
データの安全な取り扱いは、ビジネス運営の中核を形成します。
ETL機能を備えたtrocco®とAmazon PrivateLinkを組み合わせれば、企業は安全かつ効率的なETLを実現し、データの移動と処理をプライベートで安全なネットワーク環境下で行うことが可能となります。これにより、ビジネスデータのセキュリティを大幅に向上させ、データ漏洩や不正アクセスのリスクを最小化できます。
こちらのセミナーでくわしく解説しています。ご関心がある方はご覧ください。
データの連携・整備・運用を効率的に進めていきたいとお考えの方や、プロダクトにご興味のある方はぜひ資料をご覧ください。
