はじめに(翻訳者から)
モダンデータスタックというキーワードを、データテクノロジー界隈でよく聞くようになりました
「モダンデータスタックが気になるが、うちの会社には必要なんだろうか?」
「データ分析用の基盤はレガシーシステムで構築済みだが、移行は必要か?」
「モダンデータスタックに移行することのメリットって一体どのようなものだろう?」
そんな疑問をお持ちの方もおられるのではないでしょうか。
本記事は、モダンデータスタックを有効に活用するために必要となるデータ職の職務範囲について解説し、移行のメリットと移行の際の着眼点について解説します。
本記事が、モダンデータスタックを考える際の一助になれば大変幸いです。
推奨される読者
- モダンデータスタックに興味がある方
- モダンデータスタックのメリットを知りたい方
- 競争力やビジネス機会創出のために高度なデータ分析環境を整えたい方
本記事は、Seattle Data Guyのこちらの記事を許諾のもとで邦訳したものです。
前置き
モダンデータスタックへの移行は、あなたの企業にとって、
「データにまつわる多様で現代的な課題の解決に向き合う」ということを意味する。
モダンデータスタックは、現代のデータに関連する課題や挑戦を克服するために開発された技術だ。モダンデータスタックは組織にイノベーションをもたらし、従来に無いレベルの自動化を可能にするためのものでもある。
多くの企業が自社のデータ基盤をモダンデータスタックに移行し、企業のビジネスデータや分析基盤をクラウド化している。モダンデータスタックを多くの企業が採用するにつれて、その利点は徐々に明確化している。
また、高度な生産性を兼ね備えたデータエンジニアが次々と誕生している。これは、拡張性の高いワークロードを可能にするクラウドシステムの誕生により、データエンジニア職の参入障壁が低くなったことによる現象だ。
さらに、モジュール化を採用したシステムデザインと自動化によって、時間や費用といったコストの削減が可能になっており、多くのボトルネックが解消されている。
モダンアーキテクチャを活用した分析基盤の構築は、新しいトレンドとして定着しはじめており、まだその熱が消えることは無さそうだ。そこで、この技術に興味のある企業は次のように自問自答しているはずだ。
「自分たちも、モダンデータスタックを採用するべきなのか?」
そんな疑問をお持ちの方に、この記事では、モダンデータスタックを採用するにあたって重要となるプレーヤーと、モダンデータスタックの導入を成功に導く考え方について簡単に解説する。
モダンデータスタックを回すキープレーヤー
モダンデータスタックの「3大職種」と言われるのが、データアナリスト、サイエンティスト、エンジニアだ。
ただし、モダンデータスタックにまつわる職種はこの3つの職種だけに限られるわけではない。
まず以下では、これら3つの職種がモダンデータスタックに提供する責務と重要なスキルについて述べる。さらに、新たにキープレーヤーとなる分析エンジニア(Analytics Engineer)についても考察してみたい。
データアナリスト
データアナリストは、データを解答へと変える職種だ。
企業のデータバンクに存在する情報を用いて、新しいインサイトをディスカッションの表舞台へと提出する。彼らの提供する情報が、価値の高いビジネス判断を可能にする。データアナリストの責務にはデータを整え、データを分析し、データを可視化することが含まれる。
データアナリストという名称以外にも、ビジネスアナリスト、ビジネスインテリジェンスアナリスト、データベースアナリスト、オペレーションアナリストといった肩書きで表現されることも多い。
データアナリストは様々なチームや役職に包含されることがあるが、どのような肩書きであるにしても、彼/彼女らのコアな責務は情報のトラッキングと最適化である。
データアナリストはエントリーレベルの職務だと見られることもある。このようななかで、使用ツールに対する技術的なナレッジと効果的なコミュニケーションスキルという2つのスキルを身に着けることが非常に重要になってくる。
データサイエンティスト
データサイエンティストはもう少し経験豊富だ。
統計学や機械学習モデル、データビジュアリゼーションや予測分析に対して、高度なスキルを保持することが期待される。
データサイエンティストの責務はデータアナリストに類似するところもある。データを整え、分析し、情報を可視化するというものだ。しかしながら、データサイエンティストはデータアナリストよりも経験を積んでいることが期待される。また、機械学習モデルの訓練と最適化に必要な知識などのスキルが追加的に求められる。
データサイエンティストは、組織に大きな価値を提供する職種だ。
データアナリストと同様の課題に答えることができるだけでなく、さらにオープンエンドな疑問・課題に対して解決策を提案することができる。統計学的な知識とアルゴリズムを用いて、データを多角的に眺め、別の視点から事象を理解する。
データアナリストは、データをトラッキングして最適化するということに集中しているが、データサイエンティストは信頼に値するビジネス上の予測を叩き出すことでも価値創出を果たしている。
データエンジニア
データエンジニアはモダンデータスタックに無くてはならない職種だ。
データアナリストとデータサイエンティストが行っている業務を円滑にするために、システムの構築と最適化を行うのがデータエンジニアだ。
全ての組織は正確なデータへのアクセスが保証されている状態を求めており、データエンジニアはそうしたニーズを満たすために業務に従事している。
データエンジニアはデータがどのように蓄積され、誰がどのデータにアクセスできるかをコントロールしている。さらに、データの変換に代表される重要度の高いデータアクティビティを司っている。
データエンジニアは複雑なツールや処理手順に関する自身の知識を活用して、データパイプラインを構築する。データエンジニアはビッグデータの扱いにも慣れている必要がある。データエンジニアのスキルは、データアナリストやデータサイエンティストとは異なるところがあり、ソフトウェアプロフェッショナルや開発者のスキルセットとかぶるところがある。
データエンジニアが何にフォーカスするかは組織によって異なるが、主要な機能はデータアナリストやデータサイエンティストがデータの蓄積や移動といった作業ではなく、純粋に分析業務にフォーカスできるよう、インフラを整備することである。
分析エンジニア (Analytics Engineer)
分析エンジニアはデータエンジニア(インフラを構築する)と、データアナリストやデータサイエンティスト(インフラを使用する)との間のギャップを埋める役割を果たす。
分析エンジニアは、データセットを構築しドキュメントにまとめる。データアナリストやデータサイエンティストは分析エンジニアの成果物から、課題解決に使用できるデータを選定する。
分析エンジニアは、バージョンコントロールなどソフトウェアエンジニアリングのテクニックを活用できるだけの技術的知識を身につけており、対人的コミュニケーション能力にも長けている。ステークホルダーに対して技術的な説明を行い、その重要性を説得できる。
分析エンジニアのフォーカスは、データセットの整備とデータセットの監視、それらを自動化する作業だ。度々、データアナリストやデータサイエンティストの記述したクエリを綺麗にする方法をレクチャーし、作業効率の向上を手伝うこともある。
モダンデータスタックのメリット
モダンデータスタックが企業にもたらすメリットは無尽蔵であり、それが早急に注目を集めるようになった背景でもある。BIツールを導入しようとしている企業や、より深いビジネス分析に踏み出そうとしている企業にとってはもちろんのことだが、モダンデータスタックを採用するメリットはいくつも存在し、その中でも下記のようなものが代表的だ。
データ統合の自動化
モダンデータスタックについては、クラウドデータプラットフォームの存在を抜きには語れない。
モダンデータスタックの中央に位置するこのクラウドデータプラットフォームは、パワフルでスケーラブル、そして伸縮性に優れている。よく使用されるのはクラウドのデータウェアハウスサービスだが、クラウドのデータレイクサービスを使っている企業も存在する。いずれのケースにおいても、データはこの貯蔵庫に継続的に流し込まれており、データを変形・加工するレイヤーが生データをクエリに適した形に変換している。
これらの後続として、BIツールがデータ可視化の強力なツールとして存在している。このBIツールはデータアナリストやデータサイエンティストがデータと戯れ、意味のある結論を導き出し、ビジネスを成功へと導く決断を出すことをサポートする。
必要であれば、オンプレミスのレガシーなソリューションとクラウドベースのデータを組み合わせてビジネスニーズに応えることもできるだろう。
結論として、データアナリストとデータサイエンティストが常に最新のデータを参照できる統合自動化ソリューションを提供することが可能である。
DevOpsの業務削減
小規模な組織であってもいつかは競争力を高めるための高度な意思決定を下す目的で、拡張的なリサーチプロジェクトを行う必要性が生まれるだろう。
こうしたリサーチプロジェクトを実施する際によくあるのが、複数のデータソースのデータを精査し(このような作業が初となる場合もあるだろう)、中央化されたプラットフォームにデータを集約し、統合しようとするケースだ。
データアナリストやデータサイエンティストはこのプラットフォーム上で共同作業し、見つけ出した情報をレポートする。
このような共同作業のできるダッシュボードを作成するには、たくさんのツールが必要になる。
データエンジニアはインフラのモデルを稼働させるためだけに、DevOpsチームと組んで作業をすることも多い。不幸なことに、小さな組織ではこうしたリソースを確保できなかったり、そうしたスキルを保有する人材がいなかったりするために、思うようなスピード感で動けない場合も多い。
モダンデータスタックは、DevOpsにかかるリソースを不要にする技術だ。
組織がいかなるサイズであってもオンライン上のBIツールや高度な分析ツールから恩恵を受けるための仕組みを提供してくれる。
アジャイルなデータマネジメント
レガシーなシステムを用いた分析基盤の場合、実は最も時間がかかり複雑なのが、データを取得して分析ができる状態に整えるまでの作業ということもあるだろう。
レガシーなツールを使って作られた基盤は、ELT処理がのろのろと進み、クエリやデータの微小な変更でもあれば、データがアウトプットされるまでにイライラさせられることも多い。
モダンデータスタックの場合、データ自体と基盤はアジャイルな仕組みだ。拡張性の高いワークロードは俊敏かつ柔軟、そして触りやすい。大小問わず変更を簡単かつ効率的にかけることができる。
結果として、あなたのビジネスは時間とコストをおさえながら、データを更に活用していくことが可能になる。
Time To Marketを加速し競争力を増強する
TTM(Time To Market)=市場に出るまでの時間によって、バックエンドでかかるコストが変わり、組織全体における効率性に影響する。
最終的に成果物として完成しようとしている、ビジネス判断を可能とする分析結果や、プロダクト開発に有益なレポートなどのデータプロダクトにとって、TTMは重要な要素だ。
可能な限り迅速に高品質の回答を得る仕組みというものは、単なるラグジュアリー(嗜好品)にとどまらない。世界を牽引するリーディングカンパニーにとって、この仕組みは当たり前のスタンダードとなりつつある。
成果物となるデータが手に届くまでの時間を可能な限り短縮するということは、競争相手よりも速く価値提供まで辿り着けるということに他ならない。
モダンデータスタックは、企業のデータ利活用のあり方をレベルアップし、動くスピードを速めてくれる。手をこまねいて回答が運ばれてくるまで待っているなんて、もうしなくて良いのだ。
モダンデータスタックを作るときには
モダンデータスタックを採用しないことで、インサイトを得る絶好のチャンスを逃していると感じていただけただろうか?
モダンデータスタックを採用しようと決めたら、合理的な次のステップは「どんな風に動いたら良いだろうか?」と問うことだ。
モダンデータスタックに移行するメリットは明らかだ。しかし、そこに至るまでの道はさらに複雑かもしれない。
モダンデータスタックを構成するツールの数を数えるのは、非常に骨の折れる作業かもしれない。ただ、恐れることはない。移行のベストプラクティスに従えば、移行は驚くほど簡単なものだ。企業にとって実行可能な規模であり、事前によく計画することを意識しよう。
シンプルに始める
あなたの企業はモダンデータスタックを構築するにあたって手に余るほどの数のツールを組み合わせようと考えるかもしれない。こうした状況だとしても、十数個のツールを統合する仕組みをゼロから作る必要は無い。最もシンプルな形として、モダンデータスタックにはデータを取り込むツール、ウェアハウス、変形・加工ツール、そしてBIツールが揃っていれば良い。
上記のうち複数の領域をカバーしているツールも存在するので、状況はよりシンプルになりうる。
周到に計画する
モダンデータスタックを作るときは、上記のようにシンプルな要素のみで作り始めることを推奨する。移行と受容をできるだけシンプルにして、迅速に業務を回せるのがメリットだ。明確な計画が無いなかで、移行作業にとりかからない方が良い。
一方、最もシンプルな形状のモダンデータスタックアーキテクチャを採用することで、いくつもの手間を省略することができるが、結果としてあなたの企業にとって有用な道具にならない可能性もある。
そういう場合は、シンプルに考えすぎるより、企業のゴールから逆算して考えてみよう。企業が移行の初期段階に達成していなければならないゴールは何だろう?そこに到達するまでに、道を塞ぐ要因、障害、ニーズ、例外、そして絶対に出てくるであろう特別なユースケースは何だろうか?
もし、モダンデータスタックに移行する作業が相当骨が折れると感じるなら、導入から6ヶ月して全く目的外れのツールを選んでしまったと判明した場合のことを思い描いてみよう。
この規模のツール導入は大きな決断になるから、しっかりと考え抜いておくことが必須だ。
正しいパートナーを選ぶ
最終的には、モダンデータスタックを採用する際に、全ケースをカバーする究極のアプローチというのは存在しない。各企業の計画、ツール選定、そしてタイムラインは組織の規模、リソース、柔軟性、そして機敏性によって変わるだろう。
モダンデータスタックというトレンドが、AIと機械学習アプリケーションを熱くする
多くの企業がモダンデータスタックの構築に動き始めている。これと同時に、機械学習(ML)とAIの役割が拡大していることを忘れてはならない。AIやMLによる予測型の分析は、アナリストの業務とスキルセットに進化をもたらしており、さらに、モダンデータスタックが提供しようとしている速度と効率性とは協力的な関係にある。
組織が注目すべきもう一つのトレンドは「自動化」だ。
これには、インサイトの集積だけではなくて施策を実行する部分までが含まれる。
自動化されたシステムは、正しいデータを活用し、システムの信頼性を高め、少ない人的インプットからアクションに繋げることのできるような潜在力を秘めている。
このトレンドから恩恵を享受するためには、企業はどのような道筋に乗れば良いのだろうか?
まず、あなたがワークロードを継続稼働させるためにメンテナンスしている内容を顧みるところから始めてみよう。自動化できる箇所について自動化を始めてみる。
次に、チームでデータベースをメンテナンスしたりスケーリングしている時間を算出してみよう。クラウドベースのデータベースに移行できる余地はないだろうか?
これらが済んだら、データスタックに変更を加えたりアップグレードしたりする難易度を考察してみよう。データビルドツールで作業をスピードアップしたり効率化できる点は無いだろうか?
また、新しいツールやテクニックが組織にもたらすことのできるアドバンテージを想像してみよう。例えばモジュール化はデータサイクルのフェーズの一部を改善しつつ、全てを一度に変えようとしたときと比べてアウトプットをより迅速に閲覧できるようなしくみをもたらすかもしれない。モダンデータスタック導入への最後のステップは、あなたの組織がスケーリングする可能性を理解し、より先へと進ませてくれる柔軟性の高いツールを選択するということだ。
最後に (翻訳者から)
いかがでしたでしょうか?多くの企業が採用し始めている「モダンデータスタック」ですが、そもそも何が「モダン」なのか、モダン化することによるメリットがどのようなところにあるのか、ポイントを整理する記事でした。
まず、この技術を最も駆使するのは下記の職域だということが述べられました。
・データアナリスト (データインフラの利用者)
・データサイエンティスト (データインフラの利用者)
・データエンジニア (データインフラの生産者)
・分析エンジニア (利用者と生産者のギャップを埋める)
次に、モダンデータスタックを採用するメリットとして下記の4つが挙げられていました。
・データ統合の自動化(場合によってはクラウドとオンプレのハイブリッド)
・DevOpsにかかるリソースコストの削減
・アジャイルで拡張しやすくメンテナンス可能なアーキテクチャ
・ビジネスを推進するデータがユーザの手に届くまでの時間を短縮
また、モダンデータスタックのパーツとして記事で提案されていたのは下記の4つです。
・データを取り込むツール (ingestion tool)
・ウェアハウス (warehousing tool)
・データの変形・加工ツール (transformation tool)
・BIツール
最後に、モダンデータスタック導入に至るまでの検討プロセスでは、「モダンデータスタックによって組織のどのようなデータの課題を解決したいのか」を見定め、なるべくシンプルにスタートすることが第一に推奨されています。
trocco®︎は、日本発のデータ基盤構築運用支援ツールとして、上記モダンデータスタックを基礎付けるパーツを複数担いつつ、データの抽出・簡単な加工/変形・DWH上のデータマート作成・dbtなどデータマート作成支援ツールとの連携・データカタログ・ワークフローオーケストレーションなど多様な機能に対応しています。
ミニマルからスタートし、モダンデータスタックをスケールする際にも対応可能です。
ぜひ、LPからケイパビリティを確認し、無料のトライアルで利便性を体験してみてください。
今回の記事は以上です。
Have a Happy Data Engineering Day!
Credit: Seattle Data Guy (https://www.theseattledataguy.com/)
Thanks for letting us transcribing and translating this video!