• 社内のデータを活用したいがデータが点在しており、活用できる状態になっていない
  • 予算がないためデータ活用の取り組みができていない
  • 社内のエンジニアのリソースが不足しており、基盤の構築や運用に人をかけられない
  • セキュアな環境が整っておらず、外部サービスとの接続ができない

社内でデータの利活用を推進していくうえで、このような課題を抱えていませんか?

これらの4つの課題は「スピード」「保守運用」「コスト」「セキュリティ」に集約できるでしょう。

本記事では、2022年12月13日に開催されたセミナーをもとに、「trocco®×Snowflakeが以上の4つの観点をどのようにサポートしていくのか」を説明していきます。またそれにあたり、trocco®とSnowflakeの概要・基本的な機能についてもお伝えします。

※本イベントレポートの内容は2023年12月当時のものです。trocco®の利用やAWS PrivateLink接続オプション、データカタログオプション等の利用の詳細について知りたい方はprimeNumberまでお問い合わせください。
https://trocco.io/inquiry/new

講演者紹介

高山 博史氏

Snowflake株式会社 シニアセールスエンジニア

2000年にNTTソフトウェアに入社、電子マネー関連プロジェクトでのアプリケーションエンジニアを経験後、2003年よりビットワレットにて、電子マネーEdyのコンビニエンスストア導入プロジェクトなどを担当。2007年よりKDDIにて、法人向けモバイルソリューションのPMおよびプリセールスエンジニアを担当。その後AWSの日本上陸に大きな可能性を感じ、AWSにジョイン。サービスの本質的な価値をわかりやすく紹介することに使命感を抱き、2021年より現職に就く。

薬丸 信也

株式会社primeNumber カスタマーサクセス本部

株式会社キーエンスでコンサルティングエンジニアとして従事した後、現職株式会社primeNumberに参画し、パートナー営業・エンタープライズ営業を務める。現在は、現在は、広告・IT関連から製造・小売りまで業界を問わず、データ活用基盤の構築を支援している。

SECTION 1

SECTION1では高山氏より、Snowflakeの概要や選ばれる理由、メリットについてご説明いただきます。

Snowflakeの企業理念

高山氏:「Snowflakeの企業理念としてはTO MOBILIZE THE WORLD’S DATAと掲げているのですが、具体的には垣根を越えてデータの力を集結させるイメージです。

ここでいう垣根とは会社内での垣根を指します。いろいろな部署にデータが点在しているため、それらを集結させてデータの価値を最大化することを意味しています。

さらに言うと、会社どうしの垣根も越えてそれぞれのデータを持ちより、データの価値を最大化させることも企業理念のひとつです。」

Snowflakeのこれまでの歩み

高山氏:「Snowflakeは2012年にエンジニア二人(一枚目写真)で起業した会社です。

その後、三年間の開発を経て2015年に提供を開始しました。

日本市場のトピックですと、2020年2月にAWS TOKYOリージョンの上でサービスが提供開始になっています。クラウドとSnowflakeの関係は後ほどご説明します。

2020年9月にニューヨークで株式上場しております。また、2021年10月にはMicrosoft Azure Japan-Eastのうえでもサービス提供開始し、2022年7月にはAWS Osakaリージョンでもサービス開始となっています。」

Snowflake製品の進化

高山氏:「会社の歩みについてご説明しましたが、Snowflake製品としても進化しています。

本日はその中でもふたつご紹介していきたいと思います。」

①データ分析基盤としてのSnowflake

高山氏:「まずひとつ目は、データ分析基盤としてのSnowflakeです。

(これまでのデータ分析基盤の経緯を)4つの世代に分けて、我々を第四世代にプロットさせていただきました。

はじめはOn PremisesのEDW(Enterprise Data Warehouse)です。VerticaやテラデータなどのいわゆるOn Premiseで動くものです。

左からふたつ目が、2012年くらいに出てきた第一世代のCloud EDWです。

ここ5年くらいはData Lakeが非常にさかんですし、Hadoopも盛り上がりました。一方でHadoopは技術的に難しかったり運用が大変だったりするため、Hadoopを扱えるエンジニアを採用するのに苦労した会社も多かったのではないかと思います。

今までの世代には(上スライドの表のような)課題がありましたが、その課題を解決したのが第四世代のSnowflakeです。」

②DATA CLOUDとしてのSnowflake

高山氏:「ふたつ目はdata cloudとしてのSnowflakeです。

分析基盤としてのSnowflakeは非常にご評価いただきました。しかしそのあとで、お客様からもっとさまざまなデータを扱いたいという声がありました。

そのため、我々は分析基盤としてのSnowflakeだけではなく、そこにコンテンツを加えることで、データを流通させるプラットフォームとしてもご評価いただいています。」

導入実績

高山氏:「国外ではすでに数千超えるお客様にお使いいただいています。金融のCapital One様やmastercard様、Adobe様などです。」

高山氏:「日本では、2020年2月AWS TOKYOリージョンのサービスローンチ以降のお客様です。

スライドの一番左上にございますintage様はマーケティングの会社です。その隣のCyberAgent様は広告配信の効果測定にSnowflakeをお使いいただいています。FamilyMart様はコンビニのPOSのデータをすべてSnowflakeに入れて分析していただいております。NTTdocomo様やCCC MARKETING様は8000万人以上の会員様がいらっしゃるdポイントの分析基盤としてお使いいただいています。また、日産様は製造現場での分析にお使いいただいています。

ご覧いただいてわかる通り、特に業種業界に偏りはございません。また、FamilyMartさまのPOSデータのように規模の大きいものもあれば、一方でスモールスタートで始める会社様もいらっしゃいます。

業種業界やデータの量を問わず、データがあればSnowflakeはご貢献できるかなと思っています。」

分析基盤の俯瞰図

高山氏:「続いては分析基盤としてのSnowflakeが、後発ながらご評価いただき、上場までこぎつけた理由についてもう少し詳しくご説明していきます。

こちらは分析基盤の俯瞰図のようなものです。

左側にデータソースがあり、データレイクやDWHと呼ばれる分析基盤があって、右側にはデータを活用するBIツールやアプリケーションがあります。

Snowflakeはこの過程すべてをカバーするものではなく、中でもデータを蓄積して分析するパートを担当しています。」

インテージの事例

高山氏:「インテージ様の事例をお持ちしました。インテージ様はマーケティングの会社ですので、分析がビジネスの中心にあります。

爆発的に増えたデータを扱うのにご苦労されており、色々な分析基盤をお使いになったのですがなかなか要件を満たす基盤が見つからず、最終的にSnowflakeをご採用いただきました。

その結果、ビジネス面ではインテージ様のユーザーがこれまでよりも高度にデータの活用ができるようになったそうです。分析基盤としては、ほかのDWHと比較して2〜5倍向上し、コストは3分の2になりました。

また、フルマネージド型なので、運用管理やメンテナンスなどが非常に簡単な点もご評価いただいています。

しかし、パフォーマンスが2~5倍、コストが3分の2と聞くと本当なのか疑わしい方もいらっしゃると思いますが、これには明確なからくりがございます。」

伸縮性のある高性能エンジン

高山氏:「からくりのひとつとして、まず伸縮性のある高性能エンジンが挙げられます。

なぜ第四世代目で今までの課題を解決しているかというと、「後発だから」という点があります。新しいアーキテクチャで組まれているのです。」

Snowflakeのアーキテクチャ

高山氏:「Snowflakeは2015年に登場しましたが、そのころにはすでにAWSやMicrosoft Azure、Google Cloudなどがメジャーになっており、多くのユーザーに使われていました。

Snowflakeはインフラとしてこの3つのパブリッククラウドの強固な機能を使うことによってサービスを提供しています。IT業界では、「巨人の肩の上に乗る」という言葉がよく使われますが、まさにAWS、Microsoft Azure、Google Cloudの肩の上に乗ってサービスを提供しています。

もう少し詳しくご説明すると、インフラは三大クラウドからお選びいただけます。Snowflakeをお使いいただく際に、「AWS TOKYOリージョンの上で動かすSnowflake」や「Azure東日本リージョンの上で動かすSnowflake」のように、クラウドとリージョンをお選びいただくイメージです。

上図において、灰色の土台から上はSnowflakeのアーキテクチャです。ストレージは実際にデータが保存される領域であり、AWSであればオブジェクトストレージのAmazonS3をSnowflakeが内部的に採用しています。

AmazonS3をご存じの方は多いと思いますが、耐久性が非常に高く、容量もほぼ無限に入りますし、さらに同時接続にも強いです。それに加えコストも低いので、SnowflakeではAmazonS3を採用しています。

一方ストレージの外側である、マルチクラスタコンピュートが実際に分析をするサーバーです。ここではAWSであれば仮想サーバーのEC2、Azureであればバーチャルマシンなどを使っています。

一番外側はクラウド・サービスで、ログインや認証認可、セキュリティ、データ共有などを担っており、サービスとしてSnowflakeをご提供するためのエリアになります。

そしてこのアーキテクチャが、コンピュートとストレージを完全に分離したアーキテクチャになっています。」

コンピュートとストレージを完全に分離したことによるメリットとは

高山氏:「コンピュートとストレージを完全に分離すると、クラウドネイティブな伸縮性が生まれます。分析をしたい方が、必要な時に必要なだけ、ほかの人に気を使わずに分析をすることができます。

お気づきの方もいらっしゃると思いますが、これはクラウドが出てきた時のメッセージそのものです。私も12年前くらいにAWSとしてこのような話をよくしていました。

一方でこの概念を分析基盤に持ち込んだのがSnowflakeであり、そこがご評価いただいている理由のひとつかなと思います。」

ETLの位置づけ

高山氏:「この図は、真ん中にデータが保存されるストレージがあることを示しています。また、左上には、分析対象のデータを示しておきました。これはアプリケーションのデータかもしれませんし、CSVのデータかもしれません。そのデータをツールを使って、Snowflakeのテーブルにインサートするのが、いわゆるETL処理です。」

trocco®の活用範囲

高山氏:「ちなみに、trocco®さんが請け負う部分は、さまざまなアプリケーションやデータベースからデータを抽出して加工し、Snowflakeに入れるところです。

実はSnowflakeでも、AWSやAzureのストレージから、S3と簡単にインテグレーションして、S3に置かれたデータをSnowflakeにインサートする機能は持っています。

一方で、多くのお客様がさまざまな既存のアプリケーションを使っています。そういったアプリケーションからSnowflakeにデータを取り込む際には、trocco®さんを使っていただくと楽だと思いますし、実際に使われている方が多いです。

テーブルにデータが入れば、その後はSQLを使ってSnowflake上で変換や加工をされているお客様も多くいらっしゃいます。一方trocco®さんには、データマート機能や分析テーブルの作成の機能や、先にロードしてから変換するELT処理をサポートする機能があり、さまざまな場面でご活用いただけると思います。」

コンピュートリソースの分離

高山氏:「テーブルにデータが入った後は、たとえば社内の金融部門の方が、金融系のダッシュボードからアクセスして分析します。(図の下方に)歯車で表現されているのが、前のスライドでご紹介したコンピュートリソース、いわゆるサーバーのようなものです。

金融部門は、金融部門のコンピュートリソースを使って分析します。図の右下にあるように、データサイエンティストの方はデータサイエンティスト用のコンピュートリソースを使って、機械学習の分析をします。

右上が一番多いと思いますが、マーケティングや分析の方は、セルフBIツールのTableauやPowerBI、Lookerを使って分析できます。

ご評価いただいているポイントのひとつとして、各部署ごとにコンピュートリソースを設定できる点があります。なぜ各部署ごとに設定できるかというと、それぞれが独立しているため、各利用部門におけるリソース競合の問題を解決しているからです。

たとえば、昼間にTableauで分析している方が多いため、その裏でデータサイエンティストの方が重い分析処理を投げると、コンピュートリソースを食い合ってしまい、Tableauを使っている方が重くなるというクレームが実際あったようです。

また、ある分析担当のサイエンティストの方は、夕方オフィスを出る前に重い分析処理を投げて夜中に動かし、次の日の朝に結果をご覧になってたそうです。昼間の時間帯にそれを投げてしまうと、Tableauを使っている方から重くなったというクレームがくるからです。次の日の朝に来てエラーが出ていると、また1日かかるのかとがっくりしたそうです。

一方、Snowflakeは独立しているため、昼間の時間帯で他の方を気にせずに、重い分析をしていただくことも当然できます。いわゆるワークロードマネージメントに気を使わないでよいのが、ご評価いただいているポイントのひとつです。

つづいて、この歯車です。コンピュートリソースの中に、洋服のSMLサイズのようなものが書いてあるのですが、これは処理性能を表しています。SMLを一つ挙げると、CPUとメモリのスペックが倍になるイメージです。そのため、多くの場合は処理性能が倍になるイメージです。

たとえばLで2時間かかる複雑な処理があったとします。この場合XLにしていただくと、スペックが倍になるため、XLでは1時間ぐらいで終わるはずです。

Snowflakeのご請求課金は、一つ目はストレージにどれだけ保存していただいているかです。一方で、これはAmazonS3の料金そのものであるため、1テラを1ヶ月保存していただいても、25ドル(3000円程度)であるため安いです。

ご請求の大半を占めるのは、どちらかというと、周りの歯車がどれぐらい動いたかです。時間課金になっており、スペックを倍にすると時間当たりの単価も倍になります。一番細かい粒度だと、秒でカウントします。

XLは高そうだとお感じになった方もいらっしゃると思いますが、実際Lの倍の値段になります。一方で、単価は倍ですが、稼働時間が2時間から1時間で半分になるため、掛け算すると実は同じお値段です。そのため重い処理をするなら、積極的にスペック上げていただくことをおすすめしています。

重い処理の場合はスペック上げていただくことが多いですが、ダッシュボードやBIツールを見ている方が100人〜200人いて、同時接続数が多い場合は、スペックを上げるよりも台数を増やした方が有効です。いわゆるスケールアウトです。

接続数に応じて台数を増やしたり減らしたりする、オートスケーリングの仕組みも持っています。かつ、使った分だけの従量課金です。」

Snowflakeの管理画面のイメージ

高山氏:「これが管理画面のイメージです。ウェアハウスと書いてありますが、先ほどまでの歯車、コンピュートリソースだとお考えください。

1行1行が今までのスライドの歯車、コンピュートリソースを表しています。私はデモをやったりするため、多く持っているのですが、ステータスはサスペンデッドで、全て止めてある状態であるため、時間課金は発生していません。」

クエリの実行方法

高山氏:「中を見ていただくと、部署やワークロードごとの名前が割り当てられており、スペックがXSから6XLまであります。オートスケーリングの設定などがあるのですが、一番ご紹介したいのは、自動再開や一時停止です。

一番上のコンピュータリソースを使い、これに対してセレクト文を投げてみようと思います。

先ほどまで止まっていたのですが、特定のテーブルに対してセレクト文を投げたら、結果が返ってきました。裏側で何が起きていたのかというと、1秒もかからずに裏側でサーバーが起動し、結果を返しました。結果を返した後は、CPUメモリが遊んでいる状態、いわゆるアイドル状態になります。

アイドル状態が一定期間続くと、またサスペンデッド状態になります。そのため、動いていたときだけの課金になるイメージです。普段は止めておき、実際にクエリやセルフBIツール、TableauからSQLが飛んできたときだけ、立ち上がって結果を返し、アイドル状態が続いたら止まるシステムです。」

高パフォーマンス・低コストのからくり

高山氏:「これがインテージ様が「パフォーマンスが良くなった」や、「コスト安くなった」とおっしゃっていたからくりです。

このグラフは横軸が時間、縦軸が性能です。たとえば、午後6時前ぐらいにデータサイエンティストの方が、ハイスペックなサーバーを30分だけ使って複雑な分析をします。終わったら落としてしまえば、サーバーのお値段はかからないです。夜中に誰も使っていないときはお金はかかりませんし、日中の時間帯にさまざまな方々がバラバラのワークロードで使っていても、特にリソースを取り合うことがありません。実にクラウドらしいからくりになっています。」

目指す世界観

高山氏:「昨年の12月にイベントを開催し、多くのお客様にご登壇いただきました。これはCCCマーケティング様ですが、今まで社内でサイロ化していたデータベースを1ヶ所に集め、シングルデータソースやシングルソースと呼んでいました。

さまざまな部署ごとに、それぞれのスペックや台数のコンピュートリソースを使って分析していただいていますし、月末だけハイスペックなものを使って、月次の処理をされています。右の方には後半お話しする、データ共有があります。」

クラウド型のDWH

高山氏:「これはdポイントのドコモ様です。左側が今までのCPUとかメモリを決め打ちで使う分析基盤です。右側は、真ん中にストレージがあり、組織によって別のリソースでお使いいただいていました。」

ゼロコピークローンとは

高山氏:「ニアゼロマネージメントと呼んでおり、運用負荷の軽減や導入も簡単です。実際に本番運用が始まってから、「こんな機能があってよかった」と言っていただけるような機能があります。今回は、キーワードだけご紹介します。

ゼロコピークーロンと言われている分析基盤のテーブルは大きいです。何百ギガ、場合によっては何百テラ/ペタになる場合があると思います。そういったテーブルのコピーを簡単に取れる仕組みがあります。」

タイムトラベルとは

高山氏:「さらにタイムトラベルで、最大で90日以内であれば、任意のタイミングに対してクエリを打てます。たとえばデータを間違えてロードしてしまった場合、その前の状態にテーブルを巻き戻すような、まさにタイムトラベルできる機能もあります。この機能の運用をしてから、救われたというお声をいただけることが多いです。」

ダイナミックデータマスキングとは

高山氏:「ダイナミックデータマスキングという機能も非常にご評価いただいています。ファミリーマート様の事例からお話しますが、データベースのテーブルに個人情報を含んでいる場合があります。一方で分析したい方は、電話番号などの個人情報は必要ありません。むしろ、個人情報を含んでいるテーブルであるため、アクセスできなかったのが今まででした。また、お客様によってはテーブルをコピーして、個人情報を抜いた分析用のテーブルを作ったりと、運用が煩雑だったと思います。

Snowflakeをテーブルに対して設定することで、強い権限を持っている方がアクセスすると、電話番号などの個人情報が見られます。一方でそれ以外の方には、マスクキングされ個人情報見えない形にできます。」

セキュアなデータ共有の実現

高山氏:「データクラウドはコンテンツを流通させるような仕組みであり、大元にあるのはデータ共有の考え方です。

皆さんも、社外の方やお取引先様、グループ会社様とデータ共有をされることがあると思います。御社が他社さんに渡す場合、CSVやJSONファイルを渡したり、FTPやメールに添付したり、APIで作ったりするため、メンテナンスがかなり大変だと思います。

コピーを渡してしまうと、その先でどう使われてしまうかわかりません。間違えて渡してしまった場合も、本当に消してくれたかどうかの確認ができません。

反対に受け取る側は、受け取ったデータシステムに変換する際、昨日まではロードできていたが今日からエラーが出ることもあります。また、「最新のデータをください」「差分でください」といったやりとりは大変だったと思います。

Snowflakeはこれらの過程を簡単にし、御社が持っているデータに対して他社がクエリを打ってよい権限をつけてあげるイメージです。データを渡すのではなく、取引先が自社のデータを使って分析できます。」

データ共有の方法

高山氏:「誰かに共有をする場合は、共有したいベースのテーブルを選びます。その際、マスキングや閲覧権限などのさまざまなセキュリティ設定ができます。テーブルやビューなどを選択し、それを誰に見せるか決めるイメージです。これによって、このテーブルに対するアクセス権限を誰かにつけられます。

また、立場が逆になって誰かから共有された場合について紹介します。右の方にデータベースの一覧があり、ローカルや共有と書いてあります。「ローカル」は自社で持っているデータで、「共有」は共有されているデータです。

たとえば、スタースキーマという会社が私に閲覧権限をつけてくれています。私はコピーを受け取るのではなく、このデータに対してリアルタイムでクエリを打てます。私が持っているデータではなく、スタースキーマ社のSnowflakeにクエリを打って、結果を取っているイメージです。

このように、他社のデータへのアクセスも可能ですし、もちろん自社データと他社データを組み合わせて分析もできます。たとえば、スーパーマーケットの方が、来店者数と売り上げの自社データを持っており、天気のデータを分析に活用するのが流行っています。

天気調査会社の天気データをジョインして、来店者数売上と気温など天気の相関関係を見ていました。これがダイレクトシェアと言われる、特定の相手と一対一でデータをやり取りするやり方です。

また、マーケットプレイスが今盛り上がっています。AppleやGoogleのアプリストアのような形で、Snowflake上にデータが既にラインナップされています。マーケティングのデータや気象データ、POSのマスターデータなどさまざまなデータが載っています。たとえば、インテージさんの公開されているデータを直接使うことも可能です。」

Snowflakeの強み

高山氏:「冒頭、垣根を越えてデータの力を最大化させると申し上げました。ひとつ目は、シングルソースに皆が分析クエリを投げても重くならない仕組みを分析基盤として持ってます。

二つ目に、先ほどご紹介したお取引先や関連会社様、特定の相手と一対一でデータをやり取りする仕組みがあります。さらに、有料のものと無料のものがありますが、マーケットプレイスで、マーケティングのデータやオープンデータ、気象データなど、今までお付き合いのなかった会社さんのデータを取り込んで分析できます。

前半が「分析基盤としてのSnowflake」、後半が「データ共有のプラットフォームとしてのSnowflake」です。特に前半の「分析基盤としてのSnowflake」のところで、trocco®さんと組み合わせていただくと、導入が楽だったり、使いやすかったりするのではないかと思います。」

SECTION 2

SECTION 2では、薬丸より、「trocco®とSnowflakeで構築するデータ分析基盤」というセッションでお話しをさせていただきます。

trocco®×Snowflakeで快適なデータ分析が可能に

薬丸:「先ほどご紹介したSnowflakeと、フルマネージドETL/ELTサービスであるtrocco®を組み合わせて、さまざまなデータソースを簡単にSnowflakeと統合し、快適にデータ分析が行える基盤を作る方法をお話しできればと思っております。」

データ分析・活用のプロセス

先ほどご紹介したSnowflakeとtrocco®の関係性について、こちらにデータを活用するまでのプロセスをお示ししております。あらゆるデータをtrocco®によって統合して、Snowflakeに蓄積し、Tableauのような可視化ツールを使っていただいて分析することで、データ活用に紐づいていきます。」

データ統合のイメージ

薬丸:「trocco®は、オープンソースのEmbulkを採用したAWS東京リージョンで稼働しているクラウドサービスです。弊社の事業範囲は、trocco®を中心にデータを連携して前処理を構築することや、データウェアハウスやダッシュボードを構築することです。分析基盤全体を一気通貫で構築し支援することも行っております。

trocco®は上図に示しているイメージのように、さまざまなデータソースから連携するサービスです。たとえば、広告系のサービスやクラウドアプリケーション系、そしてアプリ系やデータベース系、ストレージサービスファイル系などからデータを取ってきて、加工して連携します。」

データ統合の工程は自動化可能

薬丸:「trocco®によって、本来データ統合に必要なさまざまな工程が自動化できます。特にお客様側でサーバーを立てる必要がない点や、データソース側のAPIのバージョンアップなどのメンテナンスを行う必要がない点が、trocco®を使うメリットです。」

trocco®のコンセプト

薬丸:「そして、trocco®を使っていただくことで、データ統合にかかる初期開発や運用保守の工数が大幅に削減されます。そのため、本当にやりたい分析業務に注力でき、これがtrocco®のコンセプトでもあります。」

trocco®の導入実績

薬丸:「現在、200社以上のお客様にご採用いただいており、多様な業種や規模のお客様にご利用いただいております。最近では、AWS向けの対応やAWSのプライベートリンク接続オプションの対応も進めているため、エンタープライズ様でもご採用が広がっています。」

trocco®を利用するメリット

薬丸:「trocco®を使っていただくメリットで、特に(お客様から)おっしゃっていただくポイントというところをまとめています。

まず、後ほど詳細をご紹介いたしますが、GUIがわかりやすく、非常に簡単にETLパイプラインを構築できるというお声をいただいております。

そして触りやすいという特徴から、エンジニアの方だけではなく非エンジニアの方、特に営業企画やマーケ部門の方にも触っていただき、よりデータの民主化に貢献する実績も広がっております。

広告やデータベース、データウェアハウス、SaaS系のサービスなどさまざまなデータソースをご用意しています。「お客様自身でより基盤を拡張していきたい」といった声にも応えられるサービスだと考えております。」

trocco®のご提供範囲

薬丸:「こちらの図はdamaのホイール図で、データガバナンスに必要な10個の領域を示した図です。その中でtrocco®として機能提供しているのは、右下のデータ統合だけではなく、右上のデータモデリング&デザインもあります。こちらは、trocco®のデータマート機能やdbt連携機能が該当しています。

左側のメタデータの管理も、trocco®のデータカタログ機能で機能提供を行っております。たとえば、SnowflakeやTableauのようなサービスを組み合わせていただくことで、データガバナンスを実現できるのだとご認識いただければと思います。」

Snowflakeとtrocco®の活用範囲

薬丸:「つづいて、具体的な機能の特徴についてお話しさせていただきます。

先ほど高山さんの図にもありましたが、この図はデータを活用する際のアーキテクチャを示しております。真ん中にSnowflakeがあり、上図のオレンジ色の部分がtrocco®の機能です。

たとえば、左側にさまざまなデータソースの種類が書いてありますが、これらのデータをtrocco®によって転送します。そして、Snowflakeの中でデータマート機能という、一般にELT処理と呼ばれるSQLを使った加工を行えます。このように、trocco®でデータを連携し、Snowflakeの中で加工を行っています。

そして必要であれば、別の活用プラットフォームと再度連携します。この一連の流れを、ひとつのワークフローとして管理できます。」

データパイプラインの構築はたったの3ステップ

薬丸:「データパイプラインの構築、データマートの作成、そしてワークフロー機能の作成に加え、細かい機能やコネクタについても簡単にご紹介します。

trocco®では、この図が示しているように、3ステップでデータパイプラインが作れます。こちらは、SalesforceからSnowflakeへ連携する例ですが、他のサービスについても同様に3ステップで作成可能です。

サービスを選んでいただき、より具体的な「どのtableを取ってくるか」という情報を、ステップ2で入れていただきます。そして最後に、プレビュー画面を見ていただきながら、転送後の結果にどのような形でデータが送られるかを確認していただきます。確認後は、設定を保存していただいて、簡単にデータパイプラインが作れます。」

テンプレートETLとは

薬丸:「この画像は実際にどのような加工ができるかを示しています。

このようなテンプレートETLとして、trocco®にUI上で選択いただく、もしくは入力いただくことで加工ができます。加工は大きく7つありますが、よく使っていただく機能は、文字列の置換です。正規表現置換を行えるため、郵便番号のハイフンを抜いたり、時系列の表記を統一したり、もしくはデータを送る際にマスキングやハッシュをかけて匿名化していただいて、データを転送したりする際に使っていただいております。」

データマート機能とは

薬丸:「データをデータベースに送った後には、ELT処理でtrocco®からSQLのクエリを実行し、データを加工することも可能です。

画像の下部に見えるのが、trocco®の実際のUIです。このようにSQLのクエリを書いていただくことで、このクエリをSnowflakeに対して実行できます。

クエリを書いていただくときに、プレビュー実行のボタンを押していただくと、クエリを投げた後のプレビューをtrocco®のUIで見られます。クエリを書いていただきながら、結果を確認していただいて、データマートを作れます。」

ワークフロー機能でdbtジョブも実行可能

薬丸:「先ほどのデータ転送の設定とデータマートの設定を行っていただいた後に、このようなワークフローで全体の流れが管理できます。画像左側にスタートと書いてあり、ここから線で結んでいただくことで、全体の依存関係を簡単に定義できます。

データを転送し、Snowflakeの中で結合や加工を行って、Slackで完了通知を行えます。もしくは、Tableau側へダッシュボードの更新を簡単にかけられます。

またワークフロー機能の中で、dbtのジョブを実行することも可能です。現在trocco®の方にdbtの開発環境はないのですが、GitHubリポジトリと連携して、Git上にあるdbtジョブから呼び出して実行できます。データを転送した後に、データモデリングを行うフローも簡単に作れます。」

豊富なコネクタ

薬丸:「現在、trocco®では転送元、転送先合わせて100種類以上のコネクタをご用意しております。

広告系やアプリケーション系、データウェアハウス/ファイルストレージ系、データベース系とあります。弊社は日系のSaaSサービスであるため、ヤフー広告やkintone、SHANONマーケティングプラットフォーム、KARTEなどにも対応しています。

データウェアハウスとしては、SnowflakeやBigQuery、Redshiftの3つがターゲットとなっています。」

豊富なオプション機能

薬丸:「trocco®の機能としては、標準機能とオプション機能の大きく二つあり、標準機能が月額の料金内で使っていただける機能です。先ほどご紹介したテンプレートETLやデータマート機能、ワークフロー機能はいずれもこの標準機能に含まれています。

さらに、テンプレートETLでできないような加工を加えたいという場合には、月額の料金にプラスして右側オプション機能を有償機能として、追加いただくことも可能です。

たとえば、プログラミングETLとしてRubyやPythonで加工を行えますし、そのほかにも(緑の枠で囲われている)3つを、このあとピックアップさせていただきます。」

Web行動ログ収集SDKとは

薬丸:「Web行動ログ収集SDKは、trocco®から払い出したJavaScriptタグによって、お客様の生ログデータを取得する機能です。これにより、エンドユーザー様の行動ログ、そしてイベント分析し、他のサービスのデータへ組み合わせて分析できます。

取得したログはtrocco®で任意のデータソースに送れるため、分析環境に合わせてお使いいただけます。」

薬丸:「また接続のオプションとして、AWS PrivateLinkによる接続も直近リリースしております。

こちらを使っていただくことで、trocco®とお客様のAWS VPC、もしくはSnowflake on AWSに、プライベートリンクで接続可能です。こちらであれば、データをインターネットに出すことなく通信できます。」

データカタログとは

薬丸:「つづいて、trocco®のデータカタログ機能についてご説明させていただきます。

左側に、データガバナンスに必要なメタデータの管理がありますが、こちらに対してtrocco®はデータカタログ機能を提供しています。

実データには、どういった意味を持つデータなのかを説明するビジネスメタデータや、スキーマ定義のようなテクニカルメタデータ、最終更新時間やアクセス頻度のようなオペレーショナルメタデータが付与されています。

これらをまとめて管理するのがデータカタログです。」

データ分析の際の課題

薬丸:「データカタログは、基本的にはデータの分析者の方が使っていただく機能となっております。

たとえば、データを探したり、データの中身を確認したり、データの質をチェックするために集計やチェックを行ったりするケースを想定しています。

こういった分析業務の流れの中で、同じようなデータが複数あり、

  • 欲しいデータがどこにあるかわからなない
  • データの相関図の作成に時間がかかる
  • 集計の際にですねミスが発生する
  • 毎回毎回確かめるのに非常に時間がかかる

といった課題があるかと思います。これらの課題の解決策として、よりデータを探しやすくするために、trocco®ではデータカタログ機能を提供しております。」

データカタログで課題を解決

薬丸:「たとえば、必要なメタデータが検索できるメタデータ検索機能や、trocco®によって自動でメタデータのカタログを作ってくれる機能(データカタログ機能)、テーブルとテーブルの相関図を可視化するER図を作成する機能も提供しています。

ユーザー様独自のメタデータをtrocco®上に記載いただくことで、メタデータを追記いただくことも可能です。またJOIN分析では、スケールを書くことなく、ボタン操作でテーブルとテーブルをジョインした後の結果をプレビューで確かめることが可能です。」

メタデータ自動収集機能

薬丸:「ETLのデータソースから、データを転送する際に自動でメタデータを収集することも可能になっております。現在、メタデータの自動収集が6つのデータソースに対応しており、たとえばSalesforceやkintoneがあります。

これらのデータソースからデータを転送する際には、メタデータを自動で取得できるため、手入力の必要がなくなります。」

システムの全体像

薬丸:「データカタログでは、データ転送の際にtrocco®でデータを抽出したあと、メタデータを自動で統合できますし、Snowflakeにデータを送ったあと、Snowflake上のカタログデータもtrocco®で抽出可能です。またユーザー定義メタデータとして、データの管理者の方が自ら追記いただくことも可能です。

これらを合わせて、trocco®ではデータカタログとして管理し、分析ユーザーの方がデータをより探しやすくなります。

このように、trocco®でデータを転送していただくだけで、勝手にデータカタログが自動で育っていくところが、trocco®のデータカタログ機能の一番のメリットだと考えております。」

Snowflake版も近日リリース予定

薬丸:「trocco®データカタログは、現在BigQuery版の対応のみとなっているのですが、Snowflake版も近日リリース予定となっております。」

trocco®の料金プラン

※2023年12月当時のものです。詳細はお問い合わせください。

薬丸:「料金プランというところも簡単にご説明させていただければと思います。

trocco®は、現在大きく3つのプランでご提供しています。共通してクラウドのサービスであり、初期費用は0円です。

左側からライトプランが10万円〜、スタンダードプランなら30万円〜、エンタープライズプランとありますが、利用いただく転送元/転送先のコネクタの数の合計が、4種類までであれば、ライトプランで使っていただけます。

月のデータ転送時間の目安は、trocco®で転送ジョブを実行した時間の合計が月250時間までならライトプランに含まれます。さらに、5種類目や6種類目のコネクタを追加されたいという場合には、個別でコネクタのオプションとして追加いただくことも可能です。

コネクタをさらに追加されたり、全てのスクリプトを利用されたりする場合には、真ん中のスタンダードプランに移行いただきますと、全てのコネクタとデータ転送が1,250時間までお使いいただけます。」

オプション機能の料金プラン

※2023年12月当時のものです。詳細はお問い合わせください。

薬丸:「(オプション費用の料金体系は)少し細かくなっているため、後ほど資料の方で確認いただきたいのですが、こういった形で個別でコネクタを追加いただけます。

先ほどご紹介させていただいたデータカタログ機能は、通常の月額プランに加えて、プラス10万円でご利用いただける機能です。そのため、ミニマムで10万円+10万円=20万円からデータカタログが使えます。ETLとデータカタログを含めて、非常にスモールスタートに始めていただけるツールだと考えております。」

trocco®×Snowflakeでデータ利活用の課題を解決

薬丸:「trocco®と組み合わせた場合のメリットをまとめて説明いたします。

データ利活用を進める上で、さまざまな課題を抱えていらっしゃるかと思います。たとえば、

  • データが点在していて、活用できる状態になっていない
  • 予算がないため取り組みが始められない
  • 社内のエンジニアリソースが不足していて、人をかけることができない
  • セキュリティコンプライアンスが非常に厳しく、セキュアな環境への接続が必要

といった課題があるでしょう。それらを大きくまとめると、スピード、保守運用、コスト、セキュリティの4つになるかと思います。」

trocco®×Snowflakeのメリット

薬丸:「ここでそれらの悩みにお答えできるのが、trocco®とSnowflakeだと考えており、具体的に4つのメリットがあると考えています。

まずスピードの観点では、さまざまなデータソースからのデータ連携が非常に簡単になっております。先ほどご紹介した3ステップでデータを統合できるため、まずはSnowflakeで簡単に入れていただいて、すぐにデータ分析開始できると思います。

保守運用の観点では、trocco®とSnowflakeはいずれもクラウドサービスであり、基盤の保守運用・監視の必要がないため、インフラを意識せずに使っていただけます。

またコストの観点では、ライトプランは10万円からであり、データカタログ機能もプラス10万円で利用できるため、ETLとデータカタログを合わせても20万円から使っていただけます。そのため、非常にスモールスタートで、分析基盤に必要な要素が揃えられるのではないかと考えております。

最後にセキュリティの観点では、直近にデータベースのプライベートリンク接続オプションもリリースしたため、データをインターネットに流すことなく、セキュアにSnowflake on AWSに連携できます。」

trocco®とSnowflakeで構築するCDPイメージ

薬丸:「最後に、ユースケース・活用イメージについてご紹介させていただきます。

この図は、カスタマーデータプラットフォーム(CDP)を、trocco®とSnowflakeで構築したイメージになっています。

trocco®によって、顧客/会員データや購買データ、CRM/SFAのデータなど、さまざまな種類のデータ統合が可能です。また、途中でご紹介したようなWeb行動ログSDKもあるため、trocco®でエンドユーザー様のWeb上の行動ログも取得できます。

こういったデータをSnowflakeに貯めていただくことで、Snowflakeの中でデータレイク層、データウェアハウス層、データマート層のように、テーブル管理するワークフローをtrocco®で組み込めます。

また、作成されたデータソースをtrocco®によって、リバースETLで元のデータソースに戻したり、別の広告配信プラットフォームやMAツール、SFAツールへ返したりすることも可能です。一方、BIや機械学習は別のツールを使っていただき、Snowflakeのテーブルを参照する流れになると思います。

Snowflakeとtrocco®を組み合わせていただくことで、必要な機能をスモールスタートに実装できる、投資対効果(ROI)も優れることがメリットに挙げられると考えています。」

trocco®×Snowflakeで快適なデータ分析を

薬丸:「trocco®とSnowflakeを組み合わせていただくことで、「さまざまなデータソースをSnowflakeに連携する」、「Snowflake上でテーブルを管理し、外部プラットフォームに連携する」といった流れが簡単に実現できることを、少しでもイメージいただけましたら幸いです。」

まとめ

本セミナーでは、trocco®とSnowflakeを組み合わせることで、より多くのデータソースに連携できたり、データ分析がより効率的に行えたりすることを紹介しました。

セキュアな環境を必要としている方や、データ分析が有効的にできていないと感じている方は、本記事の内容を参考に、データパイプラインの見直しを図ってみてはいかがでしょうか。

また、弊社の提供しているデータ分析基盤総合支援サービス「trocco®」は、データのETL機能を中心としたSaaSのサービスです。そのほかにも、本記事で紹介した、メタデータ機能やデータカタログ機能、ワークフロー機能などデータ運用を総合的にサポートする機能を提供しています。

クレジットカード不要のフリープランもご案内しています。興味のある方はぜひこの機会に、一度お試しください。

trocco® ライター

trocco®ブログの記事ライター データマネジメント関連、trocco®の活用記事などを広めていきます!