本記事では、データウェアハウス(DWH)、ETLプロセス、BIツールなどのアップデート情報や最新トレンドを毎月わかりやすくお届けします。
主要なニュースをピックアップしているので、サクッと最新情報をキャッチアップしたい方は、ぜひご覧ください。
Data Engineering Newsの公開のメール通知をご希望の方はこちらのフォームよりご登録ください。
Google BigQueryのニュースまとめ
履歴ベースの最適化がプレビュー版として利用できるように
類似するクエリでの実行情報に基づいて、クエリのパフォーマンスを改善します。
プロジェクトで最適化を有効にするにはALTER PROJECTステートメントでdefault_query_optimizer_options = ‘adaptive=on’を指定します。
マテリアライズドビューのallow_non_incremental_definitionオプションとmax_stalenessオプションがGAに
allow_non_incremental_definitionオプションを使用することで非増分マテリアライズドビューが作成できます。
非増分マテリアライズドビューではOUTER JOINやUNIONなどのほとんどのSQLクエリが使用可能なため、常に最新のデータを必要としないケースで利用できます。
データの更新間隔はmax_stalenessオプションで調整可能です。
BigQuery MLでモデルモニタリングがプレビュー版として利用できるように
2024年4月時点では以下の関数が利用可能です。各関数の詳細は公式ドキュメントをご参照ください。
- ML.DESCRIBE_DATA
- ML.VALIDATE_DATA_SKEW
- ML.VALIDATE_DATA_DRIFT
- ML.TFDV_DESCRIBE
- ML.TFDV_VALIDATE
たとえばML.DESCRIBE_DATAは、カラムごとのNULLの数やユニーク数、最大値・最小値などの記述統計量を計算してくれるため、データの傾向や異常が簡単に把握でき、機械学習に限らずデータ分析の初期段階での活用が可能です。
BigQueryでLIKE ANYとLIKE ALL演算子がGAに
- LIKE ANY: 指定したいくつかのパターンのうち少なくとも1つにマッチするかをチェックします
- LIKE ALL: すべての指定したパターンにマッチするかをチェックします
これらの演算子を使用すると、WHERE句での複数の条件指定が簡潔に記述できるようになります。
すべてのBigQueryプロジェクトでSQLコード生成機能がプレビュー版として利用可能に
Goolgleが開発した大規模言語モデルであるGeminiを利用して、BigQuery上で自然言語を用いたSQL生成が可能になりました。
また、SQLクエリの生成だけでなく、説明も行えるため、複雑なクエリの理解が容易になります。
BigQuery Studioでデータキャンバスがプレビュー版として使用できるように
BigQuery データ キャンバスは、有向非巡回グラフ(DAG)でデータソース、クエリ、可視化を操作できる、分析用のグラフィック インターフェースを提供します。
また、Geminiを利用して、自然言語でのデータ検索、SQL作成、グラフ作成、データの要約などが可能です。
Google BigQueryのリリース内容の詳細はこちらのページをご覧ください。
Snowflakeのニュースまとめ
Snowflake Arcticが公開
SnowflakeのAI研究チームがSnowflake独自のLLM(大規模言語モデル)を公開しました。
SQL生成タスクをはじめとする、さまざまなタスクにおいて同規模のLLM(Llama2, 3やMixtral 8xなど)の精度を凌駕していると報告されています。
詳しい内容はこちらをご覧ください。
Snowflake Cortex LLM関数がGAに
Snowflakeが提供するAIモデル・LLM・ベクトル関数などをホストする包括的なフルマネージドサービスがGAになりました。
2024年5月現在では、AWS・Azureの限られたリージョンアカウントのみでの利用が可能となっていますが、今後拡大していく予定です。
特徴として以下が挙げられます。
- SQL経由で高精度なAIモデルを呼び出すことができ、既存のデータアプリケーション・パイプラインとの統合が容易
- 既存の予測・分類・異常検知などのさまざまなタスクに特化した専門的な関数とLLMを用いた汎用的な関数の選択肢による利用最適化
- SnowflakeのDWH利用のように、フルマネージドで利用できるためインフラ管理などは不要
- Snowflake独自のLLMであるArcticをはじめ、RekaやMistral、Llamaなど用途に合わせたモデルサイズ、カテゴリーを選択することが可能
詳しい内容はこちらをご覧ください。
Snowflake CopilotがPublic Previewとして利用できるように
データパイプライン構築やデータ分析を簡素化するLLMを搭載したアシスタント機能で、既存のSnowflakeワークフローとシームレスに統合することができます。
2024年5月現在では、AWSの限られたリージョンアカウントのみでの利用が可能となっており、制限事項として英語とSQLのみでの利用が可能です。
ユースケースとして以下が挙げられます。
- データ構造について文章による質問
- SQL文の提案するクエリの試し打ち
- データ構造を理解した上でのSQLクエリの生成
- 会話を通じた複雑なクエリ生成
詳しい内容はこちらをご覧ください。
Snowflake Data Clean Roomが利用可能に
企業の保持するデータをプライバシー保護や法整備に対応した上で、外部と機密データや規制対応データを安全に共有できる環境であるData Clean RoomがSnowflake Native App Frameworkを用いて開発され、利用可能になりました。
特徴として以下が挙げられます。
- WebUI・開発者向けAPI経由で利用することが可能
- 非エンジニアでも使いやすい業界別テンプレートが利用可能
- Data Clean Roomから共有されたデータを用いて、自社のデータと統合・分析が可能
現在はAWS、Azureの一部リージョンのみでの利用が可能です。
詳しい内容はこちらをご覧ください。
Google Analytics向けのコネクターが利用可能に
Snowflake Native App Framework を使用して開発されたGoogle Analytics用のSnowflakeコネクタが利用可能になりました。
Snowflake Marketplaceから誰でも簡単に利用することが可能です。
連携できるデータは「Aggregate(集計)」と「Raw(ローデータ)」の両方が対応しており、用途に合わせて選択できます。
詳しい内容は以下のページをご覧ください。:
- https://www.snowflake.com/blog/unlock-marketing-data-power-snowflake-connector-ga/
- https://docs.snowflake.com/en/release-notes/2024/other/2024-04-30-gaad-gard-ga
SnowflakeとSalesforce Data Cloud間の双方向データ共有がGAに
SnowflakeとSalesforce間の双方向かつリアルタイムなデータ共有が可能になりました。
CRM領域におけるデータ統合・連携は、昨今の技術的要因、顧客のニーズの多様化から、より高度なデータ活用によるパーソナライズされたエクスペリエンス強化が必須となってきています。
その上で、SnowflakeとSalesforceの間でシームレスなデータ共有が行えることで、あらゆる業界に対しての顧客対応部門が堅牢なCustomer 360を構築できるとしています。
詳しい内容はこちらをご覧ください。
Dynamic TableがGAに
今までテーブルの差分更新機能を含んだデータパイプラインの構築には、Snowflake内のタスクとストリームを組み合わせて、定期的に用意したSQLを実行させることでデータマートの作成を行ったり、外部のワークフローツールからSQLを実行することで可能でした。
そのデータ変換・作成・差分更新を、Snowflake内のオブジェクト1つのみで完結できるようになる機能がGAになりました。
作成時は構築したいデータをSQLで記述し、更新の頻度・方式を設定するだけで簡単にデータパイプラインを構築できます。
Public Preview時点から、以下の機能が追加されました。
- 共有とコラボレーション機能追加による変換されたデータを簡単に共有可能に
- レプリケーション機能追加による可用性担保
- ウェアハウス消費、更新履歴、グラフによる依存関係の可視性向上
- transientテーブルタイプ、クラスタリング機能の対応
- 有効非巡回グラフの深さ制限、作成上限数の削除によるスケーラビリティの向上
- 開発ベストプラクティスやパフォーマンス最適化ガイド、トラブルシューティングを含めたドキュメントの追加
詳しい内容はこちらをご覧ください。
その他アップデート(一部抜粋)
Snowflake Cortex内の時系列予測と異常検知用モデルの精度メトリクスが閲覧可能になりました
モデルトレーニング時の精度やモデルトレーニング時に利用しなかったデータに対しての推論精度の検証が行えるようになりました。
これにより継続的な学習をSnowflake内で完結させる際などに、有用な機能として扱えます。
Snowflake内からGitリポジトリにアクセスできるようになりました
リモートGitリポジトリとSnowflake内のレポジトリステージを統合することで、リモートリポジトリの完全なクローンとして機能するローカルGitリポジトリを生成できます。
たとえばローカルリポジトリとそれに対応するリモートリポジトリがあった際、ローカルからリモートへ変更をpushすることができますが、今回のリリース内容を設定しておくことで、リモートリポジトリにpushされた変更が、Snowflake内のリポジトリステージも反映されるようになり、ユーザー定義関数やストアどプロシージャなどの変更がデプロイしやすくなります。
詳しい内容はこちらをご覧ください。
Snowflake Cortex内の時系列予測モデルの改善
内部で使用されているアルゴリズムの改善が行われ、精度向上やエラー発生を低減するようになりました。
コスト管理のアカウント概要ページがGAになりました
Snowflakeの使用コストに関する概要を一望できるページがSnowsightに追加されました。
ダッシュボードのように利用できるため、発生したコストの可視性向上に寄与することができます。
詳しい内容はこちらをご覧ください。
Budgets機能がGAになりました
特定のSnowflakeオブジェクトのグループに対するクレジット使用量をアカウントレベルで監視・通知が可能になるBudgets機能がGAになりました。
新しいコスト管理のアカウント概要ページや既存のリソースモニターなどと組み合わせてより細かくコストの管理・最適化が行えるようになります。
詳しい内容はこちらをご覧ください。
Snowpark Container Serviceに機能が追加されました
- Serviceを実行するコンピューティングプール内のノードに関するメトリクスと、Service自体に関するメトリクスが提供されるようになりました。
- Serviceがブロックストレージボリュームをサポートするようになりました。
Snowpark ストアドプロシージャの非同期ジョブがサポートされるようになりました
Java・Python・Scalaで記述されたストアドプロシージャハンドラーコード内でSnowpark APIを使用した非同期の子ジョブの同時実行をサポートするようになりました。
非同期クエリを用いたり、ステータスや結果にアクセスしたり、クエリキャンセルをするなどができるようになります。
ServiceNow V2向けSnowflakeコネクタがGAになりました
インシデント管理、変更管理、資産管理、構成管理、サービスカタログ、リクエスト処理などのサービス管理のワークフローを提供するクラウドベースのプラットフォームであるServiceNowとのシームレスな統合が可能になる、ServiceNow V2向けSnowflakeコネクターがGAになりました。
コネクタはSnowflake Native App Framework 上に構築されており、自動的にSnowflakeにデータを取り込めるようになります。
詳しい内容はこちらをご覧ください。
クライアント接続のリダイレクト機能にFAILOVER権限が追加されました
プライマリ基盤として、あるリージョンに構築しているアカウントのサービスが停止した際、クライアントリダイレクト構成を組んでいれば、異なるリージョン・クラウドプラットフォームサービスをセカンダリ基盤に切り替わる際、プライマリ基盤のURLからセカンダリ基盤の接続をリダイレクトで行えるクライアントリダイレクト機能に対して、ちオプションが追加されました。
追加された機能として、クライアントリダイレクト機能の利用権限を、特定のロールに付与できるようになりました。
詳しい内容はこちらをご覧ください。
SQLを利用して共有のリスティングが管理できるようになりました
Snowsightからのみ可能だった操作を、SQLコマンドからリストの内容をCREATE・ALTER・DESC・SHOW・DROPできるようになりました。
制約として、有料のリストやData ExchangeのリストをSQL経由で操作することはできません。
詳しい内容はこちらをご覧ください。
Snowflake Provider Studioが利用可能になりました
Snowsightから簡単にデータ製品をSnowflake Marketplaceに公開できるUIであるProvider StudioがPublic Previewになりました。
使用するためにACCOUNTADMINやリスティング作成権限を持つ必要がなくなりました。
詳しい内容はこちらをご覧ください。
COPYオプションでINCLUDE_METADATAが利用可能になりました
COPY INTOコマンド利用時にINCLUDE_METADATAオプションを利用することで、取り込んだ行が、どのファイルから、いつ取り込んだのかのメタデータを保持した状態で取り込むことが可能になりました。
ファイル名に含まれる日付やその他のデータを1つの情報として活用できるため、保持できる情報の幅が広がり、データ統合の有用な機能として役立つことが期待できます。
詳しい内容はこちらをご覧ください。
Looker Studioのニュースまとめ
タイムラインチャートが利用可能に
タイムラインチャートを使用すると、イベントグループ間の関係を視覚化し、これらのイベントが発生した期間を比較できます。
これまで期間のあるイベントを表現することは難しかったですが、このチャートによりガントチャートのような開始時間と終了時間のあるデータを活用しやすくなります。
Googleスプレッドシート内でLooker Studioレポートが作成可能に
Googleスプレッドシートから直接Looker Studioレポートを作成できるようになりました。
これまではLooker Studioからレポートを作成し、データソースを追加する作業が必要だったのが、レポート作成までの手順がシームレスになりました。
また、接続時にデータの定義を指定でき、レポート作成時にはタイトル欄とグラフが自動生成されるなど、はじめて利用する方にもイメージが湧きやすい流れになっています。
Looker Studio Proのニュースまとめ
チームワークスペースのメンバーに閲覧者ロールを付与可能に
チームワークスペースのロールとして閲覧者ロールを付与することで、ユーザーはチームワークスペースの既存のアセット、フォルダ、ワークスペースのゴミ箱を閲覧可能になります。
既存の管理者、コンテンツ管理者、投稿者に加えて新たな権限になります。
レポートの定期配信が可能な閲覧者ロールが追加
レポート共有の際に、そのレポートを定期配信可能な閲覧者ロールを付与できるようになりました。
なお、Looker Studioではレポートの定期配信はできないようになっています。
Looker Studio Proの登録時に新たなGoogle Cloudプロジェクトを作成可能に
Looker Studio Proの登録時に、新たなGoogle Cloudプロジェクトを作成し、そこでLooker Studio Proのコンテンツを管理できるようになりました。
dbtのニュースまとめ
dbt Cloud で Merge Jobs 機能がリリース
dbt Cloudで、CI/CDを強化する新機能がベータ版としてリリースされました。
Pull Requestのマージが行われたタイミングで、dbtジョブの実行をトリガーできるようになりました。
本機能によって、よりスピーディにかつ運用負荷を抑えながら、データパイプラインのリリースフローを設計/実装することが可能になります。
dbt Semantic Layer におけるGoogle Sheets連携関連の機能強化
Google Sheets連携に関連して、以下の機能追加・機能拡張がリリースされました。
機能追加 | Googleシートのアドオンから作成した抽出条件を、”Saved Selections”として保存できるようになりました。保存時に、Selectionの共有有無を選択することができます。アクセスのたびにデータを更新するかどうかを選択できます。補足:“Saved Query”は、コード管理される汎用的なデータ定義です。”Saved Selections”は、Google Sheetsのみで作成・利用可能です。Saved queryの出力結果を使って、Saved selectionを作成することもできます。 |
機能拡張 | Googleシートのアドオンから、直接Saved query を参照・利用可能になりました。 |
機能拡張 | Googleシートのアドオンから、事前のdimension定義なしにクエリが可能になりました。 |
機能拡張 | Googleシートのアドオンから時刻のプリセットが利用可能になり、between/after/before といった期間フィルタを利用できるようになりました。 |
機能拡張 | Googleシートのアドオンに、dimensionの入力補助機能が追加されました。 |
機能拡張 | Googleシートのアドオンで、直接エンティティをクエリ可能になりました。 |
機能拡張 | Googleシートのアドオンで、除外カラムを指定できるようになりました。 |
本アップデートにより、Googleシートの画面上からデータ定義されたメトリクスを活用できる機能の使い勝手がさらに向上します。ビジネスユーザーが少ないステップで安全にデータ抽出やレポート作成を実施することが可能となります。
その他の変更も含め、詳しくは 公式のリリースノート をご参照ください。
Tableauのニュースまとめ
Tableau 2024.1について
AI機能を備えた新しい可視化機能 Tableau Pulseがリリース
特定のKPIの推移を追うための、AI機能を備えた新しい可視化機能がリリースされました。
Tableau Cloud上の設定画面から有効化にチェックを入れることで、メニューの「探索」下部に表示され使用可能になります。
データソースから時系列推移を追いたいメトリクス(指標のこと。たとえば「売上」)を定義すると、傾向や要因などのインサイトを出してくれます。
ユーザーごとに追うべきメトリクスを設定・フォローすることができ、それをメールやSlackに通知することが可能です。
モバイルアプリ版のTableau Mobileへ遷移しての確認も可能です。
詳細は以下のページをご覧ください。
- https://www.tableau.com/ja-jp/products/tableau-pulse
- https://help.tableau.com/current/online/en-us/pulse_intro.htm
通知による業務への組み込み、かつAIによるアシストによって、ビジネスユーザーのインサイト抽出までの手間を極力省くことが期待されます。
Tableau Desktop・Tableau CloudでSalesforce Data CloudへのTableauで特定したセグメントの転送が可能に
棒グラフなどで可視化したセグメントを、Data Cloudへ転送することが可能になりました。これにより、分析結果からマーケティング活動への連携が、よりスムーズに可能になります。
詳細はこちらをご覧ください。
Tableau CloudがAWS Marketplaceで入手可能に
Tableau Cloudが AWS Marketplaceで入手可能になりました。SalesforceとAWSのパートナーシップ強化が伺えます。
その他、Tableauに関するアップデート情報などは公式のリリースノートをご確認ください。
Tableau Public 2024.1.2について
ローカルファイル保存が可能に
無償提供されているTableau Publicについて、ファイルのローカル保存が可能になりました。
これまではファイル保存する場合はオンライン上に公開(Public上にパブリッシュ)が必須であり、ローカルへの保存はできない制約がありましたが、この制約が解放された形です。
導入検討中に自社データで使い勝手を試すことも可能になり、また、作業途中でも公開する必要があった以前と比べ個人利用もしやすくなる印象です。
詳しい内容はこちらをご覧ください。
Tableau Conference2024で発表された内容の抜粋
Tableau ConferenceはTableau最大級のイベントで、今年は2024/4/29~5/1サンディエゴにて開催されました。
以降はまだリリースはされていませんが、2024.2以降の今後の予定として発表されている内容より一部抜粋します。
Data Cockpit
現在の「管理者インサイト」がより拡張されたものがリリースされる予定のようです。管理者向けの機能として、ダッシュボード利用状況がより確認しやすくなることが期待されます。
Viz Extension
さまざまな開発者が公開したVizを、拡張機能として、テンプレート的に追加可能になるようです。現状は簡単に作れるとは言えないサンキー図が、マークのプルダウン選択から作成可能になるイメージが公開されています。
詳細はこちらをご覧ください。
Custom Theme
配色やフォントの書式設定ファイル(JSON形式)がインポート可能になる予定のようです。
Tableau Conference2024についての詳しい内容は以下のページをご覧ください。
- https://www.tableau.com/ja-jp/blog/product-innovations-tableau-conference-2024
- https://www.youtube.com/watch?v=QjtQUOA433Y
TROCCO®のニュースまとめ
ブランドリニューアルについて
2024年5月9日に、ブランドリニューアルを発表しました。
ブランドリニューアルに伴い、プロダクトのロゴタイプをtroccoからTROCCOへと変更し、またロゴの色調も変更しています。
![](https://blog.trocco.io/wp-content/uploads/2024/05/image-156-1024x536.png)
ブランドリニューアルについては、プレスリリースをお読みください。
また、ロゴデータを利用したいという方は、株式会社primeNumberのコーポレートサイトにて新しいロゴの画像ファイルおよびロゴのガイドラインをご確認ください。:
https://primenumber.co.jp/presskit/
料金プランの変更について
2024年4月1日より、料金プランが改定されました。以下は、料金プラン表です。
詳しくは、料金プランページをご覧参照ください。
自社に適したプランを相談したい方はこちらからお問い合わせください。
転送先kintoneでテーブルへ転送できるように
kintoneアプリ内のテーブル(旧:サブテーブル)にデータを転送できるようになりました。
詳しくは転送先kintoneについてのヘルプドキュメントにある「アプリ内のテーブル(旧:サブテーブル)を更新したい場合」を参照ください。
データマートAzure Synapse Analyticsを追加
データマートAzure Synapse Analyticsを新たに追加しました。
詳しくは、こちらのヘルプドキュメントをご参照ください。
マネージドデータ転送でAmazon Redshiftが選べるように
マネージドデータ転送の転送先として、Amazon Redshiftを選択できるようになりました。
転送元のデータソースを一括で取得してAmazon Redshiftへ転送する転送設定を、一元作成・管理できます。
TROCCOアカウントに組織名を設定できるように
お使いのTROCCOアカウントに組織名を設定できるようになりました。
組織名を設定することで、たとえば複数のTROCCOアカウントを管理している場合に、どのTROCCOアカウントにログインしているかを識別しやすくなります。
詳しくは、こちらのヘルプドキュメントをご確認ください。
Data Engineering Newsは毎月更新でお届けいたします。
記事公開の新着メール通知をご希望の方はこちらのフォームよりご登録ください。