こんにちは、小林寛和(@hiro-koba)です。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者や、trocco®︎(トロッコ)のプロダクト責任者をやってます。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしていますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

Google BigQueryのニュースまとめ

Amazon S3 と Azure Blob Storage から BigQuery にデータを転送する前にフィルタリングできるようになりました (プレビュー)

CREATE TABLE AS SELECT ステートメントを利用すると、Amazon S3 と Azure Blob Storage から BigQuery テーブルにデータを転送する前にデータをフィルタリングできます。
リージョンやデータサイズなどにいくつか制限があります。詳しくはクロスクラウド オペレーションでデータを読み込むをご覧ください。

BigQuery Interactive SQL Translator で追加の設定を行えるようになり、SQLクエリの一括変換のデバッグに利用できるようになりました (プレビュー)

一括変換とインタラクティブ変換で同じメタデータや設定を利用してSQL変換を行えるようになりました。これにより、一括変換を実施する前にインタラクティブ変換で検証を行いやすくなりました。

詳しくは インタラクティブな SQL トランスレータを使用してクエリを変換するバッチ SQL トランスレータを使用してコードを移行する をご覧ください。

BigQuery Storage Write API でUPSERT/DELETE のリアルタイム反映が行えるようになりました。

Storage Write API がUPSERT/DELETEのリアルタイム反映に対応しました。

これを利用して、BigQuery テーブルに対する Change Data Capture (CDC) を実現することができます。

詳しくは、変更データ キャプチャを使用してテーブル更新をストリーミングする をご覧ください。

カラム名に英語以外の言語の文字、記号などが利用可能になりました(プレビュー)

カラム名に日本語文字列などを利用することが可能になりました。

利用可能な文字種別はヘルプドキュメントをご覧ください。

BigQuery の定額利用に関する新料金体系、BigQuery Edition (Standard, Enterprise, Enterprise Plus) が発表されました

Introducing new BigQuery pricing editions | Google Cloud Blog より引用

利用したい機能に合わせて最適な Edition を選択し、スロットのオートスケーリングを組み合わせることで、コストダウンが見込めるようです。
既存の定額料金、Flex Slotの予約は2023年7月5日より、Editionに移行されるようです。
また、オンデマンド利用については同日より25%程度の値上げが行われるようです。
合わせて、ストレージの課金体系に 圧縮ストレージ を選択することで、更なるコストダウンが見込めるようです。

詳しくは Introducing new BigQuery pricing editions | Google Cloud Blog をご覧ください。
また、既に日本語で素晴らしい解説記事がいくつか公開されています。合わせて参考にしてみてください。

最新の情報、実際の料金については公式ドキュメントをご覧ください。

その他GAとなった機能

Amazon Redshiftのニュースまとめ

GROUP BY句でのGROUPING SETS, ROLLUP, CUBE関数がGAリリースされました

GROUPING SETS, ROLLUP, CUBEはAWS re:Invent 2022で発表された新機能で、サマリーレポートを生成するための強力な機能であり、これらを使用すると列の組み合わせの小計や総計などを簡単に求めることができるようになります。

詳しくは公式ドキュメントをご覧ください。

Amazon Athenaのニュースまとめ

Federated Queryでビューを使用できるようになりました

Federated Queryを利用するとAmazonS3以外のデータソースに対してクエリが可能です。
ビューを使用できるようになったことで、単一のクエリを作成し複数のデータソースへのクエリすることが容易になりました。

Snowflakeのニュースまとめ

Pythonワークシート(プレビュー)

Pythonワークシートでは、
Snowsight(ブラウザのUI)のワークシート上でSnowpark Pythonを記述し実行することができるようになりました。

以下のことができるとのことです。

  • ステージからデータを読み取り、変換してテーブルに保存するPythonスクリプトをブラウザのみ実現できる。
  • 付属のAnacondaパッケージ、もしくはステージに配置したパッケージをインポートが可能。
  • ストアドプロシージャとしてデプロイし、タスクとしてスケジューリング実行が可能。

より詳しく知りたい方は以下の参考リンクも御覧ください。

Snowpipe Streaming(プレビュー)

Snowflakeにデータをロードする際にはステージ配置した上でデータファイルを基にロードする必要がありました。Snowpipe Streaming は、ステージングファイルを介さず、データ行をSnowflakeテーブルに直接書き込みます。これにより、ロード遅延が短縮され、データをロードするためのコストが削減が期待できるとのことです。

より詳しく知りたい方は以下の参考リンクも御覧ください。

Java,Scala表形式ストアドプロシージャ(プレビュー)

Snowparkデータフレームを使用してJavaもしくはScalaのストアドプロシージャを記述することで
表形式のデータを返すことができるようになりました。

より詳しく知りたい方は以下の参考リンクも御覧ください。

SHOW SHARES Command: Support for STARTS WITH and LIMIT … FROM

SHOW SHARES コマンドは

  • アカウントで作成されたアウトバウンド情報
  • アカウントが使用できるインバウンド共有情報

を照会できます。

今回のリリースで STARTS WITH パラメーターと LIMIT … FROM パラメーターがサポートされるようになり、
フィルター制御ができるようになりました。

より詳しく知りたい方は以下の参考リンクも御覧ください。

地理空間関数のアップデート(プレビュー)

新しく地理空間関数がサポートされました。

より詳しく知りたい方は以下の参考リンクも御覧ください。

不正な地理空間オブジェクトのハンドリング処理のサポート(プレビュー)

デフォルトでは、地理空間関数を使用して、入力データ変換する場合、
形式が無効な場合は修復します。修復できない場合は結果を返しません。

今回のリリースでは、検証・修復処理をより細かく制御できるようになりました。

  • これらの変換関数が無効な形状の GEOGRAPHY および GEOMETRY オブジェクトを作成することを許可する。
  • GEOGRAPHY または GEOMETRY オブジェクトの形状が無効であるかどうかを判断する

より詳しく知りたい方は以下の参考リンクも御覧ください。

外部テーブルとディレクトリテーブルの自動更新による金額情報のサポート

カウントの使用状況 PIPE_USAGE_HISTORY ビューを調べると、
外部テーブルとディレクトリテーブルの自動更新通知によって発生する料金を見積もることができるようになりました。

より詳しく知りたい方は以下の参考リンクも御覧ください。

マスクされた列を基にアクセス・マスキングポリシーが設定できる機能のサポート

アクセス・マスキングポリシーを設定する際に、マスキングの設定された列を指定することができるようになりました。
これにより、管理者が新しい設定をを作成や置き換えたりする際に、より自由度が高くなるとのことです。

より詳しく知りたい方は以下の参考リンクも御覧ください。

アカウント複製機能: 通知連携のサポート(プレビュー)

アカウント複製機能(プレビュー)を利用すると、
データベース、ウェアハウス、ユーザ、ロールなどを
別のリージョン、プラットフォームに複製することができます。
今回のリリースでは、通知機能がサポートされました。

より詳しく知りたい方は以下の参考リンクも御覧ください。

GA(一般公開)となった機能リリース

Tableauのニュースまとめ

Tableauアクセラレーターにデータマッピング機能が追加

Tableauアクセラレーターは、データ分析を迅速に開始できるように設計された、事前に構築済みのダッシュボードです。アクセラレーターは作成時点ではサンプルデータが投入されており、これをユーザーのデータに置き換えて利用する必要があります。

今回のアップデートでは「データマッピング」機能が追加され、UIからフィールドを埋めるだけでデータの接続ができるようになりました。

軸タイトルの動的な更新

「動的な軸タイトル」機能が追加され、パラメータに応じてグラフの軸タイトルを変更することができるようになりました。

クラスメソッドの紹介記事も合わせてご覧ください。

https://dev.classmethod.jp/articles/tableau20231_axis_titles/

Tableau for Slack アプリの機能強化

Tableau for Slack アプリがアップデートされ、Slack内で以下の操作が可能になりました。

  • Tableauビューの検索
  • Tableauコンテンツのプレビューの表示
  • 最近使用したビューやお気に入りの確認

ユーザー属性関数 (UAF)

UserAttribute()やUserAttributeMatches()といった関数が導入され、計算式でログイン属性を渡すことができるようになりました。

ユーザーがサインインする際にユーザー情報をTableauに送信して、ユーザー情報に応じたデータを表示することが可能です。

こちらの機能については、Tableau VisionaryのTim氏の紹介動画が参考になります。

その他の機能や詳細については、Tableauの公式サイトをご確認ください。

https://www.tableau.com/ja-jp/products/new-features

Lookerのニュースまとめ

Looker 23.4 がリリースされました

潜在的な変更

  • Denode言語が非推奨になりました。セルフホスト型インスタンスの場合は Denode 8 への更新が推奨されています。
  • YAML LookML プロジェクトが警告を出すようになります。YAML LookML プロジェクトは新しい LookML に変換する必要があります。
  • Labs機能として提供されていた新しいユーザーページとグループページがGAになりました。

すべてのインスタンスで Looker Studio コネクタとコネクテッドシートが使用できるようになりました

以前は Google Cloud でホストしている Looker でしか使用できませんでしたが、AWS や Azure でホストされている Looker でも Looker Studio コネクタとコネクテッドシートが使用できるようになりました。
使用するためには、管理者がBIコネクタ管理ページで有効にする必要があります。
詳細は以下の公式ドキュメントを参照してください。

Looker Studio に接続する  |  Google Cloud
Looker 向けコネクテッド シートの使用  |  Google Cloud

高性能なフィールドピッカーが Labs 機能として提供されました

この機能により、Explore フィールドピッカーのパフォーマンスが向上し、より絞り込みが可能な検索オプションが提供されます。
この Labs 機能はデフォルトで有効になっています。

管理者の設定 – Labs  |  Looker  |  Google Cloud

Looker Studio(旧: Googleデータポータル)のニュースまとめ

Google Analytics 4 コネクタのフィールドが追加・変更されました

GA 4 コネクターのフィールドに追加および名前の変更があります。
詳細は こちら をご確認ください。

データパネル上でフィールド検索を行いやすくなりました

レポートエディターのデータパネルが改善されました。
詳細は こちら をご確認ください

グラフ軸で 0 を基準に揃えられるようになりました

正の値と負の値がともに含まれるデータを比較する際に利用すると見やすくなります。

引用元: Release notes (2023) – Looker Studio Help

dbtのニュースまとめ

dbt Cloudのdbt-trinoのパブリックプレビューにStarbustが統合されました。

dbtはETLのT(Transform)であるデータを移動させる機能は有していませんが、異なるデータソースに対してクエリが可能なSQLエンジンであるTrinoを利用することでこれを実現することが可能となります。
dbt Cloudでdbt-trinoアダプターが利用可能となり、Starburst Galaxy、Starburst Enterprise、セルフホスティングのTrinoに接続することができます。

dbt CloudのIDEが改善されました。

  • 個々のファイルをコミットしたり、元に戻したりすることができるようになりました。
  • コマンドパレットを使用して、最後の失敗からの再開など、複雑なdbtコマンドを呼び出すことができるようになりました。

その他にも多くの改善がされております。詳しくは公式のリリースノートをご覧ください

Power BIのニュースまとめ

特に大きなリリースはありませんでした。

その他のリリースはhttps://learn.microsoft.com/ja-jp/power-bi/fundamentals/desktop-latest-updateをご覧ください。

ETLサービス「trocco(トロッコ)」のニュースまとめ

troccoの直近のアップデートをご紹介します。


転送設定

転送先LINE Conversion APIが新たに追加 🎉

  • 転送先LINE Conversion APIが新たに追加されました。
    • LINE Conversion APIを経由して、LINEサーバーにデータを転送できます。
    • 転送設定作成時に、trocco上でカラム名や型をマッピングしていただく必要があります。
      詳しくは転送先 – LINE Conversion APIを参照ください。
      image.png

転送元Google Search Consoleにて、フィルタリング機能が強化 🎉

  • 取得するデータをディメンションフィルターでフィルタリングできるようになりました。
    • 転送設定STEP1の詳細を設定するをクリックすると、ディメンションフィルターが表示されます。
    • 現在はpage項目にのみ、対応しています。
      image.png

ワークフロー定義

Snowflakeのクエリ結果でループ実行できるように 🎉

  • カスタム変数ループ実行が、Snowflakeのクエリに対応しました。
    image.png
    • ループ実行におけるカスタム変数の展開値を、Snowflakeのクエリ結果に基づいて設定できます。
    • 展開したいテーブルの値をSnowflakeのテーブルに格納しておくことで、実行のたびに展開値が変動するようなワークフローを定義できます。

UI・UX

ダッシュボード拡充

  • troccoホーム画面のダッシュボードにて、ワークフロー定義が表示されるようになりました。
    image.png

コネクタ利用状況の可視化

  • troccoホーム画面のコネクタ利用状況が表示されるようになりました。
    image.png

コネクタ一覧の視認性向上

  • troccoホーム画面の対応サービス一覧にて、各コネクタのデザインを刷新しました。
    • また、転送設定作成時のサービス選択画面も同様にデザインを変更しています。
      image.png

APIアップデート

転送先Facebook コンバージョンAPI

  • 上記転送先に利用しているFacebook APIが、v14からv15へアップデートされました。
  • 新バージョンについて、Meta for Developersのドキュメントを参照ください。

転送元Shopify

  • 上記コネクタに利用しているShopify APIが、2023-01へアップデートされました。
  • 新バージョンについて、Shopify developer documentationのドキュメントを参照ください。

その他、詳しいアップデートは以下リリースノートをご参照ください。
https://documents.trocco.io/docs/release-note-2023-03


以上、Data Engineering News 2023年03月のアップデートまとめでした。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

こんなニュースを知りたい!というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。