Data Engineering Newsとは?

こんにちは、小林寛和(@hiro-koba)と申します。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者をやったり、ETL & ワークフローサービス「trocco(トロッコ)」を運営する株式会社primeNumberで取締役CPOを務めているデータエンジニアです。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方は以下フォームよりご登録下さい。
https://forms.gle/ZHUrxtfRZzPXxWZP6

目次

Google BigQueryのニュースまとめ

INTERVAL型のサポート

これまで日付の演算操作には DATE_ADD, DATE_SUB 関数を利用する際にキーワードとしてINTERVALが使われていましたが、データ型としての機能がリリースされました。
PostgreSQLでもサポートされているデータ型です。

クエリ例

Copy to Clipboard

より詳しく知りたい方は以下の参考リンクも御覧ください。

DMLクエリの結果に統計情報のサポート

DMLクエリの結果に insert, deleted, updated の行数が返す機能がGAリリースされました。

また、INFORMATION_SCHEMA.JOBS_BY_* というメタテーブルからも上記の統計情報を照会できるようになりました。

より詳しく知りたい方は以下の参考リンクも御覧ください。

予約ステートメントのサポート

BigQueryを利用にはオンデマンド料金と定額料金のプランがあります
SQLでそれらのリソース(スロット)の購入・確保とprojectへの割当ができるようになりました。

利用できる関数は以下の通り

  • CREATE CAPACITY: 新しい容量コミットメントを作成して、スロットを購入します。
  • CREATE RESERVATION: 予約を作成します。
  • CREATE ASSIGNMENT: プロジェクト、フォルダ、または組織を予約に割り当てます。
  • DROP CAPACITY: 容量コミットメントを削除します。
  • DROP RESERVATION: 予約を削除します。
  • DROP ASSIGNMENT: 予約割り当てを削除します。

より詳しく知りたい方は以下の参考リンクも御覧ください。

CONTAINS_SUBSTR関数のリリース

CONTAINS_SUBSTRという関数がGAリリースされました。

どんな関数かというと、

正規化された大文字と小文字を区別しない検索を実行し、式に値が存在するかどうかを確認します。値が存在する場合は TRUE を返し、存在しない場合は FALSE を返します。

と記載されています。

ここでの式とは文字列だけでなくテーブルやテーブル列を指定することができます。
大文字小文字の区別をなくす他に、NFKCというUnicode正規化の一種を用いて変換した値で判定しているとのことです。

NFKCの例

  • アイウエオ => アイウエオ
  • ABC => ABC
  • ① => 1
  • ㌶ => ヘクタール

制限事項としては、ワイルドカード検索はサポートされていないとのことです。

公式ドキュメントでのSQL例

Copy to Clipboard

より詳しく知りたい方は以下の参考リンクも御覧ください。

マテリアライズド・ビューの集合関数無し、内部結合がリリース

これまではBigQueryのマテリアライズド・ビューは集合関数を含む必要があったのと、
結合ができなかったのですが、今回のPreviewリリースでサポートされるようになりました。

制限事項は内部結合(INNER JOIN)のみサポートしていること。外部結合や自己結合は不可とのことです。

より詳しく知りたい方は以下の参考リンクも御覧ください。

その他のアップデート

Amazon Redshiftのニュースまとめ

トランザクション内での複数クエリ実行をサポート

新しく追加されたbatch-execute-statementというAPIを利用することで、複数クエリを実行しそれぞれの結果を取得することが可能になりました。なお、これらのクエリは単一のトランザクション内で実行されます。

参考1: AWS公式アナウンス
参考2: DevelopersIOの紹介記事

Snowflakeのニュースまとめ

Google Cloud API Gatewayのサポートの一般提供開始

Google Cloud API Gateway経由でリモートサービスを呼び出すための外部関数サポートの一般提供が開始されました。

アクセス履歴を一般提供開始

以前よりプレビュー提供されていたアクセス履歴の一般提供が開始されました。過去365日(1年)以内のSnowflakeオブジェクト(例: テーブル、ビュー、列)のアクセス履歴を参照することができます。

行アクセスポリシーを一般提供開始

以前よりプレビュー提供されていた行アクセスポリシーの一般提供が開始されました。ポリシーを設定し、行レベルでクエリ結果に表示されるかどうかを制御できます。

Lookerのニュースまとめ

新しいナビゲーションパネルのサポート

Lookerのスクリーンショット

“Enhanced Navigation”のラボ機能が追加されました。
こちらを有効化すると、これまで画面上部にあった各種メニューが左側のナビゲーションパネルに統合されます。
デフォルトでは有効化されていないので、「管理 > Labs」メニューから設定を変更する必要があります。

参考: Looker公式ドキュメント

グルーピングとクイック計算

ディメンションの値をグルーピングするカスタムディメンションが、GUIベースで設定できるようになりました。

また、よく利用されるテーブル計算を”Quick Calculations”メニューから一操作で呼び出すことができます。
これらの機能は”Custom Fields”のラボ機能を有効化することで利用できます。

Googleデータポータルのニュースまとめ

レポートの利用状況を、Google Analytics 4でも計測できるように

レポート利用状況の計測は、これまではユニバーサル アナリティクスのみでしたが、新しく Google Analytics 4 もサポートしました。

ファイル > レポート設定 から Google Analytics 4 の測定IDを設定すると、レポートの利用状況を Google Analytics 4 で分析できるようになります。

参考: Google公式リリースノート

ETLツール「trocco(トロッコ)」のニュースまとめ

データリネージ機能をリリース

データ同士の依存関係を可視化する「データリネージ」機能を追加しました。
troccoでは今後、この機能を皮切りにデータガバナンスを推進するためのメタデータ管理機能を拡充していく予定です。

グラフ上部の「転送モードハイライト」を押すことで、追記方式の転送・洗い替え方式の転送を判別することができます。

GitHub PRレビュー機能

Git連携機能が強化され、転送設定の変更内容を元に連携しているGitHubリポジトリに対して、プルリクエストを作成できるようになりました。
GitHub上で変更内容のレビュー確認ご利用ください。

プルリクエスト作成画面

GitHubプルリクエストページ例

スキーマ変更検知・追従機能

転送元データのスキーマ変更(列追加・削除・型変更など)を検知し、trocco設定・BigQueryテーブル定義に自動反映する機能をリリースしました。

スキーマの変更を検知すると、以下のようなSlack通知が行われます。

通知内のリンクをクリックすると、以下のように変更内容が表示されます。

変更内容を確認したら、「カラム定義に変更を反映」を押すとtrocco設定に自動適用されます。
確認画面では、変更内容をBigQueryに自動反映する事も可能です。

新着ニュースのメール通知

毎月更新でニュースをお届けしておりますので、ニュースのメール通知をご希望の方は以下フォームよりご登録下さい。
https://forms.gle/ZHUrxtfRZzPXxWZP6
(「こんなニュースを知りたい!」というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!)

trocco®︎(トロッコ)をもっと知る

trocco®︎(トロッコ)の詳細を記載した資料をお送りいたします。
下記よりお申し込み下さい!

資料請求はこちら