こんにちは、小林寛和(@hiro-koba)です。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者や、trocco®︎(トロッコ)のプロダクト責任者をやってます。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしていますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

Google BigQueryのニュースまとめ

BigQuery Data Transfer Service が Azure Blog Storage からの転送に対応しました (Preview)

Azure Blob Storage から BigQuery への定期的な読み込みジョブを自動的にスケジュールし、管理できるようになりました。

サポートされているファイル形式や圧縮タイプなどに制限があるようです。
詳しくは blob ストレージの転送の概要をご覧ください。

ANY_VALUE 関数に対して HAVING MAX と HAVING MIN 構文が利用可能になりました (Preview)

ANY_VALUE 関数HAVING MAX/MIN 構文と組み合わせることで、条件に合致する1行を取得できます。
このとき選択される行はランダムではありませんが、非決定的であるとのことです。
また、HAVING MAX/MIN 構文は 順序付け可能なデータ型のみをサポートしています。

購入した BigQuery スロットの予約時にオートスケーリングが設定可能になりました (Preview)

予約作成時にスロットの最大数 (最大予定サイズ) を割り当てることで、BigQuery はジョブの実行に必要なスロット数に達するか、予約に使用できるスロットの最大数に達するまで、100 の倍数で予約をスケーリングします。
割り振られたスロットが必要なスロット数を超えて、容量がしばらく安定したままになると、スケールダウンします。

詳しくは スロットの自動スケーリングの概要をご覧ください。

主キー制約・外部キー制約が利用可能に (Preview)

主キー制約・外部キー制約が利用可能になりました。

ただし、ドキュメントに記載があるとおり、カラムに制約を設定してもnullや重複値がinsertされることは防げません。主キーがユニークであること、外部キーに指定した値が存在することなどはユーザー側で検証する必要があります。

「承認済みルーティン」にストアドプロシージャが追加 (Preview)

承認済みルーティンでは他のユーザーに対してテーブルへのアクセス権を付与せずに、クエリ結果だけを共有できます。

今回のアップデートでは、従来の「テーブル関数」「ユーザー定義関数」に加えて「ストアドプロシージャ」を共有できるようになりました。

BigLake メタデータキャッシュを有効にしたテーブルに対し、マテリアライズドビューが作成できるようになりました。(Preview)

BigLakeを利用することで、BigQueryからGCSなどを参照する外部テーブルを作成する事ができます。その際に、GCSなどのメタデータをキャッシュすることでクエリの高速化を行うことができます。
参考: 「パフォーマンス向上のためのメタデータ キャッシュ

今回、メタデータキャッシュを有効化したテーブルに対し、マテリアライズドビューを作成する事ができるようになりました。
これにより、通常のBigQueryテーブル同様にテーブルの自動更新を行うことができるようになります。

詳しくは マテリアライズド(実体化)ビューの概要 をご覧ください。

その他GAとなった機能

  • BigQueryテーブルのカラムに default value が設定できるようになりました
  • ALTER TABLE RENAME COLUMN 」 と「ALTER TABLE DROP COLUMN 」が利用できるようになりました
  • INFORMATION_SCHEMA.JOBS, JOBS_BY_FOLDER, JOBS_BY_ORGANIZATION ビューにおいて、”query_info” カラムでクエリに関する追加情報が見れるようになりました
    • 例えば、“query_info.resource_warning” でリソース使用量がしきい値を超過したクエリを取得できます
  • 動的なデータマスキング が適用可能になりました
  • クラウドコンソールの「エクスプローラー」上でプロジェクトとデータセットの更新ができるようになりました
    • 更新を行うには、以下のように︙をクリックして「コンテンツを更新」をクリックします

Amazon Redshiftのニュースまとめ

GROUP BY句でのGROUPING SETS, ROLLUP, CUBE関数がGAリリースされました

GROUPING SETS, ROLLUP, CUBEはAWS re:Invent 2022で発表された新機能で、サマリーレポートを生成するための強力な機能であり、これらを使用すると列の組み合わせの小計や総計などを簡単に求めることができるようになります。

詳しくは公式ドキュメントをご覧ください。

Amazon Athenaのニュースまとめ

Apache Icebergに対する書き込み時にクライアントサイド暗号化が利用できるようになりました

Apache Icebergは、タイムトラベル、書き込み、DDLなどがサポートされているテーブル形式です。
詳細はAmazon Athena Iceberg テーブルの使用をご覧ください。

Snowflakeのニュースまとめ

タスクグラフ実行のデバッグ(プレビュー)

タスクグラフを確認して、ルートタスクとその依存タスクを DAG の形式で表示できます。

  • グラフでタスクを選択すると、先行タスク、タスクの実行に使用されたウェアハウス、タスクを所有するロールなどの追加の詳細が表示されます。
image

特定の失敗したタスクの結果として実行されなかったタスクを特定したり、グラフ内の依存タスクの実行を遅らせている実行時間の長いタスクを特定したりできます。

image

より詳しく知りたい方は以下の参考リンクも御覧ください。

ACCESS_HISTORYビュー: マスキングおよび行アクセスポリシー情報の追加(プレビュー)

行アクセスポリシーによって保護されたテーブルまたはビュー、およびマスキングポリシーによって保護された列に対するクエリの場合に、ポリシーで保護された中間オブジェクトと列情報を返します。

これまでは POLICY_REFERENCES、QUERY_HISTORYを結合する必要がありましたが、その必要がなくなりました。

より詳しく知りたい方は以下の参考リンクも御覧ください。

Snowflakeアラート機能(プレビュー)

Snowflakeアラートは、Snowflakeのデータが特定の条件を満たしたときに通知を送信したり、アクションを実行したりするために使用できるスキーマレベルのオブジェクトです。

次の場合に通知を送信したり、アクションを実行できるとのことです。

  • ウェアハウスのクレジット使用状況が、現在のクォータの指定された割合だけ増加したとき。
  • パイプライン、タスク、マテリアライズドビューなどのリソース消費が、指定された量を超えて増加したとき。
  • 権限のないユーザーからのデータアクセスのリクエストが受信されたとき。
  • データが、設定した特定のビジネスルールに準拠していないとき。

より詳しく知りたい方は以下の参考リンクも御覧ください。

廃止: SAML SSO パラメーター

SAML SSO の構成と管理に使用される SAML_IDENTITY_PROVIDER および SSO_LOGIN_PAGE パラメーターが廃止されました。

すべてのSnowflake構成では、 SAML_IDENTITY_PROVIDER および SSO_LOGIN_PAGE パラメーターの代わりに SAML2 セキュリティ統合 を使用する必要があります。

これらの廃止されたパラメーターは引き続き機能しますが、将来のリリースでは削除される予定とのことです。

より詳しく知りたい方は以下の参考リンクも御覧ください。

COPY INTO の ON_ERROR オプションの半構造化データのサポート

COPY INTO <テーブル> コマンドの ON_ERROR コピーオプションは
ロード操作のエラー処理を指定することができるオプションです。

以前は構造化データファイル(CSV、TSV など)のロード処理に対してのみ ON_ERRORが利用できましたが、半構造化ファイルには非対応でした。

現在はCSV、 TSV、 JSON、Avro、 ORC、Parquet、または XML を含むすべての構造化および半構造化ファイルで利用できるとのことです。

より詳しく知りたい方は以下の参考リンクも御覧ください。

ステージングされたファイルの新しいメタデータ列のサポート

ステージングされたファイル用にクエリを実行したり、テーブルにコピーしたりできる、次の新しいメタデータ列を自動的に生成します。

METADATA$FILE_CONTENT_KEY

  • 現在の行が属するステージングされたデータファイルのチェックサム。

METADATA$FILE_LAST_MODIFIED

  • 現在の行が属するステージングされたデータファイルの最終更新タイムスタンプ。

METADATA$START_SCAN_TIME

  • ステージングされたデータファイルにある各記録の操作開始タイムスタンプ。

より詳しく知りたい方は以下の参考リンクも御覧ください。

GA(一般公開)となった機能リリース

Lookerのニュースまとめ

Looker 23.2 がリリースされました

潜在的な変更

  • レガシーな内部APIの利用がデフォルトで無効になりました。内部的な変更なのでアプリケーションに影響ははありません。
  • レガシーなダッシュボードがデフォルトで表示できなくなります。表示するには管理者が設定を変更する必要があります。

詳細は公式ドキュメントをご確認ください。

Looker Studio(旧: Googleデータポータル)のニュースまとめ

2月分の更新はありませんでした。

dbtのニュースまとめ

dbt Cloudで、–no-partial-parseフラグが利用可能になりました

–no-partial-parseフラグをdbt Cloud上でも利用できるようになりました。
以前はdbt Coreのみで利用可能でした。

Partial parsingの詳細については公式のドキュメントをご覧ください。

dbt Cloudの廃止や制約など

  • 2023年3月1日をもって、v1.0よりも古いバージョンのenvironmentやjobが、v1.4に自動アップデートされました。
  • PaginationのAPIで利用するlimitパラメータの上限が100となりました。マルチテナントインスタンスが対象となります。

dbt CloudのIDEが改善されました。

  • オートセーブ機能が利用できるようになりました。まだfeature flagによる機能のため、利用に関しては、dbt labs IDEチーム<cloud-ide-feedback@dbtlabs.com>にお問合せください。
  • DAGのノードの色をカスタマイズできるようになりました。

その他の改善については公式のリリースノートをご覧ください

dbt Coreのリリース

以下のバージョンがリリースされました。

  • v1.5.0b3 (β版)
  • v1.4.4
  • v1.3.3
  • v1.2.5
  • v1.1.4

詳細は公式のリリースノートをご覧ください。

Power BIのニュースまとめ

新しいDAX関数: LINESTとLINSTXがリリースされました。

最小二乗法によって指定したデータに最もよく適合する直線を算出し、配列を返す関数です。

詳細は以下をご覧ください。

その他のリリースはhttps://learn.microsoft.com/ja-jp/power-bi/fundamentals/desktop-latest-updateをご覧ください。

ETLサービス「trocco(トロッコ)」のニュースまとめ

troccoの直近のアップデートをご紹介します。


マネージド転送設定

001-p.png

転送元Salesforceが新たに追加 🎉

  • マネージド転送設定の転送元に、Salesforceが追加されました。

マネージド転送設定作成後のラベル編集が可能に 🎉

  • マネージド転送設定作成後にも、ラベルの一括取り付け・取り外しができるようになりました。
    • マネージド転送設定の詳細画面および編集画面、いずれの画面からも一括取り付け・取り外しができます。

転送設定

転送先Google Analytics 4 Measurement Protocolが新たに追加 🎉

003-p.png

  • 転送先Google Analytics 4 Measurement Protocolが新たに追加されました。
  • 転送設定作成時に、trocco上でカラム名や型をマッピングしていただく必要があります。
    詳しくは転送先 – Google Analytics 4 Measurement Protocolを参照ください。

Microsoft Excelファイルを高速に転送できるように 🎉

  • 転送元ファイル・ストレージ系コネクタにて、入力ファイル形式としてMicrosoft Excelファイルを選択した場合に、値の取得方法を選択できるようになりました。
    • 値の取得方法としてキャッシュ利用を選択することで、これまでよりも高速に転送されます。
    • Microsoft Excelファイルの転送に対応するコネクタの一覧については、入力ファイル形式の設定についてを参照ください。

002-p.png

ワークフロー定義

タスクの複数選択および一括移動が可能に 🎉

フロー画面にて、タスクを複数選択してまとめて移動できるようになりました。

004-p.gif

データカタログ

メタデータインポート用のテンプレートCSVファイルがダウンロードできるように 🎉

  • メタデータインポートに用いるCSVファイルについて、画面上からテンプレートファイルをダウンロードできるようになりました。
  • お使いのデータカタログに合わせて、あらかじめヘッダー行が記載されたCSVファイルをダウンロードできます。
  • 詳しくは、メタデータインポートを参照ください。

image

UI・UX

チュートリアル用ダイアログが表示されるように 🎉

  • はじめてtroccoをお使いのユーザーに、チュートリアル向けのダイアログが表示されるようになりました。
  • ダイアログに沿って3ステップを踏むことで、troccoの基本的な機能を理解いただけます。
  • 本ダイアログは「接続情報の作成」「転送設定の作成」「転送ジョブの実行」の3つのステップが完了すると、非表示となります。

image

各設定内のメモがMarkdown記法に対応 🎉

  • 転送設定・データマート定義・ワークフロー定義のメモ欄について、Markdown記法に対応しました。

006-p.png

APIアップデート

転送元Google Ads

Google Ads APIのバージョンが、v11からv12へアップデートされました。
新バージョンについて、Google Ads APIのドキュメントを参照ください。


その他、詳しいアップデートは以下リリースノートをご参照ください。
https://documents.trocco.io/docs/release-note-2023-02


以上、Data Engineering News 2023年02月のアップデートまとめでした。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

こんなニュースを知りたい!というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。