こんにちは、小林寛和(@hiro-koba)です。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者や、trocco®︎(トロッコ)のプロダクト責任者をやってます。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしていますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

Google BigQueryのニュースまとめ

マテリアライズド ビューでUNIONや分析関数などのクエリが利用可能になりました (プレビュー)

OUTER JOIN、UNION、HAVING 句や分析関数など、ほとんどのSQLクエリがマテリアライズド ビューで利用できるようになりました。

これらのクエリを利用するには、マテリアライズド ビュー作成時に allow_non_incremental_definition オプション を有効にして、非増分マテリアライズド ビューを作成する必要があります。
なお、非増分マテリアライズド ビューは max_staleness の指定が必要となり、増分更新がサポートされません。

# 非増分マテリアライズド ビュー作成クエリ
CREATE MATERIALIZED VIEW project.view
OPTIONS (
  allow_non_incremental_definition = true,
  max_staleness = INTERVAL "0:35:0" HOUR TO SECOND
  )
..略

詳しくは マテリアライズド ビューの作成  |  BigQuery  |  Google Cloud をご覧ください

ようこそタブのデモガイドにデータ追加デモが登場(プレビュー)

ようこそタブ(家のマーク)から「このガイドを開始」をクリックすると始まります。
1回だけ実行可能で、ガイド終了後は「このガイドを開始」のボタンは「データの追加」に変更されます。

その他GAとなった機能

引用元: https://cloud.google.com/bigquery/docs/column-data-masking-intro?hl=ja#masking_on_record_columns_in_repeated_mode

Amazon Redshiftのニュースまとめ

MERGEコマンドがGAリリースされました

PreviewだったMERGEコマンドがGAになりました。
一つのステートメントでINSERT/UPDATE/DELETEが実行できるようになります。

詳しくは以下のドキュメントを参照してください。

動的データマスキングがGAリリースされました

Previewだった動的データマスキング(DDM)がGAになりました。
DDMを利用すると、データをマスキングするポリシーを作成することで、ユーザが実行したクエリの結果に対して動的にデータをマスキングすることが可能になります。
様々なマスキング方式が設定でき、完全にマスキングしたり、一部の文字だけ表示する。ということも設定可能です。

詳しくは以下のドキュメントを参照してください。

Lake Formation を使用したデータ共有の一元的なアクセスコントロールがGAリリースされました

PreviewだったLake FormationによるRedshiftデータ共有の一元的なアクセスコントロールがGAになりました。
Lake Formationを使用しAmazon Redshiftで共有されたデータに対するアクセス権限を管理することで、複数のアカウントで使用されているデータに対するアクセス制御を簡単に行うことができるため、セキュリティが向上します。

詳しくは以下のドキュメントを参照してください。

Amazon Athenaのニュースまとめ

キャパシティの予約ができるProvisioned Capacityがサービス開始されました

従来Athenaの課金体系はクエリのスキャン量に応じたものでした。
今回新たに、DPUと呼ばれるコンピューティングリソースを事前に確保しておくことで、DPU数と実行時間に応じた課金体系を利用することができるようになりました。

詳しくは公式ドキュメントをご覧ください。

Snowflakeのニュースまとめ

Scalaでのユーザー定義関数のサポート(プレビュー)

Scalaで記述されたハンドラーを使用したUDF(ユーザー定義関数)のサポートが開始しました。
今までは、Python, JavaScript, Java, SQLのみでしたが、Scalaが加わる形になります。

より詳しく知りたい方は以下の参考リンクも御覧ください。

公式リリースノート
https://docs.snowflake.com/release-notes/2023-04#support-for-scala-user-defined-function-handlers-preview

Pythonストアドプロシージャからの表形式の戻り値(プレビュー)

Pythonで記述されたハンドラーを使用したストアドプロシージャの戻り値として表形式が利用可能になりました。利用するには戻り値の型をTABLEに指定し、コード内でSnowparkデータフレームを指定する必要があります。
ストアドプロシージャとUDF(ユーザー定義関数)の使い道の分かれ方として、ストアドプロシージャは単一の値を返し、UDFではテーブル形式を返せるという部分の使い分けがありましたが、その区分けがなくなる形になります。

より詳しく知りたい方は以下の参考リンクも御覧ください。

公式リリースノート
https://docs.snowflake.com/release-notes/2023-04#tabular-return-values-from-python-stored-procedures-preview

ALTER <policy_kind> POLICYコマンドのタグの設定と解除をサポート

ALTER文を使用してポリシーのタグを設定または設定解除するサポートが追加されました。
タグのセット、削除にはSETUNSETを用いて設定できます。

設定できるポリシーオブジェクトは以下の通りです。

  • マスキングポリシー
  • パスワードポリシー
  • 行アクセスポリシー
  • セッションポリシー

より詳しく知りたい方は以下の参考リンクも御覧ください。

公式リリースノート
https://docs.snowflake.com/release-notes/2023-04#alter-policy-kind-policy-command-support-for-setting-and-unsetting-tags

GEOMETRY系の関数でSRIDが引数としてサポート

以下の関数で、SRIDを引数として指定することできるようになりました。

  • TO_GEOMETRY
  • TRY_TO_GEOMETRY
  • ST_GEOMETRYFROMWKB
  • ST_GEOMETRYFROMWKT

SRIDは地図の「ルール」を示す一意の ID です。地球は丸いため、その丸い形を平らな地図に変換する方法がたくさんあり、その変換方法を示しているのがSRIDです。これにより正確な位置情報を維持しながらデータを扱うことができます。有名なIDとして「4326」や「4612」などがあります。

より詳しく知りたい方は以下の参考リンクも御覧ください。

公式リリースノート
https://docs.snowflake.com/release-notes/2023-04#srid-argument-now-supported-in-geometry-constructor-functions

Snowpipe 自動取り込みのクロスプラットフォーム サポート (プレビュー)

Snowpipe 自動取り込みのクロスプラットフォーム化がサポートされました。
Snowflakeがホストされているクラウドプラットフォームに関係なく、Amazon S3、Google Cloud Storage (GCS)、Azure Blob Storageのイベントメッセージを使用してSnowpipeをトリガすることが可能になりました。これは、異なるクラウドプラットフォーム間でのデータ移動をより簡単にし、より広範なプラットフォーム間でのデータパイプラインの自動化を可能にします。

より詳しく知りたい方は以下の参考リンクも御覧ください。

公式リリースノート
https://docs.snowflake.com/release-notes/2023-04#cross-platform-support-for-snowpipe-auto-ingest-preview

Snowpipe 自動取り込みの Amazon EventBridge サポート(プレビュー)

Snowpipe 自動取り込みに Amazon EventBridge が使えるようになりました。
このサポートにより、Amazon EventBridgeのルールを適用できるようになります。
Amazon S3のイベント通知を利用するのが一般的ですが、Amazon SQSやAmazon SNSと合わせてEventBridgeを使えるようになりました。

より詳しく知りたい方は以下の参考リンクも御覧ください。

公式リリースノート
https://docs.snowflake.com/release-notes/2023-04#amazon-eventbridge-support-for-snowpipe-auto-ingest-preview

Amazon S3 の Snowpipe の自動化
https://docs.snowflake.com/user-guide/data-load-snowpipe-auto-s3

Snowpipe 自動取り込みの Azure の SftpCommit API サポート

Snowpipe 自動取り込みが Microsoft.Storage.BlobCreated イベントの SftpCommit API をサポートし、SFTP を通じて作成されたファイルを自動的に取得してロードできるようになりました。

より詳しく知りたい方は以下の参考リンクも御覧ください。

公式リリースノート
https://docs.snowflake.com/release-notes/2023-04#snowpipe-auto-ingest-supports-the-sftpcommit-api-for-azure

Microsoft Azure Blob Storage の Snowpipe の自動化
https://docs.snowflake.com/user-guide/data-load-snowpipe-auto-azure

Snowsight を使用してファイルをステージにロード(プレビュー)

このサポートで、Snowsight を使用して、CSV や TSV 形式のファイルなどの構造化データファイル、または JSON、Avro、XML 形式のファイルなどの半構造化データファイルをテーブルに読み込むことができるようになります。

より詳しく知りたい方は以下の参考リンクも御覧ください。

公式リリースノート
https://docs.snowflake.com/release-notes/2023-04#load-files-into-stages-using-snowsight-preview

Snowsight ワークシートタブ(プレビュー)

このリリースでSnowsight上でワークシートを開く際にタブで開くことができるようになりました。
タブを使用して複数のアクティブなワークシートを参照し、SQL または Python を記述しながら Snowflake のデータベースとスキーマを探索できます。

公式リリースノート
https://docs.snowflake.com/release-notes/2023-04#snowsight-worksheet-tabs-preview

GA(一般公開)となった機能リリース

  • アカウントレプリケーション
    • レプリケーショングループとフェイルオーバーグループを使用して、ソースアカウントから1つまたは複数のターゲットアカウントにレプリケーションができるようになりました。
    • レプリケーショングループ・フェイルオーバーグループともにカスタマイズ可能なスケジュール間隔でどのオブジェクトをどの地域やクラウドプラットフォームに複製するかを指定することができるようになりました。
    • アカウントオブジェクトには、ウェアハウス、ユーザー、ロール、データベース、共有を含めることができます。
    • アカウントオブジェクトは1つまたは複数のグループにグループ化できます。
    • https://docs.snowflake.com/release-notes/2023-04#account-replication-general-availability
  • 検索最適化とクエリ アクセラレーションの互換性
    • 検索最適化とクエリアクセラレーションを連携させて、さらにクエリのパフォーマンスを最適化できるようになりました。
    • 今までは、検索最適化を行なっていたテーブルに対してクエリアクセラレーションを同時に適用させることができませんでしたが、今回のリリースでできるようになり、クエリの高速化の選択肢が増えました。
    • https://docs.snowflake.com/release-notes/2023-04#support-for-scala-user-defined-function-handlers-preview
  • 検索最適化サービス: 列構成、部分文字列および正規表現検索、 VARIANT、および GEOGRAPHY のサポート
  • 有料リストの期間限定トライアル
    • Snowflakeマーケットプレイスで提供される有料リストの期間限定トライアル機能が一般提供されました。
    • Snowflake Marketplaceに有料のリストを提供するプロバイダーは、期間限定トライアルを設定して、コンシューマーがリストのデータ製品全体を期間限定で探索できるようにしたり、機能限定トライアルと期間限定トライアルを組み合わせて、データのサブセットへのアクセスを期間限定で提供するなどできます。
    • https://docs.snowflake.com/release-notes/2023-04#timed-trials-for-paid-listings-general-availability
  • WebUI: Snowsightでのセカンダリロールのサポート
    • SnowflakeのユーザーインターフェースであるSnowsightがセカンダリロールをサポートするようになりました。
    • ユーザーはDEFAULT_SECONDARY_ROLESユーザープロパティをALLに設定することで、ログイン時にセカンダリロールを自動的にアクティブにできるようになりました。これにより、プライマリロールやその階層にあるロールではアクセスできないSnowsightのページにアクセスするために、ロールを切り替えるか手動でセカンダリロールをアクティブにする必要がなくなりました。
    • これにより、ユーザーはより柔軟にデータと機能にアクセスできるようになり、ロールの切り替えを頻繁に行う必要がなくなるとともに、セキュリティとアクセス制御を維持できます。
    • https://docs.snowflake.com/release-notes/2023-04#secondary-roles-support-in-snowsight-general-availability

Lookerのニュースまとめ

Looker 23.6がリリースされました

潜在的な変更

  • レガシーなダッシュボードは削除されました。これに伴い、「以前のダッシュボードを利用する」フラグは削除されました。
  • Liquid において parameter タグと _parameter_value 変数はSQL以外のコンテキストで日付SQLではなく日付文字列を返すようになりました。

フィルタ追加のパフォーマンス向上

add filter to dashboard モーダルのパフォーマンスが約 1000 倍高速になりました。

Databricks の増減 PDT をサポート

Databricks バージョン 12.1 以降を使用している場合、Looker では Databricks 接続で増減 PDT をサポートするようになりました。

アップデートの詳細は、公式リリースノート をご確認ください。

Looker Studio(旧: Googleデータポータル)のニュースまとめ

スコアカードグラフの改善

スコアカードグラフにいくつかのオプションが追加されました。

  • スパークライン:経時的なトレンドを可視化できます。
  • 進行状況表示:指標の進捗率が表示されます。
  • 比較フィールド:指標を過去や他の指標と比較した結果などを表示できるようになります。

ピボットテーブルの上限追加

ピボットテーブルで、最大 500,000 セルのデータをレンダリングできるようになりました。データによってはパフォーマンスが低下する可能性があります。フィルタを利用することでレンダリングするデータを減らすことができます。

配信スケジュール設定の新機能

配信スケジュール設定に新機能が追加されました。

  • (Pro限定)最大で 20 件までレポートに設定できるようになりました。
  • スケジュールが設定されたレポートをフィルタできるようになりました
  • ただちに送信できるようになりました。

その他のアップデート

  • PostgreSQL 13、14 のサポート
  • サンキー図の追加
  • 図の拡大・縮小が可能に

アップデートの詳細は 公式リリースノート をご確認ください。

dbtのニュースまとめ

dbt core v1.5がリリースされました

Model access, Model contracts, Model versionsというModelのガバナンスに関連する概念が新たに導入されました。

詳しくは公式ドキュメントをご覧ください

dbt CloudのIDEが改善されました。

  • IDEコンソールでのMarkdownファイルとCSVファイルのプレビューが利用可能になりました。
  • ファイルツリーメニューに「Duplicate File(ファイルの複製)」オプションが追加されました。

その他にも多くの改善がされております。詳しくは公式のリリースノートをご覧ください

Power BIのニュースまとめ

Power BIデータセットとAnalysis Serviceによる複合モデルが一般公開に

プレビュー版では「DirectQuery for Power BI datasets and Analysis Services」と呼ばれていました。

インポートやDirectQueryを使用してPower BIデータセットとAzure Analysis Serviceのデータを組み合わせたレポートが作成可能になります。

Oracle Databaseのデータ接続の更新

Power BIとOracle Databaseを接続する際の認証方式として、Azure ADがサポートされました。

その他のリリースはhttps://learn.microsoft.com/ja-jp/power-bi/fundamentals/desktop-latest-updateをご覧ください。

ETLサービス「trocco(トロッコ)」のニュースまとめ

troccoの直近のアップデートをご紹介します。


転送設定

転送先Twitter Ads Webコンバージョンが新たに追加 🎉

転送設定作成時に、trocco上でカラム名や型をマッピングしていただく必要があります。
詳しくは転送先 – Twitter Ads Webコンバージョンを参照ください。
image.png

転送先Yahoo!広告ディスプレイ広告コンバージョン計測API(β版)が新たに追加 🎉

転送設定作成時に、trocco上でカラム名や型をマッピングしていただく必要があります。
詳しくは転送先 – Yahoo!広告ディスプレイ広告コンバージョン計測API(β版)を参照ください。
image.png

転送元Snowflake・転送先Snowflakeの入力項目の一覧読み込み

転送元・転送先いずれのSnowflake転送設定STEP1にて、上位項目の入力値に応じて下位項目で入力できる値一覧の読み込みができるようになりました。
「スキーマ」以外の入力値を変更した場合、直下の項目の一覧読み込みが自動で開始されます。
image.png

転送先Zendesk Supportのページサイズ指定

転送先Zendesk Support転送設定の「ページサイズ」で、1度のリクエストで取得できる件数が指定できるようになりました。
転送時にレスポンスが遅かったりタイムアウトで失敗したりする場合に件数を減らす対応が可能になります。
image.png

転送先Salesforceで柔軟なエラーハンドリングが可能に

転送先Salesforce転送で送信できなかったレコードが発生した際に、転送ステータスをErrorとすることができるようになりました。
本リリース前に作成された転送設定には「Succeededにする」が設定されています。
image.png

接続情報

Box接続情報でOAuth 2.0認証が可能に

Box接続情報の認証方式が「JWT認証」に加えて「OAuth 2.0認証」にも対応しました。
OAuth 2.0認証の場合、JWT認証よりも少ないステップでBox接続情報を作成いただけます。
ただし、OAuth 2.0認証を用いたBox接続情報が利用できるのは、転送元Boxの転送設定のみとなります。
image.png

UI・UX

サイドバーのユーザビリティ改善

画面左に表示されるサイドバーの階層構造・項目順序を変更しました。
複数ページが存在する機能は項目ごとのまとまりで折りたたみができるようになり、表示中のページの項目は折りたたみが展開されます。
sidebar.png

dbt連携

正式版がリリース 🎉

β版のオプション機能として提供していたdbt連携機能を正式版として公開しました。
これにより窓口担当にお問い合わせいただくことなく本機能をお使いいただけます。
詳しくはdbt連携についてを参照ください。

dbtジョブ設定で「ターゲット」と「ロケーション」を指定できるように

「ターゲット」指定

dbtジョブ設定でターゲットを指定できるようになりました。
未指定の場合や本リリース前のdbtジョブ設定には「trocco_default」が指定されます。

「ロケーション」指定

BigQueryを選択したdbt Gitリポジトリをアダプターとしたdbtジョブ設定で、ロケーションを任意で指定できるようになりました。
指定されたロケーションで出力先のデータセットが作成されます。
※ロケーションを入力しなかった場合、指定したデータセットが出力先に存在しなかったときは、US(マルチリージョン)がデータセットのロケーションに指定されます。
image.png

ワークフロー

ワークフロータスクの情報拡充

ワークフローの詳細画面でタスクをクリックしたときに、作成者名も表示されるようになりました。
閲覧権限がないタスクについての問い合わせ先としてお役立てください。

閲覧権限あり閲覧権限なし
image.pngimage.png

ワークフロータスクのカスタム変数ループ実行フォームの操作性向上

ワークフローのタスクでカスタム変数ループ実行する際に表示されるフォームのレイアウトを見直しました。
ループの種類で「文字列展開でループ」を選択した際のループ追加やループ削除をする際の操作性が向上しました。

文字列展開でループ期間(相対指定)でループ
image.pngimage.png

その他、詳しいアップデートは以下リリースノートをご参照ください。
https://documents.trocco.io/docs/release-note-2023-04


以上、Data Engineering News 2023年04月のアップデートまとめでした。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

こんなニュースを知りたい!というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。