Data Engineering Newsとは?

こんにちは、小林寛和(@hiro-koba)と申します。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者をやったり、ETL & ワークフローサービス「trocco(トロッコ)」を運営する株式会社primeNumberで取締役CPOを務めているデータエンジニアです。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方は以下フォームよりご登録下さい。
https://forms.gle/ZHUrxtfRZzPXxWZP6

目次

Google BigQueryのニュースまとめ

テーブル関数のサポート

テーブル関数(TVF)がGAリリースされました
公式ドキュメントにある以下の例は bigquery-public-data.usa_names.usa_1910_current から 引数として渡す `year` に該当するレコードを抽出するテーブル関数です。

-- create VTF CREATE OR REPLACE TABLE FUNCTION mydataset.names_by_year(y INT64) AS SELECT year, name, SUM(number) AS total FROM `bigquery-public-data.usa_names.usa_1910_current` WHERE year = y GROUP BY year, name SELECT * FROM mydataset.names_by_year(1950) ORDER BY total DESC LIMIT 5

また、このGAリリースに伴い、承認済みテーブル関数(authorized table function)の利用も可能になりました。
通常のテーブル関数では、関数を呼び出すユーザは関数で参照しているテーブルに対し、参照権限が必要ですが、承認済みテーブル関数を用いることでユーザが対象のテーブルに対する参照権限を持っていなくても参照できるようになります。(承認済みテーブル関数に対して権限を付与する形になるようです)

より詳しく知りたい方は以下の参考リンクも御覧ください。

セッション機能のサポート

セッション機能がプレビューリリースされました。
これにより、スクリプトや複数のトランザクションにまたがるSQLを一意のセッションでひとまとめにすることができます。
またセッション中のセッション変数や一時テーブルはスクリプトやトランザクションをまたいで利用することができます。
セッション機能を有効にした場合は、INFOMATION_SCHEMASESSION_ID列でそのセッションで実行されたアクションを確認できるようになります。

Amazon Redshiftのニュースまとめ

AQUA が Amazon Redshift RA3.xlplus ノードで利用可能に

AQUAとはRedshiftのハードウェアクエリーアクセラレータ機能です。ストレージレイヤで中間データのキャッシュを保持することでRedshiftのコンピュートノードでの処理量を減らし既存の最大10倍のパフォーマンス向上ができるそうです。利用の際に追加料金やコードの変更は不要です。今回のリリースで利用できるノードの対象に RA3.xlplus が追加されました。

より詳しく知りたい方は以下の参考リンクも御覧ください。

クラスターおよびデータベースとやり取りするためのコマンドラインクライアントである Amazon Redshift RSQL を発表

Redshift用のコマンドラインインターフェース(CLI)の rsql がリリースされました。
これまではPostgreSQLのCLIとして提供されている psql が利用できましたが、psqlの機能を保ちつつRedshift固有機能にも対応したとのことです。

対応機能の一部を紹介すると、IAMプロファイルやEC2のインスタンスプロファイルによる認証が利用可能になり、よりセキュアな接続が可能になりました。

より詳しく知りたい方は以下の参考リンクも御覧ください。

Snowflakeのニュースまとめ

非構造化データのサポート(Preview Feature)

タスクのサーバーレス実行がサポート(Preview Feature)

Lookerのニュースまとめ

Google Analytics v4向けのLooker Blockが利用可能に

Google Ads Customer MatchのLooker Actionが利用可能に

Googleデータポータルのニュースまとめ

オーナー名/メールアドレスでレポートを検索できるようになりました

レポートやデータソースを探す際に、オーナー名やメールアドレスを使った検索が可能になりました。

データソース選択UIの更新

データソース選択UIのスクショ

データソース選択ツールのスタイルが更新され、視認性が向上しました。

参考: Google公式リリースノート

ETLツール「trocco(トロッコ)」のニュースまとめ

対応データソース拡充

  • 転送元Hubspotの取得対象データ追加

  • 転送元Snowflakeに対応

データリネージ機能で転送方式によるハイライトが可能に

昨月リリースしたデータリネージ機能により、データ基盤上で発生した障害の影響範囲をより特定しやすくなりました

今回のアップデートにより、データリネージ上の転送経路にて、「洗い替え(上書き)」「追記」「マージ」の中のどの方式で転送しているかをハイライトできるようになりました。

「洗い替えならばカジュアルに再実行すればよいが、追記方式ならデータの状態を確認すべき」といった状況判断にご利用いただけます。

新着ニュースのメール通知

毎月更新でニュースをお届けしておりますので、ニュースのメール通知をご希望の方は以下フォームよりご登録下さい。
https://forms.gle/ZHUrxtfRZzPXxWZP6
(「こんなニュースを知りたい!」というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!)