こんにちは、小林寛和(@hiro-koba)と申します。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者をやったり、ETL & ワークフローサービス「trocco®︎(トロッコ)」を運営する株式会社primeNumberの取締役CPOを務めているデータエンジニアです。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしていますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

Google BigQueryのニュースまとめ

テーブル関数のサポート

テーブル関数(TVF)がGAリリースされました。
公式ドキュメントにある以下の例は bigquery-public-data.usa_names.usa_1910_current から 引数として渡す `year` に該当するレコードを抽出するテーブル関数です。

-- create VTF CREATE OR REPLACE TABLE FUNCTION mydataset.names_by_year(y INT64) AS SELECT year, name, SUM(number) AS total FROM `bigquery-public-data.usa_names.usa_1910_current` WHERE year = y GROUP BY year, name SELECT * FROM mydataset.names_by_year(1950) ORDER BY total DESC LIMIT 5

また、このGAリリースに伴い、承認済みテーブル関数(authorized table function)の利用も可能になりました。
通常のテーブル関数では、関数を呼び出すユーザは関数で参照しているテーブルに対し、参照権限が必要ですが、承認済みテーブル関数を用いることでユーザが対象のテーブルに対する参照権限を持っていなくても参照できるようになります(承認済みテーブル関数に対して権限を付与する形になるようです)。

より詳しく知りたい方は以下の公式ドキュメントリンクもご覧ください。

セッション機能のサポート

セッション機能がプレビューリリースされました。
これにより、スクリプトや複数のトランザクションにまたがるSQLを一意のセッションでひとまとめにすることができます。また、セッション中のセッション変数や一時テーブルはスクリプトやトランザクションをまたいで利用することができます。
セッション機能を有効にした場合は、INFOMATION_SCHEMAのSESSION_ID列でそのセッションで実行されたアクションを確認できるようになります。

Amazon Redshiftのニュースまとめ

AQUA が Amazon Redshift RA3.xlplus ノードで利用可能に

AQUAとはRedshiftのハードウェアクエリーアクセラレータ機能です。ストレージレイヤで中間データのキャッシュを保持することでRedshiftのコンピュートノードでの処理量を減らし既存の最大10倍のパフォーマンス向上ができるそうです。利用の際に追加料金やコードの変更は不要です。今回のリリースで利用できるノードの対象に RA3.xlplus が追加されました。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

クラスターおよびデータベースとやり取りするためのコマンドラインクライアントである Amazon Redshift RSQL を発表

Redshift用のコマンドラインインターフェース(CLI)の rsql がリリースされました。
これまではPostgreSQLのCLIとして提供されている psql が利用できましたが、psqlの機能を保ちつつRedshift固有機能にも対応したとのことです。

対応機能の一部を紹介すると、IAMプロファイルやEC2のインスタンスプロファイルによる認証が利用可能になり、よりセキュアな接続が可能になりました。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

Snowflakeのニュースまとめ

非構造化データのサポート(Preview Feature)

Snowflakeで、画像、動画、音声、PDFなどの非構造データを扱うことが出来るようになりました。
Snowflake上に画像を保存してセキュアに共有したり、保存したPDFに対してAWS lambdaなどの外部関数を呼び出して解析を行い結果をテーブルに保存することなどができます。詳細はヘルプをご覧ください。
https://docs.snowflake.com/ja/user-guide/unstructured.html

タスクのサーバーレス実行がサポート(Preview Feature)

これまでは、SQLによる変換処理などのタスクは、ユーザーのウェアハウス上で実行する必要がありました。
このため、事前にリソースを確保しておく必要がありました。
タスクサーバーレスのサポートにより、Snowflake側がタスクに応じて最適なリソースを確保してくれ、自動でスケールの調整が行われるようになります。詳細はヘルプをご覧ください。
https://docs.snowflake.com/ja/user-guide/tasks-intro.html#label-tasks-compute-resources

Lookerのニュースまとめ

Google Analytics v4向けのLooker Blockが利用可能に

マーケットプレイスより、Google Analytics v4用のLooker Blockが利用できるようになりました。BigQueryへエクスポートされたデータを即座に可視化することが可能です。

新たなLooker Actionを利用することで、エクスプローラで取得した顧客セグメントのリストをGoogle Adsに連携することが可能になりました。

Googleデータポータルのニュースまとめ

オーナー名/メールアドレスでレポートを検索

レポートやデータソースを探す際に、オーナー名やメールアドレスを使った検索が可能になりました。

データソース選択UIの更新

データソース選択ツールのスタイルが更新され、視認性が向上しました。

データソース選択UIのスクショ

参考: Google公式リリースノート

ETLツール「trocco(トロッコ)」のニュースまとめ

対応データソース拡充

以下のコネクタ拡充に対応しました。

  • 転送元DynamoDBに正式対応
  • 転送元Hubspotの取得対象データ追加
  • 転送元Snowflakeに対応

データリネージ機能で転送方式によるハイライトが可能に

昨月リリースしたデータリネージ機能により、データ基盤上で発生した障害の影響範囲をより特定しやすくなりました。

今回のアップデートにより、データリネージ上の転送経路にて、「洗い替え(上書き)」「追記」「マージ」の中のどの方式で転送しているかをハイライトできるようになりました。「洗い替えならばカジュアルに再実行すればよいが、追記方式ならデータの状態を確認すべき」といった状況判断にご利用いただけます。


以上、Data Engineering News 2021年9月アップデートまとめでした。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

こんなニュースを知りたい!というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。