こんにちは、小林寛和(@hiro-koba)と申します。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者をやったり、ETL & ワークフローサービス「trocco®︎(トロッコ)」を運営する株式会社primeNumberの取締役CPOを務めているデータエンジニアです。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしていますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

Google BigQueryのニュースまとめ

BI Engine SQL interfaceのリリース

複数のプロジェクトでBigQueryを利用していると、プロジェクトを横断してのビューを利用したい場面が度々訪れるかと思います。その場合、承認済みビューを利用することによりセキュリティに配慮しつつ、プロジェクト横断でのビューの参照が可能になります。
今回サポートされた承認済みデータセットでは、アクセス制限したいデータセットに、アクセス許可したいデータセットを承認済みデータセットとして設定することで、個別の承認済みビューの設定が不要になるようです。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

標準SQLでjson型のネイティブサポート

json型のネイティブサポートがプレビューリリースされました。struct型とは異なりjson型を利用することで、事前にjsonデータのスキーマを定義することなくjsonデータをbigqueryに取り込むことができるようになります。また、struct型を用いるよりもクエリの記述がシンプルになります。
json型の利用にはGoogleフォームからの申し込みが必要になります。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

Amazon Redshiftのニュースまとめ

Redshift Query Editor V2 での SQL Notebooks サポートのプレビューを発表

これまで Query Editor V2を利用することでチームのメンバーとクエリやチャートを共有することができていましたが、今回発表されたSQL Notebooks機能を利用することで、SQLセルとその結果を1つのドキュメントを作成・共有することができるようになりました。

より詳しく知りたい方は以下の参考リンクもご覧ください。

Redshift で自動マテリアライズドビューのプレビュー機能をサポート開始

マテリアライズドビューとは1つ以上のテーブルで実行されたSQLクエリを元に事前に計算された結果を持つ機能です。マテリアライズドビューを利用することで元のテーブルにアクセスすることなく、同じデータを取得するのに比べて短時間で結果を返すことができます。

しかし、マテリアライズドビューのパフォーマンスを向上・維持するにはワークロードのモニタリングや専門的なDWHの知識が必要になり、メンテナンスにコンピューティングリソースはもちろん、人的労力がかかります。

今回の自動マテリアライズドビュー(AutoMV)は、機械学習を使用してワークロードをモニタリングし、AutoMVを最新に保つコストとレイテンシーのバランスを保ちつつ自動で管理します。また、未使用のAutoMVは自動的に削除され、最新に保つリソースの消費を節約するとのことです。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

Redshift で VARBYTE データ型のサポートを開始

VARBYTE とは、可変長のバイナリ文字列を格納および表現する可変長データ型です。VARBYTE(n) と記述し、n のデフォルト値は 64KB で、最大値は 1MB となります。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

Redshift 向け AWS Data Exchange を発表

AWS Data Exchange とはクラウド内のサードパーティデータを簡単に検索、活用できるサービスです。APIを利用してS3, Redshiftにデータを取り込むことで、自社のファーストパーティーのデータとサードパーティデータを組み合わせて様々な分析や機械学習に利用できます。今回のリリースから、Redshift向けの Data Exchange を一般的利用ができるようになりました。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

Redshift Spectrum がカスタムデータ検証ルールを提供

Redshift Spectrum を使用して、S3 データレイクをクエリする際に、外部テーブルのカスタムデータ検証ルールを特定することができるようになりました。この機能強化により、Redshift Spectrum が、サポートしていない UTF-8文字や数値のオーバーフローなど、予期せぬ値を含むデータを外部テーブルで処理する方法を制御できるようになります。

例えば、対象の文字を置換したり、クエリを失敗させるか、行を無視するかなどを指定することができるようになります。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

Snowflakeのニュースまとめ

AWS でのJava UDFs が GA

以前から Preview として提供されていた、Java UDFs が GA となりました。Java コードを利用した UDF を作成し、クエリから呼び出すことが出来ます。

詳細はヘルプドキュメント・参考記事をご覧ください。

AWS での Snowpark が GAに

以前から Preview として提供されていた、Snowpark が GA となりました。Snowpark により、Snowflake 上にコードをアップロードし、Snowflake 上でデータ処理を行うことが出来るようになります。

詳細はヘルプドキュメント・参考記事をご覧ください。

非構造化データのサポートが GA

以前から Preview として提供されていた、非構造化データのサポート が GA となりました。これにより、PDF などの非構造データを扱うことが出来るようになります。

カスタマー事例紹介イベント SNOWDAY が開催

Snowflake カスタマーによる Snowflake 活用事例紹介イベント SNOWDAY が 2021/12/07-08 の2日間に渡って開催されました。データパイプライン構築の話や、Snowflake によって実現したデータ基盤の紹介など、様々な事例が紹介されました。

以下のURLから登録することで、オンデマンド配信の視聴が可能です。ぜひご覧ください。

Lookerのニュースまとめ

PDTs “at a glance”機能の追加

Persistent Derived Tables(永続的な派生テーブル)のAdminページから、主要なモニタリング情報を確認することができるようになりました。

PDT Dependency Visualizer機能の追加

Persistent Derived Tables(永続的な派生テーブル)の間の依存関係などを確認することができるようになりました。これまでは、各PDTのLookML/SQLを個別に確認する必要がありましたが、PDT Adminページの各PDTのDetailセクションから確認することができます。

Googleデータポータルのニュースまとめ

Amazon Redshift connectorのβ版公開

データポータルのコネクタを使ってRedshiftのデータを可視化することができるようになりました。データベースの認証にはホストネーム / IPアドレスを指定する方法と、JDBC URLを指定する方法のいずれかを選択できます。

テーブルの水平スクロール

スプレッドシートやBigQueryのデータを表示する際に、「水平スクロール」の設定をONにすることでテーブルを横方向にスクロールできるようになりました。

Google Adsのデータ追加

新たに以下のデータが取得可能になりました(参考:Google データポータル公式ドキュメント)。

  • Account Budget Order Amount
  • Account Budget Order Adjustable Amount
  • Account Budget Amount Spent
  • Campaign Bid Strategy Type
  • Ad Group Bid Strategy
  • Target CPA
  • Target ROAS
  • User Ad Distance
  • First Position Bid

ETLツール「trocco(トロッコ)」のニュースまとめ

データカタログ機能をリリース(β版)

trocco®️はETL・ワークフローなどのデータ統合領域における機能を拡充してきましたが、今回新たにメタデータ管理やデータマネジメント領域に足を踏み入れました。

データカタログ機能では以下のことが実現可能です。

  • データ分析基盤上のデータ依存関係を、ER図で可視化
  • メタデータ統合機能により、依存関係や各種メタデータを自動統合
    • BigQuery上のテーブル・カラムに対し、メタデータ(例:Salesforceの日本語名など)を紐付けて参照が可能
  • JOIN分析やクエリエディタ機能により、各種メタデータを参照しながら、同じ画面で集計作業を実施可能

より詳細な情報は下記の公式プレスリリースをご覧ください。
https://prtimes.jp/main/html/rd/p/000000029.000039164.html

なお、本機能は現時点ではクローズドβ版となっており、ご要望頂いたお客様のみに公開させていただいております。詳細は担当営業までお問い合わせください。

対応データソース拡充

以下のコネクタ拡充に対応しました。

  • 転送先BigQueryでクラスタ化テーブルに対応
  • 転送元Facebook Ads Insightsで統合アトリビューションを設定可能に
  • 転送元Zendesk Supportでデータ取得対象にユーザを追加
  • 転送元Salesforceでオブジェクトの自動補完が可能に
  • Snowflakeの認証方式として秘密鍵方式をサポート
  • 転送元RTB Houseを追加
  • 転送元シャノンマーケティングプラットフォームのオブジェクトタイプ追加
  • 転送元TikTok Adsで取得するデータを追加

全角半角変換をテンプレートETLとして実行可能に

troccoではデータ転送の途中に簡単な変換処理を行う「テンプレートETL」機能があります。
今回のアップデートにより、NFKC方式の文字列正規化処理をご選択いただけるようになりました。
これにより全角英数を半角に変換したり、半角カナを全角に変換し、扱いやすい形でデータを転送可能になりました。


以上、Data Engineering News 2021年12月 / 2022年1月のアップデートまとめでした。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

こんなニュースを知りたい!というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。