こんにちは、小林寛和(@hiro-koba)と申します。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者をやったり、ETL & ワークフローサービス「trocco®︎(トロッコ)」を運営する株式会社primeNumberの取締役CPOを務めているデータエンジニアです。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしていますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

Google BigQueryのニュースまとめ

BigQuery のクエリ結果を Colab ノートブック上で DataFrame として扱えるようになりました (プレビュー)

クエリ結果の「データを探索」から、Colabノートブックを開けるようになりました。
Colab ノートブックのコード上に BigQuery の Job ID が埋め込まれ、クエリ結果を DataFrame で扱うことが出来ます。

詳しくは Colab でデータを探索する をご覧ください。

Apache Spark を ストアドプロシージャ で呼び出せるようになりました(プレビュー)

Python で記述された Apache Spark ストアドプロシージャを作成することができます。他のストアドプロシージャ同様に、SQLから呼び出すことができます。

詳しくは Apache Spark のストアド プロシージャを操作する をご覧ください。

マテリアライズドビューの “max_staleness” オプションが利用可能になりました (プレビュー)

マテリアライズドビューに “max_staleness” を設定することで、テーブルからデータを取得してから、”max_staleness” の期間内は、マテリアライズドビューからのみデータを取得します。
「元となるデータは頻繁に変更されるが、常に最新のデータが必要というわけではない」というダッシュボードやレポートのようなユースケースで有用な機能です。

“ALTER MATERIALIZED VIEW” ステートメントを使用して、既存のマテリアライズドビューに設定することも可能です。

詳しくは max_staleness オプションを指定して実体化されたビューを使用する をご覧ください。

BI Engine Top Tables Cached Bytes, BI Engine Query Fallback Count, Query Execution Count がBigQueryのダッシュボードメトリクスとして閲覧できるようになりました (プレビュー)

各メトリクスの定義としては以下の通りとなっているようです。

GAとなった機能

  • Analytics Hub
    • 異なる組織/企業間でデータセットや分析アセット(BigQuery MLモデルなど)を公開/共有/交換できるサービスです
    • 詳しくは Analytics Hub をご覧ください
  • マルチステートメント トランザクション
    • 一般的なRDB同様に、複数のテーブルへの書き込みなどがアトミックに行えるようになります
    • 詳しくは Multi-statement transactions をご覧ください
  • 列レベルの動的なデータマスキング
    • データマスキングを利用することで、特定の列をマスキングしつつ、グループのユーザに引き続きアクセスを許可できます
    • ユーザーがアクセスできない列を除外するために既存のクエリを変更する必要はありません
    • 詳しくは 動的なデータマスキングの概要 をご覧ください
  • 検索インデックスとSEARCH関数
    • 非構造化テキストデータや半構造化データに対して効率的にGoogle 標準 SQLを適用できます
    • 検索インデックスに関しては BigQuery での検索の概要 を、SEARCH関数に関しては 検索関数 をご覧ください
  • リモート関数
    • リモート関数を使用すると、Cloud FunctionsCloud Run をGoogle 標準 SQL と統合でき、SQL と JavaScript 以外の言語や、BigQuery ユーザー定義関数で許可されていないライブラリやサービスを使用して関数を実装できます
    • 詳しくは Remote functions をご覧ください
  • 地理関数 (geography functions)

Amazon Redshiftのニュースまとめ

クエリエディタ v2 の SQL ノートブックがGAになりました

2021/12からプレビューで提供されていた、クエリエディタ v2のSQLノートブックがGA(一般公開)になりました。
複数のクエリ、ドキュメント、グラフ等をノートブックにすることで、分析結果の共有や整理等を効率よく行えるようになります。

詳しくは公式ドキュメントを参照ください。

Amazon Athenaのニュースまとめ

Amazon Athenaのクエリエンジン バージョン3 が利用できるようになりました

Amazon Athenaで利用できるSQLクエリエンジンがアップグレードされ、Trino オープンソースプロジェクトの最新機能に対応しました。TrinoはPrestoをforkしたOSSプロジェクトであり、データ分析のための高速なクエリエンジンです。
今回のバージョンアップにより、ユーザーは以下のメリットを享受できるとのことです。

  • 50 を超える新しい SQL 機能
  • 30 の新機能
  • 90 以上のクエリパフォーマンス向上

なお、既存のバージョン 2 エンジン(Prestoベース)についても引き続き利用可能です。
詳しくはAmazonの公式アナウンスや、ブログ記事をご参照ください。

Snowflakeのニュースまとめ

GA(一般公開)となった機能リリース

PROCEDURE へのタグ機能のサポート

プロシージャに対しタグを設定できるようになりました。
ALTER PROCEDUREコマンドにより、プロシージャに対しタグ名、値を設定できます。
また、SYSTEM$GET_TAG 、TAG_REFERENCES コマンドでも、プロシージャを対象として照会できるようになりました。

新しい関数

  • SYSTEM$ALLOWLIST: 廃止済みの SYSTEM$WHITELIST と同じ動作をします。
  • SYSTEM$ALLOWLIST_PRIVATELINK: 廃止済みの SYSTEM$WHITELIST_PRIVATELINK と同じ動作をします
    • 上記の古い関数は、2023年1月10日以降サポートされなくなるとのことです。
  • PARSE_XML および CHECK_XML 関数: 自動変換を無効にするための新しい引数
    • disable_auto_convert 引数が追加され、結果をSnowflakeデータ型に変換するかどうかを指定します。

新しい CREATE ACCOUNT パラメーター

CREATE ACCOUNT 初期管理ユーザーに対してキーペア認証を実装するオプションを利用できるようになります。
作成時に公開鍵を指定し、作成することができるとのことです。
これまでは、初期ユーザーは常にユーザー名/パスワード認証情報を持つ必要がありました。

匿名プロシージャ機能(プレビュー)

通常のプロシージャとは違い、保存されない形でのプロシージャ機能がリリースされました。
具体的にはWITH句の中に定義し、プロシージャを呼び出します。
このコマンドには、 CREATE PROCEDURE スキーマ権限を持つロールは不要で実行できるとのことです。

検索最適化サービス: 列構成、部分文字列および正規表現検索、 VARIANT、および GEOGRAPHY のサポート(プレビュー)

以下のデータ型の列に対し、検索最適化が利用可能になりました。

データベースの複製機能へのストリームオブジェクト、タスクオブジェクトのサポート(プレビュー)

ストリームオブジェクト、タスクオブジェクトに対し、データベース複製(レプリケーション)機能が
プレビューサポートされるようになりました。
それぞれのオブジェクトのセカンダリDBへの複製有無に対するユースケースがあり、
ドキュメントに詳しく記載されています。

以下の参考リンクも御覧ください。

カラムリネージ(列の変更履歴)機能(プレビュー)

INSERT、MERGE、CTASなどのテーブルへの変更操作に対し
列単位での履歴情報が参照できるようになりました。

タグ機能の上限の緩和

以下の通り、オブジェクト、カラムに対するタグ付けの上限が変更されました。

  • 50個の一意のタグ(テーブル、ビュー以外)
  • テーブル、ビュー: 1個あたり50個のユニーク数
  • カラム: 50個(テーブル、ビューを結合した際の合計ユニーク数)
  • テーブル、ビュー、そのカラムに含むタグ: 100個

また、CREATE / ALTER コマンドでの操作できるタグ数も100個までとのことです。

Lookerのニュースまとめ

Looker 22.18 がリリースされました。

Looker connector による Looker Studio との接続

Looker connector (プレビュー版)を利用して、 Looker Studio と接続できるようになりました。
Looker をデータソースとして、 Looker Studio レポートでデータ表示ができます。
利用するには、公開プレビューに登録する必要があります。
詳しくは公式ドキュメントをご確認ください。

その他

以下の機能が GA になりました。

  • ダッシュボードのフィルタロケーション
  • ダッシュボードのカスタムボタン
  • カスタムフィールド
  • Looker API 4.0

Looker Studio(旧: Googleデータポータル)のニュースまとめ

Looker Studioへ名称変更

データポータル(英名: Data Studio)がLooker Studioに名称変更され、Lookerブランドの傘下となりました。
詳細はGoogle Cloudのブログ記事をご確認ください。

Looker Studio Pro

併せて、有料版のLooker Studio Proが公開されました。Looker Studioの全機能に加えて、「チームワークスペース」と「Google Cloud プロジェクトリンク」という 2 つのアクセス権限管理機能が提供されています。

また、Looker Studio ProはSLAと技術サポートの対象となります。
詳細はLooker Studioのヘルプページをご確認ください。

dbtのニュースまとめ

dbt core v1.3がリリースされました

v1.3では、新たにPythonモデルがサポートされます。
models/フォルダに.pyファイルを作成し、DataFrameを返すmodel()という名前の関数を定義することで、SQLでは行えないデータ変換処理を行うことが可能となります。PyPIパッケージも利用することが可能です。
Pythonモデルは従来のモデル同様、テスト、ドキュメント、リネージに関するすべての機能を利用できます。

すべてのPythonコードはプラットフォーム上でリモートで実行され、dbtがローカルで実行することはありません。そのため、今回サポートされたプラットフォームは、Snowflake、Databricks、BigQuery/GCP(Dataproc)に限られています。DatabricksとGCPは処理フレームワークとしてPySparkを使用しています。Snowflakeは独自のフレームワークであるSnowparkを使用しております。

詳しく知りたい方はPython modelsをご覧ください。
また、その他のv1.3の変更点に関しては、リリースノートをご覧ください。

Tableauのニュースまとめ

データガイド

ダッシュボード画面にて「データガイド」機能が追加されました。

データガイド内では「データ変化レーダー」と「Viz の説明」の情報が提供されています。「データ変化レーダー」はデータの更新を監視し、通常のビジネスパターンと異なる値の更新を検知します。「Viz の説明」ではデータの外れ値を検知し、それが生じている原因を把握することができます。

ダッシュボードの画面右に表示されます

動的ゾーン表示

ダッシュボードの表示/非表示を動的に切り替えることで、インタラクティブなUIが実装できる機能です。

表拡張機能

Tableauのデータモデルにスクリプトを組み込むことがより簡単にできるようになりました。
スクリプトを入力することで、Python、R、Einstein Discoveryといった分析ツールのデータを埋め込むことができます。

Dynamic Scaling in a Container

Tableau Server環境にて、スケジュールに従ってバックグラウンダーのスケーリングを行えるようになりました。バックグラウンダーの追加/削除はダウンタイムなしで行うことが可能です。

アクティビティログ

Tableau Server環境にて、アクティビティログが利用可能になりました。「グループへのユーザの追加/削除」や「プロジェクト間のコンテンツの移動」といったログを追跡し、ユーザがどのようにTableauを使用しているかを詳細に把握することができます。

新機能についての詳細はTableauのリリースノートをご確認ください。
https://www.tableau.com/ja-jp/products/new-features

ETLサービス「trocco(トロッコ)」のニュースまとめ

troccoの直近のアップデートをご紹介します。

データカタログ

プレビューのカラム名直下に論理名が表示

テーブル情報タブのプレビューにて、カラム名の直下に論理名が表示されるようになりました。
image

テーブル情報タブに「クエリエディタを開く」ボタンが追加

ボタンをクリックすると、テーブル情報タブで開いていたテーブルが FROM 句に指定された状態で、クエリエディタが表示されます。
image

Google アカウントの再認証機能が追加

データカタログ設定にて、Google アカウントの再認証ができるようになりました。

:::(Warning) (Google アカウントの再認証可能なユーザー)
Google アカウントの再認証は、データカタログ管理者を除くすべてのユーザーが行うことができます。
データカタログ管理者について、詳しくは制約事項を参照ください。
:::

再認証をクリックした後の手順は、権限についての「実データへのアクセス権限」と同様です。
image

カラムに紐づくメタデータの自動引き継ぎ

trocco のデータマート機能を利用して生成したカラムについて、生成元カラムの「データソースに関するメタデータ」を自動で引き継げるようになりました。
以下、dm_contact_lead_join テーブルの Company カラムを例に説明します。


dm_contact_lead_join テーブルのカラムリネージでカラムの先祖を確認します。
Company カラムは lead テーブルの Company カラムを引き継いでいることがわかります。
image

lead テーブルの Company カラムの「Salesforce に関するメタデータ」は、以下のとおりです。
image

dm_contact_lead_join テーブルの Company カラムの「Salesforce に関するメタデータ」は、以下のとおりです。
該当のメタデータを引き継いでいることがわかります。
image

なお、カラムに紐づくメタデータを自動で引き継ぐためには、以下の条件があります。
:::(Warning) (カラムに紐づくメタデータの自動引き継ぎの条件)

  • データマート定義上で、カラムの値に加工を加えていない。
  • データマート定義のクエリ実行モードとしてデータ転送モードを用いている。 * 自由記述モードを用いて生成されたテーブルに対しては、引き継ぎの対象外となります。
    :::

dbt 連携

ジョブ設定の実行コマンドのオプション値にて、カスタム変数に対応
image

マネージドデータ転送

テーブル増減検知の Slack 通知内容が充実

これまでは、追加・削除されたテーブルの件数を表示していました。
今後は、追加・削除されたテーブルの件数に加えて、テーブルの名前も表示されます。
image

マネージド転送設定の編集画面が拡充

登録されている転送設定の転送元・転送先に関する設定や、共通設定を一括で変更できるようになりました。
以下、一括変更の手順です。

  1. マネージド転送設定の詳細画面より、編集をクリック
    image
  2. 登録された転送設定の共通設定側の編集をクリック
    image

共通設定画面が表示されます。
image

接続情報

PostgreSQL 接続情報にて、AWS Systems Manager Session Manager 経由での接続に対応
image

転送設定

転送先 Marketo にて、静的リスト ID の指定に対応
image
ファイル・ストレージ系コネクタにて、 Excel ファイルに対応

ファイル・ストレージ系コネクタにて、入力ファイル形式として Microsoft Excel ファイル(xlsx および xls)に対応しました。
対応したコネクタは以下のとおりです。

  • 転送元 – Amazon S3
  • 転送元 – Azure Blob Storage
  • 転送元 – Box
  • 転送元 – FTP・FTPS
  • 転送元 – Google Cloud Storage
  • 転送元 – Google Drive
  • 転送元 – HTTP(S)
  • 転送元 – SFTP
  • 転送元 – ローカルファイル

ワークフロー

ワークフロー失敗時の自動リトライについて、次回リトライ実行までの時間間隔を指定できるようになりました。
ワークフロー設定画面でリトライ回数に 1 以上を指定したときに、時間を指定できます。
image

UI・UX

転送設定一覧

通知設定の有無・スケジュール設定の有無で転送設定を絞り込み
image
選択した転送設定に付けられているラベルを、一括で取り外し
image

API アップデート

Yahoo!広告
  • API バージョンが、v8にアップデートされました。
    • API アップデートにより、旧指標は廃止されました。
    • 今後はカラム名に「(旧)」を含むカラムが指定されている場合、自動的に新カラムが取得されます。
  • 新バージョンについて、詳しくはYahoo!広告 API v8 システムリリース完了のお知らせを参照ください。
Criteo
  • API バージョンが、v2022.07にアップデートされました。
  • 新バージョンについて、詳しくはVersion 2022.07 release notesを参照ください。

その他、詳しいアップデートは以下リリースノートをご参照下さい。
https://documents.trocco.io/docs/release-note-2022-09


以上、Data Engineering News 2022年10月のアップデートまとめでした。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

こんなニュースを知りたい!というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。