こんにちは、小林寛和(@hiro-koba)と申します。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者をやったり、ETL & ワークフローサービス「trocco®︎(トロッコ)」を運営する株式会社primeNumberの取締役CPOを務めているデータエンジニアです。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしていますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

Google BigQueryのニュースまとめ

データセットに 各国対応版 Google Trend が追加されました(プレビュー)

米国内および Google 全体の検索トレンドはすでに公開されていましたが、今回のリリースで約50ヶ国対応の Google Trend が公開されました。使用することで日本国内の検索トレンドを取得できます。

Google Cloud Marketplace および Analytics Hub から使用できます。

Slot Recommenderが利用できるようになりました(プレビュー)

オンデマンド課金を使用する際に、最適なスロット数を提案する機能が追加されました。過去30日間のスロット使用状況を分析することができ、スロット容量を購入した場合のシミュレーションもできます。

より詳しく知りたい方は、以下の参考リンクもご覧ください。
https://cloud.google.com/bigquery/docs/slot-recommender

セッション機能がGA(一般提供)リリースされました

複数クエリ内で変数などを共通利用できるセッション機能がGA(一般提供)リリースされました。

  • 同一セッション内では定義した変数や一時テーブルを共通利用できます。
  • セッション内でトランザクションを開始すると、同一セッションの別クエリからコミット/ロールバックすることが可能になります。

より詳しく知りたい方は、以下の参考リンクもご覧ください。
https://cloud.google.com/bigquery/docs/sessions-intro

また、以下のセッションに関する機能がプレビューリリースされました。

利用方法

クエリ上部の「More > Query Setting」から設定を開き、以下画像の項目にチェックを入れて保存するとセッションが開始されます。

カラムナファイルへの外部テーブルの明示的なスキーマ定義が可能になりました

Parquet、ORC、Avroといったカラムナフォーマットのファイルへの外部テーブルについて、明示的にスキーマを定義できるようになりました。
以前は、辞書式順序で最後のファイルから自動で検出されていました。

Snowflakeのニュースまとめ

Java用Snowpark API, ストアドプロシージャ のサポート(プレビュー)

SnowparkとはScalaを用いてデータフレーム操作を行うプログラムを記述し、
Snowflake上でデータパイプラインを構築・実行できるものです。

これまでは Snowflake Java UDF を作成することはできましたが、
Snowpark本体の記述はScalaで書く必要がありました。

今回のリリースでのJavaでの記述ができるようになりました。
※ プレビュー機能は、評価およびテストを目的としたものであり、実稼働環境での使用は推奨されていません。

詳しくは、リリースノートをご覧ください。

Snowflake SQL API (SQL API v2) のリリース(一般公開)

Snowflake SQL APIとは REST APIにクエリやDDL、DMLをリクエストすることで、実行をすることができる機能です。
今回のリリースはv2となり以前のv1については将来のリリースで廃止されるとのことです。

詳しくは、リリースノートをご覧ください。

半構造化形式ファイルの列定義検出(一般公開)

以前はParquetやAvro半構造化データをSnowflakeにロードする際に
いくつかの手順を踏んでロードする必要がありました。

この機能を用いるとApache Parquet、Apache Avro、および ORC ファイル形式については
ファイルをステージング後にSQLを介して列情報を検出しテーブルまたはビューの作成を簡素化できます。

これまでプレビュー版だったものが、一般公開となりました。

詳しくは、リリースノートをご覧ください。

ビューのストリーム利用(プレビュー)

Snowflakeのストリームとは、挿入、更新、削除などのテーブルに加えられたデータ操作言語(DML)の変更、および各変更に関するメタデータを記録し、変更されたデータを使用してアクションを実行できる機能です。

今回のリリースで、ビューの操作による変更も追跡できるようになりました。
※ プレビュー機能は、評価およびテストを目的としたものであり、実稼働環境での使用は推奨されていません。

詳しくは、リリースノートをご覧ください。

ディレクトリテーブルと外部テーブル: Google Pub/Subを使用してメタデータを自動的に更新する

ディレクトリテーブルは、クラウドストレージ上でステージングされたファイル群のメタデータを保持し
ファイルやその他のメタデータにアクセスする際に利用します。

これまでは、ディレクトリテーブルや外部テーブルの更新手動で行う必要がありました。

今回のリリースで、Google Pub/Subを介して、オブジェクトの作成や削除をトリガーにメタデータ情報を更新することができるようになりました。

詳しくは、リリースノートをご覧ください。

Lookerのニュースまとめ

API4.0がリリースされました(一般公開)

API4.0では、複数のエンドポイントがベータ版から製品版に昇格されました。

製品版として追加されたエンドポイントについてはこちらAdditional API 4.0 GA Featuresをご覧ください。
Lookerのダッシュボード作成・管理できるエンドポイントやDatabase Connectionsで作成した接続情報から取得できるデータベース・テーブルなどを確認できるエンドポイントなど他にも複数のエンドポイントが追加されました。

また、Homepage endpointsとSpace endpointsの非推奨エンドポイントが削除され、それらに代替するようにboard endpointsfolder endpointsが追加されました。

API 4.0に関する詳しい内容はリリースノート22.4API4.0をご覧ください。

Custom fields permissionの追加が追加

Explorerで使用されるカスタムフィールドのための独立したパーミッションが追加されました。
カスタムフィールドを作成するにはcreate_table_calculationsのパーミッションを持たせる必要がありましたが、v22.4以降はcreate_custom_fieldsを専用のパーミッションとして使用することができます。

これにより、カスタムフィールドを作成するユーザーの権限を、テーブル計算を作成するユーザーの権限から分離することができるようになりました。

v22.4以前からcreate_table_calculationsのパーミッションを持つユーザまたはグループには、下記の画像のように自動的にcreate_custom_fieldsが付与されます。

グループに付与している権限にcreate_custom_fieldsが自動的に追加

Custom fields permissionに関する詳しい内容はリリースノート22.4Custom fields permissionをご覧ください。

Googleデータポータルのニュースまとめ

Search Console コネクタ で Discover / Google News のデータが取得可能に

検索タイプとして、「discover」「googleNews」が選択可能になりました。

リリースノート: https://support.google.com/datastudio/answer/11521624?hl=en&ref_topic=6267740#mar-31-2022

レポートのテーブル行が最大50,000行まで表示可能に

これまでは最大 5,000 行まででしたが、最大 50,000 行まで表示できるようになりました。

TOPページのレポート検索機能改善

TOPページで、 to:me to:someone@example.com のようなキーワードを使ったレポート検索ができるようになりました。

Tableauのニュースまとめ

ワークブックオプティマイザー

ワークブックをパブリッシュする前に、ワークブックオプティマイザーでパフォーマンス改善のために必要なアクションを確認できるようになりました。

既にTableauではワークブックを設計する際のベストプラクティスをこちらで公開していますが、ワークブックオプティマイザーはこれらのベストプラクティスと照らし合わせてワークブックの評価を行います。オプティマイザーの情報を参照することで、読み込みの遅いワークブックをより迅速に改善することができます。

新しい検索エクスペリエンス

検索機能がリニューアルされました。検索結果が関連性、利用頻度、最新性などを元にランク付けされ、求めている情報が上位に表示されるようになっています。

また、スペルミスやスペース・句読点の不一致などを含んだ検索ワードにも、あいまい一致で対応するよう改善されました。

「データに聞く」フレーズビルダー

自然言語で質問を入力する「データに聞く」機能が強化されました。

これまでの「データに聞く」機能は英文を入力して分析操作を行う機能でしたが、分析のための質問をクリック操作で作成できるようになりました。より直感的に操作できるUIになり、日本語ユーザーにとっても「データに聞く」機能が利用しやすくなります。

Tableauの新機能についてより詳細を知りたい方は、以下のリンクから公式アナウンスをご確認ください。
https://www.tableau.com/support/desktop-upgrade

ETLサービス「trocco(トロッコ)」のニュースまとめ

troccoの直近のアップデートをご紹介します。詳しいアップデートは以下リリースノートもご参照下さい。
https://documents.trocco.io/docs/release-note-2022-03

データカタログ機能のアップデート

補完表示時にメタデータが合わせて表示されるように

データカタログ機能によって自動で取得されたSalesforceの日本語列名などのメタデータが補完表示時に合わせて表示されるようになりました。
クエリを書く際のどのカラムを利用すべきかの選択などにお役立てください。
今後は、お客様自身が定義したメタデータを表示する機能、どのメタデータを表示するかの選択できる機能、などの改善を予定しています。
image.png

関数の補完時に詳細が表示されるように

関数の補完表示に関数の詳細とBigQueryのドキュメントへのリンクが表示されるようになりました。
image.png

kintoneのメタデータ統合・表示に対応

データカタログ機能でkintoneのメタデータを参照できるようになりました。
転送元にkintone、転送先にGoogle BigQueryを指定した転送設定を作成している場合、テーブル情報・カラム情報に「kintoneに関するメタデータ」のフィールドが表示されます。
image.png

データ転送機能のアップデート

転送元HubSpotにて、「パイプライン」、「パイプラインステージ」、「担当者」が取得可能に

転送元HubSpotの取得可能対象に「パイプライン」、「パイプラインステージ」、「担当者」が追加されました。
HubSpot上で管理するパイプラインと、パイプラインごとのステージ情報をデータ連携することで、dealやticketの状況をより詳細に可視化することが可能となります。
また、担当者情報とその他のHubSpotのデータとを連携することで、HubSpot上での担当者の動きを分析・可視化することが可能となります。
image.png

設定方法の詳細はヘルプページをご確認ください。

転送元Salesforceにて、削除済み・アーカイブ済みレコードが取得可能に

転送元Salesforceに「削除済み・アーカイブ済みレコードの抽出」のオプションが追加されました。
削除済みのレコードや、taskオブジェクトなどのアーカイブ済みレコードの抽出ができるようになります。
image.png

設定方法の詳細はヘルプページをご確認ください。

転送先kintoneにて、転送モードに「update」「upsert」が追加

転送先 kintone に転送モード「update」「upsert」が追加されました。
今まではkintoneへデータを投入することしか出来ませんでしたが、こちらを設定していただくことで、kintoneのデータ更新が可能となります。
image.png

設定方法の詳細はヘルプページをご確認ください。

その他、詳しいアップデートは以下リリースノートをご参照下さい。
https://documents.trocco.io/docs/release-note-2022-03


以上、Data Engineering News 2022年3月のアップデートまとめでした。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

こんなニュースを知りたい!というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!

hirokazu.kobayashi