こんにちは、小林寛和(@hiro-koba)と申します。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者をやったり、ETL & ワークフローサービス「trocco®︎(トロッコ)」を運営する株式会社primeNumberの取締役CPOを務めているデータエンジニアです。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしていますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

Google BigQueryのニュースまとめ

BigQuery Omni が新しいクォータとリミットをサポートしました

BigQuery Omni において、より大きいサイズのデータを扱えるようになったようです。

  • プロジェクトごとのクエリ結果のサイズの合計が1日あたり1TBになりました
  • クエリ結果の最大サイズが2MBから10GBに引き上げられました (Preview)

その他の制限事項に関しては、Limitations をご覧ください。

BigQuery Data Transfer Service for Google Ads が新しいGoogle Ads APIをサポートしました (Preview)

Google AdWords転送の後継として、Google Ads API v11 をサポートした Google Ads 転送がプレビュー版としてリリースされたようです。
Google 広告レポートデータを定期的に読み込むジョブのスケジューリングと管理を自動化できます。

詳しくは Google 広告の転送 をご覧ください。

BigQuery が マドリッド(europe-southwest1), ミラノ(europe-west8), パリ(europe-southwest1) リージョンで利用可能になりました

マドリッドリージョンとパリリージョンは二酸化炭素排出量が特に低いリージョンとなっているようです。
利用可能なリージョン一覧は、データセットのロケーション をご覧ください。

 is_case_insensitive がスキーマオプションとして利用可能になりました (Preview)

データセットとそのテーブル名で大文字と小文字の区別が不要な場合に有用な設定です。
CREATE SCHEMA 実行時には設定できますが、ALTER SCHEMA では設定できないため注意が必要です。

以下に設定例を示します。

CREATE SCHEMA mydataset
OPTIONS(
  is_case_insensitive=TRUE
)

その他のオプションなど、詳しくは CREATE SCHEMA ステートメントをご覧ください。

BigQuery 管理リソースグラフに「シャッフルの使用状況」指標が追加 (Preview)

BigQueryの利用状況を確認する際に、管理リソースグラフで指標に「シャッフルの使用状況 (Shuffle Usage)」を選択可能になりました。
この指標を選択することで、期間内の平均シャッフル使用率が確認できます。

詳しくは管理リソースグラフの使用をご覧ください。

Datastream for BigQuery (Preview)

RDBのデータをBigQueryにレプリケーションするDatastream for BigQuery機能が公開されました。

この機能ではカラムやデータ型の指定をすることなく、数ステップの設定だけでレプリケーションを行うことが可能です。
また、変更イベント(挿入、更新、削除)をトリガーにBigQueryテーブルへの書き込みを行うため、リアルタイム性に優れています。
オンプレ環境や他社クラウドのRDBも利用可能であり、幅広いユースケースに対応可能です。

詳しくはDatastream for BigQueryをご覧ください。

Google Cloud Techチャンネルで機能の紹介動画を確認できます。

ROUND関数がROUND_HALF_EVENオプションをサポート (Preview)

端数を丸めるROUND関数で、ROUND_HALF_EVENオプションを指定できるようになりました。
このオプションを指定すると、端数がちょうど0.5の場合に結果が偶数となる方へ丸められます。

たとえば”2.5″を通常のROUND関数で丸めると”3″となりますが、ROUND_HALF_EVENオプションを指定すると偶数の”2″に丸められます。

SELECT ROUND(NUMERIC "2.5", 0)
=> 3

SELECT ROUND(NUMERIC "2.5", 0, "ROUND_HALF_EVEN")
=> 2

BigQuery スロット Recommender (GA)

BigQuery利用実績に応じて最適なスロット数を推薦してくれるBigQuery スロット RecommenderがGAになりました。
2022/03にプレビュー版として公開された機能です。
詳しくはヘルプをご覧ください。

Amazon Redshiftのニュースまとめ

システムログの耐久性強化

システムテーブル/ビュー (STL/SVL)で使用されるログ(システムログ)の耐久性が強化されました。
インスタンスタイプ、クラスターサイズ、クラスター上のワークロードに関係なく、ユーザーは最大 7 日間のシステムログデータを取得できるようになりました。
また、クラスターの一時停止と再開の間も保持されるようになりました。

詳しくは公式ドキュメントを参照ください。

Snowflakeのニュースまとめ

GA(一般公開)となった機能リリース

クライアント接続のリダイレクトのサポート

  • クライアントリダイレクトを使用すると、ビジネス継続性と障害復旧のために、またはアカウントを別のリージョンやクラウドプラットフォームに移行するときに、クライアント接続を異なる リージョン のSnowflakeアカウントにリダイレクトできます。

GCP でのデータ分類

  • AWS, Azureでは 2022.06にGAとされていましたが、今回GCPでもGAとなりました。
  • 分類により、Snowflakeのテーブルおよびビューに保存されている個人的または機密である可能性のあるデータを分類できます。これらのデータを使用して、さまざまなデータガバナンス、共有、プライバシーのユースケースを実現できます。

タスク機能のDAGサポート

  • これまでは 先行するタスクは1つしか選べなかったものが、DAG(有向非巡回グラフ)表現と同様に、複数選べるようになりました。

サーバレスタスク機能

  • サーバーレス タスクは、ユーザー管理のコンピューティング リソース (vitual warehouses) ではなく、Snowflake が管理するコンピューティング リソースに依存してタスクを実行します。

Snowpipe: パターンマッチ処理

  • COPY INTO {table} コマンドには、ロード操作中に正規表現を使用してステージングされたファイルのセットをフィルター処理する PATTERN 句があり、今回のリリースでGAとなりました。

SQL・関数のアップデート

  • SYSTEM$STREAM_BACKLOG: 指定されたストリームの現在のオフセットと現在のタイムスタンプの間のテーブル バージョンのセットを返します。
  • SOUNDEX_P123: 入力文字列の音声表現を含む文字列を返し、最初の文字と 2 番目の文字が同じ番号を使用している場合、2 番目の文字の Soundex コード番号を保持します。
    • Soundex: 綴りから発音を索引付けをする音声アルゴリズムのひとつ。

詳しくは公式ドキュメントを参照ください。

検索最適化サービス: 部分文字列、正規表現、半構造化データ、GEOMETRIC型のサポート

検索最適化サービスは、大きなテーブルなどの検索クエリのパフォーマンスを向上させる機能です。サービスを有効にしたテーブルに対し、自動的に検索アクセスパスが生成・更新されることでクエリパフォーマンスを向上できるとのことです。

今回のリリースで、特定の列に対して等値検索と文字列パターン検索の最適化のサポートが有効にになりました。

詳しくは公式ドキュメントを参照ください。

検索最適化サービス: 結合のサポート

大きなテーブルを 1 つ以上の小さなテーブル (ファクト テーブルと複数のディメンション テーブルなど) と結合するクエリのパフォーマンスを向上させることができるようになりました。

詳しくは公式ドキュメントを参照ください。

タスク機能: タスク失敗時に後続のタスクを自動停止するオプション

実行が指定された回数連続して失敗した場合に、タスクを自動的に中断できるようになりました。
この結果、タスク実行におけるSnowflakeのクレジットを節約できるようになります。

詳しくは公式ドキュメントを参照ください。

タスク機能: タスクパラメーター設定の拡張

このリリースでは、アカウント、データベース、スキーマ、およびタスクレベルで次のパラメーターを設定できます。

以前は、これらのパラメーターは個々のタスクでしか設定できませんでした。

詳しくは公式ドキュメントを参照ください。

マスキングポリシーの置き換え処理のサポート

これまでは、ポリシーの置き換えには設定解除、新規設定とステップを踏む必要があり、一時的にポリシーが無効になってしまう状態でした。今回のリリースで、ALTER TABLEALTER VIEW に FORCE キーワードが追加され、
これによって置き換え中でもカラムの保護が維持できるようになります。

詳しくは公式ドキュメントを参照ください。

WebUI: Snowsight ワークシートでのセカンダリ ロールのサポート

Snowsight ワークシートでセカンダリ ロールをサポートされました。
ワークシートのロールまたは、現在のユーザーのセカンダリロールいずれかを介し、
必要最小限の権限で利用可能なすべてのオブジェクトを表示するようになるとのことです。

詳しくは公式ドキュメントを参照ください。

Lookerのニュースまとめ

Looker 22.16 がリリースされました。

埋め込み用のコンテンツナビゲーション

埋め込みダッシュボード、Look、Explore でのコンテンツナビゲーションが新しくなりました。
Looker Labs の設定で無効化でき、無効にすると以前のナビゲーションを利用できます。

クエリ管理者 UI の更新

管理メニュー内のデータベースセクションにあるクエリページのUIが更新されました。
この機能はデフォルトで無効になっているため、管理メニューのラボから有効化する必要があります。

その他

パフォーマンスの最適化案ダッシュボードが GA になりました。

破壊的変更

今回のアップデートではいくつかの破壊的変更があります。

  • TLS 1.0, 1.1が非推奨になりました。
  • IE11 のサポートが終了されました。
  • ユーザーがホストしている Looker で SendGrid をデフォルトの SMTP サービスとして使用するのは非推奨になりました。

詳細は、公式リリースノートをご確認ください。

Googleデータポータルのニュースまとめ

今月は特に目立ったリリース情報はありませんでした。
詳しく知りたい方はリリースノートをご覧ください。

dbt のニュースまとめ

今月は特に目立ったリリース情報はありませんでした。
詳しく知りたい方はリリースノートをご覧ください。

ETLサービス「trocco(トロッコ)」のニュースまとめ

troccoの直近のアップデートをご紹介します。

データカタログ

プレビューのカラム名直下に論理名が表示

テーブル情報タブのプレビューにて、カラム名の直下に論理名が表示されるようになりました。
image

テーブル情報タブに「クエリエディタを開く」ボタンが追加

ボタンをクリックすると、テーブル情報タブで開いていたテーブルが FROM 句に指定された状態で、クエリエディタが表示されます。
image

Google アカウントの再認証機能が追加

データカタログ設定にて、Google アカウントの再認証ができるようになりました。

:::(Warning) (Google アカウントの再認証可能なユーザー)
Google アカウントの再認証は、データカタログ管理者を除くすべてのユーザーが行うことができます。
データカタログ管理者について、詳しくは制約事項を参照ください。
:::

再認証をクリックした後の手順は、権限についての「実データへのアクセス権限」と同様です。
image

カラムに紐づくメタデータの自動引き継ぎ

trocco のデータマート機能を利用して生成したカラムについて、生成元カラムの「データソースに関するメタデータ」を自動で引き継げるようになりました。
以下、dm_contact_lead_join テーブルの Company カラムを例に説明します。


dm_contact_lead_join テーブルのカラムリネージでカラムの先祖を確認します。
Company カラムは lead テーブルの Company カラムを引き継いでいることがわかります。
image

lead テーブルの Company カラムの「Salesforce に関するメタデータ」は、以下のとおりです。
image

dm_contact_lead_join テーブルの Company カラムの「Salesforce に関するメタデータ」は、以下のとおりです。
該当のメタデータを引き継いでいることがわかります。
image

なお、カラムに紐づくメタデータを自動で引き継ぐためには、以下の条件があります。
:::(Warning) (カラムに紐づくメタデータの自動引き継ぎの条件)

  • データマート定義上で、カラムの値に加工を加えていない。
  • データマート定義のクエリ実行モードとしてデータ転送モードを用いている。 * 自由記述モードを用いて生成されたテーブルに対しては、引き継ぎの対象外となります。
    :::

dbt 連携

ジョブ設定の実行コマンドのオプション値にて、カスタム変数に対応
image

マネージドデータ転送

テーブル増減検知の Slack 通知内容が充実

これまでは、追加・削除されたテーブルの件数を表示していました。
今後は、追加・削除されたテーブルの件数に加えて、テーブルの名前も表示されます。
image

マネージド転送設定の編集画面が拡充

登録されている転送設定の転送元・転送先に関する設定や、共通設定を一括で変更できるようになりました。
以下、一括変更の手順です。

  1. マネージド転送設定の詳細画面より、編集をクリック
    image
  2. 登録された転送設定の共通設定側の編集をクリック
    image

共通設定画面が表示されます。
image

接続情報

PostgreSQL 接続情報にて、AWS Systems Manager Session Manager 経由での接続に対応
image

転送設定

転送先 Marketo にて、静的リスト ID の指定に対応
image
ファイル・ストレージ系コネクタにて、 Excel ファイルに対応

ファイル・ストレージ系コネクタにて、入力ファイル形式として Microsoft Excel ファイル(xlsx および xls)に対応しました。
対応したコネクタは以下のとおりです。

  • 転送元 – Amazon S3
  • 転送元 – Azure Blob Storage
  • 転送元 – Box
  • 転送元 – FTP・FTPS
  • 転送元 – Google Cloud Storage
  • 転送元 – Google Drive
  • 転送元 – HTTP(S)
  • 転送元 – SFTP
  • 転送元 – ローカルファイル

ワークフロー

ワークフロー失敗時の自動リトライについて、次回リトライ実行までの時間間隔を指定できるようになりました。
ワークフロー設定画面でリトライ回数に 1 以上を指定したときに、時間を指定できます。
image

UI・UX

転送設定一覧

通知設定の有無・スケジュール設定の有無で転送設定を絞り込み
image
選択した転送設定に付けられているラベルを、一括で取り外し
image

API アップデート

Yahoo!広告
  • API バージョンが、v8にアップデートされました。
    • API アップデートにより、旧指標は廃止されました。
    • 今後はカラム名に「(旧)」を含むカラムが指定されている場合、自動的に新カラムが取得されます。
  • 新バージョンについて、詳しくはYahoo!広告 API v8 システムリリース完了のお知らせを参照ください。
Criteo
  • API バージョンが、v2022.07にアップデートされました。
  • 新バージョンについて、詳しくはVersion 2022.07 release notesを参照ください。

その他、詳しいアップデートは以下リリースノートをご参照下さい。
https://documents.trocco.io/docs/release-note-2022-09


以上、Data Engineering News 2022年9月のアップデートまとめでした。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

こんなニュースを知りたい!というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。