こんにちは、小林寛和(@hiro-koba)です。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者や、trocco®︎(トロッコ)のプロダクト責任者をやってます。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしていますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

Google BigQueryのニュースまとめ

ビューのカラムにdescriptionを指定可能に (プレビュー)

CREATE VIEW を実行する際にカラムにdescriptionをつけることが可能になりました。

詳しくは Data definition language (DDL) statements in GoogleSQL をご参照ください。

インタラクティブクエリ・バッチクエリのタイムアウト時間のデフォルト値が設定可能に(プレビュー)

クエリキューを使う際に、インタラクティブクエリ・バッチクエリのタイムアウト時間のデフォルト値を指定することが可能になりました。

詳しくは デフォルト構成を管理する をご確認ください。

YAML 構成ファイルを使用して SQL コードを変換することが可能に(プレビュー)

インタラクティブ SQL トランスレータやバッチ SQL 変換を実行する際に、YAML 構成ファイルを使用して SQL コードを変換することが可能になりました。

詳細は YAML 構成ファイルを使用して SQL 変換を変換する をご確認ください。

INSERT INTO SELECTでAmazon S3とAzure Blob Storageが取り込み可能に(プレビュー)

BigQueryではAmazon S3またはAzure Blob Storageからデータを読み込むことが可能です。
今回のアップデートでは、INSERT INTO SELECTステートメントでこれらのデータを転送前にフィルタすることが可能になりました。

詳細は クロスクラウド オペレーションでデータを読み込む をご確認ください。

差分プライバシー が利用可能になりました  (プレビュー)

差分プライバシーを利用することにより、出力によって公開される個人情報を制限できます。
データの共有や情報の分析を許可しながら、個人に関する情報が他者に知られることを防ぎたいケースで有用となる機能です。

詳しくはクエリでの差分プライバシーの仕組みDifferential privacy 句差分プライベート集計関数などをご確認ください。

SQLプッシュダウンが EXTERNAL_QUERY を実行する際に利用可能になりました (GA)

条件にマッチした SELECT * FROM T のような形式のクエリはプッシュダウンされ、外部ソース側 (Cloud SQL や Cloud Spanner) で実行されます。

BigQueryのプッシュダウンについては、データ分析を導入する: BigQuery 連携クエリの新機能 | Google Cloud 公式ブログ にて詳しく紹介されています。

クエリ結果をソートできるようになりました(プレビュー)

クエリ結果の画面上でカラム名の横の▼ボタンからソートができます。

パーティションとクラスタの推奨事項表示(プレビュー)

BigQueryのテーブルに対し、パーティションとクラスタの推奨事項を確認する事ができるようになりました。
パーティション・クラスタ設定により、どのようなコスト削減が見込めるか確認いただけます。
詳しくは、パーティションとクラスタの推奨事項を表示する をご覧ください。

DML ステートメントは 1 日あたりのテーブル変更数にカウントされなくなりました

1 日あたりのテーブル変更数は上限が1,500回ですが、これまではDMLステートメントの実行もこの数にカウントされてました。
今後はDMLステートメントの実行はテーブル変更数にカウントされず、上限なく実行することができます。

詳しくは 割当と上限 をご覧ください。

その他GAとなった機能

Amazon Redshiftのニュースまとめ

大きなアップデートはありませんでした。

Amazon Athenaのニュースまとめ

IPv6インバウンド接続に、AWS PrivateLinkを使用できるようになりました。

これまで利用可能だったパブリックIPv6エンドポイントに加え、Amazon VPCからAWS PrivateLinkを使用してAthenaに安全かつプライベートに接続することができます。

いくつかのApache Spark DataSourceV2(DSV2)コネクタがリリースされました

以下のApache Spark DataSourceV2(DSV2)コネクタがリリースされました。

  • DynamoDB
  • CloudWatch Logs
  • CloudWatch Metrics
  • AWS CMDB

Amazon Athena for Apache Sparkについて以下のリリースがされました

  • 独自のJavaパッケージとカスタム設定を使用できるようになりました。
  • Apache Iceberg、Apache Hudi、およびLinux Foundation Delta Lakeのオープンソースデータレイクストレージテーブルフォーマットをサポートするようになりました。
  • Sparkノード間の転送中のデータおよびSparkによってディスクに保存された残りのローカルデータで暗号化を有効にできるようになりました。

キャパシティ予約について以下のリリースがされました

  • キャンセルされたキャパシティ予約を削除できるようになりました。
    • 予約は、削除する前にキャンセルされる必要があります。削除された予約は、ARNを含め、参照することができなくなります。
  • CloudFormation テンプレートを使用してキャパシティ予約を指定できるようになりました。

Snowflakeのニュースまとめ

プロシージャと関数のログとトレース(プレビュー)

  • この機能を使用するとプロシージャやUDFの関数ハンドラーからのログメッセージデータやトレースデータを発し、そのデータを「イベントテーブル」と呼ばれるオブジェクトに収集させて後に分析することができます。サポートされている各ハンドラ言語用のAPIにサポートしています。
    例えば、Pythonではloggingのようなライブラリを使用することで、ログをオブジェクトに溜めておけるようになりました。ログレベルやエラー内容など、柔軟にログを用いて分析をすることが可能になります。
  • 詳しい内容は、下記を参照してください

新しいSQL関数のリリース

  • 以下の3つの関数が新しくリリースされました。
関数の種類関数名説明
半構造化データ用関数 (配列/オブジェクト)ARRAY_GENERATE_RANGE指定された範囲内(例:[2, 3, 4])の整数値のARRAYを返します。
半構造化データ用関数 (配列/オブジェクト)ARRAY_REMOVE配列が与えられた場合、指定された値の要素を取り除いた配列を返す。
半構造化データ用関数 (配列/オブジェクト)ARRAY_REMOVE_AT配列が与えられた場合、指定された位置の要素を取り除いた配列を返す。

データ共有の利用状況が確認できる新しいLISTING_AUTO_FULFILLMENTビューの公開(プレビュー)

  • 今回のリリースでは、データ共有利用スキーマ(SNOWFLAKE共有データベース内)に追加された、クロスクラウド自動複製(Cross-Cloud Auto-Fulfillment)のコスト管理に役立つ情報を提供する2つの新しいビューが追加されました。
  • LISTING_AUTO_FULFILLMENT_DATABASE_STORAGE_DAILY ビュー
    • リスティングが他のリージョンにフルフィルメントされる場合、データ製品はリージョンに保存されます。このビューには、特定のリージョンにどれだけのデータが保存されているか、データストレージがどのリストとデータベースに関連しているかの詳細が含まれています。
  • LISTING_AUTO_FULFILLMENT_REFRESH_DAILY ビュー
    • リスティングが他のリージョンにフルフィルメントされると、リスティングプロバイダによって定義された頻度でデータプロダクトがリフレッシュされます。このビューには、特定のリージョンにリフレッシュされるデータの量と、データリフレッシュがどのリストとデータベースに関連付けられているかの詳細が含まれています。
  • 詳しい内容は、下記を参照してください

Snowsight上での名前付きステージの作成機能(プレビュー)

Snowflakeではデータをロードする際に、内部ステージ・外部ステージを介する必要があります。
今回のリリースでこれらのステージをSnowsightから作成・編集することができるようになりました。

Snowsightでのデータガバナンス管理機能(プレビュー)

Snowsight上でタグや各ポリシーの使用状況を監視できる画面がパブリックプレビューとなりました。
「データ」 –> 「ガバナンス」とクリックすると確認できます。

GA(一般公開)となった機能リリース

  • 無効な地理空間図形の処理方法の指定に対応
    • 通常、地理空間変換関数を使用して、サポートされている入力フォーマットのデータを GEOGRAPHY または GEOMETRY オブジェクトに変換する場合、関数はフォーマットの検証を試み、フォーマットが無効な場合は形状を修復します。形状を修復できない場合、関数は GEOGRAPHY または GEOMETRY オブジェクトを作成しない仕様になっています。
    • この機能を使うことで、本来利用不可能なフォーマットの修復、フォーマット変換の可否をチェックすることができます。
    • https://docs.snowflake.com/en/release-notes/2023-05#support-for-specifying-how-to-handle-invalid-geospatial-shapes-general-availability

Lookerのニュースまとめ

Looker 23.8 がリリースされました

潜在的な変更

  • Liquid ステートメントで互換性のない型が比較されると IDE 上にエラーが表示されるようになりました。
  • カスタム bin フィールド の階層にマッピングできる機能と、そのフィールドに対する並び替えが想定通りに機能するようになりました。
  • Explore の新しいビジュアリゼーションが一般提供になりました。

set_smtp_settings API エンドポイントにアクセス

oem_jar ライセンス機能が有効でなくても set_smtp_settings API エンドポイントにアクセスできるようになりました。詳細は以下をご確認ください。
Looker API Interactive Reference

Cookieless Embed API エンドポイント

Cookieless Embed API エンドポイントが Stable になりました。
Looker API Interactive Reference

その他のアップデートについては以下の公式ドキュメントをご確認ください。
Looker release notes

Looker Studio(旧: Googleデータポータル)のニュースまとめ

レポート編集中の自動更新を一時停止できるようになりました

編集中のレポートでフィールド削除やグラフに対する変更などを行うと、今までは自動でデータが更新されていましたが、更新を一時停止できるようになりました。
この機能によりリクエストの回数を減らすことができ、クエリの費用を削減する事ができます。詳細は以下をご確認ください。
Pause report updates

差分率関数の追加

表データに適用できる関数に差分率が追加されました。差分率は次の計算です。
(現在の値 - 前の値) / ABS(前の値)

https://support.google.com/looker-studio/answer/11521624?hl=en

dbtのニュースまとめ

dbt Cloud IDEでdbtのコードをlintおよびフォーマットできるようになりました

以下の5種類のファイルタイプでlintとフォーマットを実行できます。

  • SQL
  • YAML
  • Markdown
  • Python
  • JSON

SQLファイルでは、SQLFluffを使用、他のファイルタイプでは、PrettierとBlackが使用されます。

詳しくは公式ドキュメントをご覧ください。
Lint and format your code

Power BIのニュースまとめ

GA(一般公開)となった機能リリース

Azure Analysis ServicesからFabricおよびPower BI Premiumへの移行エクスペリエンス

Azure Analysis Services(AAS)からFabric、Power BI Premium、Power BI Embeddedへのセマンティックモデルの移行が数クリックで可能になりました。また、既存のレポートを移行したデータセットにリダイレクトすることができるため、既存のレポートやユーザーへの影響を最小限に抑えつつ、FabricやPower BIが提供する豊富な機能が利用できるようになります。

Power BI Desktopにおける最適化リボン

最適化リボンは、ビジュアルの一時停止、最適化プリセット、スライサー全適用ボタンの3つの主要な機能でレポート作成体験を向上させます。

ハイブリッドテーブル

インポートモードのパーティションとDirectQueryモードのパーティションを一つのテーブルで組み合わせることができ、効率的な分析が可能になります。

Power BIとAzure Log Analyticsの統合

これまでAzure Log Analyticsワークスペースに複数のPower BIワークスペースを接続することはできませんでした。今回のリリースでこの制限が解除され、複数のワークスペースを1つのAzure Log Analyticsワークスペースに接続できるようになりました。これにより、ワークスペースの管理者はPower BI Premiumのデータセットの使用状況やメトリクスを統合して分析できるようになりました。

Power BIにおけるAzure Mapsビジュアル

1年以上前のプライベートプレビューリリースから大幅にビジュアルが改善され、さまざまなカスタマイズオプションが追加されました。

新しいデータ接続

以下のデータ接続が新しく利用可能になりました。

  • MongoDB Atlas
  • Celonis EMS
  • CloudBlue PSA
  • SolarWinds Service Desk
  • Wrike

データ接続のアップデート

データ接続についてのアップデートのうち、主なものを紹介します。

AssembleViews

view だけでなく個々の model を選択する機能が追加されました。

Azure Databricks

Beta 版でなくなりました。

Databricks

Beta 版でなくなりました。

その他のリリースはhttps://learn.microsoft.com/ja-jp/power-bi/fundamentals/desktop-latest-updateをご覧ください。

ETLサービス「trocco(トロッコ)」のニュースまとめ

troccoの直近のアップデートをご紹介します。


転送設定

転送元troccoでジョブ実行履歴の転送に対応 🎉

転送元troccoから転送ジョブ実行の履歴が転送できるようになりました。
最大で過去1年前までに実行された転送ジョブの履歴データを転送できます。
詳しくは転送元 – troccoを参照ください。
image.png

転送先Google Spreadsheetsでレコードのソートができるように 🎉

転送設定STEP1の詳細設定からデータ順序を設定できるようになりました。
ソートキー名およびソート順を指定して、レコードを並び替えることができます。
詳しくは転送先 – Google Spreadsheetsを参照ください。
image.png

転送元ファイル・ストレージ系コネクタのデータ解凍オプションが拡充 🎉

転送するデータが圧縮されている場合、選択した解凍形式でデータを転送できます。
下記コネクタにて、解凍形式オプションが拡充しました。

転送元Google Cloud Storage

転送設定STEP1の解凍形式の選択肢にbzip2gzipを追加しました(従来はtar.gzzip)。

転送元Box

転送設定STEP1にて解凍形式を選択できるようになりました。
解凍方式は以下の4つから選択可能です。

  • bzip2
  • gzip
  • tar.gz
  • zip

転送先FTP・FTPSで転送モードが選択可能に 🎉

転送設定STEP1に転送モードを選択できるようになりました。
以下の2つから選択いただけます。

並列転送

並列処理を適用して転送を実行します。
出力ファイル数抑制転送に比べて、転送時間が短縮されます。
並列処理の都合上、転送元から取得したファイルが複数ファイルに分割されて転送先に送られることがあります。

出力ファイル数抑制転送

並列処理を適用せずに転送を実行します。
並列転送と異なり、転送元から取得したファイルは分割されずに転送先に送られます。

image.png

カラム名の一括変換形式に大文字変換とアッパースネークケース変換を追加 🎉

転送設定STEP2のカラム定義にて、カラム名一括変換の変換形式に大文字変換アッパースネークケース変換が追加されました。
image.png

UI・UX

転送設定詳細の固定ヘッダーサイズがスクロールに応じて変更 🎉

転送設定詳細画面で下方にスクロールすると、固定ヘッダーの高さが小さくなります。
転送設定内容の表示領域が広くなり、画面上に表示される情報量が増えました。

スクロール前
スクロール後

データカタログ

ER図のテーブル論理名の全文表示 🎉

従来はテーブル名が長い場合のみ全文表示をしていましたが、論理名が長い場合でもホバー時に全文表示ができるようになりました。
※ER図エンティティ内の上段が「テーブル名」、下段が「論理名」です。
image.png

その他、詳しいアップデートは以下リリースノートをご参照ください。
https://documents.trocco.io/docs/release-note-2023-05


以上、Data Engineering News 2023年05月のアップデートまとめでした。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

こんなニュースを知りたい!というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。