こんにちは、小林寛和(@hiro-koba)と申します。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者をやったり、ETL & ワークフローサービス「trocco®︎(トロッコ)」を運営する株式会社primeNumberの取締役CPOを務めているデータエンジニアです。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしていますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

Google BigQueryのニュースまとめ

BigLake 上の Apache Iceberg フォーマットのテーブルへのクエリ実行がサポートされました(プレビュー)

Apache Iceberg は、ペタバイト規模のデータテーブルをサポートするオープンソースのテーブル形式です。
利用する準備として、BigQuery で Apache Spark に対して、または Dataproc で Spark に対してストアド プロシージャを実行し、BigLake Iceberg テーブルを作成する必要があります。
また、このプレビューを利用するには申請が必要となっているようです。

詳しくは Apache Iceberg テーブルをクエリするをご覧ください。

Demo Query の実行ガイドが表示されるようになりました (プレビュー)

BigQuery にアクセスした際に、ようこそタブが表示されるようになりました。
ページ下部にある「起動時に開かない」にチェックを入れることで、起動時にようこそタブを開かないようになります。

BigQuery にリネージタブが追加され、データリネージのグラフがBQ上から確認できるようになりました (プレビュー)

以下のように、「リネージ」タブがエクスプローラーのタブに追加され、データの上流から下流までの流れを可視化することができます。
利用するには、Data Lineage API と Data Catalog APIs を有効にする必要があります。

追加された「リネージ」タブ
可視化の例 (公式ドキュメントより)

詳しくは Work with Data Catalog をご覧ください。
GCPのデータリネージに関して、データリネージについてもあわせてご覧ください。

VPC Service Control で保護されている BigQuery 領域から Google Drive へクエリ結果の保存する際にブロックするようになりました

VPC Service Control を用いて BigQuery の保護を設定している場合、サービス境界を越えて BigQuey のクエリ結果を Google Drive に保存しようとした際にブロックされるようになりました。

VPC Service Control を利用した場合の制限事項などは サポートされているプロダクトと制限事項 を確認してください。

その他GAとなった機能

Amazon Redshiftのニュースまとめ

今月の大きなアップデートはありませんでした。

Amazon Athenaのニュースまとめ

JDBC 2.0.34 ドライバーがリリースされました

今回のバージョンアップにより、ユーザーは以下のメリットを享受できるとのことです。

  • クエリ結果の再利用のサポート
  • Ec2InstanceMetadataのサポート
  • 文字ベースの例外の修正
  • 脆弱性の修正

詳しくはAmazonの公式アナウンスをご参照ください。

Kafka (MSK) と Apache Kafka 向けの Amazon マネージドストリーミング用の新しいコネクタをリリース

Kafka 用のコネクタを使用して、ストリーミング データに対して SQL クエリを実行できるようになりました

詳しくはAmazonの公式アナウンス、またはユーザーガイドをご参照ください。

Snowflakeのニュースまとめ

GA(一般公開)となった機能リリース

  • セッションポリシー
    • アカウント・ユーザ毎にセッションタイムアウトの期間を設定することができます。(デフォルトは4時間)
    • 2021年11月 にプレビューで発表されました。

アクセス制御: データベースロール (プレビュー)

データベースロール は、同じデータベース内にあるセキュリティ保護が可能なオブジェクトに対する権限を付与および取り消すことができる、データベース内のエンティティです。
これまでアカウント・ユーザに対してロール元に各オブジェクトへの操作権限を設定できましたが、
このリリースにより、注目したいデータベース配下のオブジェクトのサブセットに対しまとめてロールを作成・付与することで、管理が容易になりデータ共有もしやすくなるそうです。

より詳しく知りたい方は以下の参考リンクも御覧ください。

注意点として、この関数は処理された通知(送信の完了または失敗の通知)
に関する情報のみを返し、キュー内の通知は履歴に表示されないとのことです。

アクセス制御: SNOWFLAKE データベースロール (プレビュー)

上記のデータベースロールの概念と同じものですが、SNOWFLAKEデータベース (INFORMATION_SCHEMAなどを含んだメタ情報の管理DB) 専用のものになります。
ACCOUNT_USAGE、READER_ACCOUNT_USAGE、ORGANIZATION_USAGE、DATA_SHARING_USAGE スキーマ
などへの粒度の細かいアクセスを提供するために使用できる一連のロールを定義します。

より詳しく知りたい方は以下の参考リンクも御覧ください。

新しい SQL 関数: GET_QUERY_OPERATOR_STATS

  • クエリ内の個々のクエリ演算子に関する統計を返します。

より詳しく知りたい方は以下の参考リンクも御覧ください。

Lookerのニュースまとめ

12月分の更新はありませんでした。

Looker Studio(旧: Googleデータポータル)のニュースまとめ

Google Analytics (GA4) の API 割り当てを確認できるようになりました

レポート編集中に、現在のレポートで消費されている量と残量が確認できます。

Looker Studio Pro が GA になりました

エンタープライズ向けの有料プランである Looker Studio Pro が正式に利用できるようになりました。

以下は Looker Studio Pro 向けのアップデートです。

アセットを組織で管理する

Google Cloud プロジェクトを Looker Studio へ紐付けることができるようになりました。
Looker Studio を組織で管理することで以下の利点があります。

  • 作成したアセットは Google Cloud プロジェクトに保存される
  • 組織から削除されたユーザーが作成したアセットが残るようになる
  • IAM を使ってプロジェクトレベルでアセットのパーミッション管理ができる
  • アセットを他のクラウドサービスで利用できるようになる(例:Dataplex でデータリネージ)

詳細は公式ドキュメントをご確認ください
Set up organizational ownership of Looker Studio assets – Looker Studio Help

チームワークスペースを利用する

他のユーザーが作成したアセットが共有できるようになります。
詳細は公式ドキュメントをご確認ください。
About team workspaces – Looker Studio Help

dbtのニュースまとめ

今月の大きなアップデートはありませんでした。
以下のdbt-coreのRC(ReleaseCandidate)がリリースされました。

Tableauのニュースまとめ

12月にTableau2022.4がリリースされました。

画像の役割

Web 画像をワークシートに動的に追加する「画像の役割」機能が追加されました。
画像アセットを外部で管理することで、ワークブックのサイズ削減が可能です。

ワークシート単位でのデータソース切り替え

これまではデータソースを切り替えると全ワークシートに変更が適用されていましたが、表示中のワークシートでのみデータソースを切り替えることが可能になりました。

使用量のメトリクス

[使用量] タブで、総閲覧数やお気に入りに登録された数がメトリクスとして表示されます。

PROPER() 関数

大文字/小文字の変換を行うPROPER() 関数がリリースされました。
文字列の最初のアルファベットと、記号文字の直後のアルファベットが大文字に、それ以外のアルファベットは小文字に変換されます。

ETLサービス「trocco(トロッコ)」のニュースまとめ

troccoの直近のアップデートをご紹介します。


おしらせ

転送元LINE広告

先日、LINE株式会社よりAPIによる広告データの抽出方法が公開されました。
上記に伴い、troccoでは新たに、LINE広告APIを利用したコネクターの提供を別途開始しました。

詳細については、転送元 – LINE広告を参照ください。

転送設定

転送元AppsFlyerが新たに追加 🎉

  • 各種ローデータレポートの転送に対応しています。
    • 取得可能なレポート種別、フィールド、各種制約など、詳しくは転送元 – AppsFlyerを参照ください。

image

転送先HubSpot:コンタクトのサブスクリプションの更新に対応 🎉

  • オブジェクトタイプに、subscriptionを選択できるようになりました。

image

接続情報

Amazon S3:IAMロール認証を用いたAmazon S3への接続に対応 🎉

  • IAMロールによる認証に対応しました。
  • これにより、trocco上にAWSキーを配置せずとも、Amazon S3に接続できるようになりました。
    • Amazon S3接続情報にて、AWS認証方式としてIAMロールを選択できます。
    • IAMロールの発行手順など、詳しくはS3の接続情報を参照ください。
      image

UI・UX

転送設定一覧:スケジュール設定の一括削除に対応 🎉

  • 転送設定一覧画面にて、選択した転送設定に紐づくスケジュール設定を一括で削除できるようになりました。
    • 以下の手順で、スケジュール一括削除の設定画面を表示できます。
      image

通知設定:ジョブ実行がスキップされた際の通知に対応 🎉

  • ジョブがスキップされた場合にも通知されるようになりました。
    • 転送ジョブ・シンクジョブ・ワークフロージョブのSlack/Email通知が対象です。
    • 以下は転送ジョブがスキップされた際のSlack通知の例です。
      image

マネージド転送設定:ワークフローでの利用状況が可視化 🎉

  • マネージド転送設定がどのワークフローで利用されているかを、詳細画面から確認できるようになりました。
    • マネージド転送設定の個々の転送設定の詳細画面にも表示されます。
      image

ワークフロー定義

タスクの実行ログの切り替えが容易に 🎉

  • ワークフロージョブ実行画面にて、ページ上部の各タスクをクリックすることで、ページ下部の実行ログの表示が切り替わるようになりました。
    • 複雑なワークフローや大規模なワークフロー、再実行が複数回行われたワークフロージョブにおいて、各タスクの実行ログを確認するのが容易になります。
      image

APIアップデート

転送元Facebookリード広告・転送元Facebook Ads クリエイティブ

  • 上記転送元に利用しているFacebook APIが、v14からv15へアップデートされました。
    • 新バージョンについて、Meta for Developersのドキュメントを参照ください。

その他、以下のような改修などが加わっております。

  • チーム機能 – リソースグループ詳細
    • リソースグループ詳細画面にて、dbtジョブ設定およびdbtリポジトリの表示に対応しました。
      image

その他、詳しいアップデートは以下リリースノートをご参照下さい。
https://documents.trocco.io/docs/release-note-2022-12


以上、Data Engineering News 2022年12月のアップデートまとめでした。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

こんなニュースを知りたい!というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「trocco®」を立ち上げる。