Data Engineering Newsとは?

こんにちは、小林寛和(@hiro-koba)と申します。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者をやったり、ETL & ワークフローサービス「trocco(トロッコ)」を運営する株式会社primeNumberで取締役CPOを務めているデータエンジニアです。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方は以下フォームよりご登録下さい。
https://forms.gle/ZHUrxtfRZzPXxWZP6

目次

Google BigQueryのニュースまとめ

テーブルデータのParquetファイルへのデータエクスポート

テーブルのデータをParquetのデータ型でエクスポートできる機能がGAリリースされました。

BigQueryのデータ型は以下のようにParquestのデータ型に変換されます。

BigQuery data type Parquet primitive type Parquet logical type
Integer INT64 NONE
Numeric FIXED_LEN_BYTE_ARRAY DECIMAL (precision = 38, scale = 9)
BigNumeric FIXED_LEN_BYTE_ARRAY DECIMAL (precision = 76, scale = 38)
Floating point FLOAT NONE
Boolean BOOLEAN NONE
String BYTE_ARRAY STRING (UTF8)
Bytes BYTE_ARRAY NONE
Date INT32 DATE
Datetime INT64 TIMESTAMP (isAdjustedToUTC = false, unit = MICROS)
Time INT64 TIME (isAdjustedToUTC = false, unit = MICROS)
Timestamp INT64 TIMESTAMP (isAdjustedToUTC = false, unit = MICROS)

注意点としてDATETIME型(Date, Datetime, Time, Timestamp)のデータをエクスポートすると、変換後の値がBigQueryのスキーマに一致しないため、同じテーブルにみ込むことができなくなるようです。

より詳しく知りたい方は以下の参考リンクも御覧ください。

DDLステートメントでのALTER COLUMN SET DATA TYPEのサポート

DDLステートメントでALTER COLUMN SET DATA TYPEのサポートがGAリリースされました。

列のデータ型を制限の緩いデータ型に変更できるようになります。たとえば、以下のような変更が可能です。

  • NUMERIC データ型を BIGNUMERIC 型に変更する
  • 文字列型の最大長を増やす
  • 数値型の精度を拡大する

より詳しく知りたい方は以下の参考リンクも御覧ください。

DDLステートメントでのCREATE TABLE LIKE/COPYのサポート

DDLステートメントでCREATE TABLE LIKE/COPYのサポートがGAリリースされました。

より詳しく知りたい方は以下の参考リンクも御覧ください。

Amazon Redshiftのニュースまとめ

テーブル列の圧縮エンコーディングの自動最適化をサポート

Redshiftの圧縮エンコードとは、行がテーブルに追加されるときにデータ値の列に適用される圧縮のタイプを指します。適切なエンコードの方式を選択すると、列にアクセスするクエリのパフォーマンスが向上すると同時に、列のストレージ使用率を低減できます。

これまではテーブル作成時にデータのサンプルを元に自動的に方式を選択していました。そのために時間の経過とともにデータが変動した場合、最適なエンコードでなくなる場合がよくあります。
このリリースで継続的に蓄積されるデータをモニタリングし、圧縮エンコードの更新が行われることで、常に最適なパフォーマンスで利用できるようになります。

クロスアカウントのデータ共有の一般提供を発表

これまでも、AWS アカウント内のクラスター間でデータを共有する機能は利用可能でしたが、
異なる AWS アカウントの Redshift クラスター間でのデータ共有も利用可能になりました。

空間データを扱うクエリのパフォーマンス強化と新しい関数のサポート

空間データには、天気予報、地図、店舗の場所などがあり
ビジネス分析、レポート、予測などで大きな役割を果たします。

今回のリリースで空間データを扱うパフォーマンスの改善と
新しい空間関数をサポートしました。詳細は以下のドキュメントを確認ください。

AWS Database Migration Service が、フルロード中に Redshift をターゲットとして使用する際の並列スレッドのサポートを開始

AWS Database Migration Service(DMS) はオンプレのデータベースからAWSのRDSなどにデータを移行する用途などで利用されるサービスです。

データ移行開始時に最初に行うデータロード(フルロード、もしくは全ロード)時に並列スレッドでのRedshift への最初の移行ができるようになり、パフォーマンスが向上しました。

Snowflakeのニュースまとめ

テーブル、カラムなどにタグ付けができるようになりました(Preview Feature)

Snowflakeオブジェクト(ユーザー、warehouse、データベース、テーブル、カラムなど)に対し、任意のタグを付けれるようになりました。
タグを元にコスト分析などを行うことができ、例えばユーザーのチーム毎にユーザーにタグを付けることで、チーム毎のコストを把握できるようになります。

詳細は Snowflake公式ドキュメント(Object Tagging) を参照してください。

外部のデータレイクにエクスポートする際に、パーティションを指定できる機能の一般提供が開始

SnowflakeではS3やGCSなど、外部のストレージに対してクエリ結果をエクスポートする機能があります。
Parquet形式などでのエクスポートにも対応しており、スナップショットや過去データのバックアップとして外部ストレージにデータを保持しておくことが可能です。
この度、クエリ結果のカラムを元にパーティションを切って出力することができる機能の一般提供が開始されました。

デーテレイクエクスポートの詳細は Snowflakeブログ を参照してください

Lookerのニュースまとめ

Forecasting (未来値予測)

Forecasting (未来値予測)がベータ (Labs) 機能として追加されました。
こちらを有効化すると、エクスプローラのデカルトチャート及びデータテーブルの可視化オプションにて、新たに追加される [Forecast] タブから使用することができるようになります。
デフォルトでは有効化されていないので、「管理 > Labs」メニューから設定を変更する必要があります。
こちらの機能では季節性も考慮することが可能です。

参考: Looker公式ドキュメント

Googleデータポータルのニュースまとめ

新しいグラフ「ゲージ」「範囲付きのゲージ」が追加

ゲージの画像

データポータルで新たにゲージグラフが使用可能になりました。

ゲージには目標値を表示したり、区間ごとに色分けをしたりすることができます。

参考: Google公式リリースノート

ETLツール「trocco(トロッコ)」のニュースまとめ

対応データソース拡充

  • 転送元DynamoDBに正式対応
  • 転送先Marketoにカスタムオブジェクトを追加

  • 転送元Twitter Adsで取得できるカラムを追加
  • 転送元ElasticsearchのBasic認証対応

カスタム変数の値を保存する列を追加可能に

troccoには転送設定に任意の値や動的に生成される値を埋め込める「カスタム変数」機能がありますが、今回のアップデートにより、実際に転送される値にカスタム変数を埋め込むことが出来るようになりました。
例えば広告アカウントIDでカスタム変数ループを組み、実際に転送されるデータに「現在のループで処理しているアカウントIDを埋め込みたい」といったことが可能になります。

新着ニュースのメール通知

毎月更新でニュースをお届けしておりますので、ニュースのメール通知をご希望の方は以下フォームよりご登録下さい。
https://forms.gle/ZHUrxtfRZzPXxWZP6
(「こんなニュースを知りたい!」というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!)