こんにちは、小林寛和(@hiro-koba)と申します。私はデータエンジニアのための勉強会「Data Engineering Study」の共同主催者をやったり、ETL & ワークフローサービス「TROCCO®︎(トロッコ)」を運営する株式会社primeNumberの取締役CPOを務めているデータエンジニアです。

データエンジニアの皆さんが普段利用されているDWH/ETL/BIツールに関する最新アップデートや、界隈の最新トピックをまとめて配信しております。
お忙しい方や、サクッと最新情報をキャッチアップしたい方向けに、主要なニュースをピックアップして独自にまとめています。

毎月更新でニュースをお届けしていますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

Google BigQueryのニュースまとめ

承認済みデータセットのサポート

複数のプロジェクトでBigQueryを利用していると、プロジェクトを横断してのビューを利用したい場面が度々訪れるかと思います。その場合、承認済みビューを利用することによりセキュリティに配慮しつつ、プロジェクト横断でのビューの参照が可能になります。
今回サポートされた承認済みデータセットでは、アクセス制限したいデータセットに、アクセス許可したいデータセットを承認済みデータセットとして設定することで、個別の承認済みビューの設定が不要になるようです。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

BigQuery Scripting の構文追加

以下の構文が追加されました。

  • CASE
  • ラベル
  • REPEAT
  • FOR..IN

より詳しく知りたい方は、以下の参考リンクもご覧ください。

Amazon Redshiftのニュースまとめ

Amazon Redshift Serverless のリリース(プレビュー)

AWS re:Invent 2021にて Amazon Redshift Serverless が発表されました。これまでRedshiftはユーザーによってクラスターのセットアップや管理が必要でした。

新しく発表されたAmazon Redshift Serverlessは利用を開始した時点で自動でAmazon Redshiftのクラスタが起動し、負荷に応じてクラスタ内のノードの増減が行われ、ユーザーからの利用がなければ起動が終了してインスタンスがゼロになるとのことです。ユースケースとしてはアドホックに分析したり開発環境などのような一時的に利用したい場合などに便利そうです。

料金体系は、使用するコンピューティングとストレージに対して別途料金を支払うとのことです。

これまで使っていたRedshiftからデータを移行するには、プロビジョニングされたクラスターのスナップショットを作成し、そこからサーバーレスとして復元できるとのこと。さらにパブリックプレビューを試すのに使える 500 USD の AWS クレジットが出ているそうです。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

GEOGRAPHY データ型のネイティブサポートを発表

これまでRedshiftがサポートしていたGEOMETORYデータ型は平面での距離を表現するためのものでしたが、今回発表されたGEOGRAPHY データ型は、地球の丸みを考慮した距離で表すことができるものです。位置情報を考慮したより正確な距離計算を必要とするクエリに利用できるとのことです。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

クラスタ間データ共有機能の新しいパフォーマンス強化を発表

Redshift のデータ共有機能は、別々のRedshiftクラスター間でトランザクションに一貫性のあるライブデータを共有できる機能です。データのコピーやデータの移動に伴う管理などは不要です。今回の発表で、結果のキャッシュや同時実行スケーリングなどいくつかのパフォーマンス強化のための機能が追加されました。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

RA3 Reserved Instance 移行機能を提供開始

RAインスタンスは既存のインスタンスよりパフォーマンスが高く、AQUAなどの新しい機能が利用できるインスタンスです。対象となるDS2インスタンスのReserved Instance(RI)を購入している場合、等価なRA3インスタンスのRIに移行することができるとのことです。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

クロスリージョンデータ共有のお知らせ (プレビュー)

データ共有機能は既に同じAWS アカウント内およびアカウント間のクラスター間でデータを共有する機能は既に利用可能です。異なるAWS リージョンの Redshift クラスター間でのデータ共有がプレビューで利用可能になりました。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

Concurrency Scaling による書き込みクエリのプレビューを発表

Concurrency Scalingは、同時ユーザとクエリからの大量の要求を処理する必要があるときに、スケーリング用クラスタという一時的なキャパシティを追加することで、クエリ並列処理を実現できるものです。

これまでは参照クエリのみ対応していましたが、この発表でCOPY、INSERT、UPDATE、DELETE などの書き込みクエリについても実行できるようになったとのことです。
既にConcurrency Scaling を使用している場合は、この新しい機能が自動的にクラスターで有効になります。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

デフォルトの IAM ロールを導入することでその他の AWS のサービスの使用を簡素化

これまではS3、SageMaker、Lambda、Aurora、および Glueなどの関連サービスと連携する際にクラスターに対し、IAMを追加更新する必要がありました。今回のリリースで作成時にデフォルトのIAMロールが設定できるようになり、実行クエリにアタッチしたARNの指定をせずにDEFAULTキーワードで使用できるようになります。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

SQLAlchemy、Apache Airflow で利用するドライバが AWS 提供の Redshift Pythonドライバーになりました

これまでSQLAlchemy、Apache AirflowではRedshiftに接続するにはpsycopg2というPostgreSQL用のコネクタを利用していましたが、今回のリリースでAWSが提供するOSSであるRedshift Pythonドライバーを利用するようになりました。
Redshift固有のクエリの方言への対応、IAMやシングルサインオンが利用できるようになるとのことです。

より詳しく知りたい方は、以下の参考リンクもご覧ください。

Snowflakeのニュースまとめ

セッションポリシーがプレビュー

ブラウザなどでSnowflakeを開いて無操作で一定時間経過した場合にログアウトされるまでの時間を分単位で設定できるようになりました。

詳細はヘルプドキュメントをご覧ください。
https://docs.snowflake.com/ja/user-guide/session-policies.html

待機時間および同時実行性の改善がプレビュー

クエリの同時実行性能、レイテンシーが大幅に改善されました。なお、東京リージョンは未対応で、今後対応予定です。

詳細はリリースノートをご覧ください。
https://docs.snowflake.com/ja/release-notes/2021-11.html#latency-and-concurrency-improvements-preview

Lookerのニュースまとめ

今月は都合によりスキップ致しましたm(_ _)m

Googleデータポータルのニュースまとめ

レポートエディタに「データパネル」が追加

レポートエディタの右側にデータパネルが追加されました。
データパネルは画面で何も選択していない場合、常時表示されます。データパネルでは利用可能なすべてのフィールドが表示され、フィールド名を画面にドロップすることで新しいグラフを作成できます。

データポータルのプレビュー

参考:Google データポータル公式ドキュメント

ETLツール「TROCCO(トロッコ)」のニュースまとめ

対応データソース拡充

以下のコネクタ拡充に対応しました。

  • 転送元Apple Search Adsを追加
  • 転送元Google Cloud Spannerを追加
  • 転送元Hubspotの取得対象データ追加
  • 転送元SHANNON MARKETING PLATFORMを追加
  • 転送先Brazeを追加

データマート生成機能で「自由記述モード」のサポートが追加

BigQueryのデータマート生成機能に「自由記述モード」を追加しました。
これにより、SELECT文以外にもDDL文などを実行することが出来るようになりました。テーブルのスナップショットを取得するなど、ワークフローの柔軟性が大幅に向上しました。

自動データ設定時に任意のファイルを指定可能に

ファイル系の転送元にて、自動データ設定・カラム定義再読み込み・スキーマ変更検知に利用するファイルを手動で選択することが出来るようになりました。転送設定を作成するタイミングでは実データが準備できていない場合や、自動データ設定では正しくスキーマ情報を推論できなかった場合などで有効です。


以上、Data Engineering News 2021年9月アップデートまとめでした。

毎月更新でニュースをお届けしておりますので、ニュースの新着メール通知をご希望の方はこちらのフォームよりご登録ください。

こんなニュースを知りたい!というようなご意見・ご要望も著者Twitterアカウントまでお気軽にDM下さい!

hirokazu.kobayashi

慶應義塾大学卒業後、2014年より株式会社リブセンスへ入社。データエンジニアとして同社分析基盤立ち上げをリードする。2017年より現職primeNumberに入社。自社プロダクト「systemN」におけるSpark/Redshift活用等のデータエンジニアリング業務を行うかたわら、データ統合業務における工数削減が課題だと感じ、データ統合を自動化するサービス「TROCCO®」を立ち上げる。