プログラミングETL機能をリリース

好きな言語でETLを実装できる「プログラミングETL」機能をリリースいたしました。
troccoのデータ転送の最中に、Ruby, Pythonでデータ変換処理などが実行できます。

詳しくは以下のデモ動画を御覧くださいませ。
※オプション機能となりますので、ご利用をご希望の方は専任の営業担当者までご連絡下さい

対応データソースに関するアップデート

1. 転送元AWS Cost Explorerに正式対応

転送元にAWS Cost Explorerを指定して、データ転送が行えるようになりました。

AWSの料金のモニタリング・分析にお使いいただけます。

2. 転送元Shopifyに正式対応

転送元にShopifyを指定して、データ転送が行えるようになりました。

ECプラットフォームShopify上にあるproduct/customer/orderに関するデータを転送することが出来ます。ECサイトの分析にお使いいただけます。

詳しくはドキュメントページもご参照下さい。

3. 転送元Salesforce Reportに正式対応

転送元Salesforce Reportを指定して、データ転送が行えるようになりました。
既存の転送元SalesforceではSalesforce上の各種オブジェクトを転送することが出来ましたが、今回の対応により、Salesforce上のレポートも転送可能になりました。
営業チームが作った独自のレポート情報をDWHに転送する用途などでお使いいただけます。

詳しくはドキュメントページをご参照ください。

4. 転送先Googleスプレッドシートに正式対応

転送先にGoogleスプレッドシートを指定して、データ転送が行えるようになりました。

DWHではなく、スプレッドシートに出力してデータ共有する場合などにお使いいただけます。

詳しくはドキュメントページをご参照ください。

5. 転送元PostgreSQLでCDC方式の転送に正式対応

転送元にPostgreSQLを指定して、CDC(変更データキャプチャ)方式でのデータ転送が行えるようになりました。

Embulk転送の場合、UPDATE/DELETEやALTERコマンドが発生するテーブルは「全件転送」を行う必要があり、容量が大きなテーブルの転送が非効率・高負荷という弱点がありました。

今回新たに「CDC(Change Data Capture = 変更データキャプチャ)転送」が追加されたことにより、初回のみ全件転送、それ以後は差分転送で対応出来るようになります。(内部的にはWrite Ahead Loggingを利用しています)
そのため容量が大きなテーブルでも効率的に、比較的低い負荷で変更追従することが出来るようになります。

6. 転送元Boxに正式対応

転送元にBoxを指定してデータ転送が行えるようになりました。

クラウドファイル共有サービス上にあるCSVファイルなどを分析に使用する際などにお使いいただけます。

7. 転送元Facebook Adsクリエイティブに正式対応

転送元にFacebook Ads クリエイティブを指定してデータ転送が行えるようになりました。

Facebookに出稿中の広告クリエイティブの分析などにお使いいただけます。

8. その他アップデート
  • 転送元eセールスマネージャーに正式対応

  • 転送元Hubspotで差分更新と全オブジェクトタイプ取得をサポート

  • 転送先S3で、出力ファイル数を抑制して転送する機能を追加

  • 転送先Google広告オフラインコンバージョンに正式対応

  • 転送先FacebookコンバージョンAPIに正式対応

  • 転送先FacebookオフラインコンバージョンAPIに正式対応

  • 転送元LINEで、カスタムコンバージョンのレポート取得に対応

  • 転送元Cisco AMPに正式対応

  • 転送元YDN・YSSのAPIをv4にアップデート

  • 転送元Google Analyticsで、View IDのサジェストに対応

  • 転送元Facebook Ads Insightsで、アカウントIDのサジェストに対応

ワークフロー機能のアップデート

1. 「trocco転送設定」タスクのループ実行に対応

ワークフローの「trocco転送設定」タイプのタスクについて、ループの実行が行えるようになりました。
対象の転送設定内でカスタム変数を用いて差分転送を行っている場合などで、過去データの取得が容易に行えるようになります。
現時点ではタイムスタンプ型・日付型・文字列型のカスタム変数のループ実行に対応し、また複数の変数を同時にループさせることが出来ます。

例として、以下はYahoo広告で前日分のデータを取得する転送設定を作成していて、その設定を用いて過去3年分のデータをループ実行で取得するワークフロータスク設定です。

最下部の「ループの並列実行」は、ループを複数の並列度で実行するオプションです。
例のように通常3年分のデータ取得を行うと膨大な時間がかかることが予想されるため、そういったケースでは並列実行をお試しください。

2. BigQueryクエリ実行結果に基づくループ実行に対応

上述のカスタム変数ループ実行において、BigQueryのクエリ結果に基づくループ実行ができるようになりました。
BigQuery上にある任意のリストを利用し、転送設定をループ実行させることが出来ます。
下の例の通り、ループ対象のカスタム変数は複数指定することが可能です。

UI/UXのアップデート

1. 転送設定の作成・編集時に「下書きモード」と「確認画面」が追加されました

転送設定を編集する際、今までは変更を保存すると同時に本番設定に変更内容が反映されていました。
今回のリリースにより「確認画面」が設定のSTEP3として新たに追加され、設定変更の最後に以下のように変更差分をご確認いただけるようになりました。
また、変更中の内容を一時的に保存(本番設定には適用されない)できる「下書きモード」も追加されたため、変更中になにかあっても安全に中断し、後で作業を再開することが出来るようになりました。

2. BigQueryテスト実行機能の追加

設定を作成・編集する際、BigQueryに一時テーブルを作成し、転送をテスト実行する機能が追加されました。
設定変更時に、BigQuery上にお試しで転送してみて、実データで変更内容を確認したい方におすすめです。
なお、テスト実行時に使用した一時テーブルは、変更の本番適用時に削除されますのでご安心ください。
転送設定編集画面のStep.3「確認・適用」にて、右上の「変更した設定でテスト実行」というリンクをクリックするとご利用いただけます。

オンプレエージェントのアップデート

1. オンプレエージェント機能が登場

今までtroccoでは、クラウド上にあるtrocco実行環境からデータを取ってくる方式のみに対応していました。そのため、オンプレミスなどの外部からアクセス出来ない環境に存在するデータを転送することが出来ませんでした。
今回のリリースにより、オンプレミス環境にtroccoのエージェントをインストールし、オンプレ内からクラウドにデータを転送する方式に対応しました。

現時点で対応しているのは以下の転送経路となります。

  • ローカルファイル → BigQuery
  • ローカルファイル → Google Cloud Storage
  • ローカルファイル → S3

こちらはオプション機能になりますので、お試しになりたい方は担当営業にご連絡くださいませ。

今回のリリース内容としては以上となります。


Happy Data Engineering!

投稿者

hirokazu.kobayashi
2021年5月27日