ワークフロー(ジョブ管理)とは?

ワークフロー(=ジョブ管理)とは、定期的に行うバッチ処理を管理する方法のことです。
データエンジニアリングにおいては、ETL処理などを決められた時間にキックし、実行状況を監視し、必要に応じて再実行を行ったり通知を行う処理全般のことを指します。
ETL処理は単発で終わらず、後続のETL処理が続く「数珠つなぎ状態」になることがほとんどです。このような複雑なETLパイプラインに対応するため、ワークフローの機能として「依存関係の定義」をGUI上から行えることがほとんどです。

以下、ワークフローで複数のETLパイプラインを数珠つなぎにして実行しているイメージです。

上記のワークフローは「trocco(トロッコ)」というSaaS型サービスで実現しています。
troccoではジョブ管理・ワークフロー管理を実現する機能が揃っており、ETLパイプラインの依存関係を定義したり、Tableauなどのデータ分析ツールとの連携がシームレスに行えます。
詳しい機能や連携サービスは公式サイトで確認してみてください。今なら無料トライアルも実施しています。

trocco公式サイト

troccoではデータエンジニアに有益な情報を定期的に発信しています。ぜひTwitterも見てみてください。

trocco Twitter