これらのTreasure ワークフローの前提条件と制限事項を確認して、ワークフローで何ができて何ができないかを理解してください。
Treasure ワークフローの作成を開始する前に、Treasure Dataにデータベースとテーブルが必要です。
Treasure ワークフローはDigdagをベースにしていますが、以下の機能はサポートされていません:
td>オペレーターのdownload_fileパラメータによるクエリ結果のローカルダウンロード。代わりに、Treasure Dataの結果エクスポート機能を使用してください
sh>によるシェルスクリプトの実行
rb>によるrubyスクリプトの実行
embulk>による任意のEmbulkジョブの実行(ただし、Treasure Dataへのバルクデータのインポートにはtd_load>を使用できます)
emr>によるAmazon EMRジョブの実行
param_get>によるParamServerからの永続データの取得と、ストアパラメータの値としての設定
param_set>による値のParamServerへの永続データとしての設定
py>は、サポートされている唯一のカスタムスクリプトです。
Treasure ワークフローは、クラウドホスト環境でデータパイプラインを管理するためのスケーラブルで柔軟なソリューションを提供するように設計されています。
最適かつ公平な処理を確保するため、以下の制限があります:
アカウントごとに最大30タスクが同時に実行されます。その他のすべてのタスクはキューに入れられ、先着順で発行されます。
プロジェクトアーカイブの最大サイズは10MBです。
保存されたワークフローは12,000個まで。12,000個を超えると、Workflow UIですべてのワークフローが読み込まれません。ただし、CLI経由では引き続きアクセスできます。
1つのアテンプト内のタスクの最大総数は1,000です。
タスクのフルネームの最大長は640バイトです。
アカウントごとの最大アテンプト数(デフォルトプールの並行実行数の上限の初期値でもあります):
US - 200
Tokyo - 200
EU - 300
その他すべての地域 - 100
実行中のタスクが強制終了されるまでの期間は1日(24時間)です。
実行中のアテンプトが強制終了されるまでの期間は7日間です。
td>タスクの最大レスポンスサイズは4MBです。
http>タスクの最大レスポンスサイズは1MBです。
http_call>タスクの最大レスポンスサイズは4MBです。
py>タスク(カスタムスクリプト)の最大出力サイズは、エクスポートされた変数および生成されたタスクを含めて36MBです。
td_for_each>タスクの合計レスポンスサイズは16MBです。
ワークフロートリガーでは、同じ先行ワークフローに依存できる後続ワークフローの最大数は100です。
アカウントごとのプールの最大数(デフォルトプールを除く)は10です。
アカウントごとのプールルールの最大数は20です。
プールごとの待機中アテンプト数(実行を開始していないすべてのアテンプトが対象)の最大数は500です。
Treasure コンソールWorkflowのパフォーマンスを向上させるため、以下の制限内に収めるようにしてください:
保存されたワークフロー200個
ワークフロー内のタスク400個
これらの制限は、Treasure Dataの容量構成に変更がある場合、変更される可能性があります。