我們適應多任務工作流dbx文檔的例子為我們的管道https://dbx.readthedocs.io/en/latest/examples/python_multitask_deployment_example.html。的配置我們指定集群配置和提供job_cluster_key
。問題:它縫,如果連續工作在工作流使用相同的集群,它不是就業之間的重用,但重新創建。有辦法集群配置,重用嗎?
任務在同一多任務工作可以重用集群。共享工作集群允許多個任務在同一工作使用集群。創建集群,開始當第一個任務使用集群的開始和終止使用集群完成最後一個任務後。
參考:https://docs.www.eheci.com/workflows/jobs/jobs-api-updates.html
示例API載荷:
{“job_id”: 123456789,“creator_user_name”:“(電子郵件保護)”、“run_as_user_name”:“(電子郵件保護)”、“run_as_owner”:真的,“設置”:{“名稱”:“太工作”、“email_notifications”: {“no_alert_for_skipped_runs”:假},“timeout_seconds”: 0,“max_concurrent_runs”: 1、“任務”:[{“task_key”:“task1”、“notebook_task”: {“notebook_path”:“/用戶/(電子郵件保護)/測試”、“源”:“工作區”},“job_cluster_key”:“Shared_job_cluster”、“timeout_seconds email_notifications“: 0: {}}, {“task_key”:“task2”、“depends_on”: [{“task_key”:“task1”}],“notebook_task”: {“notebook_path”:“/用戶/(電子郵件保護)/測試”、“源”:“工作區”},“job_cluster_key”:“Shared_job_cluster”、“timeout_seconds”: 0,”email_notifications ": {}}], job_clusters”: [{“job_cluster_key”:“Shared_job_cluster”、“new_cluster”: {“cluster_name”:“”,“spark_version”:“10.4.x-scala2.12”、“spark_conf”: {“spark.databricks.delta.preview.enabled”:“true”},“azure_attributes”: {“first_on_demand”: 1、“可用性”:“ON_DEMAND_AZURE”、“spot_bid_max_price”: 1},“node_type_id”:“Standard_DS3_v2”、“spark_env_vars”: {“PYSPARK_PYTHON”:“磚/ python3 / bin / python3”},“enable_elastic_disk”:真的,“runtime_engine”:“標準”、“num_workers”: 1}}],“格式”:“MULTI_TASK created_time“},: 1660842831328}
任務在同一多任務工作可以重用集群。共享工作集群允許多個任務在同一工作使用集群。創建集群,開始當第一個任務使用集群的開始和終止使用集群完成最後一個任務後。
參考:https://docs.www.eheci.com/workflows/jobs/jobs-api-updates.html
示例API載荷:
{“job_id”: 123456789,“creator_user_name”:“(電子郵件保護)”、“run_as_user_name”:“(電子郵件保護)”、“run_as_owner”:真的,“設置”:{“名稱”:“太工作”、“email_notifications”: {“no_alert_for_skipped_runs”:假},“timeout_seconds”: 0,“max_concurrent_runs”: 1、“任務”:[{“task_key”:“task1”、“notebook_task”: {“notebook_path”:“/用戶/(電子郵件保護)/測試”、“源”:“工作區”},“job_cluster_key”:“Shared_job_cluster”、“timeout_seconds email_notifications“: 0: {}}, {“task_key”:“task2”、“depends_on”: [{“task_key”:“task1”}],“notebook_task”: {“notebook_path”:“/用戶/(電子郵件保護)/測試”、“源”:“工作區”},“job_cluster_key”:“Shared_job_cluster”、“timeout_seconds”: 0,”email_notifications ": {}}], job_clusters”: [{“job_cluster_key”:“Shared_job_cluster”、“new_cluster”: {“cluster_name”:“”,“spark_version”:“10.4.x-scala2.12”、“spark_conf”: {“spark.databricks.delta.preview.enabled”:“true”},“azure_attributes”: {“first_on_demand”: 1、“可用性”:“ON_DEMAND_AZURE”、“spot_bid_max_price”: 1},“node_type_id”:“Standard_DS3_v2”、“spark_env_vars”: {“PYSPARK_PYTHON”:“磚/ python3 / bin / python3”},“enable_elastic_disk”:真的,“runtime_engine”:“標準”、“num_workers”: 1}}],“格式”:“MULTI_TASK created_time“},: 1660842831328}