三角洲生活表自動真空管道沒有運行

你必須有一個維護集群定義為真空自動運行。

寫的priyanka.biswas

去年發表在:2023年2月2日

問題

默認支持auto-vacuum三角洲生活表。你設置一個增量表管道,但通知真空不是自動運行。

導致

δ生活表管道需要一個單獨的維護集群配置(AWS|Azure|GCP),確保管道內設置真空自動運行。如果沒有指定維護集群內的管道JSON文件或者維護集群沒有訪問您的存儲位置,然後真空不運行。

示例配置

在這個例子中δ生活表管道JSON文件,有一個默認的標簽標識的配置為默認集群。這還應該包含一個維護標簽標識維護集群的配置。

自維護集群配置不存在,真空不自動運行。

AWS

{“集群”:[{“標簽”:“默認”,“node_type_id”:“c5.4xlarge”、“driver_node_type_id”:“c5.4xlarge”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。啟用“:”假“}”,aws_attributes”: {“instance_profile_arn”:“攻擊:aws:…”} } ] }
刪除

Azure

{“集群”:[{“標簽”:“默認”,“node_type_id”:“Standard_D3_v2”、“driver_node_type_id”:“Standard_D3_v2”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。啟用“:”假“}}}
刪除

GCP

{“集群”:[{“標簽”:“默認”,“node_type_id”:“n1-standard-4”、“driver_node_type_id”:“n1-standard-4”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。啟用“:”假“}}}
刪除

解決方案

三角洲的配置維護集群生活表管道JSON文件。

你必須指定集群配置兩個不同的類型:

  • 默認集群執行所有處理。
  • 維護集群在日常運行維護任務。

每個集群使用標號字段標識。

維護集群是負責執行真空和其他維護任務。

AWS

{“集群”:[{“標簽”:“默認”,“node_type_id”:“<實例類型>”,“driver_node_type_id”:“<實例類型>”,“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。啟用“:”假“}”,aws_attributes”: {“instance_profile_arn”:“攻擊:aws:…”} }, { "label": "maintenance", "aws_attributes": { "instance_profile_arn": "arn:aws:..." } } ] }
刪除

信息

如果維護集群需要訪問存儲配置文件通過一個實例,您需要指定它instance_profile_arn

刪除

Azure

{“集群”:[{“標簽”:“默認”,“node_type_id”:“Standard_D3_v2”、“driver_node_type_id”:“Standard_D3_v2”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。啟用”:“false”}},{“標簽”:“維護”}]}
刪除

信息

如果你需要使用Azure存儲憑證湖透傳數據,或另一個配置訪問你的存儲位置,指定它的默認集群和維護集群。

刪除

GCP

{“集群”:[{“標簽”:“默認”,“node_type_id”:“n1-standard-4”、“driver_node_type_id”:“n1-standard-4”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。啟用”:“false”}},{“標簽”:“維護”}]}
刪除

信息

當使用集群政策配置三角洲集群生活表,你應該應用一個策略默認和維護集群。

刪除


這篇文章有用嗎?