問題
默認支持auto-vacuum三角洲生活表。你設置一個增量表管道,但通知真空不是自動運行。
導致
示例配置
在這個例子中δ生活表管道JSON文件,有一個默認的標簽標識的配置為默認集群。這還應該包含一個維護標簽標識維護集群的配置。
自維護集群配置不存在,真空不自動運行。
AWS
{“集群”:[{“標簽”:“默認”,“node_type_id”:“c5.4xlarge”、“driver_node_type_id”:“c5.4xlarge”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。啟用“:”假“}”,aws_attributes”: {“instance_profile_arn”:“攻擊:aws:…”} } ] }刪除
Azure
{“集群”:[{“標簽”:“默認”,“node_type_id”:“Standard_D3_v2”、“driver_node_type_id”:“Standard_D3_v2”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。啟用“:”假“}}}刪除
GCP
{“集群”:[{“標簽”:“默認”,“node_type_id”:“n1-standard-4”、“driver_node_type_id”:“n1-standard-4”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。啟用“:”假“}}}刪除
解決方案
三角洲的配置維護集群生活表管道JSON文件。
你必須指定集群配置兩個不同的類型:
- 默認集群執行所有處理。
- 維護集群在日常運行維護任務。
每個集群使用標號字段標識。
維護集群是負責執行真空和其他維護任務。
AWS
{“集群”:[{“標簽”:“默認”,“node_type_id”:“<實例類型>”,“driver_node_type_id”:“<實例類型>”,“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。啟用“:”假“}”,aws_attributes”: {“instance_profile_arn”:“攻擊:aws:…”} }, { "label": "maintenance", "aws_attributes": { "instance_profile_arn": "arn:aws:..." } } ] }刪除
Azure
{“集群”:[{“標簽”:“默認”,“node_type_id”:“Standard_D3_v2”、“driver_node_type_id”:“Standard_D3_v2”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。啟用”:“false”}},{“標簽”:“維護”}]}刪除
GCP
{“集群”:[{“標簽”:“默認”,“node_type_id”:“n1-standard-4”、“driver_node_type_id”:“n1-standard-4”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。啟用”:“false”}},{“標簽”:“維護”}]}刪除