它通常是一個或多個下列原因:
1)如果你是湧向一個表,你應該使用.Trigger選項來指定檢查點的頻率。否則,這項工作將調用存儲API每10毫秒事務日誌數據。會爆炸的成本甚至沒有數據,快速。
2)如果你是聚合數據,分區數量越高導致更高的檢查點的數據,由於數據是每個分區的檢查點。設置sql.shuffle。分區理想情況下工人的數量
3)當δ確保delta.autoOptimize寫作。optimizeWrite = true
減少文件編寫(沒有低延遲的用例),而寫信給三角洲,我們“列表”事務日誌和“把”每sql.shuffle 1文件。每1分區表分區的文件夾然後1把每個事務日誌。例如,如果目標表分區按日期和我們今天得到插入和更新持續9天,所以共有10個表分區如果sql.shuffle的影響。分區= 200 / microbatch /觸發我們至少有2000 API調用
4)盡量不要u se顯示()函數。檢查點文件被創建,但並沒有被刪除。
您可以驗證問題,方法是導航到根目錄並查看
/ local_disk0 / tmp /文件夾。檢查點文件保留在文件夾中。