取消
顯示的結果
而不是尋找
你的意思是:

為什麼我看到一個成本激增blob存儲賬戶(DBFS存儲、blob存儲…)我的結構流的工作嗎?

User16857281869
新的貢獻者二世

它通常是一個或多個下列原因:

1)如果你是湧向一個表,你應該使用.Trigger選項來指定檢查點的頻率。否則,這項工作將調用存儲API每10毫秒事務日誌數據。會爆炸的成本甚至沒有數據,快速。

2)如果你是聚合數據,分區數量越高導致更高的檢查點的數據,由於數據是每個分區的檢查點。設置sql.shuffle。分區理想情況下工人的數量

3)當δ確保delta.autoOptimize寫作。optimizeWrite = true

減少文件編寫(沒有低延遲的用例),而寫信給三角洲,我們“列表”事務日誌和“把”每sql.shuffle 1文件。每1分區表分區的文件夾然後1把每個事務日誌。例如,如果目標表分區按日期和我們今天得到插入和更新持續9天,所以共有10個表分區如果sql.shuffle的影響。分區= 200 / microbatch /觸發我們至少有2000 API調用

4)盡量不要u se顯示()函數。檢查點文件被創建,但並沒有被刪除。

您可以驗證問題,方法是導航到根目錄並查看

/ local_disk0 / tmp /文件夾。檢查點文件保留在文件夾中。

1接受解決方案

接受的解決方案

Hubert_Dudek1
尊敬的貢獻者三世
  • 請掛載存儲便宜(LRS)自定義安裝和設置檢查點,
  • 請定期清除數據,
  • 如果您使用的是forEac / forEatchBatchh流將節省每dataframe dbfs,
  • 請記住不要使用顯示()在生產中,
  • 如果在每GB存儲你不付最好使用“溢價”類存儲,因為它具有較高的比例每GB但更低的所有其他操作

在原帖子查看解決方案

1回複1

Hubert_Dudek1
尊敬的貢獻者三世
  • 請掛載存儲便宜(LRS)自定義安裝和設置檢查點,
  • 請定期清除數據,
  • 如果您使用的是forEac / forEatchBatchh流將節省每dataframe dbfs,
  • 請記住不要使用顯示()在生產中,
  • 如果在每GB存儲你不付最好使用“溢價”類存儲,因為它具有較高的比例每GB但更低的所有其他操作
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map