你好,我是運行一個結構化流管道與圖案架構的工作。
在我的銀層,我們從青銅層使用結構化流,閱讀和寫作的流銀層w / foreachbatch函數做一些轉換和合並操作。此外,大約有60三角洲表正在處理這個流程,所以我們利用池和多線程並發地運行這些工作使用16核心的驅動程序在每個工人10 w / 4核。
目前銀層處理需要8分鍾,這比我們預計由於很多表0更新或插入。看著火花ui我注意到一個大的停機時間之間的大部分工作和其他工作。從下麵的截屏,它看起來像司機是做一些工作導致工作需要一個額外的4分鍾。我挖到這最後的工作是處理和什麼是少量的合並操作記錄(< 1000)到三角洲表(~ 16 gb),似乎經受住了那份工作。我們我們所有的銀層三角洲上運行優化+真空表。
希望有人有一些建議優化或可以給一些上下文司機做什麼完全在停機時間。
謝謝