三角洲表有130列花時間頁2 -磚- 22996

發展 · ‎04-12-2022

你好,

我們正麵臨一個un-usual問題而加載數據到三角洲表使用火花SQL。我們有一個差值表也有大約135列,在分區。這試圖加載15數以百萬計的數據量,但其不加載數據到三角洲表即使執行命令從去年5小時。還有一個表15列和數據量大約是25數以百萬計的正確處理和命令執行在5 - 10分鍾。誰能幫我來理解這個問題。

謝謝。

發展 · ‎04-26-2022

嗨@Kaniz Fatma謝謝你的跟進。

是的,我仍然麵臨同樣的問題,@Parker寺廟我提到集群配置。e記憶,職工節點數量等我將嚐試升級亞行集群,然後方法將重新加載數據。目前正在使用的集群和16 gb的內存空間和3工人節點。

Kaniz · ‎04-26-2022

嗨@rakesh賽,謝謝你的回複。請保持更新,直到你找到最好的回答你的問題。記住,我們在這裏為你服務。

發展 · ‎04-27-2022

@Kaniz Fatma @Parker寺廟我找到其根源,因為序列化。我們使用UDF dataframe開一列,當我們試圖數據加載到三角洲表或寫數據到鋪文件我們麵臨序列化的問題。你能請幫助提供最佳方式為Scala中的UDF創建UDF或另一種方式,它應該有一個返回類型(一些例子)。

Kaniz · ‎05-11-2022

嗨@rakesh賽,謝謝你的更新。

磚

δ表有130列花時間