04-12-2022十一25點
你好,
我們正麵臨一個un-usual問題而加載數據到三角洲表使用火花SQL。我們有一個差值表也有大約135列,在分區。這試圖加載15數以百萬計的數據量,但其不加載數據到三角洲表即使執行命令從去年5小時。還有一個表15列和數據量大約是25數以百萬計的正確處理和命令執行在5 - 10分鍾。誰能幫我來理解這個問題。
謝謝。
04-26-202206:16我
嗨@Kaniz Fatma謝謝你的跟進。
是的,我仍然麵臨同樣的問題,@Parker寺廟我提到集群配置。e記憶,職工節點數量等我將嚐試升級亞行集群,然後方法將重新加載數據。目前正在使用的集群和16 gb的內存空間和3工人節點。
04-26-2022上午07:26
嗨@rakesh賽,謝謝你的回複。請保持更新,直到你找到最好的回答你的問題。記住,我們在這裏為你服務。
04-27-2022上午08:27
@Kaniz Fatma @Parker寺廟我找到其根源,因為序列化。我們使用UDF dataframe開一列,當我們試圖數據加載到三角洲表或寫數據到鋪文件我們麵臨序列化的問題。你能請幫助提供最佳方式為Scala中的UDF創建UDF或另一種方式,它應該有一個返回類型(一些例子)。
05-11-2022上午04:12
嗨@rakesh賽,謝謝你的更新。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。