04-12-2022十一25點
你好,
我們正麵臨一個un-usual問題而加載數據到三角洲表使用火花SQL。我們有一個差值表也有大約135列,在分區。這試圖加載15數以百萬計的數據量,但其不加載數據到三角洲表即使執行命令從去年5小時。還有一個表15列和數據量大約是25數以百萬計的正確處理和命令執行在5 - 10分鍾。誰能幫我來理解這個問題。
謝謝。
04-13-2022上午09:19
@rakesh賽,分區與medium-cardinality數據效果最好,> 100 gb的數據,任何不適合這兩個類別分區不會成為一個偉大的候選人。相反,你應該打電話優化使用z值,加速你的操作。我也建議你檢查文檔使用文件管理優化性能。
04-14-2022上午02:52
由於@George Chirapurath回複,
我們正麵臨這個問題,當我們第一次的數據加載到三角洲。
04-15-202204:10點
嗨@rakesh賽,因為你注意這是一個問題,當你加載成三角洲,你能提供更詳細的源數據的類型你想要加載到三角洲,如數據格式(JSON、csv等)?通常,掛工作是由於讀取和轉換階段,不是寫階段。
為我們更好地協助其他有用的信息
04-26-202203:47我
嗨@rakesh賽,隻是一個友好的後續。你還需要幫助,或@Parker廟和@George Chirapurath’s反應幫助你找到解決方案了嗎?請讓我們知道。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。