Re:三角洲表有130列花時間-磚- 22996

發展 · ‎04-12-2022

你好,

我們正麵臨一個un-usual問題而加載數據到三角洲表使用火花SQL。我們有一個差值表也有大約135列,在分區。這試圖加載15數以百萬計的數據量,但其不加載數據到三角洲表即使執行命令從去年5小時。還有一個表15列和數據量大約是25數以百萬計的正確處理和命令執行在5 - 10分鍾。誰能幫我來理解這個問題。

謝謝。

User16752247014 · ‎04-13-2022

@rakesh賽,分區與medium-cardinality數據效果最好,> 100 gb的數據,任何不適合這兩個類別分區不會成為一個偉大的候選人。相反,你應該打電話優化使用z值,加速你的操作。我也建議你檢查文檔使用文件管理優化性能。

發展 · ‎04-14-2022

由於@George Chirapurath回複,

我們正麵臨這個問題,當我們第一次的數據加載到三角洲。

User16752239222 · ‎04-15-2022

嗨@rakesh賽,因為你注意這是一個問題,當你加載成三角洲,你能提供更詳細的源數據的類型你想要加載到三角洲,如數據格式(JSON、csv等)?通常,掛工作是由於讀取和轉換階段,不是寫階段。

為我們更好地協助其他有用的信息

解釋計劃的一個屏幕快照和/或火花的DAG UI
集群的一個屏幕快照指標,如在磚Ganglia UI。也許有一個內存或CPU瓶頸。
火花集群的規格。節點類型,#的工人,等等。

Kaniz · ‎04-26-2022

嗨@rakesh賽,隻是一個友好的後續。你還需要幫助,或@Parker廟和@George Chirapurath’s反應幫助你找到解決方案了嗎?請讓我們知道。

磚

δ表有130列花時間