取消
顯示的結果
而不是尋找
你的意思是:

δ表有130列花時間

發展
新的貢獻者三世

你好,

我們正麵臨一個un-usual問題而加載數據到三角洲表使用火花SQL。我們有一個差值表也有大約135列,在分區。這試圖加載15數以百萬計的數據量,但其不加載數據到三角洲表即使執行命令從去年5小時。還有一個表15列和數據量大約是25數以百萬計的正確處理和命令執行在5 - 10分鍾。誰能幫我來理解這個問題。

謝謝。

8回答說8

User16752247014
新的貢獻者二世

@rakesh賽,分區與medium-cardinality數據效果最好,> 100 gb的數據,任何不適合這兩個類別分區不會成為一個偉大的候選人。相反,你應該打電話優化使用z值,加速你的操作。我也建議你檢查文檔使用文件管理優化性能

發展
新的貢獻者三世

由於@George Chirapurath回複,

我們正麵臨這個問題,當我們第一次的數據加載到三角洲。

User16752239222
新的貢獻者二世
新的貢獻者二世

嗨@rakesh賽,因為你注意這是一個問題,當你加載三角洲,你能提供更詳細的源數據的類型你想要加載到三角洲,如數據格式(JSON、csv等)?通常,掛工作是由於讀取和轉換階段,不是寫階段。

為我們更好地協助其他有用的信息

  • 解釋計劃的一個屏幕快照和/或火花的DAG UI
  • 集群的一個屏幕快照指標,如在磚Ganglia UI。也許有一個內存或CPU瓶頸。
  • 火花集群的規格。節點類型,#的工人,等等。

Kaniz
社區經理
社區經理

嗨@rakesh賽,隻是一個友好的後續。你還需要幫助,或@Parker廟和@George Chirapurath’s反應幫助你找到解決方案了嗎?請讓我們知道。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map