取消
顯示的結果
而不是尋找
你的意思是:

性能增強,寫作dataframes到拚花表中

森
新的因素

你好,

我想寫的內容dataframe拚花下麵的表使用命令。

df.write.mode(“覆蓋”).format(“鋪”).saveAsTable (“sample_parquet_table”)

dataframe包含一個提取從一個源係統,它正好是一個Postgres數據庫,並準備使用一個SQL語句。數據統計大約會在0.3記錄。目標表是拚花,我試過在覆蓋模式。

問題是,這種說法繼續運行,沒有進步,小時後自動會超時。作為我們的要求,我們最多能負擔得起~ 10分鍾把這寫進目標。

有辦法提高性能?或者至少明白問題出在哪裏?目標可以改變“三角洲”,如果需要也可以分區。

3回複3

mk1987c
新的貢獻者三世

我認為您可以創建分區和存儲使用Zorderδ表和優化表,

我可以知道你的集群配置嗎?

我要強烈推薦保存數據δ而不是拚花。在三角洲有許多額外的好處

Vidula_Khanna
主持人
主持人

嗨森@Souradipta

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map