你好,
我想寫的內容dataframe拚花下麵的表使用命令。
df.write.mode(“覆蓋”).format(“鋪”).saveAsTable (“sample_parquet_table”)
dataframe包含一個提取從一個源係統,它正好是一個Postgres數據庫,並準備使用一個SQL語句。數據統計大約會在0.3記錄。目標表是拚花,我試過在覆蓋模式。
問題是,這種說法繼續運行,沒有進步,小時後自動會超時。作為我們的要求,我們最多能負擔得起~ 10分鍾把這寫進目標。
有辦法提高性能?或者至少明白問題出在哪裏?目標可以改變“三角洲”,如果需要也可以分區。
我要強烈推薦保存數據δ而不是拚花。在三角洲有許多額外的好處