dataframe需要異常長時間保存為一個d…-磚- 17139

suresh1122 · ‎12-12-2022

我試圖拯救dataframe經過一係列的數據操作使用Udf函數差值表。我試著使用這個代碼

(

df

.write

.format(δ)

.mode(覆蓋)

.option (“overwriteSchema”,“真正的”)

.saveAsTable (“output_table”)

)

但這是超過2小時。所以我的dataframe轉換為sql當地臨時視圖,保存dfδ從臨時表視圖,這個工作的一個筆記本(14分鍾),但其他筆記本這也是花大約2小時寫三角洲表。不確定為什麼這些事情會發生在一個非常小的數據集。任何解決方案都是感激。

代碼:

df.createOrReplaceTempView (“sql_temp_view”)

%的sql

刪除表如果存在default.output_version_2;

創建表default.output_version_2

select * from sql_temp_view

UmaMahesh1 · ‎12-12-2022

您正在使用的集群配置是什麼?也被做過什麼樣的轉換創建最終dataframe越來越?

suresh1122 · ‎12-12-2022

這是集群配置和轉換數據清理使用過濾器和搜索操作使用字典

UmaMahesh1 · ‎12-12-2022

你能也給分區的df的數量嗎?

您可以使用df.rdd.getNumPartitions ()

suresh1122 · ‎12-12-2022

96個分區

磚