你好,
將新值附加到三角洲表後,我需要刪除重複的行。
使用PySpark刪除重複的行後,我覆蓋表(保持模式)。
我的問題是,我該怎麼做ZORDER嗎?
另一個問題,有另一種減少重複嗎?我試著減少重複使用SQL CTE,但沒有成功。(錯誤:刪除隻支持v2表。)
#添加新數據:data.write.mode(“追加”).format .saveAsTable(“δ”)(“table_name”) #讀表:df =火花。sql (f“SELECT * FROM {table_name}”) #降低重複:df = df。dropDuplicates ([“col1”、“col2”]) #重寫數據:df.write.format .mode(“δ”)(“覆蓋”)。選項(“overwriteSchema”,“假”).saveAsTable (f“{table_name}”)