05-16-202306:10我
deltaTable.dropDuplicates(列)將是一個非常好的特性,簡化了複雜的程序,提出在線。
還是我錯過任何現有的程序可以做到withouth合並操作或類似的嗎?
05-16-202302:43點
我創建了一個特性請求三角洲表中的項目:(特性請求)重複數據刪除現有表·問題# 1767·delta-io /δ(github ....
在原帖子查看解決方案
05-16-202314分
是很有幫助的。目前,最好的方法就是讀表dataframe和使用Pyspark dropDuplicates ()。
#加載表df = spark.table (yourtable) #刪除重複的基於Id和名稱列df = df。dropDuplicates ([" Id ", "名稱"])#覆蓋的原始表結果dataframe df.write.mode .saveAsTable(“覆蓋”)(“yourtable”)
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。