pyspark.sql.DataFrame.dropDuplicates

DataFrame。 dropDuplicates ( 子集:可選(列表(str]]=沒有一個 )→pyspark.sql.dataframe.DataFrame

返回一個新的DataFrame刪除重複的行,選擇隻考慮某些列。

對於靜態批DataFrame,它隻是重複的行。對於一個流DataFrame在觸發器,它將保持所有數據作為中間狀態下降重複行。您可以使用withWatermark ()限製多晚重複數據可以和相應的係統將限製狀態。此外,太晚了以上數據水印將降至避免任何重複的可能性。

drop_duplicates ()是一個別名dropDuplicates ()

例子

> > >pyspark.sql進口> > >df=sc並行化([\(的名字=“愛麗絲”,年齡=5,高度=80年),\(的名字=“愛麗絲”,年齡=5,高度=80年),\(的名字=“愛麗絲”,年齡=10,高度=80年)))toDF()> > >dfdropDuplicates()顯示()+ - - - + - - - + - - - +|名稱| | |時代高度+ - - - + - - - + - - - +愛麗絲| | 5 | 80 |愛麗絲| | 80 | |+ - - - + - - - + - - - +
> > >dfdropDuplicates([“名字”,“高度”])顯示()+ - - - + - - - + - - - +|名稱| | |時代高度+ - - - + - - - + - - - +愛麗絲| | 5 | 80 |+ - - - + - - - + - - - +