pyspark.sql.DataFrame.dropDuplicates¶

DataFrame。 dropDuplicates ( 子集:可選(列表(str]]=沒有一個 )→pyspark.sql.dataframe.DataFrame¶

返回一個新的DataFrame刪除重複的行,選擇隻考慮某些列。

對於靜態批DataFrame,它隻是重複的行。對於一個流DataFrame在觸發器,它將保持所有數據作為中間狀態下降重複行。您可以使用withWatermark ()限製多晚重複數據可以和相應的係統將限製狀態。此外,太晚了以上數據水印將降至避免任何重複的可能性。

drop_duplicates ()是一個別名dropDuplicates ()。

例子

           > > >從pyspark.sql進口行> > >df=sc。並行化([\…行(的名字=“愛麗絲”,年齡=5,高度=80年),\…行(的名字=“愛麗絲”,年齡=5,高度=80年),\…行(的名字=“愛麗絲”,年齡=10,高度=80年)))。toDF()> > >df。dropDuplicates()。顯示()+ - - - + - - - + - - - +|名稱| | |時代高度+ - - - + - - - + - - - +愛麗絲| | 5 | 80 |愛麗絲| | 80 | |+ - - - + - - - + - - - +
          

           > > >df。dropDuplicates([“名字”,“高度”])。顯示()+ - - - + - - - + - - - +|名稱| | |時代高度+ - - - + - - - + - - - +愛麗絲| | 5 | 80 |+ - - - + - - - + - - - +
          

以前的

pyspark.sql.DataFrame.drop

下一個

pyspark.sql.DataFrame.drop_duplicates