pyspark.sql.DataFrame.dropDuplicates¶
-
DataFrame。
dropDuplicates
( 子集:可選(列表(str]]=沒有一個 )→pyspark.sql.dataframe.DataFrame¶ -
返回一個新的
DataFrame
刪除重複的行,選擇隻考慮某些列。對於靜態批
DataFrame
,它隻是重複的行。對於一個流DataFrame
在觸發器,它將保持所有數據作為中間狀態下降重複行。您可以使用withWatermark ()
限製多晚重複數據可以和相應的係統將限製狀態。此外,太晚了以上數據水印將降至避免任何重複的可能性。drop_duplicates ()
是一個別名dropDuplicates ()
。例子
> > >從pyspark.sql進口行> > >df=sc。並行化([\…行(的名字=“愛麗絲”,年齡=5,高度=80年),\…行(的名字=“愛麗絲”,年齡=5,高度=80年),\…行(的名字=“愛麗絲”,年齡=10,高度=80年)))。toDF()> > >df。dropDuplicates()。顯示()+ - - - + - - - + - - - +|名稱| | |時代高度+ - - - + - - - + - - - +愛麗絲| | 5 | 80 |愛麗絲| | 80 | |+ - - - + - - - + - - - +
> > >df。dropDuplicates([“名字”,“高度”])。顯示()+ - - - + - - - + - - - +|名稱| | |時代高度+ - - - + - - - + - - - +愛麗絲| | 5 | 80 |+ - - - + - - - + - - - +