pyspark.pandas.DataFrame.drop_duplicates

DataFrame。 drop_duplicates ( 子集:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,保持:聯盟(bool,str]=“第一”,原地:bool=,ignore_index:bool= )→可選(pyspark.pandas.frame.DataFrame]

返回DataFrame刪除重複的行,選擇隻考慮某些列。

參數
子集 列標簽或標簽序列,可選的

隻考慮某些列識別重複,在默認情況下使用的所有列。

保持 {“第一”,“去年”,假},默認的“第一”

確定哪些副本(如果有的話)。- - - - - -第一個:副本除了第一次出現下降。- - - - - -去年:副本除了最後出現下降。假:刪除所有副本。

原地 布爾,默認的錯誤

是否放棄副本或返回一個副本。

ignore_index 布爾,默認的錯誤

如果情況屬實,由此產生的軸將被標記為0,1,…,n - 1。

返回
DataFrame

DataFrame刪除重複的或沒有原地= True

> > >df=psDataFrame(. .
…{a:(1、2、2、2、3), b: [' a ', ' ', ' ', ' c ', ' d ']},列= [a, b])
> > >df一個b
0 1
1 2
2 - 2
3 2攝氏度
4三維
> > >dfdrop_duplicates()sort_index()一個b
0 1
1 2
3 2攝氏度
4三維
> > >dfdrop_duplicates(ignore_index=真正的)sort_index()一個b
0 1
1 2
2 2攝氏度
3三維
> > >dfdrop_duplicates(“一個”)sort_index()一個b
0 1
1 2
4三維
> > >dfdrop_duplicates([“一個”,“b”])sort_index()一個b
0 1
1 2
3 2攝氏度
4三維
> > >dfdrop_duplicates(保持=“最後一次”)sort_index()一個b
0 1
2 - 2
3 2攝氏度
4三維
> > >dfdrop_duplicates(保持=)sort_index()一個b
0 1
3 2攝氏度
4三維