pyspark.pandas.DataFrame.drop_duplicates¶
-
DataFrame。
drop_duplicates
( 子集:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,保持:聯盟(bool,str]=“第一”,原地:bool=假,ignore_index:bool=假 )→可選(pyspark.pandas.frame.DataFrame] ¶ -
返回DataFrame刪除重複的行,選擇隻考慮某些列。
- 參數
-
- 子集 列標簽或標簽序列,可選的
-
隻考慮某些列識別重複,在默認情況下使用的所有列。
- 保持 {“第一”,“去年”,假},默認的“第一”
-
確定哪些副本(如果有的話)。- - - - - -
第一個
:副本除了第一次出現下降。- - - - - -去年
:副本除了最後出現下降。假:刪除所有副本。 - 原地 布爾,默認的錯誤
-
是否放棄副本或返回一個副本。
- ignore_index 布爾,默認的錯誤
-
如果情況屬實,由此產生的軸將被標記為0,1,…,n - 1。
- 返回
-
- DataFrame
-
DataFrame刪除重複的或沒有
原地= True
。
> > >df=ps。DataFrame(. .
- …{a:(1、2、2、2、3), b: [' a ', ' ', ' ', ' c ', ' d ']},列= [a, b])
> > >df一個b
- 0 1
- 1 2
- 2 - 2
- 3 2攝氏度
- 4三維
> > >df。drop_duplicates()。sort_index()一個b
- 0 1
- 1 2
- 3 2攝氏度
- 4三維
> > >df。drop_duplicates(ignore_index=真正的)。sort_index()一個b
- 0 1
- 1 2
- 2 2攝氏度
- 3三維
> > >df。drop_duplicates(“一個”)。sort_index()一個b
- 0 1
- 1 2
- 4三維
> > >df。drop_duplicates([“一個”,“b”])。sort_index()一個b
- 0 1
- 1 2
- 3 2攝氏度
- 4三維
> > >df。drop_duplicates(保持=“最後一次”)。sort_index()一個b
- 0 1
- 2 - 2
- 3 2攝氏度
- 4三維
> > >df。drop_duplicates(保持=假)。sort_index()一個b
- 0 1
- 3 2攝氏度
- 4三維