pyspark.pandas.DataFrame.drop_duplicates¶

DataFrame。 drop_duplicates ( 子集:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,保持:聯盟(bool,str]=“第一”,原地:bool=假,ignore_index:bool=假 )→可選(pyspark.pandas.frame.DataFrame] ¶

返回DataFrame刪除重複的行,選擇隻考慮某些列。

參數

子集列標簽或標簽序列,可選的: 隻考慮某些列識別重複,在默認情況下使用的所有列。
保持 {“第一”,“去年”,假},默認的“第一”: 確定哪些副本(如果有的話)。- - - - - -第一個:副本除了第一次出現下降。- - - - - -去年:副本除了最後出現下降。假:刪除所有副本。
原地布爾,默認的錯誤: 是否放棄副本或返回一個副本。
ignore_index 布爾,默認的錯誤: 如果情況屬實,由此產生的軸將被標記為0,1,…,n - 1。

返回

DataFrame: DataFrame刪除重複的或沒有原地= True。

             > > >df=ps。DataFrame(. .
            

…{a:(1、2、2、2、3), b: [' a ', ' ', ' ', ' c ', ' d ']},列= [a, b])

             > > >df一個b
            

0 1
1 2
2 - 2
3 2攝氏度
4三維

             > > >df。drop_duplicates()。sort_index()一個b
            

0 1
1 2
3 2攝氏度
4三維

             > > >df。drop_duplicates(ignore_index=真正的)。sort_index()一個b
            

0 1
1 2
2 2攝氏度
3三維

             > > >df。drop_duplicates(“一個”)。sort_index()一個b
            

0 1
1 2
4三維

             > > >df。drop_duplicates([“一個”,“b”])。sort_index()一個b
            

0 1
1 2
3 2攝氏度
4三維

             > > >df。drop_duplicates(保持=“最後一次”)。sort_index()一個b
            

0 1
2 - 2
3 2攝氏度
4三維

             > > >df。drop_duplicates(保持=假)。sort_index()一個b
            

0 1
3 2攝氏度
4三維

以前的

pyspark.pandas.DataFrame.droplevel

下一個

pyspark.pandas.DataFrame.duplicated