pyspark.pandas.Series.drop_duplicates

係列。 drop_duplicates ( 保持:聯盟(bool,str]=“第一”,原地:bool= )→可選(pyspark.pandas.series.Series]

返回刪除了重複的值。

參數
保持 {“第一”,“去年”,},默認的“第一次”

方法來處理刪除重複:“第一”:副本除了第一次出現下降。——“最後”:副本除了最後出現下降。- - - - - -:刪除所有副本。

原地 bool,默認

如果真正的原地,執行操作並返回None。

返回
係列

係列副本。

例子

生成一係列重複的條目。

> > >年代=ps係列([“喇嘛”,“牛”,“喇嘛”,“甲殼蟲”,“喇嘛”,“河馬”),的名字=“動物”)> > >年代sort_index()0喇嘛1頭牛2喇嘛3甲蟲4喇嘛5河馬名稱:動物,dtype:對象

“保持”參數,選擇重複的值,可以改變的行為。值“第一次”,讓每個組的第一次出現重複的條目。保持默認值是“第一次”。

> > >年代drop_duplicates()sort_index()0喇嘛1頭牛3甲蟲5河馬名稱:動物,dtype:對象

“去年”參數值“保持”讓每組的最後發生重複的條目。

> > >年代drop_duplicates(保持=“最後一次”)sort_index()1頭牛3甲蟲4喇嘛5河馬名稱:動物,dtype:對象

的值參數“保持”丟棄所有組重複條目。設置“原地”的價值真正的原地並返回執行操作沒有一個

> > >年代drop_duplicates(保持=,原地=真正的)> > >年代sort_index()1頭牛3甲蟲5河馬名稱:動物,dtype:對象