pyspark.pandas.Series.drop_duplicates¶
-
係列。
drop_duplicates
( 保持:聯盟(bool,str]=“第一”,原地:bool=假 )→可選(pyspark.pandas.series.Series] ¶ -
返回刪除了重複的值。
- 參數
-
-
保持
{“第一”,“去年”,
假
},默認的“第一次” -
方法來處理刪除重複:“第一”:副本除了第一次出現下降。——“最後”:副本除了最後出現下降。- - - - - -
假
:刪除所有副本。 -
原地
bool,默認
假
-
如果
真正的
原地,執行操作並返回None。
-
保持
{“第一”,“去年”,
- 返回
-
- 係列
-
係列副本。
例子
生成一係列重複的條目。
> > >年代=ps。係列([“喇嘛”,“牛”,“喇嘛”,“甲殼蟲”,“喇嘛”,“河馬”),…的名字=“動物”)> > >年代。sort_index()0喇嘛1頭牛2喇嘛3甲蟲4喇嘛5河馬名稱:動物,dtype:對象
“保持”參數,選擇重複的值,可以改變的行為。值“第一次”,讓每個組的第一次出現重複的條目。保持默認值是“第一次”。
> > >年代。drop_duplicates()。sort_index()0喇嘛1頭牛3甲蟲5河馬名稱:動物,dtype:對象
“去年”參數值“保持”讓每組的最後發生重複的條目。
> > >年代。drop_duplicates(保持=“最後一次”)。sort_index()1頭牛3甲蟲4喇嘛5河馬名稱:動物,dtype:對象
的值
假
參數“保持”丟棄所有組重複條目。設置“原地”的價值真正的
原地並返回執行操作沒有一個
。> > >年代。drop_duplicates(保持=假,原地=真正的)> > >年代。sort_index()1頭牛3甲蟲5河馬名稱:動物,dtype:對象