pyspark.pandas.Series.drop_duplicates¶

係列。 drop_duplicates ( 保持:聯盟(bool,str]=“第一”,原地:bool=假 )→可選(pyspark.pandas.series.Series] ¶

返回刪除了重複的值。

參數

保持 {“第一”,“去年”,假},默認的“第一次”: 方法來處理刪除重複:“第一”:副本除了第一次出現下降。——“最後”:副本除了最後出現下降。- - - - - -假:刪除所有副本。
原地 bool,默認假: 如果真正的原地,執行操作並返回None。

返回

例子

生成一係列重複的條目。

           > > >年代=ps。係列([“喇嘛”,“牛”,“喇嘛”,“甲殼蟲”,“喇嘛”,“河馬”),…的名字=“動物”)> > >年代。sort_index()0喇嘛1頭牛2喇嘛3甲蟲4喇嘛5河馬名稱:動物,dtype:對象
          

“保持”參數,選擇重複的值,可以改變的行為。值“第一次”,讓每個組的第一次出現重複的條目。保持默認值是“第一次”。

           > > >年代。drop_duplicates()。sort_index()0喇嘛1頭牛3甲蟲5河馬名稱:動物,dtype:對象
          

“去年”參數值“保持”讓每組的最後發生重複的條目。

           > > >年代。drop_duplicates(保持=“最後一次”)。sort_index()1頭牛3甲蟲4喇嘛5河馬名稱:動物,dtype:對象
          

的值假參數“保持”丟棄所有組重複條目。設置“原地”的價值真正的原地並返回執行操作沒有一個。

           > > >年代。drop_duplicates(保持=假,原地=真正的)> > >年代。sort_index()1頭牛3甲蟲5河馬名稱:動物,dtype:對象
          

以前的

pyspark.pandas.Series.droplevel

下一個

pyspark.pandas.Series.duplicated