pyspark.pandas.Series.duplicated

係列。 複製 ( 保持:聯盟(bool,str]=“第一” )→pyspark.pandas.series.Series

顯示重複的係列值。

重複的值都顯示真正的值在生成的係列。所有副本,除了第一個或者除了可以表示過去發生的重複。

參數
保持 {“第一”,“去年”,假},默認的“第一”

方法來處理標記重複:“第一”:重複標記為真正的除了第一次出現。——“最後”:馬克副本真正的除了最後發生。- - - - - -:馬克所有的副本真正的

返回
係列

係列指示每個值是否發生在前麵的值

另請參閱

Index.drop_duplicates

從索引刪除重複的值。

DataFrame.duplicated

DataFrame上的等效方法。

Series.drop_duplicates

從係列刪除重複的值。

例子

默認情況下,每組重複的值,第一次出現是設置錯誤,其他真:

> > >動物=ps係列([“喇嘛”,“牛”,“喇嘛”,“甲殼蟲”,“喇嘛”])> > >動物複製()sort_index()0錯誤1假2真3錯誤4真dtype: bool

相當於

> > >動物複製(保持=“第一”)sort_index()0錯誤1假2真3錯誤4真dtype: bool

通過使用“最後”,每組的最後發生重複的值設置錯誤,其他真:

> > >動物複製(保持=“最後一次”)sort_index()0真實1假2真3錯誤4錯誤dtype: bool

通過設置繼續,所有的副本都是正確的:

> > >動物複製(保持=)sort_index()0真實1假2真3錯誤4真dtype: bool