pyspark.pandas.Series.duplicated¶
-
係列。
複製
( 保持:聯盟(bool,str]=“第一” )→pyspark.pandas.series.Series¶ -
顯示重複的係列值。
重複的值都顯示
真正的
值在生成的係列。所有副本,除了第一個或者除了可以表示過去發生的重複。- 參數
-
- 保持 {“第一”,“去年”,假},默認的“第一”
-
方法來處理標記重複:“第一”:重複標記為
真正的
除了第一次出現。——“最後”:馬克副本真正的
除了最後發生。- - - - - -假
:馬克所有的副本真正的
。
- 返回
-
- 係列
-
係列指示每個值是否發生在前麵的值
另請參閱
-
Index.drop_duplicates
-
從索引刪除重複的值。
-
DataFrame.duplicated
-
DataFrame上的等效方法。
-
Series.drop_duplicates
-
從係列刪除重複的值。
例子
默認情況下,每組重複的值,第一次出現是設置錯誤,其他真:
> > >動物=ps。係列([“喇嘛”,“牛”,“喇嘛”,“甲殼蟲”,“喇嘛”])> > >動物。複製()。sort_index()0錯誤1假2真3錯誤4真dtype: bool
相當於
> > >動物。複製(保持=“第一”)。sort_index()0錯誤1假2真3錯誤4真dtype: bool
通過使用“最後”,每組的最後發生重複的值設置錯誤,其他真:
> > >動物。複製(保持=“最後一次”)。sort_index()0真實1假2真3錯誤4錯誤dtype: bool
通過設置繼續
假
,所有的副本都是正確的:> > >動物。複製(保持=假)。sort_index()0真實1假2真3錯誤4真dtype: bool