pyspark.pandas.Series.duplicated¶

係列。 複製 ( 保持:聯盟(bool,str]=“第一” )→pyspark.pandas.series.Series¶

顯示重複的係列值。

重複的值都顯示真正的值在生成的係列。所有副本,除了第一個或者除了可以表示過去發生的重複。

參數

保持 {“第一”,“去年”,假},默認的“第一”: 方法來處理標記重複:“第一”:重複標記為真正的除了第一次出現。——“最後”:馬克副本真正的除了最後發生。- - - - - -假:馬克所有的副本真正的。

返回

另請參閱

例子

默認情況下,每組重複的值,第一次出現是設置錯誤,其他真:

           > > >動物=ps。係列([“喇嘛”,“牛”,“喇嘛”,“甲殼蟲”,“喇嘛”])> > >動物。複製()。sort_index()0錯誤1假2真3錯誤4真dtype: bool
          

相當於

           > > >動物。複製(保持=“第一”)。sort_index()0錯誤1假2真3錯誤4真dtype: bool
          

通過使用“最後”,每組的最後發生重複的值設置錯誤,其他真:

           > > >動物。複製(保持=“最後一次”)。sort_index()0真實1假2真3錯誤4錯誤dtype: bool
          

通過設置繼續假,所有的副本都是正確的:

           > > >動物。複製(保持=假)。sort_index()0真實1假2真3錯誤4真dtype: bool
          

以前的

pyspark.pandas.Series.drop_duplicates

下一個

pyspark.pandas.Series.equals