pyspark.pandas.DataFrame.duplicated

DataFrame。 複製 ( 子集:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,保持:聯盟(bool,str]=“第一” )→係列

返回布爾係列表示重複的行,選擇隻考慮某些列。

參數
子集 列標簽或標簽序列,可選的

隻考慮某些列識別重複,在默認情況下使用的所有列

保持 {“第一”,“去年”,假},默認的“第一”
  • 第一個:重複標記為真正的除了第一次出現。

  • 去年:重複標記為真正的除了最後發生。

  • 錯誤的:馬克所有的副本真正的

返回
複製 係列

例子

> > >df=psDataFrame({“一個”:(1,1,1,3),“b”:(1,1,1,4),“c”:(1,1,1,5)},=(“一個”,“b”,“c”])> > >dfa b c0 1 1 11 1 1 12 1 1 13 3 4 5
> > >df複製()sort_index()0錯誤1真正的2真3錯誤dtype: bool

重複標記為真正的除了最後發生。

> > >df複製(保持=“最後一次”)sort_index()0真實1真正的2錯誤3錯誤dtype: bool

馬克所有的副本真正的

> > >df複製(保持=)sort_index()0真實1真正的2真3錯誤dtype: bool