pyspark.pandas.DataFrame.duplicated¶

DataFrame。 複製 ( 子集:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,保持:聯盟(bool,str]=“第一” )→係列¶

返回布爾係列表示重複的行,選擇隻考慮某些列。

參數

子集列標簽或標簽序列,可選的

隻考慮某些列識別重複,在默認情況下使用的所有列

保持 {“第一”,“去年”,假},默認的“第一”

返回

例子

           > > >df=ps。DataFrame({“一個”:(1,1,1,3),“b”:(1,1,1,4),“c”:(1,1,1,5)},…列=(“一個”,“b”,“c”])> > >dfa b c0 1 1 11 1 1 12 1 1 13 3 4 5
          

           > > >df。複製()。sort_index()0錯誤1真正的2真3錯誤dtype: bool
          

重複標記為真正的除了最後發生。

           > > >df。複製(保持=“最後一次”)。sort_index()0真實1真正的2錯誤3錯誤dtype: bool
          

馬克所有的副本真正的。

           > > >df。複製(保持=假)。sort_index()0真實1真正的2真3錯誤dtype: bool
          

以前的

pyspark.pandas.DataFrame.drop_duplicates

下一個

pyspark.pandas.DataFrame.equals