pyspark.pandas.DataFrame.duplicated¶
-
DataFrame。
複製
( 子集:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,保持:聯盟(bool,str]=“第一” )→係列¶ -
返回布爾係列表示重複的行,選擇隻考慮某些列。
- 參數
-
- 子集 列標簽或標簽序列,可選的
-
隻考慮某些列識別重複,在默認情況下使用的所有列
- 保持 {“第一”,“去年”,假},默認的“第一”
-
第一個
:重複標記為真正的
除了第一次出現。去年
:重複標記為真正的
除了最後發生。錯誤的:馬克所有的副本
真正的
。
- 返回
-
- 複製 係列
例子
> > >df=ps。DataFrame({“一個”:(1,1,1,3),“b”:(1,1,1,4),“c”:(1,1,1,5)},…列=(“一個”,“b”,“c”])> > >dfa b c0 1 1 11 1 1 12 1 1 13 3 4 5
> > >df。複製()。sort_index()0錯誤1真正的2真3錯誤dtype: bool
重複標記為
真正的
除了最後發生。> > >df。複製(保持=“最後一次”)。sort_index()0真實1真正的2錯誤3錯誤dtype: bool
馬克所有的副本
真正的
。> > >df。複製(保持=假)。sort_index()0真實1真正的2真3錯誤dtype: bool