pyspark.pandas.DataFrame.select_dtypes¶
-
DataFrame。
select_dtypes
( 包括:聯盟(str,列表(str),沒有一個)=沒有一個,排除:聯盟(str,列表(str),沒有一個)=沒有一個 )→pyspark.pandas.frame.DataFrame¶ -
返回的一個子集DataFrame dtypes基於列的列。
- 參數
-
- 包括,排除 標量或類似
-
選擇dtypes或字符串中包含/排除。必須提供至少一種參數。它還需要火花SQL DDL類型字符串,例如,“弦”和“日期”。
- 返回
-
- DataFrame
-
框架包括dtypes的子集
包括
不包括dtypes排除
。
- 提出了
-
- ValueError
-
如果這兩個
包括
和排除
是空的> > >df=ps。DataFrame({“一個”:(1,2]*3,…“b”:(真正的,假]*3,…“c”:(1.0,2.0]*3})> > >df。select_dtypes()回溯(最近的電話):…ValueError:至少一個包括或排除必須非空的
如果
包括
和排除
有重疊的元素> > >df=ps。DataFrame({“一個”:(1,2]*3,…“b”:(真正的,假]*3,…“c”:(1.0,2.0]*3})> > >df。select_dtypes(包括=“一個”,排除=“一個”)回溯(最近的電話):…ValueError:包括和排除重疊{a}
筆記
選擇日期時間,使用
np.datetime64
,“datetime”
或“datetime64”
例子
> > >df=ps。DataFrame({“一個”:(1,2]*3,…“b”:(真正的,假]*3,…“c”:(1.0,2.0]*3,…' d ':(“一個”,“b”]*3},列=(“一個”,“b”,“c”,' d '])> > >dfa b c d0 1真正的1.01 2假2.0 b2 1真正的1.03 2假2.0 b4 1真正的1.05 2假2.0 b
> > >df。select_dtypes(包括=“bool”)b0真實1假2真3錯誤4真5假
> > >df。select_dtypes(包括=(“float64”),排除=(“int”])c0 1.01 2.02 1.03 2.04 1.05 2.0
> > >df。select_dtypes(包括=(“int”),排除=(“float64”])一個0 11 22 13 - 24個15個2
> > >df。select_dtypes(排除=(“int”])b c d1.0 0真實1假2.0 b2真的1.03錯誤2.0 b4真正1.05假2.0 b
火花也可以使用SQL DDL類型字符串。
> > >df。select_dtypes(排除=(“字符串”])a b c0 1真正的1.01 2假2.02 1真正的1.03 2假2.04 1真正的1.05 2假2.0