pyspark.pandas.DataFrame.select_dtypes

DataFrame。 select_dtypes ( 包括:聯盟(str,列表(str),沒有一個)=沒有一個,排除:聯盟(str,列表(str),沒有一個)=沒有一個 )→pyspark.pandas.frame.DataFrame

返回的一個子集DataFrame dtypes基於列的列。

參數
包括,排除 標量或類似

選擇dtypes或字符串中包含/排除。必須提供至少一種參數。它還需要火花SQL DDL類型字符串,例如,“弦”和“日期”。

返回
DataFrame

框架包括dtypes的子集包括不包括dtypes排除

提出了
ValueError
  • 如果這兩個包括排除是空的

    > > >df=psDataFrame({“一個”:(1,2]*3,“b”:(真正的,]*3,“c”:(1.0,2.0]*3})> > >dfselect_dtypes()回溯(最近的電話):ValueError:至少一個包括或排除必須非空的
  • 如果包括排除有重疊的元素

    > > >df=psDataFrame({“一個”:(1,2]*3,“b”:(真正的,]*3,“c”:(1.0,2.0]*3})> > >dfselect_dtypes(包括=“一個”,排除=“一個”)回溯(最近的電話):ValueError:包括和排除重疊{a}

筆記

  • 選擇日期時間,使用np.datetime64,“datetime”“datetime64”

例子

> > >df=psDataFrame({“一個”:(1,2]*3,“b”:(真正的,]*3,“c”:(1.0,2.0]*3,' d ':(“一個”,“b”]*3},=(“一個”,“b”,“c”,' d '])> > >dfa b c d0 1真正的1.01 2假2.0 b2 1真正的1.03 2假2.0 b4 1真正的1.05 2假2.0 b
> > >dfselect_dtypes(包括=“bool”)b0真實1假2真3錯誤4真5假
> > >dfselect_dtypes(包括=(“float64”),排除=(“int”])c0 1.01 2.02 1.03 2.04 1.05 2.0
> > >dfselect_dtypes(包括=(“int”),排除=(“float64”])一個0 11 22 13 - 24個15個2
> > >dfselect_dtypes(排除=(“int”])b c d1.0 0真實1假2.0 b2真的1.03錯誤2.0 b4真正1.05假2.0 b

火花也可以使用SQL DDL類型字符串。

> > >dfselect_dtypes(排除=(“字符串”])a b c0 1真正的1.01 2假2.02 1真正的1.03 2假2.04 1真正的1.05 2假2.0