pyspark.pandas.DataFrame.select_dtypes¶

DataFrame。 select_dtypes ( 包括:聯盟(str,列表(str),沒有一個)=沒有一個,排除:聯盟(str,列表(str),沒有一個)=沒有一個 )→pyspark.pandas.frame.DataFrame¶

返回的一個子集DataFrame dtypes基於列的列。

參數

包括,排除 標量或類似: 選擇dtypes或字符串中包含/排除。必須提供至少一種參數。它還需要火花SQL DDL類型字符串,例如,“弦”和“日期”。

返回

DataFrame: 框架包括dtypes的子集包括不包括dtypes排除。

提出了

ValueError

如果這兩個包括和排除是空的

                 > > >df=ps。DataFrame({“一個”:(1,2]*3,…“b”:(真正的,假]*3,…“c”:(1.0,2.0]*3})> > >df。select_dtypes()回溯(最近的電話):…ValueError:至少一個包括或排除必須非空的
                

如果包括和排除有重疊的元素

                 > > >df=ps。DataFrame({“一個”:(1,2]*3,…“b”:(真正的,假]*3,…“c”:(1.0,2.0]*3})> > >df。select_dtypes(包括=“一個”,排除=“一個”)回溯(最近的電話):…ValueError:包括和排除重疊{a}
                

筆記

選擇日期時間,使用np.datetime64,“datetime”或“datetime64”

例子

           > > >df=ps。DataFrame({“一個”:(1,2]*3,…“b”:(真正的,假]*3,…“c”:(1.0,2.0]*3,…' d ':(“一個”,“b”]*3},列=(“一個”,“b”,“c”,' d '])> > >dfa b c d0 1真正的1.01 2假2.0 b2 1真正的1.03 2假2.0 b4 1真正的1.05 2假2.0 b
          

           > > >df。select_dtypes(包括=“bool”)b0真實1假2真3錯誤4真5假
          

           > > >df。select_dtypes(包括=(“float64”),排除=(“int”])c0 1.01 2.02 1.03 2.04 1.05 2.0
          

           > > >df。select_dtypes(包括=(“int”),排除=(“float64”])一個0 11 22 13 - 24個15個2
          

           > > >df。select_dtypes(排除=(“int”])b c d1.0 0真實1假2.0 b2真的1.03錯誤2.0 b4真正1.05假2.0 b
          

火花也可以使用SQL DDL類型字符串。

           > > >df。select_dtypes(排除=(“字符串”])a b c0 1真正的1.01 2假2.02 1真正的1.03 2假2.04 1真正的1.05 2假2.0
          

以前的

pyspark.pandas.DataFrame.size

下一個

pyspark.pandas.DataFrame.values