pyspark.pandas.get_dummies

pyspark.pandas。 get_dummies ( 數據:聯盟(pyspark.pandas.frame.DataFrame,pyspark.pandas.series.Series],前綴:聯盟(str、列表(str) Dict (str, str),沒有一個)=沒有一個,prefix_sep:str=“_”,dummy_na:bool=,:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,稀疏的:bool=,drop_first:bool=,dtype:聯盟(str, numpy。dtype,pandas.core.dtypes.base.ExtensionDtype, None]=沒有一個 )→pyspark.pandas.frame.DataFrame

類別變量轉換成虛擬/指標變量,也被稱為一個炎熱的編碼。

參數
數據 數組類、係列或DataFrame
前綴 字符串,字符串,列表或dict字符串,默認沒有

字符串附加DataFrame列名。通過列表的長度等於列數當調用get_dummies DataFrame。另外,前綴可以是一個字典映射列名稱前綴。

prefix_sep 字符串,默認“_”

如果附加前綴,分離器/分隔符使用。或通過一個列表或字典前綴。

dummy_na bool,默認的錯誤

添加一個列表示nan,如果假nan被忽略。

類似列表,默認沒有

列名的DataFrame編碼。如果是沒有那麼所有列對象類別dtype將轉換。

稀疏的 bool,默認的錯誤

dummy-encoded列是否應該被支持SparseArray(真正的)或定期NumPy數組(False)。在pandas-on-Spark,這個值必須“False”。

drop_first bool,默認的錯誤

是否得到的k - 1假人k分類通過刪除第一級水平。

dtype dtype、默認np.uint8

新列的數據類型。隻有一個dtype是被允許的。

返回
假人 DataFrame

另請參閱

Series.str.get_dummies

例子

> > >年代=ps係列(列表(abca的))
> > >psget_dummies(年代)a b c0 1 0 01 0 1 02 0 0 13 1 0 0
> > >df=psDataFrame({“一個”:(“一個”,“b”,“一個”),“B”:(“b”,“一個”,“c”),“C”:(1,2,3)},=(“一個”,“B”,“C”])
> > >psget_dummies(df,前綴=(“col1”,“col2”])C col1_a col1_b col2_a col2_b col2_c0 1 1 0 0 1 01 2 0 1 1 0 02 3 1 0 0 0 1
> > >psget_dummies(ps係列(列表(“abcaa”)))a b c0 1 0 01 0 1 02 0 0 13 1 0 04 1 0 0
> > >psget_dummies(ps係列(列表(“abcaa”)),drop_first=真正的)b c0 0 01 1 02 0 13 0 04 0 0
> > >psget_dummies(ps係列(列表(“abc”)),dtype=浮動)a b c0 1.0 0.0 0.01 0.0 1.0 0.02 0.0 0.0 1.0