pyspark.pandas.get_dummies¶
-
pyspark.pandas。
get_dummies
( 數據:聯盟(pyspark.pandas.frame.DataFrame,pyspark.pandas.series.Series],前綴:聯盟(str、列表(str) Dict (str, str),沒有一個)=沒有一個,prefix_sep:str=“_”,dummy_na:bool=假,列:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,稀疏的:bool=假,drop_first:bool=假,dtype:聯盟(str, numpy。dtype,pandas.core.dtypes.base.ExtensionDtype, None]=沒有一個 )→pyspark.pandas.frame.DataFrame¶ -
類別變量轉換成虛擬/指標變量,也被稱為一個炎熱的編碼。
- 參數
-
- 數據 數組類、係列或DataFrame
- 前綴 字符串,字符串,列表或dict字符串,默認沒有
-
字符串附加DataFrame列名。通過列表的長度等於列數當調用get_dummies DataFrame。另外,前綴可以是一個字典映射列名稱前綴。
- prefix_sep 字符串,默認“_”
-
如果附加前綴,分離器/分隔符使用。或通過一個列表或字典前綴。
- dummy_na bool,默認的錯誤
-
添加一個列表示nan,如果假nan被忽略。
- 列 類似列表,默認沒有
-
列名的DataFrame編碼。如果列是沒有那麼所有列對象或類別dtype將轉換。
- 稀疏的 bool,默認的錯誤
-
dummy-encoded列是否應該被支持
SparseArray
(真正的)或定期NumPy數組(False)。在pandas-on-Spark,這個值必須“False”。 - drop_first bool,默認的錯誤
-
是否得到的k - 1假人k分類通過刪除第一級水平。
- dtype dtype、默認np.uint8
-
新列的數據類型。隻有一個dtype是被允許的。
- 返回
-
- 假人 DataFrame
例子
> > >年代=ps。係列(列表(abca的))
> > >ps。get_dummies(年代)a b c0 1 0 01 0 1 02 0 0 13 1 0 0
> > >df=ps。DataFrame({“一個”:(“一個”,“b”,“一個”),“B”:(“b”,“一個”,“c”),…“C”:(1,2,3)},…列=(“一個”,“B”,“C”])
> > >ps。get_dummies(df,前綴=(“col1”,“col2”])C col1_a col1_b col2_a col2_b col2_c0 1 1 0 0 1 01 2 0 1 1 0 02 3 1 0 0 0 1
> > >ps。get_dummies(ps。係列(列表(“abcaa”)))a b c0 1 0 01 0 1 02 0 0 13 1 0 04 1 0 0
> > >ps。get_dummies(ps。係列(列表(“abcaa”)),drop_first=真正的)b c0 0 01 1 02 0 13 0 04 0 0
> > >ps。get_dummies(ps。係列(列表(“abc”)),dtype=浮動)a b c0 1.0 0.0 0.01 0.0 1.0 0.02 0.0 0.0 1.0