pyspark.pandas.melt

pyspark.pandas。 融化 ( 框架:pyspark.pandas.frame.DataFrame,id_vars:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,value_vars:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,var_name:聯盟(str,列表(str),沒有一個)=沒有一個,value_name:str=“價值” )→pyspark.pandas.frame.DataFrame

透視的DataFrame寬格式長格式,選擇離開標識符變量集。

這個函數是有用的按摩DataFrame格式在一個或多個列標識符變量(id_vars),而所有其他列,考慮測量變量(value_vars),是“透視”行軸,隻留下兩個non-identifier列,“變量”和“價值”。

參數
框架 DataFrame
id_vars 元組、列表或ndarray,可選的

列(s)作為標識符變量。

value_vars 元組、列表或ndarray,可選的

列(s)透視。如果不指定,不設置為使用所有列id_vars

var_name 標量,默認“變量”

名稱使用變量的列。如果沒有使用frame.columns.name或“變量”。

value_name 標量,默認的“價值”

使用“價值”列名稱。

返回
DataFrame

透視DataFrame。

例子

> > >df=psDataFrame({“一個”:{0:“一個”,1:“b”,2:“c”},“B”:{0:1,1:3,2:5},“C”:{0:2,1:4,2:6}},=(“一個”,“B”,“C”])> > >dfA B C0 1 21 b 3 42 c 5 6
> > >ps融化(df)變量值0一個1 B 12 C 23 b4 B 35 C 46 c7 B 58 C 6
> > >df融化(id_vars=“一個”)一個變量值0 B 11 C 22 b b 33 b C 44 c B 55 c c 6
> > >df融化(value_vars=“一個”)變量值0一個1一個b2 c
> > >ps融化(df,id_vars=(“一個”,“B”])B變量值0 1 C 21 b 3 C 42 c 5 c 6
> > >df融化(id_vars=(“一個”),value_vars=(“C”])一個變量值0 C 21 b C 42 c c 6

“變量”和“價值”的名字列可以定製:

> > >ps融化(df,id_vars=(“一個”),value_vars=(“B”),var_name=“myVarname”,value_name=“myValname”)一個myVarname myValname0 B 11 b b 32 c B 5