pyspark.pandas.concat¶
-
pyspark.pandas。
concat
( obj:列表(聯盟(pyspark.pandas.frame.DataFrame,pyspark.pandas.series.Series]],軸:聯盟(int,str]=0,加入:str=“外”,ignore_index:bool=假,排序:bool=假 )→聯盟(pyspark.pandas.series.Series,pyspark.pandas.frame.DataFrame] ¶ -
連接pandas-on-Spark物體沿著一個特定的軸與其他組可選邏輯沿軸。
- 參數
-
- obj 一個係列或DataFrame序列
-
默默地任何對象都不會被刪除,除非他們都沒有在這種情況下,將會引發一個ValueError
- 軸 {0 /“指數”,1 /“列”},默認為0
-
的軸連接。
- 加入 {“內”、“外”},默認“外”
-
如何處理索引在其他軸(或軸)。
- ignore_index bool,默認的錯誤
-
如果這是真的,不使用索引值沿著連接軸。由此產生的軸將標記為0,…,n - 1所示。這是有用的,如果你是連接對象,連接軸沒有意義的索引信息。注意其他軸上的索引值仍然是受人尊敬的加入。
- 排序 bool,默認的錯誤
-
non-concatenation軸如果尚未一致。
- 返回
-
- 對象類型的obj
-
當連接所有
係列
沿著指數(軸= 0)係列
返回。當obj
包含至少一個DataFrame
,一個DataFrame
返回。當沿著列(軸= 1),連接DataFrame
返回。
另請參閱
-
Series.append
-
連接係列。
-
DataFrame.join
-
加入DataFrames使用索引。
-
DataFrame.merge
-
合並DataFrames索引或列。
例子
> > >從pyspark.pandas.config進口set_option,reset_option> > >set_option(“compute.ops_on_diff_frames”,真正的)
結合兩個
係列
。> > >s1=ps。係列([“一個”,“b”])> > >s2=ps。係列([“c”,' d '])> > >ps。concat([s1,s2])0一個1 b0 c1 ddtype:對象
明確現有的指數和重置通過設置的結果
ignore_index
選項真正的
。> > >ps。concat([s1,s2),ignore_index=真正的)0一個1 b2攝氏度3 ddtype:對象
結合兩個
DataFrame
對象具有相同的列。> > >df1=ps。DataFrame([[“一個”,1),(“b”,2]],…列=(“信”,“數量”])> > >df1字母數字0 11 b 2> > >df2=ps。DataFrame([[“c”,3),(' d ',4]],…列=(“信”,“數量”])> > >df2字母數字0 c 31 d 4
> > >ps。concat([df1,df2])字母數字0 11 b 20 c 31 d 4
結合
DataFrame
和係列
對象與不同的列。> > >ps。concat([df2,s1])字母數字00 c 3.0沒有1 d 4.0沒有0沒有南1沒有南b
結合
DataFrame
對象並返回所有重疊的列。列外的路口將滿沒有一個
值。> > >df3=ps。DataFrame([[“c”,3,“貓”),(' d ',4,“狗”]],…列=(“信”,“數量”,“動物”])> > >df3信動物數量0 c 3隻貓1 d 4隻狗
> > >ps。concat([df1,df3])信動物數量0 1沒有1 b 2沒有0 c 3隻貓1 d 4隻狗
對列進行排序。
> > >ps。concat([df1,df3),排序=真正的)動物信號碼0沒有11沒有一個b 20貓c 31狗d 4
結合
DataFrame
對象重疊的列,隻返回那些通過共享內心的
到加入
關鍵字參數。> > >ps。concat([df1,df3),加入=“內心”)字母數字0 11 b 20 c 31 d 4
> > >df4=ps。DataFrame([[“鳥”,“波利”),(“猴子”,“喬治”]],…列=(“動物”,“名字”])
結合柱軸。
> > >ps。concat([df1,df4),軸=1)信號動物名稱0 1波利鳥1 b 2隻猴子喬治
> > >reset_option(“compute.ops_on_diff_frames”)