pyspark.pandas.concat

pyspark.pandas。 concat ( obj:列表(聯盟(pyspark.pandas.frame.DataFrame,pyspark.pandas.series.Series]],:聯盟(int,str]=0,加入:str=“外”,ignore_index:bool=,排序:bool= )→聯盟(pyspark.pandas.series.Series,pyspark.pandas.frame.DataFrame]

連接pandas-on-Spark物體沿著一個特定的軸與其他組可選邏輯沿軸。

參數
obj 一個係列或DataFrame序列

默默地任何對象都不會被刪除,除非他們都沒有在這種情況下,將會引發一個ValueError

{0 /“指數”,1 /“列”},默認為0

的軸連接。

加入 {“內”、“外”},默認“外”

如何處理索引在其他軸(或軸)。

ignore_index bool,默認的錯誤

如果這是真的,不使用索引值沿著連接軸。由此產生的軸將標記為0,…,n - 1所示。這是有用的,如果你是連接對象,連接軸沒有意義的索引信息。注意其他軸上的索引值仍然是受人尊敬的加入。

排序 bool,默認的錯誤

non-concatenation軸如果尚未一致。

返回
對象類型的obj

當連接所有係列沿著指數(軸= 0)係列返回。當obj包含至少一個DataFrame,一個DataFrame返回。當沿著列(軸= 1),連接DataFrame返回。

另請參閱

Series.append

連接係列。

DataFrame.join

加入DataFrames使用索引。

DataFrame.merge

合並DataFrames索引或列。

例子

> > >pyspark.pandas.config進口set_option,reset_option> > >set_option(“compute.ops_on_diff_frames”,真正的)

結合兩個係列

> > >s1=ps係列([“一個”,“b”])> > >s2=ps係列([“c”,' d '])> > >psconcat([s1,s2])0一個1 b0 c1 ddtype:對象

明確現有的指數和重置通過設置的結果ignore_index選項真正的

> > >psconcat([s1,s2),ignore_index=真正的)0一個1 b2攝氏度3 ddtype:對象

結合兩個DataFrame對象具有相同的列。

> > >df1=psDataFrame([[“一個”,1),(“b”,2]],=(“信”,“數量”])> > >df1字母數字0 11 b 2> > >df2=psDataFrame([[“c”,3),(' d ',4]],=(“信”,“數量”])> > >df2字母數字0 c 31 d 4
> > >psconcat([df1,df2])字母數字0 11 b 20 c 31 d 4

結合DataFrame係列對象與不同的列。

> > >psconcat([df2,s1])字母數字00 c 3.0沒有1 d 4.0沒有0沒有南1沒有南b

結合DataFrame對象並返回所有重疊的列。列外的路口將滿沒有一個值。

> > >df3=psDataFrame([[“c”,3,“貓”),(' d ',4,“狗”]],=(“信”,“數量”,“動物”])> > >df3信動物數量0 c 3隻貓1 d 4隻狗
> > >psconcat([df1,df3])信動物數量0 1沒有1 b 2沒有0 c 3隻貓1 d 4隻狗

對列進行排序。

> > >psconcat([df1,df3),排序=真正的)動物信號碼0沒有11沒有一個b 20貓c 31狗d 4

結合DataFrame對象重疊的列,隻返回那些通過共享內心的加入關鍵字參數。

> > >psconcat([df1,df3),加入=“內心”)字母數字0 11 b 20 c 31 d 4
> > >df4=psDataFrame([[“鳥”,“波利”),(“猴子”,“喬治”]],=(“動物”,“名字”])

結合柱軸。

> > >psconcat([df1,df4),=1)信號動物名稱0 1波利鳥1 b 2隻猴子喬治
> > >reset_option(“compute.ops_on_diff_frames”)