pyspark.pandas.merge

pyspark.pandas。 合並 ( obj:pyspark.pandas.frame.DataFrame,正確的:pyspark.pandas.frame.DataFrame,如何:str=“內心”,:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,left_on:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,right_on:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,left_index:bool=,right_index:bool=,後綴:元組(str,str]=“值”、“_y嗎” )→pyspark.pandas.frame.DataFrame

合並DataFrame對象數據庫樣式加入。

產生的索引DataFrame將下列之一:
  • 0…n如果沒有索引用於合並

  • 左邊DataFrame指數如果合並隻DataFrame指數的權利

  • 正確的DataFrame如果指數隻剩下的指數DataFrame合並

  • 所有涉及到兩DataFrames指標如果合並使用指標

    例如,如果與指數(a, x)正確的與指數(b, x),結果將是一個索引(x, a, b)

參數
右:對象合並。
如何:類型的合並。

{“左”,“對”,“外”,“內部”},默認“內心”

左:隻使用鍵從左框架,類似於SQL左外連接;保護關鍵

秩序。

右:隻使用鑰匙從右框架,類似於SQL右外連接;保護關鍵

秩序。

外:使用的鍵從框架,類似於SQL全外連接;排序鍵

字典順序來排序的。

內部:使用的鍵從框架,類似於SQL內連接;

保留左邊的鍵的順序。

:列或索引級別的名字加入。這些DataFrames必須找到。如果在

沒有和不合並索引那麼這個默認DataFrames列的交叉點。

left_on:列或索引級別名稱在左邊DataFrame加入。也可以

是一個數組或列表的數組的長度DataFrame離開了。這些數組被視為如果他們列。

right_on:列或索引級別的名字加入正確的DataFrame。也可以

是一個數組或列表的數組的長度對DataFrame。這些數組被視為如果他們列。

從左邊left_index:使用索引DataFrame連接鍵(s)。如果它是一個

MultiIndex,鑰匙在其他DataFrame(索引或列數)必須匹配的數量水平。

從右邊right_index:使用索引DataFrame連接鍵。相同的警告

left_index。

後綴:後綴申請重疊的列名在左邊,右邊,

分別。

返回
DataFrame

一個DataFrame合並的兩個對象。

筆記

# 263,所述連接字符串列目前返回沒有缺失值

而不是南。

例子

> > >df1=psDataFrame({“lkey”:(“foo”,“酒吧”,“記者”,“foo”),“價值”:(1,2,3,5)},=(“lkey”,“價值”])> > >df2=psDataFrame({“rkey”:(“foo”,“酒吧”,“記者”,“foo”),“價值”:(5,6,7,8)},=(“rkey”,“價值”])> > >df1lkey價值0 foo 11條22巴茲33 foo 5> > >df2rkey價值0 foo 51條62巴茲73 foo 8

合並df1和df2 lkey和rkey列。列值默認後綴,_x _y嗎,附加。

> > >合並後的=ps合並(df1,df2,left_on=“lkey”,right_on=“rkey”)> > >合並後的sort_values(通過=(“lkey”,“value_x”,“rkey”,“value_y”])lkey value_x rkey value_y…酒吧2條6…巴茲3巴茲7…foo 1 foo 5…foo 1 foo 8…foo 5 foo 5…foo 5 foo 8
> > >left_psdf=psDataFrame({“一個”:(1,2]})> > >right_psdf=psDataFrame({“B”:(“x”,“y”)},指數=(1,2])
> > >ps合並(left_psdf,right_psdf,left_index=真正的,right_index=真正的)sort_index()一個B1 2 x
> > >ps合並(left_psdf,right_psdf,left_index=真正的,right_index=真正的,如何=“左”)sort_index()一個B0 1沒有1 2 x
> > >ps合並(left_psdf,right_psdf,left_index=真正的,right_index=真正的,如何=“對”)sort_index()一個B1 2.0 x2南y
> > >ps合並(left_psdf,right_psdf,left_index=真正的,right_index=真正的,如何=“外”)sort_index()一個B0 1.0沒有1 2.0 x2南y