pyspark.pandas.merge¶

pyspark.pandas。 合並 ( obj:pyspark.pandas.frame.DataFrame,正確的:pyspark.pandas.frame.DataFrame,如何:str=“內心”,在:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,left_on:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,right_on:聯盟(任何元組(,…),列表(聯盟[任何元組[,…]]],沒有)=沒有一個,left_index:bool=假,right_index:bool=假,後綴:元組(str,str]=“值”、“_y嗎” )→pyspark.pandas.frame.DataFrame¶

合並DataFrame對象數據庫樣式加入。

產生的索引DataFrame將下列之一:

0…n如果沒有索引用於合並
左邊DataFrame指數如果合並隻DataFrame指數的權利
正確的DataFrame如果指數隻剩下的指數DataFrame合並
所有涉及到兩DataFrames指標如果合並使用指標

例如,如果左與指數(a, x)正確的與指數(b, x),結果將是一個索引(x, a, b)

參數

右:對象合並。

如何:類型的合並。

{“左”,“對”,“外”,“內部”},默認“內心”

左:隻使用鍵從左框架,類似於SQL左外連接;保護關鍵: 秩序。
右:隻使用鑰匙從右框架,類似於SQL右外連接;保護關鍵: 秩序。
外:使用的鍵從框架,類似於SQL全外連接;排序鍵: 字典順序來排序的。
內部:使用的鍵從框架,類似於SQL內連接;: 保留左邊的鍵的順序。

:列或索引級別的名字加入。這些DataFrames必須找到。如果在

沒有和不合並索引那麼這個默認DataFrames列的交叉點。

left_on:列或索引級別名稱在左邊DataFrame加入。也可以

是一個數組或列表的數組的長度DataFrame離開了。這些數組被視為如果他們列。

right_on:列或索引級別的名字加入正確的DataFrame。也可以

是一個數組或列表的數組的長度對DataFrame。這些數組被視為如果他們列。

從左邊left_index:使用索引DataFrame連接鍵(s)。如果它是一個

MultiIndex,鑰匙在其他DataFrame(索引或列數)必須匹配的數量水平。

從右邊right_index:使用索引DataFrame連接鍵。相同的警告

left_index。

後綴:後綴申請重疊的列名在左邊,右邊,

分別。

返回

DataFrame: 一個DataFrame合並的兩個對象。

筆記

# 263,所述連接字符串列目前返回沒有缺失值: 而不是南。

例子

           > > >df1=ps。DataFrame({“lkey”:(“foo”,“酒吧”,“記者”,“foo”),…“價值”:(1,2,3,5)},…列=(“lkey”,“價值”])> > >df2=ps。DataFrame({“rkey”:(“foo”,“酒吧”,“記者”,“foo”),…“價值”:(5,6,7,8)},…列=(“rkey”,“價值”])> > >df1lkey價值0 foo 11條22巴茲33 foo 5> > >df2rkey價值0 foo 51條62巴茲73 foo 8
          

合並df1和df2 lkey和rkey列。列值默認後綴,_x _y嗎,附加。

           > > >合並後的=ps。合並(df1,df2,left_on=“lkey”,right_on=“rkey”)> > >合並後的。sort_values(通過=(“lkey”,“value_x”,“rkey”,“value_y”])lkey value_x rkey value_y…酒吧2條6…巴茲3巴茲7…foo 1 foo 5…foo 1 foo 8…foo 5 foo 5…foo 5 foo 8
          

           > > >left_psdf=ps。DataFrame({“一個”:(1,2]})> > >right_psdf=ps。DataFrame({“B”:(“x”,“y”)},指數=(1,2])
          

           > > >ps。合並(left_psdf,right_psdf,left_index=真正的,right_index=真正的)。sort_index()一個B1 2 x
          

           > > >ps。合並(left_psdf,right_psdf,left_index=真正的,right_index=真正的,如何=“左”)。sort_index()一個B0 1沒有1 2 x
          

           > > >ps。合並(left_psdf,right_psdf,left_index=真正的,right_index=真正的,如何=“對”)。sort_index()一個B1 2.0 x2南y
          

           > > >ps。合並(left_psdf,right_psdf,left_index=真正的,right_index=真正的,如何=“外”)。sort_index()一個B0 1.0沒有1 2.0 x2南y
          

以前的

pyspark.pandas.melt

下一個

pyspark.pandas.merge_asof