pyspark.sql.DataFrame.join¶

DataFrame。 加入 ( 其他:pyspark.sql.dataframe.DataFrame,在:聯盟(str、列表(str) pyspark.sql.column。列,[pyspark.sql.column列表。列),沒有一個)=沒有一個,如何:可選(str]=沒有一個 )→pyspark.sql.dataframe.DataFrame¶

連接與另一個DataFrame,使用給定的連接表達式。

參數

其他 DataFrame: 右邊的加入
在 str,列表或列、可選: 一個字符串連接列的名稱,一個列名列表,連接表達式(列),或列的列表。如果在是一個字符串或一個字符串列表,顯示連接列的名稱(s),列(s)雙方必須存在,這執行等值連接。
如何 str,可選: 默認的內心的。必須的:內心的,交叉,外,完整的,fullouter,full_outer,左,leftouter,left_outer,正確的,rightouter,right_outer,半,leftsemi,left_semi,反,leftanti和left_anti。

例子

以下執行之間的完全外連接df1和df2。

           > > >從pyspark.sql.functions進口desc> > >df。加入(df2,df。的名字= =df2。的名字,“外”)。選擇(df。的名字,df2。高度)。排序(desc(“名稱”))。收集()[行(name =“鮑勃”,身高= 85)、行(name =“愛麗絲”,身高= None)、行(name = None,身高= 80)]
          

           > > >df。加入(df2,“名字”,“外”)。選擇(“名字”,“高度”)。排序(desc(“名稱”))。收集()行(name =‘湯姆’,身高= 80)、行(name =“鮑勃”,身高= 85)、行(name =“愛麗絲”,身高= None))
          

           > > >氣孔導度=(df。的名字= =df3。的名字,df。年齡= =df3。年齡]> > >df。加入(df3,氣孔導度,“外”)。選擇(df。的名字,df3。年齡)。收集()行(name =“愛麗絲”,年齡= 2),行(name =“鮑勃”、年齡= 5)]
          

           > > >df。加入(df2,“名字”)。選擇(df。的名字,df2。高度)。收集()行(name =“鮑勃”,身高= 85)]
          

           > > >df。加入(df4,(“名字”,“年齡”])。選擇(df。的名字,df。年齡)。收集()行(name =“鮑勃”,年齡= 5)]
          

以前的

pyspark.sql.DataFrame.isStreaming

下一個

pyspark.sql.DataFrame.limit