pyspark.sql.DataFrame.join

DataFrame。 加入 ( 其他:pyspark.sql.dataframe.DataFrame,:聯盟(str、列表(str) pyspark.sql.column。列,[pyspark.sql.column列表。列),沒有一個)=沒有一個,如何:可選(str]=沒有一個 )→pyspark.sql.dataframe.DataFrame

連接與另一個DataFrame,使用給定的連接表達式。

參數
其他 DataFrame

右邊的加入

str,列表或、可選

一個字符串連接列的名稱,一個列名列表,連接表達式(列),或列的列表。如果是一個字符串或一個字符串列表,顯示連接列的名稱(s),列(s)雙方必須存在,這執行等值連接。

如何 str,可選

默認的內心的。必須的:內心的,交叉,,完整的,fullouter,full_outer,,leftouter,left_outer,正確的,rightouter,right_outer,,leftsemi,left_semi,,leftantileft_anti

例子

以下執行之間的完全外連接df1df2

> > >pyspark.sql.functions進口desc> > >df加入(df2,df的名字= =df2的名字,“外”)選擇(df的名字,df2高度)排序(desc(“名稱”))收集()[行(name =“鮑勃”,身高= 85)、行(name =“愛麗絲”,身高= None)、行(name = None,身高= 80)]
> > >df加入(df2,“名字”,“外”)選擇(“名字”,“高度”)排序(desc(“名稱”))收集()行(name =‘湯姆’,身高= 80)、行(name =“鮑勃”,身高= 85)、行(name =“愛麗絲”,身高= None))
> > >氣孔導度=(df的名字= =df3的名字,df年齡= =df3年齡]> > >df加入(df3,氣孔導度,“外”)選擇(df的名字,df3年齡)收集()行(name =“愛麗絲”,年齡= 2),行(name =“鮑勃”、年齡= 5)]
> > >df加入(df2,“名字”)選擇(df的名字,df2高度)收集()行(name =“鮑勃”,身高= 85)]
> > >df加入(df4,(“名字”,“年齡”])選擇(df的名字,df年齡)收集()行(name =“鮑勃”,年齡= 5)]