pyspark.sql.DataFrame.unionByName

DataFrame。 unionByName ( 其他:pyspark.sql.dataframe.DataFrame,allowMissingColumns:bool= )→pyspark.sql.dataframe.DataFrame

返回一個新的DataFrame在這個和另一個包含的行DataFrame

這是不同的UNION ALL結合不同的在SQL。做一組sql風格聯盟(元素),重複數據刪除技術,緊隨其後的是使用這個函數不同的()

例子

這個函數和之間的區別聯盟()這個函數是解決列的名字(而不是位置):

> > >df1=火花createDataFrame([[1,2,3]],(“col0”,“col1”,“col2”])> > >df2=火花createDataFrame([[4,5,6]],(“col1”,“col2”,“col0”])> > >df1unionByName(df2)顯示()+ - - - + - - - + - - - +| col0 | col1 | col2 |+ - - - + - - - + - - - +| 1 | 2 | 3 || 6 | 4 | 5 |+ - - - + - - - + - - - +

當參數allowMissingColumns真正的,在這個和其他列名的集合DataFrame可以不同;丟失的列會充滿null。此外,失蹤的列DataFrame最後將被添加在聯盟的模式結果:

> > >df1=火花createDataFrame([[1,2,3]],(“col0”,“col1”,“col2”])> > >df2=火花createDataFrame([[4,5,6]],(“col1”,“col2”,“col3”])> > >df1unionByName(df2,allowMissingColumns=真正的)顯示()+ - - - + - - - + - - - + - - - +| col0 | col1 | col2 | col3 |+ - - - + - - - + - - - + - - - +零| | 1 | 2 | 3 |零| | 4 | 5 | 6 |+ - - - + - - - + - - - + - - - +

添加可選參數allowMissingColumns指定是否允許失蹤的列。