pyspark.sql.DataFrame.unionByName¶
-
DataFrame。
unionByName
( 其他:pyspark.sql.dataframe.DataFrame,allowMissingColumns:bool=假 )→pyspark.sql.dataframe.DataFrame¶ -
返回一個新的
DataFrame
在這個和另一個包含的行DataFrame
。這是不同的UNION ALL和結合不同的在SQL。做一組sql風格聯盟(元素),重複數據刪除技術,緊隨其後的是使用這個函數
不同的()
。例子
這個函數和之間的區別
聯盟()
這個函數是解決列的名字(而不是位置):> > >df1=火花。createDataFrame([[1,2,3]],(“col0”,“col1”,“col2”])> > >df2=火花。createDataFrame([[4,5,6]],(“col1”,“col2”,“col0”])> > >df1。unionByName(df2)。顯示()+ - - - + - - - + - - - +| col0 | col1 | col2 |+ - - - + - - - + - - - +| 1 | 2 | 3 || 6 | 4 | 5 |+ - - - + - - - + - - - +
當參數allowMissingColumns是
真正的
,在這個和其他列名的集合DataFrame
可以不同;丟失的列會充滿null。此外,失蹤的列DataFrame
最後將被添加在聯盟的模式結果:> > >df1=火花。createDataFrame([[1,2,3]],(“col0”,“col1”,“col2”])> > >df2=火花。createDataFrame([[4,5,6]],(“col1”,“col2”,“col3”])> > >df1。unionByName(df2,allowMissingColumns=真正的)。顯示()+ - - - + - - - + - - - + - - - +| col0 | col1 | col2 | col3 |+ - - - + - - - + - - - + - - - +零| | 1 | 2 | 3 |零| | 4 | 5 | 6 |+ - - - + - - - + - - - + - - - +
添加可選參數allowMissingColumns指定是否允許失蹤的列。