pyspark.sql.DataFrame.unionByName¶

DataFrame。 unionByName ( 其他:pyspark.sql.dataframe.DataFrame,allowMissingColumns:bool=假 )→pyspark.sql.dataframe.DataFrame¶

返回一個新的DataFrame在這個和另一個包含的行DataFrame。

這是不同的UNION ALL和結合不同的在SQL。做一組sql風格聯盟(元素),重複數據刪除技術,緊隨其後的是使用這個函數不同的()。

例子

這個函數和之間的區別聯盟()這個函數是解決列的名字(而不是位置):

           > > >df1=火花。createDataFrame([[1,2,3]],(“col0”,“col1”,“col2”])> > >df2=火花。createDataFrame([[4,5,6]],(“col1”,“col2”,“col0”])> > >df1。unionByName(df2)。顯示()+ - - - + - - - + - - - +| col0 | col1 | col2 |+ - - - + - - - + - - - +| 1 | 2 | 3 || 6 | 4 | 5 |+ - - - + - - - + - - - +
          

當參數allowMissingColumns是真正的,在這個和其他列名的集合DataFrame可以不同;丟失的列會充滿null。此外,失蹤的列DataFrame最後將被添加在聯盟的模式結果:

           > > >df1=火花。createDataFrame([[1,2,3]],(“col0”,“col1”,“col2”])> > >df2=火花。createDataFrame([[4,5,6]],(“col1”,“col2”,“col3”])> > >df1。unionByName(df2,allowMissingColumns=真正的)。顯示()+ - - - + - - - + - - - + - - - +| col0 | col1 | col2 | col3 |+ - - - + - - - + - - - + - - - +零| | 1 | 2 | 3 |零| | 4 | 5 | 6 |+ - - - + - - - + - - - + - - - +
          

添加可選參數allowMissingColumns指定是否允許失蹤的列。

以前的

pyspark.sql.DataFrame.unionAll

下一個

pyspark.sql.DataFrame.unpersist