我們如何比較兩個dataframes火花scala t…-磚- 28341

shampa · ‎01-19-2019

我有兩個文件,我創建了兩個dataframes prod1和prod2。我需要找的記錄與列名和價值觀不匹配的dfs。

id_sk主鍵全部關口是字符串數據類型

dataframe 1 (prod1)

id_sk | | uuid的名字

1 | 10 |

2 | 20 | b

3 | | 30 c

dataframe 2 (prod2)

id_sk | | uuid的名字

2 | 20 | b-upd

3 | 30-up | c

4 | | 40 d

所以我需要結果dataframe在下麵的格式。

id | col_name |值

2 |名稱| b, b-upd

30-up | 3 | uuid 30日

我做了一個內連接和比較了無與倫比的記錄。

我得到結果如下:

id_sk | uuid_prod1 | uid_prod2 | name_prod1 | name_prod2

2 | 20 b 20 | | | b-upd

3 | 30 | 30-up | | c

val commmon_rec = prod1.join (prod2 prod1 (“id_sk”) = = = prod2 (“id_sk”)、“內在”).select (prod1 .alias (“id_sk”) (“id_sk_prod1”), prod1 (uuid) .alias (“uuid_prod1”), prod1 .alias(“名字”)(“name_prod1”), prod1 .alias(“名字”)(“name_prod2”)

val比較=火花。sql(“選擇……從common_rec col_prod1 < > col_prod2”)

manojlukhi · ‎02-04-2019

在火花SQL使用全外連接

磚

我們如何比較兩個dataframes在火花scala找到區別這兩個文件,哪個列? ?和價值?。