我有兩個文件,我創建了兩個dataframes prod1和prod2。我需要找的記錄與列名和價值觀不匹配的dfs。
id_sk主鍵全部關口是字符串數據類型
dataframe 1 (prod1)
id_sk | | uuid的名字
1 | 10 |
2 | 20 | b
3 | | 30 c
dataframe 2 (prod2)
id_sk | | uuid的名字
2 | 20 | b-upd
3 | 30-up | c
4 | | 40 d
所以我需要結果dataframe在下麵的格式。
id | col_name |值
2 |名稱| b, b-upd
30-up | 3 | uuid 30日
我做了一個內連接和比較了無與倫比的記錄。
我得到結果如下:
id_sk | uuid_prod1 | uid_prod2 | name_prod1 | name_prod2
2 | 20 b 20 | | | b-upd
3 | 30 | 30-up | | c
val commmon_rec = prod1.join (prod2 prod1 (“id_sk”) = = = prod2 (“id_sk”)、“內在”).select (prod1 .alias (“id_sk”) (“id_sk_prod1”), prod1 (uuid) .alias (“uuid_prod1”), prod1 .alias(“名字”)(“name_prod1”), prod1 .alias(“名字”)(“name_prod2”)
val比較=火花。sql(“選擇……從common_rec col_prod1 < > col_prod2”)