比較2從val dataframes並創建列…-磚- 12530

lmcglone · ‎01-11-2023

你好,

我有一個dataframe名稱和公司

從pyspark。sql進口SparkSession

火花= SparkSession.builder.appName ('SparkByExamples.com”).getOrCreate ()

列=(“公司”、“名稱”)

data = [(“company1”,“喬”)(“company2”、“喬布斯”)(“company1”、“金”)(“3”,“山姆”)(“company4”,“吉姆”)(“company4”,“托尼”)(“company5”、“斯坦”),

]

df =火花。createDataFrame(=數據、模式=列),告訴()

然後我有另一個dataframe有公司名稱

羅馬柱= (“job_comany”、“num”)

data2 = [(“company1”, 1), (“company2”, 2), (“3”, 3), (“company4”, 4), (“company5”, 5),)

df2 =火花。createDataFrame (data = data2模式=羅馬柱),告訴()

我想做的是使用公司名稱搜索dataframe dataframe人名和識別與人相關的公司與公司名稱,並創建一個dataframe列和一個0或1,如果這個人是與公司。這是我想看到的照片是我最後的dataframe。

Hubert_Dudek1 · ‎01-11-2023

你需要連接和主

df . join (df2 = [df.company = = df2.job_company])) .groupBy .pivot(“公司”,“名字”)(“job_company”) .count ()

lmcglone · ‎01-11-2023

由於....這是完美的。

另一個問題將這一概念再推進一步。從這個代碼我怎麼改變了列名的名稱。在你的例子有company1、company2等。有可能改變這些名字company1_a, company2_a,等等?

磚