你好,
我有一個dataframe名稱和公司
從pyspark。sql進口SparkSession
火花= SparkSession.builder.appName ('SparkByExamples.com”).getOrCreate ()
列=(“公司”、“名稱”)
data = [(“company1”,“喬”)(“company2”、“喬布斯”)(“company1”、“金”)(“3”,“山姆”)(“company4”,“吉姆”)(“company4”,“托尼”)(“company5”、“斯坦”),
]
df =火花。createDataFrame(=數據、模式=列),告訴()
然後我有另一個dataframe有公司名稱
羅馬柱= (“job_comany”、“num”)
data2 = [(“company1”, 1), (“company2”, 2), (“3”, 3), (“company4”, 4), (“company5”, 5),)
df2 =火花。createDataFrame (data = data2模式=羅馬柱),告訴()
我想做的是使用公司名稱搜索dataframe dataframe人名和識別與人相關的公司與公司名稱,並創建一個dataframe列和一個0或1,如果這個人是與公司。這是我想看到的照片是我最後的dataframe。