03-30-202254所以我
Project_Details.csv
ProjectNo | ProjectName | EmployeeNo
100 | | 1的分析
100 | | 2的分析
機器學習101 | | 3
機器學習101 | | 1
機器學習101 | | 4
發現每個員工的形式列出每個項目上工作嗎?
輸出:
ProjectNo | employeeNo
100 | [1、2]
101 | (3、1、4)
03-31-202201:06點
從pyspark。sql導入函數F df = spark.read。選項(“9”,“|”)。選項(“頭”,“真正的”). csv (“/ tmp / file.csv”)顯示(df.groupBy (projectNo) .agg (F.expr (“collect_list (EmployeeNo)”) .alias(“雇員”)))
在原帖子查看解決方案
03-31-2022十一10點
嗨@SANJEEV BANDRU,你有機會嚐試提供的代碼@Garren史陶比爾?
04-02-202209:53我
我試過,但成立於pyspark我無法破解代碼引發Sql
04-02-202211點
@SANJEEV BANDRU,您可以保存臨時視圖中的數據幀通過添加在python:
df.createOrReplaceTempView (“employees_csv”)
然後您可以選擇:
選擇projectNo collect_list projectNo (EmployeeNo)從employees_csv集團
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。