取消
顯示的結果
而不是尋找
你的意思是:

閱讀所示的csv文件描述

sannycse
新的貢獻者二世

Project_Details.csv

ProjectNo | ProjectName | EmployeeNo

100 | | 1的分析

100 | | 2的分析

機器學習101 | | 3

機器學習101 | | 1

機器學習101 | | 4

發現每個員工的形式列出每個項目上工作嗎?

輸出:

ProjectNo | employeeNo

100 | [1、2]

101 | (3、1、4)

1接受解決方案

接受的解決方案

garren_staubli
新的貢獻者三世
從pyspark。sql導入函數F df = spark.read。選項(“9”,“|”)。選項(“頭”,“真正的”). csv (“/ tmp / file.csv”)顯示(df.groupBy (projectNo) .agg (F.expr (“collect_list (EmployeeNo)”) .alias(“雇員”)))

在原帖子查看解決方案

6個回答6

garren_staubli
新的貢獻者三世
從pyspark。sql導入函數F df = spark.read。選項(“9”,“|”)。選項(“頭”,“真正的”). csv (“/ tmp / file.csv”)顯示(df.groupBy (projectNo) .agg (F.expr (“collect_list (EmployeeNo)”) .alias(“雇員”)))

嗨@SANJEEV BANDRU,你有機會嚐試提供的代碼@Garren史陶比爾?

sannycse
新的貢獻者二世

我試過,但成立於pyspark我無法破解代碼引發Sql

馬爾卡
重視貢獻二世

@SANJEEV BANDRU,您可以保存臨時視圖中的數據幀通過添加在python:

df.createOrReplaceTempView (“employees_csv”)

然後您可以選擇:

選擇projectNo collect_list projectNo (EmployeeNo)從employees_csv集團

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map