取消
顯示的結果
而不是尋找
你的意思是:

任何在請建議我們如何有效地循環PySpark Dataframe。

Ancil
因素二世

場景:我有一個dataframe超過1000行,每一行有一個文件路徑和結果數據列。我需要遍曆文件路徑和寫文件,每一行與列的數據結果。

時間和最簡單有效的方法是什麼呢?

我試著收集和采取長時間。

我試過下麵但UDF方法錯誤

圖像

11日回複11

werners1
尊敬的貢獻者三世

是的,這是什麼分區。

所有你需要的是一種常見的路徑,你將寫所有這些文件,和分區的一部分並不常見。

初版

/路徑/ / file1 | <數據>

/路徑/ / file2 | <數據>

公共部分(/路徑/),你使用目標位置。

變化的部分(file1 file2)您使用分區列

所以它將成為:

df.write.partitionBy (< fileCol >) .parquet (< commonPath >)

火花將編寫一個文件(甚至超過1)分區。

如果你希望隻有一個單一的文件你也必須由filecol重新分區。

Ancil
因素二世

嗨@Werner Stinckens

在我的例子中沒有常見的路徑,文件路徑存儲容器中列有不同的路徑。

我們有其他方法嗎

werners1
尊敬的貢獻者三世

afaik分區是唯一的方式編寫並行多個位置。

所以線程也許有一種方法。

Ancil
因素二世

謝謝,讓我看看

Ancil
因素二世

嗨@Werner Stinckens

分區後還得到以下錯誤。你有關於這個錯誤嗎

圖像

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map