任何在請建議我們如何有效地循環……頁2 -磚- 19402

Ancil · ‎12-01-2022

場景:我有一個dataframe超過1000行,每一行有一個文件路徑和結果數據列。我需要遍曆文件路徑和寫文件,每一行與列的數據結果。

時間和最簡單有效的方法是什麼呢?

我試著收集和采取長時間。

我試過下麵但UDF方法錯誤

werners1 · ‎12-01-2022

是的,這是什麼分區。

所有你需要的是一種常見的路徑,你將寫所有這些文件,和分區的一部分並不常見。

初版

/路徑/ / file1 | <數據>

/路徑/ / file2 | <數據>

公共部分(/路徑/),你使用目標位置。

變化的部分(file1 file2)您使用分區列

所以它將成為:

df.write.partitionBy (< fileCol >) .parquet (< commonPath >)

火花將編寫一個文件(甚至超過1)分區。

如果你希望隻有一個單一的文件你也必須由filecol重新分區。

Ancil · ‎12-01-2022

嗨@Werner Stinckens

在我的例子中沒有常見的路徑,文件路徑存儲容器中列有不同的路徑。

我們有其他方法嗎

werners1 · ‎12-01-2022

afaik分區是唯一的方式編寫並行多個位置。

這所以線程也許有一種方法。

Ancil · ‎12-01-2022

謝謝,讓我看看

Ancil · ‎12-01-2022

嗨@Werner Stinckens

分區後還得到以下錯誤。你有關於這個錯誤嗎

磚