取消
顯示的結果
而不是尋找
你的意思是:

任何在請建議我們如何有效地循環PySpark Dataframe。

Ancil
因素二世

場景:我有一個dataframe超過1000行,每一行有一個文件路徑和結果數據列。我需要遍曆文件路徑和寫文件,每一行與列的數據結果。

時間和最簡單有效的方法是什麼呢?

我試著收集和采取長時間。

我試過下麵但UDF方法錯誤

圖像

11日回複11

NhatHoang
重視貢獻二世

你好,

我同意維爾納,盡量避免循環與Pyspark Dataframe。

如果你dataframe很小,像你說的,隻有大約1000行,你可能會考慮使用熊貓。

謝謝。

嗨@Nhat黃平君

大小可能不同可能多達十萬盧比,我將檢查和熊貓

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map