取消
顯示的結果
而不是尋找
你的意思是:

任何在請建議我們如何有效地循環PySpark Dataframe。

Ancil
因素二世

場景:我有一個dataframe超過1000行,每一行有一個文件路徑和結果數據列。我需要遍曆文件路徑和寫文件,每一行與列的數據結果。

時間和最簡單有效的方法是什麼呢?

我試著收集和采取長時間。

我試過下麵但UDF方法錯誤

圖像

11日回複11

UmaMahesh1
尊敬的貢獻者三世

嗨@Ancil便士

是你的數據在結果列一個json值還是怎麼?

從你的問題,我明白你在df有兩列,一列是文件路徑和其他列數據。

也請udf你試圖建立這樣如果你的方法很有用,可以做修複。

歡呼聲……

嗨@Uma Maheswara Rao Desula

在結果列結果json數據,但列類型是字符串。

請查收以下屏幕截圖UDF

圖像一旦我叫低於線得到以下錯誤

input_data_df = input_data_df.withColumn (“is_file_created write_files_udf卡紮菲(col (“file_path”), (“data_after_grammar_correction”)))

圖像

werners1
尊敬的貢獻者三世

是一個選項來寫是作為一個單獨的鑲花文件,但分區?

這樣的物理分區的路徑不同,但它們都屬於同一拚花文件。

關鍵是要避免循環。

嗨@Werner Stinckens

我的用例編寫文本文件dataframe多少行。

例如,如果我有100行,那麼我需要寫100個文件的指定位置。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map