任何在請建議我們如何有效地循環……-磚- 19402

Ancil · ‎12-01-2022

場景:我有一個dataframe超過1000行,每一行有一個文件路徑和結果數據列。我需要遍曆文件路徑和寫文件,每一行與列的數據結果。

時間和最簡單有效的方法是什麼呢?

我試著收集和采取長時間。

我試過下麵但UDF方法錯誤

UmaMahesh1 · ‎12-01-2022

嗨@Ancil便士

是你的數據在結果列一個json值還是怎麼?

從你的問題,我明白你在df有兩列,一列是文件路徑和其他列數據。

也請udf你試圖建立這樣如果你的方法很有用,可以做修複。

歡呼聲……

Ancil · ‎12-01-2022

嗨@Uma Maheswara Rao Desula

在結果列結果json數據,但列類型是字符串。

請查收以下屏幕截圖UDF

一旦我叫低於線得到以下錯誤

input_data_df = input_data_df.withColumn (“is_file_created write_files_udf卡紮菲(col (“file_path”), (“data_after_grammar_correction”)))

werners1 · ‎12-01-2022

是一個選項來寫是作為一個單獨的鑲花文件,但分區?

這樣的物理分區的路徑不同,但它們都屬於同一拚花文件。

關鍵是要避免循環。

Ancil · ‎12-01-2022

嗨@Werner Stinckens

我的用例編寫文本文件dataframe多少行。

例如,如果我有100行,那麼我需要寫100個文件的指定位置。

磚