取消
顯示的結果
而不是尋找
你的意思是:

dataFrame拆分為1 mb的塊和創建一個json數組中的每一行作為一個數組元素

rusty9876543
新的貢獻者二世

嗨,我有一個dataFrame我已經能夠轉換成結構每一行是一個JSON對象。

我希望能夠把數據幀分割成1 mb的塊。一旦我有塊,我想在每個各自的所有行塊添加到一個JSON數組。

5回複5

UmaMahesh1
尊敬的貢獻者三世
#設置塊大小字節(1 mb = 1048576字節)chunk_size = 1048576 #修複所需的分區數量基於塊大小num_partitions = (df.rdd。地圖(λx: len (str (x))) .sum () / / chunk_size) + 1 #重新分區DataFrame使用maxRecordsPerFile選項df_chunks = df.repartition .write (num_partitions)。選項(“maxRecordsPerFile chunk_size) .mode(“覆蓋”).parquet (“/ output_path”)

你可以把dataframe使用上麵的方法。

一旦你有分區,遍曆每個分區和indiviudally收集行。然後,您可以為每個分區添加這些行。

# DAIS2023

rusty9876543
新的貢獻者二世

謝謝這是非常有用的!至於“遍曆每個分區和收集單獨的行。然後您可以添加這些行每個分區”這是一個簡單的for循環或有推薦/優化的方式遍曆和收集的行?

匿名
不適用

@Uma Maheswara Rao Desula:很高興看到你參與抽獎活動比賽!:slightly_smiling_face:

rusty9876543
新的貢獻者二世

謝謝這是非常有用的!至於“遍曆每個分區和收集單獨的行。然後您可以添加這些行每個分區”這是一個簡單的for循環或有推薦/優化的方式遍曆和收集的行?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map