10-06-202151點
我新的火花,並試圖了解它的一些組件是如何工作的。
我理解,一旦數據被加載到內存中獨立的節點,他們處理並行分區,在其自己的內存(RAM)。
但是我想知道最初的分區並行加載到內存中完成嗎?AFAIK一些ssd允許並發讀取,但是不確定是否適用。
同時,分區的環境中引發究竟是什麼?原始文件會分成不同的小文件,或每個節點讀取從某個begin_byte end_byte嗎?
10-08-2021十二11點
@Narek Margaryan,通常閱讀是並行完成,因為底層文件係統已經分布(如果你使用HDFS-based存儲之類的,一個數據湖初版)。
分區的數量在文件本身也很重要。
這讓我對你的第二個問題:
分區的環境中火花確實是正在讀/寫文件的數量。
還有很多,像洗牌,文件格式,您可以設置和係統參數,…
在原帖子查看解決方案
10-06-2021下午09:33
你好@narek_margaryan!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區有一個先回答你的問題。否則我將回到你soon.Thanks。
05-18-202202:07點
嗨@Narek Margaryan,隻是一個友好的後續。你還需要幫助,還是上麵的反應幫助你找到解決方案了嗎?請讓我們知道。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。