取消
顯示的結果
而不是尋找
你的意思是:

火花節點讀取數據從存儲在一個序列?

narek_margaryan
新的貢獻者二世

我新的火花,並試圖了解它的一些組件是如何工作的。

我理解,一旦數據被加載到內存中獨立的節點,他們處理並行分區,在其自己的內存(RAM)。

但是我想知道最初的分區並行加載到內存中完成嗎?AFAIK一些ssd允許並發讀取,但是不確定是否適用。

同時,分區的環境中引發究竟是什麼?原始文件會分成不同的小文件,或每個節點讀取從某個begin_byte end_byte嗎?

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

@Narek Margaryan,通常閱讀是並行完成,因為底層文件係統已經分布(如果你使用HDFS-based存儲之類的,一個數據湖初版)。

分區的數量在文件本身也很重要。

這讓我對你的第二個問題:

分區的環境中火花確實是正在讀/寫文件的數量。

還有很多,像洗牌,文件格式,您可以設置和係統參數,…

在原帖子查看解決方案

3回複3

Kaniz
社區經理
社區經理

你好@narek_margaryan!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區有一個先回答你的問題。否則我將回到你soon.Thanks。

werners1
尊敬的貢獻者三世

@Narek Margaryan,通常閱讀是並行完成,因為底層文件係統已經分布(如果你使用HDFS-based存儲之類的,一個數據湖初版)。

分區的數量在文件本身也很重要。

這讓我對你的第二個問題:

分區的環境中火花確實是正在讀/寫文件的數量。

還有很多,像洗牌,文件格式,您可以設置和係統參數,…

Kaniz
社區經理
社區經理

嗨@Narek Margaryan,隻是一個友好的後續。你還需要幫助,還是上麵的反應幫助你找到解決方案了嗎?請讓我們知道。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map