取消
顯示的結果
而不是尋找
你的意思是:

多大的數據集應該這樣值得使用火花?

匿名
不適用
3回複3

Ryan_Chynoweth
尊敬的貢獻者三世

作為一般的最佳實踐時火花是有用就難以在單個機器上處理數據。例如,Python用戶喜歡使用熊貓但當DataFrames開始接近1,幾百萬行馬克在單個機器上加工變得困難。

火花在磚一個偉大的方麵是,您可以隻使用需要的計算。如果你正在與一個較小的數據集太大的單台機器你可以旋轉一個集群與1 - 2工人。

sean_owen
尊敬的貢獻者二世
尊敬的貢獻者二世

沒有一個答案,但一般來說,你當然需要火花當你不能適應在一台機器上的數據在內存中,作為運作通常需要實現。tb以上很難放到內存中,有時更少。

但是更普遍,當你想讓工作負載運行在多台機器上完成更快。你可以處理100 gb在10個小時,但是,也許你寧願把100台機器,而且同樣在6分鍾完成了成本。這就是火花。

User16857281974
貢獻者

@Ryan Chynoweth和@Sean歐文都是正確的,但是我有一個不同的視角。

快速注:你也可以配置您的集群執行隻有一個司機,因此降低成本最便宜的單人VM。集群中的設置,設置集群模式單獨的節點

您的特定問題,說到底,而是主觀的(如其他規定)。但是磚學院定期使用單獨的節點機和小型數據集示範和教育目的。很明顯,我們的用例,而具體。

就我個人而言,我開始使用磚(不是專門火花)3 - 4年前當我還是一個小電話公司工作。可笑的小數據集,但是磚的可接近性使其顯而易見的過程和激發我們的工作。

更多的個人,出於同樣的原因,磚是如此平易近人,我經常用它來分析我的消費(從我的銀行下載交易),分析和處理我的郵件(試圖找出誰最垃圾郵件我,過濾器可以幫我寫整理我的收件箱)

在一天結束的時候,虛擬機價格如此便宜,能夠在單個節點上運行,考慮到磚是如此平易近人,我斷言可能沒有最低。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map