取消
顯示的結果
而不是尋找
你的意思是:

選擇最佳的集群大小/規格。

sage5616
價值貢獻

大家好,

我想確定適當的集群規範/我的工作量的大小:

運行PySpark任務轉換一批輸入avro文件檢查機關文件和創建或重建持續對這些檢查機關文件的看法。此任務每5分鍾運行一次,需要一分鍾內完成。

輸入鑲花的批處理文件的大小範圍從每運行100 KB到100 MB。

重要的是,集群支持創建和查詢持久的觀點。我還不知道有多少進程將查詢視圖,但估計1 - 10並發查詢過濾數據簡單的select語句。

大謝謝你:slightly_smiling_face:

我已經研究了磚手冊和指南和尋找一個社區的意見/建議。

1接受解決方案

接受的解決方案

匿名
不適用

如果數據是100 mb,那麼我寧願選擇一個單獨的節點集群,將最小的和最昂貴的。你會有足夠的內存來存儲它。你可以自動化,使用集群工作。

在原帖子查看解決方案

3回複3

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

謝謝你的問題!

請檢查https://docs.www.eheci.com/clusters/cluster-config-best-practices.html讓我知道如果有幫助嗎?

謝謝?但請注意我在我的問題上麵寫道:“我已經研究磚手冊和指南和尋找一個社區的意見/建議。”

指著一個手動是不幫助。@Debayan穆克吉

匿名
不適用

如果數據是100 mb,那麼我寧願選擇一個單獨的節點集群,將最小的和最昂貴的。你會有足夠的內存來存儲它。你可以自動化,使用集群工作。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map