取消
顯示的結果
而不是尋找
你的意思是:

你將如何決定你的集群配置為您的項目。是什麼之前你會考慮所有的因素選擇最佳的集群。讓我們有一個討論。

al -
重視貢獻三世
8回答說8

匿名
不適用
  • 機器學習然後毫升運行時
  • 深度學習然後用GPU毫升運行時
  • 如果你做SQL + ETL然後使用光子
  • 試圖讓盡可能多的RAM數據。確保為oveheard有額外的RAM。如果你有1 TB的數據集,試圖讓1.5 TB的內存。
  • 擴大規模之前。更少的機器意味著更少的網絡打亂。

帕特
尊敬的貢獻者三世

我喜歡之前的擴大擴展。

我是用來運行多個集群,但它確實是有意義的。我喜歡這個頁麵:

https://docs.www.eheci.com/clusters/cluster-config-best-practices.html

謝謝,

帕特。

al -
重視貢獻三世

由於@Joseph Kambourakis輸入

kpendergast
貢獻者

最大的因素是成本計算。我開始簡單,根據需要調整。但是如果一塊代碼創建一個性能問題,需要解決集群可以使糟糕的代碼更好。

一般我分析工作流的整體運行和測試不同的集群大小和實例類型。幾運行後我檢查指標,看看它的表現在工作和在必要時做出調整的實例類型。

某些情況下是特殊的,需要配置為您將運行的代碼。JDBC的工作例如需要配置為核心數量如果你想運行在ETL的所有節點。

對於BI平台和Beplay体育安卓版本磚SQL倉庫這些集群需要監視在查詢級別。如果查詢運行幾個小時,但執行時間是幾分鍾。我為它創建一個小的集群,大部分的時間都花在等待BI平台來攝取數據。Beplay体育安卓版本

毫升這完全取決於模型和數據。簡單的開始,根據需要調整。一些圖書館和包可能需要gpu和一些可能不需要超過一個實例。

什麼值得一些操作將在主節點存儲很多信息我設定一個火花配置使用spark.driver.maxResultSize 1 gb的內存

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map