最大的因素是成本計算。我開始簡單,根據需要調整。但是如果一塊代碼創建一個性能問題,需要解決集群可以使糟糕的代碼更好。
一般我分析工作流的整體運行和測試不同的集群大小和實例類型。幾運行後我檢查指標,看看它的表現在工作和在必要時做出調整的實例類型。
某些情況下是特殊的,需要配置為您將運行的代碼。JDBC的工作例如需要配置為核心數量如果你想運行在ETL的所有節點。
對於BI平台和Beplay体育安卓版本磚SQL倉庫這些集群需要監視在查詢級別。如果查詢運行幾個小時,但執行時間是幾分鍾。我為它創建一個小的集群,大部分的時間都花在等待BI平台來攝取數據。Beplay体育安卓版本
毫升這完全取決於模型和數據。簡單的開始,根據需要調整。一些圖書館和包可能需要gpu和一些可能不需要超過一個實例。
什麼值得一些操作將在主節點存儲很多信息我設定一個火花配置使用spark.driver.maxResultSize 1 gb的內存