成本優化的最佳實踐
本文將介紹最佳實踐支持的原則成本優化,組織原則。
1。選擇正確的資源
使用三角洲湖
三角洲湖有許多性能改進,可以顯著加快工作負載(使用鑲木地板相比,獸人和JSON)。看到優化建議磚。如果工作負載集群上運行工作,這直接導致更短的集群的運行時和更低的成本。
使用集群工作
工作是一種交互的代碼在磚集群運行。例如,您可以運行一個提取、轉換和加載(ETL)工作負載交互地或時間表。當然,你也可以在筆記本上運行作業交互的UI。然而,在集群的工作,非交互式工作負載將成本明顯低於通用集群。看到定價的概述比較“就業計算”和“通用計算”。
另外一個優勢就是,每一份工作或工作流運行在一個新的集群,隔離工作負載從一個另一個。
請注意
多任務工作流可以重用所有任務的計算資源,以便集群每個工作流啟動時間隻出現一次。看到使用磚計算你們的工作。
使用最新的工作負載運行時
磚平台提供了數據的不同運行時優Beplay体育安卓版本化工程任務(磚運行時機器學習)或(磚運行時機器學習)。提供最好的選擇的運行時構建圖書館的任務並確保所有提供的庫是最新的,共同優化。磚定期運行時釋放的節奏,並提供主要版本之間的性能改進。這些改進的性能往往會導致節約成本由於集群資源的更有效的使用。
隻使用gpu的工作負載
虛擬機與gpu可以顯著加快計算過程深度學習,但有一個明顯的價格高於處理器僅僅機器。使用GPU實例隻有GPU-accelerated庫的工作負載。
大多數工作負載不使用GPU-accelerated庫不受益於GPU-enabled實例。工作區管理員可以限製GPU集群機器和防止不必要的使用。看博客“gpu真的貴嗎?基準測試gpu對磚集群”的推理。
平衡需求和產能過剩的實例
現貨實例使用雲虛擬機過剩資源可用以更便宜的價格。為了節省成本,磚支持創建集群使用現貨實例。建議總是第一個實例(火花司機)作為一個隨需應變的虛擬機。現貨實例是一個偉大的選擇需要更長的時間,因為工作負載時接受一個或多個由雲提供商現貨實例被驅逐。
2。動態分配和釋放資源
利用伸縮計算
自動定量允許你的工作負載使用適量的計算需要完成你的工作。
請注意
計算伸縮擴展限製了集群大小結構化流工作負載。磚建議使用三角洲表與增強的自動定量直播工作負載。看到增強的自動定量是多少?。
看到可靠性,設計自動伸縮功能:
啟用批處理工作負載的自動定量。
啟用自動定量SQL倉庫。
使用三角洲住表增強的自動定量。
使用自動終止
磚提供了許多功能來幫助控製成本,減少資源閑置和控製時可以部署計算資源。
為所有互動集群配置自動終止。指定的空閑時間後,集群關閉。看到自動終止。
使用集群隻需要在工作時間的情況下,集群可以配置自動終止,和預定的過程可以重新啟動集群(如果需要和潛在prewarm數據)在早晨之前用戶回到他們的桌麵。看到緩存選擇。
如果一個起始時間明顯短於一個完整的集群開始可接受,考慮使用集群池。看到最佳實踐:池。磚池減少集群開始和伸縮時間通過維護一套閑置,隨時可用的實例。當集群是附加到一個池塘,集群節點創建使用池的空閑實例。如果池中沒有空閑的情況下,池擴大從實例分配一個新實例提供者為了適應集群的請求。當一個集群釋放一個實例,它返回到池中並為另一個集群使用是免費的。隻有集群連接池可以使用空閑池的實例。
磚不收取DBUs雖然實例池中空閑,從而節省成本。實例提供賬單是否適用。
使用集群政策來控製成本
集群政策可以執行許多成本集群的具體限製。看到卓越運營——使用集群政策。例如:
3所示。監視和控製成本
監控成本
的賬戶控製台允許查看計費使用。磚帳戶所有者或帳戶的管理,還可以使用賬戶控製台下載計費使用日誌。以編程方式訪問這些數據,還可以使用賬戶API下載日誌。或者,您可以配置每日發送計費的使用日誌CSV文件格式的一個AWS S3存儲桶。
作為一項最佳實踐,完整的成本(包括虛擬機、存儲和網絡基礎設施)應該被監視。這可以通過雲供應商成本管理工具或通過添加第三方工具。
評估光子的工作負載
光子以低成本提供了非常快速的查詢性能——從數據攝入、ETL、流、數據科學和交互式查詢——直接在您的數據。光子與Apache火花api兼容,所以開始就可以輕鬆的把它——沒有代碼變更和鎖定。與Apache火花相比,光子提供了一個額外的2 x加速TPC-DS 1 tb的衡量基準。beplay体育app下载地址客戶觀察到3 x-8x平均加速效果,根據他們的工作負載,而最新的DBR版本。
從成本的角度來看,光子工作負載使用約2 x-3x DBUs每小時比火花工作負載。鑒於觀察加速,這可能會導致顯著的成本節省,工作運行定期應該評估他們是否與光子不僅更快,也更便宜。
對你的工作負載使用serverless
BI破裂並產生多個並發工作負載通常使用數據查詢。例如,有人使用BI工具可能更新儀表板,編寫一個查詢,或者簡單地分析查詢結果沒有進一步的互動平台。Beplay体育安卓版本這個例子演示了兩個要求:
終止集群在空閑時間節省成本。
迅速計算資源可用(啟動和擴大),以滿足用戶的查詢請求時新的或更新的數據與BI工具。
Non-serverless磚SQL的倉庫有一個啟動時間的分鍾,所以許多用戶傾向於接受更高的成本和不終止他們在空閑時間。另一方麵,serverless SQL倉庫在幾秒鍾內啟動和擴大規模,所以兩個立即可用性和終止在空閑時候可以實現。這導致了一個偉大的用戶體驗和整體成本節約。
此外,serverless SQL倉庫規模比non-serverless倉庫,從而降低成本。
4所示。分析和屬性支出
標簽集群成本歸因
監控成本和準確的屬性數據磚使用您的組織的業務單位和團隊(例如,對於退款),您可以標記集群和池。這些標簽傳播到詳細DBU使用報告和雲提供商vm和blob存儲實例進行成本分析。
確保成本控製和歸因已經記住當設置工作區和集群團隊和用例。這種簡化標簽的準確性,提高成本歸因。
整體成本、DBU虛擬機磁盤,和任何相關的網絡必須考慮成本。對於serverless SQL倉庫DBU以來這是簡單的成本已經包含虛擬機和磁盤成本。
看到使用集群和池監控使用標簽。
5。優化工作負載,可伸縮的成本目標
平衡不間斷和流觸發
傳統上,當人們考慮流媒體,諸如“實時”“24/7”或“總是”。如果攝入發生在“實時”數據,底層集群需要運行24/7,生產消費成本的每一個小時的一天。
然而,並不是每一個用例是基於一個連續的事件流需要這些事件立即被添加到分析數據集。如果業務要求用例隻需要新鮮的數據每隔幾小時或每一天,然後可以實現這個要求隻有一天幾次運行,導致顯著的降低成本的工作負載。磚建議使用結構化流觸發AvailableNow
對於增量工作負載,沒有低延遲的要求。看到配置增量的批處理。
選擇最有效的集群大小
磚一個人均執行器節點運行。因此,執行者和工人是交替使用的磚結構。人們常把集群規模的工人的數量,但也有其他重要的因素需要考慮:
總執行人核心(計算):在所有執行者核心的總數。這決定了集群的最大並行度。
總執行人內存:內存的總量在所有執行者。這決定了多少數據可以存儲在內存溢出到磁盤之前。
遺囑執行人本地存儲:本地磁盤存儲的類型和數量。本地磁盤中主要是用於泄漏的情況下震蕩和緩存。
其他因素包括工人實例類型和大小,也影響前麵的因素。分級集群時,考慮以下:
數據將工作負載消耗多少?
你的工作負載的計算複雜度是什麼?
你讀取數據從哪兒來的?
外部存儲器中的數據分區嗎?
你需要多少並行?
可以找到的細節和例子集群規模的考慮。