模型服務Serverless實時推理
重要的
這個文檔已經退休了,可能不會被更新。產品、服務或技術中提到的這些內容不再支持。
本文中的指導是模型的預覽版本服務功能,以前Serverless實時推理。磚建議您遷移模型的工作流服務可用的一般功能。看到模型服務與磚。
預覽
這個特性是在公共預覽。
本文描述模型與磚Serverless實時推理的服務,包括其優勢和局限性相比遺留MLflow模型服務。
Serverless實時推理暴露你MLflow機器學習模型作為可伸縮的REST API端點。這個功能使用Serverless計算,這意味著相關的端點和磚雲計算資源管理和運行的帳戶。看到Serverless實時推理價格頁麵為更多的細節。
遺留MLflow模型服務使用一個單節點集群運行在自己的賬戶在現在所謂的經典數據平麵。這個數據平麵包括虛擬網絡及其相關計算資源集群等筆記本和工作,職業和經典SQL倉庫,和經典模型服務端點。
為什麼使用Serverless實時推理?
Serverless實時推理提供了:
發射一個端點的能力有一個點擊:磚自動為您的模型和針對生產環境準備為計算提供serverless配置選項。
高可用性和可伸縮性:Serverless實時推理用於生產使用,可以支持多達3000 queries-per-second(每秒)。Serverless實時推理端點自動向上和向下擴展,這意味著端點自動調整基於評分的請求的數量。
儀表板:使用內置的Serverless實時推理儀表板來監測你的健康模型端點使用指標(如每秒,延遲和錯誤率。
特性存儲集成:當你的模型訓練與磚特性的存儲特性,模型包裝功能的元數據。如果你配置您的在線商店,這些特性作為得分納入實時接收的請求。
限製
該服務在預覽,以下限製:
有效載荷的大小限製,每個請求的16 MB。
默認限製每個工作區登記200每秒的得分請求。你可以增加這個極限3000每秒每工作區通過接觸你的磚支持接觸。
盡最大努力支持少於100毫秒延遲開銷和可用性。
Serverless實時推理端點是開放的互聯網為入站流量除非啟用IP allowlist在工作區中,在這種情況下,這也適用於端點列表。
登台和生產時間的期望
過渡模型從暫存到生產需要時間。部署一個新注冊模型版本包括建立一個模型容器形象和端點配置模型。這個過程可以~ 5分鍾。
磚執行“零宕機”的更新/分期
和/生產
端點通過保持現有模型部署到新的一個準備好。這樣做可以確保不中斷模型使用的端點。
如果模型計算花費的時間超過60秒,請求超時。如果你相信你的模型計算將超過60秒,請伸出你的磚支持聯係。
先決條件
重要的
在公共預覽,你需要伸出你的磚支持接觸使Serverless實時推理工作區。
您可以創建Serverless實時推理端點之前,您必須讓他們在你的工作區。看到使Serverless實時推理模型服務的端點。
後Serverless實時推理端點上啟用您的工作空間,您需要以下權限創建端點模型為: