構建ML模型是困難的。將它們投入生產更加困難。隨著時間的推移,保持數據質量和模型的準確性隻是其中的幾個挑戰。Databricks獨特地簡化了從數據準備到模型培訓和部署的ML開發。
之前
後
了解Databricks如何幫助協同準備數據、構建beplay娱乐ios、部署和管理最先進的ML模型,
從實驗到生產,規模空前。
完成工作所需的一切都可以在工作區中單擊即可:數據集、ML環境、筆記本、文件、實驗、模型,所有這些都可以安全地放在一個地方。
beplay娱乐ios具有多語言支持(Python、R、Scala、SQL)的協作筆記本使團隊協作更容易,同時協同創作、Git集成、版本控製、基於角色的訪問控製等等,幫助您保持控製。或者簡單地使用熟悉的工具,如Jupyter Lab, PyCharm, IntelliJ, RStudio與Databricks,受益於無限的數據存儲和計算。
機器學習實踐者根據各種各樣的數據形式和格式訓練模型:小型或大型數據集、數據幀、文本、圖像、批處理或流。所有這些都需要特定的管道和轉換
Databricks允許您從幾乎任何來源攝入原始數據,合並批處理和流數據,調度轉換,版本表,並執行質量檢查,以確保數據是原始的,並為組織的其他部分的分析做好準備。因此,現在您可以根據自己的需要,無縫且可靠地處理任何數據、CSV文件或大量數據湖攝取。
ML框架正在以瘋狂的速度發展,這使得維護ML環境具有挑戰性。Databricks ML運行時提供了現成的和優化的ML環境,包括最流行的ML框架(scikit-learn, TensorFlow等…)和Conda支持。
內置的AutoML比如超參數調優可以幫助你更快地得到結果,簡化的縮放可以幫助你毫不費力地從小數據到大數據,這樣你就不必再受計算量的限製了。例如,通過使用HorovodRunner在集群中分布計算來更快地訓練深度學習模型,並通過運行cuda優化版本的TensorFlow來提高集群中每個GPU的性能。
ML算法有幾十個可配置的參數,無論單獨工作還是團隊工作,都很難跟蹤每個實驗中使用了哪些參數、代碼和數據來生成模型。
MLflow從筆記本中自動跟蹤您的實驗以及數據、代碼、參數和每次訓練運行的結果等工件。因此,您可以快速查看以前的運行,比較結果,並根據需要恢複到代碼的以前版本。一旦確定了用於生產的模型的最佳版本,就可以在中央存儲庫中注冊它,以便提交部署並簡化轉換。
一旦注冊了訓練好的模型,您就可以使用MLflow模型注冊中心在它們的生命周期內協作地管理beplay娱乐ios它們。
模型可以通過不同的階段進行版本控製和移動,比如實驗、登台、生產和存檔。涉眾可以對變更階段進行評論和提交請求。所有生命周期管理都集成了審批和治理工作流以及基於角色的訪問控製。
快速部署生產模型,在Apache Spark™上進行批處理推理,或者使用與Docker容器、Azure ML和Amazon SageMaker的內置集成作為REST api。
使用作業調度器和自動管理集群操作生產模型,以根據業務需求按需擴展。
快速將模型的最新版本推向生產,並使用Delta Lake和MLflow監視模型漂移。
準備好開始了嗎?