可擴展的機器學習與Apache引發™
描述
本課程教你如何規模毫升管道與火花,包括分布式訓練,hyperparameter調優和推理。您將構建和優化毫升模型與SparkML利用MLflow跟蹤時,版本,並管理這些模型。本課程涵蓋了最新的ML特性在Apache火花,如熊貓udf,熊貓功能,火花和熊貓API,以及最新的ML產品,存儲和AutoML等特性。
本課程將幫助你把磚認證考試機器學習聯係起來。
持續時間
2天或4天的一半
目標
執行可伸縮的EDA和火花
與SparkML建立和優化的機器學習模型
跟蹤、版本與MLflow和部署模型
執行HyperOpt分布式hyperparameter調優
使用磚機器學習的工作區中創建一個存儲和AutoML特性實驗
利用熊貓API引發規模熊貓代碼
先決條件
中間經曆Python(或完成介紹了Python數據科學與數據工程)
熟悉PySpark DataFrame API(或完成Apache火花編程)
經驗構建機器學習模型
大綱
第一天
火花/毫升概述
探索性數據分析(EDA)和工程特性與火花
SparkML:變壓器、估計、管道和評價者
注冊表MLflow跟蹤和模型
第二天
可平行的hyperparameter調優
磚AutoML和特性
集成第三方包(分布式XGBoost)
分布式推理scikit-learn模型與熊貓udf
分布式訓練熊貓API函數
熊貓API數據操作的火花
即將到來的公共類
問題嗎?
如果你有任何問題,請參閱我們的常見問題頁麵。