使用Databricks AutoML UI訓練ML模型
這篇文章演示了如何訓練機器學習模型使用AutoML以及Databricks機器學習界麵。AutoML UI將引導您在數據集上訓練分類、回歸或預測模型。
進入用戶界麵。
從左側欄頂部的角色切換器中選擇Machine Learning。
在側欄中,單擊Create > AutoML Experiment。
,還可以創建一個新的AutoML實驗實驗頁麵.
的配置AutoML實驗頁麵顯示器。在此頁上,您可以配置AutoML流程,指定要預測的數據集、問題類型、目標或標簽列、用於評估和評分實驗運行的度量以及停止條件。
需求
看到需求用於AutoML實驗。
設置分類或回歸問題
您可以使用AutoML UI按以下步驟設置一個分類或回歸問題:
在計算字段,選擇運行Databricks Runtime 8.3 ML或以上的集群。
從ML問題類型下拉菜單,選擇回歸或分類.如果您試圖預測每個觀察值的連續數值,例如年收入,請選擇回歸。如果您試圖將每個觀察值分配到一個離散的類集中,例如良好的信用風險或不良的信用風險,請選擇分類。
下數據集中,選擇瀏覽.
導航到要使用的表並單擊選擇.出現表模式。
請按預測目標字段。將出現一個下拉列表,列出模式中顯示的列。選擇希望模型預測的列。
的實驗名稱字段顯示默認名稱。要更改它,請在字段中鍵入新名稱。
你也可以指定其他配置選項.
使用Databricks feature Store中的現有特性表
在Databricks Runtime 11.3 ML及以上版本中,您可以使用Databricks feature Store中的特征表來擴展輸入訓練數據集,以解決分類和回歸問題。若要創建特性表,請參見在Databricks feature Store中創建一個特征表.
在您完成對AutoML實驗的配置後,您可以按照以下步驟選擇一個特性表:
點擊連接特性(可選).
在加入附加功能頁中選擇特性表功能表字段。
為每一個特征表主鍵,選擇對應的查找鍵。查找鍵應該是您為AutoML實驗提供的訓練數據集中的一列。
為時間序列特征表,選擇對應的時間戳查找鍵。類似地,時間戳查找鍵應該是您為AutoML實驗提供的訓練數據集中的一列。
單擊,可以添加更多特性表添加另一個表並重複上述步驟。
設置預測問題
您可以使用AutoML UI按以下步驟設置一個預測問題:
在計算字段,選擇運行Databricks Runtime 10.0 ML或以上的集群。
從ML問題類型下拉菜單,選擇預測.
下數據集,點擊瀏覽.導航到要使用的表並單擊選擇.出現表模式。
請按預測目標字段。出現一個下拉菜單,列出模式中顯示的列。選擇希望模型預測的列。
請按時間列字段。出現一個下拉菜單,顯示數據集類型的列
時間戳
或日期
.選擇包含時間序列時間段的列。對於多序列預測,請從中選擇識別單個時間序列的列時間序列標識符下拉。AutoML根據這些列將數據分組為不同的時間序列,並為每個序列單獨訓練一個模型。如果將此字段保留為空,AutoML假設數據集包含單個時間序列。
在預測範圍和頻率字段,指定AutoML應該計算預測值的未來時間段的數量。在左側框中,輸入要預測的周期數的整數。在右邊的框中,選擇單位。注意:要使用Auto-ARIMA,時間序列必須具有規則的頻率(即在整個時間序列中,任意兩點之間的間隔必須相同)。頻率必須與API調用或AutoML UI中指定的頻率單位匹配。AutoML通過用之前的值填充這些值來處理丟失的時間步驟。
在Databricks運行時10.5 ML及以上,您可以保存預測結果。方法中指定數據庫輸出數據庫字段。點擊瀏覽並從對話框中選擇一個數據庫。AutoML將預測結果寫入該數據庫中的一個表。
的實驗名稱字段顯示默認名稱。要更改它,請在字段中鍵入新名稱。
你也可以指定其他配置選項.
高級配置
打開高級配置(可選)節來訪問這些參數。
評估指標是主要指標用來得分的。
在Databricks Runtime 10.3 ML及以上版本中,您可以將訓練框架排除在外。默認情況下,AutoML使用下麵列出的框架來訓練模型AutoML算法.
您可以編輯停止條件。默認停止條件為:
對於預測實驗,120分鍾後停止。
在Databricks Runtime 10.5 ML及以下,對於分類和回歸實驗,在60分鍾後或完成200次試驗後停止,以較早發生者為準。對於Databricks運行時11.0 ML及以上,試驗次數不用作停止條件。
在Databricks Runtime 10.1 ML及以上版本中,對於分類和回歸實驗,AutoML集成了早期停止;如果驗證度量不再改善,它將停止訓練和調優模型。
在Databricks運行時10.1 ML及以上,您可以選擇一個時間列按時間順序拆分用於訓練、驗證和測試的數據(僅適用於分類和回歸)。
列選擇
請注意
此功能僅適用於分類和回歸問題
在Databricks Runtime 10.3 ML及以上版本中,您可以指定AutoML應該使用哪些列進行訓練。控件中的列,請取消選中該列包括列。
不能刪除選擇為預測目標或時間列分割數據。
默認情況下,包括所有列。
缺失值的歸屬
在Databricks Runtime 10.4 LTS ML及以上版本中,您可以指定如何計算空值。的下拉菜單中選擇方法轉嫁與表模式中的列。
默認情況下,AutoML根據列類型和內容選擇一種imputation方法。
請注意
如果指定了非默認的imputation方法,AutoML將不執行語義類型檢測.
進行實驗並監測結果
要開始AutoML實驗,單擊開始AutoML.實驗開始運行,出現AutoML訓練頁麵。單擊,刷新運行表.
在本頁,你可以:
隨時停止實驗。
打開數據探索筆記本。
監控運行。
導航到任何運行的運行頁麵。
在Databricks Runtime 10.1 ML及以上版本中,AutoML會對數據集的潛在問題(如不支持的列類型或高基數列)顯示警告。
請注意
Databricks盡最大努力指出潛在的錯誤或問題。但是,這可能不是全麵的,可能無法捕獲您正在搜索的問題或錯誤。請確保您也進行了自己的審查。
要查看數據集的任何警告,請單擊警告或實驗完成後進入實驗頁麵。
實驗完成後,您可以:
注冊和部署MLflow的模型之一。
選擇查看筆記本的最佳模型回顧和編輯創造最佳模型的筆記本。
選擇查看數據探索筆記本打開數據探索筆記本。
在運行表中搜索、篩選和排序運行。
查看任何運行的詳細信息:
要打開包含試運行源代碼的筆記本,請單擊源列。
要查看運行結果,請單擊模型列或開始時間列。運行頁麵將顯示關於試驗運行的信息(例如參數、度量和標記)以及運行所創建的工件,包括模型。本頁還包括可用於對模型進行預測的代碼片段。
上的表中可以找到這個AutoML實驗實驗頁麵.每個AutoML實驗的結果,包括數據探索和訓練筆記本,都存儲在一個databricks_automl
文件夾中的主文件夾做實驗的用戶的照片。
注冊並部署模型
您可以使用AutoML UI注冊和部署您的模型:
控件中的鏈接模型列用於注冊模型。當運行完成時,最佳模型(基於主要度量)是最上麵的行。
的工件部分運行頁麵對於創建模型顯示的運行。
選擇將模型注冊到模型注冊.
選擇模型在側欄中導航到Model Registry。
在模型表中選擇模型的名稱。的注冊模型頁麵顯示器。從這個頁麵,您可以為模型提供任意一種服務無服務器實時推理或經典MLflow模型服務於數據庫.