使用Databricks AutoML UI訓練ML模型

這篇文章演示了如何訓練機器學習模型使用AutoML以及Databricks機器學習界麵。AutoML UI將引導您在數據集上訓練分類、回歸或預測模型。

進入用戶界麵。

  1. 從左側欄頂部的角色切換器中選擇Machine Learning。

  2. 在側欄中,單擊Create > AutoML Experiment。

    ,還可以創建一個新的AutoML實驗實驗頁麵

    配置AutoML實驗頁麵顯示器。在此頁上,您可以配置AutoML流程,指定要預測的數據集、問題類型、目標或標簽列、用於評估和評分實驗運行的度量以及停止條件。

需求

看到需求用於AutoML實驗。

設置分類或回歸問題

您可以使用AutoML UI按以下步驟設置一個分類或回歸問題:

  1. 計算字段,選擇運行Databricks Runtime 8.3 ML或以上的集群。

  2. ML問題類型下拉菜單,選擇回歸分類.如果您試圖預測每個觀察值的連續數值,例如年收入,請選擇回歸。如果您試圖將每個觀察值分配到一個離散的類集中,例如良好的信用風險或不良的信用風險,請選擇分類。

  3. 數據集中,選擇瀏覽

  4. 導航到要使用的表並單擊選擇.出現表模式。

    僅對於分類和回歸問題,您可以指定哪個在培訓中包含的列並選擇自定義輸入方法

  5. 請按預測目標字段。將出現一個下拉列表,列出模式中顯示的列。選擇希望模型預測的列。

  6. 實驗名稱字段顯示默認名稱。要更改它,請在字段中鍵入新名稱。

你也可以指定其他配置選項

使用Databricks feature Store中的現有特性表

在Databricks Runtime 11.3 ML及以上版本中,您可以使用Databricks feature Store中的特征表來擴展輸入訓練數據集,以解決分類和回歸問題。若要創建特性表,請參見在Databricks feature Store中創建一個特征表

在您完成對AutoML實驗的配置後,您可以按照以下步驟選擇一個特性表:

  1. 點擊連接特性(可選)

    選擇加入功能按鈕
  2. 加入附加功能頁中選擇特性表功能表字段。

  3. 為每一個特征表主鍵,選擇對應的查找鍵。查找鍵應該是您為AutoML實驗提供的訓練數據集中的一列。

  4. 時間序列特征表,選擇對應的時間戳查找鍵。類似地,時間戳查找鍵應該是您為AutoML實驗提供的訓練數據集中的一列。

    選擇主鍵和查找表
  5. 單擊,可以添加更多特性表添加另一個表並重複上述步驟。

設置預測問題

您可以使用AutoML UI按以下步驟設置一個預測問題:

  1. 計算字段,選擇運行Databricks Runtime 10.0 ML或以上的集群。

  2. ML問題類型下拉菜單,選擇預測

  3. 數據集,點擊瀏覽.導航到要使用的表並單擊選擇.出現表模式。

  4. 請按預測目標字段。出現一個下拉菜單,列出模式中顯示的列。選擇希望模型預測的列。

  5. 請按時間列字段。出現一個下拉菜單,顯示數據集類型的列時間戳日期.選擇包含時間序列時間段的列。

  6. 對於多序列預測,請從中選擇識別單個時間序列的列時間序列標識符下拉。AutoML根據這些列將數據分組為不同的時間序列,並為每個序列單獨訓練一個模型。如果將此字段保留為空,AutoML假設數據集包含單個時間序列。

  7. 預測範圍和頻率字段,指定AutoML應該計算預測值的未來時間段的數量。在左側框中,輸入要預測的周期數的整數。在右邊的框中,選擇單位。注意:要使用Auto-ARIMA,時間序列必須具有規則的頻率(即在整個時間序列中,任意兩點之間的間隔必須相同)。頻率必須與API調用或AutoML UI中指定的頻率單位匹配。AutoML通過用之前的值填充這些值來處理丟失的時間步驟。

  8. 在Databricks運行時10.5 ML及以上,您可以保存預測結果。方法中指定數據庫輸出數據庫字段。點擊瀏覽並從對話框中選擇一個數據庫。AutoML將預測結果寫入該數據庫中的一個表。

  9. 實驗名稱字段顯示默認名稱。要更改它,請在字段中鍵入新名稱。

你也可以指定其他配置選項

高級配置

打開高級配置(可選)節來訪問這些參數。

  • 評估指標是主要指標用來得分的。

  • 在Databricks Runtime 10.3 ML及以上版本中,您可以將訓練框架排除在外。默認情況下,AutoML使用下麵列出的框架來訓練模型AutoML算法

  • 您可以編輯停止條件。默認停止條件為:

    • 對於預測實驗,120分鍾後停止。

    • 在Databricks Runtime 10.5 ML及以下,對於分類和回歸實驗,在60分鍾後或完成200次試驗後停止,以較早發生者為準。對於Databricks運行時11.0 ML及以上,試驗次數不用作停止條件。

    • 在Databricks Runtime 10.1 ML及以上版本中,對於分類和回歸實驗,AutoML集成了早期停止;如果驗證度量不再改善,它將停止訓練和調優模型。

  • 在Databricks運行時10.1 ML及以上,您可以選擇一個時間列按時間順序拆分用於訓練、驗證和測試的數據(僅適用於分類和回歸)。

  • 數據目錄字段,可以輸入一個DBFS保存訓練數據集的位置。如果將該字段保留為空,則訓練數據集將保存為MLflow工件

列選擇

請注意

此功能僅適用於分類和回歸問題

在Databricks Runtime 10.3 ML及以上版本中,您可以指定AutoML應該使用哪些列進行訓練。控件中的列,請取消選中該列包括列。

不能刪除選擇為預測目標或時間列分割數據。

默認情況下,包括所有列。

缺失值的歸屬

在Databricks Runtime 10.4 LTS ML及以上版本中,您可以指定如何計算空值。的下拉菜單中選擇方法轉嫁與表模式中的列。

默認情況下,AutoML根據列類型和內容選擇一種imputation方法。

請注意

如果指定了非默認的imputation方法,AutoML將不執行語義類型檢測

進行實驗並監測結果

要開始AutoML實驗,單擊開始AutoML.實驗開始運行,出現AutoML訓練頁麵。單擊,刷新運行表刷新按鈕

在本頁,你可以:

  • 隨時停止實驗。

  • 打開數據探索筆記本。

  • 監控運行。

  • 導航到任何運行的運行頁麵。

在Databricks Runtime 10.1 ML及以上版本中,AutoML會對數據集的潛在問題(如不支持的列類型或高基數列)顯示警告。

請注意

Databricks盡最大努力指出潛在的錯誤或問題。但是,這可能不是全麵的,可能無法捕獲您正在搜索的問題或錯誤。請確保您也進行了自己的審查。

要查看數據集的任何警告,請單擊警告或實驗完成後進入實驗頁麵。

AutoML警告

實驗完成後,您可以:

  • 注冊和部署MLflow的模型之一。

  • 選擇查看筆記本的最佳模型回顧和編輯創造最佳模型的筆記本。

  • 選擇查看數據探索筆記本打開數據探索筆記本。

  • 在運行表中搜索、篩選和排序運行。

  • 查看任何運行的詳細信息:

    • 要打開包含試運行源代碼的筆記本,請單擊列。

    • 要查看運行結果,請單擊模型列或開始時間列。運行頁麵將顯示關於試驗運行的信息(例如參數、度量和標記)以及運行所創建的工件,包括模型。本頁還包括可用於對模型進行預測的代碼片段。

上的表中可以找到這個AutoML實驗實驗頁麵.每個AutoML實驗的結果,包括數據探索和訓練筆記本,都存儲在一個databricks_automl文件夾中的主文件夾做實驗的用戶的照片。

注冊並部署模型

您可以使用AutoML UI注冊和部署您的模型:

  1. 控件中的鏈接模型列用於注冊模型。當運行完成時,最佳模型(基於主要度量)是最上麵的行。

    的工件部分運行頁麵對於創建模型顯示的運行。

  2. 選擇注冊模型按鈕將模型注冊到模型注冊

  3. 選擇模型圖標模型在側欄中導航到Model Registry。

  4. 在模型表中選擇模型的名稱。的注冊模型頁麵顯示器。從這個頁麵,您可以為模型提供任意一種服務無服務器實時推理經典MLflow模型服務於數據庫