火車毫升與磚AutoML UI模型

本文演示了如何訓練使用的機器學習模型AutoML和磚機器學習的UI。AutoML UI步驟通過訓練一個分類的過程中,回歸或預測模型的數據集。

訪問界麵:

在側邊欄,選擇New > AutoML實驗。
您還可以創建一個新的AutoML實驗的實驗頁麵。
的配置AutoML實驗頁麵顯示器。在這個頁麵中,您配置AutoML過程,指定數據集,問題類型、目標或標簽列預測,指標用來評估和實驗運行,和停止條件。

需求

看到需求AutoML實驗。

設置分類或回歸問題

您可以設置一個分類或回歸問題使用AutoML UI使用以下步驟:

在計算字段中,選擇一個集群運行磚運行時毫升。
從毫升問題類型下拉菜單,選擇回歸或分類。如果你想預測一個連續的數值為每個觀察,如年度收入,選擇回歸。如果你想分配每個觀察到一組離散的類,如良好的信用風險或不良信貸風險,選擇分類。
下數據集中,選擇瀏覽。
導航到表你想使用和點擊選擇。表的模式出現了。
分類和回歸問題,您可以指定列包含在訓練並選擇自定義歸責方法。
點擊預測目標字段。出現一個下拉清單中顯示的列模式。選擇你想要的列模型來預測。
的實驗名稱字段顯示了默認的名稱。改變它,輸入新名稱。

您還可以:

指定額外的配置選項。
使用現有的功能表商店增加原始輸入數據集的特性。

建立了預測問題

你可以建立一個預測問題使用AutoML UI使用以下步驟:

在計算字段中,選擇一個集群運行磚運行時的10.0毫升或以上。
從毫升問題類型下拉菜單,選擇預測。
下數據集,點擊瀏覽。導航到表你想使用和點擊選擇。表的模式出現了。
點擊預測目標字段。出現一個下拉菜單清單列所示的模式。選擇你想要的列模型來預測。
點擊時間列字段。出現一個下拉顯示數據集列的類型時間戳或日期。選擇列包含時間序列的時間。
對於multi-series預測,選擇列(s),識別個人的時間序列時間序列標識符下拉。AutoML組數據,這些列不同時間序列和火車模型為每個獨立係列。如果你離開這一領域的空白,AutoML假設數據集包含一個時間序列。
在預測的時間跨度和頻率字段,指定時間段的數量在未來的AutoML應該計算預測的值。在左邊的框中,輸入整數周期預測的數量。在正確的盒子,選擇單位。. .注意:使用Auto-ARIMA,時間序列必須有規律的頻率(也就是說,任意兩個點之間的時間間隔必須在整個時間序列相同)。頻率必須匹配頻率API調用中指定的單位或AutoML UI。AutoML處理丟失的時間步驟填寫這些值的前一個值。
在磚運行時的10.5毫升以上,您可以保存預測結果。為此,指定一個數據庫中輸出數據庫字段。點擊瀏覽從對話框中選擇一個數據庫。AutoML將預測結果寫入數據庫中有一個表。
的實驗名稱字段顯示了默認的名稱。改變它,輸入新名稱。

您還可以:

指定額外的配置選項。
使用現有的功能表商店增加原始輸入數據集的特性。

使用現有的功能表從磚特性的商店

在磚運行時11.3 LTS毫升以上,您可以使用功能表數據磚特性存儲擴展輸入訓練數據集的分類和回歸問題。

在磚運行時12.2 LTS毫升以上,您可以使用功能表數據磚特性存儲擴展輸入訓練數據集所有AutoML問題:分類、回歸分析和預測。

創建一個功能表,請參閱在統一目錄創建一個功能表或創建一個表在磚功能存儲特性。

在配置AutoML實驗完成之後,您可以選擇一個功能表有以下步驟:

點擊加入功能(可選)。
在加入附加功能頁麵,選擇一個功能表功能表字段。
為每一個功能表主鍵,選擇對應的查找的關鍵字。查找關鍵應列在訓練數據集你提供AutoML實驗。
為時間序列特征表,選擇對應的時間戳查找的關鍵字。同樣,時間戳查找關鍵應列在訓練數據集你提供AutoML實驗。
添加更多的功能表,單擊添加另一個表並重複上述步驟。

高級配置

打開高級配置(可選)部分訪問這些參數。

的評價指標主要指標用於分數。
在磚運行時的10.3毫升以上,可以排除培訓框架考慮。默認情況下,AutoML火車模型使用框架下上市AutoML算法。
您可以編輯停止條件。默認停止條件:
- 預測實驗,120分鍾後停止。
- 在磚運行時10.5毫升和下麵的分類和回歸實驗,停止後60分鍾或完成200次試驗之後,無論發生早。磚運行時的11.0毫升以上,試驗的數量並不是作為一個停止條件。
- 在磚運行時10.1毫升以上的分類和回歸實驗,AutoML包含早期停止;它停止訓練和調優模型如果驗證指標不再是改善。
在磚運行時的10.1毫升以上,你可以選擇一個時間列將數據進行訓練、驗證和測試按時間順序(僅適用於分類和回歸)。
在數據目錄字段,您可以輸入一個DBFS訓練數據集保存的位置。如果你離開這個領域空白,保存作為訓練數據集MLflow工件。

列選擇

請注意

這個功能隻用於分類和回歸問題

在磚運行時的10.3毫升以上,您可以指定哪些列AutoML應該使用培訓。排除一個列,取消它包括列。

你不能把列選為預測目標或作為時間列將數據。

默認情況下,所有的列都包括在內。

歸責缺失值

在磚運行時10.4 LTS毫升以上,您可以指定null值是如何估算的。在UI中,從下拉的選擇方法轉嫁與列在表模式。

默認情況下,AutoML基於列類型選擇一個歸責方法和內容。

請注意

如果你指定一個非默認歸責方法,AutoML不執行語義類型檢測。

運行試驗和監測結果

AutoML實驗開始,點擊開始AutoML。實驗開始運行,AutoML培訓頁麵出現。刷新表運行,點擊。

從這個頁麵中,您可以:

在任何時候停止實驗。
打開數據探索的筆記本。
監控運行。
導航到頁麵任何跑。

磚運行時的10.1毫升以上,AutoML顯示警告潛在問題的數據集,如不支持的列類型或高基數列。

請注意

磚做的最好的指示潛在的錯誤或問題。然而,這可能不全麵、不可能抓住問題或者錯誤,你可能會搜索。請確認進行你自己的評論。

看到任何警告數據集,點擊警告選項卡頁麵上的訓練,或者在實驗在實驗完成後頁。

當實驗完成後,您可以:

注冊和部署模型與MLflow之一。
選擇查看筆記本的最佳模型審查和編輯創建的最佳模式的筆記本。
選擇視圖數據探索的筆記本打開數據探索的筆記本。
搜索、過濾和排序的運行運行表。
看到任何運行的細節:
- 打開筆記本包含源代碼的試運行,點擊源列。
- 查看運行結果,點擊模型列或開始時間列。試驗運行頁麵出現顯示信息(如參數、指標和標記)和工件產生的運行,包括模型。這個頁麵還包含代碼片段,您可以使用與模型進行預測。

回到這個AutoML實驗後,發現它在桌子上實驗頁麵。每個AutoML實驗的結果,包括數據探索和培訓筆記,存儲在一個databricks_automl文件夾中主文件夾的用戶運行實驗。

注冊和部署模型

你可以注冊和部署模型與AutoML界麵:

選擇的鏈接模型列模型的登記。當一個運行完成後,最好的模型(基於主要指標)是第一行。
的構件部分運行頁麵創建模型的運行顯示。
選擇注冊模型模型注冊。
選擇模型在側邊欄導航到注冊中心模型。
選擇您的模型在模型的表的名稱。的注冊頁麵模型顯示器。從這個頁麵,你可以服務模型模型服務。

名為“pandas.core.indexes.numeric沒有模塊

當提供一個模型使用AutoML與模型構建服務,你可能會得到錯誤:沒有模塊命名“pandas.core.indexes.numeric。

這是由於一個不相容的熊貓版本AutoML和模型服務端點之間的環境。您可以通過運行解決這個錯誤add-pandas-dependency。py腳本。腳本編輯讓和conda.yaml為你記錄包括適當的模型熊貓依賴版本:熊貓= = 1.5.3

包括修改腳本run_idMLflow運行你的模型的記錄。
注冊模型MLflow模型注冊表。
試服務MLflow模型的新版本。