Python毫升模型訓練和聯合編目數據

統一目錄允許您應用細粒度安全表和安全地訪問它們從任何語言,同時與其他機器學習組件交互無縫磚。本文展示了如何使用Python培訓統一目錄中使用數據的機器學習模型。

需求

  • 全民必須啟用您的工作區目錄。

  • 您必須能夠創建一個集群或獲得一個集群中運行的單用戶訪問模式。

創建一個磚機器學習的集群

按照以下步驟創建一個單用戶磚集群運行時毫升,可以在統一目錄訪問數據。

  1. 點擊計算圖標計算

  2. 點擊創建計算

  3. 訪問模式中,選擇單用戶

    磚運行時毫升包括庫,需要使用單用戶集群。可以使用單個用戶集群隻由一個用戶(默認情況下,單用戶集群)的所有者。其他用戶無法連接到集群。

    更多的信息特性在每個訪問模式,明白了集群訪問模式是什麼?

  4. 磚的運行時版本的下拉菜單,選擇毫升並選擇11.3 LTS毫升或更高版本。

  5. 點擊創建集群

創建目錄

按照以下步驟創建一個新的目錄,你的機器學習團隊可以存儲數據資產。

  1. 與metastore分配在一個工作區,metastore管理員登錄,或作為一個用戶創建目錄特權。

  2. 創建一個筆記本或打開磚SQL編輯器中。

  3. 運行下麵的命令來創建毫升目錄:

    創建目錄毫升;

    當您創建一個目錄,一個模式命名默認的自動創建。

  4. 授權訪問的毫升目錄和ml.default模式,和創建表和視圖的能力ml_team組。包括所有帳戶級別的用戶,可以使用賬戶用戶

    格蘭特使用目錄目錄毫升毫升團隊;格蘭特使用模式,創建模式毫升默認的ml_team;

現在,任何用戶的ml_team集團可以運行下麵的例子的筆記本。

導入示例筆記本

首先,導入以下筆記本。

機器學習與統一目錄

在新標簽頁打開筆記本

導入筆記本:

  1. 旁邊的筆記本,點擊複製鏈接導入

  2. 在您的工作區中,單擊工作空間的圖標工作空間

  3. 旁邊一個文件夾,單擊下脫字符號,然後單擊進口

  4. 點擊URL,然後將複製的鏈接粘貼。

  5. 導入的筆記本出現在您所選擇的文件夾。雙擊筆記本名稱來打開它。

  6. 頂部的筆記本,選擇連接筆記本磚機器學習的集群。

筆記本分為幾個高層部分:

  1. 設置。

  2. 從CSV文件讀取數據並將其寫入聯合目錄。

  3. 數據加載到熊貓dataframes和清理。

  4. 火車一個基本的分類模型。

  5. 曲調hyperparameters和優化模型。

  6. 結果寫入一個新的表並與其他用戶分享。

要運行一個細胞,點擊運行圖標運行。運行整個筆記本,點擊運行所有