使用Databricks作業創建您的第一個工作流

本文演示了一個Databricks工作它編排任務以讀取和處理示例數據集。在這個快速入門中,你:

  1. 創建一個新的筆記本並添加代碼以檢索按年份包含流行嬰兒名字的示例數據集。

  2. 將樣例數據集保存到DBFS。

  3. 創建一個新的筆記本,並添加從DBFS讀取數據集的代碼,按年過濾數據集,並顯示結果。

  4. 使用筆記本創建一個新作業並配置兩個任務。

  5. 運行作業並查看結果。

需求

你一定有創建集群權限創建作業集群或權限到通用集群。

創建筆記本

檢索和保存數據

創建一個筆記本來檢索樣本數據集並將其保存到DBFS:

  1. 轉到Databricks登錄頁並選擇創建一個筆記本,或按新圖標在側欄中選擇筆記本.的創建筆記本對話框出現了。

  2. 創建筆記本對話,給你的筆記本起個名字;例如,檢索嬰兒名字.選擇Python默認的語言下拉菜單。你可以離開了集群設置為默認值。在使用此筆記本創建任務時配置集群。

  3. 點擊創建

  4. 複製以下Python代碼並將其粘貼到筆記本的第一個單元格中。

    進口請求響應請求得到“http://health.data.ny.gov/api/views/myeu-hzra/rows.csv”csvfile響應內容解碼“utf - 8”dbutilsfs“dbfs: / FileStore / babynames.csv”csvfile真正的

讀取並顯示過濾後的數據

創建一個筆記本來讀取和顯示用於過濾的數據:

  1. 轉到Databricks登錄頁並選擇創建一個筆記本,或按新圖標在側欄中選擇筆記本.的創建筆記本對話框出現了。

  2. 創建筆記本對話,給你的筆記本起個名字;例如,過濾寶寶名字.選擇Python默認的語言下拉菜單。你可以離開了集群設置為默認值。在使用此筆記本創建任務時配置集群。

  3. 點擊創建

  4. 複製以下Python代碼並將其粘貼到筆記本的第一個單元格中。

    babynames火花格式“csv”選項“頭”“真正的”選項“inferSchema”“真正的”負載“dbfs: / FileStore / babynames.csv”babynamescreateOrReplaceTempView“babynames_table”火花sql“select distinct(Year) from babynames_table”抽樣地圖λ0])收集()排序()dbutils小部件下拉“年”“2014”strxx])顯示babynames過濾器babynames一年= =dbutils小部件得到“年”)))

創造一個工作

  1. 點擊工作圖標工作流在側欄中。

  2. 點擊創建作業按鈕

    任務選項卡將顯示創建任務對話框。

    創建第一個任務對話框
  3. 取代為你的工作添加一個名字…你的工作名稱。

  4. 任務名稱字段,為任務輸入名稱;例如,retrieve-baby-names

  5. 類型下拉,選擇筆記本

  6. 使用文件瀏覽器找到您創建的第一個筆記本,單擊筆記本名稱,然後單擊確認

  7. 點擊創建任務

  8. 點擊添加任務按鈕在剛剛創建的任務下麵添加另一個任務。

  9. 任務名稱字段,為任務輸入名稱;例如,filter-baby-names

  10. 類型下拉,選擇筆記本

  11. 使用文件瀏覽器找到您創建的第二個筆記本,單擊筆記本名稱,然後單擊確認

  12. 點擊添加參數.在關鍵字段中,輸入一年.在價值字段中,輸入2014

  13. 點擊創建任務

運行作業

如需立即運行作業,請單擊立即運行按鈕在右上角。控件,也可以運行作業運行標簽,點擊現在運行活躍的運行表格

查看運行詳情

  1. 單擊運行選項卡並單擊在活躍的運行表或在已完成運行(過去60天)表格

  2. 單擊任一任務查看輸出和詳細信息。例如,單擊filter-baby-names任務查看篩選任務的狀態和輸出:

    查看篩選器名稱和結果

使用不同的參數運行

重新運行作業並過濾不同年份的嬰兒名字:

  1. 點擊藍色向下插入旁邊現在運行並選擇現在使用不同的參數運行或者點擊現在使用不同的參數運行活躍的運行表格

  2. 價值字段中,輸入2015

  3. 點擊運行