使用Databricks作業創建您的第一個工作流
本文演示了一個Databricks工作它編排任務以讀取和處理示例數據集。在這個快速入門中,你:
創建一個新的筆記本並添加代碼以檢索按年份包含流行嬰兒名字的示例數據集。
將樣例數據集保存到DBFS。
創建一個新的筆記本,並添加從DBFS讀取數據集的代碼,按年過濾數據集,並顯示結果。
使用筆記本創建一個新作業並配置兩個任務。
運行作業並查看結果。
創建筆記本
檢索和保存數據
創建一個筆記本來檢索樣本數據集並將其保存到DBFS:
轉到Databricks登錄頁並選擇創建一個筆記本,或按新在側欄中選擇筆記本.的創建筆記本對話框出現了。
在創建筆記本對話,給你的筆記本起個名字;例如,檢索嬰兒名字.選擇Python從默認的語言下拉菜單。你可以離開了集群設置為默認值。在使用此筆記本創建任務時配置集群。
點擊創建.
複製以下Python代碼並將其粘貼到筆記本的第一個單元格中。
進口請求響應=請求.得到(“http://health.data.ny.gov/api/views/myeu-hzra/rows.csv”)csvfile=響應.內容.解碼(“utf - 8”)dbutils.fs.把(“dbfs: / FileStore / babynames.csv”,csvfile,真正的)
讀取並顯示過濾後的數據
創建一個筆記本來讀取和顯示用於過濾的數據:
轉到Databricks登錄頁並選擇創建一個筆記本,或按新在側欄中選擇筆記本.的創建筆記本對話框出現了。
在創建筆記本對話,給你的筆記本起個名字;例如,過濾寶寶名字.選擇Python從默認的語言下拉菜單。你可以離開了集群設置為默認值。在使用此筆記本創建任務時配置集群。
點擊創建.
複製以下Python代碼並將其粘貼到筆記本的第一個單元格中。
babynames=火花.讀.格式(“csv”).選項(“頭”,“真正的”).選項(“inferSchema”,“真正的”).負載(“dbfs: / FileStore / babynames.csv”)babynames.createOrReplaceTempView(“babynames_table”)年=火花.sql(“select distinct(Year) from babynames_table”).抽樣.地圖(λ行:行[0]).收集()年.排序()dbutils.小部件.下拉(“年”,“2014”,[str(x)為x在年])顯示(babynames.過濾器(babynames.一年= =dbutils.小部件.得到(“年”)))
創造一個工作
點擊工作流在側欄中。
點擊.
的任務選項卡將顯示創建任務對話框。
取代為你的工作添加一個名字…你的工作名稱。
在任務名稱字段,為任務輸入名稱;例如,retrieve-baby-names.
在類型下拉,選擇筆記本.
使用文件瀏覽器找到您創建的第一個筆記本,單擊筆記本名稱,然後單擊確認.
點擊創建任務.
點擊在剛剛創建的任務下麵添加另一個任務。
在任務名稱字段,為任務輸入名稱;例如,filter-baby-names.
在類型下拉,選擇筆記本.
使用文件瀏覽器找到您創建的第二個筆記本,單擊筆記本名稱,然後單擊確認.
點擊添加下參數.在關鍵字段中,輸入
一年
.在價值字段中,輸入2014
.點擊創建任務.