創建您的第一個工作流與磚的工作
這篇文章演示了一個磚工作協調任務閱讀和處理樣本數據集。在這個快速入門,你:
創建一個新的筆記本和添加代碼來檢索一個示例數據集包含受歡迎的嬰兒名字。
保存DBFS的樣本數據集。
創建一個新的筆記本,從DBFS添加代碼來讀取數據,過濾,並顯示結果。
創建一個新的工作,使用筆記本電腦配置兩個任務。
運行工作,查看結果。
創建一個筆記本
檢索並保存數據
創建一個筆記本檢索示例數據並將其保存DBFS:
去你的磚著陸頁麵並點擊新在側邊欄並選擇筆記本。磚創建並打開一個新的空白筆記本在你的默認文件夾。默認語言是你最近使用的語言,和筆記本自動附加到你最近使用的計算資源。
如果有必要,更改默認語言Python。
複製下麵的Python代碼粘貼到第一個單元格的筆記本。
進口請求響應=請求。得到(“http://health.data.ny.gov/api/views/myeu-hzra/rows.csv”)csvfile=響應。內容。解碼(“utf - 8”)dbutils。fs。把(“dbfs: / FileStore / babynames.csv”,csvfile,真正的)
讀取和顯示過濾後的數據
創建一個筆記本讀和現在的數據過濾:
去你的磚著陸頁麵並點擊新在側邊欄並選擇筆記本。磚創建並打開一個新的空白筆記本在你的默認文件夾。默認語言是你最近使用的語言,和筆記本自動附加到你最近使用的計算資源。
如果有必要,更改默認語言Python。
複製下麵的Python代碼粘貼到第一個單元格的筆記本。
babynames=火花。讀。格式(“csv”)。選項(“頭”,“真正的”)。選項(“inferSchema”,“真正的”)。負載(“dbfs: / FileStore / babynames.csv”)babynames。createOrReplaceTempView(“babynames_table”)年=火花。sql(“從babynames_table選擇不同(年)”)。抽樣。地圖(λ行:行(0])。收集()年。排序()dbutils。小部件。下拉(“年”,“2014”,(str(x)為x在年])顯示(babynames。過濾器(babynames。一年= =dbutils。小部件。得到(“年”)))
創建一個工作
點擊工作流在側邊欄。
點擊。
的任務選項卡顯示了創建任務對話框。
取代添加一個名稱為你的工作…對你的工作名稱。
在任務名稱字段中,輸入一個名稱的任務;例如,retrieve-baby-names。
在類型下拉,選擇筆記本。
使用文件瀏覽器來找到您創建第一個筆記本,點擊筆記本名稱,點擊確認。
點擊創建任務。
點擊下麵您剛才創建的任務添加另一個任務。
在任務名稱字段中,輸入一個名稱的任務;例如,filter-baby-names。
在類型下拉,選擇筆記本。
使用文件瀏覽器找到創建第二個筆記本,點擊筆記本名稱,點擊確認。
點擊添加下參數。在關鍵字段中,輸入
一年
。在價值字段中,輸入2014年
。點擊創建任務。