工作快速入門

這篇文章演示了一個磚工作協調任務閱讀和處理樣本數據集。在這個快速入門,你:

創建一個新的筆記本和添加代碼來檢索一個示例數據集包含受歡迎的嬰兒名字。
保存DBFS的樣本數據集。
創建一個新的筆記本,從DBFS添加代碼來讀取數據,過濾,並顯示結果。
創建一個新的工作,使用筆記本電腦配置兩個任務。
運行工作,查看結果。

需求

你必須有集群創建權限創建一個集群或工作權限一個通用的集群。

創建一個筆記本

檢索並保存數據

創建一個筆記本檢索示例數據並將其保存DBFS:

去你的磚著陸頁麵並選擇創建空白筆記本或者點擊創建在側邊欄並選擇筆記本從菜單中。的創建筆記本對話框出現了。
在創建筆記本對話框中,給你的筆記本一個名字;例如,檢索嬰兒名字。選擇Python從默認的語言下拉菜單。你可以把集群設置為默認值。您配置集群創建任務時使用這個筆記本。
點擊創建。

複製下麵的Python代碼粘貼到第一個單元格的筆記本。

                進口請求響應=請求。得到(“http://health.data.ny.gov/api/views/myeu-hzra/rows.csv”)csvfile=響應。內容。解碼(“utf - 8”)dbutils。fs。把(“dbfs: / FileStore / babynames.csv”,csvfile,真正的)
               

讀取和顯示過濾後的數據

創建一個筆記本讀和現在的數據過濾:

去你的磚著陸頁麵並選擇創建空白筆記本或者點擊創建在側邊欄並選擇筆記本從菜單中。的創建筆記本對話框出現了。
在創建筆記本對話框中,給你的筆記本一個名字;例如,過濾器嬰兒名字。選擇Python從默認的語言下拉菜單。你可以把集群設置為默認值。您配置集群創建任務時使用這個筆記本。
點擊創建。

複製下麵的Python代碼粘貼到第一個單元格的筆記本。

                babynames=火花。讀。格式(“csv”)。選項(“頭”,“真正的”)。選項(“inferSchema”,“真正的”)。負載(“dbfs: / FileStore / babynames.csv”)babynames。createOrReplaceTempView(“babynames_table”)年=火花。sql(“從babynames_table選擇不同(年)”)。抽樣。地圖(λ行:行(0])。收集()年。排序()dbutils。小部件。下拉(“年”,“2014”,(str(x)為x在年])顯示(babynames。過濾器(babynames。一年= =dbutils。小部件。得到(“年”)))
               

創建一個工作

點擊工作流在側邊欄。
點擊。
的任務選項卡顯示了創建任務對話框。
取代添加一個名稱為你的工作…對你的工作名稱。
在任務名稱字段中,輸入一個名稱的任務;例如,retrieve-baby-names。
在類型下拉,選擇筆記本。
使用文件瀏覽器來找到您創建第一個筆記本,點擊筆記本名稱,點擊確認。
點擊創建任務。
點擊下麵您剛才創建的任務添加另一個任務。
在任務名稱字段中,輸入一個名稱的任務;例如,filter-baby-names。
在類型下拉,選擇筆記本。
使用文件瀏覽器找到創建第二個筆記本,點擊筆記本名稱,點擊確認。
點擊添加下參數。在關鍵字段中,輸入一年。在價值字段中,輸入2014年。
點擊創建任務。

運行作業

立即運行任務,點擊在右上角。您還可以通過單擊運行工作運行選項卡並單擊現在運行在活躍的運行表。

查看運行細節

單擊運行選項卡並單擊該鏈接的運行活躍的運行表或完成運行60天(過去)表。
點擊任務查看輸出和細節。例如,單擊filter-baby-names任務視圖狀態和輸出濾波器的任務:

使用不同的參數

重新運行工作和過濾嬰兒名字的不同:

點擊旁邊現在運行並選擇現在有了不同的參數運行或者點擊現在有了不同的參數運行在活躍的運行表。
在價值字段中,輸入2015年。
點擊運行。