工作快速入門

這篇文章演示了一個磚工作協調任務閱讀和處理樣本數據集。在這個快速入門,你:

  1. 創建一個新的筆記本和添加代碼來檢索一個示例數據集包含受歡迎的嬰兒名字。

  2. 保存DBFS的樣本數據集。

  3. 創建一個新的筆記本,從DBFS添加代碼來讀取數據,過濾,並顯示結果。

  4. 創建一個新的工作,使用筆記本電腦配置兩個任務。

  5. 運行工作,查看結果。

需求

你必須有集群創建權限創建一個集群或工作權限一個通用的集群。

創建一個筆記本

檢索並保存數據

創建一個筆記本檢索示例數據並將其保存DBFS:

  1. 去你的磚著陸頁麵並選擇創建空白筆記本或者點擊創建圖標創建在側邊欄並選擇筆記本從菜單中。的創建筆記本對話框出現了。

  2. 創建筆記本對話框中,給你的筆記本一個名字;例如,檢索嬰兒名字。選擇Python默認的語言下拉菜單。你可以把集群設置為默認值。您配置集群創建任務時使用這個筆記本。

  3. 點擊創建

  4. 複製下麵的Python代碼粘貼到第一個單元格的筆記本。

    進口請求響應=請求得到(“http://health.data.ny.gov/api/views/myeu-hzra/rows.csv”)csvfile=響應內容解碼(“utf - 8”)dbutilsfs(“dbfs: / FileStore / babynames.csv”,csvfile,真正的)

讀取和顯示過濾後的數據

創建一個筆記本讀和現在的數據過濾:

  1. 去你的磚著陸頁麵並選擇創建空白筆記本或者點擊創建圖標創建在側邊欄並選擇筆記本從菜單中。的創建筆記本對話框出現了。

  2. 創建筆記本對話框中,給你的筆記本一個名字;例如,過濾器嬰兒名字。選擇Python默認的語言下拉菜單。你可以把集群設置為默認值。您配置集群創建任務時使用這個筆記本。

  3. 點擊創建

  4. 複製下麵的Python代碼粘貼到第一個單元格的筆記本。

    babynames=火花格式(“csv”)選項(“頭”,“真正的”)選項(“inferSchema”,“真正的”)負載(“dbfs: / FileStore / babynames.csv”)babynamescreateOrReplaceTempView(“babynames_table”)=火花sql(“從babynames_table選擇不同(年)”)抽樣地圖(λ:(0])收集()排序()dbutils小部件下拉(“年”,“2014”,(str(x)x])顯示(babynames過濾器(babynames一年= =dbutils小部件得到(“年”)))

創建一個工作

  1. 點擊工作圖標工作流在側邊欄。

  2. 點擊創建工作按鈕

    任務選項卡顯示了創建任務對話框。

    創建第一個任務對話框
  3. 取代添加一個名稱為你的工作…對你的工作名稱。

  4. 任務名稱字段中,輸入一個名稱的任務;例如,retrieve-baby-names

  5. 類型下拉,選擇筆記本

  6. 使用文件瀏覽器來找到您創建第一個筆記本,點擊筆記本名稱,點擊確認

  7. 點擊創建任務

  8. 點擊添加任務按鈕下麵您剛才創建的任務添加另一個任務。

  9. 任務名稱字段中,輸入一個名稱的任務;例如,filter-baby-names

  10. 類型下拉,選擇筆記本

  11. 使用文件瀏覽器找到創建第二個筆記本,點擊筆記本名稱,點擊確認

  12. 點擊添加參數。在關鍵字段中,輸入一年。在價值字段中,輸入2014年

  13. 點擊創建任務

運行作業

立即運行任務,點擊現在運行按鈕在右上角。您還可以通過單擊運行工作運行選項卡並單擊現在運行活躍的運行表。

查看運行細節

  1. 單擊運行選項卡並單擊該鏈接的運行活躍的運行表或完成運行60天(過去)表。

  2. 點擊任務查看輸出和細節。例如,單擊filter-baby-names任務視圖狀態和輸出濾波器的任務:

    視圖過濾名字結果

使用不同的參數

重新運行工作和過濾嬰兒名字的不同:

  1. 點擊藍色向下插入符號旁邊現在運行並選擇現在有了不同的參數運行或者點擊現在有了不同的參數運行活躍的運行表。

  2. 價值字段中,輸入2015年

  3. 點擊運行