創建和運行數據磚的工作
本文詳細介紹如何創建和運行數據磚工作使用UI。學習使用磚CLI的創建和運行工作,明白了喬布斯CLI。使用API的工作了解,明白了喬布斯API 2.1。
為工作和學習配置選項如何編輯你的現有工作,明白了配置設置磚的工作。
學習如何管理和監控工作,明白了查看和管理工作。
創建您的第一個工作流與磚的工作,看到快速入門。
重要的
你隻能創造就業數據科學與工程工作區或一個機器學習的工作區。
1000個並發任務工作空間是有限的。一個
429年太許多請求
當你返回請求的響應不能立即開始運行。就業人數工作區可以創建在10000年一個小時是有限的(包括”提交”)。REST API創建的這個限製也會影響就業和筆記本工作流。
創建一個工作
做下列之一:
點擊工作流在側邊欄,然後單擊。
在側邊欄中,單擊新並選擇工作。
的任務選項卡創建任務對話框出現。
取代添加一個名稱為你的工作…對你的工作名稱。
輸入一個名稱的任務任務名稱字段。
在類型下拉菜單中,選擇任務運行的類型。看到任務類型的選擇。
配置任務運行的集群。在集群下拉菜單,選擇新工作的集群或現有通用的集群。
新工作的集群:點擊編輯在集群下拉菜單並完成集群配置。
現有通用的集群:選擇一個現有的集群中集群下拉菜單。在新頁麵中打開集群,單擊圖標右邊的集群名稱和描述。
了解更多關於選擇和配置集群運行任務,明白了使用磚計算你們的工作。
添加依賴庫,點擊+添加旁邊依賴庫。看到配置依賴庫。
你可以為你的任務傳遞參數。每個任務類型有不同的要求,格式和傳遞參數。
筆記本:點擊添加並指定每個參數的鍵和值傳遞給任務。你可以覆蓋或添加額外的參數手動運行一個任務使用用不同的參數運行工作選擇。參數設置的值筆記本電腦部件指定的關鍵參數。使用任務參數變量通過一組有限的動態值作為參數值的一部分。
JAR:使用json格式的字符串來指定參數的數組。這些字符串作為參數傳遞給主類的主要方法。看到配置罐工作參數。
火花提交任務:參數指定為一個json格式的字符串數組。符合Apache火花spark-submit慣例,參數在JAR的路徑傳遞給主類的主要方法。
Python腳本:使用json格式的字符串來指定參數的數組。這些字符串作為參數傳遞,可以解析使用argparse在Python模塊。
Python輪:在參數下拉菜單,選擇位置參數輸入參數作為json格式的字符串數組,或選擇關鍵字參數>添加進入每個參數的鍵和值。這兩個位置參數和關鍵字參數都作為命令行參數傳遞給Python輪任務。
為任務開始有選擇地接收通知,成功,或失敗,點擊+添加旁邊電子郵件。通知發送初始任務失敗和任何後續重試。
可選配置重試策略的任務,點擊+添加旁邊重試。看到配置重試策略。
可選配置的超時任務,點擊+添加旁邊在幾秒鍾內超時。看到為一個任務配置超時。
點擊創建。
創建第一個任務後,您可以配置工作水平設置,如通知、工作觸發器和權限。看到編輯的工作。
添加另一個任務,點擊在DAG視圖中。一個共享的集群選項如果您配置了一個提供新工作的集群前一個任務。您還可以配置一個集群為每個任務當您創建或編輯一個任務。了解更多關於選擇和配置集群運行任務,明白了使用磚計算你們的工作。
任務類型的選擇
以下是可以添加到你的磚工作任務類型和可用的選項不同的任務類型:
筆記本:在源下拉菜單,選擇一個筆記本的位置;要麼工作空間對於一個筆記本或位於一個磚工作區文件夾Git提供者筆記本位於一個偏遠的Git存儲庫。
工作空間:使用文件瀏覽器找到筆記本,點擊筆記本名稱,點擊確認。
Git提供者:點擊編輯並輸入Git存儲庫信息。看到在磚使用源代碼版本控製工作。
請注意
筆記本電池總產量(合並後輸出的筆記本電池)20 mb的大小限製。此外,單個細胞輸出8 mb大小限製。如果電池總產量超過20 mb,或者單個細胞的輸出大於8 mb,運行是取消,標記為失敗。
JAR:指定主類。使用類的完全限定名稱包含的主要方法,例如,
org.apache.spark.examples.SparkPi
。然後單擊添加下依賴庫添加庫才能運行這個任務。這些庫必須包含主類之一。了解更多關於JAR任務,明白了用一罐磚的工作。
火花提交:在參數文本框,指定主類,庫JAR的路徑,和所有參數,格式化為JSON字符串的數組。下麵的示例配置spark-submit任務運行
DFSReadWriteTest
從Apache火花的例子:(”——階級”,“org.apache.spark.examples.DFSReadWriteTest”,“dbfs: / FileStore /圖書館/ spark_examples_2_12_3_1_1.jar”,“/ dbfs / databricks-datasets / README.md”,“/ FileStore / /輸出例子/”]
Python腳本:在源下拉,選擇一個Python腳本的位置工作空間腳本在本地工作區,或DBFS一個腳本位於DBFS和雲存儲。在路徑文本框中,輸入Python腳本的路徑:
工作空間:在選擇Python文件並單擊對話框中,瀏覽到Python腳本確認。必須在您的腳本磚回購。
DBFS:輸入一個Python腳本的URI DBFS和雲存儲;例如,
dbfs: / FileStore / myscript.py
。三角洲生活表管道:在管道下拉菜單,選擇一個已存在的三角洲生活表管道。
重要的
你隻可以使用管道的觸發管道的任務。不支持連續管道的工作任務。更多地了解和連續管道引起的,看到的連續與管道執行觸發。
Python輪:在包名文本框,輸入包導入,例如,
mywheel - 1.0 - py2.py3 any.whl——沒有
。在入口點文本框中,輸入函數調用時開始。點擊添加下依賴庫添加庫才能運行這個任務。印度生物技術部:看在磚使用印度生物技術部轉換工作對於一個詳細示例如何配置一個印度生物技術部的任務。
運行工作
點擊工作流在側邊欄。
選擇一份工作並單擊運行選項卡。您可以運行工作運行後立即或調度的工作。
如果一個或多個任務的工作與多個任務不成功,您可以重新運行失敗的任務的一部分。看到重新運行失敗,跳過任務。
運行安排一份工作
您可以使用一個安排在指定的時間自動運行磚的工作和時間。看到添加一個工作進度表。
運行一個連續工作
你可以確保你的工作總是有一個活躍的運行。看到運行一個連續工作。