管理筆記本
您可以使用UI、CLI和調用工作區API來管理筆記本。本文主要討論如何使用UI執行筆記本任務。有關其他方法,請參見磚CLI而且工作區API 2.0.
創建一個筆記本
使用創建按鈕
在默認文件夾中創建新筆記本的最簡單方法是使用創建按鈕:
點擊創建在側邊欄中選擇筆記本從菜單中。出現“創建筆記本”對話框。
輸入一個名稱並選擇筆記本的默認語言。
如果有正在運行的集群,則集群下拉顯示。選擇需要的集群附加筆記本。
點擊創建.
在任意文件夾中創建一個筆記本
可以在任何文件夾中創建新的筆記本(例如,在共享文件夾)按以下步驟執行:
在側邊欄中,單擊工作空間.做以下任何一件事:
在任何文件夾旁邊,單擊在文本的右邊選擇創建>筆記本.
在工作區或用戶文件夾中,單擊並選擇創建>筆記本.
按照步驟2到步驟4進行使用創建按鈕.
筆記本外部格式
Databricks支持幾種筆記本外部格式:
源文件:隻包含帶有擴展名的源代碼語句的文件
. scala
,. py
,. sql
,或r
.HTML:一個有擴展名的Databricks筆記本
. html
.DBC存檔:磚存檔.
IPython筆記本:Jupyter筆記本擴展
.ipynb
.RMarkdown:一個R減價文檔擴展
.Rmd
.
導入一個筆記本
您可以從URL或文件導入外部筆記本。還可以導入筆記本的ZIP歸檔文件批量導出從Databricks工作空間。
點擊工作空間在側邊欄。做以下任何一件事:
在任何文件夾旁邊,單擊在文本的右邊選擇進口.
在工作區或用戶文件夾中,單擊並選擇進口.
指定URL或瀏覽到一個文件,該文件包含從Databricks工作空間導出的受支持的外部格式或筆記本的ZIP歸檔。
點擊進口.
如果選擇單個筆記本,則將其導出到當前文件夾中。
如果選擇DBC或ZIP存檔,則會在當前文件夾中重新創建其文件夾結構,並導入每個筆記本。
將文件轉換為筆記本
通過在文件的第一個單元格中添加注釋,可以將現有的Python、SQL、Scala和R腳本轉換為單單元格筆記本:
# Databricks筆記本源代碼
——Databricks筆記本源代碼
// Databricks筆記本源代碼
# Databricks筆記本源代碼
Databricks筆記本使用由空格包圍的特殊注釋來定義單元格:
#命令 ----------
——命令 ----------
/ /命令 ----------
#命令 ----------
導出文件夾中的所有筆記本
請注意
當您將筆記本導出為HTML、IPython筆記本或存檔(DBC)時,而您沒有這樣做清除結果,結果運行的筆記本包括。
將工作空間文件夾中的所有文件夾導出為ZIP歸檔文件。
點擊工作空間在側邊欄。做以下任何一件事:
在任何文件夾旁邊,單擊在文本的右邊選擇出口.
在工作區或用戶文件夾中,單擊並選擇出口.
選擇導出格式:
DBC存檔:導出Databricks存檔,這是一種二進製格式,包括元數據和筆記本命令結果。
源文件:導出筆記本源文件的ZIP歸檔文件,可以導入Databricks工作空間,在CI/CD管道中使用,或作為每個筆記本默認語言的源文件查看。筆記本命令結果不包括在內。
HTML檔案:導出HTML文件的ZIP歸檔文件。每個筆記本的HTML文件都可以導入到Databricks工作區中,或者以HTML的形式查看。筆記本命令結果包括在內。
發布一個筆記本
如果您使用的是Community Edition,那麼您可以發布一個筆記本,這樣您就可以共享到筆記本的URL路徑。隨後的發布操作在該URL處更新筆記本。
筆記本和集群
在您可以在筆記本上做任何工作之前,您必須首先將筆記本連接到集群。本節描述如何將筆記本附加到集群和從集群中分離,以及執行這些操作時在幕後發生的情況。
執行上下文
當您將一個筆記本附加到集群時,Databricks會創建一個執行上下文。一個執行上下文的狀態REPL每種支持的編程語言:Python、R、Scala和SQL。當您在筆記本中運行一個單元格時,該命令將被分派到適當的語言REPL環境並運行。
你也可以使用剩下1.2 API創建執行上下文並發送要在執行上下文中運行的命令。類似地,命令被分派到語言REPL環境並運行。
集群有一個最大的執行上下文數量(145)。一旦執行上下文的數量達到了這個閾值,就不能將筆記本附加到集群或創建新的執行上下文。
閑置的執行上下文
考慮執行上下文閑置當上次完成的執行超過設置的空閑閾值時。最後一次完成執行是指筆記本電腦最後一次完成執行命令的時間。空閑閾值是從最後一次完成執行到嚐試自動卸載筆記本之間必須經過的時間。默認空閑閾值為24小時。
當集群達到最大上下文限製時,Databricks會根據需要刪除(驅逐)空閑的執行上下文(從最近最少使用的開始)。即使刪除了上下文,使用上下文的筆記本也會被刪除仍然附加到集群,並出現在集群的筆記本列表中.流筆記本被認為是積極運行的,它們的上下文永遠不會被驅逐,直到它們的執行被停止。如果一個空閑的上下文被移除,UI將顯示一條消息,指示使用該上下文的筆記本由於處於空閑狀態而被分離。
如果您試圖將一個筆記本附加到具有最大執行上下文數量且沒有空閑上下文的集群(或者如果自動清除被禁用),UI將顯示一條消息,說明當前最大執行上下文閾值已達到,並且筆記本將保持分離狀態。
如果您對一個進程進行了fork,一旦fork該進程的請求的執行返回,空閑的執行上下文仍然被認為是空閑的。分叉獨立的進程是不推薦與火花。
配置上下文auto-eviction
默認情況下,自動驅逐功能是啟用的。如果需要禁用集群自動移除功能,請設置火花財產spark.databricks.chauffeur.enableIdleContextTracking假
.
把一個筆記本附在集群上
要將筆記本附加到集群,您需要是否可以附加到集群級別的權限.
重要的
的任何用戶隻要將筆記本連接到集群,就可以使用可以運行權限的筆記本具有訪問集群的隱式權限。
把筆記本附在集群上:
在記事本工具欄中,單擊分離.
從下拉菜單中選擇a集群.
重要的
附帶的筆記本中定義了以下Apache Spark變量。
類 |
變量名 |
---|---|
|
|
|
|
|
|
不要創建SparkSession
,SparkContext
,或SQLContext
.這樣做會導致不一致的行為。
確定Spark和Databricks的運行時版本
要確定您的筆記本所連接的集群的Spark版本,運行:
火花.版本
要確定您的筆記本所連接的集群的Databricks運行時版本,請運行:
火花.相依.得到(“spark.databricks.clusterUsageTags.sparkVersion”)
請注意
這兩sparkVersion
標簽和spark_version
屬性中端點所需的屬性集群API 2.0而且喬布斯API 2.1指的是磚的運行時版本的而不是Spark版本。
從集群中分離一個筆記本
在記事本工具欄中,單擊在<集群名稱>.
選擇分離.
方法還可以將筆記本從集群中分離筆記本電腦頁簽。
將筆記本從集群中分離時,會出現執行上下文移除,所有計算的變量值將從筆記本中清除。
提示
Databricks建議您從集群中分離未使用的筆記本。這將釋放驅動程序上的內存空間。
安排一個筆記本
安排一個筆記本作業定期運行:
在筆記本上,單擊在右上角。如果此筆記本不存在作業,則會出現Schedule對話框。
如果筆記本上已經存在作業,則會出現作業列表對話框。單擊,顯示Schedule對話框添加一個時間表.
在Schedule對話框中,可選地為作業輸入名稱。默認名稱是筆記本電腦的名稱。
選擇手冊隻在手動觸發時運行作業,或者計劃定義運行作業的計劃。如果您選擇計劃,通過下拉框指定頻率、時間和時區。
在集群下拉菜單,選擇要運行該任務的集群。
如果你有允許創建集群權限,默認情況下,作業運行在新工作的集群.單擊,可編輯默認作業集群的配置編輯在字段的右側顯示集群配置對話框.
如果你沒有允許創建集群默認情況下,作業在筆記本附加的集群上運行。如果筆記本沒有附加到集群,則必須從集群下拉。
可選地,輸入任何參數傳遞給工作點擊添加並指定每個參數的鍵和值。參數設置筆記本電腦部件由參數的鍵指定。使用任務參數變量將一組有限的動態值作為參數值的一部分傳遞。
可選地,指定要接收的電子郵件地址警報在工作的事件。看到通知.
點擊提交.
分發的筆記本
允許您輕鬆分發數據庫筆記本電腦, Databricks支持磚存檔這是一個包,可以包含一個筆記本文件夾或一個筆記本。Databricks存檔是一個具有額外元數據並具有擴展名的JAR文件.dbc
.檔案中包含的筆記本是Databricks內部格式的。