實時同步本地文件與遠程工作區
請注意
本文將介紹dbx
由Databricks Labs提供,該軟件是原樣提供的,Databricks不通過客戶技術支持渠道提供支持。問題和功能請求可以通過問題頁麵的databrickslabs / dbx在GitHub回購。
可以將本地開發機器上的文件與Databricks工作空間中的相應文件進行實時同步更改dbx通過磚實驗室。這些工作空間文件可以放在DBFS或在磚回購.
實時文件同步dbx
(也稱為dbx同步
)在快速代碼開發場景中非常有用。例如,您可以使用本地集成開發環境(IDE)來實現諸如語法高亮顯示、智能代碼完成、代碼檢測以及測試和調試等生產力特性。然後,您可以立即轉到您的工作空間並運行更新後的代碼。
dbx同步
開發工作流程
有兩個開發工作流dbx同步
其中一個使用DBFS,另一個使用Databricks Repos。
典型的開發工作流dbx同步
和DBFS是:
確定一個本地目錄,其中包含要同步到DBFS的文件。
在DBFS中標識您希望本地目錄與之同步的路徑
dbx同步
創建一個默認的DBFS路徑)。運行
dbx同步dbfs
將本地目錄同步到DBFS路徑。dbx同步
開始監視本地目錄中的任何文件更改。根據需要對本地目錄中的文件進行更改。
dbx同步
將這些更改實時應用到DBFS路徑中的相應文件。
典型的開發工作流dbx同步
Databricks Repos是:
創建一個存儲庫Git提供者如果您還沒有可用的存儲庫,則可以使用Databricks Repos支持的數據庫。
克隆您的回購到您的Databricks工作空間。
將您的回購複製到本地開發機器中。
運行
dbx同步回購
將本地克隆回購與工作區克隆回購關聯。dbx同步
開始監視本地目錄中的任何文件更改。根據需要對本地克隆回購中的文件進行更改。
dbx同步
將這些更改實時應用到Databricks Repos中的相應文件中。定期地將工作區中克隆的回購中的更新文件推送到Git提供程序中,以便回購與Git提供程序保持同步。
重要的
dbx同步
隻執行從本地開發機器到遠程工作區的文件更改的單向實時同步。因此,Databricks不建議您在Databricks工作空間中對由dbx同步
.如果您必須進行這種工作空間發起的文件更改,那麼您還必須執行以下操作:
對於DBFS中的文件更改,手動對本地文件進行相應的更改。
對於Databricks Repos中的文件更改,請將文件更改從工作區推到Git提供程序中。然後,在本地開發機器上,從Git提供程序中提取這些文件更改。
需求
如果你想用dbx同步
使用Databricks Repos,您的Databricks工作空間必須滿足以下要求:
一個克隆在Git提供程序中使用您的存儲庫,雖然不是必需的,但建議使用。用Databricks Repos建立源代碼控製首先用於您的工作空間,包括支持任意文件,如果你還沒有這樣做。
在您的本地開發機器上,您必須安裝以下程序:
Python版本3.8或以上。執行命令查看是否安裝了Python,以及您安裝的Python版本
python——版本
在您的終端或PowerShell中。python的版本
請注意
一些設施
python
可能需要你使用嗎python3
而不是python
.如果是這樣,替代python
與python3
在這篇文章。皮普.檢查是否
皮普
是否安裝,並檢查您的安裝皮普
版本,運行皮普——版本
或python- m皮普——版本
.皮普,版本#還是……Python -m PIP——version
請注意
一些設施
皮普
可能需要你使用嗎pip3
而不是皮普
.如果是這樣,替代皮普
與pip3
在這篇文章。dbx0.7.0或以上版本。檢查是否
dbx
是否安裝,並檢查您的安裝dbx
版本,運行dbx——版本
.安裝dbx
從Python包索引(PyPI),運行皮普安裝dbx
或python- m皮普安裝dbx
.(dbx
包括dbx同步.)檢查dbx是否已安裝,並檢查其版本。dbx——版本#安裝dbx。pip安裝dbx#還是……Python -m PIP install DBX
請注意
有關
dbx
,請參閱Databricks Labs的dbx和dbx文檔.的磚CLI,與身份驗證.安裝過程中會自動安裝Databricks命令行
dbx
.可以在以下一個或兩個位置的本地開發機器上設置此身份驗證:在
DATABRICKS_HOST
而且DATABRICKS_TOKEN
環境變量(從Databricks CLI版本0.8.0開始)。在你的個人資料裏
.databrickscfg
文件。
dbx
分別在這兩個位置查找身份驗證憑據。dbx
隻使用找到的第一組匹配憑據。請注意
如果你使用
.databrickscfg
文件,dbx同步
在此文件中查找名為默認的
默認情況下。要指定不同的概要文件,請使用——簡介
選項時的dbx同步
命令,在本文後麵介紹。dbx
不支持使用. netrc申請認證。如果你想用
dbx同步
使用Databricks Repos,建議使用Git提供程序對您的存儲庫進行本地克隆,但這不是必需的。要執行本地克隆,請參考Git提供程序的文檔。
使用DBFSdbx同步
從本地開發機器上的終端或PowerShell,切換到包含要同步到Databricks工作空間中的DBFS的文件的目錄。
運行dbx同步命令將本地目錄同步到工作區中的DBFS,如下所示。)不要忘記那個點
.
),它代表您的當前目錄。DBX同步DBFS——source。
提示
要指定不同的源目錄,請替換點號(
.
)走不同的路。請注意
如果錯誤
錯誤:沒有這樣的命令“同步”
出現,您的安裝dbx
可能已經過時了。要解決這個問題,請跑步皮普安裝——升級dbx = = <版本>
或python- m皮普安裝——升級dbx = =版本
,在那裏<版本>
是最新的版本嗎dbx
.此版本號可在dbx的PyPI網頁.pip安裝,升級dbx= =<版本>#還是……Python -m PIP install——upgradedbx= =版本
dbx同步
開始將當前本地目錄中的文件與工作區中以下DBFS路徑中的文件同步。dbx同步
通過打印確認目標基地路徑
後麵跟著DBFS路徑,例如:/ tmp /用戶/ < your-Databricks-username > / < local-directory-name >
提示
要指定不同的用戶名或DBFS路徑,請指定
——用戶
而且——桌子
選項,在運行時分別執行dbx同步
.根據需要對本地文件進行更改。
重要的
您必須保持您的終端或PowerShell打開
dbx同步
繼續同步。如果你關閉終端或PowerShell,dbx同步
停止監視文件更改並停止同步。若要恢複文件更改同步,請從頭重複此過程。根據需要,在工作區的DBFS中驗證上述路徑中的文件更改。
使用Databricks回購與dbx同步
從本地開發機器上的終端或PowerShell,切換到包含Git提供程序的存儲庫克隆的根目錄。
在Databricks工作空間中,確定要將本地克隆的回購同步到的Databricks回購的名稱。可以通過單擊。找到該回購名稱回購圖標數據科學與工程或機器學習視圖的側欄。
在本地開發機器上運行dbx同步命令將本地克隆存儲庫同步到工作空間中的Databricks Repos,如下所示,替換
< your-repo-name >
在Databricks回購中寫上你的回購名稱)不要忘記那個點.
),它代表您的當前目錄。DBX同步repo -d
——source。 提示
要指定不同的源目錄,請替換點號(
.
)走不同的路。請注意
如果錯誤
錯誤:沒有這樣的命令“同步”
出現,您的安裝dbx
可能已經過時了。要解決這個問題,請跑步皮普安裝——升級dbx = = <版本>
或python- m皮普安裝——升級dbx = =版本
,在那裏<版本>
是最新的版本嗎dbx
.此版本號可在dbx的PyPI網頁.pip安裝,升級dbx= =<版本>#還是……Python -m PIP install——upgradedbx= =版本
dbx同步
開始將本地克隆存儲庫中的文件與工作區中的Databricks Repos中的文件同步。dbx同步
通過打印確認目標基地路徑
然後是Databricks Repos路徑,例如:/回購/ < your-Databricks-username > / < your-repo-name >
提示
若要指定不同的用戶名或回購名,請指定
——用戶
而且——dest-repo
選項,在運行時分別執行dbx同步
.根據需要對本地文件進行更改。
重要的
您必須保持您的終端或PowerShell打開
dbx同步
繼續同步。如果你關閉終端或PowerShell,dbx同步
停止監視文件更改並停止同步。若要恢複文件更改同步,請從頭重複此過程。根據需要,在工作區中的Databricks Repos中驗證文件更改。
額外的資源
databrickslabs / dbx在GitHub庫