實時同步本地文件與遠程工作區

請注意

本文將介紹dbx由Databricks Labs提供,該軟件是原樣提供的,Databricks不通過客戶技術支持渠道提供支持。問題和功能請求可以通過問題頁麵的databrickslabs / dbx在GitHub回購。

可以將本地開發機器上的文件與Databricks工作空間中的相應文件進行實時同步更改dbx通過磚實驗室。這些工作空間文件可以放在DBFS或在磚回購

實時文件同步dbx(也稱為dbx同步)在快速代碼開發場景中非常有用。例如,您可以使用本地集成開發環境(IDE)來實現諸如語法高亮顯示、智能代碼完成、代碼檢測以及測試和調試等生產力特性。然後,您可以立即轉到您的工作空間並運行更新後的代碼。

您可以使用dbx同步就其本身而言,與自動工作,或與IDE

dbx同步開發工作流程

有兩個開發工作流dbx同步其中一個使用DBFS,另一個使用Databricks Repos。

典型的開發工作流dbx同步和DBFS是:

  1. 確定一個本地目錄,其中包含要同步到DBFS的文件。

  2. 在DBFS中標識您希望本地目錄與之同步的路徑dbx同步創建一個默認的DBFS路徑)。

  3. 運行dbx同步dbfs將本地目錄同步到DBFS路徑。dbx同步開始監視本地目錄中的任何文件更改。

  4. 根據需要對本地目錄中的文件進行更改。dbx同步將這些更改實時應用到DBFS路徑中的相應文件。

典型的開發工作流dbx同步Databricks Repos是:

  1. 創建一個存儲庫Git提供者如果您還沒有可用的存儲庫,則可以使用Databricks Repos支持的數據庫。

  2. 克隆您的回購到您的Databricks工作空間。

  3. 將您的回購複製到本地開發機器中。

  4. 運行dbx同步回購將本地克隆回購與工作區克隆回購關聯。dbx同步開始監視本地目錄中的任何文件更改。

  5. 根據需要對本地克隆回購中的文件進行更改。dbx同步將這些更改實時應用到Databricks Repos中的相應文件中。

  6. 定期地將工作區中克隆的回購中的更新文件推送到Git提供程序中,以便回購與Git提供程序保持同步。

重要的

dbx同步隻執行從本地開發機器到遠程工作區的文件更改的單向實時同步。因此,Databricks不建議您在Databricks工作空間中對由dbx同步.如果您必須進行這種工作空間發起的文件更改,那麼您還必須執行以下操作:

  • 對於DBFS中的文件更改,手動對本地文件進行相應的更改。

  • 對於Databricks Repos中的文件更改,請將文件更改從工作區推到Git提供程序中。然後,在本地開發機器上,從Git提供程序中提取這些文件更改。

需求

如果你想用dbx同步使用Databricks Repos,您的Databricks工作空間必須滿足以下要求:

  • 一個克隆在Git提供程序中使用您的存儲庫,雖然不是必需的,但建議使用。用Databricks Repos建立源代碼控製首先用於您的工作空間,包括支持任意文件,如果你還沒有這樣做。

在您的本地開發機器上,您必須安裝以下程序:

  • Python版本3.8或以上。執行命令查看是否安裝了Python,以及您安裝的Python版本python——版本在您的終端或PowerShell中。

    python的版本

    請注意

    一些設施python可能需要你使用嗎python3而不是python.如果是這樣,替代pythonpython3在這篇文章。

  • 皮普.檢查是否皮普是否安裝,並檢查您的安裝皮普版本,運行皮普——版本python- m皮普——版本

    皮普,版本#還是……Python -m PIP——version

    請注意

    一些設施皮普可能需要你使用嗎pip3而不是皮普.如果是這樣,替代皮普pip3在這篇文章。

  • dbx0.7.0或以上版本。檢查是否dbx是否安裝,並檢查您的安裝dbx版本,運行dbx——版本.安裝dbx從Python包索引(PyPI),運行皮普安裝dbxpython- m皮普安裝dbx.(dbx包括dbx同步.)

    檢查dbx是否已安裝,並檢查其版本。dbx——版本#安裝dbx。pip安裝dbx#還是……Python -m PIP install DBX

    請注意

    有關dbx,請參閱Databricks Labs的dbxdbx文檔

  • 磚CLI,與身份驗證.安裝過程中會自動安裝Databricks命令行dbx.可以在以下一個或兩個位置的本地開發機器上設置此身份驗證:

    • DATABRICKS_HOST而且DATABRICKS_TOKEN環境變量(從Databricks CLI版本0.8.0開始)。

    • 在你的個人資料裏.databrickscfg文件。

    dbx分別在這兩個位置查找身份驗證憑據。dbx隻使用找到的第一組匹配憑據。

    請注意

    如果你使用.databrickscfg文件,dbx同步在此文件中查找名為默認的默認情況下。要指定不同的概要文件,請使用——簡介選項時的dbx同步命令,在本文後麵介紹。

    dbx不支持使用. netrc申請認證。

  • 如果你想用dbx同步使用Databricks Repos,建議使用Git提供程序對您的存儲庫進行本地克隆,但這不是必需的。要執行本地克隆,請參考Git提供程序的文檔。

使用DBFSdbx同步

  1. 從本地開發機器上的終端或PowerShell,切換到包含要同步到Databricks工作空間中的DBFS的文件的目錄。

  2. 運行dbx同步命令將本地目錄同步到工作區中的DBFS,如下所示。)不要忘記那個點),它代表您的當前目錄。

    DBX同步DBFS——source。

    提示

    要指定不同的源目錄,請替換點號()走不同的路。

    請注意

    如果錯誤錯誤:沒有這樣的命令“同步”出現,您的安裝dbx可能已經過時了。要解決這個問題,請跑步皮普安裝——升級dbx = = <版本>python- m皮普安裝——升級dbx = =版本,在那裏<版本>是最新的版本嗎dbx.此版本號可在dbx的PyPI網頁

    pip安裝,升級dbx= =<版本>#還是……Python -m PIP install——upgradedbx= =版本
  3. dbx同步開始將當前本地目錄中的文件與工作區中以下DBFS路徑中的文件同步。dbx同步通過打印確認目標基地路徑後麵跟著DBFS路徑,例如:

    / tmp /用戶/ < your-Databricks-username > / < local-directory-name >

    提示

    要指定不同的用戶名或DBFS路徑,請指定——用戶而且——桌子選項,在運行時分別執行dbx同步

  4. 根據需要對本地文件進行更改。

    重要的

    您必須保持您的終端或PowerShell打開dbx同步繼續同步。如果你關閉終端或PowerShell,dbx同步停止監視文件更改並停止同步。若要恢複文件更改同步,請從頭重複此過程。

  5. 根據需要,在工作區的DBFS中驗證上述路徑中的文件更改。

使用Databricks回購與dbx同步

  1. 從本地開發機器上的終端或PowerShell,切換到包含Git提供程序的存儲庫克隆的根目錄。

  2. 在Databricks工作空間中,確定要將本地克隆的回購同步到的Databricks回購的名稱。可以通過單擊。找到該回購名稱回購圖標數據科學與工程機器學習視圖的側欄。

  3. 在本地開發機器上運行dbx同步命令將本地克隆存儲庫同步到工作空間中的Databricks Repos,如下所示,替換< your-repo-name >在Databricks回購中寫上你的回購名稱)不要忘記那個點),它代表您的當前目錄。

    DBX同步repo -d ——source。

    提示

    要指定不同的源目錄,請替換點號()走不同的路。

    請注意

    如果錯誤錯誤:沒有這樣的命令“同步”出現,您的安裝dbx可能已經過時了。要解決這個問題,請跑步皮普安裝——升級dbx = = <版本>python- m皮普安裝——升級dbx = =版本,在那裏<版本>是最新的版本嗎dbx.此版本號可在dbx的PyPI網頁

    pip安裝,升級dbx= =<版本>#還是……Python -m PIP install——upgradedbx= =版本
  4. dbx同步開始將本地克隆存儲庫中的文件與工作區中的Databricks Repos中的文件同步。dbx同步通過打印確認目標基地路徑然後是Databricks Repos路徑,例如:

    /回購/ < your-Databricks-username > / < your-repo-name >

    提示

    若要指定不同的用戶名或回購名,請指定——用戶而且——dest-repo選項,在運行時分別執行dbx同步

  5. 根據需要對本地文件進行更改。

    重要的

    您必須保持您的終端或PowerShell打開dbx同步繼續同步。如果你關閉終端或PowerShell,dbx同步停止監視文件更改並停止同步。若要恢複文件更改同步,請從頭重複此過程。

  6. 根據需要,在工作區中的Databricks Repos中驗證文件更改。