Git與Databricks Repos集成的限製和常見問題

Databricks Repos和Git集成有以下部分指定的限製。有關一般信息,請參見磚的限製

文件和回購大小限製

Databricks不會強製限製回購的大小。然而:

  • 工作分支限製為200 MB。

  • 單個文件限製為200mb。

  • 在Databricks界麵中無法查看大於10mb的文件。

Databricks建議在回購中:

  • 所有文件總數不能超過10000個。

  • 筆記本總數不超過5000本。

如果您的回購超出了這些限製,您可能會收到一條錯誤消息。克隆回購時還可能收到超時錯誤,但操作可能在後台完成。

回購配置

哪裏是Databricks回購內容存儲?

回購的內容臨時克隆到控製平麵的磁盤上。Databricks筆記本文件存儲在控製平麵數據庫中,就像主工作區中的筆記本一樣。非筆記本文件可在磁盤上存儲30天。

Repos支持本地或自托管的Git服務器嗎?

Databricks Repos支持比特桶服務器集成,如果服務器是互聯網可訪問的。

要與Bitbucket服務器、GitHub企業服務器或不能通過互聯網訪問的GitLab自我管理的訂閱實例集成,請與Databricks代表聯係。

回購支持嗎.gitignore文件?

是的。如果您向repo中添加了一個文件,並且不希望Git跟蹤它,請創建一個.gitignore文件或使用從遠程存儲庫克隆的文件,並添加文件名,包括擴展名。

.gitignore僅適用於尚未被Git跟蹤的文件。如果您將一個已經被Git跟蹤的文件添加到.gitignore文件,文件仍然被Git跟蹤。

我可以創建不是用戶文件夾的頂級文件夾嗎?

是的,管理員可以創建單一深度的頂級文件夾。Repos不支持額外的文件夾級別。

Repos支持Git子模塊嗎?

不。你可以克隆一個包含Git子模塊的repo,但是子模塊不會被克隆。

如何在工作空間中禁用repo ?

按照以下步驟在工作空間中禁用Repos for Git。

  1. 管理控製台

  2. 單擊工作空間設置選項卡。

  3. 先進的部分,單擊回購切換。

  4. 點擊確認

  5. 刷新瀏覽器。

源管理

為什麼當我拉出或簽出一個不同的分支時,筆記本電腦的儀表盤消失了?

這是目前的一個限製,因為Databricks筆記本源文件不存儲筆記本儀表板信息。

我能靠邊停車嗎.ipynb文件?

是的。文件在. json格式,不是筆記本格式。

回購支持分支合並嗎?

不。Databricks建議您通過Git提供程序創建一個pull請求並合並。

我可以從Databricks回購中刪除分支嗎?

不。要刪除分支,必須在Git提供程序中工作。

如果在集群上安裝了一個庫,並且在repo中的一個文件夾中包含了同名的庫,將導入哪個庫?

導入了repo中的庫。

在運行作業之前,我是否可以從Git中提取最新版本的存儲庫,而不依賴外部編製工具?

不。通常,您可以將此集成為Git服務器上的預提交,以便每次推送到分支(main/prod)都會更新Production repo。

我可以導出回購嗎?

您可以導出筆記本,文件夾,或整個回購。不能導出非筆記本文件,如果導出整個回購,則不包括非筆記本文件。要導出,請使用工作區CLI或者是工作區API 2.0

安全性、身份驗證和令牌

資料庫的內容是否已加密?

Databricks回購的內容由Databricks使用平台管理的密鑰加密。Beplay体育安卓版本加密使用用於托管服務的客戶管理密鑰不支持。

GitHub令牌如何以及在哪裏存儲在Databricks?誰能訪問數據庫?

  • 身份驗證令牌存儲在Databricks控製平麵中,Databricks員工隻能通過經過審計的臨時憑據獲得訪問權限。

  • Databricks記錄這些令牌的創建和刪除,但不記錄它們的使用。Databricks具有跟蹤Git操作的日誌記錄,可用於審計Databricks應用程序對令牌的使用情況。

  • GitHub企業審計令牌使用情況。其他Git服務可能也有Git服務器審計。

Repos是否支持提交的GPG簽名?

不。

Repos支持SSH嗎?

不,隻有HTTPS。

CI/CD和MLOps

傳入的更改將清除筆記本狀態

修改筆記本源代碼的Git操作將導致丟失筆記本狀態,包括單元格結果、注釋、修訂曆史和小部件。例如,Git可以更改筆記本的源代碼。在這種情況下,Databricks Repos必須覆蓋現有的筆記本以導入更改。Git的提交和推送或者創建一個新的分支都不會影響筆記本的源代碼,所以在這些操作中會保留筆記本的狀態。

防止MLflow實驗數據丟失

在這種情況下,筆記本中的MLflow實驗數據可能會丟失:重命名筆記本,然後在調用任何MLflow命令之前,更改為不包含筆記本的分支。

為了避免這種情況,Databricks建議避免在回購中重命名筆記本。

我可以在回購中創建MLflow實驗嗎?

不。您隻能在工作空間中創建MLflow實驗。實驗創建在回購之前3.72平Beplay体育安卓版本台發布不再受支持,盡管它們可能在沒有保證的情況下繼續工作。Databricks建議將現有的實驗導出到工作空間實驗使用MLflow導出工具

如果在進行Git操作時,作業開始在筆記本上運行,會發生什麼情況?

在進行Git操作的任何時候,回購中的一些筆記本可能已經更新,而其他筆記本則沒有更新。這可能會導致不可預測的行為。

例如,假設筆記本A使用A調用筆記本Z運行%命令。如果在Git操作期間運行的作業啟動了筆記本a的最新版本,但筆記本Z尚未更新,則運行%在Git操作過程中,筆記本狀態不可預測,作業可能會失敗,或者在不同的提交中運行筆記本A和筆記本Z。

非筆記本文件:repo中的文件

Repos中的文件支持Databricks Repos中的非筆記本解決方案文件。

  • 在Databricks Runtime 10.1及以下版本中,Repos中的文件與Spark Streaming不兼容。要在運行Databricks Runtime 10.1或以下版本的集群上使用Spark Streaming,必須禁用集群上的“Files in Repos”。設置火花配置spark.databricks.enableWsfs

  • UI中隻呈現文本編碼的文件。在“數據庫”中查看的文件大小不能超過10mb。

  • 不能從筆記本中創建或編輯文件。

  • 隻能導出筆記本。不能從回購中導出非筆記本文件。

不支持Scala中的文件操作

對於Repos中的文件,不支持Scala中的文件操作。你可能會看到這樣的錯誤錯誤:發現:價值試一試

Scala未發現錯誤

如何在回購中運行非databricks筆記本文件?例如,. py文件嗎?

你可以使用以下任何一種: