Git與Databricks Repos集成的限製和常見問題
Databricks Repos和Git集成有以下部分指定的限製。有關一般信息,請參見磚的限製.
文件和回購大小限製
Databricks不會強製限製回購的大小。然而:
工作分支限製為200 MB。
單個文件限製為200mb。
在Databricks界麵中無法查看大於10mb的文件。
Databricks建議在回購中:
所有文件總數不能超過10000個。
筆記本總數不超過5000本。
如果您的回購超出了這些限製,您可能會收到一條錯誤消息。克隆回購時還可能收到超時錯誤,但操作可能在後台完成。
回購配置
Repos支持本地或自托管的Git服務器嗎?
Databricks Repos支持比特桶服務器集成,如果服務器是互聯網可訪問的。
要與Bitbucket服務器、GitHub企業服務器或不能通過互聯網訪問的GitLab自我管理的訂閱實例集成,請與Databricks代表聯係。
源管理
在運行作業之前,我是否可以從Git中提取最新版本的存儲庫,而不依賴外部編製工具?
不。通常,您可以將此集成為Git服務器上的預提交,以便每次推送到分支(main/prod)都會更新Production repo。
我可以導出回購嗎?
您可以導出筆記本,文件夾,或整個回購。不能導出非筆記本文件,如果導出整個回購,則不包括非筆記本文件。要導出,請使用工作區CLI或者是工作區API 2.0.
安全性、身份驗證和令牌
資料庫的內容是否已加密?
Databricks回購的內容由Databricks使用平台管理的密鑰加密。Beplay体育安卓版本加密使用用於托管服務的客戶管理密鑰不支持。
CI/CD和MLOps
傳入的更改將清除筆記本狀態
修改筆記本源代碼的Git操作將導致丟失筆記本狀態,包括單元格結果、注釋、修訂曆史和小部件。例如,Git可以更改筆記本的源代碼。在這種情況下,Databricks Repos必須覆蓋現有的筆記本以導入更改。Git的提交和推送或者創建一個新的分支都不會影響筆記本的源代碼,所以在這些操作中會保留筆記本的狀態。
防止MLflow實驗數據丟失
在這種情況下,筆記本中的MLflow實驗數據可能會丟失:重命名筆記本,然後在調用任何MLflow命令之前,更改為不包含筆記本的分支。
為了避免這種情況,Databricks建議避免在回購中重命名筆記本。
我可以在回購中創建MLflow實驗嗎?
不。您隻能在工作空間中創建MLflow實驗。實驗創建在回購之前3.72平Beplay体育安卓版本台發布不再受支持,盡管它們可能在沒有保證的情況下繼續工作。Databricks建議將現有的實驗導出到工作空間實驗使用MLflow導出工具.
非筆記本文件:repo中的文件
Repos中的文件支持Databricks Repos中的非筆記本解決方案文件。
在Databricks Runtime 10.1及以下版本中,Repos中的文件與Spark Streaming不兼容。要在運行Databricks Runtime 10.1或以下版本的集群上使用Spark Streaming,必須禁用集群上的“Files in Repos”。設置火花配置
spark.databricks.enableWsfs假
.UI中隻呈現文本編碼的文件。在“數據庫”中查看的文件大小不能超過10mb。
不能從筆記本中創建或編輯文件。
隻能導出筆記本。不能從回購中導出非筆記本文件。
如何在回購中運行非databricks筆記本文件?例如,. py
文件嗎?
你可以使用以下任何一種:
在集群上捆綁並部署為庫。
Pip直接安裝Git存儲庫。這需要一個證書秘密的經理.
使用
運行%
內聯代碼在筆記本。使用自定義容器映像。看到使用Databricks Container Services定製容器.