如何在Databricks中正確更新Maven庫

在Databricks中學習如何正確更新Maven庫。

寫的亞當Pavlacka

最後發布日期:2022年5月11日

問題

您對存儲庫中的庫進行了小的更新,但不希望更改版本號,因為這是出於測試目的的小更改。當您再次將庫附加到集群時,您的代碼更改不會包含在庫中。

導致

Databricks的一個優點是能夠安裝第三方或自定義庫,例如從Maven存儲庫安裝。但是,當在存儲庫中更新庫時,沒有自動的方法來更新集群中相應的庫。

當你請求Databricks下載一個庫以便將它附加到集群時,會發生以下過程:

  1. 在Databricks中,您從Maven存儲庫請求一個庫。
  2. Databricks檢查本地緩存中的庫,如果不存在,則將庫從Maven存儲庫下載到本地緩存中。
  3. 然後Databricks將庫複製到DBFS (maven / / FileStore /罐/).
  4. 在對庫的後續請求中,Databricks使用已經複製到DBFS的文件,而不下載新的副本。

解決方案

為了確保庫(或者您定製的庫)的更新版本被下載到集群,請確保以某種方式增加構件的構建號或版本號。例如,你可以改變libA_v1.0.0-SNAPSHOTlibA_v1.0.1-SNAPSHOT,然後下載新的庫。然後可以將它附加到您的集群。