為筆記本啟用s3cmd

使用init腳本使s3cmd在筆記本中使用。

寫的pavan.kumarchalamcharla

最後發布日期:2022年5月16日

生成是一個客戶端庫,允許您從任何機器執行所有AWS S3操作。

Databricks集群默認不安裝s3cmd。在使用它之前,必須通過集群範圍的初始化腳本安裝它。

刪除

信息

樣例init腳本在一個環境變量中存儲秘密的路徑。您應該以這種方式存儲秘密,因為在Apache Spark中運行的其他程序無法訪問這些環境變量。

創建初始化腳本

在筆記本中運行這個示例腳本,在集群上創建init腳本。

%python dbutls .fs.put("dbfs:/databricks//s3cmd-init.sh",""" #!/bin/bash #用途:安裝和配置s3cmd sudo apt-get -y install s3cmd cat > /root/s3cfg <
         

記住初始化腳本的路徑。在配置集群時將需要它。

配置init腳本

參考文檔配置一個集群範圍的初始化腳本

指定初始化腳本的路徑。使用在示例腳本中使用的相同路徑(dbfs: /磚/ <目錄> / s3cmd-init.sh).

添加秘密環境變量

避免直接在init腳本中存儲秘密。相反,將秘密的路徑存儲在環境變量中

ACCESS_KEY ={{秘密/ < scope-name > / <秘密名字>}}SECRET_KEY ={{秘密/ < scope-name > / <秘密名字>}}

配置了環境變量之後,init腳本就可以使用它們了。

重新啟動集群

初始化腳本配置完成後,需要重啟集群。

您現在可以使用生成在筆記本上% sh神奇的命令

這篇文章有用嗎?