生成是一個客戶端庫,允許您從任何機器執行所有AWS S3操作。
Databricks集群默認不安裝s3cmd。在使用它之前,必須通過集群範圍的初始化腳本安裝它。
創建初始化腳本
在筆記本中運行這個示例腳本,在集群上創建init腳本。
%python dbutls .fs.put("dbfs:/databricks//s3cmd-init.sh",""" #!/bin/bash #用途:安裝和配置s3cmd sudo apt-get -y install s3cmd cat > /root/s3cfg < 記住初始化腳本的路徑。在配置集群時將需要它。
配置init腳本
參考文檔配置一個集群範圍的初始化腳本.
指定初始化腳本的路徑。使用在示例腳本中使用的相同路徑(dbfs: /磚/ <目錄> / s3cmd-init.sh).
添加秘密環境變量
避免直接在init腳本中存儲秘密。相反,將秘密的路徑存儲在環境變量中.
ACCESS_KEY ={{秘密/ < scope-name > / <秘密名字>}}SECRET_KEY ={{秘密/ < scope-name > / <秘密名字>}}配置了環境變量之後,init腳本就可以使用它們了。
重新啟動集群
初始化腳本配置完成後,需要重啟集群。
您現在可以使用生成在筆記本上% sh神奇的命令.