你可以直接掛載S3 bucket或閱讀。
access_key = dbutils.secrets。得到(=“aws”範圍,鍵=“aws-access-key”) secret_key = dbutils.secrets。得到(=“aws”範圍,鍵=“aws-secret-key”) sc._jsc.hadoopConfiguration()這裏(“fs.s3a.access。鍵”,access_key) sc._jsc.hadoopConfiguration()這裏(“fs.s3a.secret。關鍵”,secret_key) #如果您使用的是自動加載程序文件通知模式加載文件,提供AWS地區ID. aws_region = " aws-region-id”sc._jsc.hadoopConfiguration()這裏(“fs.s3a。端點”、“s3。”+ aws_region + ".amazonaws.com") myRDD = sc.textFile("s3a://%s/.../..." % aws_bucket_name) myRDD.count()
山:
access_key = dbutils.secrets。得到(=“aws”範圍,鍵=“aws-access-key”) secret_key = dbutils.secrets。得到(=“aws”範圍,鍵=“aws-secret-key”) encoded_secret_key = secret_key。替換(“/”、“% 2 f”) aws_bucket_name = < aws-bucket-name >“mount_name = dbutils.fs“< mount-name >”。山(f”s3a: / / {access_key}: {encoded_secret_key} @ {aws_bucket_name}”, f“/ mnt / {mount_name}”)顯示(dbutils.fs.ls (f / mnt / {mount_name}))