取消
顯示的結果
而不是尋找
你的意思是:

與三角洲從S3 bucket構造Dataframe或抽樣表

Ovi
新的貢獻者三世

嗨!

我有一個S3 bucket與δ拚花具有不同模式的文件/文件夾。我需要創建一個抽樣或從所有這些DataFrame三角洲表應該包含的路徑,名稱和不同的模式。

我怎麼能這樣做呢?

謝謝你!

PS:我需要這個能夠比較他們與Avroschema三角洲模式相同的表從另一個S3 bucket(至少或類似)。

5回複5

Hubert_Dudek1
尊敬的貢獻者三世

你可以直接掛載S3 bucket或閱讀。

access_key = dbutils.secrets。得到(=“aws”範圍,鍵=“aws-access-key”) secret_key = dbutils.secrets。得到(=“aws”範圍,鍵=“aws-secret-key”) sc._jsc.hadoopConfiguration()這裏(“fs.s3a.access。鍵”,access_key) sc._jsc.hadoopConfiguration()這裏(“fs.s3a.secret。關鍵”,secret_key) #如果您使用的是自動加載程序文件通知模式加載文件,提供AWS地區ID. aws_region = " aws-region-id”sc._jsc.hadoopConfiguration()這裏(“fs.s3a。端點”、“s3。”+ aws_region + ".amazonaws.com") myRDD = sc.textFile("s3a://%s/.../..." % aws_bucket_name) myRDD.count()

山:

access_key = dbutils.secrets。得到(=“aws”範圍,鍵=“aws-access-key”) secret_key = dbutils.secrets。得到(=“aws”範圍,鍵=“aws-secret-key”) encoded_secret_key = secret_key。替換(“/”、“% 2 f”) aws_bucket_name = < aws-bucket-name >“mount_name = dbutils.fs“< mount-name >”。山(f”s3a: / / {access_key}: {encoded_secret_key} @ {aws_bucket_name}”, f“/ mnt / {mount_name}”)顯示(dbutils.fs.ls (f / mnt / {mount_name}))

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map