嗨@Bhagwan Chaubey,一旦你將你的文件上傳到blob容器,
步驟1:將憑證磚必須連接到您的blob容器
從你的Azure門戶,您需要導航到所有的資源然後選擇你的blob存儲賬戶和下設置選擇賬戶的鑰匙。一旦有,關鍵在Key1複製到一個本地記事本。
步驟2:配置磚來讀取文件
開始讀數據,首先,您需要配置您的火花blob容器會話使用的憑證。這可以簡單地通過spark.conf。設置命令。
storage_account_name = ' nameofyourstorageaccount ' storage_account_access_key = thekeyfortheblobcontainer spark.conf.set (“fs.azure.account.key。”+ storage_account_name +“.blob.core.windows.net”, storage_account_access_key)
一旦完成,我們需要建立blob容器的文件路徑和讀取文件引發數據幀。
blob_container = ' yourblobcontainername ' filePath =“wasbs: / /”+ blob_container + + storage_account_name + ".blob.core.windows.net/Sales/SalesFile.csv“@ salesDf = spark.read.format (csv)。負載(filePath inferSchema = True,頭= True)
恭喜,做完了。
您可以使用顯示命令我們的數據先睹為快。
下麵是我的代碼的快照。
嗨@Bhagwan Chaubey,您可以使用python通過下文提及的代碼來訪問你的文件。
#一旦你安裝一個Blob存儲容器容器內的一個或一個文件夾通過代碼:——dbutils.fs。山(源= " wasbs: / / <容器名稱> @ < storage-account-name > .blob.core.windows.net”, mount_point =“/ mnt / < mount-name >”, extra_configs = {" < conf-key > ": dbutils.secrets。get(範圍= " < scope-name >”,關鍵=“<鍵名>”)})#讀取csv數據df = spark.read.csv (“dbfs: / mnt / % s / ....”% ) display(df)
嗨@Bhagwan Chaubey,
< mount-name >是DBFS路徑代表的Blob存儲容器或容器內部的一個文件夾中指定(源)將安裝在DBFS。
創建文件夾在您的blob容器嗎?如果不是,你將簡單-掛載點“dbfs: / mnt / dataset.csv”
你可以在下麵的截圖中看到:-
如果我想讀country_classification.csv文件,在我的例子中掛載點將“dbfs: / mnt / country_classification。csv”我沒有創建任何文件夾或目錄在我的團。
添加我的臨時代碼:-
請讓我知道如果你有任何疑問。