使用HDFS API讀取Python中的文件
有時可能會直接讀取文件而不使用第三方庫。當您的常規存儲空間和存儲桶沒有作為本地DBFS安裝座,這對於讀取小文件很有用。
使用以下示例代碼進行S3存儲庫存儲。
Uri=sc。_gateway。JVM。爪哇。網。Uri小路=sc。_gateway。JVM。org。apache。hadoop。FS。小路文件係統=sc。_gateway。JVM。org。apache。hadoop。FS。文件係統conf=sc。_JSC。Hadoopconfiguration()FS=小路(('s3a:// /' )。getfilesystem((sc。_JSC。Hadoopconfiguration())iStream=FS。打開((小路(('s3a:// /' ))讀者=sc。_gateway。JVM。爪哇。io。BufferedReader((sc。_jvm。爪哇。io。InputStreamReader((iStream))盡管真的:這條線=讀者。閱讀線()如果這條線是不是沒有任何:打印((這條線)別的:休息iStream。關()
在哪裏
是S3存儲桶的名稱。<文件路徑>
是文件的完整路徑。
使用以下示例代碼進行Azure Blob存儲。
Uri=sc。_gateway。JVM。爪哇。網。Uri小路=sc。_gateway。JVM。org。apache。hadoop。FS。小路文件係統=sc。_gateway。JVM。org。apache。hadoop。FS。文件係統conf=sc。_JSC。Hadoopconfiguration()conf。放((“ fs.azure.account.key。“ ” )FS=小路(('wasbs:// @ .blob.core.windows.net//' )。getfilesystem((sc。_JSC。Hadoopconfiguration())iStream=FS。打開((小路(('wasbs:// @ .blob.core.windows.net//' ))讀者=sc。_gateway。JVM。爪哇。io。BufferedReader((sc。_jvm。爪哇。io。InputStreamReader((iStream))盡管真的:這條線=讀者。閱讀線()如果這條線是不是沒有任何:打印((這條線)別的:休息iStream。關()
在哪裏
<帳戶名稱>
是您的Azure帳戶名稱。
是容器名稱。<文件路徑>
是文件的完整路徑。
是帳戶訪問密鑰。