使用HDFS API讀取Python中的文件

有時可能會直接讀取文件而不使用第三方庫。當您的常規存儲空間和存儲桶沒有作為本地DBFS安裝座,這對於讀取小文件很有用。

使用以下示例代碼進行S3存儲庫存儲。

Uri=sc_gatewayJVM爪哇Uri小路=sc_gatewayJVMorgapachehadoopFS小路文件係統=sc_gatewayJVMorgapachehadoopFS文件係統conf=sc_JSCHadoopconfiguration()FS=小路(('s3a:// /'getfilesystem((sc_JSCHadoopconfiguration())iStream=FS打開((小路(('s3a:// /'))讀者=sc_gatewayJVM爪哇ioBufferedReader((sc_jvm爪哇ioInputStreamReader((iStream))盡管真的這條線=讀者閱讀線()如果這條線不是沒有任何打印((這條線別的休息iStream()

在哪裏

  • 是S3存儲桶的名稱。
  • <文件路徑>是文件的完整路徑。

使用以下示例代碼進行Azure Blob存儲。

Uri=sc_gatewayJVM爪哇Uri小路=sc_gatewayJVMorgapachehadoopFS小路文件係統=sc_gatewayJVMorgapachehadoopFS文件係統conf=sc_JSCHadoopconfiguration()conf((“ fs.azure.account.key。FS=小路(('wasbs:// @ .blob.core.windows.net//'getfilesystem((sc_JSCHadoopconfiguration())iStream=FS打開((小路(('wasbs:// @ .blob.core.windows.net//'))讀者=sc_gatewayJVM爪哇ioBufferedReader((sc_jvm爪哇ioInputStreamReader((iStream))盡管真的這條線=讀者閱讀線()如果這條線不是沒有任何打印((這條線別的休息iStream()

在哪裏

  • <帳戶名稱>是您的Azure帳戶名稱。
  • 是容器名稱。
  • <文件路徑>是文件的完整路徑。
  • 是帳戶訪問密鑰。