我有一個情況我需要閱讀pdf文件從“Azure Datalake blob存儲數據磚”,連接是通過廣告訪問的地方。
生成SAS令牌已被限製在我們的環境中由於安全問題。
下麵的腳本可以讀出pdf文件的文件夾的名稱。
pdf_path = " abfss:datalakename.dfs.core.windows.net/ <容器文件夾路徑>”
pdf_df = spark.read.format (binaryFile) .load (pdf_path) .cache ()
顯示器(pdf_df)
然而,以上步驟後發現困難通過formrecognizer函數的pdf文件。
所以,如果有人試圖實現閱讀PDF文件從Azure Datalake到磚,請幫我的腳本或方法。
提前感謝!
最好的問候,
Punith拉吉