取消
顯示的結果
而不是尋找
你的意思是:

筆記本使用安裝aws s3 bucket的連通性問題

kumarPerry
新的貢獻者二世

當連接到使用dbfs aws s3 bucket,應用程序拋出錯誤

org.apache.spark。SparkException:工作階段失敗而終止:任務0階段7864387.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 7864387.0 (TID 17097322) (xx。* * * .xx。x執行人853):com.databricks.sql.io。FileReadException:當閱讀文件時發生錯誤

應用程序導入csv文件從aws s3和工作幾天。我試圖加載文件很小,但同樣的問題。甚至試圖以前進口文件,同樣的問題。當我運行下麵的命令,它意味著越來越多的活躍和清單文件目錄:

顯示器(dbutils.fs.ls (“/ mnt / xxxxx / yyyy”))

示例代碼片段:

spark.read.format (csv)。選項(“inferSchema”,“真正的”)。選項(“頭”,“真正的”)。選項(“9”,”、“).load (file_location)

3回複3

匿名
不適用

@Amrendra Kumar:

你提供的錯誤信息表明可能有一個問題在閱讀文件的AWS S3 bucket。這可能是由於各種原因如網絡連接問題或訪問權限錯誤。

這裏有幾件事你可以嚐試解決這個問題:

  1. 檢查AWS S3 bucket訪問權限:確保我的用戶或角色使用訪問S3 bucket擁有必要的許可閱讀文件。你可以通過審查的權限策略附加到我的用戶或角色。
  2. 檢查網絡連通性:檢查是否有網絡連接問題磚集群和S3 bucket之間。你可以檢查這個測試連接使用AWS CLI或試圖訪問桶從另一個網絡。
  3. 試試直接訪問文件:嚐試使用S3 URI而不是直接訪問文件的桶。您可以使用AWS S3連接器提供了Apache火花從S3閱讀文件。

這裏有一個例子代碼片段展示了如何閱讀一個CSV文件直接從S3存儲桶使用火花:

s3_uri = " s3: / / < bucket名> / < path-to-file >“df = spark.read.format (csv)。選項(“inferSchema”,“真正的”)。選項(“頭”,“真正的”)。選項(“9”,”、“).load (s3_uri)

4)增加執行程序內存:如果上述步驟不幫忙,你可以試著增加內存通過設置spark.executor執行人。內存配置到一個更高的價值。這將給更多的內存火花執行人,可能有助於在處理大型文件。

我希望這可以幫助!

kumarPerry
新的貢獻者二世

由於Suteja回應,但這些並沒有幫助。我已經嚐試過。但是我已經解決了這個問題,隻是重新啟動集群。

Vidula_Khanna
主持人
主持人

嗨@Amrendra庫馬爾

希望一切進行得很順利。

隻是想檢查如果你能解決你的問題。如果是的,你會很高興的答案標記為最好,其他成員可以找到解決方案更快嗎?如果不是,請告訴我們,我們可以幫助你。

幹杯!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map