取消
顯示的結果
而不是尋找
你的意思是:

原因:遠程RPC客戶端沒有關聯的。可能由於容器超過閾值,或網絡問題。檢查驅動程序日誌來警告消息。

Leodatabricks
貢獻者

我已經得到這個錯誤偶爾。我加載數據集和訓練一個模型在筆記本中使用數據集。有時,有時它不工作。我見過類似的帖子,提到所有解決方案,日誌輸出大小限製,spark.network.timeout配置,創建一個臨時的視圖。沒有從根本上解決問題。有時它會工作沒有任何問題,有時會得到上麵的錯誤。但是我很確定沒有內存問題,我有足夠的集群內存分配。你能解釋是什麼導致這個問題?尤其是我不明白為什麼隻休息一段時間但並非總是如此。所以很難查明問題。 Thank you!

2回答2

karthik_p
尊敬的貢獻者

@Leo包你看到這個問題當你得到不同大小的數據集,或者你的數據集的大小是一樣的。如果你看到的問題是由於更大的數據集,請檢查下麵的鏈接並試圖增加分區大小磚火花Pyspark抽樣再分配——“遠程RPC客戶端沒有關聯。可能由於容器……

謝謝你的回複!每當我發生使用不同大小的數據集。但它不是,因為數據集較大,即使是較小的問題。隻是好奇有經驗法則為每個分區的大小可能工作嗎?還我仍然試著調整分區大小和有時,有時它不工作。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map