內核切換到未知使用pyspark頁2 -磚- 18671

SusuTheSeeker · ‎06-06-2022

我在筆記本jupyter中心工作。我用pyspark dataframe分析文本。更準確的說我做sentimment報紙文章的分析。代碼的工作,直到我得到一些點內核是忙碌忙碌,大約10分鍾後,切換到未知。使它停止工作的操作例如.drop()和groupBy ()。數據集隻有25 k行。看後我得到這個消息的日誌:

階段1:>(0 + 0)/ 1]22/06/02 09:30:17警告TaskSetManager:階段1包含了一個非常大的任務大小(234399簡約)。的最大大小是1000簡約推薦任務。

一些研究之後,我發現,這可能是由於完整的記憶。但是我不知道如何提高它。

構建應用程序的火花我使用這段代碼:

火花= SparkSession。builder \部分(“當地”)\ .appName (x) \ config (“spark.driver。記憶”、“2 g) \ config (“spark.executor。記憶”、“12 g”) \ .getOrCreate () sc =火花。sparkContext sqlContext = sqlContext (sc)

任何思想內核停止改變“未知”或以某種方式釋放內存嗎?注意:我不是使用抽樣dataframes火花

我分享我的筆記本。這個項目是我的論文,我渴望得到工作的代碼。將是非常感謝任何幫助!

SusuTheSeeker · ‎06-07-2022

非常感謝你,我生病做似乎是問題!不過,我設法拯救dataframe到CSV和從那裏,將其轉換為熊貓(它沒有工作的我直接從火花df熊貓)。熊貓是偉大的數據集,因為它不是非常大。然而,我知道這是不適合大數據。對於大數據,下一次,我將嚐試連接到現有的集群火花。

SusuTheSeeker · ‎06-07-2022

是的我想我隻是一個客戶。我將試著這樣做,謝謝!

Kaniz · ‎06-13-2022

嗨@Suad Hidbani,我們一直沒有收到你最後的回應我們,我檢查是否你有一個決議。如果你有任何解決方案,請與社區分享,因為它可以幫助別人。否則,我們將與更多的細節和試圖幫助回應。

SusuTheSeeker · ‎06-13-2022

嗨,不幸的是我沒有一個解決方案。的解決方案是將數據連接到一個現有的集群火花。似乎我有火花隻是局部,所有的計算都是在本地完成,這就是為什麼內核是失敗。

磚

內核切換到使用pyspark未知