我在筆記本jupyter中心工作。我用pyspark dataframe分析文本。更準確的說我做sentimment報紙文章的分析。代碼的工作,直到我得到一些點內核是忙碌忙碌,大約10分鍾後,切換到未知。使它停止工作的操作例如.drop()和groupBy ()。數據集隻有25 k行。看後我得到這個消息的日誌:
階段1:>(0 + 0)/ 1]22/06/02 09:30:17警告TaskSetManager:階段1包含了一個非常大的任務大小(234399簡約)。的最大大小是1000簡約推薦任務。
一些研究之後,我發現,這可能是由於完整的記憶。但是我不知道如何提高它。
構建應用程序的火花我使用這段代碼:
火花= SparkSession。builder \部分(“當地”)\ .appName (x) \ config (“spark.driver。記憶”、“2 g) \ config (“spark.executor。記憶”、“12 g”) \ .getOrCreate () sc =火花。sparkContext sqlContext = sqlContext (sc)
任何思想內核停止改變“未知”或以某種方式釋放內存嗎?注意:我不是使用抽樣dataframes火花
我分享我的筆記本。這個項目是我的論文,我渴望得到工作的代碼。將是非常感謝任何幫助!
非常感謝你,我生病做似乎是問題!不過,我設法拯救dataframe到CSV和從那裏,將其轉換為熊貓(它沒有工作的我直接從火花df熊貓)。熊貓是偉大的數據集,因為它不是非常大。然而,我知道這是不適合大數據。對於大數據,下一次,我將嚐試連接到現有的集群火花。
是的我想我隻是一個客戶。我將試著這樣做,謝謝!