內核切換到未知使用pyspark -磚- 18671

SusuTheSeeker · ‎06-06-2022

我在筆記本jupyter中心工作。我用pyspark dataframe分析文本。更準確的說我做sentimment報紙文章的分析。代碼的工作,直到我得到一些點內核是忙碌忙碌,大約10分鍾後,切換到未知。使它停止工作的操作例如.drop()和groupBy ()。數據集隻有25 k行。看後我得到這個消息的日誌:

階段1:>(0 + 0)/ 1]22/06/02 09:30:17警告TaskSetManager:階段1包含了一個非常大的任務大小(234399簡約)。的最大大小是1000簡約推薦任務。

一些研究之後,我發現,這可能是由於完整的記憶。但是我不知道如何提高它。

構建應用程序的火花我使用這段代碼:

火花= SparkSession。builder \部分(“當地”)\ .appName (x) \ config (“spark.driver。記憶”、“2 g) \ config (“spark.executor。記憶”、“12 g”) \ .getOrCreate () sc =火花。sparkContext sqlContext = sqlContext (sc)

任何思想內核停止改變“未知”或以某種方式釋放內存嗎?注意:我不是使用抽樣dataframes火花

我分享我的筆記本。這個項目是我的論文,我渴望得到工作的代碼。將是非常感謝任何幫助!

werners1 · ‎06-07-2022

你真的在分布式環境中運行代碼(即一個司機和多個工人)?

如果沒有,沒有使用使用pyspark作為所有代碼將在本地執行。

SusuTheSeeker · ‎06-07-2022

不,我沒有。我怎麼能這樣做呢?

werners1 · ‎06-07-2022

火花是一個分布式數據處理框架。發光,你需要多台機器(vm或物理)。否則它並不比熊貓等(在本地模式下在單個節點上)。

開始使用火花,您應該連接到現有的火花集群(如果有一個集群可供你),這可能是最簡單的方法:注冊磚Community Edition和開始使用磚。

Community Edition是有限的功能,但是仍然非常有用。

https://docs.www.eheci.com/getting-started/quick-start.html

如果你不能做,停止使用pyspark並專注於純python代碼。

你仍然可以遇到內存問題雖然在本地運行代碼。

匿名 · ‎06-07-2022

你是一個磚客戶嗎?您可以使用一個筆記本在webui很容易和自旋了一個集群。

磚

內核切換到使用pyspark未知