@Vidula卡納
@orian印地語
今天,我試圖轉置一個大數據集(行:252 x17列:1000)。999列結構數值數據和浮動1列是一個DateTime數據類型。
我部署Standard_E4ds_v4在Azure磚。換一下,應該足夠大數據。
這是代碼:
df_sp500_elements.pandas_api () .set_index (stock_dateTime) .T.reset_index () .rename(列={“指數”:“stock_dateTime”}) .to_spark(),告訴()
然而,運行14.45小時後,仍有一個“致命錯誤:Python的內核是反應遲鈍的”。
這是Ganglia:集群的報告在換位::
這是事件日誌”:
我認為“致命錯誤:Python的內核是反應遲鈍的不是內存不足造成的。
這是我全部的致命錯誤:Python的內核是反應遲鈍。的錯誤信息:
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Python程序退出一個未知的退出代碼。
過程的最後10 KB的stderr和stdout下麵可以找到。看到司機日誌完全日誌。
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
最後上stderr消息:
結婚2022年11月9日12:46:54連接從PID 933火花
結婚2022年11月9日12:46:54網關初始化在端口34615上
結婚2022年11月9日12:46:55連接到火花。
/磚/火花/ python / pyspark / sql /dataframe.py:3605:FutureWarning: DataFrame。to_pandas_on_spark棄用。使用DataFrame。pandas_api代替。
warnings.warn (
錯誤:根:KeyboardInterrupt雖然發送命令。
回溯(最近的電話):
文件“/磚/火花/ python / pyspark / sql /熊貓/conversion.py在_collect_as_arrow”, 364行
結果=列表(batch_stream)
文件“/磚/火花/ python / pyspark / sql /熊貓/serializers.py在load_stream”,行56歲
批的self.serializer.load_stream(流):
文件“/磚/火花/ python / pyspark / sql /熊貓/serializers.py在load_stream”, 112行
讀者= pa.ipc.open_stream(流)
文件“/磚/ python / lib / python3.9 /網站/ pyarrow /ipc.py在open_stream”, 154行
我認為更大的VM部署更多的內存可能的工作。在ML的情況下,部署一個虛擬機更好。但引發工人也會泄漏磁盤上的數據,如果數據集大於內存大小。為什麼有記憶問題嗎?有沒有具體操作,引發工人不分割數據在磁盤上?