我用PySpark磚和試圖樞軸27753444 X 3矩陣。
如果我用火花DataFrame:
df = df.groupBy .pivot (A) (B) .avg (“C”)
需要永遠(2小時後,我取消了)。
如果我把它轉換成熊貓dataframe然後主:
pandas_df = pandas_df.pivot(指數= ' A ',列= B值= ' C ') .fillna (0)
它總是給我一個錯誤:
ConnectException:拒絕連接(連接拒絕)錯誤而獲得一個新的溝通渠道的ConnectException錯誤:這通常是由一個伯父錯誤導致到Python REPL的連接被關閉。檢查你的查詢的內存使用。
然而,我已經增加了我的群192 GB的記憶,它仍然不工作。
有人可以幫忙嗎?
謝謝!