取消
顯示的結果
而不是尋找
你的意思是:

熊貓udf類型分組地圖失敗

user_b22ce5eeAl
新的貢獻者二世

你好,

我想讓我的整個世鵬科技電子值數據集使用熊貓udf的每個類別分類變量。它當我運行它運行在幾個類別,但當我想要我工作在整個數據集上運行函數失敗。我看到泄漏內存和磁盤和洗牌讀大約是40 gb。我不確定如何優化我的火花工作在這裏,我增加了核160以及內存對於司機和工人但仍未成功。

任何建議將高度讚賞。

謝謝

2回答2

user_b22ce5eeAl
新的貢獻者二世

能夠完成它通過增加司機的記憶!

傑克遜
新的貢獻者二世

我想用data.groupby.apply()函數應用於每一行的Pyspark Dataframe每組。

我使用了分組地圖熊貓udf。但是我不知道如何添加另一個參數函數。DGCustomerFirst調查

我試著使用參數作為一個全局變量但功能並不認識它似的(我的論點是pyspark dataframe)

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map