取消
顯示的結果
而不是尋找
你的意思是:

Pyspark vs熊貓

pjp94
貢獻者

想更好地理解編寫python筆記本的優勢在pyspark vs熊貓。整個筆記本需要寫在pyspark實現性能優勢。我目前有一個腳本使用熊貓我所有的轉換——我可以隻是取代“低效”塊pyspark並保持較小的/低成本轉換在熊貓嗎?謝謝!

13日回複13

cconnell
因素二世

你怎麼知道熊貓部分更有效率呢?

我不喜歡。這部分是一個假設的問題。我有一個腳本,我用熊貓,但是我想占我的數據集越來越大。如果我運行時最終采取分鍾……我就受益於使用pyspark呢?如果是的,我可以隻是取代高工作負載密集的任務和保持一切熊貓....注意:這是我第一次在磚所以我的一些假設可能在這裏下車。請糾正我如果我錯了!

werners1
尊敬的貢獻者三世

基本上它可以歸結為這個:

熊貓/ Python數據處理很好,隻要它可以運行在單個節點上。

如果你沒有問題處理您的數據在單個節點上,熊貓很好。

然而,當你開始伯父消息等,它可以是一個好主意看pyspark.pandas。

火花將使用多個節點來處理數據。

當然,這意味著你將不得不重寫代碼。但隨著最新添加的磚這不會是一個艱巨的任務,這是一篇有趣的文章:

//www.eheci.com/blog/2021/10/04/pandas - api -在即將到來的- apache -火星- 3 - 2. - html

除此之外你還可以使用“普通”熊貓或python。但要注意,這段代碼將執行在司機(在單節點模式)。

你可以混合熊貓和pyspark。熊貓但並不保證這將是比在pyspark盡。熊貓,因為它會引發的處理邏輯分解成多個部分。

但是看看這篇文章,讓你看到它。

謝謝你的澄清,正是我在尋找!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map