取消
顯示的結果
而不是尋找
你的意思是:

集群設置毫升為大熊貓的火花,Python和香草。

Vik1
新的貢獻者二世

我的設置:

工作類型:Standard_D32d_v4, 128 GB的內存,32核心,最小的工人:2、最大工人:8

驅動程序類型:Standard_D32ds_v4, 128 GB的內存,32內核

磚的運行時版本:10.2毫升(包括Apache火花3.2.0,Scala 2.12)

我跑一個雪花的查詢,把兩個數據集3000萬行和列。拯救他們作為pyspark.pandas.frame.DataFrame,稱之為df1 df2(兩個dataframes)

第一列的每一個數據集是一個household_id。我想看看有多少household_id從df1 df2不在。

我嚐試了兩種不同的方式:

len(集(df1 [‘household_id] .to_list) .difference (df2 [' household_id '] .to_list ()))

df1 [' household_id '] .isin (df2 [' household_id '] .to_list ()) .value_counts ()

上述兩個失敗,因為內存不足的問題。

我的問題是:

  1. python列表在哪裏計算發生在第一個代碼片段?司機節點或工人節點上嗎?我相信代碼運行在單個節點上而不是分布?
  2. 有一個更好的方法來調試內存問題?如這段代碼?哪個節點失敗的代碼。等。
  3. 什麼是最好的指導創建一個集群?這可能取決於理解代碼將運行等分布在工作節點,或運行在一個單獨的驅動程序。節點。有普遍指導如果司機節點應該更強大(更大的內存和處理器)相比工人節點或亦然?

1接受解決方案

接受的解決方案

匿名
不適用

Python代碼運行在司機。分布式/火花代碼運行在工人。

這裏有一些小貼士:集群

如果你做毫升,然後使用一個毫升運行時。

如果你不做分布式的東西,使用單個節點集群。

不使用自動定量毫升。

深入學習使用gpu

集群的數據大小。

在原帖子查看解決方案

4回複4

匿名
不適用

嗨了!謝謝你這個問題也和你的耐心。我們會回來後我們給社區的成員一個回應的機會。:slightly_smiling_face:

匿名
不適用

Python代碼運行在司機。分布式/火花代碼運行在工人。

這裏有一些小貼士:集群

如果你做毫升,然後使用一個毫升運行時。

如果你不做分布式的東西,使用單個節點集群。

不使用自動定量毫升。

深入學習使用gpu

集群的數據大小。

匿名
不適用

@Vivek Ranjan——約瑟的回答有幫助嗎?如果是這樣,你會很高興它標記為最好?如果沒有,請告訴我們,我們可以幫助你。

VartikaNain
主持人
主持人

嘿@Vivek野生動物

檢查。如果約瑟夫的回答幫助,你能讓我們知道最好的答案和馬克?都是很有用的其他成員更快地找到解決方案。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map