解決:Re:集群設置毫升為大熊貓的火花,…-磚- 31192

Vik1 · ‎01-21-2022

我的設置:

工作類型:Standard_D32d_v4, 128 GB的內存,32核心,最小的工人:2、最大工人:8

驅動程序類型:Standard_D32ds_v4, 128 GB的內存,32內核

磚的運行時版本:10.2毫升(包括Apache火花3.2.0,Scala 2.12)

我跑一個雪花的查詢,把兩個數據集3000萬行和列。拯救他們作為pyspark.pandas.frame.DataFrame,稱之為df1 df2(兩個dataframes)

第一列的每一個數據集是一個household_id。我想看看有多少household_id從df1 df2不在。

我嚐試了兩種不同的方式:

len(集(df1 [‘household_id] .to_list) .difference (df2 [' household_id '] .to_list ()))

df1 [' household_id '] .isin (df2 [' household_id '] .to_list ()) .value_counts ()

上述兩個失敗,因為內存不足的問題。

我的問題是:

python列表在哪裏計算發生在第一個代碼片段?司機節點或工人節點上嗎?我相信代碼運行在單個節點上而不是分布?
有一個更好的方法來調試內存問題?如這段代碼?哪個節點失敗的代碼。等。
什麼是最好的指導創建一個集群?這可能取決於理解代碼將運行等分布在工作節點,或運行在一個單獨的驅動程序。節點。有普遍指導如果司機節點應該更強大(更大的內存和處理器)相比工人節點或亦然?

匿名 · ‎01-21-2022

Python代碼運行在司機。分布式/火花代碼運行在工人。

這裏有一些小貼士:集群

如果你做毫升,然後使用一個毫升運行時。

如果你不做分布式的東西,使用單個節點集群。

不使用自動定量毫升。

深入學習使用gpu

集群的數據大小。

匿名 · ‎01-21-2022

嗨了!謝謝你這個問題也和你的耐心。我們會回來後我們給社區的成員一個回應的機會。

匿名 · ‎01-21-2022