我的設置:
工作類型:Standard_D32d_v4, 128 GB的內存,32核心,最小的工人:2、最大工人:8
驅動程序類型:Standard_D32ds_v4, 128 GB的內存,32內核
磚的運行時版本:10.2毫升(包括Apache火花3.2.0,Scala 2.12)
我跑一個雪花的查詢,把兩個數據集3000萬行和列。拯救他們作為pyspark.pandas.frame.DataFrame,稱之為df1 df2(兩個dataframes)
第一列的每一個數據集是一個household_id。我想看看有多少household_id從df1 df2不在。
我嚐試了兩種不同的方式:
len(集(df1 [‘household_id] .to_list) .difference (df2 [' household_id '] .to_list ()))
df1 [' household_id '] .isin (df2 [' household_id '] .to_list ()) .value_counts ()
上述兩個失敗,因為內存不足的問題。
我的問題是: