我有一些基本問題在Spark3運行一個簡單的火花應用在我當地的mac機(總共6芯)。請幫助。
下麵是代碼:
從pyspark。sql進口SparkSession
火花= SparkSession.builder.master .appName(“地方[*]”)(“測試”).getOrCreate ()
打印(“火花版本:“spark.version)
sc = spark.sparkContext
打印(“大師:“sc.master)
打印(默認並行性:,sc.defaultParallelism)
print (AQE:啟用,spark.conf.get (spark.sql.adaptive.enabled))
spark.conf.set (“spark.sql.adaptive.enabled”,“真正的”)
print (AQE:啟用,spark.conf.get (spark.sql.adaptive.enabled))
df = spark.read.load(“/用戶/用戶/ xyz.csv”,
格式= " csv”, 9 =”、“inferSchema = " true ",頭= " true ")
print (dataframe:沒有分區,df.rdd.getNumPartitions ())
打印(sc.uiWebUrl)
spark.stop ()
打印(“火花版本:“spark.version)
打印(“大師:“sc.master)
這是一個許多問題在一個主題。
讓我們試一試:
[1]這都取決於有關參數的值,程序運行
(想加入工會,重新分區等)
[2]spark.default.parallelism默認內核的數量* 2
[3]自適應查詢執行(AQE)是一種優化技術在火花SQL利用運行時統計數據,選擇最有效的查詢執行計劃。
AQE不僅決定分區的數量。
https://spark.apache.org/docs/latest/sql-performance-tuning.html
[4]不知道,也許是緩衝/緩存的地方
這是一個許多問題在一個主題。
讓我們試一試:
[1]這都取決於有關參數的值,程序運行
(想加入工會,重新分區等)
[2]spark.default.parallelism默認內核的數量* 2
[3]自適應查詢執行(AQE)是一種優化技術在火花SQL利用運行時統計數據,選擇最有效的查詢執行計劃。
AQE不僅決定分區的數量。
https://spark.apache.org/docs/latest/sql-performance-tuning.html
[4]不知道,也許是緩衝/緩存的地方