我有以下基本的腳本,使用在我的機器上pycharm沒問題。
從pyspark。sql進口SparkSession
打印(“開始”)
火花= SparkSession \
.Builder () \
.appName \ (“myapp”)
部分(當地(* 4))\
.getOrCreate ()
打印(火花)
data =[(詹姆斯,”,“史密斯”,“1991-04-01”,“M”, 3000),
(“邁克爾”,“玫瑰”,“‘2000-05-19’,‘米’,4000),
(“羅伯特”,”,“威廉姆斯,‘1978-09-05’,‘米’,4000),
(“瑪麗亞”,“安妮”,瓊斯,' 1967-12-01 ',' F ', 4000),
(“仁”,“瑪麗”,“布朗”,' 1980-02-17 ',' F ', 1)
]
列= [“firstname”、“middlename”,“姓”,“強加於人”,“性別”,“工資”)
df =火花。createDataFrame(=數據、模式=列)
打印(df)
然而當試圖在磚集群上運行,直接通過python腳本它給了一個錯誤。
最後開始回溯(最近調用):文件“/ usr / lib / python3.8 / runpy。py”, 194行,在_run_module_as_main返回_run_code(代碼、main_globals沒有,文件“/ usr / lib / python3.8 / runpy。py”, 87行,_run_code exec(代碼,run_globals)文件“/工作區/回購/ * * * * * * * * * * * / sdk_test /測試/ / spark_tests片段。py”, 13號線,在課堂上SparkTests:文件”/ Workspace /回購/ * * * * * * * / / spark_tests sdk_test /測試/片段。py”,行16日SparkTests sc = SparkContext.getOrCreate()文件”/磚/火花/ python / pyspark /上下文。py”, 400行,在getOrCreate SparkContext(參看= conf或SparkConf())文件”/磚/火花/ python / pyspark /上下文。py”, 147行初始化自我。_do_init(主瀏覽器名稱、sparkHome pyFiles,環境,batchSize,序列化器,文件“/磚/火花/ python / pyspark /上下文。py”, 192行,_do_init提高RuntimeError(“大師URL必須設置在您的配置”)RuntimeError:大師URL必須設置在你的配置CalledProcessError:命令" b 'cd . ./ \ n \ n /磚/ python3 / bin / python - m tests.snippets。spark_tests \ n # python - m tests.runner - env = qa - runtime_env =磚——上傳= True包= sdk \ n "返回非零退出狀態1。
我缺少什麼?