解決:錯誤寫在Azu鋪到特定的容器…-磚- 21193

magnus778 · ‎11-22-2022

我從container1檢索兩個文件,把它們和合並之前寫入container2在同一個存儲賬戶Azure。我安裝container1 unmouting和安裝countainer2前寫作。

我的代碼寫拚花

spark.conf.set (“spark.sql.sources.partitionOverwriteMode”、“動態”)df_spark.coalesce (1) .write.option(“標題”,真的)\ .partitionBy (ZMTART) \ .mode(“覆蓋”)\ .parquet (“/ mnt / temp /”)

我得到以下錯誤container2寫作時:

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Py4JJavaError回溯(最近調用最後)<命令- 3769031361803403 > <細胞係:2 > ()1 spark.conf.set (“spark.sql.sources.partitionOverwriteMode”、“動態”)- - - - - > 2 df_spark.coalesce (1) .write.option(“標題”,真的)\ 3 .partitionBy (ZMTART) \ 4 .mode(“覆蓋”)\ 5 .parquet (/ mnt / temp /) /磚/火花/ python / pyspark / instrumentation_utils。py在包裝器(* args, * * kwargs) 46開始= time.perf_counter() 47個試題:- - - - - - > 48 res = func (* args, * * kwargs) 49記錄器。function_name log_success (50 module_name class_name, time.perf_counter()——開始,簽名/磚/火花/ python / pyspark / sql /讀寫。py鋪(自我、路徑模式,partitionBy,壓縮)1138年self.partitionBy (partitionBy) 1139 self._set_opts(壓縮(壓縮)- > 1140 self._jwrite.parquet(路徑)1141

奇怪的是寫同一dataframe container1是沒問題,即使使用相同的代碼編寫,但不同的山。生成隨機數據的腳本和寫作container2也沒問題。顯然,有一個問題,具體dataframe特定的容器。

我相當的新磚,所以請讓我知道如果有需要的額外信息。

帕特 · ‎11-22-2022

嗨@Magnus Asperud,

1安裝container1

2你應該持久存儲數據,創建df並不意味著你正在閱讀的數據容器,它可以被卸載。確保這個合並後的數據存儲在某個地方。

不確定這將工作

df_spark.cache ()

df_spark.count ()

3被卸載

4安裝container2

在原帖子查看解決方案

帕特 · ‎11-22-2022