取消
顯示的結果
而不是尋找
你的意思是:

錯誤寫鋪到特定的容器在Azure數據湖

magnus778
新的貢獻者三世

我從container1檢索兩個文件,把它們和合並之前寫入container2在同一個存儲賬戶Azure。我安裝container1 unmouting和安裝countainer2前寫作。

我的代碼寫拚花

spark.conf.set (“spark.sql.sources.partitionOverwriteMode”、“動態”)df_spark.coalesce (1) .write.option(“標題”,真的)\ .partitionBy (ZMTART) \ .mode(“覆蓋”)\ .parquet (“/ mnt / temp /”)

我得到以下錯誤container2寫作時:

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Py4JJavaError回溯(最近調用最後)<命令- 3769031361803403 > <細胞係:2 > ()1 spark.conf.set (“spark.sql.sources.partitionOverwriteMode”、“動態”)- - - - - > 2 df_spark.coalesce (1) .write.option(“標題”,真的)\ 3 .partitionBy (ZMTART) \ 4 .mode(“覆蓋”)\ 5 .parquet (/ mnt / temp /) /磚/火花/ python / pyspark / instrumentation_utils。py在包裝器(* args, * * kwargs) 46開始= time.perf_counter() 47個試題:- - - - - - > 48 res = func (* args, * * kwargs) 49記錄器。function_name log_success (50 module_name class_name, time.perf_counter()——開始,簽名/磚/火花/ python / pyspark / sql /讀寫。py鋪(自我、路徑模式,partitionBy,壓縮)1138年self.partitionBy (partitionBy) 1139 self._set_opts(壓縮(壓縮)- > 1140 self._jwrite.parquet(路徑)1141

奇怪的是寫同一dataframe container1是沒問題,即使使用相同的代碼編寫,但不同的山。生成隨機數據的腳本和寫作container2也沒問題。顯然,有一個問題,具體dataframe特定的容器。

我相當的新磚,所以請讓我知道如果有需要的額外信息。

1接受解決方案

接受的解決方案

帕特
尊敬的貢獻者三世

嗨@Magnus Asperud,

1安裝container1

2你應該持久存儲數據,創建df並不意味著你正在閱讀的數據容器,它可以被卸載。確保這個合並後的數據存儲在某個地方。

不確定這將工作

df_spark.cache ()

df_spark.count ()

3被卸載

4安裝container2

在原帖子查看解決方案

2回答2

帕特
尊敬的貢獻者三世

嗨@Magnus Asperud,

1安裝container1

2你應該持久存儲數據,創建df並不意味著你正在閱讀的數據容器,它可以被卸載。確保這個合並後的數據存儲在某個地方。

不確定這將工作

df_spark.cache ()

df_spark.count ()

3被卸載

4安裝container2

magnus778
新的貢獻者三世

.cache()似乎完美的工作,謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map