解決高並發性通過集群:pyarrow op……-磚- 31376

Rahul_Samant · ‎01-19-2022

我需要把火花dataframe熊貓dataframe箭頭優化

spark.conf.set (“spark.sql.execution.arrow。啟用”、“真正的”)

data_df = df.toPandas ()

但要讓下麵的一個隨機誤差,而這樣做

例外:箭頭不支持在使用基於文件的收集

或

/磚/火花/ python / pyspark / sql /熊貓/轉換。py: 340: UserWarning: createDataFrame箭頭優化因為spark.sql.execution.arrow.pyspark未遂。啟用的設置為true;然而,失敗的原因如下:

[Errno 13]沒有權限:' / local_disk0 /火花- * / pyspark *’

嚐試non-optimization為“spark.sql.execution.arrow.pyspark.fallback。啟用的設置為true。

注意:使用高並發性通過集群和10.0毫升運行時

通過集群的另一個問題是無法加載注冊模型和製造等使用火花但必須用熊貓模式。得到以下錯誤而使用udf加載模型。是通過限製高並發性集群作為集群在標準工作嗎?

預測= mlflow.pyfunc。model_uri spark_udf(火花)

異常

PermissionError (Errno 13):沒有權限:“磚/驅動程序”

Hubert_Dudek1 · ‎01-20-2022

您需要使用熊貓圖書館寫dataframes火花。請使用例如:

~~從熊貓進口read_csv~~

從pyspark。熊貓進口read_csv

pdf = read_csv (“data.csv”)

更多的在博客//www.eheci.com/blog/2021/10/04/pandas - api -在即將到來的- apache -火星- 3 - 2. - html

在原帖子查看解決方案

匿名 · ‎01-19-2022

你好@Rahul Samant -我的名字叫風笛手,我是一個主持人的磚。歡迎來到社區,謝謝你的關心!

讓我們給社區之前一段時間回答我們圓左右。

Hubert_Dudek1 · ‎01-20-2022

您需要使用熊貓圖書館寫dataframes火花。請使用例如:

~~從熊貓進口read_csv~~

從pyspark。熊貓進口read_csv

pdf = read_csv (“data.csv”)

更多的在博客//www.eheci.com/blog/2021/10/04/pandas - api -在即將到來的- apache -火星- 3 - 2. - html

Rahul_Samant · ‎01-20-2022

謝謝HubertDudek。

我認為使用如新圖書館都有自己的局限性

我試著做預測基於熊貓火花但它給錯誤如下雖然正常熊貓df工作正常。

ValueError:預期的二維數組,一維數組:

data_df = df.to_pandas_on_spark ()

工程在df # procssed_df後生成功能

inputDf = processed_df.to_pandas_on_spark ()

data_df(“分數”)= model.decision_function (inputDf.drop (TEST_VAR4,軸= 1)

AlexanderBij · ‎08-09-2022

你能確認這是一個已知的問題嗎?

遇到同樣的問題,測試例子1細胞。

用箭頭在運行時失敗與透傳HighConcurrency-cluster # 10.4(10.5和11.0)spark.conf.set (“spark.sql.execution.arrow.pyspark。啟用”、“真實”)#看到區別df = spark.createDataFrame (sc切換。並行化(範圍(0,100)),模式=“int”) df.toPandas() # < <錯誤#味精:箭頭不支持在使用基於文件的收集

它做工作在一個個人與PassthroughAuth集群(標準/ SingleNode)。

磚

高並發性通過集群:pyarrow優化轉換成pandasdf時不工作