取消
顯示的結果
而不是尋找
你的意思是:

高並發性通過集群:pyarrow優化轉換成pandasdf時不工作

Rahul_Samant
貢獻者

我需要把火花dataframe熊貓dataframe箭頭優化

spark.conf.set (“spark.sql.execution.arrow。啟用”、“真正的”)

data_df = df.toPandas ()

但要讓下麵的一個隨機誤差,而這樣做

例外:箭頭不支持在使用基於文件的收集

/磚/火花/ python / pyspark / sql /熊貓/轉換。py: 340: UserWarning: createDataFrame箭頭優化因為spark.sql.execution.arrow.pyspark未遂。啟用的設置為true;然而,失敗的原因如下:

[Errno 13]沒有權限:' / local_disk0 /火花- * / pyspark *’

嚐試non-optimization為“spark.sql.execution.arrow.pyspark.fallback。啟用的設置為true。

注意:使用高並發性通過集群和10.0毫升運行時

通過集群的另一個問題是無法加載注冊模型和製造等使用火花但必須用熊貓模式。得到以下錯誤而使用udf加載模型。是通過限製高並發性集群作為集群在標準工作嗎?

預測= mlflow.pyfunc。model_uri spark_udf(火花)

異常

PermissionError (Errno 13):沒有權限:“磚/驅動程序”

1接受解決方案

接受的解決方案

Hubert_Dudek1
尊敬的貢獻者三世

您需要使用熊貓圖書館寫dataframes火花。請使用例如:

從熊貓進口read_csv

從pyspark。熊貓進口read_csv

pdf = read_csv (“data.csv”)

更多的在博客//www.eheci.com/blog/2021/10/04/pandas - api -在即將到來的- apache -火星- 3 - 2. - html

在原帖子查看解決方案

4回複4

匿名
不適用

你好@Rahul Samant -我的名字叫風笛手,我是一個主持人的磚。歡迎來到社區,謝謝你的關心!

讓我們給社區之前一段時間回答我們圓左右。

Hubert_Dudek1
尊敬的貢獻者三世

您需要使用熊貓圖書館寫dataframes火花。請使用例如:

從熊貓進口read_csv

從pyspark。熊貓進口read_csv

pdf = read_csv (“data.csv”)

更多的在博客//www.eheci.com/blog/2021/10/04/pandas - api -在即將到來的- apache -火星- 3 - 2. - html

謝謝HubertDudek。

我認為使用如新圖書館都有自己的局限性

我試著做預測基於熊貓火花但它給錯誤如下雖然正常熊貓df工作正常。

ValueError:預期的二維數組,一維數組:

data_df = df.to_pandas_on_spark ()

工程在df # procssed_df後生成功能

inputDf = processed_df.to_pandas_on_spark ()

data_df(“分數”)= model.decision_function (inputDf.drop (TEST_VAR4,軸= 1)

AlexanderBij
新的貢獻者二世

你能確認這是一個已知的問題嗎?

遇到同樣的問題,測試例子1細胞。

用箭頭在運行時失敗與透傳HighConcurrency-cluster # 10.4(10.5和11.0)spark.conf.set (“spark.sql.execution.arrow.pyspark。啟用”、“真實”)#看到區別df = spark.createDataFrame (sc切換。並行化(範圍(0,100)),模式=“int”) df.toPandas() # < <錯誤#味精:箭頭不支持在使用基於文件的收集

工作在一個個人與PassthroughAuth集群(標準/ SingleNode)。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map