我需要把火花dataframe熊貓dataframe箭頭優化
spark.conf.set (“spark.sql.execution.arrow。啟用”、“真正的”)
data_df = df.toPandas ()
但要讓下麵的一個隨機誤差,而這樣做
例外:箭頭不支持在使用基於文件的收集
或
/磚/火花/ python / pyspark / sql /熊貓/轉換。py: 340: UserWarning: createDataFrame箭頭優化因為spark.sql.execution.arrow.pyspark未遂。啟用的設置為true;然而,失敗的原因如下:
[Errno 13]沒有權限:' / local_disk0 /火花- * / pyspark *’
嚐試non-optimization為“spark.sql.execution.arrow.pyspark.fallback。啟用的設置為true。
注意:使用高並發性通過集群和10.0毫升運行時
通過集群的另一個問題是無法加載注冊模型和製造等使用火花但必須用熊貓模式。得到以下錯誤而使用udf加載模型。是通過限製高並發性集群作為集群在標準工作嗎?
預測= mlflow.pyfunc。model_uri spark_udf(火花)
異常
PermissionError (Errno 13):沒有權限:“磚/驅動程序”
您需要使用熊貓圖書館寫dataframes火花。請使用例如:
從熊貓進口read_csv
從pyspark。熊貓進口read_csv
pdf = read_csv (“data.csv”)
更多的在博客//www.eheci.com/blog/2021/10/04/pandas - api -在即將到來的- apache -火星- 3 - 2. - html
您需要使用熊貓圖書館寫dataframes火花。請使用例如:
從熊貓進口read_csv
從pyspark。熊貓進口read_csv
pdf = read_csv (“data.csv”)
更多的在博客//www.eheci.com/blog/2021/10/04/pandas - api -在即將到來的- apache -火星- 3 - 2. - html
謝謝HubertDudek。
我認為使用如新圖書館都有自己的局限性
我試著做預測基於熊貓火花但它給錯誤如下雖然正常熊貓df工作正常。
ValueError:預期的二維數組,一維數組:
data_df = df.to_pandas_on_spark ()
工程在df # procssed_df後生成功能
inputDf = processed_df.to_pandas_on_spark ()
data_df(“分數”)= model.decision_function (inputDf.drop (TEST_VAR4,軸= 1)
你能確認這是一個已知的問題嗎?
遇到同樣的問題,測試例子1細胞。
用箭頭在運行時失敗與透傳HighConcurrency-cluster # 10.4(10.5和11.0)spark.conf.set (“spark.sql.execution.arrow.pyspark。啟用”、“真實”)#看到區別df = spark.createDataFrame (sc切換。並行化(範圍(0,100)),模式=“int”) df.toPandas() # < <錯誤#味精:箭頭不支持在使用基於文件的收集
它做工作在一個個人與PassthroughAuth集群(標準/ SingleNode)。