取消
顯示的結果
而不是尋找
你的意思是:

未能將火花。sql熊貓Dataframe使用.toPandas ()

小禮帽
價值貢獻

我寫了下麵的代碼:

data =火花。sql(“選擇A_adjClose、AA_adjClose AAL_adjClose, AAP_adjClose, AAPL_adjClose deltabase。a_30min_delta deltabase。aa_30min_delta deltabase。aal_30min_delta deltabase。aap_30min_delta deltabase。aapl_30min_delta”) spark.conf.set (“spark.sql.execution.arrow。啟用”、“真實”)#這部分保持運行命令data_pd = data.toPandas () df_pct = data_pd.pct_change (1)

困在.toPandas()的代碼這部分。

13日回複13

  • 每個三角洲表有100000多行,但是每個三角洲表隻有3.18 MB。

  • 我上傳的照片,有一個樣品,但不是使用python顯示()函數。

  • 集群模式:標準。運行時版本:11.0(包括Apache火花3.3.0,Scala 2.12)。工作類型:Standard_DS3_V2。

火花配置:

spark.databricks.delta.autoCompact.enabled真spark.databricks.delta.optimizeWrite.enabled真

小禮帽
價值貢獻

@Prasad Wagh @Kaniz Fatma是否可以提交一份完整詳細的日誌報告磚嗎?

小禮帽
價值貢獻

我隻是發現了一個解決方案。

今天,我打開Azure磚。當我導入的python庫。磚告訴我,toPandas()棄用,我建議使用toPandas。

下麵的解決方案工作原理:使用toPandas而不是toPandas ()

data =火花。sql(“選擇A_adjClose、AA_adjClose AAL_adjClose, AAP_adjClose, AAPL_adjClose deltabase。a_30min_delta deltabase。aa_30min_delta deltabase。aal_30min_delta deltabase。aap_30min_delta deltabase。aapl_30min_delta”)顯示(數據)spark.conf.set (“spark.sql.execution.arrow。啟用”、“真實”)data_pd = data.toPandas

然而,當我試圖計算百分比變化使用pct_change(),它不工作。還沒有投入pyspark.pandas pct_change ()

#這失敗因為pct_change()函數尚未投入pyspark。熊貓df_pct = data_pd.pct_change (1)

另一個解決方案是使用:pandas_api ()轉換的火花dataframe pandas-spark dataframe。

這允許我使用pct_change()轉換後引發dataframe pandas-spark dataframe

data_pd.pct_change data_pd = data.pandas_api () ()

來源:https://stackoverflow.com/questions/73061556/does-pyspark-pandas-support-pandas-pct-change-function/..。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map