取消
顯示的結果
而不是尋找
你的意思是:

未能將火花。sql熊貓Dataframe使用.toPandas ()

小禮帽
價值貢獻

我寫了下麵的代碼:

data =火花。sql(“選擇A_adjClose、AA_adjClose AAL_adjClose, AAP_adjClose, AAPL_adjClose deltabase。a_30min_delta deltabase。aa_30min_delta deltabase。aal_30min_delta deltabase。aap_30min_delta deltabase。aapl_30min_delta”) spark.conf.set (“spark.sql.execution.arrow。啟用”、“真實”)#這部分保持運行命令data_pd = data.toPandas () df_pct = data_pd.pct_change (1)

困在.toPandas()的代碼這部分。

13日回複13

Kaniz
社區經理
社區經理

嗨@Cheuk欣克利斯朵夫Poon,我們一直沒有收到你的最後回應@Prasad Wagh,我檢查,看看他的建議幫助你。否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

小禮帽
價值貢獻

@Prasad Wagh @Kaniz Fatma我使用Standard_DS3_V2 (14 gb內存4核)在Azure磚。最初,我設置最小工作人員:1馬克思工人:8。現在,敏工人:1馬克思工人:8。

但這仍然不能工作。1工人應該能夠完成這項任務。任務的數據量很小。

我猜VM集群的大小並不是原因。

Hubert_Dudek1
尊敬的貢獻者三世

火花是使用延遲評價,我打賭不是to_pands這種情況下的問題,而是pct_change如下所引用的文檔。還好,熊貓datset有唯一索引運行pct_change(如果你沒有時間,你可以設置增量id):

df.set_index(月)

“當前實現API使用火花的窗口沒有指定分區規範。這導致所有數據進入單一分區在單一機器,可能會導致嚴重的性能下降。避免這種方法對非常大的數據集。”

data =火花。sql(“選擇A_adjClose、AA_adjClose AAL_adjClose, AAP_adjClose, AAPL_adjClose deltabase。a_30min_delta deltabase。aa_30min_delta deltabase。aal_30min_delta deltabase。aap_30min_delta deltabase。aapl_30min_delta”)顯示(數據)spark.conf.set (“spark.sql.execution.arrow。啟用”、“true”) data_pd = data.toPandas () # df_pct = data_pd.pct_change(1) #顯示(df_pct)

@Hubert杜德克我不認為問題是數據類型。

在我原來的代碼中,有一個日期/時間,但現在我調試。我意識到刪除日期/時間列並不能解決這個問題。

現在,數據類型的數據隻是浮動。

同時,我pct_change刪除。這個問題仍然存在。

Hubert_Dudek1
尊敬的貢獻者三世
  • 數據集有多少行?
  • 你能分享excel的顯示功能與樣品?
  • 有什麼提供集群範圍內(工作類型和運行時版本)?標準,高並發,還是單機?
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map