取消
顯示的結果
而不是尋找
你的意思是:

一些提示和技巧優化成本和性能(集群和神經節):[注:此列表不是詳盡的]利用DataFrame或爭吵…

User16790091296
因素二世

一些提示和技巧優化成本和性能(集群和神經節):

(注:此列表不是詳盡的)

  • 利用DataFrame或SparkSQL API的第一。他們使用相同的執行過程導致平價性能,但他們也有優化,增強了抽樣和數據集提供了什麼
  • 使用前DataFrames UDF。構建一個定製的UDF之前,檢查pyspark.sql。函數(在這裏)。UDF的原因引發反序列化、執行UDF的行,然後reserialize抽樣。文檔。
  • 利用MlLib機器學習。MlLib的模型(在這裏)已經優化的分布式執行。許多Python和R模型的你發現在PyPi或凹口,雖然先進,需要額外開發分布式執行。
  • 緩存毫升培訓期間。毫升迭代計算模型或培訓期間培訓,是很好的時間來顯式地緩存數據集群使用緩存()。否則,磚優化讀取對象的存儲和利用DBIO緩存(鏈接)來創建照明快速性能,而無需顯式緩存。
  • 緩存變暖BI工具。還可以使用DBIO緩存啟用並預先緩存集群上常用表將BI工具服務的結果。
  • CSV、JSON、拚花/δ的原始數據。如果生活在當前狀態CSV或JSON數據,你的第一個性能提升將ETL數據拚花/δ。
  • DataFrame FAQ的。這裏有一些有用的開發最佳實踐和常見問題的處理DataFrames。鏈接。
  • 用δ表。利用現成的性能和可靠性功能,如數據跳過,z值,優化文件管理,而無需自己賬戶的優化。

0回答0
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map