取消
顯示的結果
而不是尋找
你的意思是:

最好的集群設置密集的轉換工作負載

AChang
新的因素

我有pyspark dataframe、61 k行3列,其中一個是一個字符串列的最大長度是4 k。我做的大約100個不同regexp_replace dataframe功能,因此,資源密集型。我想寫這個差值表,但似乎無論如何計算我用我似乎不能讓它運行在一個小時。我知道這個工作因為我有限的500行代碼測試和它在大約30秒跑,所以我知道它隻是與數據的大小。之前有人做過如此規模的,你知道我如何得到這個運行在一個小時內沒有打破銀行嗎?

1回複1

萊奧納多
新的貢獻者二世

看來你想申請轉換,但它的基本的東西,所以我去的最佳實踐文檔和找到一個方法來創建一個compute-optimized集群。

Ref。https://docs.www.eheci.com/en/clusters/cluster-config-best-practices.html basic-batch-etl

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map