周二
我有pyspark dataframe、61 k行3列,其中一個是一個字符串列的最大長度是4 k。我做的大約100個不同regexp_replace dataframe功能,因此,資源密集型。我想寫這個差值表,但似乎無論如何計算我用我似乎不能讓它運行在一個小時。我知道這個工作因為我有限的500行代碼測試和它在大約30秒跑,所以我知道它隻是與數據的大小。之前有人做過如此規模的,你知道我如何得到這個運行在一個小時內沒有打破銀行嗎?
昨天
看來你想申請轉換,但它的基本的東西,所以我去的最佳實踐文檔和找到一個方法來創建一個compute-optimized集群。
Ref。https://docs.www.eheci.com/en/clusters/cluster-config-best-practices.html basic-batch-etl
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。