11-21-2021十一25點
截斷假三角洲表中不工作。
df_delta.show (df_delta.count()、假)
電腦的大小
單節點- Standard_F4S 8 gb內存,4核
多少鋪馬克斯數據我們可以堅持三角洲表文件和我們如何快速檢索數據。
11-22-2021上午12點
好的我明白了這個問題。問題不在於磚無法顯示這些記錄。
顯示命令將運行在司機和大量的數據這將給錯誤。
但顯示在屏幕上的數據是一個巨大的區別和處理/寫他們。
是有原因的記錄顯示的數量有一個限製,因為這是非常昂貴的(不能並行運行)。
顯示()命令將默認為1000條記錄,可以覆蓋到100 k(甚至一百萬,不記得)。
在原帖子查看解決方案
11-21-2021上午11點
記錄計數很簡單:首先讀取表DF然後做df.count三角洲
速度:依賴於集群的血統dataframe應用(轉換)。
沒有辦法告訴。但單個節點集群4核將處理8線程並行的我相信。
所以根據這將返回的數據量在幾秒或半小時或更多。
內存不足錯誤是奇怪的記錄計數存儲在表的元數據。所以它不需要大量的內存。
你想做什麼在你的代碼中,因為它看起來你嚐試在本地處理大量的數據,不僅記錄計數。
11-21-202111:55
謝謝你的回複. .
我們處理過的數據存儲三角洲格式。
現在從測試的角度來看,我閱讀所有的拚花文件dataframe應用查詢。
在這裏,我們試圖看到多少記錄數據可以顯示或顯示數據磚,所以我們用以下命令正常顯示隻給前232行
df_delta.show (df_delta.count(),假)——我們要顯示/讀7十萬的記錄(df_delta.count()),並截斷是錯誤的。
謝謝
11-22-202149我
你能請讓我們知道限製的數據可以存儲在三角洲表/蜂巢表或鑲花文件嗎
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。