取消
顯示的結果
而不是尋找
你的意思是:

需要在DeltaTable看到所有的記錄。例外——. lang。OutOfMemoryError: GC開銷限製超過

AzureDatabricks
新的貢獻者三世

截斷假三角洲表中不工作。

df_delta.show (df_delta.count()、假)

電腦的大小

單節點- Standard_F4S 8 gb內存,4核

多少鋪馬克斯數據我們可以堅持三角洲表文件和我們如何快速檢索數據。

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

好的我明白了這個問題。問題不在於磚無法顯示這些記錄。

顯示命令將運行在司機和大量的數據這將給錯誤。

但顯示在屏幕上的數據是一個巨大的區別和處理/寫他們。

是有原因的記錄顯示的數量有一個限製,因為這是非常昂貴的(不能並行運行)。

顯示()命令將默認為1000條記錄,可以覆蓋到100 k(甚至一百萬,不記得)。

在原帖子查看解決方案

8回答說8

werners1
尊敬的貢獻者三世

記錄計數很簡單:首先讀取表DF然後做df.count三角洲

速度:依賴於集群的血統dataframe應用(轉換)。

沒有辦法告訴。但單個節點集群4核將處理8線程並行的我相信。

所以根據這將返回的數據量在幾秒或半小時或更多。

內存不足錯誤是奇怪的記錄計數存儲在表的元數據。所以它不需要大量的內存。

你想做什麼在你的代碼中,因為它看起來你嚐試在本地處理大量的數據,不僅記錄計數。

SailajaB
重視貢獻三世

謝謝你的回複. .

我們處理過的數據存儲三角洲格式。

現在從測試的角度來看,我閱讀所有的拚花文件dataframe應用查詢。

在這裏,我們試圖看到多少記錄數據可以顯示或顯示數據磚,所以我們用以下命令正常顯示隻給前232行

df_delta.show (df_delta.count(),假)——我們要顯示/讀7十萬的記錄(df_delta.count()),並截斷是錯誤的。

謝謝

werners1
尊敬的貢獻者三世

好的我明白了這個問題。問題不在於磚無法顯示這些記錄。

顯示命令將運行在司機和大量的數據這將給錯誤。

但顯示在屏幕上的數據是一個巨大的區別和處理/寫他們。

是有原因的記錄顯示的數量有一個限製,因為這是非常昂貴的(不能並行運行)。

顯示()命令將默認為1000條記錄,可以覆蓋到100 k(甚至一百萬,不記得)。

AzureDatabricks
新的貢獻者三世

你能請讓我們知道限製的數據可以存儲在三角洲表/蜂巢表或鑲花文件嗎

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map