我不能做,沒有單一的理想尺寸/場景。
然而:磚的最新版本是一個不錯的選擇(10.0或最新LTS生產工作)。
數據工作,編寫優化節點是一個不錯的選擇,因為他們可以使用三角洲緩存。
網上查詢:磚sql。
我自己使用最便宜的節點類型處理工作,這取決於引發程序運行。所以我使用多個集群配置。
我甚至運行upsert與單個工人工作表超過3億的記錄,沒問題根據需要重寫的數據量。
這取決於過濾器、轉換等3億條記錄。
你當然可以存儲3億條記錄沒有任何問題。
最好的選擇依賴於用例。
如果你想做很多在線查詢放在桌上,我建議使用三角洲湖,optimeized(使用z值、布隆過濾器、分區和文件修剪)。與磚的SQL端點可以查詢數據。
如果您想要使用的數據數據工程(ETL作業),我也建議使用三角洲湖可以合並新的/改變數據增量。
你可以使用相同的優化技術,但可能使用不同的列(這取決於工作讀表)。
我不知道有關的數據量的限製。但數十億條記錄應該沒有問題。
當然一切都取決於集群工作負載運行。4-node集群將需要更長的時間來處理這比20-node集群的數據量。
所以,如果你可以攝取數據增量:使用三角洲湖,如果你要做一個3億年記錄每天覆蓋,純拚花也是好的。
謝謝你的回答。
請建議最好的節點集群配置使用3億條記錄。
例如節點類型,Clusture模式和磚版本的運行時版本嗎?
我不能做,沒有單一的理想尺寸/場景。
然而:磚的最新版本是一個不錯的選擇(10.0或最新LTS生產工作)。
數據工作,編寫優化節點是一個不錯的選擇,因為他們可以使用三角洲緩存。
網上查詢:磚sql。
我自己使用最便宜的節點類型處理工作,這取決於引發程序運行。所以我使用多個集群配置。
我甚至運行upsert與單個工人工作表超過3億的記錄,沒問題根據需要重寫的數據量。
這取決於過濾器、轉換等3億條記錄。
δ是事務性的,也許如果沒有並發寫入表,純粹的拚花正確分區將比δ來存儲更有效體積