如何使用桶提升性能

學習如何通過使用桶來提高Databricks的性能。

最後發布時間:2022年3月4日

bucket是Apache Spark SQL中的一種優化技術。根據從一個或多個桶列派生的值，在指定數量的桶之間分配數據。bucket通過在表連接等下遊操作之前對數據進行洗牌和排序來提高性能。這樣做的代價是由於變換和排序造成的初始開銷，但是對於某些數據轉換，這種技術可以通過避免以後的變換和排序來提高性能。