如何提高性能與用桶裝嗎

學習如何提高磚的性能通過使用用桶裝。

寫的亞當Pavlacka

去年發表在:2022年3月4日

用桶裝在Apache火花SQL是一種優化技術。數據分配在指定數量的桶中,根據來自一個或多個用桶裝列值。用桶裝,從而改進了性能洗牌和排序數據表連接等下遊業務之前。是初始的權衡開銷洗牌和排序,但對於某些數據轉換的話,這樣的後期技巧能提高性能通過避免後來洗牌和排序。

這種技術是有用的維度表,常用表包含主鍵。時也有用有頻繁涉及大型和小型表的連接操作。

筆記本下麵的例子展示了不同的物理計劃在執行加入桶和unbucketed表。

用桶裝例子筆記本

在新標簽頁打開筆記本