用桶裝在Apache火花SQL是一種優化技術。數據分配在指定數量的桶中,根據來自一個或多個用桶裝列值。用桶裝,從而改進了性能洗牌和排序數據表連接等下遊業務之前。是初始的權衡開銷洗牌和排序,但對於某些數據轉換的話,這樣的後期技巧能提高性能通過避免後來洗牌和排序。
這種技術是有用的維度表,常用表包含主鍵。時也有用有頻繁涉及大型和小型表的連接操作。
筆記本下麵的例子展示了不同的物理計劃在執行加入桶和unbucketed表。
學習如何提高磚的性能通過使用用桶裝。
用桶裝在Apache火花SQL是一種優化技術。數據分配在指定數量的桶中,根據來自一個或多個用桶裝列值。用桶裝,從而改進了性能洗牌和排序數據表連接等下遊業務之前。是初始的權衡開銷洗牌和排序,但對於某些數據轉換的話,這樣的後期技巧能提高性能通過避免後來洗牌和排序。
這種技術是有用的維度表,常用表包含主鍵。時也有用有頻繁涉及大型和小型表的連接操作。
筆記本下麵的例子展示了不同的物理計劃在執行加入桶和unbucketed表。