優化Databricks上的Apache Spark™
優化Databricks上的Apache Spark™
描述
在本課程中,您將探索代表Apache Spark應用程序中絕大多數性能問題的五個關鍵問題:偏斜,溢出,洗牌,存儲和序列化。借助基於100 GB至1+ TB數據集的示例,您將使用Spark UI進行調查並診斷瓶頸來源,並學習有效的緩解策略。您還將發現Spark 3中引入的新功能,該功能可以自動解決常見的性能問題。最後,您將學習如何根據特定的團隊需求和疑慮來設計和配置簇以達到最佳性能。
期間
2整天或4個半天
目標
- 闡明如何緩解火花應用中最常見的五個最常見的性能問題,以實現更好的應用程序性能
- 總結與數據攝入相關的最常見的性能問題以及如何減輕它們
- 闡明如何使用Spark 3.X中的新功能來減輕Spark應用程序中的性能問題
- 配置火花集群以達到特定的作業要求,以獲得最大的性能
先決條件
- 動手開發Apache Spark應用程序(6個以上)
- Python或Scala的中級經驗
大綱
第一天
- Spark Architecture和Spark UI的評論
- 偏斜
- 灑
- 洗牌
- 貯存
- 序列化
第2天
- 攝入基礎知識
- 謂詞推下
- 磁盤分區
- z排序
- 水桶
- 使用自適應查詢執行(AQE)優化
- 設計和配置高性能群集
即將舉行的公共課程
如果您有任何疑問,請參考我們經常問的問題頁。