優化Apache火花™磚
描述
在本課程中,您將探索代表絕大多數的五個關鍵問題在一個Apache火花應用程序性能問題:斜,泄漏,洗牌,存儲和序列化。通過示例基於1 +結核100 GB的數據集,你會調查和診斷瓶頸的來源與火花UI和學習有效的緩解策略。你也將發現新特性介紹了火花3可以自動解決常見性能問題。最後,您將學習如何設計和配置集群基於特定的團隊需要為獲得最佳性能和關切。
持續時間
2天或4天的一半
目標
闡明如何五種最常見的引起應用程序中的性能問題可以減輕實現更好的應用程序性能
總結最常見的與數據攝入相關的性能問題和如何減輕它們
闡明新特性如何引發3。x可以用來減輕火花應用程序中的性能問題
配置一個火花集群的最大性能給出具體的工作要求
先決條件
實踐經驗開發Apache火花應用程序(6 +個月)。我們推薦的Apache火花編程課程開始與火花。
中間Python或Scala的經驗
大綱
第一天
UI的火花架構和火花
斜
泄漏
洗牌
存儲
序列化
第二天
攝入基本知識
謂詞推動波動
磁盤分區
z值
用桶裝
優化自適應查詢執行(AQE)
為高性能設計和配置集群
即將到來的公共類
問題嗎?
如果你有任何問題,請參閱我們的常見問題頁麵。