優化Databricks上的Apache Spark™

描述

在本課程中，您將探索代表Apache Spark應用程序中絕大多數性能問題的五個關鍵問題：偏斜，溢出，洗牌，存儲和序列化。借助基於100 GB至1+ TB數據集的示例，您將使用Spark UI進行調查並診斷瓶頸來源，並學習有效的緩解策略。您還將發現Spark 3中引入的新功能，該功能可以自動解決常見的性能問題。最後，您將學習如何根據特定的團隊需求和疑慮來設計和配置簇以達到最佳性能。

期間

2整天或4個半天

目標

闡明如何緩解火花應用中最常見的五個最常見的性能問題，以實現更好的應用程序性能
總結與數據攝入相關的最常見的性能問題以及如何減輕它們
闡明如何使用Spark 3.X中的新功能來減輕Spark應用程序中的性能問題
配置火花集群以達到特定的作業要求，以獲得最大的性能

先決條件

動手開發Apache Spark應用程序（6個以上）
Python或Scala的中級經驗

大綱

第一天

Spark Architecture和Spark UI的評論
偏斜
灑
洗牌
貯存
序列化

第2天

攝入基礎知識
謂詞推下
磁盤分區
z排序
水桶
使用自適應查詢執行（AQE）優化
設計和配置高性能群集

即將舉行的公共課程

公共班級注冊

如果您的公司購買了成功片來或獲得學習訂閱，請填寫公共培訓請求表。否則，您可以在下麵注冊。

在這裏注冊

私人課程交付

如果您的組織想要求課程的私人交付，請填寫下麵的請求表。

請求私人交貨

如果您有任何疑問，請參考我們經常問的問題頁。

優化Databricks上的Apache Spark™

優化Databricks上的Apache Spark™

目錄

描述

期間

目標

先決條件

大綱

即將舉行的公共課程

公共班級注冊

私人課程交付

選擇您的門戶