2022年7月
描述
在本課程中,學生將建立在現有的Apache Spark,結構化流媒體和Delta Lake的知識的基礎上,以通過使用Databricks提供的一套工具來釋放Data Lakehouse的全部潛力。本課程非常重視設計有利於增量數據處理的設計,從而使已優化的係統能夠連續攝入和分析不斷增長的數據。通過設計利用內置平台優化的工作負載,數據工程師可以減輕代碼維護和現有緊急情況的負擔,並通過最Beplay体育安卓版本少的重構或停機時間快速將生產代碼適應新需求。
本課程中的主題應在嚐試之前掌握Databricks認證數據工程師專業考試。
期間
2整天或4個半天
目標
- 設計數據庫和管道針對Databricks Lakehouse平台進行了優化Beplay体育安卓版本
- 實施有效的增量數據處理,以驗證和豐富數據驅動業務決策和應用程序
- 利用數據快速核心本地功能,用於管理訪問敏感數據的訪問並履行被遺忘的請求
- 使用Databricks工具管理錯誤故障排除,代碼促進,任務編排和生產工作監控
先決條件
- 使用Pyspark API執行高級數據轉換的經驗
- 熟悉與Python實施課程
- 在生產數據倉庫或數據湖實施中使用SQL的經驗
- 在Databricks筆記本和配置簇中工作的經驗
- 熟悉使用SQL在三角洲湖桌上創建和操縱數據
- 能夠使用火花結構化流從增量表逐漸讀取的能力
上麵列出的先決條件可以通過服用數據工程與數據助理由講師主導的課程,並通過Databricks認證的數據工程助理認證考試。
大綱
第一天
- 湖泊建築
- 優化數據存儲
- 了解三角洲湖交易
- 三角洲湖隔離以及樂觀的並發
- 流設計模式
- 克隆開發和數據備份
- 自動裝載機和青銅攝入模式
- 流式刪除和質量執行
- 緩慢改變尺寸
- 流媒體連接和狀態
第2天
- 存儲和物質的觀點
- 安全地存儲數據
- 授予特權訪問PII
- 刪除Lakehouse中的數據
- 編排和安排多任務工作
- 監視,記錄和處理錯誤
- 使用Databricks存儲庫推廣代碼
- 程序化平台交互(DatabBeplay体育安卓版本ricks CLI和REST API)
- 通過流量工作負載管理成本和延遲
即將舉行的公共課程
如果您有任何疑問,請參考我們經常問的問題頁。