培訓
培訓
“數據+人工智能峰會2022”培訓將於6月27日和30日舉行,課程擴展為半天和全天的現場授課和虛擬課堂。大多數培訓課程都包括講座和實踐練習。新的認證包也包括課程和考試。
Databricks Lakehouse概述
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
在本課程中,您將了解Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時需要尋找的關鍵角色和能力,並使您熟悉完整數據環境的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
在課程結束時,你將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供大數據概念和應用的高級概述
Databricks Lakehouse平Beplay体育安卓版本台。它不包含動手實驗室或技術深度
深入研究Databricks功能。
先決條件:
- 不需要編程經驗
- 沒有經驗與Databricks要求
湖屋與三角洲湖深潛
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範例,並深入了解Delta Lake的特性和功能。您將學習如何使用Databricks應用軟件工程原理,同時演示如何使用Delta Lake構建端到端OLAP數據管道用於批處理和流數據。本課程還討論了通過聚合表和Databricks SQL分析為最終用戶提供數據。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。在課程結束時,你將能夠:
- 確定三角洲湖的核心組成部分,使湖屋成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批處理和流OLAP數據管道。
- 使用指定的設計模式使數據可供下遊涉眾使用。
- 在表級記錄數據,以促進數據發現和跨團隊溝通。
- 應用Databricks推薦的最佳實踐來設計一個單一來源的真理增量架構。
先決條件:
- 熟悉數據工程概念
- 基本了解Delta Lake核心特性和用例
Databricks SQL簡介
角色: SQL分析師,數據分析師,業務分析師
格式:虛擬和麵對麵,半日
實驗室:是的
價格:虛擬(200美元),麵對麵(350美元)
了解Databricks SQL並了解如何在直接查詢組織的數據湖時實現高性能。使用Databricks SQL,學習者將練習編寫和可視化查詢。本課程結束時,學生將能夠使用Databricks SQL編寫各種查詢,創建各種可視化,並將其可視化組合成一個可以與他人共享的儀表板。
在課程結束時,你將能夠:
- 瀏覽Databricks SQL
- 用Databricks SQL編寫查詢
- 可視化查詢輸出
- 生成一個組合了多個可視化的儀表板
注意:“Data Analysis with Databricks SQL”課程涵蓋了這些概念,並對Databricks進行了額外的實踐和更廣泛的介紹,更適合準備完成Databricks關聯數據分析認證考試的學生。
先決條件:
- 基本熟悉ANSI SQL
使用Databricks SQL進行數據分析
角色: SQL分析師,數據分析師,業務分析師
持續時間:虛擬和麵對麵,全天
實驗室:是的
價格:虛擬(400美元),麵對麵(700美元)
了解Databricks SQL並了解如何在直接查詢組織的數據湖時實現高性能。使用Databricks SQL,學習者將練習編寫和可視化查詢。學生將創建一個個人儀表板,完成參數化查詢和自動警報離開這門課程。
在課程結束時,您將能夠使用Databricks SQL:
- 編寫回答特定BI問題的查詢
- 可視化查詢輸出
- 生成一個組合了多個可視化的儀表板
- 使用參數化查詢自定義查詢輸出
- 創建警報
先決條件:
- 基本熟悉ANSI SQL
Apache Spark™Programming with Databricks
角色:數據工程師,數據科學家,機器學習工程師,數據架構師
格式:虛擬和麵對麵,整整兩天
實驗室:是的
價格:虛擬(800美元),麵對麵(1400美元)
本課程使用案例研究驅動的方法來探索Spark Programming with Databricks的基礎知識,包括Spark架構、DataFrame API、查詢優化和結構化流。首先,您將熟悉Databricks和Spark,認識它們的主要組件,並使用Databricks環境探索案例研究的數據集。在從各種文件格式攝取數據之後,您將通過應用各種DataFrame轉換、列表達式和內置函數來處理和分析數據集。最後,您將執行流查詢來處理流數據,並強調使用Delta Lake的優勢。
在課程結束時,你將能夠:
- 定義Spark體係結構和執行層次結構的主要組件
- 描述如何在Spark中構建、轉換和評估dataframe
- 應用DataFrame API在Spark中探索、預處理、連接和攝取數據
- 應用結構化流API對流數據執行分析
- 瀏覽Spark UI,描述催化劑優化器、分區和緩存如何影響Spark的執行性能
先決條件:
- 熟悉基本SQL概念(選擇、篩選、分組、連接等)
- Python初學者編程經驗(語法,條件,循環,函數)
Apache Spark的性能調優
角色:數據工程師,ML工程師,數據科學家
格式:虛擬和麵對麵,全天
實驗室:是的
價格:虛擬(400美元),麵對麵(700美元)
完成有指導的挑戰,學習診斷和修複性能不佳的查詢。使用Python/Scala,參與者將回顧性能問題,以發現解決方案和最佳實踐,應用於您的查詢。
在課程結束時,你將能夠:
- 解構Spark UI,幫助進行性能分析、應用程序調試和Spark應用程序調優。
- 總結與數據攝取相關的一些最常見的性能問題,以及如何緩解這些問題。
- 在配置Spark集群時,請根據具體需求和各種因素進行配置。
先決條件:
- 建議有6個月以上的Spark DataFrame API工作經驗
- 中級Python或Scala編程經驗
高級數據工程與數據庫
角色:數據工程師,BI分析師,分析工程師,數據庫架構師,機器學習工程師
格式:虛擬和麵對麵,整整兩天
實驗室:是的
價格:虛擬(800美元),麵對麵(1400美元)
在本課程中,學生將基於現有的Apache Spark、Structured Streaming和Delta Lake知識,利用Databricks提供的工具套件來釋放數據湖屋的全部潛力。本課程著重強調有利於增量數據處理的設計,使優化的係統能夠持續吸收和分析不斷增長的數據。通過設計利用內置平台優化的工作負載,數據工程師可以減少代碼維護和隨叫隨到的緊急情況的負擔,並Beplay体育安卓版本通過最小的重構或停機時間快速調整生產代碼以適應新的需求。在參加Databricks認證的數據工程專業考試之前,應該先掌握本課程的主題。
在課程結束時,你將能夠:
- 為Databricks Lakehouse平台設計優化的數據庫和管道。Beplay体育安卓版本
- 實現有效的增量數據處理,以驗證和豐富數據驅動的業務決策和應用程序。
- 利用databicks的本地特性來管理對敏感數據的訪問並實現“被遺忘權”請求。
- 使用Databricks工具管理錯誤排除、代碼升級、任務編排和生產作業監控。
先決條件:
- 使用PySpark api執行高級數據轉換
- 熟悉使用Python實現類
- 在生產數據倉庫或數據湖實現中使用SQL的經驗
- 有使用Databricks筆記本和配置集群的經驗
- 熟悉使用SQL在Delta Lake表中創建和操作數據
- 能夠使用Spark Structured Streaming增量地從Delta表讀取數據
數據工程與數據庫
角色:數據工程師,BI分析師,分析工程師,數據庫架構師,機器學習工程師
格式:虛擬和麵對麵,整整兩天
實驗室:是的
價格:虛擬(800美元),麵對麵(1400美元)
來自各行各業的數據專業人士將受益於對Databricks Lakehouse平台組件的全麵介紹,這些組件直接支持將ETL管道投入生產。Beplay体育安卓版本課程將使學生熟悉Databricks數據工程和數據科學工作空間,Databricks SQL, Delta Live表,Databricks Repos, Databricks任務編排和Unity目錄。學生將利用SQL和Python來定義和調度管道,這些管道可以增量地處理來自各種數據源的新數據,從而為Lakehouse中的分析應用程序和儀表板提供動力。
注意:半天的課程“Spark SQL/PySpark端到端”包含了本課程的主題子集,主要麵向有經驗的數據從業者,他們的實踐練習較少。
在課程結束時,你將能夠:
- 描述Delta Lake事務擔保如何實現Lakehouse架構
- 在Lakehouse中設計和構建數據庫、表和視圖
- 為生產應用程序、機器學習和特別分析查詢攝取和豐富數據
- 使用Python和Spark SQL構建和部署生產數據工程管道
- 利用Databricks平台進行代碼開發、工作負Beplay体育安卓版本載編排、分析探索和儀表板
先決條件:
- Spark SQL的初學者經驗
- 有Python初學者經驗(優先)
- 初步了解ETL、數據倉庫和數據湖
- 熟悉Databricks工作區
Databricks平Beplay体育安卓版本台管理與統一目錄
角色:所有觀眾
格式:虛擬和麵對麵,半日
實驗室:沒有
價格:虛擬(200美元),麵對麵(350美元)
Unity Catalog的引入簡化了管理數據權限的過程,同時為管理員提供了數據治理、審計和共享的新功能。本課程指導學生使用Unity Catalog配置Databricks的最佳實踐,無論您是管理單個工作空間還是跨多個雲區域的企業部署。圍繞IAM、Beplay体育安卓版本acl和工作空間配置的基本平台管理任務也將被討論。
在課程結束時,你將能夠:
- 描述Unity Catalog如何適應Databricks平台架構Beplay体育安卓版本
- 使用Unity Catalog配置雲對象存儲的安全訪問
- 使用Unity Catalog管理對數據和模型的訪問
- 在Databricks工作區中配置組和用戶
- 為工作空間資產上的組設置權限
先決條件:
- 基本熟悉SQL
- 初步了解與身份訪問管理相關的概念
- Databricks工作空間的初級知識
- 熟悉雲計算概念(虛擬機、對象存儲等)
先進的機器學習與數據
角色:機器學習工程師,數據科學家
格式:虛擬和麵對麵,整整兩天
實驗室:是的
價格:虛擬(800美元),麵對麵(1400美元)
在本課程中,學生將培養與Databricks使用的專業級機器學習工程技能。在四個獨立的模塊中,學生將學習應用機器學習工作流的基礎知識,擴展和加速機器學習管道,應用機器學習操作,使用MLflow執行機器學習模型操作,以及組織、打包和測試端到端機器學習應用程序。在本課程結束時,學生應該能夠使用Databricks組織、擴展和操作機器學習應用程序。
在本課程結束時,您將能夠:
- 完成數據科學過程和機器學習工作流程的每個步驟。
- 提高機器學習管道的效率,簡化機器學習解決方案的開發和生產。
- 組織、打包和測試端到端機器學習應用程序,以確保其可重複性和穩定性。
- 使用MLflow應用機器學習操作最佳實踐。
先決條件:
- 具有Apache Spark的中級經驗(熟悉Spark架構和Spark DataFrame API)。
- Python的中級經驗(熟悉庫、迭代、控製流、操作符和類)。
- 機器學習的初級知識(熟悉定義、監督學習vs.無監督學習、回歸vs.分類和聚類)。
管理機器學習模型
角色:機器學習工程師,數據科學家
格式:虛擬和麵對麵,半日
實驗室:是的
價格:虛擬(200美元),麵對麵(350美元)
在本課程中,學習者將從描述Databricks機器學習模型管理和操作的基礎知識開始。接下來,學習者將使用MLflow跟蹤和Databricks自動記錄跟蹤機器學習模型的開發。第三,學習者將使用MLflow model Registry UI管理模型生命周期。最後,學習者將通過學習使用MLflow model Registry Webhooks和Databricks Jobs自動化模型生命周期來結束課程。
在本課程結束時,您將能夠:
- 描述Databricks機器學習模型管理和操作的基礎知識。
- 使用MLflow跟蹤和Databricks自動記錄跟蹤機器學習模型的開發。
- 使用MLflow model Registry管理模型生命周期。
- 使用MLflow model Registry Webhooks和Databricks job自動化模型生命周期。
注意:“使用數據庫的機器學習”課程涵蓋了這些概念,並對數據庫進行了額外的實踐和更廣泛的介紹,更適合準備完成數據庫認證專業數據科學家考試的學生。
先決條件:
- 中級Python經驗(熟悉Python庫和編程)。
- 機器學習的初級知識(簡單模型開發等)。
- 有Databricks機器學習的初級經驗。
部署機器學習模型
角色:機器學習工程師,數據科學家
格式:虛擬和麵對麵,半日
實驗室:是的
價格:虛擬(200美元),麵對麵(350美元)
在本課程中,學習者將從比較和對比機器學習模型部署策略開始。接下來,學習者將學習如何使用MLflow和Spark udf在批處理環境中部署機器學習模型。第三,學生將使用MLflow和Spark udf在增量處理的流環境中部署機器學習模型。最後,學習者將使用MLflow模型服務來簡單地部署一個機器學習管道進行實時評分。
在本課程結束時,您將能夠:
- 比較和對比機器學習部署策略。
- 使用MLflow和Spark udf在批處理環境中部署機器學習模型。
- 使用MLflow和Spark udf在增量處理的流環境中部署機器學習模型。
- 使用MLflow模型服務在實時環境中部署機器學習管道。
注意:“使用數據庫的機器學習”課程涵蓋了這些概念,並對數據庫進行了額外的實踐和更廣泛的介紹,更適合準備完成數據庫認證專業數據科學家考試的學生。
先決條件:
- 具有使用PySpark的中級經驗(熟悉Python庫和編程,Spark架構和PySpark DataFrame API)。
- 機器學習操作的初級知識和經驗(熟悉MLflow Model Registry)。
端到端ELT與Spark SQL
角色:基於sql的數據工程師和分析專業人員
格式:虛擬和麵對麵,半日
實驗室:是的
價格:虛擬(200美元),麵對麵(350美元)
本課程準備SQL數據專業人員利用Databricks Lakehouse平台生產ETL管道。Beplay体育安卓版本學生將使用Delta Live Tables和Spark SQL來定義和調度管道,以增量方式處理來自各種數據源的新數據到Lakehouse。學生還將使用Databricks Jobs編排任務,並使用Databricks Repos推廣代碼。
注意:“數據工程與數據庫”課程涵蓋了這些概念,並對數據庫進行了額外的實踐和更廣泛的介紹,更適合準備完成數據庫認證助理數據工程師考試的學生。
在課程結束時,你將能夠:
- 為生產應用程序攝取和豐富數據
- 使用Python和Spark SQL構建和部署生產數據工程管道
- 利用Databricks平台進行代碼開發和工作負Beplay体育安卓版本載編排
先決條件:
- 有使用SQL構建和維護生產ETL管道的經驗
- 熟悉雲計算概念(虛擬機、對象存儲等)
- 有使用數據倉庫和數據湖的生產經驗
- Databricks工作空間的初級知識
端到端ELT與PySpark
角色:數據工程師
格式:虛擬和麵對麵,半日
實驗室:是的
價格:虛擬(200美元),麵對麵(350美元)
本課程準備Python數據專業人員利用Databricks Lakehouse平台生產ETL管道。Beplay体育安卓版本學生將使用Delta Live Tables和PySpark來定義和調度管道,這些管道將增量地處理來自各種數據源的新數據到Lakehouse。學生還將使用Databricks Jobs編排任務,並使用Databricks Repos推廣代碼。
注意:“數據工程與數據庫”課程涵蓋了這些概念,並對數據庫進行了額外的實踐和更廣泛的介紹,更適合準備完成數據庫認證助理數據工程師考試的學生。
在課程結束時,你將能夠:
- 為生產應用程序攝取和豐富數據
- 使用PySpark構建和部署生產數據工程管道
- 利用Databricks平台進行代碼開發和工作負Beplay体育安卓版本載編排
先決條件:
- 有使用PySpark建立和維護生產ETL管道的經驗
- 熟悉雲計算概念(虛擬機、對象存儲等)
- 有使用數據倉庫和數據湖的生產經驗
- Databricks工作空間的初級知識
Databricks Lakehouse概述
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
在本課程中,您將了解Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時需要尋找的關鍵角色和能力,並使您熟悉完整數據環境的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
在課程結束時,你將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供大數據概念和應用的高級概述
Databricks Lakehouse平Beplay体育安卓版本台。它不包含動手實驗室或技術深度
深入研究Databricks功能。
先決條件:
- 不需要編程經驗
- 沒有經驗與Databricks要求
湖屋與三角洲湖深潛
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範例,並深入了解Delta Lake的特性和功能。您將學習如何使用Databricks應用軟件工程原理,同時演示如何使用Delta Lake構建端到端OLAP數據管道用於批處理和流數據。本課程還討論了通過聚合表和Databricks SQL分析為最終用戶提供數據。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。在課程結束時,你將能夠:
- 確定三角洲湖的核心組成部分,使湖屋成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批處理和流OLAP數據管道。
- 使用指定的設計模式使數據可供下遊涉眾使用。
- 在表級記錄數據,以促進數據發現和跨團隊溝通。
- 應用Databricks推薦的最佳實踐來設計一個單一來源的真理增量架構。
先決條件:
- 熟悉數據工程概念
- 基本了解Delta Lake核心特性和用例
Databricks平Beplay体育安卓版本台管理與統一目錄
角色:所有
格式:虛擬和麵對麵,半日
實驗室:沒有
價格:虛擬(200美元),麵對麵(350美元)
Unity Catalog的引入簡化了管理數據權限的過程,同時為管理員提供了數據治理、審計和共享的新功能。本課程指導學生使用Unity Catalog配置Databricks的最佳實踐,無論您是管理單個工作空間還是跨多個雲區域的企業部署。圍繞IAM、Beplay体育安卓版本acl和工作空間配置的基本平台管理任務也將被討論。
在課程結束時,你將能夠:
- 描述Unity Catalog如何適應Databricks平台架構Beplay体育安卓版本
- 使用Unity Catalog配置雲對象存儲的安全訪問
- 使用Unity Catalog管理對數據和模型的訪問
- 在Databricks工作區中配置組和用戶
- 為工作空間資產上的組設置權限
先決條件:
- 基本熟悉SQL
- 初步了解與身份訪問管理相關的概念
- Databricks工作空間的初級知識
- 熟悉雲計算概念(虛擬機、對象存儲等)
Databricks Lakehouse概述
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
在本課程中,您將了解Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時需要尋找的關鍵角色和能力,並使您熟悉完整數據環境的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
在課程結束時,你將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供大數據概念和應用的高級概述
Databricks Lakehouse平Beplay体育安卓版本台。它不包含動手實驗室或技術深度
深入研究Databricks功能。
先決條件:
- 不需要編程經驗
- 沒有經驗與Databricks要求
湖屋與三角洲湖深潛
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範例,並深入了解Delta Lake的特性和功能。您將學習如何使用Databricks應用軟件工程原理,同時演示如何使用Delta Lake構建端到端OLAP數據管道用於批處理和流數據。本課程還討論了通過聚合表和Databricks SQL分析為最終用戶提供數據。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。在課程結束時,你將能夠:
- 確定三角洲湖的核心組成部分,使湖屋成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批處理和流OLAP數據管道。
- 使用指定的設計模式使數據可供下遊涉眾使用。
- 在表級記錄數據,以促進數據發現和跨團隊溝通。
- 應用Databricks推薦的最佳實踐來設計一個單一來源的真理增量架構。
先決條件:
- 熟悉數據工程概念
- 基本了解Delta Lake核心特性和用例
Databricks SQL簡介
角色: SQL分析師,數據分析師,業務分析師
格式:虛擬和麵對麵,半日
實驗室:是的
價格:虛擬(200美元),麵對麵(350美元)
了解Databricks SQL並了解如何在直接查詢組織的數據湖時實現高性能。使用Databricks SQL,學習者將練習編寫和可視化查詢。本課程結束時,學生將能夠使用Databricks SQL編寫各種查詢,創建各種可視化,並將其可視化組合成一個可以與他人共享的儀表板。
在課程結束時,你將能夠:
- 瀏覽Databricks SQL
- 用Databricks SQL編寫查詢
- 可視化查詢輸出
- 生成一個組合了多個可視化的儀表板
注意:“Data Analysis with Databricks SQL”課程涵蓋了這些概念,並對Databricks進行了額外的實踐和更廣泛的介紹,更適合準備完成Databricks關聯數據分析認證考試的學生。
先決條件:
- 基本熟悉ANSI SQL
使用Databricks SQL進行數據分析
角色: SQL分析師,數據分析師,業務分析師
持續時間:虛擬和麵對麵,全天
實驗室:是的
價格:虛擬(400美元),麵對麵(700美元)
了解Databricks SQL並了解如何在直接查詢組織的數據湖時實現高性能。使用Databricks SQL,學習者將練習編寫和可視化查詢。學生將創建一個個人儀表板,完成參數化查詢和自動警報離開這門課程。
在課程結束時,您將能夠使用Databricks SQL:
- 編寫回答特定BI問題的查詢
- 可視化查詢輸出
- 生成一個組合了多個可視化的儀表板
- 使用參數化查詢自定義查詢輸出
- 創建警報
先決條件:
- 基本熟悉ANSI SQL
Databricks Lakehouse概述
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
在本課程中,您將了解Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時需要尋找的關鍵角色和能力,並使您熟悉完整數據環境的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
在課程結束時,你將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供大數據概念和應用的高級概述
Databricks Lakehouse平Beplay体育安卓版本台。它不包含動手實驗室或技術深度
深入研究Databricks功能。
先決條件:
- 不需要編程經驗
- 沒有經驗與Databricks要求
湖屋與三角洲湖深潛
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範例,並深入了解Delta Lake的特性和功能。您將學習如何使用Databricks應用軟件工程原理,同時演示如何使用Delta Lake構建端到端OLAP數據管道用於批處理和流數據。本課程還討論了通過聚合表和Databricks SQL分析為最終用戶提供數據。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。在課程結束時,你將能夠:
- 確定三角洲湖的核心組成部分,使湖屋成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批處理和流OLAP數據管道。
- 使用指定的設計模式使數據可供下遊涉眾使用。
- 在表級記錄數據,以促進數據發現和跨團隊溝通。
- 應用Databricks推薦的最佳實踐來設計一個單一來源的真理增量架構。
先決條件:
- 熟悉數據工程概念
- 基本了解Delta Lake核心特性和用例
關聯SQL分析師認證考試
角色:數據分析師
格式:虛擬和麵對麵,1.5小時
價格:50美元
SQL分析協會認證的獲得者已經證明了對Databricks SQL基本數據分析任務的理解。這包括理解Databricks SQL服務,能夠創建和管理數據庫、表和視圖,能夠編寫基本的SQL查詢,能夠在Databricks SQL中創建數據可視化並將其包含在儀表板中,以及如何連接到其他BI工具並將數據上傳到Databricks SQL。
Apache Spark™Programming with Databricks
角色:數據工程師,數據科學家,機器學習工程師,數據架構師
格式:虛擬和麵對麵,整整兩天
實驗室:是的
價格:虛擬(800美元),麵對麵(1400美元)
本課程使用案例研究驅動的方法來探索Spark Programming with Databricks的基礎知識,包括Spark架構、DataFrame API、查詢優化和結構化流。首先,您將熟悉Databricks和Spark,認識它們的主要組件,並使用Databricks環境探索案例研究的數據集。在從各種文件格式攝取數據之後,您將通過應用各種DataFrame轉換、列表達式和內置函數來處理和分析數據集。最後,您將執行流查詢來處理流數據,並強調使用Delta Lake的優勢。
在課程結束時,你將能夠:
- 定義Spark體係結構和執行層次結構的主要組件
- 描述如何在Spark中構建、轉換和評估dataframe
- 應用DataFrame API在Spark中探索、預處理、連接和攝取數據
- 應用結構化流API對流數據執行分析
- 瀏覽Spark UI,描述催化劑優化器、分區和緩存如何影響Spark的執行性能
先決條件:
- 熟悉基本SQL概念(選擇、篩選、分組、連接等)
- Python初學者編程經驗(語法,條件,循環,函數)
Apache Spark的性能調優
角色:數據工程師,ML工程師,數據科學家
格式:虛擬和麵對麵,全天
實驗室:是的
價格:虛擬(400美元),麵對麵(700美元)
完成有指導的挑戰,學習診斷和修複性能不佳的查詢。使用Python/Scala,參與者將回顧性能問題,以發現解決方案和最佳實踐,應用於您的查詢。
在課程結束時,你將能夠:
- 解構Spark UI,幫助進行性能分析、應用程序調試和Spark應用程序調優。
- 總結與數據攝取相關的一些最常見的性能問題,以及如何緩解這些問題。
- 在配置Spark集群時,請根據具體需求和各種因素進行配置。
先決條件:
- 建議有6個月以上的Spark DataFrame API工作經驗
- 中級Python或Scala編程經驗
高級數據工程與數據庫
角色:數據工程師,BI分析師,分析工程師,數據庫架構師,機器學習工程師
格式:虛擬和麵對麵,整整兩天
實驗室:是的
價格:虛擬(800美元),麵對麵(1400美元)
在本課程中,學生將基於現有的Apache Spark、Structured Streaming和Delta Lake知識,利用Databricks提供的工具套件來釋放數據湖屋的全部潛力。本課程著重強調有利於增量數據處理的設計,使優化的係統能夠持續吸收和分析不斷增長的數據。通過設計利用內置平台優化的工作負載,數據工程師可以減少代碼維護和隨叫隨到的緊急情況的負擔,並Beplay体育安卓版本通過最小的重構或停機時間快速調整生產代碼以適應新的需求。在參加Databricks認證的數據工程專業考試之前,應該先掌握本課程的主題。
在課程結束時,你將能夠:
- 為Databricks Lakehouse平台設計優化的數據庫和管道。Beplay体育安卓版本
- 實現有效的增量數據處理,以驗證和豐富數據驅動的業務決策和應用程序。
- 利用databicks的本地特性來管理對敏感數據的訪問並實現“被遺忘權”請求。
- 使用Databricks工具管理錯誤排除、代碼升級、任務編排和生產作業監控。
先決條件:
- 使用PySpark api執行高級數據轉換
- 熟悉使用Python實現類
- 在生產數據倉庫或數據湖實現中使用SQL的經驗
- 有使用Databricks筆記本和配置集群的經驗
- 熟悉使用SQL在Delta Lake表中創建和操作數據
- 能夠使用Spark Structured Streaming增量地從Delta表讀取數據
數據工程與數據庫
角色:數據工程師,BI分析師,分析工程師,數據庫架構師,機器學習工程師
格式:虛擬和麵對麵,整整兩天
實驗室:是的
價格:虛擬(800美元),麵對麵(1400美元)
來自各行各業的數據專業人士將受益於對Databricks Lakehouse平台組件的全麵介紹,這些組件直接支持將ETL管道投入生產。Beplay体育安卓版本課程將使學生熟悉Databricks數據工程和數據科學工作空間,Databricks SQL, Delta Live表,Databricks Repos, Databricks任務編排和Unity目錄。學生將利用SQL和Python來定義和調度管道,這些管道可以增量地處理來自各種數據源的新數據,從而為Lakehouse中的分析應用程序和儀表板提供動力。
注意:半天的課程“Spark SQL/PySpark端到端”包含了本課程的主題子集,主要麵向有經驗的數據從業者,他們的實踐練習較少。
在課程結束時,你將能夠:
- 描述Delta Lake事務擔保如何實現Lakehouse架構
- 在Lakehouse中設計和構建數據庫、表和視圖
- 為生產應用程序、機器學習和特別分析查詢攝取和豐富數據
- 使用Python和Spark SQL構建和部署生產數據工程管道
- 利用Databricks平台進行代碼開發、工作負Beplay体育安卓版本載編排、分析探索和儀表板
先決條件:
- Spark SQL的初學者經驗
- 有Python初學者經驗(優先)
- 初步了解ETL、數據倉庫和數據湖
- 熟悉Databricks工作區
端到端ELT與Spark SQL
角色:基於sql的數據工程師和分析專業人員
格式:虛擬和麵對麵,半日
實驗室:是的
價格:虛擬(200美元),麵對麵(350美元)
本課程準備SQL數據專業人員利用Databricks Lakehouse平台生產ETL管道。Beplay体育安卓版本學生將使用Delta Live Tables和Spark SQL來定義和調度管道,以增量方式處理來自各種數據源的新數據到Lakehouse。學生還將使用Databricks Jobs編排任務,並使用Databricks Repos推廣代碼。
注意:“數據工程與數據庫”課程涵蓋了這些概念,並對數據庫進行了額外的實踐和更廣泛的介紹,更適合準備完成數據庫認證助理數據工程師考試的學生。
在課程結束時,你將能夠:
- 為生產應用程序攝取和豐富數據
- 使用Python和Spark SQL構建和部署生產數據工程管道
- 利用Databricks平台進行代碼開發和工作負Beplay体育安卓版本載編排
先決條件:
- 有使用SQL構建和維護生產ETL管道的經驗
- 熟悉雲計算概念(虛擬機、對象存儲等)
- 有使用數據倉庫和數據湖的生產經驗
- Databricks工作空間的初級知識
端到端ELT與PySpark
角色:數據工程師
格式:虛擬和麵對麵,半日
實驗室:是的
價格:虛擬(200美元),麵對麵(350美元)
本課程準備Python數據專業人員利用Databricks Lakehouse平台生產ETL管道。Beplay体育安卓版本學生將使用Delta Live Tables和PySpark來定義和調度管道,這些管道將增量地處理來自各種數據源的新數據到Lakehouse。學生還將使用Databricks Jobs編排任務,並使用Databricks Repos推廣代碼。
注意:“數據工程與數據庫”課程涵蓋了這些概念,並對數據庫進行了額外的實踐和更廣泛的介紹,更適合準備完成數據庫認證助理數據工程師考試的學生。
在課程結束時,你將能夠:
- 為生產應用程序攝取和豐富數據
- 使用PySpark構建和部署生產數據工程管道
- 利用Databricks平台進行代碼開發和工作負Beplay体育安卓版本載編排
先決條件:
- 有使用PySpark建立和維護生產ETL管道的經驗
- 熟悉雲計算概念(虛擬機、對象存儲等)
- 有使用數據倉庫和數據湖的生產經驗
- Databricks工作空間的初級知識
Apache Spark的性能調優
角色:數據工程師,ML工程師,數據科學家
格式:虛擬和麵對麵,全天
實驗室:是的
價格:虛擬(400美元),麵對麵(700美元)
完成有指導的挑戰,學習診斷和修複性能不佳的查詢。使用Python/Scala,參與者將回顧性能問題,以發現解決方案和最佳實踐,應用於您的查詢。
在課程結束時,你將能夠:
- 解構Spark UI,幫助進行性能分析、應用程序調試和Spark應用程序調優。
- 總結與數據攝取相關的一些最常見的性能問題,以及如何緩解這些問題。
- 在配置Spark集群時,請根據具體需求和各種因素進行配置。
先決條件:
- 建議有6個月以上的Spark DataFrame API工作經驗
- 中級Python或Scala編程經驗
Databricks Lakehouse概述
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
在本課程中,您將了解Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時需要尋找的關鍵角色和能力,並使您熟悉完整數據環境的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
在課程結束時,你將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供大數據概念和應用的高級概述
Databricks Lakehouse平Beplay体育安卓版本台。它不包含動手實驗室或技術深度
深入研究Databricks功能。
先決條件:
- 不需要編程經驗
- 沒有經驗與Databricks要求
湖屋與三角洲湖深潛
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範例,並深入了解Delta Lake的特性和功能。您將學習如何使用Databricks應用軟件工程原理,同時演示如何使用Delta Lake構建端到端OLAP數據管道用於批處理和流數據。本課程還討論了通過聚合表和Databricks SQL分析為最終用戶提供數據。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。在課程結束時,你將能夠:
- 確定三角洲湖的核心組成部分,使湖屋成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批處理和流OLAP數據管道。
- 使用指定的設計模式使數據可供下遊涉眾使用。
- 在表級記錄數據,以促進數據發現和跨團隊溝通。
- 應用Databricks推薦的最佳實踐來設計一個單一來源的真理增量架構。
先決條件:
- 熟悉數據工程概念
- 基本了解Delta Lake核心特性和用例
副數據工程師認證考試
角色:數據工程師
格式:虛擬和麵對麵,1.5小時
價格:50美元
Databricks認證助理數據工程師認證考試評估個人使用Databricks Lakehouse平台完成介紹性數據工程任務的能力。Beplay体育安卓版本這包括對Lakehouse平台及其工作空間、體係結構和功能的理解。Beplay体育安卓版本它還評估了在批處理和增量處理範式中使用Apache Spark SQL和Python執行多跳架構ETL任務的能力。最後,考試評估測試人員將基本ETL管道和Databricks SQL查詢和儀表板投入生產的能力,同時保持實體權限。通過該認證考試的個人可以使用Databricks及其相關工具完成基本的數據工程任務。
Apache Spark認證考試的副開發人員
角色:數據工程師,數據科學家
格式:虛擬和麵對麵,2小時
價格:50美元
Databricks Certified Associate Developer for Apache Spark 3.0認證考試評估對Spark DataFrame API的理解,以及應用Spark DataFrame API在Spark會話中完成基本數據操作任務的能力。這些任務包括選擇、重命名和操作列;篩選、刪除、排序和聚合行;處理缺失數據;結合,讀取,寫入和分區dataframe與模式;使用udf和Spark SQL函數。此外,考試還將評估Spark架構的基礎知識,如執行/部署模式、執行層次結構、容錯、垃圾收集和廣播。
專業數據工程師認證考試
角色:數據工程師
格式:虛擬和麵對麵,2小時
價格:50美元
Databricks認證數據工程專業認證考試評估個人使用Databricks執行常見數據工程任務的能力。這包括了解Databricks平台和開發工具,如Apache Spark、Delta Lake、MBeplay体育安卓版本Lflow以及Databricks CLI和REST API。它還評估構建優化和清潔的ETL管道的能力。此外,還將評估使用一般數據建模概念的知識將數據建模到Lakehouse。最後,在部署前確保數據管道的安全、可靠、監視和測試也將包括在本次考試中。
通過該認證考試的個人可以使用Databricks及其相關工具完成數據工程任務。
Apache Spark™Programming with Databricks
角色:數據工程師,數據科學家,機器學習工程師,數據架構師
格式:虛擬和麵對麵,整整兩天
實驗室:是的
價格:虛擬(800美元),麵對麵(1400美元)
本課程使用案例研究驅動的方法來探索Spark Programming with Databricks的基礎知識,包括Spark架構、DataFrame API、查詢優化和結構化流。首先,您將熟悉Databricks和Spark,認識它們的主要組件,並使用Databricks環境探索案例研究的數據集。在從各種文件格式攝取數據之後,您將通過應用各種DataFrame轉換、列表達式和內置函數來處理和分析數據集。最後,您將執行流查詢來處理流數據,並強調使用Delta Lake的優勢。
在課程結束時,你將能夠:
- 定義Spark體係結構和執行層次結構的主要組件
- 描述如何在Spark中構建、轉換和評估dataframe
- 應用DataFrame API在Spark中探索、預處理、連接和攝取數據
- 應用結構化流API對流數據執行分析
- 瀏覽Spark UI,描述催化劑優化器、分區和緩存如何影響Spark的執行性能
先決條件:
- 熟悉基本SQL概念(選擇、篩選、分組、連接等)
- Python初學者編程經驗(語法,條件,循環,函數)
先進的機器學習與數據
角色:機器學習工程師,數據科學家
格式:虛擬和麵對麵,整整兩天
實驗室:是的
價格:虛擬(800美元),麵對麵(1400美元)
在本課程中,學生將培養與Databricks使用的專業級機器學習工程技能。在四個獨立的模塊中,學生將學習應用機器學習工作流的基礎知識,擴展和加速機器學習管道,應用機器學習操作,使用MLflow執行機器學習模型操作,以及組織、打包和測試端到端機器學習應用程序。在本課程結束時,學生應該能夠使用Databricks組織、擴展和操作機器學習應用程序。
在本課程結束時,您將能夠:
- 完成數據科學過程和機器學習工作流程的每個步驟。
- 提高機器學習管道的效率,簡化機器學習解決方案的開發和生產。
- 組織、打包和測試端到端機器學習應用程序,以確保其可重複性和穩定性。
- 使用MLflow應用機器學習操作最佳實踐。
先決條件:
- 具有Apache Spark的中級經驗(熟悉Spark架構和Spark DataFrame API)。
- Python的中級經驗(熟悉庫、迭代、控製流、操作符和類)。
- 機器學習的初級知識(熟悉定義、監督學習vs.無監督學習、回歸vs.分類和聚類)。
管理機器學習模型
角色:機器學習工程師,數據科學家
格式:虛擬和麵對麵,半日
實驗室:是的
價格:虛擬(200美元),麵對麵(350美元)
在本課程中,學習者將從描述Databricks機器學習模型管理和操作的基礎知識開始。接下來,學習者將使用MLflow跟蹤和Databricks自動記錄跟蹤機器學習模型的開發。第三,學習者將使用MLflow model Registry UI管理模型生命周期。最後,學習者將通過學習使用MLflow model Registry Webhooks和Databricks Jobs自動化模型生命周期來結束課程。
在本課程結束時,您將能夠:
- 描述Databricks機器學習模型管理和操作的基礎知識。
- 使用MLflow跟蹤和Databricks自動記錄跟蹤機器學習模型的開發。
- 使用MLflow model Registry管理模型生命周期。
- 使用MLflow model Registry Webhooks和Databricks job自動化模型生命周期。
注意:“使用數據庫的機器學習”課程涵蓋了這些概念,並對數據庫進行了額外的實踐和更廣泛的介紹,更適合準備完成數據庫認證專業數據科學家考試的學生。
先決條件:
- 中級Python經驗(熟悉Python庫和編程)。
- 機器學習的初級知識(簡單模型開發等)。
- 有Databricks機器學習的初級經驗。
部署機器學習模型
角色:機器學習工程師,數據科學家
格式:虛擬和麵對麵,半日
實驗室:是的
價格:虛擬(200美元),麵對麵(350美元)
在本課程中,學習者將從比較和對比機器學習模型部署策略開始。接下來,學習者將學習如何使用MLflow和Spark udf在批處理環境中部署機器學習模型。第三,學生將使用MLflow和Spark udf在增量處理的流環境中部署機器學習模型。最後,學習者將使用MLflow模型服務來簡單地部署一個機器學習管道進行實時評分。
在本課程結束時,您將能夠:
- 比較和對比機器學習部署策略。
- 使用MLflow和Spark udf在批處理環境中部署機器學習模型。
- 使用MLflow和Spark udf在增量處理的流環境中部署機器學習模型。
- 使用MLflow模型服務在實時環境中部署機器學習管道。
注意:“使用數據庫的機器學習”課程涵蓋了這些概念,並對數據庫進行了額外的實踐和更廣泛的介紹,更適合準備完成數據庫認證專業數據科學家考試的學生。
先決條件:
- 具有使用PySpark的中級經驗(熟悉Python庫和編程,Spark架構和PySpark DataFrame API)。
- 機器學習操作的初級知識和經驗(熟悉MLflow Model Registry)。
Apache Spark的性能調優
角色:數據工程師,ML工程師,數據科學家
格式:虛擬和麵對麵,全天
實驗室:是的
價格:虛擬(400美元),麵對麵(700美元)
完成有指導的挑戰,學習診斷和修複性能不佳的查詢。使用Python/Scala,參與者將回顧性能問題,以發現解決方案和最佳實踐,應用於您的查詢。
在課程結束時,你將能夠:
- 解構Spark UI,幫助進行性能分析、應用程序調試和Spark應用程序調優。
- 總結與數據攝取相關的一些最常見的性能問題,以及如何緩解這些問題。
- 在配置Spark集群時,請根據具體需求和各種因素進行配置。
先決條件:
- 建議有6個月以上的Spark DataFrame API工作經驗
- 中級Python或Scala編程經驗
Databricks Lakehouse概述
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
在本課程中,您將了解Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時需要尋找的關鍵角色和能力,並使您熟悉完整數據環境的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
在課程結束時,你將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供大數據概念和應用的高級概述
Databricks Lakehouse平Beplay体育安卓版本台。它不包含動手實驗室或技術深度
深入研究Databricks功能。
先決條件:
- 不需要編程經驗
- 沒有經驗與Databricks要求
湖屋與三角洲湖深潛
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範例,並深入了解Delta Lake的特性和功能。您將學習如何使用Databricks應用軟件工程原理,同時演示如何使用Delta Lake構建端到端OLAP數據管道用於批處理和流數據。本課程還討論了通過聚合表和Databricks SQL分析為最終用戶提供數據。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。在課程結束時,你將能夠:
- 確定三角洲湖的核心組成部分,使湖屋成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批處理和流OLAP數據管道。
- 使用指定的設計模式使數據可供下遊涉眾使用。
- 在表級記錄數據,以促進數據發現和跨團隊溝通。
- 應用Databricks推薦的最佳實踐來設計一個單一來源的真理增量架構。
先決條件:
- 熟悉數據工程概念
- 基本了解Delta Lake核心特性和用例
專業機器學習認證考試
角色:數據科學家
格式:虛擬和麵對麵,2小時
價格:50美元
Databricks認證專業數據科學家認證考試評估對機器學習基礎知識的理解和機器學習生命周期中的步驟,包括數據準備、特征工程、模型訓練、模型選擇、解釋模型和模型的生成。考試還評估對基本機器學習算法和技術的理解,包括線性回歸、邏輯回歸、正則化、決策樹、基於樹的集成、基本聚類算法和矩陣分解技術。還評估了使用MLflow進行模型管理的基礎知識,如日誌記錄和模型組織。
副機器學習認證考試
角色:數據科學家
格式:虛擬和麵對麵,1.5小時
價格:50美元
Databricks認證機器學習助理認證考試評估個人使用Databricks執行基本機器學習任務的能力。這包括理解和使用Databricks機器學習及其功能,如AutoML、Feature Store和MLflow的選擇功能。它還評估了在機器學習工作流中做出正確決策的能力,並使用Spark ML實現這些工作流。最後,評估了理解擴展機器學習模型的高級特征的能力。通過該認證考試的個人可以使用Databricks及其相關工具完成基本的機器學習任務。
Apache Spark認證考試的副開發人員
角色:數據工程師,數據科學家
格式:虛擬和麵對麵,2小時
價格:50美元
Databricks Certified Associate Developer for Apache Spark 3.0認證考試評估對Spark DataFrame API的理解,以及應用Spark DataFrame API在Spark會話中完成基本數據操作任務的能力。這些任務包括選擇、重命名和操作列;篩選、刪除、排序和聚合行;處理缺失數據;結合,讀取,寫入和分區dataframe與模式;使用udf和Spark SQL函數。此外,考試還將評估Spark架構的基礎知識,如執行/部署模式、執行層次結構、容錯、垃圾收集和廣播。
Databricks平Beplay体育安卓版本台管理與統一目錄
角色:所有
格式:虛擬和麵對麵,半日
實驗室:沒有
價格:虛擬(200美元),麵對麵(350美元)
Unity Catalog的引入簡化了管理數據權限的過程,同時為管理員提供了數據治理、審計和共享的新功能。本課程指導學生使用Unity Catalog配置Databricks的最佳實踐,無論您是管理單個工作空間還是跨多個雲區域的企業部署。圍繞IAM、Beplay体育安卓版本acl和工作空間配置的基本平台管理任務也將被討論。
在課程結束時,你將能夠:
- 描述Unity Catalog如何適應Databricks平台架構Beplay体育安卓版本
- 使用Unity Catalog配置雲對象存儲的安全訪問
- 使用Unity Catalog管理對數據和模型的訪問
- 在Databricks工作區中配置組和用戶
- 為工作空間資產上的組設置權限
先決條件:
- 基本熟悉SQL
- 初步了解與身份訪問管理相關的概念
- Databricks工作空間的初級知識
- 熟悉雲計算概念(虛擬機、對象存儲等)
Databricks Lakehouse概述
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
在本課程中,您將了解Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時需要尋找的關鍵角色和能力,並使您熟悉完整數據環境的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
在課程結束時,你將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供大數據概念和應用的高級概述
Databricks Lakehouse平Beplay体育安卓版本台。它不包含動手實驗室或技術深度
深入研究Databricks功能。
先決條件:
- 不需要編程經驗
- 沒有經驗與Databricks要求
湖屋與三角洲湖深潛
角色:所有觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範例,並深入了解Delta Lake的特性和功能。您將學習如何使用Databricks應用軟件工程原理,同時演示如何使用Delta Lake構建端到端OLAP數據管道用於批處理和流數據。本課程還討論了通過聚合表和Databricks SQL分析為最終用戶提供數據。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。在課程結束時,你將能夠:
- 確定三角洲湖的核心組成部分,使湖屋成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批處理和流OLAP數據管道。
- 使用指定的設計模式使數據可供下遊涉眾使用。
- 在表級記錄數據,以促進數據發現和跨團隊溝通。
- 應用Databricks推薦的最佳實踐來設計一個單一來源的真理增量架構。
先決條件:
- 熟悉數據工程概念
- 基本了解Delta Lake核心特性和用例
副數據工程師認證考試
角色:數據工程師
格式:虛擬和麵對麵,1.5小時
價格:50美元
Databricks認證助理數據工程師認證考試評估個人使用Databricks Lakehouse平台完成介紹性數據工程任務的能力。Beplay体育安卓版本這包括對Lakehouse平台及其工作空間、體係結構和功能的理解。Beplay体育安卓版本它還評估了在批處理和增量處理範式中使用Apache Spark SQL和Python執行多跳架構ETL任務的能力。最後,考試評估測試人員將基本ETL管道和Databricks SQL查詢和儀表板投入生產的能力,同時保持實體權限。通過該認證考試的個人可以使用Databricks及其相關工具完成基本的數據工程任務。
Apache Spark認證考試的副開發人員
角色:數據工程師,數據科學家
格式:虛擬和麵對麵,2小時
價格:50美元
Databricks Certified Associate Developer for Apache Spark 3.0認證考試評估對Spark DataFrame API的理解,以及應用Spark DataFrame API在Spark會話中完成基本數據操作任務的能力。這些任務包括選擇、重命名和操作列;篩選、刪除、排序和聚合行;處理缺失數據;結合,讀取,寫入和分區dataframe與模式;使用udf和Spark SQL函數。此外,考試還將評估Spark架構的基礎知識,如執行/部署模式、執行層次結構、容錯、垃圾收集和廣播。
關聯SQL分析師認證考試
角色:數據分析師
格式:虛擬和麵對麵,1.5小時
價格:50美元
SQL分析協會認證的獲得者已經證明了對Databricks SQL基本數據分析任務的理解。這包括理解Databricks SQL服務,能夠創建和管理數據庫、表和視圖,能夠編寫基本的SQL查詢,能夠在Databricks SQL中創建數據可視化並將其包含在儀表板中,以及如何連接到其他BI工具並將數據上傳到Databricks SQL。
專業數據工程師認證考試
角色:數據工程師
格式:虛擬和麵對麵,2小時
價格:50美元
Databricks認證數據工程專業認證考試評估個人使用Databricks執行常見數據工程任務的能力。這包括了解Databricks平台和開發工具,如Apache Spark、Delta Lake、MBeplay体育安卓版本Lflow以及Databricks CLI和REST API。它還評估構建優化和清潔的ETL管道的能力。此外,還將評估使用一般數據建模概念的知識將數據建模到Lakehouse。最後,在部署前確保數據管道的安全、可靠、監視和測試也將包括在本次考試中。
通過該認證考試的個人可以使用Databricks及其相關工具完成數據工程任務。
專業機器學習認證考試
角色:數據科學家
格式:虛擬和麵對麵,2小時
價格:50美元
Databricks認證專業數據科學家認證考試評估對機器學習基礎知識的理解和機器學習生命周期中的步驟,包括數據準備、特征工程、模型訓練、模型選擇、解釋模型和模型的生成。考試還評估對基本機器學習算法和技術的理解,包括線性回歸、邏輯回歸、正則化、決策樹、基於樹的集成、基本聚類算法和矩陣分解技術。還評估了使用MLflow進行模型管理的基礎知識,如日誌記錄和模型組織。
副機器學習認證考試
角色:數據科學家
格式:虛擬和麵對麵,1.5小時
價格:50美元
Databricks認證機器學習助理認證考試評估個人使用Databricks執行基本機器學習任務的能力。這包括理解和使用Databricks機器學習及其功能,如AutoML、Feature Store和MLflow的選擇功能。它還評估了在機器學習工作流中做出正確決策的能力,並使用Spark ML實現這些工作流。最後,評估了理解擴展機器學習模型的高級特征的能力。通過該認證考試的個人可以使用Databricks及其相關工具完成基本的機器學習任務。