培訓
培訓
數據+ AI峰會2022培訓將於6月27日和30日舉行,擴大了半日和全天的麵對麵和虛擬課程。大多數培訓課程將包括講座和實踐練習。新的認證包還包括課程和考試。
磚Lakehouse概述
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
在本課程中,您將發現Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時尋找的關鍵角色和能力,並使您熟悉完整數據景觀的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
課程結束時,您將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供了大數據概念的高級概述
磚Lakehouse平台。Beplay体育安卓版本它不包含實踐實驗室或技術深度
深入Databricks功能。
先決條件:
- 不需要編程經驗
- 不需要使用Databricks的經驗
帶三角洲深潛湖的湖屋
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範式,並深入了解Delta Lake的特性和功能。當我們演示如何使用Delta Lake構建用於批處理和流數據的端到端OLAP數據管道時,您將了解如何使用Databricks應用軟件工程原則。本課程還討論了通過聚合表和Databricks SQL Analytics為最終用戶提供數據服務。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。課程結束時,您將能夠:
- 確定Delta Lake的核心組件,使Lakehouse成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批量和流的OLAP數據管道。
- 使用指定的設計模式使下遊涉眾可以使用數據。
- 在表級記錄數據,以促進數據發現和跨團隊通信。
- 應用Databricks推薦的最佳實踐來構建一個完整的Delta架構。
先決條件:
- 熟悉數據工程概念
- 具備Delta Lake核心特性和用例的基本知識
數據庫SQL簡介
角色: SQL分析師、數據分析師、業務分析師
格式:虛擬和真人,半天
實驗室:是的
價格:虛擬(200美元),真人(350美元)
滿足Databricks SQL,找出如何實現高性能,同時直接查詢您的組織的數據湖。使用Databricks SQL,學習者將練習編寫和可視化查詢。學生在離開本課程時將能夠使用Databricks SQL編寫各種查詢,創建各種可視化,並將其可視化組合到一個可以與他人共享的儀表板中。
課程結束時,您將能夠:
- 導航數據磚SQL
- 用Databricks SQL編寫查詢
- 可視化查詢輸出
- 生成組合多個可視化的指示板
注:“使用Databricks SQL進行數據分析”課程涵蓋了這些概念,並附加了對Databricks的實踐和更廣泛的介紹,更適合準備完成關聯數據分析與Databricks認證考試的學生。
先決條件:
- 基本熟悉ANSI SQL
數據分析與Databricks SQL
角色: SQL分析師、數據分析師、業務分析師
持續時間:虛擬和真人,全天
實驗室:是的
價格:虛擬(400美元),真人(700美元)
滿足Databricks SQL,找出如何實現高性能,同時直接查詢您的組織的數據湖。使用Databricks SQL,學習者將練習編寫和可視化查詢。學生在離開本課程時將創建一個個人儀表板,並完成參數化查詢和自動警報。
課程結束時,您將能夠使用Databricks SQL:
- 編寫回答特定BI問題的查詢
- 可視化查詢輸出
- 生成組合多個可視化的指示板
- 使用參數化查詢自定義查詢輸出
- 創建警報
先決條件:
- 基本熟悉ANSI SQL
Apache Spark™編程與Databricks
角色:數據工程師、數據科學家、機器學習工程師、數據架構師
格式:虛擬和真人,整整兩天
實驗室:是的
價格:虛擬(800美元),親自(1400美元)
本課程使用案例研究驅動的方法來探索Spark Programming with Databricks的基礎知識,包括Spark架構、DataFrame API、查詢優化和結構化流。首先,您將熟悉Databricks和Spark,識別它們的主要組件,並探索使用Databricks環境進行案例研究的數據集。在從各種文件格式獲取數據之後,您將通過應用各種DataFrame轉換、列表達式和內置函數來處理和分析數據集。最後,您將執行流查詢來處理流數據,並強調使用Delta Lake的優勢。
課程結束時,您將能夠:
- 定義Spark架構和執行層次結構的主要組件
- 描述在Spark中如何構建、轉換和評估DataFrames
- 應用DataFrame API在Spark中探索、預處理、連接和攝取數據
- 應用結構化流媒體API對流媒體數據進行分析
- 瀏覽Spark UI並描述催化劑優化器、分區和緩存如何影響Spark的執行性能
先決條件:
- 熟悉基本的SQL概念(選擇、篩選、分組、連接等)
- 具有Python編程的初級經驗(語法、條件、循環、函數)
Apache Spark性能調優
角色:數據工程師,ML工程師,數據科學家
格式:虛擬和真人,全天
實驗室:是的
價格:虛擬(400美元),真人(700美元)
在學習診斷和修複性能較差的查詢時,完成指導挑戰。通過使用Python/Scala,參與者將回顧性能問題,找出解決方案和最佳實踐,並應用於您的查詢。
課程結束時,您將能夠:
- 解析Spark UI,以幫助進行性能分析、應用程序調試和Spark應用程序調優。
- 總結與數據攝取相關的一些最常見的性能問題,以及如何緩解這些問題。
- 根據特定的要求和各種因素配置Spark集群。
先決條件:
- 建議有6個月以上使用Spark DataFrame API的經驗
- 中級Python或Scala編程經驗
高級數據工程與數據ricks
角色:數據工程師,商業智能分析師,分析工程師,數據庫架構師,機器學習工程師
格式:虛擬和真人,整整兩天
實驗室:是的
價格:虛擬(800美元),親自(1400美元)
在本課程中,學生將基於他們現有的Apache Spark、結構化流媒體和Delta Lake知識,利用Databricks提供的工具套件解鎖數據湖屋的全部潛力。本課程著重強調增量數據處理的設計,使係統能夠優化,不斷吸收和分析不斷增長的數據。通過設計利用內置平台優化的工作負載,數據工程師可以減少代碼維護和隨叫隨到的緊急情況的負擔,並Beplay体育安卓版本以最小的重構或停機時間快速調整生產代碼以適應新的需求。在參加Databricks認證的數據工程專業考試之前,應先掌握本課程的主題。
課程結束時,您將能夠:
- 為Databricks Lakehouse平台優化設計數據庫和管道。Beplay体育安卓版本
- 實現高效的增量數據處理,以驗證和豐富驅動業務決策和應用程序的數據。
- 利用databrick -本機特性來管理對敏感數據的訪問和實現被遺忘權請求。
- 使用Databricks工具管理錯誤排除、代碼提升、任務編排和生產作業監控。
先決條件:
- 使用PySpark api執行高級數據轉換
- 熟悉使用Python實現類
- 有在生產數據倉庫或數據湖實現中使用SQL的經驗
- 有使用Databricks筆記本和配置集群的經驗
- 熟悉使用SQL在Delta Lake表中創建和操作數據
- 能夠使用Spark結構化流從增量表中讀取數據
使用數據ricks進行數據工程
角色:數據工程師,商業智能分析師,分析工程師,數據庫架構師,機器學習工程師
格式:虛擬和真人,整整兩天
實驗室:是的
價格:虛擬(800美元),親自(1400美元)
各行各業的數據專業人員將受益於對Databricks Lakehouse平台組件的全麵介紹,該平台直接支持將ETL管道投入生產。Beplay体育安卓版本課程將使學生熟悉Databricks數據工程和數據科學工作區、Databricks SQL、Delta活表、Databricks Repos、Databricks任務編排和統一目錄。學生們將利用SQL和Python定義和調度管道,增量地處理來自各種數據源的新數據,以推動分析應用程序和Lakehouse中的儀表板。
注意:半天課程“端到端與Spark SQL/PySpark”包含了本課程的一個主題子集,側重於有經驗的數據實踐者,實踐練習較少。
課程結束時,您將能夠:
- 描述Delta Lake事務保證如何支持Lakehouse架構
- 在Lakehouse中設計和構建數據庫、表和視圖
- 為生產應用程序、機器學習和特別分析查詢攝取和豐富數據
- 使用Python和Spark SQL構建和部署生產數據工程管道
- 利用Databricks平台進行代碼開發、工作負Beplay体育安卓版本載編排、分析探索和儀表板
先決條件:
- 有使用Spark SQL的初級經驗
- 有Python初學者經驗(優先)
- 對ETL、數據倉庫和數據湖有初步的了解
- 初學者熟悉Databricks的工作空間
數據ricks平台管理Beplay体育安卓版本與統一目錄
角色:所有的觀眾
格式:虛擬和真人,半天
實驗室:沒有
價格:虛擬(200美元),真人(350美元)
Unity Catalog的引入簡化了管理數據權限的過程,同時賦予管理員數據治理、審計和共享的新特性。本課程指導學生使用Unity Catalog配置數據ricks的最佳實踐,無論您管理單個工作區還是跨多個雲區域的企業部署。本文還將介紹Beplay体育安卓版本有關IAM、acl和工作空間配置的基本平台管理任務。
課程結束時,您將能夠:
- 描述Unity Catalog如何適應Databricks平台架構Beplay体育安卓版本
- 使用Unity Catalog配置對雲對象存儲的安全訪問
- 使用Unity Catalog管理對數據和模型的訪問
- 在Databricks工作區中配置組和用戶
- 為工作空間資產上的組設置權限
先決條件:
- 基本熟悉SQL
- 初步了解身份訪問管理相關概念
- 初步了解Databricks的工作空間
- 熟悉雲計算概念(虛擬機、對象存儲等)
先進的機器學習與數據裏克
角色:機器學習工程師、數據科學家
格式:虛擬和真人,整整兩天
實驗室:是的
價格:虛擬(800美元),親自(1400美元)
在本課程中,學生將開發專業級別的機器學習工程技能,以使用Databricks。在四個獨立的模塊中,學生將學習應用機器學習工作流的基礎知識,擴展和加速機器學習管道,應用機器學習操作,使用MLflow執行機器學習模型操作,以及組織、打包和測試端到端機器學習應用程序。在本課程結束時,學生應該能夠使用Databricks組織、縮放和操作機器學習應用程序。
本課程結束時,您將能夠:
- 完成數據科學過程和機器學習工作流的每一步。
- 提高機器學習流水線的效率,簡化機器學習解決方案的開發和生產。
- 組織、打包和測試端到端機器學習應用程序,以確保其可重複性和穩定性。
- 使用MLflow應用機器學習操作的最佳實踐。
先決條件:
- 中級Apache Spark經驗(熟悉Spark架構和Spark DataFrame API)。
- 中級Python經驗(熟悉庫、迭代、控製流、操作符和類)。
- 機器學習的初級知識(熟悉定義、有監督學習與無監督學習、回歸與分類以及聚類)。
管理機器學習模型
角色:機器學習工程師、數據科學家
格式:虛擬和真人,半天
實驗室:是的
價格:虛擬(200美元),真人(350美元)
在本課程中,學習者將從描述Databricks機器學習模型管理和操作的基礎知識開始。接下來,學習者將使用MLflow Tracking和Databricks Autologging來跟蹤機器學習模型的發展。第三,學習者將使用MLflow模型注冊界麵管理模型生命周期。最後,學習者將通過學習使用MLflow模型注冊Webhooks和Databricks作業自動化模型生命周期來結束課程。
本課程結束時,您將能夠:
- 描述Databricks機器學習模型管理和操作的基礎知識。
- 使用MLflow Tracking和Databricks automlogging跟蹤機器學習模型的開發。
- 使用MLflow模型注冊中心管理模型生命周期。
- 使用MLflow model Registry Webhooks和Databricks作業自動化模型生命周期。
注意:課程“使用Databricks的機器學習”涵蓋了這些概念,並附加了對Databricks的實踐和更廣泛的介紹,更適合準備完成Databricks認證專業數據科學家考試的學生。
先決條件:
- 中級Python經驗(熟悉Python庫和編程)。
- 機器學習的初級知識(簡單模型開發等)。
- 具備Databricks機器學習的初級經驗。
部署機器學習模型
角色:機器學習工程師、數據科學家
格式:虛擬和真人,半天
實驗室:是的
價格:虛擬(200美元),真人(350美元)
在本課程中,學習者將從比較和對比機器學習模型部署策略開始。接下來,學習者將學習如何使用MLflow和Spark udf在批處理環境中部署機器學習模型。第三,學生將使用MLflow和Spark udf在增量處理的流環境中部署機器學習模型。最後,學習者將使用MLflow Model serve簡單地部署機器學習管道進行實時評分。
本課程結束時,您將能夠:
- 比較和對比機器學習部署策略。
- 使用MLflow和Spark udf在批處理環境中部署機器學習模型。
- 使用MLflow和Spark udf在增量處理的流環境中部署機器學習模型。
- 使用MLflow模型服務在實時環境中部署機器學習管道。
注:“機器學習與Databricks”課程涵蓋了這些概念,並附加了對Databricks的實踐和更廣泛的介紹,更適合準備完成Databricks認證專業數據科學家考試的學生。
先決條件:
- 中級PySpark使用經驗(熟悉Python庫和編程,Spark架構和PySpark DataFrame API)。
- 具備機器學習操作的初級知識和經驗(熟悉MLflow Model Registry)。
端到端ELT與Spark SQL
角色:基於sql的數據工程師和分析專業人士
格式:虛擬和真人,半天
實驗室:是的
價格:虛擬(200美元),真人(350美元)
本課程使SQL數據專業人員能夠利用Databricks Lakehouse平台將ETL管道產品化。Beplay体育安卓版本學生們將使用Delta Live Tables和Spark SQL來定義和調度管道,這些管道將增量地處理來自各種數據源的新數據到Lakehouse中。學生還將使用Databricks Jobs編排任務,並使用Databricks Repos推廣代碼。
注:“數據工程與數據ricks”課程涵蓋了這些概念,並附加了對數據ricks的實踐和更廣泛的介紹,更適合準備完成數據ricks認證助理數據工程師考試的學生。
課程結束時,您將能夠:
- 為生產應用程序吸收和豐富數據
- 使用Python和Spark SQL構建和部署生產數據工程管道
- 利用Databricks平台進行代碼開發和工作負Beplay体育安卓版本載編製
先決條件:
- 有使用SQL構建和維護生產ETL管道的經驗
- 熟悉雲計算概念(虛擬機、對象存儲等)
- 有數據倉庫和數據湖的生產經驗
- 初步了解Databricks的工作空間
端到端英語教學與PySpark
角色:數據工程師
格式:虛擬和真人,半天
實驗室:是的
價格:虛擬(200美元),真人(350美元)
本課程使Python數據專業人員能夠利用Databricks Lakehouse平台將ETL管道產品化。Beplay体育安卓版本學生們將使用Delta Live Tables和PySpark來定義和調度管道,這些管道將增量地處理來自各種數據源的新數據到Lakehouse中。學生還將使用Databricks Jobs編排任務,並使用Databricks Repos推廣代碼。
注意:課程“數據工程與數據ricks”涵蓋了這些概念,附加的實踐和對數據ricks更廣泛的介紹,更適合準備完成數據ricks認證助理數據工程師考試的學生。
課程結束時,您將能夠:
- 為生產應用程序吸收和豐富數據
- 使用PySpark構建和部署生產數據工程管道
- 利用Databricks平台進行代碼開發和工作負Beplay体育安卓版本載編製
先決條件:
- 有使用PySpark構建和維護生產ETL管道的經驗
- 熟悉雲計算概念(虛擬機、對象存儲等)
- 有數據倉庫和數據湖的生產經驗
- 初步了解Databricks的工作空間
磚Lakehouse概述
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
在本課程中,您將發現Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時尋找的關鍵角色和能力,並使您熟悉完整數據景觀的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
課程結束時,您將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供了大數據概念的高級概述
磚Lakehouse平台。Beplay体育安卓版本它不包含實踐實驗室或技術深度
深入Databricks功能。
先決條件:
- 不需要編程經驗
- 不需要使用Databricks的經驗
帶三角洲深潛湖的湖屋
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範式,並深入了解Delta Lake的特性和功能。當我們演示如何使用Delta Lake構建用於批處理和流數據的端到端OLAP數據管道時,您將了解如何使用Databricks應用軟件工程原則。本課程還討論了通過聚合表和Databricks SQL Analytics為最終用戶提供數據服務。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。課程結束時,您將能夠:
- 確定Delta Lake的核心組件,使Lakehouse成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批量和流的OLAP數據管道。
- 使用指定的設計模式使下遊涉眾可以使用數據。
- 在表級記錄數據,以促進數據發現和跨團隊通信。
- 應用Databricks推薦的最佳實踐來構建一個完整的Delta架構。
先決條件:
- 熟悉數據工程概念
- 具備Delta Lake核心特性和用例的基本知識
數據ricks平台管理Beplay体育安卓版本與統一目錄
角色:所有
格式:虛擬和真人,半天
實驗室:沒有
價格:虛擬(200美元),真人(350美元)
Unity Catalog的引入簡化了管理數據權限的過程,同時賦予管理員數據治理、審計和共享的新特性。本課程指導學生使用Unity Catalog配置數據ricks的最佳實踐,無論您管理單個工作區還是跨多個雲區域的企業部署。本文還將介紹Beplay体育安卓版本有關IAM、acl和工作空間配置的基本平台管理任務。
課程結束時,您將能夠:
- 描述Unity Catalog如何適應Databricks平台架構Beplay体育安卓版本
- 使用Unity Catalog配置對雲對象存儲的安全訪問
- 使用Unity Catalog管理對數據和模型的訪問
- 在Databricks工作區中配置組和用戶
- 為工作空間資產上的組設置權限
先決條件:
- 基本熟悉SQL
- 初步了解身份訪問管理相關概念
- 初步了解Databricks的工作空間
- 熟悉雲計算概念(虛擬機、對象存儲等)
磚Lakehouse概述
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
在本課程中,您將發現Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時尋找的關鍵角色和能力,並使您熟悉完整數據景觀的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
課程結束時,您將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供了大數據概念的高級概述
磚Lakehouse平台。Beplay体育安卓版本它不包含實踐實驗室或技術深度
深入Databricks功能。
先決條件:
- 不需要編程經驗
- 不需要使用Databricks的經驗
帶三角洲深潛湖的湖屋
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範式,並深入了解Delta Lake的特性和功能。當我們演示如何使用Delta Lake構建用於批處理和流數據的端到端OLAP數據管道時,您將了解如何使用Databricks應用軟件工程原則。本課程還討論了通過聚合表和Databricks SQL Analytics為最終用戶提供數據服務。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。課程結束時,您將能夠:
- 確定Delta Lake的核心組件,使Lakehouse成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批量和流的OLAP數據管道。
- 使用指定的設計模式使下遊涉眾可以使用數據。
- 在表級記錄數據,以促進數據發現和跨團隊通信。
- 應用Databricks推薦的最佳實踐來構建一個完整的Delta架構。
先決條件:
- 熟悉數據工程概念
- 具備Delta Lake核心特性和用例的基本知識
數據庫SQL簡介
角色: SQL分析師、數據分析師、業務分析師
格式:虛擬和真人,半天
實驗室:是的
價格:虛擬(200美元),真人(350美元)
滿足Databricks SQL,找出如何實現高性能,同時直接查詢您的組織的數據湖。使用Databricks SQL,學習者將練習編寫和可視化查詢。學生在離開本課程時將能夠使用Databricks SQL編寫各種查詢,創建各種可視化,並將其可視化組合到一個可以與他人共享的儀表板中。
課程結束時,您將能夠:
- 導航數據磚SQL
- 用Databricks SQL編寫查詢
- 可視化查詢輸出
- 生成組合多個可視化的指示板
注:“使用Databricks SQL進行數據分析”課程涵蓋了這些概念,並附加了對Databricks的實踐和更廣泛的介紹,更適合準備完成關聯數據分析與Databricks認證考試的學生。
先決條件:
- 基本熟悉ANSI SQL
數據分析與Databricks SQL
角色: SQL分析師、數據分析師、業務分析師
持續時間:虛擬和真人,全天
實驗室:是的
價格:虛擬(400美元),真人(700美元)
滿足Databricks SQL,找出如何實現高性能,同時直接查詢您的組織的數據湖。使用Databricks SQL,學習者將練習編寫和可視化查詢。學生在離開本課程時將創建一個個人儀表板,並完成參數化查詢和自動警報。
課程結束時,您將能夠使用Databricks SQL:
- 編寫回答特定BI問題的查詢
- 可視化查詢輸出
- 生成組合多個可視化的指示板
- 使用參數化查詢自定義查詢輸出
- 創建警報
先決條件:
- 基本熟悉ANSI SQL
磚Lakehouse概述
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
在本課程中,您將發現Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時尋找的關鍵角色和能力,並使您熟悉完整數據景觀的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
課程結束時,您將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供了大數據概念的高級概述
磚Lakehouse平台。Beplay体育安卓版本它不包含實踐實驗室或技術深度
深入Databricks功能。
先決條件:
- 不需要編程經驗
- 不需要使用Databricks的經驗
帶三角洲深潛湖的湖屋
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範式,並深入了解Delta Lake的特性和功能。當我們演示如何使用Delta Lake構建用於批處理和流數據的端到端OLAP數據管道時,您將了解如何使用Databricks應用軟件工程原則。本課程還討論了通過聚合表和Databricks SQL Analytics為最終用戶提供數據服務。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。課程結束時,您將能夠:
- 確定Delta Lake的核心組件,使Lakehouse成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批量和流的OLAP數據管道。
- 使用指定的設計模式使下遊涉眾可以使用數據。
- 在表級記錄數據,以促進數據發現和跨團隊通信。
- 應用Databricks推薦的最佳實踐來構建一個完整的Delta架構。
先決條件:
- 熟悉數據工程概念
- 具備Delta Lake核心特性和用例的基本知識
副SQL分析師認證考試
角色:數據分析師
格式:虛擬和麵對麵,1.5小時
價格:50美元
獲得SQL Analysis Associate認證的人員對Databricks SQL的基本數據分析任務有一定的了解。這包括對Databricks SQL服務的理解,創建和管理數據庫、表和視圖的能力,編寫基本SQL查詢的能力,在Databricks SQL中創建數據可視化並將其包含在儀表板中的能力,以及如何連接到其他BI工具和上傳數據到Databricks SQL。
Apache Spark™編程與Databricks
角色:數據工程師、數據科學家、機器學習工程師、數據架構師
格式:虛擬和真人,整整兩天
實驗室:是的
價格:虛擬(800美元),親自(1400美元)
本課程使用案例研究驅動的方法來探索Spark Programming with Databricks的基礎知識,包括Spark架構、DataFrame API、查詢優化和結構化流。首先,您將熟悉Databricks和Spark,識別它們的主要組件,並探索使用Databricks環境進行案例研究的數據集。在從各種文件格式獲取數據之後,您將通過應用各種DataFrame轉換、列表達式和內置函數來處理和分析數據集。最後,您將執行流查詢來處理流數據,並強調使用Delta Lake的優勢。
課程結束時,您將能夠:
- 定義Spark架構和執行層次結構的主要組件
- 描述在Spark中如何構建、轉換和評估DataFrames
- 應用DataFrame API在Spark中探索、預處理、連接和攝取數據
- 應用結構化流媒體API對流媒體數據進行分析
- 瀏覽Spark UI並描述催化劑優化器、分區和緩存如何影響Spark的執行性能
先決條件:
- 熟悉基本的SQL概念(選擇、篩選、分組、連接等)
- 具有Python編程的初級經驗(語法、條件、循環、函數)
Apache Spark性能調優
角色:數據工程師,ML工程師,數據科學家
格式:虛擬和真人,全天
實驗室:是的
價格:虛擬(400美元),真人(700美元)
在學習診斷和修複性能較差的查詢時,完成指導挑戰。通過使用Python/Scala,參與者將回顧性能問題,找出解決方案和最佳實踐,並應用於您的查詢。
課程結束時,您將能夠:
- 解析Spark UI,以幫助進行性能分析、應用程序調試和Spark應用程序調優。
- 總結與數據攝取相關的一些最常見的性能問題,以及如何緩解這些問題。
- 根據特定的要求和各種因素配置Spark集群。
先決條件:
- 建議有6個月以上使用Spark DataFrame API的經驗
- 中級Python或Scala編程經驗
高級數據工程與數據ricks
角色:數據工程師,商業智能分析師,分析工程師,數據庫架構師,機器學習工程師
格式:虛擬和真人,整整兩天
實驗室:是的
價格:虛擬(800美元),親自(1400美元)
在本課程中,學生將基於他們現有的Apache Spark、結構化流媒體和Delta Lake知識,利用Databricks提供的工具套件解鎖數據湖屋的全部潛力。本課程著重強調增量數據處理的設計,使係統能夠優化,不斷吸收和分析不斷增長的數據。通過設計利用內置平台優化的工作負載,數據工程師可以減少代碼維護和隨叫隨到的緊急情況的負擔,並Beplay体育安卓版本以最小的重構或停機時間快速調整生產代碼以適應新的需求。在參加Databricks認證的數據工程專業考試之前,應先掌握本課程的主題。
課程結束時,您將能夠:
- 為Databricks Lakehouse平台優化設計數據庫和管道。Beplay体育安卓版本
- 實現高效的增量數據處理,以驗證和豐富驅動業務決策和應用程序的數據。
- 利用databrick -本機特性來管理對敏感數據的訪問和實現被遺忘權請求。
- 使用Databricks工具管理錯誤排除、代碼提升、任務編排和生產作業監控。
先決條件:
- 使用PySpark api執行高級數據轉換
- 熟悉使用Python實現類
- 有在生產數據倉庫或數據湖實現中使用SQL的經驗
- 有使用Databricks筆記本和配置集群的經驗
- 熟悉使用SQL在Delta Lake表中創建和操作數據
- 能夠使用Spark結構化流從增量表中讀取數據
使用數據ricks進行數據工程
角色:數據工程師,商業智能分析師,分析工程師,數據庫架構師,機器學習工程師
格式:虛擬和真人,整整兩天
實驗室:是的
價格:虛擬(800美元),親自(1400美元)
各行各業的數據專業人員將受益於對Databricks Lakehouse平台組件的全麵介紹,該平台直接支持將ETL管道投入生產。Beplay体育安卓版本課程將使學生熟悉Databricks數據工程和數據科學工作區、Databricks SQL、Delta活表、Databricks Repos、Databricks任務編排和統一目錄。學生們將利用SQL和Python定義和調度管道,增量地處理來自各種數據源的新數據,以推動分析應用程序和Lakehouse中的儀表板。
注意:半天課程“端到端與Spark SQL/PySpark”包含了本課程的一個主題子集,側重於有經驗的數據實踐者,實踐練習較少。
課程結束時,您將能夠:
- 描述Delta Lake事務保證如何支持Lakehouse架構
- 在Lakehouse中設計和構建數據庫、表和視圖
- 為生產應用程序、機器學習和特別分析查詢攝取和豐富數據
- 使用Python和Spark SQL構建和部署生產數據工程管道
- 利用Databricks平台進行代碼開發、工作負Beplay体育安卓版本載編排、分析探索和儀表板
先決條件:
- 有使用Spark SQL的初級經驗
- 有Python初學者經驗(優先)
- 對ETL、數據倉庫和數據湖有初步的了解
- 初學者熟悉Databricks的工作空間
端到端ELT與Spark SQL
角色:基於sql的數據工程師和分析專業人士
格式:虛擬和真人,半天
實驗室:是的
價格:虛擬(200美元),真人(350美元)
本課程使SQL數據專業人員能夠利用Databricks Lakehouse平台將ETL管道產品化。Beplay体育安卓版本學生們將使用Delta Live Tables和Spark SQL來定義和調度管道,這些管道將增量地處理來自各種數據源的新數據到Lakehouse中。學生還將使用Databricks Jobs編排任務,並使用Databricks Repos推廣代碼。
注:“數據工程與數據ricks”課程涵蓋了這些概念,並附加了對數據ricks的實踐和更廣泛的介紹,更適合準備完成數據ricks認證助理數據工程師考試的學生。
課程結束時,您將能夠:
- 為生產應用程序吸收和豐富數據
- 使用Python和Spark SQL構建和部署生產數據工程管道
- 利用Databricks平台進行代碼開發和工作負Beplay体育安卓版本載編製
先決條件:
- 有使用SQL構建和維護生產ETL管道的經驗
- 熟悉雲計算概念(虛擬機、對象存儲等)
- 有數據倉庫和數據湖的生產經驗
- 初步了解Databricks的工作空間
端到端英語教學與PySpark
角色:數據工程師
格式:虛擬和真人,半天
實驗室:是的
價格:虛擬(200美元),真人(350美元)
本課程使Python數據專業人員能夠利用Databricks Lakehouse平台將ETL管道產品化。Beplay体育安卓版本學生們將使用Delta Live Tables和PySpark來定義和調度管道,這些管道將增量地處理來自各種數據源的新數據到Lakehouse中。學生還將使用Databricks Jobs編排任務,並使用Databricks Repos推廣代碼。
注意:課程“數據工程與數據ricks”涵蓋了這些概念,附加的實踐和對數據ricks更廣泛的介紹,更適合準備完成數據ricks認證助理數據工程師考試的學生。
課程結束時,您將能夠:
- 為生產應用程序吸收和豐富數據
- 使用PySpark構建和部署生產數據工程管道
- 利用Databricks平台進行代碼開發和工作負Beplay体育安卓版本載編製
先決條件:
- 有使用PySpark構建和維護生產ETL管道的經驗
- 熟悉雲計算概念(虛擬機、對象存儲等)
- 有數據倉庫和數據湖的生產經驗
- 初步了解Databricks的工作空間
Apache Spark性能調優
角色:數據工程師,ML工程師,數據科學家
格式:虛擬和真人,全天
實驗室:是的
價格:虛擬(400美元),真人(700美元)
在學習診斷和修複性能較差的查詢時,完成指導挑戰。通過使用Python/Scala,參與者將回顧性能問題,找出解決方案和最佳實踐,並應用於您的查詢。
課程結束時,您將能夠:
- 解析Spark UI,以幫助進行性能分析、應用程序調試和Spark應用程序調優。
- 總結與數據攝取相關的一些最常見的性能問題,以及如何緩解這些問題。
- 根據特定的要求和各種因素配置Spark集群。
先決條件:
- 建議有6個月以上使用Spark DataFrame API的經驗
- 中級Python或Scala編程經驗
磚Lakehouse概述
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
在本課程中,您將發現Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時尋找的關鍵角色和能力,並使您熟悉完整數據景觀的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
課程結束時,您將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供了大數據概念的高級概述
磚Lakehouse平台。Beplay体育安卓版本它不包含實踐實驗室或技術深度
深入Databricks功能。
先決條件:
- 不需要編程經驗
- 不需要使用Databricks的經驗
帶三角洲深潛湖的湖屋
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範式,並深入了解Delta Lake的特性和功能。當我們演示如何使用Delta Lake構建用於批處理和流數據的端到端OLAP數據管道時,您將了解如何使用Databricks應用軟件工程原則。本課程還討論了通過聚合表和Databricks SQL Analytics為最終用戶提供數據服務。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。課程結束時,您將能夠:
- 確定Delta Lake的核心組件,使Lakehouse成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批量和流的OLAP數據管道。
- 使用指定的設計模式使下遊涉眾可以使用數據。
- 在表級記錄數據,以促進數據發現和跨團隊通信。
- 應用Databricks推薦的最佳實踐來構建一個完整的Delta架構。
先決條件:
- 熟悉數據工程概念
- 具備Delta Lake核心特性和用例的基本知識
副數據工程師認證考試
角色:數據工程師
格式:虛擬和麵對麵,1.5小時
價格:50美元
Databricks Certified Associate Data Engineer認證考試評估個人使用Databricks Lakehouse平台完成介紹性數據工程任務的能力。Beplay体育安卓版本這包括對Lakehouse平台及其工作空間、架構和功能的理解。Beplay体育安卓版本它還評估了在批處理和增量處理範例中使用Apache Spark SQL和Python執行多跳架構ETL任務的能力。最後,考試評估測試人員在保持實體權限的同時將基本的ETL管道、Databricks SQL查詢和儀表板投入生產的能力。通過這個認證考試的個人可以使用Databricks及其相關工具完成基本的數據工程任務。
Apache Spark認證考試的助理開發人員
角色:數據工程師、數據科學家
格式:虛擬和麵對麵,2小時
價格:50美元
Apache Spark 3.0的Databricks Certified Associate Developer認證考試評估對Spark DataFrame API的理解,以及應用Spark DataFrame API在Spark會話中完成基本數據操作任務的能力。這些任務包括選擇、重命名和操作列;過濾、刪除、排序和聚合行;處理缺失數據;使用模式組合、讀取、寫入和分區DataFrames;以及使用udf和Spark SQL函數。此外,考試還將評估Spark架構的基礎知識,如執行/部署模式、執行層次結構、容錯、垃圾收集和廣播。
專業數據工程師認證考試
角色:數據工程師
格式:虛擬和麵對麵,2小時
價格:50美元
Databricks認證數據工程專業認證考試評估個人使用Databricks執行常見數據工程任務的能力。這包括對Databricks平台和開發工具的理解,如Apache Spark, Delta LakBeplay体育安卓版本e, MLflow,以及Databricks CLI和REST API。它還評估了構建優化和清潔ETL管道的能力。此外,還將評估使用一般數據建模概念知識將數據建模到Lakehouse。最後,還要在部署前確保數據管道的安全、可靠、受監控和測試。
通過這個認證考試的個人可以使用Databricks及其相關工具完成數據工程任務。
Apache Spark™編程與Databricks
角色:數據工程師、數據科學家、機器學習工程師、數據架構師
格式:虛擬和真人,整整兩天
實驗室:是的
價格:虛擬(800美元),親自(1400美元)
本課程使用案例研究驅動的方法來探索Spark Programming with Databricks的基礎知識,包括Spark架構、DataFrame API、查詢優化和結構化流。首先,您將熟悉Databricks和Spark,識別它們的主要組件,並探索使用Databricks環境進行案例研究的數據集。在從各種文件格式獲取數據之後,您將通過應用各種DataFrame轉換、列表達式和內置函數來處理和分析數據集。最後,您將執行流查詢來處理流數據,並強調使用Delta Lake的優勢。
課程結束時,您將能夠:
- 定義Spark架構和執行層次結構的主要組件
- 描述在Spark中如何構建、轉換和評估DataFrames
- 應用DataFrame API在Spark中探索、預處理、連接和攝取數據
- 應用結構化流媒體API對流媒體數據進行分析
- 瀏覽Spark UI並描述催化劑優化器、分區和緩存如何影響Spark的執行性能
先決條件:
- 熟悉基本的SQL概念(選擇、篩選、分組、連接等)
- 具有Python編程的初級經驗(語法、條件、循環、函數)
先進的機器學習與數據裏克
角色:機器學習工程師、數據科學家
格式:虛擬和真人,整整兩天
實驗室:是的
價格:虛擬(800美元),親自(1400美元)
在本課程中,學生將開發專業級別的機器學習工程技能,以使用Databricks。在四個獨立的模塊中,學生將學習應用機器學習工作流的基礎知識,擴展和加速機器學習管道,應用機器學習操作,使用MLflow執行機器學習模型操作,以及組織、打包和測試端到端機器學習應用程序。在本課程結束時,學生應該能夠使用Databricks組織、縮放和操作機器學習應用程序。
本課程結束時,您將能夠:
- 完成數據科學過程和機器學習工作流的每一步。
- 提高機器學習流水線的效率,簡化機器學習解決方案的開發和生產。
- 組織、打包和測試端到端機器學習應用程序,以確保其可重複性和穩定性。
- 使用MLflow應用機器學習操作的最佳實踐。
先決條件:
- 中級Apache Spark經驗(熟悉Spark架構和Spark DataFrame API)。
- 中級Python經驗(熟悉庫、迭代、控製流、操作符和類)。
- 機器學習的初級知識(熟悉定義、有監督學習與無監督學習、回歸與分類以及聚類)。
管理機器學習模型
角色:機器學習工程師、數據科學家
格式:虛擬和真人,半天
實驗室:是的
價格:虛擬(200美元),真人(350美元)
在本課程中,學習者將從描述Databricks機器學習模型管理和操作的基礎知識開始。接下來,學習者將使用MLflow Tracking和Databricks Autologging來跟蹤機器學習模型的發展。第三,學習者將使用MLflow模型注冊界麵管理模型生命周期。最後,學習者將通過學習使用MLflow模型注冊Webhooks和Databricks作業自動化模型生命周期來結束課程。
本課程結束時,您將能夠:
- 描述Databricks機器學習模型管理和操作的基礎知識。
- 使用MLflow Tracking和Databricks automlogging跟蹤機器學習模型的開發。
- 使用MLflow模型注冊中心管理模型生命周期。
- 使用MLflow model Registry Webhooks和Databricks作業自動化模型生命周期。
注意:課程“使用Databricks的機器學習”涵蓋了這些概念,並附加了對Databricks的實踐和更廣泛的介紹,更適合準備完成Databricks認證專業數據科學家考試的學生。
先決條件:
- 中級Python經驗(熟悉Python庫和編程)。
- 機器學習的初級知識(簡單模型開發等)。
- 具備Databricks機器學習的初級經驗。
部署機器學習模型
角色:機器學習工程師、數據科學家
格式:虛擬和真人,半天
實驗室:是的
價格:虛擬(200美元),真人(350美元)
在本課程中,學習者將從比較和對比機器學習模型部署策略開始。接下來,學習者將學習如何使用MLflow和Spark udf在批處理環境中部署機器學習模型。第三,學生將使用MLflow和Spark udf在增量處理的流環境中部署機器學習模型。最後,學習者將使用MLflow Model serve簡單地部署機器學習管道進行實時評分。
本課程結束時,您將能夠:
- 比較和對比機器學習部署策略。
- 使用MLflow和Spark udf在批處理環境中部署機器學習模型。
- 使用MLflow和Spark udf在增量處理的流環境中部署機器學習模型。
- 使用MLflow模型服務在實時環境中部署機器學習管道。
注:“機器學習與Databricks”課程涵蓋了這些概念,並附加了對Databricks的實踐和更廣泛的介紹,更適合準備完成Databricks認證專業數據科學家考試的學生。
先決條件:
- 中級PySpark使用經驗(熟悉Python庫和編程,Spark架構和PySpark DataFrame API)。
- 具備機器學習操作的初級知識和經驗(熟悉MLflow Model Registry)。
Apache Spark性能調優
角色:數據工程師,ML工程師,數據科學家
格式:虛擬和真人,全天
實驗室:是的
價格:虛擬(400美元),真人(700美元)
在學習診斷和修複性能較差的查詢時,完成指導挑戰。通過使用Python/Scala,參與者將回顧性能問題,找出解決方案和最佳實踐,並應用於您的查詢。
課程結束時,您將能夠:
- 解析Spark UI,以幫助進行性能分析、應用程序調試和Spark應用程序調優。
- 總結與數據攝取相關的一些最常見的性能問題,以及如何緩解這些問題。
- 根據特定的要求和各種因素配置Spark集群。
先決條件:
- 建議有6個月以上使用Spark DataFrame API的經驗
- 中級Python或Scala編程經驗
磚Lakehouse概述
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
在本課程中,您將發現Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時尋找的關鍵角色和能力,並使您熟悉完整數據景觀的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
課程結束時,您將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供了大數據概念的高級概述
磚Lakehouse平台。Beplay体育安卓版本它不包含實踐實驗室或技術深度
深入Databricks功能。
先決條件:
- 不需要編程經驗
- 不需要使用Databricks的經驗
帶三角洲深潛湖的湖屋
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範式,並深入了解Delta Lake的特性和功能。當我們演示如何使用Delta Lake構建用於批處理和流數據的端到端OLAP數據管道時,您將了解如何使用Databricks應用軟件工程原則。本課程還討論了通過聚合表和Databricks SQL Analytics為最終用戶提供數據服務。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。課程結束時,您將能夠:
- 確定Delta Lake的核心組件,使Lakehouse成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批量和流的OLAP數據管道。
- 使用指定的設計模式使下遊涉眾可以使用數據。
- 在表級記錄數據,以促進數據發現和跨團隊通信。
- 應用Databricks推薦的最佳實踐來構建一個完整的Delta架構。
先決條件:
- 熟悉數據工程概念
- 具備Delta Lake核心特性和用例的基本知識
機器學習專業認證考試
角色:數據科學家
格式:虛擬和麵對麵,2小時
價格:50美元
Databricks認證專業數據科學家認證考試評估對機器學習基礎知識的理解和機器學習生命周期中的步驟,包括數據準備、特征工程、模型訓練、模型選擇、模型解釋和模型生產。該考試還評估了對基本機器學習算法和技術的理解,包括線性回歸、邏輯回歸、正則化、決策樹、基於樹的集成、基本聚類算法和矩陣分解技術。還評估了使用MLflow進行模型管理的基礎知識,如日誌記錄和模型組織。
副機器學習認證考試
角色:數據科學家
格式:虛擬和麵對麵,1.5小時
價格:50美元
Databricks Certified Machine Learning Associate認證考試評估個人使用Databricks執行基本機器學習任務的能力。這包括理解和使用Databricks機器學習及其功能,如AutoML、Feature Store和MLflow的選擇功能。它還評估了在機器學習工作流中做出正確決策的能力,並使用Spark ML實現這些工作流。最後,評估了理解縮放機器學習模型高級特性的能力。通過這個認證考試的個人可以使用Databricks及其相關工具完成基本的機器學習任務。
Apache Spark認證考試的助理開發人員
角色:數據工程師、數據科學家
格式:虛擬和麵對麵,2小時
價格:50美元
Apache Spark 3.0的Databricks Certified Associate Developer認證考試評估對Spark DataFrame API的理解,以及應用Spark DataFrame API在Spark會話中完成基本數據操作任務的能力。這些任務包括選擇、重命名和操作列;過濾、刪除、排序和聚合行;處理缺失數據;使用模式組合、讀取、寫入和分區DataFrames;以及使用udf和Spark SQL函數。此外,考試還將評估Spark架構的基礎知識,如執行/部署模式、執行層次結構、容錯、垃圾收集和廣播。
數據ricks平台管理Beplay体育安卓版本與統一目錄
角色:所有
格式:虛擬和真人,半天
實驗室:沒有
價格:虛擬(200美元),真人(350美元)
Unity Catalog的引入簡化了管理數據權限的過程,同時賦予管理員數據治理、審計和共享的新特性。本課程指導學生使用Unity Catalog配置數據ricks的最佳實踐,無論您管理單個工作區還是跨多個雲區域的企業部署。本文還將介紹Beplay体育安卓版本有關IAM、acl和工作空間配置的基本平台管理任務。
課程結束時,您將能夠:
- 描述Unity Catalog如何適應Databricks平台架構Beplay体育安卓版本
- 使用Unity Catalog配置對雲對象存儲的安全訪問
- 使用Unity Catalog管理對數據和模型的訪問
- 在Databricks工作區中配置組和用戶
- 為工作空間資產上的組設置權限
先決條件:
- 基本熟悉SQL
- 初步了解身份訪問管理相關概念
- 初步了解Databricks的工作空間
- 熟悉雲計算概念(虛擬機、對象存儲等)
磚Lakehouse概述
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
在本課程中,您將發現Databricks Lakehouse平台如何幫助您在大數據和人工智能的世界中競爭。Beplay体育安卓版本在課程的前半部分,我們將向您介紹大數據的基本概念,解釋構建數據團隊時尋找的關鍵角色和能力,並使您熟悉完整數據景觀的所有部分。在第二部分,我們將回顧Databricks Lakehouse平台如何幫助您的組織簡化工作流程,打破豎井,並充分利用您的數據Beplay体育安卓版本。
課程結束時,您將能夠:
- 解釋大數據的特點、好處和挑戰
- 比較和對比人工智能、機器學習和深度學習
- 總結大數據工作中的組織挑戰
- 解釋湖屋和三角洲湖的好處
- 描述統一數據分析平台的功能Beplay体育安卓版本
請注意:本課程提供了大數據概念的高級概述
磚Lakehouse平台。Beplay体育安卓版本它不包含實踐實驗室或技術深度
深入Databricks功能。
先決條件:
- 不需要編程經驗
- 不需要使用Databricks的經驗
帶三角洲深潛湖的湖屋
角色:所有的觀眾
格式:虛擬,半天
實驗室:沒有一個
價格:免費的
- 在本課程中,我們將簡要概述數據架構概念,介紹Lakehouse範式,並深入了解Delta Lake的特性和功能。當我們演示如何使用Delta Lake構建用於批處理和流數據的端到端OLAP數據管道時,您將了解如何使用Databricks應用軟件工程原則。本課程還討論了通過聚合表和Databricks SQL Analytics為最終用戶提供數據服務。在整個課程中,重點將放在使用Databricks的數據工程最佳實踐。課程結束時,您將能夠:
- 確定Delta Lake的核心組件,使Lakehouse成為可能。
- 定義Delta Engine中常用的優化。
- 使用Delta Lake構建端到端批量和流的OLAP數據管道。
- 使用指定的設計模式使下遊涉眾可以使用數據。
- 在表級記錄數據,以促進數據發現和跨團隊通信。
- 應用Databricks推薦的最佳實踐來構建一個完整的Delta架構。
先決條件:
- 熟悉數據工程概念
- 具備Delta Lake核心特性和用例的基本知識
副數據工程師認證考試
角色:數據工程師
格式:虛擬和麵對麵,1.5小時
價格:50美元
Databricks Certified Associate Data Engineer認證考試評估個人使用Databricks Lakehouse平台完成介紹性數據工程任務的能力。Beplay体育安卓版本這包括對Lakehouse平台及其工作空間、架構和功能的理解。Beplay体育安卓版本它還評估了在批處理和增量處理範例中使用Apache Spark SQL和Python執行多跳架構ETL任務的能力。最後,考試評估測試人員在保持實體權限的同時將基本的ETL管道、Databricks SQL查詢和儀表板投入生產的能力。通過這個認證考試的個人可以使用Databricks及其相關工具完成基本的數據工程任務。
Apache Spark認證考試的助理開發人員
角色:數據工程師、數據科學家
格式:虛擬和麵對麵,2小時
價格:50美元
Apache Spark 3.0的Databricks Certified Associate Developer認證考試評估對Spark DataFrame API的理解,以及應用Spark DataFrame API在Spark會話中完成基本數據操作任務的能力。這些任務包括選擇、重命名和操作列;過濾、刪除、排序和聚合行;處理缺失數據;使用模式組合、讀取、寫入和分區DataFrames;以及使用udf和Spark SQL函數。此外,考試還將評估Spark架構的基礎知識,如執行/部署模式、執行層次結構、容錯、垃圾收集和廣播。
副SQL分析師認證考試
角色:數據分析師
格式:虛擬和麵對麵,1.5小時
價格:50美元
獲得SQL Analysis Associate認證的人員對Databricks SQL的基本數據分析任務有一定的了解。這包括對Databricks SQL服務的理解,創建和管理數據庫、表和視圖的能力,編寫基本SQL查詢的能力,在Databricks SQL中創建數據可視化並將其包含在儀表板中的能力,以及如何連接到其他BI工具和上傳數據到Databricks SQL。
專業數據工程師認證考試
角色:數據工程師
格式:虛擬和麵對麵,2小時
價格:50美元
Databricks認證數據工程專業認證考試評估個人使用Databricks執行常見數據工程任務的能力。這包括對Databricks平台和開發工具的理解,如Apache Spark, Delta LakBeplay体育安卓版本e, MLflow,以及Databricks CLI和REST API。它還評估了構建優化和清潔ETL管道的能力。此外,還將評估使用一般數據建模概念知識將數據建模到Lakehouse。最後,還要在部署前確保數據管道的安全、可靠、受監控和測試。
通過這個認證考試的個人可以使用Databricks及其相關工具完成數據工程任務。
機器學習專業認證考試
角色:數據科學家
格式:虛擬和麵對麵,2小時
價格:50美元
Databricks認證專業數據科學家認證考試評估對機器學習基礎知識的理解和機器學習生命周期中的步驟,包括數據準備、特征工程、模型訓練、模型選擇、模型解釋和模型生產。該考試還評估了對基本機器學習算法和技術的理解,包括線性回歸、邏輯回歸、正則化、決策樹、基於樹的集成、基本聚類算法和矩陣分解技術。還評估了使用MLflow進行模型管理的基礎知識,如日誌記錄和模型組織。
副機器學習認證考試
角色:數據科學家
格式:虛擬和麵對麵,1.5小時
價格:50美元
Databricks Certified Machine Learning Associate認證考試評估個人使用Databricks執行基本機器學習任務的能力。這包括理解和使用Databricks機器學習及其功能,如AutoML、Feature Store和MLflow的選擇功能。它還評估了在機器學習工作流中做出正確決策的能力,並使用Spark ML實現這些工作流。最後,評估了理解縮放機器學習模型高級特性的能力。通過這個認證考試的個人可以使用Databricks及其相關工具完成基本的機器學習任務。