描述
在本課程中,您將探索的基本麵Apache火花和三角洲湖磚。您將學習架構組件的火花,DataFrame和結構化流api,以及三角洲湖如何改善你的數據管道。最後,您將執行流查詢處理流數據和理解使用三角洲湖的優點。
本課程將幫助你把磚為Apache火花考試認證聯係開發人員。
持續時間
2天或4天的一半
目標
- 定義引發的建築組件
- 描述如何DataFrames轉換、執行和優化的火花
- 應用DataFrame API來探索,預處理,加入,在火花和攝取數據
- 應用結構化流API執行流數據分析
- 使用三角洲湖來提高產品質量和性能的數據管道
先決條件
- 熟悉Python和基本的編程概念,包括
數據類型、列表、字典、變量、函數、循環、條件語句、異常處理、訪問類,並使用第三方庫 - SQL的基本知識,包括編寫查詢使用
選擇,組織,命令,限製,並加入
大綱
第一天
- 火花概述
- 磚平台概述Beplay体育安卓版本
- 火花SQL
- DataFrame讀者、作家、轉換和聚合
- 日期時間
- 複雜類型
第二天
- 用戶定義的函數(udf)和矢量化udf
- 引發內部
- 查詢優化
- 分區
- 流API
- 三角洲湖
即將到來的公共類
如果你有任何問題,請參閱我們的常見問題頁麵。