Apache火花™編程與磚
描述
在本課程中,您將探索的基本麵Apache火花和三角洲湖磚。您將學習架構組件的火花,DataFrame和結構化流api,以及三角洲湖如何改善你的數據管道。最後,您將執行流查詢處理流數據和理解使用三角洲湖的優點。
本課程將幫助你把磚為Apache火花考試認證聯係開發人員。
持續時間
2天或4天的一半
目標
定義引發的建築組件
描述如何DataFrames轉換、執行和優化的火花
應用DataFrame API來探索,預處理,加入,在火花和攝取數據
應用結構化流API執行流數據分析
使用三角洲湖來提高產品質量和性能的數據管道
先決條件
完成介紹了Python數據科學與數據工程,或熟悉Python和基本的編程概念,包括數據類型、列表、字典、變量、函數、循環、條件語句、異常處理、訪問類,並使用第三方庫
SQL的基本知識,包括編寫查詢使用
選擇,組織,命令,限製,並加入
大綱
第一天
火花概述
磚平台概述Beplay体育安卓版本
火花SQL
DataFrame讀者、作家、轉換和聚合
日期時間
複雜類型
第二天
用戶定義的函數(udf)和矢量化udf
引發內部
查詢優化
分區
流API
三角洲湖
即將到來的公共類
問題嗎?
如果你有任何問題,請參閱我們的常見問題頁麵。