開發人員學習Apache Spark的8個步驟™與三角洲湖
了解Apache Spark和Delta Lake如何在BI和ML的一個平台上統一您的所有數據 - 大數據和業務數據。Beplay体育安卓版本
是什麼使您無法解鎖數據的全部潛力?您需要一個可以處理和保Beplay体育安卓版本存所有數據(包括原始數據和業務數據)的平台,並將其交付給BI和ML的所有下遊用戶。
Apache Spark™2.X是易於使用的巨大變化,更高的性能和跨火花組件的API統一。對於正在處理的數據,Delta Lake為數據湖帶來了數據可靠性和性能,並具有酸性交易,模式執行,DML命令和時間旅行等功能。
在這本電子書中,我們提供了有關技術內容和相關資產的分步指南,這將使您學習Apache Spark和Delta Lake。無論您是入門還是已經是一名出色的開發人員,這些步驟都將使您探索這些開源項目的好處。
這是我們將介紹的主題:
- 為什麼Apache Spark和Delta Lake
- Apache Spark和Delta Lake概念,關鍵術語和關鍵字
- 高級Apache Spark內部和核心
- 數據框,數據集和Spark SQL Essentials
- 使用GraphFrames的圖形處理
- 連續應用結構化流
- 人類的機器學習
- 數據可靠性挑戰對數據湖泊
- 用於酸性交易的三角洲湖,模式執行等
- 統一批處理和流數據管道