這個會議的幻燈片和筆記本在研討會本身作為附件提供。請啟動網絡研討會,懸停在研討會上,單擊(附件),你可以下載所有的材料。
Apache火花流是一種最流行的流處理框架,使可伸縮、高通量、容錯實時數據流的流處理。在這次演講中,我們將關注引發流的以下方麵:
火花流動力和最常見的用例:
- 流數據攝入和ETL -建立一個數據高速公路實時數據吞入倉庫的,搜索引擎或數據湖泊。
- 監控&儀表盤
- 異常/欺詐檢測與在線學習-在溪流和保持模型做預測最新的基於新的數據被觀察到。
- Sessionization——基於用戶行為識別會話流
常見的設計模式,擺脫這些用例時避免常見的陷阱和技巧實現這些設計模式:
- 聯想基於時間窗口聚合——如何以及何時使用窗口函數有效地做關聯聚合和維護運行數據的統計數據。
- 全球聚合狀態管理——維護當前值的全局狀態統計所有的時間。
- 加入流與靜態和動態數據集有效——許多次,你可能不僅想加入多個流也加入曆史數據集。曆史數據集可以是靜態或動態變化。我們將做這些連接時走過的最佳實踐。
- 使用SQL操作流——如何使用SQL火花DStreams效率。
- 避免常見的陷阱在做在線模型更新
性能優化技術:
- 如何規模有效地實現高吞吐量。
- 更好的狀態管理與國家修剪。
- 微調檢查點間隔的最佳性能。
- 寫數據彙的有效方法