Productionizing流媒體工作

按需網絡研討會

這個會議的幻燈片和筆記本在研討會本身作為附件提供。請啟動網絡研討會,懸停在研討會上,單擊(附件),你可以下載所有的材料。

Apache火花流是一種最流行的流處理框架,使可伸縮、高通量、容錯實時數據流的流處理。在這次演講中,我們將關注引發流的以下方麵:

火花流動力和最常見的用例:

流數據攝入和ETL -建立一個數據高速公路實時數據吞入倉庫的,搜索引擎或數據湖泊。
監控&儀表盤
異常/欺詐檢測與在線學習-在溪流和保持模型做預測最新的基於新的數據被觀察到。
Sessionization——基於用戶行為識別會話流

常見的設計模式,擺脫這些用例時避免常見的陷阱和技巧實現這些設計模式:

聯想基於時間窗口聚合——如何以及何時使用窗口函數有效地做關聯聚合和維護運行數據的統計數據。
全球聚合狀態管理——維護當前值的全局狀態統計所有的時間。
加入流與靜態和動態數據集有效——許多次,你可能不僅想加入多個流也加入曆史數據集。曆史數據集可以是靜態或動態變化。我們將做這些連接時走過的最佳實踐。
使用SQL操作流——如何使用SQL火花DStreams效率。
避免常見的陷阱在做在線模型更新

性能優化技術:

如何規模有效地實現高吞吐量。
更好的狀態管理與國家修剪。
微調檢查點間隔的最佳性能。
寫數據彙的有效方法

主持人

普拉卡什Chockalingam

軟件架構師——磚

普拉卡什目前解決方案架構師在磚和專注於幫助客戶建立他們的大數據基礎設施基於他的十年經驗構建大規模分布式係統和機器學習基礎設施的公司包括Netflix和雅虎。beplay体育app下载地址加入磚之前,他與Netflix設計和建造他們的建議基礎設施服務Netflix用戶每天數以百萬計的建議。他的興趣廣泛包括分布式係統和機器學習和他還與幾個出版物在機器學習和計算機視覺研究在他職業生涯的早期階段。
丹尼李

技術傳教士——磚

丹尼·李是一個技術與磚傳道者;他是一個實際的數據科學工程師有超過15年經驗的網際網路規模發展基礎設施,數據平台和分布式係統對本地和雲。Beplay体育安卓版本