Apache火花流是Apache火花的流的上一代引擎。有引發流不再更新,這是一個遺留項目。有一個新的和更容易使用流引擎Apache火花稱為結構化流。您應該使用火花結構化流媒體應用程序流和管道。看到結構化流。
Apache火花流本身是一個可伸縮的流處理容錯係統,同時支持批處理和流媒體的工作負載。火花流是核心火花的擴展API,允許數據工程師和科學家來處理實時數據從各種數據源的數據,包括(但不限於)卡夫卡,水槽,亞馬遜運動。這個處理過的數據可以使文件係統,數據庫和儀表板。其關鍵的抽象是一個離散流,或者簡言之,DStream,代表數據流分成小批量。DStreams是建立在抽樣,火花的核心數據抽象。這允許火花流無縫集成與其他組件(比如MLlib火花,火花SQL。火花流不同於其他係統,要麼隻有為流處理引擎設計,或有類似的批處理和流api但內部編譯不同的引擎。火花的單一批量執行引擎和統一的編程模型和流導致一些獨特的好處超過其他傳統流媒體係統。
這種統一的不同數據處理能力是關鍵原因引發流迅速采用。這使得開發人員可以很容易地使用一個框架來滿足他們所有的加工需要。