什麼是Apache Spark結構化流?

Apache Spark Structured Streaming是一個接近實時的處理引擎,它使用熟悉的Spark api提供端到端容錯和一次處理保證。結構化流允許您以對靜態數據表示批處理計算的相同方式對流數據表示計算。結構化流引擎以增量方式執行計算,並在流數據到達時不斷更新結果。有關結構化流的概述,請參閱Apache Spark結構化流媒體節目指南

結構化流如何用於數據庫?

Structured Streaming與Delta Lake緊密結合,為Databricks Lakehouse中的增量數據處理提供增強功能。結構化流是Databricks Auto Loader和Delta Live Tables的核心技術。

Databricks支持哪些流數據源和流接收器?

Databricks建議使用Auto Loader從雲對象存儲中攝取受支持的文件類型到Delta Lake。對於ETL管道,Databricks建議使用Delta Live Tables(使用Delta表和結構化流)。您還可以通過流到Delta Lake表和從Delta Lake表配置增量ETL工作負載。

除了Delta Lake和Auto Loader,結構化流還可以連接到消息傳遞服務比如Apache Kafka。

你也可以使用foreachBatch使用結構化流寫入任意數據接收器

結構化流在生產中的最佳實踐是什麼?

Databricks支持許多Apache Spark中沒有的邊緣特性,以幫助客戶獲得結構化流的最佳性能。beplay体育app下载地址了解更多關於這些特性和其他推薦的信息結構化流的生產考慮因素

例子

有關介紹性筆記本和演示示例用例的筆記本,請參見數據庫上的結構化流模式

API參考

有關結構化流的參考信息,Databricks推薦以下Apache Spark API參考: