什麼是Apache Spark結構化流?

Apache Spark Structured Streaming是一個接近實時的處理引擎,它使用熟悉的Spark api提供端到端容錯和一次處理保證。結構化流允許您以對靜態數據表示批處理計算的相同方式對流數據表示計算。結構化流引擎以增量方式執行計算,並在流數據到達時不斷更新結果。有關結構化流的概述,請參閱Apache Spark結構化流媒體節目指南

有關在Unity目錄中使用結構化流媒體的詳細信息,請參見使用Unity目錄與結構化流

結構化流如何用於數據庫?

Structured Streaming與Delta Lake緊密結合,為Databricks Lakehouse中的增量數據處理提供增強功能。結構化流是Databricks Auto Loader和Delta Live Tables的核心技術。

Databricks支持哪些流數據源和流接收器?

Databricks建議使用Auto Loader從雲對象存儲中攝取受支持的文件類型到Delta Lake。對於ETL管道,Databricks建議使用Delta Live Tables(使用Delta表和結構化流)。您還可以通過流到Delta Lake表和從Delta Lake表配置增量ETL工作負載。

除了Delta Lake和Auto Loader,結構化流還可以連接到消息傳遞服務比如Apache Kafka。

你也可以使用Structured streaming和foreachBatch對任意數據接收器執行流寫入

結構化流在生產中的最佳實踐是什麼?

Databricks支持許多Apache Spark中沒有的邊緣特性,以幫助客戶獲得結構化流的最佳性能。beplay体育app下载地址了解更多關於這些特性和其他推薦的信息在Databricks上的結構化流媒體應用程序的生產考慮因素

例子

有關介紹性筆記本和演示示例用例的筆記本,請參見在數據庫上使用結構化流的示例

API參考

有關結構化流的參考信息,Databricks推薦以下Apache Spark API參考: