什麼是Apache Spark結構化流?

Apache Spark Structured Streaming是一個近乎實時的處理引擎,它使用熟悉的Spark api提供端到端容錯和一次處理保證。結構化流允許您以對靜態數據表示批處理的方式對流數據表示計算。結構化流媒體引擎增量地執行計算,並在流數據到達時不斷更新結果。有關結構化流的概述,請參閱Apache Spark結構化流媒體編程指南

結構化流媒體是如何在數據ricks上使用的?

結構化流與Delta Lake緊密結合,為Databricks Lakehouse的大規模增量數據處理提供了增強的功能。結構化流是Databricks Auto Loader以及Delta Live Tables的核心技術。

Databricks支持哪些流源和彙?

Databricks建議使用Auto Loader從雲對象存儲中攝取支持的文件類型到Delta Lake。對於ETL管道,Databricks建議使用Delta Live Tables(使用Delta表和結構化流)。您還可以通過對Delta Lake表進行流傳輸來配置增量ETL工作負載。

除了三角洲湖和自動加載器,結構化流媒體可以連接到消息傳遞服務如Apache Kafka。

你也可以使用結構化流和foreachBatch對任意數據彙執行流寫入

生產中結構化流的最佳實踐是什麼?

Databricks支持許多Apache Spark中沒有的邊緣特性,以幫助客戶獲得結構化流的最佳性能。beplay体育app下载地址了解關於這些功能和其他建議的更多信息數據裏克上結構化流媒體應用的生產注意事項

例子

關於介紹性筆記本和演示示例用例的筆記本,請參見在數據裏克上使用結構化流的例子

API參考

關於結構化流的參考信息,Databricks推薦以下Apache Spark API參考: