與Databricks上的外部數據交互

Databricks運行時提供了對流行數據源和格式的綁定,使從湖屋導入和導出數據變得簡單。本文提供的信息可幫助您識別具有內置支持的格式和集成。您還可以找到擴展Databricks以與更多係統交互的方法。Databricks上的大多數數據都存在於雲對象存儲中。看到我的數據呢?

Databricks提供了許多優化數據加載和攝取

Databricks還支持SQL和DataFrame用戶的查詢聯合。看到什麼是查詢聯合?

如果您以前沒有使用Databricks讀寫過數據,請考慮查看DataFrames教程PythonScala.即使對於熟悉Apache Spark的用戶,本教程也可能解決與訪問雲中數據相關的新挑戰。

Partner Connect為許多企業解決方案提供了優化的、易於配置的集成。看到什麼是Databricks Partner Connect?

在Databricks中可以使用什麼數據格式?

Databricks為Apache Spark原生支持的所有數據格式提供了內置關鍵字綁定。Databricks使用Delta Lake作為讀取和寫入數據和表的默認協議,而Apache Spark使用Parquet。

以下數據格式在Apache Spark DataFrames和SQL中都有內置的關鍵字配置:

Databricks還為加載提供了自定義關鍵字MLflow實驗

在Databricks上使用流數據源

Databricks可以與流消息服務集成,以便將接近實時的數據輸入Databricks Lakehouse。數據庫還可以與其他流係統同步湖中豐富和轉換的數據。

結構化流提供了對Apache Spark支持的文件格式的本地流訪問,但Databricks推薦將Auto Loader用於從雲對象存儲讀取數據的大多數結構化流操作。看到什麼是自動加載器?

攝取流消息到Delta Lake允許您無限期地保留消息,允許您重放數據流,而不必擔心由於保留閾值而丟失數據。

Databricks具有處理Avro、協議緩衝區和JSON數據有效負載中包含的半結構化數據字段的特定功能。要了解更多信息,請參見:

要了解來自消息隊列的流或流到消息隊列的特定配置的詳細信息,請參見:

哪些數據源使用JDBC連接到Databricks ?

你可以使用JDBC連接多個數據源。Databricks Runtime包含許多JDBC數據庫的驅動程序,但您可能需要安裝一個驅動程序或不同的驅動程序版本才能連接到首選的數據庫。支持的數據庫包括:

Databricks集成了哪些數據服務?

以下數據服務需要配置連接設置、安全憑據和網絡設置。您可能需要AWS帳戶或Databricks工作區中的管理員或高級用戶權限。有些還要求您創建Databricks圖書館並安裝在集群中:

具有特殊考慮的數據格式

以下數據格式可能需要額外配置或特殊考慮才能使用:

  • Databricks建議加載圖片作為二進製數據。

  • XML本機不支持,但可以在安裝庫後使用。

  • 蜂巢表Apache Spark也支持,但需要在Databricks上進行配置。

  • 數據庫可以在壓縮的情況下直接讀取許多文件格式。你也可以解壓縮文件如有需要,在數據庫裏。

  • LZO需要安裝編解碼器。

有關Apache Spark數據源的更多信息,請參見通用的加載/保存函數而且通用文件源選項