在磚與外部數據

磚運行時提供的綁定流行的數據來源和格式導入和導出數據的lakehouse簡單。這篇文章提供的信息來幫助您確定格式和集成的內置支持。你也可以發現方法來擴展數據磚與更係統。大多數磚住在雲數據對象存儲。看到我的數據在哪裏?

磚的優化提供了許多數據加載和攝入

磚還支持用戶查詢SQL和DataFrame聯盟。看到查詢聯盟是什麼?

如果你還沒有讀或寫數據與磚之前,考慮評估DataFrames教程PythonScala。甚至為用戶熟悉Apache火花,本教程可能解決新的挑戰與訪問雲中的數據相關。

合作夥伴連接提供了優化,本文介紹了許多企業解決方案的集成。看到磚的合作夥伴的連接是什麼?

您可以使用哪些數據格式在磚嗎?

磚有內置的關鍵字綁定所有的本地數據格式支持Apache火花。磚使用三角洲湖作為默認協議用於讀取和寫入數據和表,而Apache火花使用拚花。

以下數據格式都有內置在Apache火花DataFrames和SQL關鍵字配置:

磚還提供了一個加載自定義關鍵字MLflow實驗

在磚處理流數據來源

磚可以與實時數據流信息服務集成磚Lakehouse攝入。磚也可以同步lakehouse豐富和改變了數據與其他流媒體係統。

結構化流提供了本地流訪問Apache火花所支持的文件格式,但磚建議自動加載程序對大多數結構化流從雲對象存儲讀取數據的操作。看到自動加載器是什麼?

攝取流消息三角洲湖允許你無限期的保留信息,允許您回放數據流沒有害怕失去數據由於保留閾值。

磚有特定功能的處理半結構化數據字段中包含Avro協議緩衝區和JSON數據有效載荷。欲了解更多,請看:

了解更多關於特定配置的流或消息隊列,見:

與JDBC數據源連接什麼磚?

您可以使用JDBC與許多數據源連接。磚運行時包括司機的JDBC數據庫,但是您可能需要安裝一個驅動程序或不同的驅動程序版本數據庫連接到您的首選。支持數據庫包括以下:

磚集成的什麼數據服務?

以下數據服務需要你配置連接設置,安全憑據,和網絡設置。您可能需要管理員或超級用戶特權在AWS帳戶或磚工作區。有些還要求您創建一個磚圖書館並安裝在集群:

數據格式有特殊考慮

以下數據格式可能需要額外的配置或使用特殊的注意事項:

  • 磚建議裝載圖片作為二進製數據。

  • XML本地不支持,但是可以使用在安裝一個圖書館。

  • 蜂巢表本地也支持Apache的火花,但在磚需要配置。

  • 磚可以直接讀過很多文件格式,同時壓縮。你也可以解壓壓縮文件在必要時磚。

  • LZO需要一個編解碼器安裝。

關於Apache火花數據源的更多信息,請參閱通用的加載/保存功能通用文件源選項