Azure Cosmos DB

Azure Cosmos DB是微軟全球分布的多模型數據庫。Azure Cosmos DB使您能夠跨任意數量的Azure地理區域靈活而獨立地擴展吞吐量和存儲。它通過全麵的服務水平協議(sla)提供吞吐量、延遲、可用性和一致性保證。Azure Cosmos DB為以下數據模型提供了api,並提供了多種語言的sdk:

  • SQL API

  • MongoDB API

  • 卡桑德拉的API

  • Graph (Gremlin) API

  • 表API

本文解釋如何使用Databricks從Azure Cosmos DB讀取數據和向其寫入數據。有關Azure Cosmos DB的更多最新詳細信息,請參見通過使用Apache Spark到Azure Cosmos DB連接器加速大數據分析

重要的

該連接器支持Azure Cosmos DB的核心(SQL) API。對於MongoDB的Cosmos DB API,請使用MongoDB Spark連接器.對於Cosmos DB Cassandra API,使用卡桑德拉火花連接器

創建並附加所需的庫

  1. 下載最新的azure-cosmosdb-spark庫您正在運行的Apache Spark版本。

  2. 中的說明將下載的JAR文件上傳到Databricks上傳Jar、Python卵或Python輪

  3. 安裝上傳的庫到你的Databricks集群。

使用Azure Cosmos DB Spark連接器

下麵的Scala筆記本提供了一個簡單的示例,說明如何向Cosmos DB寫入數據並從Cosmos DB讀取數據。有關詳細文檔,請參閱[Azure Cosmos DB Spark Connector][Azure Cosmos DB Spark Connector]項目。

Azure Cosmos DB筆記本

在新標簽頁打開筆記本