使用Azure Databricks和Azure Data Factory將90多個數據源連接到數據湖中

數據湖泊使組織能夠通過安全和及時訪問各種數據來源,始終如一地提供價值和洞察。這一旅程的第一步是用強大的數據管道協調和自動攝取。隨著數據量,品種和速度迅速增加,更需要可靠和安全的管道提取,轉換和加載(ETL)數據。

Databricks客beplay体育app下载地址戶每月使用兩個exabytes(20億千兆字節)的數據和Azure Databricks.是今天Microsoft Azure上增長最快的數據和AI服務。Azure Databricks和其他Azure服務之間的緊密集成使客戶能夠簡化和擴展其數據攝取管道。beplay体育app下载地址例如,與Azure Active Directory(Azure AD)集成支持基於雲的身份和訪問管理。此外,與Azure Data Lake Storage(ADL)集成提供高度可擴展和安全的存儲空間大數據分析而且Azure數據出廠(ADF)使混合數據集成能夠以縮放簡化ETL。

批量ETL與Microsoft Azure Data Factory和Azure Databricks
圖:Batch ETL與Azure Data Factory和Azure Databricks

使用單個工作流連接,攝取和轉換數據

ADF包括90多個內置數據源連接器無縫運行Azure Databricks筆記本,將所有數據源連接到單個數據湖中。ADF還提供內置的工作流控製,數據轉換,管道調度,數據集成以及更多功能,以幫助您創建可靠的數據流水線。ADF使客戶能夠以原始格beplay体育app下载地址式攝取數據,然後通過Azure Databricks和Delta Lake將其數據完善和轉換為青銅,銀和金桌。例如,客戶經常使用ADF與beplay体育app下载地址Azure Databricks Delta Lake啟用SQL對他們的數據湖泊查詢並建造用於機器學習的數據管道

青銅,銀和金桌與Azure Databricks,Azure Data Factory和Delta Lake

使用Azure Databricks和Azure Data Factory

要使用Azure Data Factory運行Azure Databricks筆記本,導航到Azure門戶網站並搜索“數據廠”,然後單擊“創建”以定義新的數據工廠。

從Azure Portal創建數據工廠

接下來,為數據出廠提供唯一名稱,選擇訂閱,然後選擇資源組和區域。單擊“創建”。

定義一個新的數據工廠

創建後,單擊“轉到”資源“按鈕以查看新數據出廠。

一旦數據出廠部署完成,請單擊“轉到資源”

現在單擊“作者和監視器”瓦片打開數據出廠用戶界麵。

準備創作並監控數據廠

從Azure數據出廠程序“讓我們開始入門”頁麵,單擊左側麵板的“作者”按鈕。

Azure數據廠讓我們開始

接下來,單擊屏幕底部的“連接”,然後單擊“新建”。

數據出廠連接

從“新鏈接服務”窗格中,單擊“Compute”選項卡,選擇“Azure Databricks”,然後單擊“繼續”。

Azure Databricks鏈接計算服務

輸入Azure DatabRicks鏈接服務的名稱,然後選擇一個工作區。

命名Azure Databricks鏈接服務

通過單擊屏幕右上角的“用戶”圖標,從Azure DatabRicks工作區創建訪問令牌,然後選擇“用戶設置”。

用戶設置

單擊“生成新令牌”。

生成新令牌

將令牌複製並粘貼到鏈接的服務表單中,然後選擇群集版本,大小和Python版本。查看所有設置,然後單擊“創建”。

選擇群集版本,節點類型和Python版本

通過連接的服務到位,是時候創建一個管道了。從Azure數據出廠ui,單擊加(+)按鈕,然後選擇“管道”。

添加ADF管道

通過單擊“參數”選項卡添加參數,然後單擊加號(+)按鈕。

添加管道參數

接下來,通過擴展“Databroks”活動,然後將Databricks筆記本拖放到管道設計畫布上,將DatableRicks筆記本添加到管道中。

通過選擇“Azure DatabRicks”選項卡並選擇上麵創建的鏈接服務來連接到Azure DatabRicks工作區。接下來,單擊“設置”選項卡以指定筆記本路徑。現在單擊“validate”按鈕,然後“發布所有”以發布到ADF服務。

驗證ADF數據管道

發布改變工廠

發布後,通過單擊“添加觸發器”來觸發管道運行觸發現在“。

觸發管道運行

查看參數,然後單擊“完成”以觸發管道運行。

設置參數並觸發管道運行

現在切換到左側麵板上的“監視器”選項卡,以查看管道運行的進度。

監控管道運行

將Azure Databricks筆記本電腦集成到Azure數據出廠流水線中提供了一種靈活且可擴展的方法來參數化和操作自定義ETL代碼。要了解有關Azure Databricks如何與Azure Data Factory(ADF)集成的信息,請參閱這個adf博客帖子這個ADF教程。要了解有關如何在數據湖中探索和查詢數據的更多信息,請參閱此網絡研討會,使用SQL與Delta湖查詢您的數據湖

免費嚐試Databricks 開始

注冊

Baidu
map