Databricks概念
本文介紹了您需要理解的基本概念集,以便有效地使用數據映。
有些概念是數據映的一般性,而另一些概念則是您正在使用的基於角色的數據磁帶環境的特定概念:
數據科學與工程
Databricks機器學習
Databricks SQL
一般概念
本節介紹了在所有基於數據的角色環境中適用的概念和術語。
帳戶和工作區
在Databricks中工作區有兩個含義:
雲中的數據鏈球部部署可作為您團隊用於訪問其所有數據鏈球資產的統一環境的功能。您的組織可以選擇擁有多個工作空間或僅一個工作空間:這取決於您的需求。
Databricks數據科學與工程以及數據鏈機器學習角色的環境的UI。這與Databricks SQL環境相反。
When we talk about the “workspace browser,” for example, we are talking about the UI that lets you browse notebooks, libraries, and other files in the Data Science & Engineering and Databricks Machine Learning environments—a UI that isn’t part of the Databricks SQL environment. But Data Science & Engineering, Databricks Machine Learning, and Databricks SQL are all included in your deployed Databricks workspace.
數據鏈球菌帳戶代表單個實體用於計費和支持的目的;它可以包括多個工作區。
數據科學與工程
數據科學與工程是用於數據科學家,數據工程師和數據分析師之間協作的經典數據磁帶環境。本節介紹了您需要理解的基本概念,以便在Databricks數據科學與工程環境中有效工作。
工作區
一個工作區是訪問您所有數據括號資產的環境。一個工作區將對象(筆記本,庫,儀表板和實驗)組織到文件夾並提供對數據對象和計算資源的訪問。
本節介紹了數據鏈釘工作區文件夾中包含的對象。
基於Web的界麵,用於包含可運行的命令,可視化和敘事文本的文檔。
提供有組織的可視化訪問的界麵。
筆記本電腦或群集上運行的作業的一包。Databricks Runtimes包含許多庫,您可以添加自己的庫。
一個文件夾,其內容是通過將其同步到遠程git存儲庫將其共歸結在一起的文件夾。
集合MLFlow運行用於培訓機器學習模型。
數據科學與工程界麵
本節介紹了數據映支持用於訪問您的資產的接口:UI,API和命令行(CLI)。
UI
Databricks UI為工作區文件夾及其包含的對象,數據對象和計算資源提供了易於使用的圖形接口。
REST API有三個版本:2.1,,,,2.0, 和1.2。REST API 2.1和2.0支持REST API 1.2的大多數功能以及其他功能,並且是首選。
一個主持的開源項目github。CLI建在上麵REST API(最新)。
數據科學與工程中的數據管理
本節介紹了持有您執行分析並輸入機器學習算法的數據的對象。
Blob商店上的文件係統抽象層。它包含可以包含文件(數據文件,庫和圖像)和其他目錄的目錄。DBFS自動填充了一些數據集您可以用來學習數據映。
有組織的信息集合,以便可以輕鬆地訪問,管理和更新。
結構化數據的表示。您使用Apache Spark SQL和Apache Spark API查詢表。
將各種表和分區的所有結構信息存儲在數據倉庫中的組件,包括列和列類型信息,讀取和寫入數據所需的序列化和避難所,以及存儲數據的相應文件。每個數據鏈驅動器部署都有一個中央hive metastore,所有簇都可以訪問持久表元數據。您還可以選擇使用現有的外部蜂巢元馬托爾。
數據科學與工程中的計算管理
本節介紹了您需要知道的概念,以在Databricks數據科學與工程中運行計算。
您運行筆記本電腦和作業的一組計算資源和配置。群集有兩種類型:通用和工作。
您創建一個通用群集使用UI,CLI或REST API。您可以手動終止並重新啟動通用群集。多個用戶可以共享此類群集以進行協作交互式分析。beplay娱乐ios
Databricks作業調度程序創建工作集群當您運行工作在新的工作集群並在作業完成後終止集群。你不能重新啟動工作集群。
一組空閑的,即用的實例,以減少群集開始和自動縮放時間。連接到池時,群集會從池中分配其驅動器和工人節點。如果池沒有足夠的空閑資源來適應集群的請求,則池通過從實例提供商那裏分配新實例來擴展。當終止附件的群集時,使用的實例將返回到池中,可以通過另一個集群重複使用。
由Databricks管理的群集上運行的核心組件集。Databricks提供了幾種類型的運行時間:
Databricks運行時包括Apache Spark,但還添加了許多組件和更新,可大大提高大數據分析的可用性,性能和安全性。
用於機器學習的Databricks運行時建立在數據快速運行時,並為機器學習和數據科學提供了現成的環境。它包含多個流行的庫,包括Tensorflow,Keras,Pytorch和Xgboost。
基因組學的數據映射時間是針對使用基因組和生物醫學數據的Databricks運行時的版本。
Databricks Light是開源Apache Spark Runtime的Databricks包裝。它為不需要Databricks運行時提供的高級性能,可靠性或自動化好處的作業提供了一個運行時選項。您隻有在創建群集以運行JAR,Python或Spark-Submit作業時才能選擇Databricks Light;您無法為運行交互式或筆記本工作工作負載的群集選擇此運行時。
開發和運行數據處理管道的框架:
工作量
Databricks識別受不同的工作負載的兩種類型的工作負載價錢方案:數據工程(作業)和數據分析(通用)。
數據工程(自動化的)工作負載運行工作集群Databricks作業調度程序為每個工作負載創建。
數據分析(互動)工作負載在一個通用群集。交互式工作負載通常在數據ab中運行命令筆記本。但是,運行一個工作在現有的通用集群也被視為交互式工作負載。
執行上下文
國家替補每種支持的編程語言的環境。支持的語言是Python,R,Scala和SQL。
Databricks機器學習
這Databricks機器學習環境從數據科學與工程工作區中提供的功能開始,並添加功能。重要概念包括:
跟蹤機器學習模型開發的組織主要單位。實驗組織,顯示和控製對個人的訪問記錄的模型培訓代碼運行。
集中式功能存儲庫。Databricks功能商店啟用了整個組織中的功能共享和發現,並確保將相同的功能計算代碼用於模型培訓和推理。
一個訓練有素的機器學習或深度學習模型已注冊模型注冊表。
Databricks SQL
Databricks SQL專門針對主要使用SQL查詢和BI工具的數據分析師。它提供了一個直觀的環境,用於運行臨時查詢並在數據湖中存儲的數據上創建儀表板。它的UI與數據科學與工程以及數據鏈機器學習環境的UI大不相同。本節介紹了您需要理解的基本概念,以便有效地使用Databricks SQL。
Databricks SQL接口
本節介紹了數據映支持用於訪問您的數據標準SQL Assets:UI和API的接口。
UI:儀表板和查詢,SQL倉庫,查詢曆史記錄和警報的圖形接口。
REST API一個允許您在Databricks SQL對象上自動化任務的接口。
Databricks SQL中的計算管理
本節介紹了您需要知道的概念以在Databricks SQL中運行SQL查詢。
詢問:有效的SQL語句。
SQL倉庫:您執行SQL查詢的計算資源。
查詢曆史記錄:執行查詢及其性能特征列表。
Databricks SQL中的身份驗證和授權
本節介紹了當您管理Databricks SQL用戶和組及其對資產的訪問時,您需要知道的概念。
用戶和組:用戶是一個可以訪問係統的獨特個人。一個小組是用戶的集合。
個人訪問令牌:使用不透明的字符串用於對REST API進行身份驗證和通過工具中的工具Databricks集成連接到SQL倉庫。
訪問控製列表:一組附帶的權限,需要訪問對象。ACL條目指定對象和對象上允許的操作。ACL中的每個條目都指定主,操作類型和對象。