什麼是Databricks?

Databricks Lakehouse平台為大規Beplay体育安卓版本模構建、部署、共享和維護企業級數據解決方案提供了一套統一的工具。Databricks在您的雲帳戶中集成了雲存儲和安全,並代表您管理和部署雲基礎設施。

與開放源碼的托管集成

Databricks對開源社區有著堅定的承諾。Databricks管理Databricks運行時版本中開放源碼集成的更新。以下技術是由Databricks員工創建的開源項目:

Databricks維護了許多集成和擴展這些技術的專有工具,以增加優化的性能和易用性,例如:

Databricks如何與AWS合作?

Databricks平台架構由Beplay体育安卓版本兩個主要部分組成:由Databricks用於部署、配置和管理平台和服務的基礎設施,以及由Databricks和您的公司協作管理的客戶擁有的基礎設施。

與許多企業數據庫公司不同,Databricks不強迫您為了使用該平台而將數據遷移到專有存儲係統。Beplay体育安卓版本相反,您可以通過配置Databricks平台和您的雲帳戶之間的安全集成來配置Databricks工作區,然後Databricks使用您帳戶中的雲資源部署臨時計算集群,以處理和存儲對象存儲和您控製的其他集成服務Beplay体育安卓版本中的數據。

Unity Catalog進一步擴展了這種關係,允許你在Databricks中使用熟悉的SQL語法管理訪問數據的權限。

Databricks部署的工作空間滿足了一些世界上最大和最重視安全的公司的安全和網絡需求。Databricks使新用戶可以輕鬆地開始使用該平台,並消除了終端用戶使用雲基礎設施的許多負擔和顧慮,但並不限製有經驗的數Beplay体育安卓版本據、操作和安全團隊所需的定製和控製。

Databricks是用來做什麼的?

我們的客beplay体育app下载地址戶使用Databricks處理、存儲、清理、共享、分析、建模,並通過從BI到機器學習的解決方案實現數據集的貨幣化。您可以使用Databricks平台構建跨越數據角色的許Beplay体育安卓版本多不同應用程序。beplay体育app下载地址完全接受湖邊小屋的客戶利用我們的統一平台來構建和部署數據工程工作流、機器學習模型和分析儀表板,為整個組織的創新和洞察提供動力。Beplay体育安卓版本

Databricks工作空間為許多核心數據任務提供了用戶界麵,包括以下工具:

  • 互動的筆記本

  • 工作流調度人員和經理

  • SQL編輯器和儀表板

  • 數據攝取和治理

  • 數據發現、注釋和探索

  • 計算管理

  • 機器學習(ML)實驗跟蹤

  • ML模型服務

  • 特色商店

  • Git的源代碼控製

除了工作空間UI之外,您還可以通過以下工具以編程方式與Databricks交互:

  • REST API

  • CLI

  • 起程拓殖

Databricks的常見用例是什麼?

Databricks上的用例與平台上處理的數據和將數據作為其工作核心部分的員工的許多角色一樣多樣。Beplay体育安卓版本下麵的用例強調了整個組織中的用戶如何利用Databricks來完成對處理、存儲和分析驅動關鍵業務功能和決策的數據至關重要的任務。

建立一個企業數據湖屋

數據湖屋結合了數據倉庫和數據湖的優勢,以加速、簡化和統一企業數據解決方案。數據工程師、數據科學家、分析師和生產係統都可以利用數據湖屋作為單一的真相來源,允許及時訪問一致的數據,並減少構建、維護和同步許多分布式數據係統的複雜性。看到Databricks Lakehouse是什麼?

ETL和數據工程

無論您是生成儀表板還是為人工智能應用程序提供動力,數據工程都為以數據為中心的公司提供了主幹,確保數據可用、幹淨並存儲在允許有效發現和使用的數據模型中。Databricks將Apache Spark的強大功能與Delta Lake和自定義工具結合起來,提供無與倫比的ETL(提取、轉換、加載)體驗。您可以使用SQL、Python和Scala來組合ETL邏輯,然後隻需單擊幾下,就可以編排預定的作業部署。

Delta Live Tables通過智能管理數據集之間的依賴關係,自動部署和擴展生產基礎設施,以確保根據您的規範及時和準確地交付數據,從而進一步簡化ETL。

Databricks提供了許多自定義工具數據攝取,包括自動加載程序它是一種高效的、可擴展的工具,用於從雲對象存儲和數據湖向數據湖庫增量和冪等地加載數據。

機器學習、人工智能和數據科學

Databricks機器學習通過一套為數據科學家和ML工程師量身定製的工具擴展了平台的核心功能,包括Beplay体育安卓版本MLflow用於機器學習的Databricks運行時.看到Databricks機器學習指南

數據倉庫、分析和BI

Databricks將用戶友好的ui與高成本的計算資源和無限可擴展的、負擔得起的存儲相結合,為運行分析查詢提供了一個強大的平台。Beplay体育安卓版本管理員將可伸縮計算集群配置為SQL倉庫,允許終端用戶執行查詢,而不必擔心在雲計算中工作的任何複雜性。SQL用戶可以使用SQL查詢編輯器或者在筆記本上。筆記本電腦除了SQL,還支持Python、R和Scala,並允許用戶嵌入可視化可以在指示板旁邊的鏈接,圖像,和注釋寫在markdown。

數據治理和安全的數據共享

Unity Catalog為數據湖屋提供了統一的數據治理模型。雲管理員為Unity Catalog配置和集成粗訪問控製權限,然後Databricks管理員可以管理團隊和個人的權限。通過用戶友好的ui或SQL語法,通過訪問控製列表(acl)管理特權,使數據庫管理員更容易安全地訪問數據,而不需要在雲本地身份訪問管理(IAM)和網絡上擴展。

Unity Catalog使得在雲中運行安全分析變得簡單,並提供了一個責任分工,幫助限製了平台的管理員和最終用戶所需的再培訓或技能提升。Beplay体育安卓版本看到什麼是Unity Catalog?

lakehouse使得組織內的數據共享如同授予對表或視圖的查詢訪問一樣簡單。為了在安全環境之外共享,Unity Catalog提供了一個托管版本三角洲分享

DevOps、CI/CD和任務編排

ETL管道、ML模型和分析儀表板的開發生命周期都呈現出各自獨特的挑戰。Databricks允許您的所有用戶利用單個數據源,這減少了重複工作和不同步的報告。通過額外提供一套用於版本控製、自動化、調度、部署代碼和生產資源的通用工具,您可以簡化監視、編排和操作的開銷。工作流調度Databricks筆記本、SQL查詢和其他任意代碼。回購讓你同步Databricks項目與許多流行的git提供程序。有關工具的完整概述,請參見開發人員工具和指導

實時和流分析

Databricks利用Apache Spark結構化流處理流數據和增量數據更改。結構化流與Delta Lake緊密集成,這些技術為Delta Live Tables和Auto Loader提供了基礎。看到什麼是Apache Spark結構化流?