什麼是數據庫?

Databricks Lakehouse平台提供了Beplay体育安卓版本一套統一的工具,用於大規模構建、部署、共享和維護企業級數據解決方案。Databricks在您的雲帳戶中集成了雲存儲和安全性,並代表您管理和部署雲基礎設施。

與開放源碼的托管集成

Databricks對開源社區有著堅定的承諾。Databricks在Databricks運行時版本中管理開源集成的更新。以下技術是由Databricks員工創建的開源項目:

Databricks維護了許多集成和擴展這些技術的專有工具,以增加優化的性能和易用性,例如:

數據庫如何與穀歌雲工作?

Databricks平台架構由Beplay体育安卓版本兩個主要部分組成:Databricks用於部署、配置和管理平台和服務的基礎設施,以及Databricks和您的公司協作管理的客戶擁有的基礎設施。

與許多企業數據庫公司不同,Databricks並不強迫您為了使用該平台而將數據遷移到專有存儲係統。Beplay体育安卓版本相反,您可以通過配置Databricks平台和您的雲帳戶之間的安全集成來配置Databricks工作空間,然後Databricks使用您帳戶中的雲資源部署臨時計算集群,以在對象存儲和您控製的其他集成服務中處理Beplay体育安卓版本和存儲數據。

Databricks已經部署了滿足一些世界上最大和最具安全意識的公司的安全和網絡需求的工作空間。Databricks使新用戶很容易開始使用該平台,並消除了終端用戶使用雲基礎設施的許多負擔和顧慮,但不限製有經驗的數據、操Beplay体育安卓版本作和安全團隊所需的定製和控製。

Databricks是用來做什麼的?

我們的客beplay体育app下载地址戶使用Databricks處理、存儲、清理、共享、分析、建模和貨幣化他們的數據集,提供從BI到機器學習的解決方案。可以使用Databricks平台構建跨越數據角色的許多Beplay体育安卓版本不同應用程序。beplay体育app下载地址完全接受lakehouse的客戶可以利用我們的統一平台構建和部署數據工程工作流、機器學習模型和分析儀表板,為整個組織的創新和洞察提供動力。Beplay体育安卓版本

Databricks工作區為許多核心數據任務提供了用戶界麵,包括以下工具:

  • 互動的筆記本

  • 工作流調度器和經理

  • SQL編輯器和儀表板

  • 數據攝取和治理

  • 數據發現、注釋和探索

  • 計算管理

  • 機器學習實驗跟蹤

  • ML模型服務

  • 特色商店

  • 使用Git進行源代碼控製

除了工作區UI,您還可以通過以下工具以編程方式與Databricks交互:

  • REST API

  • CLI

  • 起程拓殖

Databricks常用的用例有哪些?

Databricks上的用例與平台上處理的數據以及將數據作為工作核心部分的員工的許多角色一樣多種多樣。Beplay体育安卓版本以下用例強調了整個組織中的用戶如何利用Databricks完成處理、存儲和分析驅動關鍵業務功能和決策的數據所必需的任務。

構建企業數據湖屋

數據湖屋結合了企業數據倉庫和數據湖的優勢,可以加速、簡化和統一企業數據解決方案。數據工程師、數據科學家、分析師和生產係統都可以使用數據湖屋作為他們的唯一真實來源,允許及時訪問一致的數據,並降低構建、維護和同步許多分布式數據係統的複雜性。看到什麼是Databricks Lakehouse?

ETL和數據工程

無論您是生成儀表板還是為人工智能應用程序提供動力,數據工程都為以數據為中心的公司提供了支柱,確保數據可用、幹淨,並存儲在數據模型中,以便有效地發現和使用。Databricks將Apache Spark的強大功能與Delta Lake和自定義工具結合在一起,提供無與倫比的ETL(提取、轉換、加載)體驗。您可以使用SQL、Python和Scala來組合ETL邏輯,然後隻需單擊幾次就可以編排預定的作業部署。

Delta活動表智能管理數據集之間的依賴關係,並自動部署和擴展生產基礎設施,以確保根據您的規範及時準確地交付數據,從而進一步簡化ETL。

Databricks提供了許多自定義工具數據攝取,包括自動加載程序,這是一種高效且可伸縮的工具,用於增量地、冪等地將數據從雲對象存儲和數據湖加載到數據湖屋。

機器學習、人工智能和數據科學

Databricks機器學習擴展了平台的核心功能,提供了一套為數據科學家和機器學習工程師的需求量身定製的工具,包括Beplay体育安卓版本MLflowDatabricks運行時機器學習.看到Databricks機器學習指南

數據倉庫、分析和BI

Databricks將用戶友好的用戶界麵與具有成本效益的計算資源和無限可擴展的、負擔得起的存儲相結合,為運行分析查詢提供了強大的平台。Beplay体育安卓版本管理員將可伸縮計算集群配置為SQL倉庫,允許最終用戶執行查詢,而不用擔心在雲中工作的任何複雜性。SQL用戶可以使用SQL查詢編輯器或者在筆記本上。筆記本電腦除了SQL,還支持Python、R和Scala,並允許用戶嵌入它們可視化可以在指示板旁邊的鏈接,圖像,和評論寫在markdown。

DevOps、CI/CD和任務編排

ETL管道、ML模型和分析儀表板的開發生命周期都有各自獨特的挑戰。Databricks允許您的所有用戶利用單個數據源,這減少了重複工作和不同步的報告。通過另外提供一套用於版本控製、自動化、調度、部署代碼和生產資源的通用工具,您可以簡化監視、編排和操作的開銷。工作流調度Databricks筆記本,SQL查詢和其他任意代碼。回購讓你同步Databricks項目與一些流行的git提供者。有關工具的完整概述,請參見開發人員工具和指導

實時和流分析

Databricks利用Apache Spark結構化流處理流數據和增量數據更改。結構化流與Delta Lake緊密集成,這些技術為Delta Live Tables和Auto Loader提供了基礎。看到什麼是Apache Spark結構化流?