數據映
Beplay体育安卓版本平台演示
免費入門
在此演示中,我們瀏覽了Databricks統一數據分析平台的高級概述,包括討論開源項目(例如Apache Spark™,Delta Lake,MLFLOW和KOALAS)如何適合DataBeplay体育安卓版本bricks Ecosystem。然後,我們將介紹數據科學工作區,啟動火花簇和協作筆記本功能,然後將我們的重點轉移到Delta Lake,Time Travel和SQL Analbeplay娱乐iosytics。
視頻成績單
Databricks為您的所有數據提供了一個統一的開放平台。Beplay体育安卓版本它使數據科學家,數據工程師和數據分析師具有一個簡單的協作環境,以運行交互式和計劃的數據分析工作負載。beplay娱乐ios
Databricks來自世界上一些最受歡迎的開源項目的原始創作者Apache Spark™,Delta Lake,MLFlow和Koalas。它建立在這些技術的基礎上,以提供真正的Lakehouse體係結構,將最佳的數據湖和數據倉庫結合起來,為快速,可擴展和可靠的數據平台結合使用。Beplay体育安卓版本
單擊以展開成績單→
為了使用數據,您可以使用數百台機器啟動簇,每台機器都需要進行分析所需的CPU和GPU。如果您在大型數據團隊中,政策可以定義群集大小和配置的限製。數據工程師和數據科學家有一個數據括號,以及針對機器學習工作負載進行了優化的運行時。查看創建具有多達390名工人的集群是多麼容易。
在數據科學工作區中,您可以使用Python,SQL,Scala或R。beplay娱乐ios
就像您可以與同事和同事團體分享您的Google文檔一樣,您也可以共享這些筆記本。另外,與您的代碼相關的內置評論可以幫助您與同事交換想法和更新。
除了在此處看到,除了使用筆記本進行探索性數據分析外,許多數據助劑用戶都喜歡與MLFlow這樣的機器學習框架的強大集成。在這裏,我們正在訓練模型並進行測試。但是,我們還可以在這裏查找頂部,並查看MLFLOW實驗跟蹤,這使我們能夠跟蹤先前的實驗運行,並查看隨著時間的推移,準確度等重要變量發生了多大變化。
現在,MLFlow隻是Databricks與流行的機器學習和數據科學框架提供的集成之一。Databricks還支持各種其他開源庫,這些庫在社區中很受歡迎。
想進一步了解您的同事與您共享的數據嗎?查看“數據”選項卡,您可以在其中看到帶有模式和示例數據的單個表。重要的是,您會在每個表上看到操作的曆史記錄,又稱交易日誌。現在為什麼曆史重要?好吧,這對於許多行業的合規性和安全審核很重要。但這也使您可以通過另一個維度來探索數據:時間。讓我們通過打開SQL Analytics界麵來看看如何。
SQL Analytics接口使我們能夠創建可視化和儀表板,並以超過傳統數據倉庫的性能或可比性查詢我們的湖泊。我們通過在Delta Lake和Delta Engine的進步來達到這種績效,可靠性,模式執法和擴展水平。Delta Lake是一個開放格式的存儲層,該儲物層建立在Parquet的頂部,它為您的雲數據湖增加了酸交易。讓我們向您展示交易日誌如何使Delta Lake Time Travel。
在這裏,我們根據物業的位置來研究一係列貸款風險分數。當我們最初以Zero創建此數據集時,我們沒有任何對愛荷華州的數據。我們那裏沒有任何貸款申請。但是隨著時間的流逝,我們已經達到了14版,您可以看到愛荷華州添加了貸款風險評分。
現在,讓我們向您展示為這些查詢提供動力的SQL。在這裏,您可以看到我們非常簡單地將一個版本編號添加到我們的SQL查詢中,以指示何時查詢數據。這就是我們使用三角洲湖時時間旅行功能的方式,以便在特定時間點找到數據。
現在,如果您剛剛開始填補數據湖怎麼辦?好吧,Databricks的功能使您可以輕鬆地將數據加載到Lakehouse中以啟用BI和ML。因此,今天開始真的很容易。
好吧,我希望您能看到整個數據團隊對數據團的簡單和強大的數據助理。無論是數據分析師,數據工程師還是數據科學家,他們都可以共同協作以進行數據以及Databricks的AI。在Databricks.com上了解更多信息。
準備開始了嗎?