《數據庫》中數據準備的介紹

本文描述了Databricks如何幫助您為分析和機器學習準備數據。數據準備通常是分析和機器學習項目中最耗時的部分,良好的數據對於確保準確和有用的結果非常重要。

數據準備任務

數據準備包括以下任務:

  • 清理和格式化數據。這包括處理缺失值或異常值、確保數據格式正確以及刪除不需要的列等任務。

  • 數據預處理。這包括數值轉換、數據聚合、文本或圖像數據編碼以及創建新功能等任務。

  • 結合數據。這包括連接表或合並數據集之類的任務。

數據準備資源和信息

Databricks Lakehouse為數據攝取、準備、分析和機器學習以及監控提供了統Beplay体育安卓版本一的平台。

  • 大獎章湖屋建築通過指定一組不斷提高質量的數據層,指導您進行數據準備。在數據存儲在為高效分析而優化的布局中之前,該體係結構維護ACID保證,因為數據要經過多層驗證和轉換。

  • Delta活動表是用於構建可靠、可維護和可測試的數據處理管道的框架。您可以定義要對數據執行的轉換,Delta Live Tables管理任務編排、集群管理、監控、數據質量和錯誤處理。

  • Databricks合作夥伴連接允許您將Databricks工作區直接連接到第三方數據準備和轉換合作夥伴。合作夥伴連接代表您提供所需的Databricks資源,然後將資源詳細信息傳遞給合作夥伴。

  • Databricks Runtime和Databricks Runtime ML提供預構建的環境,其中已經安裝了許多最廣泛使用的數據準備庫。中提供了所有內置庫的列表發布說明

  • 機器學習的特征工程是將原始數據轉換為可用於開發機器學習模型的特征的過程。對於ML應用,Databricks功能商店幫助您的團隊發現和重用特性,跟蹤特性沿襲,並將特性發布到在線商店以實現實時服務和自動查找。