介紹數據準備數據磚

本文描述了如何用數據磚可以幫助你準備分析和機器學習。數據準備通常是最耗時的組件的一個分析和機器學習項目,和良好的數據是重要的,以確保準確和有用的結果。

數據準備工作

數據準備包括以下任務:

  • 清潔和格式化數據。這包括任務,比如處理缺失值或離群值,確保數據的正確格式,刪除不需要的列。

  • 數據預處理。這包括任務如數值轉換、聚合數據編碼文本或圖像數據,並創建新特性。

  • 結合數據。這包括連接表等任務或合並數據集。

數據準備的資源和信息

數據攝取的磚Lakehouse提供了一個統一的平台,製備、分析和機器學習和監控。Beplay体育安卓版本

  • 大獎章lakehouse架構指導您在數據準備通過指定一組數據層的質量增加。架構保持酸擔保作為數據經過多層次的驗證和轉換之前存儲在一個布局優化的有效分析。

  • 三角洲生活表是一個框架為構建可靠、可維護、可測試的數據處理管道。你定義轉換執行數據,和δ生活表管理任務編排,集群管理、監控、數據質量和錯誤處理。

  • 磚的合作夥伴聯係直接讓你連接你的磚工作空間的第三方數據準備和轉換合作夥伴。合作夥伴連接規定所需的磚資源代表你,然後將資源詳細信息傳遞給合作夥伴。

  • 磚運行時和磚運行時毫升提供預構建環境,使用最廣泛的數據準備的許多圖書館已經安裝了。所有內置庫的列表中可用發布說明

  • 特性工程機器學習是一個過程,將原始數據轉化為特性,可用於開發的機器學習模型。對於毫升應用程序,磚特性的商店幫助你的團隊發現和重用特性,跟蹤特性血統,和發布功能為實時在線商店和自動查找服務。