磚和Informatica加速發展和智能數據管道成套數據治理

通過布萊恩。德克

2019年5月21日在公司博客上

分享這篇文章

對組織的價值分析和機器學習是很好理解的。我們最近的CIO的調查顯示,90%的機構投資分析,機器學習和人工智能。但我們也指出,最大的障礙是獲得正確的數據在正確的位置和正確的格式。所以我們與Informatica使組織能夠獲得更多成功啟用新方法發現,攝取和準備數據分析。

攝入數據直接進入三角洲湖

從混合數據源獲取大量數據到一個數據湖在某種程度上這是可靠和high-performant是很困難的。數據集往往是傾倒在非托管數據湖泊,沒有想到一個目的。數據是扔進湖泊沒有一致的格式,從而無法讀取和附加。數據也可以破壞的過程中寫數據湖,寫可以失敗,留下部分數據集。

Informatica數據工程集成(一些)使攝入來自多個數據源的數據。通過將一些與三角洲湖,攝入可以發生與三角洲湖的好處。ACID事務確保寫完成,或退出,如果他們失敗了,沒有留下工件。三角洲湖模式執行確保所需的數據類型是正確的和列,從而防止錯誤數據導致數據損壞。之間的集成Informatica一些和三角洲湖使工程師能夠攝取數據到一個數據湖與高可靠性和性能。

準備

每個組織有限的資源格式的數據分析。確保數據集可用於毫升模型需要耗費時間來創建複雜的轉換。沒有足夠的高度熟練的數據工程師可用代碼先進的大規模數據ETL轉換。此外,ETL代碼很難排除或修改。

Informatica大數據管理的集成(BDM)和磚統一分析平台更易於創建大容量數據管道進行大規模數據。Beplay体育安卓版本BDM的拖放界麵,降低了酒吧團隊創建數據轉換的需要編寫代碼來創建數據管道。BDM的易於維護和修改管道可以利用的高容量可伸縮性磚,推動工作的進行處理。結果是更快和更低的成本開發大容量數據的機器學習項目的管道。管道創建和部署增加5倍,管道更容易維護和故障診斷。

發現

找到合適的機器學習的數據集是很困難的。數據科學家浪費寶貴的時間尋找合適的數據集的模型來幫助解決關鍵問題。他們不能確定哪些數據是完整和正確格式化,並正確地驗證了使用正確的數據集。

Informatica企業數據的集成目錄(EDC)磚統一的分析平台,數據科學家現在可以找到正確的數據用於創建模型和執行分析。Beplay体育安卓版本Informatica克萊爾引擎使用人工智能和機器學習來自動發現數據和數據科學家做出明智的建議。數據科學家可以發現、驗證,提供他們的快速分析模型,大大降低了時間的價值。磚可以運行毫升模型在無限的規模,使高影響力的見解。在三角洲湖和EDC現在可以跟蹤數據,這使得企業數據目錄的一部分。

血統

跟蹤數據處理分析的血統已經幾乎不可能。數據工程師和科學家不能提供任何的證明血統顯示的數據是從哪裏來的。當數據處理創建模型,確定哪個版本的一個數據集,模型,甚至分析框架和庫使用已經變得如此複雜,已經超出了我們的能力手動跟蹤。

的集成Informatica EDC,三角洲湖和MLflow磚內部運行,數據科學家可以核實數據從源的血統,跟蹤數據的確切的版本在三角洲湖,並跟蹤和繁殖模型、框架和庫用於處理數據分析。這種能力來追蹤數據科學決策一路回源為組織提供了一個強大的方法能夠審計和繁殖所需的結果證明合規。

我們是興奮這些集成和影響他們對組織成功,使他們能夠自動化數據管道,這些管道提供更好的見解。有關更多信息,注冊這個網絡研討會https://www.informatica.com/about-us/webinars/reg/keys-to-building-end-to-end-intelligent-data-pipelines-for-ai-and-ml-projects_358895.html。

免費試著磚

開始

看到所有公司博客上的帖子