跳轉到主要內容
Beplay体育安卓版本平台的博客

如何節省高達50%的Azure ETL同時提高數據質量

2021年1月21日 合作夥伴

分享這篇文章

數據質量的挑戰

客戶麵臨的最常見問題之一是保持較高的數據質量標準,尤其當他們迅速提高beplay体育app下载地址他們處理的數據量,分析和發布。數據驗證、數據轉換和de-identification可以複雜和耗時。隨著數據量的增長,新的用例和下遊應用程序出現,及時交付高質量的數據和期望增加快速和可靠的數據轉換的重要性,驗證、重複數據刪除和錯誤修正。隨著時間的推移,各種各樣的數據來源和類型添加處理開銷和增加一個錯誤的風險引入越來越多的數據管道流和批處理數據合並,驗證和分析。

城市規模數據處理

斯波坎市位於華盛頓州,致力於提供信息促進政府的透明度和問責製和了解第一手數據質量的挑戰。斯波坎市處理大量的關鍵數據,需要很多的操作,包括財務報告,市議會會議議程和分鍾,發行和等待許可,以及地圖和地理信息係統(GIS)的數據對道路建設,犯罪報告和除雪。與原有的架構,它是幾乎不可能獲得運營分析和實時報告。出版和傳播城市的他們需要一種方法從各種來源的數據分析和報告目的通過一個中央位置,可以有效地處理數據,確保數據的一致性和質量。

如何提高數據質量的斯波坎市同時降低成本

抽象整個ETL過程通過數據質量並達到一致的數據和主數據管理服務,杠杆的斯波坎市DQLabsAzure磚。他們合並各種數據源,重複數據刪除,策劃Azure湖數據存儲中的數據(ADLS)。

“透明度和問責製是斯波坎市優先考慮”埃裏克·芬奇說,創新和技術總監,斯波坎市。“DQLabs和Azure磚使我們能夠提供一個一致的源淨化數據解決問題的高危人群,提高公共安全和社區規劃。”

使用這個聯合解決方案,增加政府透明度和問責製的斯波坎市和可以為公民提供信息,鼓勵並邀請公眾參與和反饋。使用集成的黃金記錄視圖,數據集變得容易改善報告和分析。結果是重複減少80%,顯著提高數據質量。DQLabs和Azure磚,也取得了50%的斯波坎市更低的總擁有成本(TCO)通過減少分類所需的體力勞動,組織、de-identify,減少重複和正確的輸入數據以及更低的成本來維持和運營信息係統隨著數據量的增加。

斯波坎市ETL /英語教學過程DQLabs和Azure磚
斯波坎市ETL /英語教學過程DQLabs和Azure磚

DQLabs利用Azure磚來提高數據的質量如何

“DQLabs是一個增廣數據質量平台,幫助組織管理數據更聰明,”拉吉約瑟說Beplay体育安卓版本,首席執行官DQLabs。“擁有超過20年的經驗數據和數據科學解決方案和產品,我發現很多組織鬥爭的整合來自不同位置的數據。數據通常存儲在不同的形式和位置,如pdf文檔,數據庫,和其他文件類型分散在各種各樣的地點如本地係統,雲api,和第三方係統”。

幫助客戶理解他們beplay体育app下载地址的數據,甚至回答簡單的問題,比如,“它好嗎?”或“壞嗎?“更複雜的比組織的預期。為了解決這些挑戰,DQLabs建造一個增廣數據質量平台。Beplay体育安卓版本DQLabs幫助創建一個自動化的斯波坎市雲數據架構使用Azure磚處理多種數據格式,包括JSON和關係數據庫。他們首先利用Azure數據工廠(ADF)與DQLabs內置數據集成工具連接不同的數據源和編排數據攝入不同的速度,完全和增量更新。

DQLabs使用Azure磚過程和de-identify流和批處理數據實時數據質量分析。這些數據然後籌備策劃並機器學習模型PySpark MLlib。

傳入的數據評估使用DQLabs理解其語義類型的人工智能(AI)模塊,DataSense。這有助於組織進行分類、編目和管理他們的數據,包括敏感數據,如個人身份信息(PII),包括聯係信息和社會安全號碼。

DataSense分類的基礎上,額外的檢查和自定義規則可用於確保數據管理和共享根據城市的指導方針。數據質量分數可以快速捕獲錯誤監控。主數據模型(MDM)是在不同層次上定義的。例如,聯係信息包括姓名、地址和電話號碼。

細化數據發表作為下遊的金色的觀點分析,報告和分析。由於DQLabs和Azure磚,這個過程是快速和高效,使組織在領先地位的斯波坎市利用他們的數據操作,決策和未來規劃。

開始使用DQLabs和Azure磚,提高數據質量

了解更多關於DQLabs通過注冊為生活事件與磚、微軟和DQLabs。開始使用Azure磚用的快速入門的實驗室係列研討會培訓

注冊生活事件!

免費試著磚
看到所有合作夥伴的帖子
Baidu
map