跳轉到主要內容
人工智能的數據

騎AI波

2022年3月15日 數據策略

分享這篇文章
“…在corporating machine learning into a company’s application development is difficult…”

這是將近十年了而歡呼,軟件正在吃合拍的,許多企業已經擁抱敏捷軟件工程,把它變成一個在他們的組織的核心競爭力。一旦“慢”企業管理成功引入敏捷開發團隊,與團隊分離自己從操作性數據存儲的複雜性,遺留係統和第三方產品的數據交互服務通過api或基於事件的接口。這些團隊可以專注於交付解決方案,支持業務需求和結果似乎已經克服他們的數據的挑戰。

當然,小技術在世界上保持不變。雲計算的影響,大量新類型的數據,超過十年的研究之間的密切合作和業務創造了新一波。我們叫這新一波AI波。

人工智能(AI)給了你機會超越純粹的自動化的人是如何工作的。相反,數據可以利用自動化預測,為更有效的分類和行動,及時決策,改變響應客戶體驗等方麵的業務。機器學習(ML)進一步培養現成的模型來滿足需求已被證明過於複雜的編碼單獨解決。

但是這是摩擦:將ML納入公司的應用程序開發是很困難的。毫升現在比傳統的編碼是一個更複雜的活動。馬泰Zaharia磚聯合創始人兼首席技術專家,提出了三個原因。首先,軟件組件的功能依賴於毫升不隻是使用編碼邏輯,今天在大多數軟件開發一樣。這取決於的組合邏輯,訓練數據和調優。第二,其重點不是在代表一些正確的功能規範,但在優化其輸出的準確性準確性一旦部署和維護。最後,框架、模型結構和庫毫升工程師通常依賴於發展迅速,受到改變。

每一個三分讓自己的挑戰,但在本文中我想把重點放在第一點,這強調了這樣一個事實,數據需要在工程過程本身。直到現在,應用程序開發團隊一直更關心如何連接到數據在測試或運行時,他們解決了問題,通過構建api,如前所述。但是那些同樣的api不幫助團隊利用數據在開發時間。那麼,您的項目如何利用更少的代碼和更多的訓練數據的開發周期?

答案是數據管理機構之間的密切合作和應用程序開發團隊。目前很多討論反映這個問題,或許最突出的想法集中在數據網格(Dehghani2019)。我自己的經驗在過去的幾十年裏已經在應用程序和數據之間搖擺不定的世界,七個實踐和借鑒的經驗,我的位置時,你應該考慮調整團隊跨越鴻溝。

  1. 使用一個設計的第一個方法來識別最重要的數據產品

    成功的數字轉換通常由改變客戶互動。設計的第一個——通過客戶的眼睛看世界——已經通知應用程序開發團隊一段時間。例如,框架如“工作要做Clayton Christensen的引入等設計關注什麼是客戶最終要完成的。這樣的框架幫助開發團隊識別,優先級,然後構建特性影響的基礎上提供給他們的客戶實現他們所期望的目標。beplay体育app下载地址

    同樣,相同的設計的第一個應當構建方法可以確定哪些數據產品,允許一個組織挑戰自我AI如何最客戶的影響。問這樣的問題需要作出什麼決策來支持客戶的jobs-to-be-done ?”可以幫助識別需要哪些數據和預測來支持這些決定,最重要的是,所需的數據產品,如分類或回歸毫升模型。

    同時應用程序功能和數據產品的積壓可以來自相同的設計的第一個運動,其中應該包括數據科學家和數據架構師參與除了常見的業務涉眾和應用程序架構師的參與者。鍛煉後,這種廣泛的角色必須在一個正在進行的基礎上合作,確保依賴跨功能和數據有效管理產品積壓。使我們到下一個練習。

  2. 組織有效的數據和應用程序團隊

    我們剛剛看到數據團隊之間的密切合作和應用程序通知數據科學團隊可以積壓(研究目標)和相關毫升模型發展由數據科學家。一旦設置了一個目標,重要的是抵製進步獨立工作。這本書執行數據科學Caffo和他的同事強調兩種常見的組織的方法——嵌入和專用通知團隊結構采用合作應對共同的困難。一方麵,在專用的模型中,數據角色如數據科學家的常任理事國業務領域應用程序團隊(一個跨職能團隊)。另一方麵,在嵌入式模型中,這些數據的角色是一個集中的數據組織的成員,然後嵌入到業務應用領域。

    數據& AI COE的聯合組織
    圖1庫斯在聯合組織

    與多個業務線更大的組織,在潛在的許多敏捷開發流需要毫升模型發展,孤立發展到一個專用的卓越中心(COE)是一個有吸引力的選擇。我們的殼牌公司的案例研究描述如何COE可以開車成功采用的人工智能,和COE結合與嵌入模型(如圖1所示)。在這種情況下,COE成員負責交付AI積壓。然而,支持緊迫性,理解和協作,團隊成員被分配到直接在應用程序開發團隊工作。最終,最好的操作模式將依賴於公司的成熟,與早期采用者保持更多的技能“中心”和成熟的用戶有更多的技能“輪輻”。

  3. 本地數據科學的支持通過移動數據的所有權和可見性產品分散的業務重點團隊

    另一個重要的組織方麵考慮的是數據的所有權。圍繞數據隱私的風險,同意和使用存在,是有道理的,問責製的所有權和管理這些風險是接受的業務領域內最好的理解數據的性質及其相關性。人工智能引入了新的數據風險,如偏見,explainability並確保倫理決策。這將創建一個壓力構建孤立的數據管理解決方案,建立了控製感和總所有權,導致筒倉,拒絕合作。這些障礙不可避免地導致整個企業數據質量較低,例如影響客戶數據的準確性通過孤立的數據集是由重疊的,不完整的或不一致的屬性。然後,低質量是延續到模型訓練數據。

    圖2當地所有權在一個數據網格的數據產品

    數據網格的概念獲得了牽引的方法為當地業務領域保持數據產品的所有權,同時避免采取孤立的方法的缺陷。在數據網格,數據集可以在本地擁有,如在圖2中。機製可以在允許他們在更廣泛的組織共享控製方式,並在風險參數由數據產品的所有者。Lakehouse自然提供了一個數據平台架構,支持Beplay体育安卓版本一個數據網格的方法。在這裏,一個組織的數據支持多種數據產品類型,如模型、數據集、BI儀表板和管道——在一個統一的數據平台,使局部地區業務的獨立性。Beplay体育安卓版本lakehouse,團隊創建自己的策劃數據集使用的存儲和計算他們可以控製。這些產品再注冊一個目錄允許容易發現和自助消費,但適當的安全控製隻開放獲取其他允許組織在更大的企業。

  4. 減少所需的時間從DataOps主意解決方案一致

    一旦定義了積壓和團隊組織,我們需要解決如何對數據產品,如模型出現積壓,…以及如何開發,也可以很快。數據攝取和準備是最大的模型發展的努力,和有效的DataOps是最小化的關鍵。例如,星巴克建立了一個分析框架,BrewKit基於Azure磚,重點是支持他們的團隊,無論大小或工程期限,建立管道進入整個公司的最佳實踐已經到位。這個框架的目的是提高他們的整體數據處理效率;他們建立了超過1000個數據管道與50 - 100 x更快的數據處理。框架的一個關鍵元素是一組模板,本地團隊可以使用為出發點來解決特定的數據問題。自模板依賴三角洲湖存儲解決方案建立在模板不需要解決一係列問題在處理雲對象存儲的數據,如管道可靠性和性能。

    有效的DataOps還有另一個重要方麵。顧名思義,DataOps與DevOps有密切的關係,它的成功在很大程度上依賴於自動化。早期的博客,大規模Productionize和自動化您的數據平台Beplay体育安卓版本在那方麵,提供了一個極好的指南。

    通常需要整個鏈的轉換原始數據並將其轉化為格式適合模型的發展。除了星巴克,,我們看到許多客戶開發類似的框架,以加速他們的時間來構建數據管道。beplay体育app下载地址有鑒於此,磚三角洲生活表,它簡化了創建可靠的生產數據管道和解決一係列的問題與他們的開發和運營

  5. 是現實的衝刺模型開發與編碼

    這是一個有吸引力的想法,所有從應用程序開發的世界很容易翻譯實踐構建數據解決方案。然而,馬泰Zaharia所指出的那樣,傳統的編碼和模式發展有不同的目標。一方麵,編碼的目標是實現一些已知的功能來滿足一個明確定義的功能規範。另一方麵,模型開發的目的是為了優化模型的輸出的準確性,如預測或分類,然後保持精度。與應用程序編碼,如果你工作在每兩周的sprint,很可能你可以將功能分解成更小的單位一個目標發射一個最小可行產品然後增量,衝刺衝刺,將新特性添加到解決方案。然而,模型發展“分解”是什麼意思?最終的妥協將需要更少的優化,模型和相應的不準確。最小可行的模型意味著更少的優化模型,和隻有如此之低精度可以在子優化模型沒有提供足夠的價值在一個解決方案,或者讓你的顧客瘋狂。beplay体育app下载地址這裏的現實是一些模型發展不會巧妙地整合到應用程序開發相關的衝刺。

    所以,劑量的現實主義是什麼意思?雖然可能是一個編碼和模型開發的時鍾速度之間的阻抗失配,你至少可以使ML生命周期和數據科學家或ML工程師盡可能有效和高效,從而減少時間到達第一個版本的模型與可接受的精度,或者決定可接受的精度不可能和救助。讓我們看看接下來可以做。

  6. 采取一致的MLOps和自動化,使數據科學家活力

    高效DataOps練習# 4中描述提供了較大的利益發展毫升模型-數據收集,數據準備和數據勘探需要,DataOps優化建模將加快先決條件。我們進一步討論這個博客以數據為中心的ML平台的必要性Beplay体育安卓版本,這描述的角色lakehouse方法支撐毫升。此外,有非常具體的步驟自己獨特的焦點在ML發展實踐和工具。最後,一旦模型,它需要使用DevOps-inspired部署最佳實踐。MLOps捕獲所有的運動部件,重點優化的每一步發展,部署和監控整個毫升模型生命周期模型,說明在磚平台如圖3所示。Beplay体育安卓版本

    現在普遍應用程序開發世界中使用一致的開發方法和框架與CI / CD管道自動化加速交付新功能。在過去的2 - 3年,類似的實踐已經開始出現在數據組織支持MLops更有效。廣泛采用的組件導致越來越成熟了MLflow的開源框架管理毫升生命周期,這磚提供管理服務。磚等客戶beplay体育app下载地址H&M工業化毫升的組織建設更多模型,快把MLflow他們的模型的核心業務。自動化的機會超越管道跟蹤和模型。AutoML技術可以進一步提高數據科學家的工作效率通過自動化的大量實驗參與發展最好的一個特定的用例模型。

  7. 與AI大規模真正成功,不僅僅是數據團隊——應用程序開發組織也必須改變

    這七個點相關的變化將影響最明顯的是數據組織。這並不是說,應用程序開發團隊不需要做出更改。當然,所有方麵相關合作依賴於雙方的承諾。但隨著lakehouse的出現,DataOps MLOps和一個快速發展的生態係統的工具和方法來支持數據和AI的做法,很容易認識到必須進行數據組織的變化。不過這樣的線索可能不會立即導致改變。教育和傳播福音起到至關重要的作用在激勵團隊如何調整和協作是不同的。滲透到整個組織的文化,一個數據讀寫能力和技能計劃是必需的,應該根據每個企業的需要觀眾包括應用程序開發團隊。

    與促進更好的數據讀寫,我們必須重新審視應用開發實踐和工具。例如,倫理問題會影響應用程序程序員的常見做法,重用api作為構建塊等功能。考慮能力評估信貸價值,其實現是用毫升。如果模型構建端點提供API的實現訓練的數據從一個地區銀行處理高財富個人,這種模式可能產生重大偏差如果在另一個領域中重用低收入客戶的銀行處理。在這種情況下,應該有定義的流程來確保應用程序開發人員或架構師仔細檢查模型的背景和訓練數據沿襲背後的API。可以發現任何問題之前決定重用,和發現工具必須提供API的信息環境和支持,考慮數據沿襲。

總之,隻有當應用程序開發團隊和數據團隊一起工作無縫AI會在組織中普遍存在。雖然通常這兩個世界是孤立的,越來越多的組織正在拚湊的難題如何建立有效合作的條件。這裏列出的七個實踐捕捉最佳實踐和技術選擇采用磚的客戶實現對齊。beplay体育app下载地址與這些到位,組織可以騎AI波,改變我們的世界從一個軟件一個世界而不是吃了機器學習在哪裏吃軟件。

找到更多關於您的組織如何騎AI波通過檢查出使數據和人工智能在規模策略指導,它描述了構建數據驅動組織的最佳實踐。同時,趕上2021年Gartner魔力象限(mq)在磚是唯一的原生雲供應商被命名為一個領導者在雲數據庫管理係統和數據科學和機器學習平台mq。Beplay体育安卓版本

免費試著磚

相關的帖子

看到所有數據策略的帖子
Baidu
map