成功的數據和人工智能驅動公司的四大特征

在Databricks,我們有機會幫助成千上萬的組織現代化他們的數據架構,以雲優先,並通過分析和人工智能從數據中大規模提取價值。在過去的幾年裏,我們很幸運地與不同行業和地區的客戶直接接觸,了解他們對數據驅動的渴望,以及阻礙他們實現這一目標的障礙。beplay体育app下载地址雖然不同行業甚至不同組織的挑戰差異很大,但我們已經對數據和人工智能驅動的組織的四大習慣有了豐富的了解。

在深入研究習慣之前,讓我們快速了解一下組織是如何實現數據策略的。首先,隨著時間的推移,數據團隊已經做出了技術決策,推動了一種基於技術堆棧的思維方式:數據倉庫、數據工程、流式實時數據科學和機器學習。問題是,這不是業務部門的思維方式。他們考慮用例、決策過程和業務問題(例如,客戶360、個性化、欺詐檢測等)。因此,啟用用例變成了跨技術堆棧的複雜拚接練習。這些痛點不僅僅是軼事。在最近的一項調查中數據和麻省理工科技評論, 87%的受訪組織難以成功實施其數據戰略;這通常會回到他們專注於“技術堆棧”的方法上。其次,IT團隊內部仍有足夠的支持來定製解決方案,而不是購買現成的產品。這並不是說不存在定製解決方案是正確選擇的有效場景,但在許多情況下,技術供應商已經設法解決了大多數常見的和低變化的用例,使團隊能夠專注於更有價值的計劃,以更快地為業務創造價值。最後,從人員的角度來看,組織在將技術與業務結果聯係在一起的戰略中是出於善意的,但由於圍繞數據的企業文化沒有得到解決——實際上在過去的十年中2022年數據和人工智能領導力高管調查在美國,91.9%的受訪者認為文化是成為數據驅動型組織的最大挑戰。

幸運的是,這些挑戰都是可以解決的——隻是需要不同的方法。我們目前正處於“數據複興”時期,企業意識到,要在新的數據和人工智能用例上執行,孤立的技術堆棧遺留模型需要讓位於統一的方法。換句話說,這不僅僅是關於數據分析或ML,而是關於構建一個完整的企業級數據、分析和AI平台。Beplay体育安卓版本他們還認識到,他們需要為數據團隊提供更多的交鑰匙解決方案,以便專注於創造業務價值,而不是構建技術堆棧。組織也意識到戰略不能是一些自上而下的權威倡議,而是需要通過培訓來支持,以提高數據素養和能力,使數據無處不在,成為日常生活的一部分。最終,每個組織都試圖弄清楚如何實現這一切,同時使事情變得簡單。那麼你怎麼去那裏呢?這些是我們在成功的數據和人工智能驅動的組織中發現的最重要的習慣。

1.擁抱人工智能的未來

當我們第一次開始Databricks之旅時,我們經常討論高質量的數據對分析至關重要,但對人工智能更是如此,後者,特別是對數據驅動的決策,將為未來提供動力。隨著時間的推移,隨著個性化、預測、疫苗發現和流失分析等用例在人工智能的推動下加速和發展,人們對未來屬於人工智能這一事實更加滿意。習慣正在轉變,不再隻是問發生了什麼?到現在專注於原因,產生高信心預測,並最終影響未來的結果和業務決策。我們看到世界各地的組織勞斯萊斯荷蘭銀行(ABN AMRO)殼牌Regeneron康卡斯特公司,彙豐銀行正在使用數據進行高級分析和人工智能,以提供新功能或大幅增強現有功能。我們在每個垂直領域都看到了這一點。事實上,段彭WarnerMedia的數據和人工智能高級副總裁,他認為“人工智能的影響才剛剛開始。在未來幾年,我們將看到人工智能如何被用於重新想象客戶體驗。”

2.要知道未來是開放的

這裏有一個有趣的數據麻省理工學院50%的數據和技術領導者表示,如果給他們重做按鈕,他們會在數據架構中采用更多的開放標準和開放格式——換句話說,可選性。這種方法麵臨的挑戰是,許多數據從業者和領導者嚴格地將“開放”與開源聯係在一起——而且主要是在on-prem世界的上下文中(即Apache Hadoop)。但通常情況下,你已經有了一個開源引擎,它隻是關於你如何圍繞它獲得服務和支持。

在我們與首席信息官和首席財務官關於開放對他們意味著什麼的對話中,可以歸結為三個核心原則。首先,對於他們現有的解決方案,可移植性的成本是多少?你把一些代碼扔到GitHub回購的某個地方真是太好了。這不是他們關心的。他們真正關心的是,從能力和成本的角度來看,從平台上轉移的可行性。Beplay体育安卓版本接下來,這些功能在插入豐富的生態係統(無論是自主開發的還是利用其他供應商的產品)方麵的表現如何?第三,內部從業人員入職時的學習曲線是什麼?他們多快能跟上進度?

每個組織在飛機升級時都麵臨著越來越大的飛行壓力,但隨著我們達到了飛行和升級的多種選擇,這種開放性為未來提供了多種選擇。采用開放標準和格式所帶來的可選性正在成為組織戰略中越來越優先考慮的關鍵組件。

3.做好多雲準備

有三種類型的數據和人工智能驅動的組織:那些已經是多雲的,那些正在成為多雲的,以及那些對多雲持觀望態度的。事實上,埃森哲谘詢公司繼續預測多雲是他們在2021年及以後的第四大雲趨勢。多雲方法有許多驅動因素,例如使用特定於雲的最佳工具交付新功能的能力、合並和收購,以及開展業務的要求(如法規)、客戶特定於雲的需求等。但最大的驅動因素之一是經濟杠杆。隨著雲應用的增長和數據的增長,對許多人來說,雲基礎設施的支出將成為最大的項目之一。當組織考慮多雲架構時,有兩件事作為需求出現在頂部。首先,終端用戶的體驗必須相同。數據領導者不希望最終用戶考慮如何在雲提供商之間分別管理數據、運行分析或構建模型。其次,在追求一致性的過程中,他們也不想要一些被削弱的能力。雲提供商在基礎設施上進行了大量投資。成功的組織認識到,當他們在每個雲上運行時,需要確保在性能、功能、安全性和計費方麵與這些雲進行深度集成。 This is pretty hard to get right.

4.簡化數據架構

生產力和效率至關重要。最終,任何現代化工作都旨在簡化架構,以此作為提高生產力的一種手段,這對組織獲得新見解、構建數據產品和更快地交付創新的能力具有多米諾骨牌效應。組織希望他們的數據團隊專注於解決業務問題和創造新的機會,而不僅僅是管理基礎設施或報道新聞。舉個例子,穀歌發布了《機器學習係統中的隱性技術債務》概述了與構建ML產品相關的稅收。最終,調查結果得出結論,數據團隊在數據管理、管理和管道等其他方麵花費的時間比實際的ML代碼更多,而這最終將推動業務向前發展。

這就引出了一個問題:數據團隊如何盡可能地實現自動化,並在能夠發揮作用的事情上花費更多時間?許多組織都有喜歡構建一切的工程師。但你想問的問題是:自己構建一切是正確的方法嗎?如何聚焦核心實力和競爭優勢?任何組織的基本需求都不是獨一無二的;事實上,許多公司都在走同樣的道路,第三方解決方案在自動化交鑰匙任務方麵變得非常有效。問問你自己,為了降低總體TCO並能夠更快地前進,這值得多少錢?或者是,Habsah Nordin馬來西亞國家石油公司企業數據主管說:“這與你的技術堆棧有多複雜無關。重點應該是:它是否有助於從你擁有的數據中創造最大價值?”

如果事情就是這麼簡單,為什麼還有那麼多人在掙紮?

答案是:30多年來碎片化、兩極分化的傳統技術棧一直在變得越來越大、越來越複雜。下圖是許多人現實情況的簡化圖。事實上,隻有13%的組織實際上,他們的數據戰略取得了成功,這歸功於他們專注於建立正確的數據管理和架構基礎。

數據基礎設施過於複雜,大多數組織首先將所有數據放在數據湖中,但為了使其可用,他們必須構建四個獨立的筒倉堆棧。

大多數組織首先將所有數據放置在數據湖中,但為了使其可用,他們必須構建四個獨立的筒倉堆棧。紅點表示必須在這些不同的係統中複製和移動的客戶和產品數據。這種複雜性的根源在於存在兩種相互矛盾的方法。

一方麵,你有開放的數據湖,另一方麵,你有專有的數據倉庫。它們並不相容。一種主要基於Python和Java。另一個主要基於SQL,這兩個世界不能很好地混合和匹配。您還擁有不兼容的安全和治理模型。因此,您必須對數據湖中的文件以及數據倉庫中的表和列進行安全治理和控製。它們就像兩塊磁鐵,不是聚在一起,而是相互排斥,使得更廣泛的組織幾乎不可能建立在上麵概述的四個習慣上。即使是數據倉庫最初的架構師,Bill Inmon就是要認識到,上圖所描述的現狀並不能開啟未來十多年的創新。

湖泊和倉庫的交彙

當組織考慮他們的方法時,隻有兩條路徑,湖泊優先或倉庫優先。讓我們首先研究數據倉庫,它已經存在了幾十年。對於專注於報道新聞的商業分析和後視鏡數據分析來說,它們是非常棒的。但它們並不適合高級分析功能,當數據團隊被迫將所有數據轉移到數據湖中,隻是為了驅動新的用例時,使用它們會變得相當複雜。此外,當您試圖擴展時,數據倉庫的成本往往很高。數據湖是當今世界上大部分數據的所在地,它幫助解決了許多這些挑戰。多年來,圍繞數據湖(如數據流、數據河、數據水庫)出現了許多很棒的水類比,這些數據湖支持ML和AI。但是它們並沒有很好地支持一些核心業務智能(BI)用例,並且它們缺少數據倉庫所包含的數據質量和數據治理部分。數據湖往往會變成數據沼澤。因此,隨著數據湖屋架構的興起,我們現在看到了湖泊和倉庫之間的融合。

Lakehouse結合了數據倉庫和數據湖的優點,采用湖泊優先的方法(看到常見問題).如果你的數據已經在湖中,為什麼要將其遷移出去並限製到數據倉庫中……然後在嚐試執行人工智能和分析用例時感到痛苦?相反,使用湖屋架構,組織可以開始建立在成功的數據和人工智能驅動的組織中看到的四個習慣。通過采用湖泊優先的方法來解鎖所有組織數據,並由易於使用、自動化和可審計的工具支持,人工智能的未來變得越來越有可能。組織還獲得了曾經被認為是童話故事的可選性。真正的beplay2.1.6东坡下载 (Databricks平台是建立在DelBeplay体育安卓版本ta Lake、MLflow和Apache Spark™上的),它使組織能夠利用最廣泛的現有和未來技術,以及訪問大量人才。這種可選性還擴展到為多雲做好準備,不僅可以獲得優勢,還可以確保用戶使用一個數據平台獲得一致的體驗,而不管哪些數據駐留在哪個雲提供商。Beplay体育安卓版本最後,簡單,這是不言而喻的,如果你可以降低兩個截然不同的技術堆棧的複雜性,這兩個堆棧從根本上是為不同的結果而構建的,那麼簡化的技術環境就完全有可能實現。

希望你能明白的是,在這條路上你並不孤單,每個行業和地區都有很多很好的例子,它們都在簡化數據、分析和人工智能平台方麵取得了進展,以成為數據驅動的創新中心。Beplay体育安卓版本請查看實現大規模數據和人工智能戰略指南了解更多關於構建數據驅動型組織的最佳實踐以及2021年高德納魔法象限在MQs中,Databricks是唯一一家在雲數據庫管理係統和數據科學和機器學習平台MQs中被評為領導者的雲原生供應商。Beplay体育安卓版本

免費試用Databricks 開始

報名

Baidu
map