AT&T從一開始就參與人工智能領域,創造了許多第一;“第一個創造AI這個術語”,“R的發明者”,“卷積神經網絡的基礎工作”等等,我們已經將AI應用到數百個解決方案中。今天,在Databricks和各種內部開發的幫助下,我們正在雲中對這些人工智能解決方案進行現代化改造。這次演講將重點介紹我們的人工智能現代化工作及其在欺詐方麵的應用,這是我們最大的受益應用之一。
Mark Austin:好的,大家好。我是馬克·奧斯汀,我和寶拉傑王子在一起。我們將簡單談談我們的人工智能現代化之旅,以及Databricks在欺詐方麵的應用。首先,我們將從AT&T的曆史和我們的人工智能曆史開始。我會給你們一些欺詐問題的背景知識,以及為什麼它如此具有挑戰性,以及為什麼我們需要像Databricks這樣的東西。然後我們會講到不同的策略。把這些看作是創造人工智能的現代化的不同部分,即創建模型和功能,部署和服務它,以確保它是實時的,監控它,然後管理它。這都是關於偏見和可解釋性的問題。最後我們會總結一些結論。
讓我快速回顧一下AT&T在人工智能領域的曆史。這是我們現代化的一部分。你會在這裏看到一些人工智能的東西,以及一些技術堆棧。但你甚至可以回到50年代。克勞德·香農開始用人工智能來解決象棋問題,自動下象棋。然後在1955年,人工智能這個術語,是AT&T, IBM,哈佛和達特茅斯首次創造了這個術語。然後在70年代,一些我們都知道和喜愛的技術堆棧,Unix, C, c++,當然S後來變成了R,第一個用於數據科學的統計編程語言是70年代出來的。
然後在20世紀80年代和90年代,我們有了神經網絡的基礎工作,[聽不清]在實驗室裏研究卷積神經網絡。到了21世紀,一切都是關於應用人工智能。當然,欺詐和其他很多事情。當然,AT&T有無線、HBO Max和光纖。在2000年代,有一個非常重要的黑客馬拉鬆。Netflix的比賽是一百萬美元,我們小組的Chris Volinsky贏得了推薦算法的比賽。
就人工智能的應用而言,最重要的應用之一就是欺詐問題。欺詐是一個很大的問題,這是一個價值十億美元的行業問題,在這裏,欺詐者有很多不同的目標。我隻是在這裏展示了其中的一些。當然有賭博欺詐。這就是他們不打算付錢的地方。身份盜竊是很嚴重的,騙子從暗網上獲取東西,獲得證書,偽裝成客戶。我們必須探測到它。當然,顯然還有賄賂和冒充客戶,或者非法解鎖才能拿到手機。
從技術上講,你必須檢測所有這些東西。在過去,幾年前,我們使用規則。是的,我們發現了很多東西,你可以捕捉到這些東西。但這確實是應用機器學習和人工智能的進步,這確實取得了進展。幾年前,我們開始製定規則,就像你們看到的這樣。然後我們開始應用機器學習。你可以看到欺詐行為停止了。這是從機器學習1到機器學習5的直線。我們非常成功,所以我們在這方麵投入了更多。我還沒放最新的。 But you can see the year after that, we added 20 more algorithms, knocked the fraud down. And the fraud’s dropping here. You can look, the percentage is probably down 70-80% versus just the rules alone.
這裏非常成功。但這一切都是關於速度的,實時的。從技術上來說,任何一種購買,都有多種附帶交易。我們必須監控所有這些實際交易。當你把這些加起來,信不信由你,每天大約有1000萬筆交易,我們必須對欺詐的可能性進行評分。我們必須快速完成,我們必須在50毫秒或更短的時間內完成,這樣對客戶來說就不會有延遲。當我們這樣做的時候,需要捕捉成百上千的實時特征。API調用,駕照檢查,還有很多其他東西。然後可能是4倍的批量饋線。所有這些事情,實時獲取它們,評分這些事情,然後做出決定。
現在,就過程而言,這是我們要深入研究的,在像Databricks和Spark這樣的平台上做所有這些,實時做這些,我們可以對這些事情進行評分,這是非常重要的。Beplay体育安卓版本這就是我們現代化的意義所在。如果你把它分成三個部分,你可能會說你可以稱之為,它從創造人工智能開始。那就是獲取數據,開發功能,建立模型。然後部署和服務它,這就是管道,部署模型。然後在最後監控AI,確保它在做你想做的事情。當然,你也不能忘記中間的治理AI。我們必須確保我們所做的每一件事都是公正的,是可解釋的,是可解釋的。
這是整個過程,我們將深入研究每一件事。我們將向你們展示一些技術堆棧,一些我們的戰略,一個外部和內部技術的混合來實際做到這一點。讓我從創造人工智能開始。創造人工智能,也就是創造特征,創造模型。當然,Spark在這方麵非常出色。你可以做批處理,你可以做實時,你可以做Spark流。但你實際上是在創造功能。這就是在一個共同的地方分享和編目這些東西變得超級重要的地方。我們甚至會關注我們自己的團隊,有時我們會有兩個數據科學家幾乎在同一個團隊中創建幾乎相同的功能。
我們發現,把它們放在一個共享的地方是非常重要的。Delta Lake在這方麵做得很好,但如果你想實時提供服務,你還需要功能商店之類的東西。您可以提供在線和離線服務,您可以為實際模型的實際評分提供這些功能。現在,建立模型實際上是兩部分。就是右邊的這些方框。就個人而言,數據科學家希望能夠嚐試許多不同的事情。他們想嚐試不同的超參數,他們想嚐試不同的模型。我們有自動機器學習,比如H2O無人駕駛AI。這是自動的。但我們也會有自己的東西。
就個人而言,數據科學家將試圖獲得他們所能做的最好的事情。但我們發現,如果一個模型非常重要,比如在阻止欺詐方麵,1%可能會節省數百萬美元,你幾乎也想把它展示給大眾。這就是右下角的部分。想想看,在你有了最好的產品之後,你把它眾包出去。如果我看下一張幻燈片,你創建了一個競爭或合作,你把這個模型展示出來讓人們在上麵競爭。把它想象成我們自己內部的Kaggle每個人都在一個模型上競爭,不同的特征,可能是不同的數據,不同的模型,以獲得最好的結果。
這對我們來說非常成功。我們發現,在一些重要的模型上,平均來說,我們做了超過200場這樣的比賽,我們的準確率提高了29%。我們平台上大約有1100人收到了通知。Beplay体育安卓版本並不是所有人都參加比賽,但很多時候,七八十個人在一個算法上競爭是很常見的。當然,我們有自動ML機器人。H2O無人駕駛AI就是其中之一。我們對4700個模型進行了基準測試,結果是29%的改善。這是創造AI的一部分。當然,接下來重要的是部署和服務它。我將把它交給普林斯來討論。
寶拉吉王子:謝謝你,馬克。我將談論機器學習管道中的下一個難題,即部署和服務人工智能。在談到模型部署之前,我想先談談模型離線培訓。大多數時候,我們的數據科學家都有一個問題,他們想要回到過去並創建特征,或者有時要回填特征。這些都是欺詐ML非常關鍵的組成部分。我們需要在技術方麵擁有這種能力,當然Delta Lake在這方麵做得很好,可以幫助我們。
現在談論模型部署,一旦模型建立,就需要記錄。我們需要了解建模需求。模型中真正的特性是非常重要的。然後對這些模型進行版本化。它為我們提供了一個機會,當你真正致力於A/B模型框架,或冠軍/挑戰者模式時,我們隻需要回滾並切換版本。對我們來說,跟蹤模型的版本是非常重要的,MLflow和H2O MLOps,這些都是真正幫助我們進行模型部署的工具。
下一個要講的是在線評分模式。閃電般的速度同樣重要,事情需要在50毫秒內發生。在線評分非常重要,因為我們可能會在離線中預先計算一些功能,但將它們存儲在離線功能商店中,就像Redis一樣。然後,還可以啟用一些流特性,並在實際運行時實際計算它們,對嗎?對我們來說,快速提供高可擴展性是非常重要的。如果你看看線下特色商店和在線特色商店,我們在AT&T有一個叫亞特蘭蒂斯的商店。這是企業級的功能存儲,它能幫助我們在線和離線之間同步數據,並在運行時提供服務,這對我們幫助很大。
當然,現在我們正在為我們的離線功能商店使用Delta Lake。第四件非常重要的事情是關於功能管理。就像Mark提到的,我們團隊中的數據科學家,如果你不想讓他們多次重新創建功能,那麼我們需要提供一個元數據層,數據科學家可以在其中搜索一些已經存在的功能,並重用它們。或者他們可能會宣布功能。有了良好的訪問控製,並監視這些特性有助於統計。還有合規性和合法性,這些都是我們在功能治理中麵臨的非常重要的挑戰。
我要深入挖掘一下亞特蘭蒂斯。如果你看看AT&T,我們有多個數據管道。如果你從機器學習的角度考慮,我們有Databricks,我們有Snowflake,我們有內部的Pinnacle Kaggle平台,我們有H2O無人駕駛,還有Jupiter。Beplay体育安卓版本我們有不同的管道模型。數據科學家可以進入任何一條管道。它們要麼在使用數據,要麼在批處理模式或實時模式下處理數據。他們必須創造這些功能。但實際上,我們需要一個集中的特征存儲,人們可以從模型評分的角度和模型訓練的角度來消費和重用它。
這就是為什麼我們非常需要一個集中的離線功能商店。這真的有助於我們和數據科學家在不同的管道上工作,我們如何在整個企業中重用它們。我們從功能商店中得到的最大好處之一是在企業級,舊的方法是批量學習。大多數時候我們都是批量學習。你創建靜態數據的快照,然後把它們分開訓練和測試,然後對模型進行改進。如果你看這裏的圖表,你可以看到藍色的線。基本上這個模型已經被訓練過了,但是離線了。然後進行測試和評估。看看這條直線,ROC曲線。
實際上,當你在生產中進行部署時,你可以看看這條綠線。它沒有像預期的那樣運行,對吧?這就是為什麼,特別是在欺詐案件中,本質上是非常[聽不清]的,如何建立和重新訓練模型,即使是在網上。這就是為什麼在線學習或增量學習的概念開始發揮作用。這個功能商店,因為我們把所有的數據離線和在線保存在一個地方,這對我們很有幫助。這使得我們的數據科學能夠進行在線學習。這就是我們在企業級功能商店中所擁有的好處。
現在,我將討論監視器AI。對我們來說,監控欺詐領域的所有機器學習模型是非常重要的。因為騙子,他們想出了不同的方案,這真的很有挑戰性。我們必須監控數據、模型,以及基礎設施和圍繞它的流程。當我談到數據,數據漂移,這真的是一個非常重要的事情。因為有[聽不清]係統將數據推送到你的管道中。你需要知道一些重要的,非常強大的特征,也許價值[聽不清]價值,你必須知道。你需要通知你的數據科學家。我們在那裏使用mlop。
然後還介紹了模型漂移的觀點。模型的性能對我們來說非常重要。當我們看到一些漂移發生時,我們能夠將其可視化並監測模型的健康狀況,並讓數據科學家了解情況,讓人工智能工程師了解情況,以及事情發生的時間。我們真的需要監控數據,進入模型的數據,以及模型,什麼是[聽不清]。現在我們來談談基礎設施。這些模型總是部署在一些物理機器上,要麼在本地,要麼在雲端。但最後,你還得看看係統的性能。什麼是CPU,什麼是RAM,什麼是I/O使用情況?
這些模型總是被包裝成一個微服務。如果虛擬機宕機怎麼辦?如果[聽不清]連接不好怎麼辦?您需要與數據和模型以及基礎設施相關聯。那麼這個過程是真正幫助你的,你如何協調所有這些,並將它們聯係起來,並創建必要的補救或行動。你想為我們的數據科學家和人工智能工程師提供[聽不清]功能,他們可以在違規發生時關閉閾值等。然後,采取一些自動補救措施。可能會給我們的數據科學家一個重新訓練模型的指示,特別是在在線訓練部分。有時您想要執行A/B測試或冠軍/挑戰者模式,甚至您想要回滾模型。
所有這些都是過程觀點的重要組成部分。行動的工作流程真的很有幫助。我們所做的就是讓人工智能監控人工智能。如果我稍微深入一下守望塔,那是我們內置的內部平台。Beplay体育安卓版本就像我在前一張幻燈片中所說的,我們監控數據,建模基礎設施。這是一個端到端的平台實際上是在幫助我們以實時的方式來Beplay体育安卓版本做這件事。您可以看到發生的漂移,Mark提到了1000萬個事務被記錄。你永遠不會知道,模型漂移是實時發生的,這是一個特別的特性,它也會真正破壞模型。有多重要才是真正重要的。
如果你看它在右邊,我們收集所有的儀器,從模型的日誌,數據,什麼特征將進入模型,以及評分是如何發生在係統中。我們在日誌中收集所有這些[聽不清],然後我們在適當的地方設置監控。然後通過這個,我們的機器學習框架,我們做出決定。決策會告訴我們采取行動,有些行動是自動的。我們要麼重新訓練模型,要麼重新啟動服務器。這要看是什麼樣的問題。在反饋的基礎上,模型上的智能不斷學習,不斷學習所有[聽不清]和監測能力。
隨著時間的推移,它變得越來越尖銳。實時方式和實時交易發生在毫秒內,這真的幫助我們在[聽不清]采取行動。最後要講的是治理人工智能。這一切都是關於理解偏見、公平和透明。如果你看看AT&T,我們有一個工作流程。在用例或機器學習模型中,我們有一個框架,我們隻是讓它學習過去所做的事情。然後我們從法律的角度,從隱私的角度,從程序的角度來記錄它。在評估模型的時候,我們知道偏差是什麼。
如果我們檢測到某種偏差,我們能減輕它嗎?如果你大部分時間都在緩和它,如果你消除模型的偏差,它在事後的表現會有偏差,這也很重要。我們還使用一些供應商工具,開源工具來理解模型的可解釋性,以及數據漂移。因為在一天結束的時候,我們的業務用戶需要做出決定,即使無偏見的模型是否做得很好。什麼樣的特征對模型預測很重要。所有這些地方,所有這些我談到的要點,都在一個框架中,這就是我們在人工智能領域的做法。我們創造人工智能,部署和服務人工智能,監控人工智能,管理人工智能。回到你身邊,馬克。
馬克·奧斯汀:謝謝,王子。我認為你對部署、服務和監控的觀點很好,為什麼這也很重要。當然,在整個演講中,你們不僅看到了我們的曆程,也看到了它對欺詐的重要性,你們看到了1000萬筆交易在實時進行,而且速度很快。我們喜歡Databricks帶來的技術,我們喜歡Delta Lake,我們喜歡MLflow。所有這些在這裏都非常重要。我們喜歡這些進步。你們已經看到了我們對內部的東西所做的一些事情,把它封閉起來。但我們很想聽聽其他人對此的想法,我希望這對你有用。謝謝你!