解決方案加速器:遊戲中的毒性檢測

2021年6月16日在工程的博客

分享這篇文章

請查看解決方案加速器下載本博客中提到的筆記。

在大型多人在線視頻遊戲(mmo)、多人在線競技遊戲(moba)和其他形式的在線遊戲中，玩家不斷進行實時互動，協調或競爭，因為他們朝著一個共同的目標前進——獲勝。這種互動性是遊戲玩法動態的組成部分，但與此同時，它也是有害行為的主要開端——這是在線視頻遊戲領域普遍存在的問題。

有毒行為以多種形式表現出來，例如不同程度的悲傷、網絡欺淩和性騷擾，如下麵的矩陣所示行為互動，其中列出了多人遊戲中的互動類型，死於白晝．

除了個人付出的代價這種有害行為會對玩家和社區產生負麵影響(遊戲邦注:這是一個不容忽視的問題)，同時也會損害許多遊戲工作室的底線。例如，一項研究密歇根州立大學據透露，80%的玩家最近經曆了毒性，其中20%的人表示因為這些互動而離開了遊戲。同樣，一項來自蒂爾堡大學在遊戲的第一個回合中遭遇破壞性或有害的遭遇會導致玩家離開遊戲而不回來的可能性增加三倍以上。考慮到玩家留存是許多工作室的首要任務，特別是當遊戲從實體媒體發行過渡到長期服務時，顯然必須遏製這種毒性。

一些公司在開發早期，甚至在發布之前就麵臨著與毒性相關的挑戰。例如,亞馬遜的坩堝發布測試時沒有文字或語音聊天，部分原因是沒有適當的係統來監控或管理有毒的玩家和互動。這表明，遊戲領域的規模已經遠遠超過了大多數團隊通過報告或幹預破壞性交互來管理此類行為的能力。鑒於此，工作室有必要在開發生命周期的早期將分析整合到遊戲中，然後為持續管理有害互動進行設計。

遊戲中的毒性顯然是一個多方麵的問題，它已經成為電子遊戲文化的一部分，無法以一種單一的方式普遍解決。也就是說，考慮到有毒行為的頻率和使用自然語言處理(NLP)自動檢測的能力，解決遊戲聊天中的毒性問題可能會產生巨大的影響。

我從Databricks介紹了遊戲解決方案加速器中的毒性檢測

使用有毒評論數據從豎鋸和Dota 2比賽數據，這個解決方案加速器通過使用NLP和現有的實時檢測有毒評論所需的步驟lakehouse．對於NLP，這個解決方案加速器使用火花NLP來自John Snow Labs，這是一個基於Apache Spark™的開源企業級解決方案。

在這個解決方案加速器中，您將采取的步驟是:

使用Delta Lake將Jigsaw和Dota 2數據加載到表中
使用多標簽分類對有毒評論進行分類(火花NLP)
使用MLflow跟蹤實驗並注冊模型
對批處理和流數據應用推理
檢查毒性對比賽數據的影響

在製作過程中檢測遊戲內聊天的毒性

有了這個解決方案加速器，你現在可以更容易地將毒性檢測集成到你自己的遊戲中。例如，下麵的參考架構展示了如何從各種來源(如流、文件、語音或運營數據庫)獲取聊天和遊戲數據，並利用Databricks將數據攝取、存儲和管理到機器學習(ML)管道的特征表中，用於分析的遊戲內ML, BI表，甚至與用於社區審核的工具直接交互。

擁有一個實時的、可伸縮的體係結構來檢測社區中的毒性，可以簡化社區關係經理的工作流程，並能夠將數百萬個交互過濾為可管理的工作負載。類似地，實時警告嚴重有毒事件的可能性，甚至是自動響應(遊戲邦注:如讓玩家靜音或迅速向CRM發出事件警報)都可以直接影響玩家留存率。同樣，擁有一個能夠處理來自不同來源的大Beplay体育安卓版本型數據集的平台，可以用來通過報告和儀表板監控品牌認知。

開始

這個解決方案加速器的目標是通過實時檢測遊戲聊天中的有毒評論來幫助支持在線遊戲中有毒互動的持續管理。從今天開始，直接將這個解決方案加速器導入到Databricks工作空間。

一旦導入，您將有兩個管道準備轉移到生產的筆記本。

ML管道使用多標簽分類，並在穀歌Jigsaw的真實世界英語數據集上進行訓練。該模型將對文本中的毒性形式進行分類和標記。
利用毒性模型的實時流推斷管道。可以很容易地修改管道源，以從所有公共數據源中攝取聊天數據。

使用這兩個管道，您可以以最小的努力開始理解和分析毒性。這個解決方案加速器還為構建、定製和改進使用遊戲機製和社區相關數據的模型提供了基礎。

請查看解決方案加速器下載本博客中提到的筆記。

免費試用Databricks

開始

看到所有工程的博客的帖子