更好地與更好的數據利用llm Cleanlab工作室

通過西班牙Athalye

2023年6月1日在行業

分享這篇文章

這篇文章和相應的筆記本和教程視頻演示如何使用Cleanlab工作室提高大型語言模型的性能(llm,也稱為基礎模型)通過改善他們調整數據,一個方法調用以數據為中心的人工智能(DCAI)。作為一個案例研究中,我們探索的一個最流行的用例llm -微調文本分類模型在斯坦福禮貌分類數據集。

在這篇文章中,我們將看到如何Cleanlab工作室係統提高了訓練數據LLM性能提高37%不花任何時間或資源更改模型架構、hyperparameters或訓練過程。

為什麼壞數據問題?

在企業數據權力AI /毫升,但現實世界的數據集被發現7 - 50%之間包含注釋錯誤。糟糕的數據作為一個整體萬億美元的問題。不出所料,錯誤數據,從imperfectly-labeled數據異常值,妨礙了ML模型的訓練(評價)等任務意圖識別,實體識別,和序列一代,效果會更加嚴重。llm也不例外:盡管pre-trained llm配有大量的世界知識,他們的表現被嘈雜的訓練數據,造成不利影響OpenAI所指出的。

這篇文章演示了微調llm壞數據的影響,探討如何使用Cleanlab工作室提高訓練數據可以減輕壞數據的負麵影響(如錯誤標簽)不需要機器學習專業知識,編寫任何代碼,或花任何時間或資源改變模型架構,hyperparameters或培訓過程。

因為Cleanlab工作室與數據(無論使用哪種模式),它仍然適用於llm尚未發明,像GPT-10。

為什麼微調llm ?

llm最近變得無處不在的強大的生成和歧視的能力,但他們可以努力產生可靠的輸出為一個特定的業務用例。通常,培訓領域特定的標記數據(稱為微調LLM)是必需的。

在這篇文章中,我們調整LLM的使用提供的api OpenAI。您還可以調整開源llm的樣子多莉或MPT-7B直接在磚。大多數數據注釋過程不可避免的引入標簽錯誤在特定領域的訓練數據,可以微調產生負麵影響和評價llm的準確性,不管你是使用api或開源llm。

為什麼Cleanlab工作室?

這是一個引用OpenAI在他們的策略培訓先進的人工智能係統:

“我們優先過濾掉所有的壞數據在離開所有的好的數據…我們總是可以調整我們的模型與更多的數據後,但它是更難使模型忘記它已經學到的東西。”

一些組織如OpenAI手動處理問題在他們的數據產生健壯和可靠的ML模型,但是這對許多組織可以非常昂貴!Cleanlab工作室采用先進算法的麻省理工學院有信心學習係統地提高你的數據集用更少的努力通過自動發現和修複問題在大多數類型的真實數據(圖像、文本、表格、音頻等等)。Cleanlab工作室包括一個磚連接器輕鬆地提高數據的質量你存儲在數據磚。

除了提高LLM性能,Cleanlab工作室是一個端到端的平台(1)將不可靠的Beplay体育安卓版本數據轉化為可靠的商業智能和分析團隊和見解(2)MLOps培訓可靠的人工智能解決方案可能不可靠的數據和技術團隊。這個平台Beplay体育安卓版本是免費的嚐試:https://cleanlab.ai/。

案例研究:使用Cleanlab Studio LLM精度提高了37%

在我們的案例研究中,我們考慮的一種變體斯坦福禮貌數據集該文本短語標記為三個類別之一:不禮貌的,中性,或有禮貌的。人類標記的注釋,有些天生低質量的標簽。

這篇文章和相應的筆記本和教程視頻走過如何:

調整一個最先進的LLM使用OpenAI對原始數據作為基準的api
評估的LLM培訓原始(低質量)數據:它達到65%的測試精度
提高數據質量的使用有信心學習和DCAI沒有編寫任何代碼或有任何毫升專業知識通過使用Cleanlab工作室產生一種改進的數據集
調整LLM改進的數據集
評估改善LLM:微調改進的數據集可以減少測試誤差37%

禮貌的數據集

訓練數據集(下載)有1916個例子每個標簽由一個人類注釋器;等一個標簽的過程是不可靠的,自然,人類犯錯誤。測試數據集(下載5)有480個例子每個標記的注釋;我們使用標簽作為一個高質量的近似的共識真禮貌(測量測試精度對這些共識標簽)。確保公平的比較,這個測試數據集仍然固定在我們的實驗(所有標簽清潔/數據修改隻有在訓練集)。

基線LLM: 65%的準確率(沒有Cleanlab工作室)

伴隨筆記本走過如何下載數據集DBFS,用火花預處理數據,準備文件,準備上傳OpenAI API,並調用OpenAI API來調整模型。達芬奇家具模型,最強大的三個模型的評估,達到65%的測試集精度調整在最初的訓練數據集(低質量)。

提高數據使用Cleanlab Studio

使用磚連接器為Cleanlab工作室上傳數據集僅使用1行代碼,我們可以發現錯誤在我們的數據複雜的以數據為中心的人工智能算法。

> cleanlab_studio.upload_dataset (politeness_train)

Cleanlab工作室不僅幫助你自動在您的數據找到問題,而且解決數據使用human-in-the-loop方法,工具顯示您的數據的標記是錯誤並提出建議如何處理(例如,改變一個標簽或標記數據點作為局外人和刪除的數據集)。

在我們的案例研究中,我們使用這種human-in-the-loop方法有效地找到並修複錯誤的訓練集的數據點。之後,隻有1行代碼,我們可以改進的數據集返回導入數據磚:

> politeness_train_fixed = cleanlab_studio.apply_corrections (idpoliteness_train)

改進的數據的影響:78%的準確率(Cleanlab工作室)

我們重複相同的評價,微調改進數據集上的LLM獲得Cleanlab工作室和計算測試精度(在同一測試集),我們看到一個戲劇性的改善跨模型類型:

達芬奇家具模型,例如,性能測試精度從65%提高到78%測試精度,減少錯誤率為37%,僅僅通過改善訓練數據的質量!

導讀:使用Cleanlab Studio將不可靠的數據轉化為更可靠的見解和模型

錯誤異常值和標簽問題在真實數據集,這些錯誤可以產生戲劇性的影響毫升模型的可靠性和健壯性訓練在這個數據的見解和分析。Cleanlab工作室是一個解決方案來處理錯誤或嘈雜的數據通過人工智能自動化技術來幫助避免繁瑣的手動工作,數據科學家經常恐懼。Cleanlab工作室幫助你有效地找到並修複任何毫升模型數據和標簽問題(不隻是llm)和大多數類型的數據(不僅僅是文本,而且圖像、音頻、表格數據,等等),而不需要編寫代碼或有任何毫升專長。在案例研究在這篇文章中,我們看到Cleanlab工作室提高LLM的性能調整為一個分類任務37%不花任何時間或資源來改變模型架構,hyperparameters或培訓過程。

因為Cleanlab工作室提高通過改善底層數據模型和見解,它適用於任何模型或LLM今天存在或可能存在的未來,隻會變得更善於識別問題更準確的模型發布!

下載的筆記本

免費試著磚

開始