跳轉到主要內容
行業的頭

加強與大型產品搜索語言模型(llm)

分享這篇文章

ChatGPT的文本生成功能,多莉等是真正令人印象深刻的,理所當然地認為是人工智能領域的主要步驟。但隨著興奮在未來預示這些模型穩定,許多組織已經開始問,今天我們如何利用這些技術?

與大多數新技術,全方位的應用程序對這些大型語言模型(llm)目前尚不清楚,但是我們可以確定幾個地方可以用來增強和提高我們今天做的事情——我們共享以前的博客。個人的任務是總結的地方大量的文字內容是為了提供有見地的意見及指導自然健康。

beplay体育app下载地址客戶需要幫助搜索產品目錄

一個領域我們看到立即需要能夠幫助推動增長對零售商和消費品公司(而不僅僅是削減成本)領域的搜索。在線活動的快速增長在過去的幾年裏,越來越多的消費者在網上參與更廣泛的需求。beplay体育app下载地址作為回應,許多組織已經迅速擴大的範圍內容和網上商品他們更好地確保客戶獲得他們想要的東西。beplay体育app下载地址

而更多的往往是更好,許多在線網站達到臨界點的數量產品實際上使它更難客戶找到他們正在尋找什麼。beplay体育app下载地址沒有精確的術語來定位一個特定部件或一篇文章在一個狹隘的主題,消費者發現自己沮喪的滾動列表項不完全正確。

利用llm,我們可以用研讀產品描述任務模型,編寫的內容或相關的記錄與錄音並響應用戶搜索建議的事情相關的提示。用戶不需要精確的術語來找到他們正在尋找什麼,隻是一個一般的描述LLM可以東方本身他們的需求。最終的結果是一個強大的新體驗,讓用戶感覺好像他們已經收到個性化,專家指導,因為他們參與。

微調確保定製的搜索結果

建立這樣一個解決方案,組織不需要訂閱第三方服務。像大多數機器學習模型可用的今天,大多數llm都建立在開源技術和廣泛的使用許可。許多這些pre-trained在大量數據來自他們已經學到了很多我們想要支持的語言模式。但是這些知識可能繼承使用限製,阻止一些用例。

Pre-trained llm可以大大減少相關的內容要求和培訓時間將一個網絡模型。磚的證明多莉2.0模型,即使在一個相對體積小的內容,這些模型可以執行內容摘要和一代的任務令人印象深刻的智慧。和有效地搜索一個特定的文檔,該模型甚至不需要專門訓練。

但與微調,我們可以調整的方向模型的具體內容,其目的是要訂婚了。通過pre-trained模型並進行額外的輪培訓產品描述,產品評論,寫文章、成績單、等構成一個特定的網站的能力模型對用戶提示的方式更符合內容的改進,使其成為有價值的一步對許多組織執行。

開始啟用LLM-based搜索

那麼,如何做呢?答案是驚人的簡單。開始:

  1. 下載一個pre-trained,開源LLM模型
  2. 使用模型變換產品文本嵌入
  3. 配置模型來使用這些嵌入的知識集中搜索
  4. 部署模型作為microservice可以集成各種應用程序

這些步驟將提供你一個基本的,開箱即用的意外強勁的搜索功能。調整搜索:

  1. 收集一組搜索和產品的結果
  2. 標簽結果的相關性
  3. 這些結果符合模型,
  4. 重複步驟2 - 4

這些步驟看起來那麼簡單,有一些值得探索的新術語和概念。

理解一些關鍵概念

首先,在哪裏找到pre-trained,開源LLM ?多莉2.0,前麵所提到的,就是這樣的一個模型,它可以免費下載和廣泛使用的每對其提供的許可條款下載網站擁抱的臉發現是另一個受歡迎的地方嗎(大型和其他)的語言模型理想的AI-community指的什麼語義搜索。與更多的搜索工作,你可以找到許多其他llm可供下載,但花一些時間來回顧與每一個相關的許可條款理解為商業重用他們的可用性。

接下來,什麼是嵌入?這個問題的答案可以很技術但是簡而言之的嵌入是一個數值表示句子,段落或文檔。如何埋葬這些生成的力學模型中的理解但關鍵的事情是,當一個模型將兩個文檔轉換為嵌入的,數學(差異)之間的距離數值告訴我們一些關於它們之間的相似度。

嵌入的耦合與模型怎麼樣?這一部分是一個有點複雜但像開源工具langchain提供的構建塊。關鍵的理解是,嵌入的形式產品目錄的細節我們不希望搜索搜索在傳統的關係數據庫甚至NoSQL數據存儲。需要使用專門的向量存儲。

接下來,什麼是microservice ?microservice是一個輕量級應用程序接收請求,比如搜索短語,並返回一個響應。包裝中的模型和嵌入它將搜索microservice不僅提供了一個簡單的方法讓它所提供的搜索功能廣泛訪問應用程序,大多數microservice基礎設施解決方案支持彈性可伸縮性,這樣您就可以分配資源服務跟上需求的起伏。這是必不可少的管理正常運行時間,同時控製成本。

最後,一個品牌的搜索結果如何?雖然很多東西變得非常技術解決前麵的問題,這是令人驚訝的簡單。所有你需要的是一個查詢,返回的結果集。(大多數搜索引擎用在電子商務站點提供這個功能。)這個數據集不需要超級大,它是有效的搜索結果提供越多越好。

人類必須分配一個數值得分每個搜索結果表明其相關性的搜索短語。雖然這可以複雜,你可能會找到很好的結果通過簡單地分配相關搜索結果值為1.0,不相關的搜索結果值為0.0,和部分相關的結果值介於兩者之間。

想看到這是如何工作的?

在磚,我們的目標一直是讓數據和人工智能技術的廣泛訪問各種各樣的組織。有鑒於此,我們開發了一個在線搜索解決方案加速器使用Wayfair注釋數據集(棒)。這個數據集提供描述性文本Wayfair網站和233 k 42000 +產品標簽來自480個搜索結果。

使用一個開源模型從擁抱的臉,我們第一次組建一個現成的搜索沒有微調,能夠帶來令人驚奇的好結果。我們然後微調模型使用標記搜索結果,搜索性能大大提高。這些模型然後打包部署與磚microservice托管服務模式。

這項工作的所有細節提出了4個筆記本的資產這裏免費下載。筆記本與描述性注釋內容,旨在闡明所執行的步驟和替代路徑組織可能需要更好地滿足他們的特定需求。我們鼓勵您第一次運行這些筆記本按原樣使用公開數據,然後借你需要你自己的任何代碼搜索功能。

下載的筆記本

免費試著磚

相關的帖子

看到所有行業的帖子
Baidu
map