OpenAI發表新的嵌入模型text-embedding-ada-002,該模型功能更強大成本更低,且使用起來也比較簡單,可取代了文字搜尋、文字相似性和程式碼搜尋等5個獨立模型,比起之前最強大的模型Davinci,價格更是便宜了99.8%。

官方解釋,嵌入是指將概念的數字表示轉換成數字序列,這使電腦能夠簡單理解概念之間的關係。從OpenAI的嵌入端點推出以來,許多應用程式都運用嵌入來進行個人化、推薦和搜尋內容。

新模型text-embedding-ada-002效能更強大,無論是在文字搜尋、程式碼搜尋還是語句相似性任務上,表現都優於舊的嵌入模型Davinci。

Text-embedding-ada-002在能力表現上也更一致,過去要分散5個獨立模型各別處理文字搜尋、文字相似性和程式碼等任務,現在統一合併使用text-embedding-ada-002就能夠完成,官方提到,text-embedding-ada-002的單一表示,在不同的文字搜尋、語句相似性和程式碼搜尋基準測試,都比過去的嵌入模型表現還要好。

另外,text-embedding-ada-002也能夠處理更長的上下文,是舊模型長度的4倍,從2048增加到8192,用戶能夠更簡單地處理長文件。text-embedding-ada-002還擁有較小的嵌入大小,新嵌入只有1536維,是davinci-001嵌入的八分之一,較小的嵌入使向量資料庫更具成本效益。

與相同大小的舊模型相比,text-embedding-ada-002價格降低了90%,只要0.2%的舊模型價格,就可以獲得和Davinci更好或是類似的效能。

整體來說,新模型是更強大的自然語言處理和程式碼任務工具,但仍存在一些限制,像是在SentEval線性探測分類基準的表現不如text-similarity-davinci-001,對於需要在嵌入向量上訓練輕量級線性層,以進行分類預測的任務,OpenAI建議用戶可以先比較新舊模型的表現,以選出最符合需求的模型。

熱門新聞

Advertisement