OpenAI發表新的嵌入模型，效能更好且比Davinci更便宜

OpenAI發表新的嵌入模型text-embedding-ada-002，該模型功能更強大成本更低，且使用起來也比較簡單，可取代了文字搜尋、文字相似性和程式碼搜尋等5個獨立模型，比起之前最強大的模型Davinci，價格更是便宜了99.8％。

官方解釋，嵌入是指將概念的數字表示轉換成數字序列，這使電腦能夠簡單理解概念之間的關係。從OpenAI的嵌入端點推出以來，許多應用程式都運用嵌入來進行個人化、推薦和搜尋內容。

新模型text-embedding-ada-002效能更強大，無論是在文字搜尋、程式碼搜尋還是語句相似性任務上，表現都優於舊的嵌入模型Davinci。

Text-embedding-ada-002在能力表現上也更一致，過去要分散5個獨立模型各別處理文字搜尋、文字相似性和程式碼等任務，現在統一合併使用text-embedding-ada-002就能夠完成，官方提到，text-embedding-ada-002的單一表示，在不同的文字搜尋、語句相似性和程式碼搜尋基準測試，都比過去的嵌入模型表現還要好。

另外，text-embedding-ada-002也能夠處理更長的上下文，是舊模型長度的4倍，從2048增加到8192，用戶能夠更簡單地處理長文件。text-embedding-ada-002還擁有較小的嵌入大小，新嵌入只有1536維，是davinci-001嵌入的八分之一，較小的嵌入使向量資料庫更具成本效益。

與相同大小的舊模型相比，text-embedding-ada-002價格降低了90％，只要0.2％的舊模型價格，就可以獲得和Davinci更好或是類似的效能。

整體來說，新模型是更強大的自然語言處理和程式碼任務工具，但仍存在一些限制，像是在SentEval線性探測分類基準的表現不如text-similarity-davinci-001，對於需要在嵌入向量上訓練輕量級線性層，以進行分類預測的任務，OpenAI建議用戶可以先比較新舊模型的表現，以選出最符合需求的模型。

熱門新聞