德國人工智慧新創Jina AI開源了該公司的第二代文字嵌入模型jina-embeddings-v2,新模型現在可以處理多達8,192個token上下文長度。以大規模文字嵌入基準(Massive Text Embedding Benchmark)評估jina-embeddings-v2的能力,整體來說已非常接近同等級模型OpenAI text-embedding-ada-002的表現。

jina-embeddings-v2是完全由Jina AI開發團隊研發、收集資料集和調校的新模型,能力較前一版本大幅提升,其最重要的進步,便是能夠處理8,192個token上下文長度。可以處理更長的上下文,也就代表模型可以應用的領域更為廣泛,像是可以分析法律文件,更細緻地捕捉法律文件中的細節,或是從財務報表中解析關鍵資訊,進行財務預測,也能夠用於開發對話機器,以應對複雜的用戶查詢。

在大規模文字嵌入基準的排名中,開源的jina-embeddings-v2排名第17,與商用的OpenAI text-embedding-ada-002的15名相去不遠,而且在分類、重新排序、檢索和摘要生成等自然語言處理任務,jina-embeddings-v2的表現已經超越text-embedding-ada-002。

目前用戶可以從Huggingface免費下載jina-embeddings-v2模型,官方釋出兩個模型版本,第一個是針對學術研究或是商業分析等高準確性需求任務設計,大小為0.27 GB的基礎模型,另一個則是適用於輕量級應用程式,能夠整合行動應用程式或是供運算資源有限的裝置使用的小型模型,容量只有0.07 GB。

Jina AI持續擴展jina-embeddings-v2模型,正著手開發API平臺,供用戶能夠根據需求簡單擴展使用規模,同時Jina AI也將擴增jina-embeddings-v2的能力,支援更多的語言。

熱門新聞

Advertisement