
Mistral AI
法國AI新創公司Mistral AI本周發表光學字元辨識(OCR)API,名為Mistral OCR,以加速文件數位化作業,並號稱效能超越Gemini 1.5、GPT-4o。
Mistral AI指出,Mistral OCR不同其他模型,能以超越以往的精確性和認知能力來理解文件的每一種元素,包括影音、圖片、表格、文字、數學方程式或進階版型如LaTex格式。因此即使是包含圖表、方程式和數字、圖形的科學論文這類豐富文件,Mistral OCR也能深切理解。
在輸入端,Mistral API可支援文字、圖片、PDF,以及圖文交錯的文件,並從中擷取出內容。因此Mistral OCR很適合結合檢索增強生成(retrieval-augmented generation,RAG)系統來處理多模態文件(像是簡報或複雜的PDF)。它還支援文件為提示(document as prompt)的處理,讓用戶可以從文件擷取出特定資訊,再套用格式加入到結構化輸出中,例如JSON。用戶可將擷取出的輸出灌注到下游函式呼叫,開發代理人。
Mistral AI也比較了新的Mistral OCR與Google Document AI、Azure OCR、Gemini 1.5、GPT-4o,顯示不論是在理解數學、多語、表格及掃瞄內容上都優於競爭對手。此外,Mistral OCR號稱速度業界最快,單一節點每分鐘可處理2,000頁。
可能的應用場景包括科學研究數位化、歷史文化保存、提升客服效率、以及將紙本文件預處理以供AI處理等。
Mistral OCR已是Mistral聊天機器人Le Chat理解文件任務的預設模型,現在則透過API mistral-ocr-latest開放,代價為1美元1,000頁,如果是批次推論任務,則1元可處理近2,000頁。
現在Mistral API可在la Plateforme上向開發人員開放。Mistral AI計畫很快會將之推向Mistral AI的雲端或第三方推論服務夥伴平臺,以及允許部分客戶在本地部署環境上執行。圖片來源/Mistral AI
熱門新聞
2025-03-10
2025-03-10
2025-03-10
2025-03-10
2025-03-10