Mistral發表文件OCR API 支援PDF、圖片、影音也看得懂數學

圖片來源:

Mistral AI

法國AI新創公司Mistral AI本周發表光學字元辨識（OCR）API，名為Mistral OCR，以加速文件數位化作業，並號稱效能超越Gemini 1.5、GPT-4o。

Mistral AI指出，Mistral OCR不同其他模型，能以超越以往的精確性和認知能力來理解文件的每一種元素，包括影音、圖片、表格、文字、數學方程式或進階版型如LaTex格式。因此即使是包含圖表、方程式和數字、圖形的科學論文這類豐富文件，Mistral OCR也能深切理解。

在輸入端，Mistral API可支援文字、圖片、PDF，以及圖文交錯的文件，並從中擷取出內容。因此Mistral OCR很適合結合檢索增強生成（retrieval-augmented generation，RAG）系統來處理多模態文件（像是簡報或複雜的PDF）。它還支援文件為提示（document as prompt）的處理，讓用戶可以從文件擷取出特定資訊，再套用格式加入到結構化輸出中，例如JSON。用戶可將擷取出的輸出灌注到下游函式呼叫，開發代理人。

Mistral AI也比較了新的Mistral OCR與Google Document AI、Azure OCR、Gemini 1.5、GPT-4o，顯示不論是在理解數學、多語、表格及掃瞄內容上都優於競爭對手。此外，Mistral OCR號稱速度業界最快，單一節點每分鐘可處理2,000頁。

可能的應用場景包括科學研究數位化、歷史文化保存、提升客服效率、以及將紙本文件預處理以供AI處理等。

Mistral OCR已是Mistral聊天機器人Le Chat理解文件任務的預設模型，現在則透過API mistral-ocr-latest開放，代價為1美元1,000頁，如果是批次推論任務，則1元可處理近2,000頁。

現在Mistral API可在la Plateforme上向開發人員開放。Mistral AI計畫很快會將之推向Mistral AI的雲端或第三方推論服務夥伴平臺，以及允許部分客戶在本地部署環境上執行。圖片來源／Mistral AI

熱門新聞