圖片來源: 

聯發創新基地

聯發創新基地(MediaTek Research)最近開源2款繁中多模態基礎模型,分別是能在手機上執行的羽量級Llama-Breeze2-3B版本,以及能在個人電腦上執行的輕量級Llama-Breeze2-8B版本。這系列模型不只具備繁中能力,還有多模態和函式呼叫功能,能看懂圖像、調用外部工具。

他們還以Llama-Breeze2-3B為基礎,打造一款Android App並開源,要來強化手機AI助理的能力,比如讀取圖片、調用外部工具。同時,聯發科也一併釋出可以合成臺灣口音的語音合成模型BreezyVoice。以上3款模型和App的開源內容包括模型權重和部分執行用程式。

以Llama 3.2大模型為基礎,優化出繁中多模態語言模型Llama-Breeze2

進一步來說,Llama-Breeze2是基以Llama 3.2大型語言模型為基礎,再以繁中資料來優化模型繁體中文理解力,並整合視覺語言模型、函式呼叫(Function Calling)功能,讓Llama-Breeze2具備繁中優化、能看圖、可調用外部工具等3大特色。

繁中能力來說,聯發科列出對比,相較於同參數量的Llama 3.2 3B Instruct模型,Llama-Breeze2-3B撰寫的臺灣夜市小短文,能準確列出著名夜市,如士林夜市、饒河街夜市和羅東夜市,而Llama 3.2 3B Instruct只正確說出士林夜市,但生成了兩個不存在的夜市(電信夜市和世貿夜市)。

多模態能力來說,Llama-Breeze2-3B除了理解文字,還能分析圖像,如圖表、光學文字辨識(OCR)或景點照片,模型都能理解和回答。舉例來說:

USER請問前三名總共可獲得多少錢?

Llama-Breeze2-8B根據圖片,第一名的獎金為30萬元整,第二名為20萬元整,第三名為15萬元整。將這些數字相加,我們得到前三名獎金總和為65萬元整。

不只如此,Llama-Breeze2因為具備呼叫函式功能,因此可以調用外部工具,來完成特定任務。比如,使用者詢問天氣情況時,模型可以調用天氣應用程式API來獲取最新資訊,再回覆給使用者。

以Llama-Breeze2-3B模型驅動的Android App

除了開源2款多模態語言模型,聯發創新基地還開源可直接部署到手機、以Llama-Breeze2-3B為基礎的Android App。這個App可作為AI助理,來協助即時翻譯、景點推薦等任務(如下圖),甚至還能生成語音,使用者只要輸入文字,模型就能生成自然的語音回應,可用於智慧導航等情境。

只需5秒,就能生成臺灣口音的語音合成模型BreezyVoice

這次,聯發創新基地還開源了語音合成模型BreezyVoice,特別以繁中加強訓練而成。這個模型採輕量架構,只需輸入5秒的範例音訊,就能即時產出擬真的語音,可作為AI助理語音輸出。聯發科表示,BreezyVoice現已能在筆電上使用,也能結合任何LLM或語音轉文字架構,來發展更多應用。

熱門新聞

Advertisement