聯發科一口氣開源2款繁中多模態小模型、符合臺灣口音的語音合成模型

圖片來源:

聯發創新基地

聯發創新基地（MediaTek Research）最近開源2款繁中多模態基礎模型，分別是能在手機上執行的羽量級Llama-Breeze2-3B版本，以及能在個人電腦上執行的輕量級Llama-Breeze2-8B版本。這系列模型不只具備繁中能力，還有多模態和函式呼叫功能，能看懂圖像、調用外部工具。

他們還以Llama-Breeze2-3B為基礎，打造一款Android App並開源，要來強化手機AI助理的能力，比如讀取圖片、調用外部工具。同時，聯發科也一併釋出可以合成臺灣口音的語音合成模型BreezyVoice。以上3款模型和App的開源內容包括模型權重和部分執行用程式。

以Llama 3.2大模型為基礎，優化出繁中多模態語言模型Llama-Breeze2

進一步來說，Llama-Breeze2是基以Llama 3.2大型語言模型為基礎，再以繁中資料來優化模型繁體中文理解力，並整合視覺語言模型、函式呼叫（Function Calling）功能，讓Llama-Breeze2具備繁中優化、能看圖、可調用外部工具等3大特色。

就繁中能力來說，聯發科列出對比，相較於同參數量的Llama 3.2 3B Instruct模型，Llama-Breeze2-3B撰寫的臺灣夜市小短文，能準確列出著名夜市，如士林夜市、饒河街夜市和羅東夜市，而Llama 3.2 3B Instruct只正確說出士林夜市，但生成了兩個不存在的夜市（電信夜市和世貿夜市）。

就多模態能力來說，Llama-Breeze2-3B除了理解文字，還能分析圖像，如圖表、光學文字辨識（OCR）或景點照片，模型都能理解和回答。舉例來說：

USER：請問前三名總共可獲得多少錢？

Llama-Breeze2-8B：根據圖片，第一名的獎金為30萬元整，第二名為20萬元整，第三名為15萬元整。將這些數字相加，我們得到前三名獎金總和為65萬元整。

不只如此，Llama-Breeze2因為具備呼叫函式功能，因此可以調用外部工具，來完成特定任務。比如，使用者詢問天氣情況時，模型可以調用天氣應用程式API來獲取最新資訊，再回覆給使用者。

以Llama-Breeze2-3B模型驅動的Android App

除了開源2款多模態語言模型，聯發創新基地還開源可直接部署到手機、以Llama-Breeze2-3B為基礎的Android App。這個App可作為AI助理，來協助即時翻譯、景點推薦等任務（如下圖），甚至還能生成語音，使用者只要輸入文字，模型就能生成自然的語音回應，可用於智慧導航等情境。

只需5秒，就能生成臺灣口音的語音合成模型BreezyVoice

這次，聯發創新基地還開源了語音合成模型BreezyVoice，特別以繁中加強訓練而成。這個模型採輕量架構，只需輸入5秒的範例音訊，就能即時產出擬真的語音，可作為AI助理語音輸出。聯發科表示，BreezyVoice現已能在筆電上使用，也能結合任何LLM或語音轉文字架構，來發展更多應用。

熱門新聞