Google讓瀏覽器、Android手機、iPhone都可執行大型語言模型

Google發布MediaPipe LLM Inference API，讓開發者可以完全在裝置上執行大型語言模型，支援文字生成、自然語言資訊檢索，以及總結文件等任務。該API支援包括Falcon 1B、Gemma 2B、Phi-2與StableLM-3B等模型，目前僅接受文字輸入與輸出。

這項新功能的重要性在於讓大型語言模型能夠在裝置上運作，而且達到跨平臺相容。Google提到，因為大型語言模型的記憶體和運算需求是傳統裝置上模型的100多倍，因此這可說是一項變革性的新功能。而之所以大型語言模型可以開始在裝置上運作，牽涉到新的操作、量化、快取和權重共享等技術堆疊的進展。

開發者現在可以使用網頁、Android或iOS SDK，經過幾個步驟，就能夠在應用程式中使用實驗性MediaPipe LLM Inference API。首先選擇支援的模型架構與權重，接著使用MediaPipe Python套件將模型權重轉換成TensorFlow Lite Flatbuffer格式，並在應用程式中匯入LLM Inference SDK，將TensorFlow Lite Flatbuffer與應用程式一起託管，開發者就可以開始編寫程式，透過LLM Inference API傳入文字提示詞，並獲得模型的回應。

目前LLM Inference API只能使用較為輕量的大型語言模型，在初始版本中，Google支援Falcon 1B、 Gemma 2B、Phi 2與Stable LM 3B四種模型架構，而這些模型架構相容的模型權重選擇，無論是基本模型權重、社群微調版本或是開發者自己微調的權重都可以使用。

為了讓大型語言模型可以在行動裝置上運作，Google對MediaPipe、TensorFlow Lite、XNNPack進行大量的最佳化，官方提到，這些最佳化功能主要落在CPU與GPU上。而在特定的高階手機中，Android AICore還可運用專門的硬體神經網路加速器，來加速大型語言模型的運算。

Google主要使用預填速度（Prefill Speed）和解碼速度（Decode Speed），來衡量裝置上大型語言模型的運作效能。預填速度（圖一）是指大型語言模型處理提示詞的速度，而解碼速度（圖二）則是大型語言模型產生回應的速度。

（圖一）

（圖二）

四種模型在WebGPU和Android GPU上都能順暢運作，不過Google提到，受iPhone記憶體的限制，目前只有Gemma 2B（int4）能夠在iOS運作。在GPU上，Falcon 1B和Phi 2使用浮點數fp32，而Gemma和StableLM 3B則可以使用浮點數fp16就好，官方表示，Gemma和StableLM 3B即便使用較低精度的浮點數，仍可以保持一定的效能和強健性。

Google提到，他們仍會繼續這項研究，並擴展支援更多平臺和模型，提供廣泛的轉換工具、裝置上元件。現在開發者已經可以在GitHub上查看官方範例，以便深入理解API的使用方式。

熱門新聞