AI趨勢周報第236期：LangChain框架整合Gemini Pro API了

LangChain釋出Python工具包，能整合Google最新模型Gemini Pro API，來加速打造多模態的檢索增強生成（RAG）應用。

圖片來源:

LangChain

重點新聞(1208～1214)

LangChain Gemini LLM

LangChain框架整合Gemini Pro API，加速RAG應用開發

就在Google釋出Gemini Pro API後，大型語言模型（LLM）應用開發框架LangChain馬上整合了Gemini Pro API，讓開發者能在開發環境中使用Gemini多模態功能，特別是打造檢索強化生成（RAG）類型的應用。

一般來說，RAG常用於文字任務，比如介接客服指南資料庫，來讓LLM參考客服資料、生成答案。但最近，多虧GPT-4V這類大語言模型，RAG也擴展到了圖片。其中，LLM應用開發框架LangChain就探索不少方法，如多模態嵌入、多向量檢索器等，來從文字和圖片輸入中（例如簡報）有效地檢索與合成答案，來實現圖片類的RAG應用。

為進一步提高開發者體驗，LangChain推出了Python整合工具包langchain-google-genai，開發者可直接存取Genimi API，更容易使用LangChain的多模態功能。同時，LangChain還發布整合指南，來協助開發者探索Gemini Pro API的潛力。（詳全文）

Gemini Google GPT-4V

DeepMind用LLM和評估器來找出數學最佳解

最近，DeepMind研發出FunSearch方法，能用大型語言模型來搜尋數學和電腦科學領域問題的解法。團隊成功運用FunSearch解決Cap Set數學問題，同時還能更有效解決裝箱問題，能用來提高資料中心效率，證明FunSearch的實用價值。

FunSearch是指搜尋函式（Functions）系統，由一個訓練過的大型語言模型和一個自動評估器組成。其中，大型語言模型專門提供有創意的解決方案，評估器則把關這些方案，避免出錯或任何不實想法。這兩個元件反覆迭代，初始解決方案逐漸發展為新知識。目前，DeepMind採用Google的PaLM 2作為FunSearch的大語言模型。團隊發現，與其他神經網路和增強學習的AI方法相比，FunSearch輸出的程式碼更易於檢查和部署，更容易整合到實際工業系統中。他們預期，在科學和工業領域各種新舊問題，都會因這個方法產生更有效的解法。（詳全文）

隱私 Mozilla privateGPT

Mozilla推新專案，要保護隱私、打造更個人化AI體驗

日前，Mozilla釋出MemoryCache創新專案，要結合本地檔案和Firefox瀏覽器儲存的資料，來強化基於裝置的個人模型，要在更加隱私安全的情況下，提供更好的個人化體驗。

MemoryCache由一組腳本和簡單工具所組成，可用來改進本地端的privateGPT模型運作。MemoryCache可快速儲存瀏覽器歷史紀錄到本地裝置，再讓本地端的AI模型，透過處理這些資料和用戶提供的檔案，來強化內建的privateGPT聊天介面回應。此外，MemoryCache專案包含Firefox擴充套件，能儲存網頁到本地資料夾中，另有個殼層腳本負責監控資料夾的變化，一旦有新檔案進入資料夾，就會執行privateGPT的ingest.py腳本會進一步處理。（詳全文）

微軟 Phi-2 小型語言模型

微軟27億參數小語言模型Phi-2，表現勝過130億參數Llama 2

微軟在12日發表一套小型語言模型Phi-2，只有27億參數，但在許多測試上超越了70億參數的Mistral、130億參數的Llama 2，以及Google剛發表的32億個參數Gemini Nano 2。微軟在今年6月發表基於Transformer架構的Phi-1模型，僅13億參數，是為了撰寫基本Python程式碼而設計的小型語言模型，9月則進一步發表Phi-1.5，能力擴展至常識推理和語言理解。

最新的Phi-2則號稱媲美25倍參數量的模型，訓練素材同樣基於「教科書等級」概念，涵蓋科學、日常活動與心理學等，再加上篩選過、具教育價值的高品質網路內容，將參數量從13億擴大至27億。Phi-2在96個A100 GPU上，以1.4兆個Token進行了14天的訓練。經各種基準測試，如評估語言模型處理複雜及具挑戰性任務的BBH、常識推理、語言理解、數學及撰寫程式碼等，Phi-2的表現全都優於擁有130億個參數的Llama-2，也優於70億參數的Mistral。（詳全文）

Mixtral 8x7B Llama 2 SMoE

Mistral AI開源Mixtral 8x7B模型，效能超越Llama 2

Mistral AI開源最新模型Mixtral 8x7B，是一款467億參數、具開放權重的稀疏混合專家模型（SMoE），能處理32,000個Token上下文長，且大多數基準測試表現都優於700億參數的Llama 2 70B和GPT 3.5模型。稀疏混合專家模型是一種深度學習架構，適合用來建置大型、高效的神經網路。其核心概念是專家系統，也就是網路中特定的子模組或子網路，代表每個專家，專門處理特定類型任務。而SMoE的稀疏性，則是指每次輸入僅會觸發一小部分專家，來降低運算成本，因此Mixtral 8x7B模型在處理每個Token時，只會選擇並使用其中的129億個參數。

經測試，比起Llama 2 70B模型，Mixtral 8x7B在多數基準測試中表現更好，推理速度比Llama 2 70B快上6倍，且Mixtral 8x7B在大多數標準基準測試中，表現也與GPT3.5相當，甚至更好。Mixtral 8x7B目前能處理英文、法文、義大利文、德文和西班牙文，其生成程式碼能力也很出色，與GPT 3.5相當。（詳全文）

AI法案 歐盟風險

歐盟達成共識，推出人工智慧法案

歐盟執委會（EC）日前宣布，歐洲議會與歐盟理事會已就人工智慧法案（AI Act）達成政治協議，成為全球首個AI綜合法令框架，將用來規範AI系統供應商和使用AI的組織，亦可望成為全球制定AI法令的基準。

AI Act將AI系統分類成最小風險、高風險、不可接受的風險，以及透明度風險。大多數的AI系統屬於最小風險，如推薦系統或垃圾郵件過濾機制等，相關供應商不必承擔義務。高風險系統則涵蓋關鍵基礎設施、執法或公領域系統、生物辨識與情緒辨識系統等，必須遵守嚴格的要求，如具備風險緩解系統、資料集、活動紀錄、詳細的文件及人工監督等。

至於不可接受風險，是指可操縱人類行為以規避自由意志的系統或程式，透明度風險則要求人們必須能辨識與之交流的對象或內容，是否源自AI。未遵守AI Act的業者將被罰款，最高款項為3,500萬歐元或年營收的7%。在達成政治協議後，歐盟將著手撰寫共識版的AI Act，理論上可於本月底通過正式法令，並於兩年後生效。（詳全文）

Gemini Pro 生成式AI Vertex AI

Google開放測試企業級Gemini Pro了

繼日前發表全新的多模態大型語言模型Gemini後，Google又針對開發者和企業推出Gemini Pro，使用者可透過Google Cloud的Vertex AI平臺存取。Google將Gemini分為3種版本，分別是最強大的Gemini Ultra，最通用的Gemini Pro，以及可於行動裝置上執行的Gemini Nano。其中，Gemini Pro支援32K的文字脈絡長度，具備函式呼叫、嵌入、語義檢索、客製化知識基礎及聊天功能，提供各種SDK，並支援Python、Android（Kotlin）、Node.js、Swift及JavaScript等程式語言。

基本的Gemini Pro僅接受文字輸入與輸出，另有一個Gemini Pro Vision多模態終端則可接受文字及圖像輸入，但僅會輸出文字。Gemini Pro現可於全球逾180個國家使用，支援38種語言，開發者以Google帳戶登入Google AI Studio即可免費試用，其免費額度為每分鐘輸入60個請求，當需要托管環境時，也可輕易將成果遷移至Vertex AI。Google預計明年初推出付費服務，企業用戶亦可透過已整合Gemini Pro的Vertex AI平臺來試用該服務。（詳全文）

Purple Llama 生成式AI 可信任

Meta發布Purple Llama專案推動開源可信的生成式AI應用

隨著生成式AI爆紅，AI安全規範也越發重視。Meta最近推出Purple Llama新專案，要提供開放信任且安全的評估標準和工具，來讓開發者負責任地部署生成式AI模型和應用程式。Purple Llama目前提供CyberSec Eval評估標準，以及Llama Guard輸入輸出安全分類器，之後會新添更多工具。

進一步來說，在網路安全方面，Purple Llama將建立安全評估基準，包括量化大型語言模型網路安全風險的指標，以及評估不安全程式碼建議頻率的工具，還有讓生成惡意程式碼，或協助網路攻擊更加困難的大型語言評估工具。該專案在過濾輸出和輸入方面，則提供了Llama Guard分類器，能用來檢查和過濾大型語言模型的輸入和輸出，以符合特定應用的內容指導原則，防止大型語言模型生成具有潛在風險的輸出。Llama Guard使用公開的資料集訓練，以偵測常見的潛在風險和違規內容，用戶可以自定義模型，以支援特定用例。（詳全文）

圖片來源／LangChain、DeepMind、微軟

AI近期新聞

1. 中醫大附醫採用醫療專科級MedLM打造AI輔助醫師

2. AI新創聯手阿聯酋大學發起透明度框架LLM360，率先釋出2款模型 Amber-7B和CrystalCoder-7B

3. Google發布Imagen 2圖片生成模型，支援中英在內7種語言

4. 微軟推出幫助視障者「聽」東西的Seeing AI App

5. Google承認Gemini示範影片經剪輯

資料來源：iThome整理，2023年12月

熱門新聞