即時物件偵測模型YOLOv9採用從頭訓練方式,表現比其他用大型資料集預訓練的SOTA模型要好。

圖片來源: 

中研院資訊所

重點新聞(0223~0229)

 YOLOv9     中研院     物件偵測  

YOLOv9來了!2大巧思克服深度學習資訊損失難題

中研院資訊所團隊最近發表即時物件偵測模型YOLOv9,應用2種新方法,來克服深度學習長久難解的資訊損失問題。進一步來說,資訊損失一直是深度學習領域的挑戰,因為,資料輸入類神經網路時,會經過一層層的特徵提取和空間轉換,進而遺失許多原始資訊。就好比口耳相傳一件事,傳到第5、6人時,故事已丟失許多細節了。

為解決這個問題,中研院團隊提出了2個作法,首先是可程式化梯度資訊(Programmable Gradient Information,簡稱PGI),透過主枝、輔助可逆分枝和多層輔助資訊等3個架構,能在模型訓練過程中,盡可能保留原始特徵,來減少資訊丟失。另一種方法是新型的輕量級網路架構GELAN,能提高模型處理資訊的能力和效率。這個GELAN架構很特別,它結合了中研院團隊在前幾代物件偵測模型的良好成果,如CSPNet和ELAN架構,並進一步擴展其泛化能力,發展為GELAN。GELAN兼具了輕量、推論快速和準確的優點。

團隊測試發現,從頭訓練的YOLOv9,表現比用ImageNet大型資料集預訓練的主流物件偵測SOTA模型要好,如YOLO MS、RT DETR、YOLOv5 r7.0、YOLOv6 v3.0、YOLOv7、YOLOv8等。尤其,PGI能準確保留和提取所需資訊,讓YOLOv9只使用66%的參數,就能達到複雜模型RT DETR-X的準確度。團隊論文點出,PGI可用於各種量級的模型,從輕量到複雜的大模型皆可。而這次發表的YOLOv9共有4個版本,包括最小型的S、中型的M、完整版的C和強化版的E版本。(詳全文)

  Google     視覺理解     VideoPrism  

Google揭露最新通用視覺模型

Google開發一套基礎視覺編碼器VideoPrism,單一套模型就能進行分類、定位(Localization)、檢索、字幕和問答等影片理解任務,還在30個基準測試中達到最佳表現。

Google表示,這套模型是通用影片理解單一模型,該模型所使用的預訓練資料集,是目前最大、最多樣的影片訓練語料庫,有3,600萬個附高品質字幕的精選影片和5.82億個含雜訊文字的影片片段。至於模型訓練,則採用了標準視覺Transformer(ViT)的分解設計,包括兩階段,一是用高品質的影片文字資料和帶有雜訊文字的影片,以對比學習,教導模型將影片和文字描述配對。第二是透過遮罩影片建模框架,來訓練模型預測影片中缺失的部分。

此時,團隊還會隨機打亂預測出來的Token,以防止模型學到捷徑,如可能依據固定順序或模式做出預測,而隨機方式可迫使模型深入理解影片內容,不只是依賴表面特徵。Google認為,VideoPrism與大型語言模型結合,可在影片文字檢索、字幕生成和影片問答任務中,展現更強大的能力。(詳全文)

  生成式AI    玉山金控      GENIE  

玉山金控揭露內部生成式AI應用

玉山金控科技長張智星日前在法說會前記者會中,揭露玉山自2022年就開始布局生成式AI,並在同年底舉辦黑克松競賽,讓內部同仁了解生成式AI、思考可能的應用。近期,他們開發一款生成式AI平臺GENIE,供內部用來生成文案、翻譯、程式碼教學和設置聊天機器人等。張智星指出,生成式AI不只是單獨產品,還能與許多場景串聯,如掃描全行文件後,用生成式AI來校正文件中的辨識錯誤,或將會議發言轉為逐字稿,再以生成式AI勘誤。目前,玉山內部已有100個以上的AI模型,包括風控AI、行銷AI、客服AI、流程AI和賦能AI,接下來,他們也會思考AI與雲端結合應用的方向。(詳全文)

  生成式AI     紅隊工具     微軟  

微軟開源紅隊工具PyRIT,可測試生成式AI韌性

微軟最近在GitHub上開源PyRIT工具包,能讓安全人員和機器學習工程師自動化用來辨識大型語言模型(LLM)風險,如辨識生成惡意程式、越獄或資料竊盜等濫用行為。進一步來說,PyRIT由5個元件所組成,包括用來測試的目標、提示資料集、自我評估或既有分類器的評分引擎、單輪或多輪的攻擊策略,以及存放輸入和輸出等互動資料的記憶體。

PyRIT可先傳送惡意提示到特定的生成式AI系統,收到回應後,再將它傳至評分引擎,根據評分引擎傳回的結果再產生新提示,再傳送至生成式AI系統,不斷循環、直至實現所設定的目標。根據微軟測試,用PyRIT對Copilot進行紅隊演練時,可先選擇一個有害類別、生成數千個惡意提示,再以PyRIT的評分引擎來評估Copilot系統的輸出結果。這麼做,讓原本需要幾周的測試,在幾小時內就能完成。微軟表示,PyRIT並非要取代紅隊測試,而是用來揭露可能的風險,再由專家深入探索。(詳全文)

  Gemini Nano     聯發科     Google  

聯發科聯手Google,中階手機也能執行Gemini Nano了

聯發科最近宣布旗下2款處理器,支援Google行動版語言模型Gemini Nano。這2款處理器為天璣8300中階處理器和天璣9300旗艦處理器,除了能支援Gemini Nano模型、讓使用這些處理器的手機能執行Gemini Nano外,聯發科還提供AI開發工具組NeuroPilot,來讓模型在聯發科APU上執行,來提高效能。

尤其,雙方也計畫釋出天璣8300和天璣9300處理器的APK,來讓開發者和手機品牌商部署Gemini Nano應用程式。雙方這次的合作,意謂著Gemini Nano將能在中階手機上執行,Google還曾表示,高通、聯發科和三星的旗艦處理器都會支援Nano。(詳全文)

  LLM     Mistral AI     微軟  

Mistral AI發表新模型Mistral Large

2023年4月才成立的Mistral AI,最近發表一款大型語言模型Mistral Large和聊天機器人Le Chat預覽版,其中Mistral Large不管是在MMLU、HellaSwag、Wino Grande或Arc Challenge(25-shot)等基準測試,都與GPT 4相差無幾,是備受外界矚目的後起之秀。

Mistral Large是繼Mistral-tiny、Mistral-small和Mistral-medium後的最大、最進階模型,可支援3.2萬個Token的文章脈絡,也懂英文、法文、西班牙文、德文和義大利文。Mistral Large也具精確的指令遵循,讓開發者得以設計其審核策略,也可直接呼叫函數。該模型也能處理複雜且多語言的推論任務,如文字理解、轉換和程式碼生成。

就在同一天,微軟也宣布與Mistral AI建立多年合作夥伴關係,包括Mistral AI可運用Azure AI基礎設施來加速開發、部署新一代大型語言模型,而且微軟Azure也將供應Mistral AI付費模型服務。迄今Azure上已代管了來自 Meta、Nvidia、Deci 與 Hugging Face等公司或組織的1,600多個開源及專有模型。(詳全文)

  Android     視覺輔助     行車助理  

Google在3大Android App中新添AI功能

Google宣布為Android作業系統的訊息、圖片和車機系統加入AI,而且,Google Messages應用程式也能直接呼叫Gemini AI助理了。用戶不需跳離App,即可以文字提示要求Gemini草擬訊息內容、腦力激盪創意、規畫活動等工作。Android視覺輔助App Lookout則加入AI描述,可自動為相片、線上圖片,或訊息中的照片加入AI產生的描述,並大聲朗讀,來幫助視障人士理解圖片內容。該功能已全球上線,支援英文。

另一項類似應用是Google Lens in Maps的螢幕閱讀器,結合了Android輔助功能TalkBack,只要用戶將手機相機對準周遭環境,TalkBack就能念出該地資訊,像是一家銀行的營業時間、餐廳評分。再來,加入AI功能的行車助理Android Auto,可在用戶開車時,自動為一長段文字或群組對話摘錄重點,也能建議回覆和後續行動,且按一下就能傳送訊息、分享預定抵達時間或接電話。(詳全文)

  三星     智慧戒指     AI助理  

三星亮相可量測生理數值的智慧戒指

繼今年1月在消費電子大展CES上首次亮相後,三星在最近的世界通訊大會MWC上,正式展示可量測心率、活動量等生理數值的智慧戒指Galaxy Ring,預計今年稍晚上市。

Galaxy Ring是三星智慧健康系列的一環,它結合了Samsung Health數位健康平臺,主打AI為基礎的個人化健康管理。該戒指可搭配新的健康應用管理功能,如My Vitality Score服務,可提供睡眠、活動、心率量測和心率變異資訊,而搭配Booster Card則可追蹤各項定義好的量測目標。三星表示,智慧戒指蒐集的生理數據,將匯整入每月6,400萬用戶的Samsung Health全球資料集,作為三星AI健康管理服務的基礎。他們的計畫是,以數位健康管理平臺和智慧手錶、智慧戒指等裝置,與第三方夥伴建立健康生態系,如上個月三星Galaxy Watch成為VR生理治療平臺XRHealth的心率監控裝置,或三星Sleep Mode技術整合到合作夥伴的智慧床墊,調整床墊環境以幫助入睡。(詳全文)

圖片來源/YOLOv9論文、Google、聯發科、Mistral AI

  AI近期新聞 

1. 微軟Copilot for Finance預覽版登場

2. Adobe公布音樂編輯生成式AI工具,提供音樂版的Photoshop能力

3. Google雲端更新安全指揮中心,增強雲端AI資源安全管理

資料來源:iThome整理,2024年2月

熱門新聞

Advertisement