Google開發視覺編碼器VideoPrism,在通用影片理解任務表現優異
Google新開發的VideoPrism,是一款可處理多種影片理解任務的先進視覺編碼器,在多項基準測試中打敗當前先進的基礎模型,而且與大型語言模型結合,在多個視覺語言基準測試中更設下新的技術水準
2024-02-27
| AI | google | 影片理解 | 演化學習 | 平頭哥 | MCU | AIoT | Netflix | Polynote | 萊迪思 | FPGA | IBM | 跨雲 | 緯創 | IT周報
AI趨勢周報第107期:Google發表輕量影片理解模型,辨識1秒長的影片只要10毫秒
Google發表一套輕量影片理解模型Tiny Video Networks,利用演化學習,迭代出最優化的類神經網路模型。實驗結果顯示,TVN辨識1秒的影片,在GPU上只需要10毫秒,在CPU上則需要37至100毫秒,而傳統作法得用數十、數百層的卷積類神經網路(CNN),在CUP和GPU上的執行時間更耗上數千毫秒。
2019-11-01