| google | 影片說明 | 語言模型

Google發表可解讀影片事件,並生成文字說明的新型視覺語言模型Vid2Seq

有別於生成傳統影片說明,Google預訓練視覺模型Vid2Seq可針對影片中的事件,標記出發生時間,並生成相對應的說明文字

2023-03-21