Meta AI研究院發表一款預訓練模型AV-HuBERT,能根據影片的語音和人物唇齒變化,來辨識人物所說的話語。

圖片來源: 

Meta AI研究院

重點新聞(0107~0113)

Meta AI研究院     讀唇語     NLP  

會聽也會讀唇語!Meta AI研究院開源新模型讓語音辨識更精準

Meta AI研究院發表一款新語音辨識預訓練模型AV-HuBERT,不僅能聽人說話,還會讀說話者的唇形,來判斷語句,提高辨識精準度。進一步來說,AV-HuBERT是一款自監督學習框架,也是第一個融合語音分析和唇形判讀的多模態模型,可從非標註資料學習。而且,AV-HuBERT只用十分之一的標註資料,準確率就比現有最好的語音-視覺辨識模型高上75%。

所謂多模態是指,能同時處理不同類型資料的模型,如語音、影像或影片等。以AV-HuBERT來說,Meta AI研究院使用了說話者語音和唇形變化的影片資料集來訓練模型,讓模型同時處理語音和影片訊息,這個方法,讓模型甚至只需少量未標註資料(也就是未附上字幕的影片)就能完成預訓練。

一旦模型學會其中的結構和相關性,就能以少量的標註資料來學習其他任務,甚至是另一個語言。而AV-HuBERT這種自監督的方法,能幫助開發者打造更多語言的抗噪自動語音辨識(ASR)系統,像是理解力更接近人類的語音助理,可用於手機和AR眼睛,不論周遭環境多吵雜都能理解人類語音。(詳全文)

  百度      跨模態    ERNIE-ViLG  

百度推出中文界最大跨模態圖文生成預訓練模型

百度發表一款跨模態圖文生成模型「文心ERNIE-ViLG」,參數量達100億個,號稱是中文最大的多模態模型。團隊指出,近年來,電腦視覺和語言預訓練模型大幅提高了圖生文的表現,但對大規模的文生圖合成任務來說,仍有待加強。

於是,他們以Transformer架構為基礎,打造一套統一的雙向預訓練模型ERNIE-ViLG,利用自迴歸演算法和來對圖像生成和文字生成這兩任務統一建模,提高不同模態(即圖、文)的語義對齊關係,進而提升圖文生成的精準度。在表現上,這款模型可根據文字敘述生成單一物件圖像,像是一隻呆萌的哈士奇,也能生成複雜場景,如沿著鐵軌行駛的黃藍相間火車,甚至能產生想像中的場景,如吟遊詩貓。此外,模型也能根據圖片產生圖說,如看圖產生「牆角數枝梅的描述等。

這款ERNIE-ViLG模型只是百度文心大模型應用的其中之一,百度在上個月,揭露了自家大模型企業級AI服務藍圖,以EasyDL開發平臺和BML大模型開發平臺,來分別提供入門級開發服務和全功能開發服務,接著由文心大模型作為驅動,包括文心NLP大模型、CV大模型和跨模態大模型,來提供產業專屬的NLP服務(如醫療、金融、對話式)、OCR服務、圖文生成服務。(詳全文)

  iPad     AR資料集     室內3D場景  

全用iPad和專業光達掃描儀拍攝!蘋果打造最大的室內3D場景AR資料集

蘋果ML研究團隊發布一套AR開發資料集ARKitScenes,專門收錄各種真實世界的室內3D場景,使用自家內建光達掃描儀的iPad搭配專用光達掃描儀Faro Focus S70拍攝而成,這是目前最龐大的RGB-D室內場景資料集。

蘋果表示,不論是真實還是合成的,目前AR資料集以RGB-D影像為主,但這得仰賴具RGB-D感測器的裝置來拍攝,雖然市面上已有這類工具,但要大規模收集資料、且具基準值(Ground truth)仍然是個挑戰。

這款資料集包含5,048個RGB-D序列,涵蓋1,661種不同場景,不僅比現有最大的室內資料集大了3倍,還提供高品質的基準值。這個資料集可用於兩種下游任務,包括3D物件偵測和顏色導向的深度圖像放大(Deep upsampling)。這個資料集,也為3D物件偵測任務提供標註資料,像是17種家具類型的3D物件邊界框。(詳全文)

  除錯偵測    自監督學習       微軟  

微軟用自監督AI抓程式碼臭蟲,效能提高3成

微軟發表自家研究成果,利用自監督學習打造一款AI出錯系統BUGLAB,能揪出程式碼字裡行間的錯誤,還能修復問題。進一步來說,BUGLAB包含兩套模型,一套用來偵測程式碼中的錯誤並修復,另一套用來產生錯誤的程式碼,來訓練模型的偵測力。為測試效果,微軟研究院團隊也自建一套Bug資料集PYPIBugs,累積了2,374個真實錯誤。結果發現,BUGLAB偵測錯誤的表現比現有方法提高了30%,而且還發現了19個先前未知的開源軟體程式碼錯誤。(詳全文)

  歐盟     超級電腦     Exascale  

歐盟計畫砸1.5億歐建超級電腦,可望成全球第2快

歐洲計畫投1.5億歐元,來打造一座近Exascale等級的超級電腦。這個計畫由歐洲高效能運算聯合協會(EuroHPC JU)發起,他們在去年12月公布一份招標文件,將採購近Exascale(pre-exascale)的高階超級電腦,也就是運算速度超過100 Petaflops、但小於1 Exaflop。

這臺超級電腦名為MareNostrum5,旨在強化醫藥研發、疫苗開發、病毒擴散模擬及AI與大數據處理應用,來促進歐洲醫療研究。這座新超級電腦也將支援傳統HPC應用,像是氣候研究、工程、材料科學及地球科學等領域。文件指出,MareNostrum5浮點運算速度至少可達205 petaflops,而且電腦運算將全部採用潔淨能源,並使用熱源再利用技術。打造完成後,MareNostrum5可望擠下2021年11月公布的Top500中第2、3名,也就是美國能源部的2座超級電腦Summit及Sierra。(詳全文)

  Python     TIOBE     程式語言  

Python再次奪榜,拿下TIOBE年度程式語言

Python不只是AI開發的熱門程式語言,也是許多程式開發的愛用語言。Python繼2020年來,再次獲得2021 TIOBE年度程式語言獎,是過去一年中,評分成長最多的程式語言。這次C#差點有史以來第一次拿到這個獎項,但Python得分在上個月超過了C#,成為最終獲獎者。

Python在2021年的表現讓人印象深刻,從年初TIOBE Index第3名,一路追趕超過Java和C,成為第1名,而且持續往上,目前比第2名C的評分高超過1%,雖然離Java在2001年的巔峰26.49%還有一段距離,但官方提到,Python在許多領域都已經成為標準程式語言,他們相信Python仍會繼續成長。(詳全文)

  Nvidia     自駕車     Drive Hyperion 8  

Nvidia拓展自駕版圖,由系統駕駛的無人卡車將上路

Nvidia推出最新的自駕車平臺Drive Hyperion 8,在近期舉辦的全美消費型電子大展CES 2022上,揭露更多合作進展。最新一代的自駕車平臺,擁有12個先進的環繞攝影鏡頭、12個超音波裝置、9個雷達、3個內部感測攝影機,還有一個前置光達。

進一步來說,Drive Hyperion 8的冗餘架構設計確保安全性,當一臺電腦或感測器故障時,還有另一個備用可替補,確保自駕車輛能安全抵達目的地。不少中國電動汽車公司已採用該平臺,自駕計程車服務Cruise、Zoox、滴滴出行、Volvo、Navistar和Plus等卡車運輸服務,也都開始採用Drive Hyperion 8。無人卡車運輸公司TuSimple,也宣布將採用Drive Hyperion和DRIVE Orin系統單晶片打造無人卡車車隊,建立自動貨運網路來滿足大量卡車運輸需求。(詳全文)

 

 

圖片來源/Meta AI研究院、百度、蘋果、微軟、IBM、Nvidia

 AI趨勢近期新聞 

1. Coqui釋出零樣本文字轉語音模型YourTTS,較傳統TTS模型使用更少訓練資料集

2. 微軟與高通合作開發AR眼鏡專用晶片

3. Avalanche發布可加速AI模型訓練的低程式碼工具hAIsten AI

資料來源:iThome整理,2022年1月


熱門新聞

Advertisement