AI趨勢周報第136期：PSGNet問世，打破CNN無法預測實體世界的瓶頸

圖片來源:

史丹佛大學

重點新聞(0703～0709 )

卷積神經網路 史丹佛大學 電腦視覺

史丹佛聯手MIT發表PSGNet，打破CNN無法預測實體世界的瓶頸

卷積神經網路（CNN）是電腦視覺中常用的模型架構，擅長辨識物件，但它卻有個問題，也就是無法理解真實世界的物理原則，比如無法預測物體的動力學，因此限制了CNN在其他電腦視覺的應用。

為解決問題，史丹佛大學聯手MIT，設計一套自監督類神經網路架構PSGNet，可從輸入圖像來學習估計物理場景圖。進一步來說，只要輸入任意長度RGB影片，PSGNet就會重建出相同長度的RGB資訊，包括每幀的深度和法線圖預測，還有每幀的物體影像分割，以及對下一幀的空間點預測。這個方法，可以顯示PSGNet對場景結構的理解，團隊也表示，PSGNet在影像分割任務的測試中，表現優於其他非監督方法。未來，團隊打算將PSGNet擴展到CNN難以應用的電腦視覺任務中。（詳全文）

A100 GPU VM Google雲端

Google雲端開始提供Nvidia最新A100 GPU

Nvidia最新一代A100 Tensor Core GPU五月中才亮相，近日Google雲端就開始支援了。不過，目前只開放給特殊用戶從Google Compute Engine的A2虛擬機器來使用，今年稍晚才會正式開放所有用戶。

進一步來說，A100 GPU在AI模型訓練和推論上，效能比上一代GPU還要高20倍，這次一臺A2虛擬機器，最多還可使用16個A100 GPU，總共640GB的GPU記憶體和1.3TB的系統記憶體，來解決作業負載高的運算任務需求。而對於作業負載較小的用戶，Google Compute Engine也會提供較輕量的A2虛擬機器，來滿足特定應用程式的需求。Google指出，未來還會擴大 A100 GPU對自家Kubernetes Engine、Cloud AI Platform 和其他 Google Cloud服務的支援。（詳全文）

Mozilla 語音資料集 Common Voice

Mozilla發布最新版開源語音資料集，還要打造網頁版喚醒功能

Mozilla近日釋出最新的開源語音資料集Common Voice，與上一版相比，新增了36種語言，目前共有54種，總時數更高達7,226小時。不只包含語音，Common Voice還涵蓋了可用來訓練語音引擎的元資料（Metadata），比如說話者的年齡、性別和口音等，而這些資料，還會整合至Mozilla的開源語音辨識引擎DeepSpeech，以及Mozilla機器學習小組的模型中，要來推動文字轉語音（TTS）和語音轉文字（STT）研究進展。

不只如此，Mozilla同時也鎖定更細緻的分類和應用需求，發布了個別的資料集分類。這個分類包含了1萬多人共18種語言的語音片段，比如從數字0到9、「是」和「不是」、嘿、Firefox等。Mozilla表示，這個分類可用做基準測試，來評估以Common Voice資料打造的模型表現。此外，他們也會用來測試自家網頁喚醒詞的功能。（詳全文）

TensorFlow 差分隱私 漏洞評分

TensorFlow新隱私測試模組能幫你評分模型安全性

Google釋出了新的實驗性TensorFlow隱私測試模組，讓開發者可評估模型的隱私屬性。該模組會產生一個漏洞評分，來顯示模型是否會因訓練資料集而洩漏資訊。

去年，TensorFlow推出差分隱私（Differential Privacy）方法，透過在資料集中加入雜訊，來隱藏個資，但當時TensorFlow所使用的雜訊，可能嚴重影響模型的準確性。因此，Google決定以不同角度來處理隱私問題，打造了一個模組，以成員推理攻擊方法為衡量標準，來評估模型是否洩露資訊，並將模組開源出來。（詳全文）

Google 動物辨識 Context R-CNN

新添時序因素！Google新演算法改善攝影機辨識能力

Google開發一套新的物體偵測演算法Context R-CNN，能將時間因素納入考量，利用攝影機一個月拍攝到的影像，來提升電腦視覺模型效能，特別適合用來監控山路或生態的靜態攝影機。

進一步來說，Google改良兩階段物體偵測基礎架構Faster R-CNN，打造出Context R-CNN，利用同一臺攝影機中長達一個月的影像作為上下文（Context），來提高物體分類的正確性。這種方法能改進對新攝影機部署的通用性，不需要額外的人工資料標記。經測試，與Faster R-CNN baseline相比，Context R-CNN能從相同的圖像中，辨識出更多動物。（詳全文）

Cloud 臉書 TaBERT 自然語言

同時兼顧自然語言和資料庫查詢，臉書新模型TaBERT未來還可協助事實查核

臉書開發一套自然語言預訓練模型TaBERT，能從表格查詢結果中，以自然語言來回答如「哪個國家的GDP最高」等問題。研究人員提到，TaBERT是第一個跨結構化與非結構化資料的預訓練方法，克服了查詢對應到資料庫表格結構的挑戰。

有別於先前預訓練語言模型，都只使用自由格式的自然語言文字訓練模型，臉書這次使用了2,600萬張表格和關聯的英文句子，來訓練TaBERT，讓模型學習句子和資料庫的上下文示例，可同時進行對自然語言和資料庫的推理。臉書指出，未來，TaBERT還可用於事實查核和驗證應用程式中，因為第三方事實查核單位，通常也是仰賴靜態知識庫資料，而TaBERT能夠比對相關資料庫，並給出參考資料。（詳全文）

可信任AI LFAI IBM

IBM貢獻可信任AI工具給Linux旗下AI基金會

Amazon在電腦視覺和圖形辨識重要年度會議CVPR中，發表了一篇能合成服裝到模特兒身上的AI論文。這套系統名為Outfit-VITON，相當於虛擬試穿系統，可將參考照片中人物的穿著，合成到另一張照片的模特兒身上，研究人員指出，Outfit-VITON採對抗網路，由生成網路和判別網路的競爭產生最佳結果。

Outfit-VITON由三部分組成，形狀生成模型、外觀生成模型以及外觀修正模型，形狀生成模型會圈出要試穿的衣服形狀，並計算試穿模特兒的身材和動作。接著再輸出至外觀生成模型，來結合這個輸出的結果，成為模特兒穿著指定服飾的照片；再來才由第三個模型微調，保留商標和特殊圖案。團隊表示，這個系統比以前的系統產生更自然的結果。（詳全文）

AI研究雲 運算資源 資料集

美科技巨頭聯合頂尖大學，要推動國家級AI研究雲的建置

在AI領域著墨甚深的22家美國頂尖大學，近日加入科技巨頭如Google、AWS、微軟、IBM和Nvidia等行列，來替建置國家級AI研究雲的法案背書，也就是《美國國家AI研究資源工作小組法案》。這個國家級AI研究雲的概念，最早由史丹佛大學人本AI中心的主任李飛飛在去年提出，她表示，國家級AI雲能提供研究員可負擔的運算成本，也能提供研究所需的大量資料集。為此，美國在6月也陸續啟動了討論會議，來探討如何建立、部署和治理這個國家AI研究雲。（詳全文）

圖片來源／Google、史丹佛大學、臉書、LFAI、TensorFlow

AI趨勢近期新聞

1. 臉書AI研究院聯手英美頂尖大學打造NetHack，專門來測試RL代理的穩健性

2. Google更新行動機器學習開發套件ML Kit，不再依賴Firebase雲端開發平臺

3. Honeywell最強量子電腦正式上線，將開放客戶使用

資料來源：iThome整理，2020年7月

重點新聞(0703～0709 )

熱門新聞