小數據如何實現電腦視覺，微軟AI研究首席剖析關鍵

臺灣微軟人工智慧研發中心首席研究總監賴尚宏　（攝影／洪政偉）

「深度學習的出現，讓電腦視覺蓬勃了起來。」臺灣微軟人工智慧研究中心首席研究總監賴尚宏指出，電腦視覺起飛的關鍵有兩個，一個是深度學習，另一個是「大量的開放資料」，特別是2010年的一場比賽，奠下了日後電腦視覺起飛的基礎。

這場比賽就是ImageNet大規模影像辨識和分類，收集了網路上1千5百多萬張經人工標註的影像，開源為訓練資料集和測試資料集，讓參賽者驗證自家模型的辨識準確率。這場競賽連續舉辦了7年，2012年時深度學習首次運用於比賽中，當屆冠軍的辨識準確率擊敗前屆的74％，直接躍升到85％，成功引起各方對深度學習的關注。而2015年時，該屆的冠軍準確率更高達96％，比人類辨識還精準。

後來，因為機器辨識能力已超越人類水準，ImageNet競賽在2017年之後就停辦了。至今，ImageNet已成為世界最大的開源影像資料庫，擁有數千萬張人工標註的影像和2萬2千個類別，成為各家想打造影像辨識模型的取材之處。

這個結果，迎來了影像辨識應用遍地開花的時代，各種應用如人臉辨識、道路辨識、物體辨識等，如雨後春筍般不斷冒出。

大量訓練資料，是開發深度學習應用的前提

儘管深度學習能帶給電腦視覺突飛猛進的應用，卻有個讓企業頭痛的問題，也就是需要大量的訓練資料。擁有足夠的訓練資料，才能打造像樣的影像辨識應用，倘若訓練資料不足，成效就難以彰顯。賴尚宏舉例，光是用於製造業的瑕疵品檢測，每個特徵可能就需要數千或數萬張產品影像來訓練模型，但由於產品周期越來越短，企業難以累積足夠的產品影像資料，再加上產品機密性，業界也沒有公開的影像資料集可使用。這些因素，使企業難以開發好用的產品檢測模型。

除了訓練資料量要夠大，「資料還要有代表性。」賴尚宏強調，影像辨識模型要有良好成效，訓練資料就必須具代表性，涵蓋各種變化，否則會產生偏見、影響準確率。就以人臉辨識為例，去年美國麻省理工學院一份報告指出，微軟、IBM和中國曠視的臉部辨識系統，辨識淺色人種的準確率高於深色人種，而且辨識男性的準確率高於女性。研究表示，這個問題可能出在訓練人臉辨識模型的資料集，比如缺乏深色膚色人種的影像資料。後來，各方也證實這個觀點，增加了各種特徵的訓練資料量，才改善人臉辨識系統的偏見。

「這就是監督式學習的限制，」賴尚宏打比方，「就像讀書一樣，必須給電腦各式各樣的學習材料，才能擁有涵蓋性的知識。」但對特定產業來說，這種多元的學習材料可不容易取得。

面對這個情況，賴尚宏說，在某種程度上，生成對抗網路（Generative Adversarial Network，GAN）和遷移學習（Transfer Learning）可以解決資料不足的問題。

小數據救星：生成對抗網路和遷移學習

遷移學習特別適合工業檢測。現今企業採少量多樣的生產機制，產品生產周期短，要蒐集各種訓練資料，十分耗時。透過遷移學習，企業可利用原有的產品檢測模型，加上少量新產品資料，調整成合適的新產品檢測模型。───微軟人工智慧研發中心首席研究總監　（攝影／洪政偉）

GAN是5年前，由蒙特利大學教授及其學生提出的一種非監督式深度學習架構，「特點是可以生成影像。」GAN由兩套神經網路組成，包括負責生成影像的產生器（Generator），以及負責評估生成影像真偽的鑑別器（Discriminator），這兩套神經網路互相競爭，也互相學習。一段時間後，鑑別器評斷的標準越來越高，而產生器所生成的影像也就越來越逼真，兩者同時進步。

在實際應用案例中，賴尚宏舉例，有些廠商就透過GAN，根據晶圓特性和瑕疵種類，來合成晶圓瑕疵檢測模型所需的訓練資料，有些甚至是根據光碟片瑕疵資料所產生的。

而在醫療應用方面，由於醫病隱私考量，開發人員往往難以取得足夠的影像資料，來訓練醫學影像判讀模型。傳統合成影像的作法，是以人工套疊的方式進行，比如要打造辨識肝腫瘤的模型，開發人員會先收集大量資料、建立肝臟模型，同時收集腫瘤案例資料，來產生腫瘤模型，最後再將兩者套疊，產生出肝臟腫瘤的影像。

但透過GAN產生的影像資料，變化度和複雜度又比傳統方式更高。賴尚宏指出，GAN可根據設定的參數，來學習產生出具備特定特色的影像，比如有無腫瘤、腫瘤大小和腫瘤的位置等。也就是說，GAN會依據設定的參數，來模擬各種腫瘤影像。

不過，透過合成的影像資料來訓練模型，「還必須使用具有公信力的資料集，來進行測試。」賴尚宏表示，目前測試結果顯示，以少量真實資料搭配合成資料訓練出來的模型，其預測準確率比單用少量真實資料訓練出的模型，還要高。

此外，他也看好GAN的「創作」能力。賴尚宏解釋，過去業界合成影像多靠Graphics技術，只要將特定元件放進模型中，就能快速合成影像，但由於這是根據使用者定義的規則來合成，因此「缺少變化」。相較之下，GAN可產生變化更大、更真實的影像資料，也因此，GAN也廣泛運用於各種領域，比如音樂、畫作和服裝設計等，「這會是未來趨勢。」

話鋒一轉，賴尚宏指出，另一個解決訓練資料不足的方法，還有遷移學習。遷移學習是機器學習的分支，核心概念就是將通用的源領域（Source domain）知識，轉移應用到相關的目標領域（Target domain）上，比如利用能辨識所有器官腫瘤的模型，來訓練專門辨識肝臟腫瘤的模型。

關於遷移學習的好處，舉例來說，微軟去年透過遷移學習，以少量的訓練資料，打造出能翻譯方言和口語的翻譯器。一般而言，訓練一套語言翻譯模型，需要數千萬條源語和目標語相對應的語句資料，但因為方言和口語資料難以取得，微軟便透過遷移學習，將訓練資源多的語言，轉移到資源少的語言上，再搭配半監督式學習方法，最終只用了6千條對應語句，就開發出表現量眼的翻譯器。

在業界使用上，賴尚宏強調，遷移學習特別適合工業檢測。現今企業採少量多樣的生產機制，產品生產周期短，要蒐集各種訓練資料，十分耗時。透過遷移學習，企業可利用原有的產品檢測模型，加上少量新產品資料，調整成合適的新產品檢測模型。

不過，遷移學習要在業界有廣泛的應用，還有一個瓶頸。賴尚宏提到，因為業界還沒有公開的產品影像資料集，無法打造出一個通用性強的模型；也因此，目前遷移學習的通用型模型，多半還是由各公司自行打造，只適用於特定產品線。

電腦視覺新領域：串流影像辨識

目前，電腦視覺的應用多聚焦於靜態影像辨識，但賴尚宏認為，「單張影像辨識技術成熟後，就會進入串流影像，」也就是電腦視覺發展的新領域。「就好比自駕車系統，」他說，光靠靜態影像辨識來認識物件還不夠，還需要有時間維度的串流影像，來辨識道路狀況和其他駕駛行為。

而串流影像辨識的應用，包括了視訊監測。比如於智慧交通中，可透過分析串流影像來預測車流，提前疏導；在智慧零售方面，可用來分析消費者在店內的商品瀏覽行為，比對顧客性別、年齡和衣著等特徵之後，再推薦可能感興趣的商品。至於安全監測，則可用來分析預測人、車行為等。

但要訓練串流影像辨識模型，比靜態影像還複雜，原因之一就是「動作辨識的場景資料難以取得，」導致訓練資料不足。

而這時，GAN就派上用場了。GAN不只能合成靜態影像，也能合成動態影片。這幾年來，學術界也對GAN影片合成有所著墨，比如去年卡內基美隆大學研究團隊，就利用GAN開發一套影片轉換系統Recycle-GAN，來產生以假亂真的影片，不只將兩位脫口秀主持人的臉部表情互換，也將講話內容對調，更能轉換影片中綻放的花朵。

而在企業應用場景上，賴尚宏舉例，假設工廠要訓練一套用於安全監測的行為辨識模型，來偵測工人是否全程都戴安全帽、或是在某處爬梯子等動作，可先蒐集一些真實資料，再透過GAN合成出變化度高的影片資料，比如安全帽的位置、服裝材質、顏色和搭配的動作等，來訓練行為辨識模型。

不過，他也坦言，因各產業的需求複雜度不同，用GAN來訓練動態影像辨識，仍有待進一步的研究。此外，要訓練串流影像辨識模型，每一類動作的影片可能就要數千個，因此需要性能更好的硬體設備，才能處理大量的運算。這對各界來說，都是一大考驗。

串流影像辨識，也是臺灣微軟電腦視覺應用的下一步

身為臺灣微軟人工智慧研發中心的首席研究總監，賴尚宏提到，微軟將電腦視覺視為研發重心，在全球各地進行智慧城市、智慧製造和智慧醫療等電腦視覺應用。除此之外，微軟自家的產品技術，許多也與電腦視覺相關，比如微軟雲端平臺Azure上的Cognitive Services認知服務、Bing Search影像分析和搜尋、文件辨識App Office Lens，以及先前發布的Windows Hello生物特徵辨識應用，而在電腦視覺與裝置的應用上，則有混合實境裝置HoloLens和感測器裝置Kinect。

而微軟在去年，也針對電腦視覺進行組織調整，成立一個電腦視覺部門，專門研發電腦視覺相關應用。賴尚宏指出，臺灣微軟的電腦視覺方向，聚焦於Windows Hello人臉辨識的改善，以及研發發票OCR（光學文字辨識）的應用。

Windows Hello是微軟2015年推出的一項生物特徵辨識應用，能讓Windows 10的使用者，選擇以臉部辨識、指紋辨識還是虹膜辨識，來快速登入裝置。不過，這些辨識應用並非完美。在舊版系統中，就曾發生德國資安公司SYSS的研究員，用一張列印的彩色大頭照，騙過Windows Hello人臉辨識功能。

對此，微軟不斷改善Windows Hello人臉辨識，一方面收集各種破解照片，來強化系統辨識能力，另一方面也不斷優化辨識功能，希望做到連戴帽子、戴眼鏡或口罩等都能辨識。

賴尚宏也揭露，Windows Hello人臉辨識還打算朝「活體檢測」發展。他說，活體檢測會要求使用者在鏡頭前看左或看右，透過串流影像，來辨識對方是否為真人。這個方法，能對抗試圖用照片來欺騙系統的手段，但他也指出，Windows Hello的訴求在於「快」，而活體檢測可能會降低使用者體驗。也因此，微軟還在研究這塊領域。

至於OCR發票辨識應用的研發，賴尚宏指出，目前辨識語言以英文為主，透過收集各式各樣的發票，來打造一款可以辨識發票日期、消費店名、消費金額和品項的OCR應用程式，而且不只要會識字，「還要能了解情景，」比如就算發票不平整，也要能辨識。

不只如此，賴尚宏指出，OCR發票辨識很快就會支援中文，甚至未來將擴大到企業表單辨識，打造出一個自動整理企業表單的通用辨識模型。文⊙王若樸

CTO小檔案

賴尚宏

臺灣微軟人工智慧研發中心首席研究總監

學歷：美國佛羅里達大學電子電腦工程博士畢業

經歷：博士班畢業後，賴尚宏於美國普林斯頓西門子研究中心擔任研究員，主攻電腦視覺。1999年返臺後，至清華大學資工系任教至今，研究領域包括影像和視訊處理、生物特徵辨識等。2018年從清大借調至臺灣微軟人工智慧研發中心，擔任首席研究總監，研發人臉辨識及相關應用。

公司檔案

臺灣微軟

● 地址：臺北市信義區忠孝東路五段68號18樓

● 成立時間：1989年

● 主要業務：提供軟體、服務、設備和解決方案

● 總部：美國華盛頓州 Redmond

● 員工數：約400人

● 總經理：孫基康

公司大事紀

● 2015年：Windows Hello生物特徵辨識功能上線，同時發表混合實境裝置HoloLens

● 2016年：推出協作軟體機器人開發框架Azure Bot Services，以及語言辨識認知服務Cognitive Services

● 2017年：微軟攜手臺北醫學大學啟動AI人才培育計畫

● 2018年：微軟AI研發中心在臺成立；微軟認知服務大更新，包括Bing視覺搜尋、客製化物體偵測模型等，同時開源ML.NET機器學習框架

熱門新聞