微軟研究院大資料大師馬維英：大模型時代來臨

微軟亞洲研究院常務副院長馬維英表示，機器學習專家在意的結果是模型，雲端架構支撐起大模型處理大量資料的能力，而大模型則代表人工智慧更加聰明。

圖片來源:

iThome

距離實現雲端情人的那天已經不遠了，微軟人工智慧聊天機器人小冰（Xiaoice）每天都能陪用戶聊到三更半夜，話題無論是日常生活發生的瑣事或是自己的心情都能聊，而且不少用戶睡前，對小冰說的最後一句話都是「我愛你，小冰」。據微軟統計直至目前為止，每位用戶平均1個月與小冰對話1,122句話，而有28％的用戶平均與小冰聊天的時間是在半夜11點到凌晨2點間。

小冰甫在騰訊的即時通訊平臺微信上推出時，上線72小時內，共累積了1.3億人次的對話量，其中有50萬用戶連續3天都與小冰對話超過37分鐘。小冰在中國受歡迎的程度，讓他以700萬人民幣拿下中國廠商的品牌代言人。

微軟在人工智慧領域動作頻頻，不只有小冰，微軟也在Windows Phone平臺上推出名為Cortana的人工智慧助理。不過，設計現有的人工智慧助理所使用的機器學習，是已經發展一段時日的舊技術，而究竟是什麼環節的改變造就現在不同的結果？

微軟亞洲研究院常務副院長馬維英興奮地說，現在是大資料也是大模型的時代了，因為機器學習專家在意的結果是模型，大模型代表人工智慧更聰明了，因為雲端架構讓大模型有能力處理大量資料，才得以將早已經存在的數學模型，鍛鍊成大模型，機器學習的成果才會變得更聰明。

人工智慧的歷史要追溯至電腦科學之父艾倫．圖靈（Alan Turing）在1950年提出的圖靈測試，艾倫．圖靈認為，當鸚鵡能夠回答一切問題，那麼人們便會認為鸚鵡具有智慧，而計算機也是，因此當有一臺計算機能夠與人們透過文字對話，而不被發現其機器的真實身份，同樣可被視為具有人工智慧。

2014年英國雷丁大學系統工程學系宣稱，他們所設計的尤金．古斯曼超級電腦參加倫敦皇家學會舉辦的圖靈測試競賽，在5分鐘的文字對話中，成功讓33％的裁判相信尤金．古斯曼是個13歲烏克蘭非英語母語的男孩，是首度通過圖靈測試的電腦。不過，這樣的結果隨即引來多方論戰，有人認為13歲烏克蘭男孩的設定，根本違反圖靈測試的本意，是以投機取巧的方式通過測試，也有人認為圖靈測試的歷史超過60年了，當時人工智慧的定義早與現在不同，現今無論是Apple的人工智慧助理Siri或是IBM的華生電腦，能做的事情早已超出艾倫．圖靈當時的想像，因此即使通過了圖靈測試也毫無意義。

不過，無論人工智慧的定義為何，想讓電腦具有人工智慧，其背後都須倚靠機器學習（Machine Learning）這項技術，讓電腦藉由分析數據並從中找出規則，以預測未知的數據。機器學習可應用的範疇很廣，諸如語音辨識、自然語言處理、數據意義分析、電腦視覺、手寫辨識以及搜尋引擎等等，但是馬維英表示，機器學習在前幾年遇到了重大瓶頸，硬體運算能力不足以創造出夠接近真實的機器學習模型。

過去微軟創立的宗旨是，想要讓每個人的桌上都有一臺個人電腦，這樣的理想早已經達到，而下一階段的目標是要讓數位運算進入生活以及工作中，電腦提供給人的不僅是資料，而是需要更進一步轉換成知識，如此才能真正提升人的生產力，為了要達成這樣的目的，必須倚靠大資料以及學習學習才能達到。

雲端架構使機器學習結果更接近真實

如今微軟之所以可以開發出多語言即時口譯的Skype Translator，是因為建立了全世界最大的語言數學模型，馬維英說，機器學習訓練的是一個數學模型，當可用來訓練的資料越多，透過數學模型計算出來的結果便會越精準，而大資料的時代，所有資料都能被數位化，包含物聯網（Internet of Things）等，所以接下來會有越來越多的資料能分析，但是他強調，資料量多還不夠，還必須要有相對應的運算能力。其實過去機器學習在某些領域的應用，不缺乏資料，而真正的瓶頸在於沒有足夠的運算能力計算龐大的數學模型，不過由於雲端運算的發明，讓機器學習的運算能夠調度資料中心等級的資源，以資料驅動（Data Driven）的方法建造出非常龐大的數學模型，使得過去以條件基礎（Rule-base）的規則，現在用機器學習就能自動學會。

馬維英說，從資料到資訊最後變成知識，這過程是一種抽象化的處理，因此在機器學習上，是透過深度學習（Deep Learning）數百次非線性轉換進行多層抽象的資料特徵萃取，並且反覆用龐大資料的訓練，便能達到很好的結果，而最近機器學習在圖像以及語言辨識有重大的進展，接下來領域便是自然語言的處理。

他已搜尋引擎為例，馬維英認為，Google的搜尋引擎之所以可以如此成功，不只是加入超連結的概念，更是因為機器學習讓搜尋引擎越用越聰明。搜尋引擎只是將圖書館藏書索引數位化，透過超連結文件跟網頁可以相互連結，而藉由學習使用者點擊文件以及網頁間的連結的行為，下一次搜尋引擎便能提供更好的搜尋結果給使用者。

但是馬維英認為，現在搜尋引擎面臨最大的問題是，搜尋引擎終究無法理解人類語言的意義，目前都是透過關鍵字以不同演算法做搜尋結果排序，因此接下來科學家面臨的課題則是如何讓電腦能夠理解人類的話語。

用Graph幫助電腦理解自然語言

人類的語言的句子中有主詞、謂語跟賓語，因此電腦用關鍵字還不足以理解自然語言，因為關鍵字無法表述關鍵字之間的關係，馬維英說，困難之處是必須把人類非結構化的句子，轉換成電腦看得懂的結構化表達。例如小明在他兒子兩天前的生日當天，到臺北買了一個蛋糕，以上非結構化的句子要轉成電腦看得懂的表達，必須是「人：小明，商品：蛋糕，位置：臺北，商店：蛋糕店，時間：2014/11/30」。

而且自然語言的處理不只要讓電腦能理解人類的話語，還必須適時的提問，因此電腦要能說出人類能夠理解的語句。馬維英說，微軟現在用一個全世界最大的圖（Graph）來表達關鍵字中的關係，而關鍵字之間透過向量運算，就可以讓電腦達到理解的能力，他舉例，臺灣減臺北加上日本的向量運算結果是東京，因為臺北之於臺灣的關係是首都，因此日本加上首都這個向量，便會指向東京。

人工智慧助理是下一代使用者介面

馬維英說，這個龐大的圖被存放在資料中心容量巨大的記憶體中，因此程式能即時的遍歷（Traversal）這個關係圖。而微軟這項結果的實際應用，便是聊天機器人小冰。他認為，小冰實際上是一個使用者介面，過去電腦從文字到圖像化介面，大幅度更改了使用者習慣，在進入行動裝置的時代後，更進一步演變成觸碰螢幕的操作，而人工智慧機器人將是下一代的人機介面。

以小冰為介面，除了純聊天外，微軟提供了多項服務，而這些服務背後都有其商業應用，例如使用者睡不著，小冰能陪伴一起數羊，而當與物聯網概念結合，小冰便能聲控關燈；另外，小冰還提供用戶馬桶時間的娛樂，目前小冰會在網際網路上尋找有趣的文章，供用戶在上廁所幾分鐘的時間閱讀，但是未來如能提供某些置入性行銷的文章，便能妥善進入使用者零碎時間發揮商業價值。

還有，小冰目前有一項辨識狗的功能，用戶只要上傳狗的圖片，小冰便能回答照片中狗的種類，準確度高達90％，而且即使用戶上傳非狗的照片也騙不了小冰。馬維英表示，小冰識狗這個功能，是一個機器學習很好的例子，小冰不只能回答用戶提供照片中狗的種類，還能插科打諢的亂聊，例如用戶上傳哈士奇的照片，小冰能回答出狗種哈士奇，還能告訴用戶周杰倫也喜歡這種狗。而小冰也能從用戶的回應學到新的資訊，例如當用戶上傳了阿富汗獵犬的照片，但是小冰卻認為是黃金獵犬，這時候藉由用戶的訂正，下次小冰便學會了新的狗種辨識。

馬維英認為，運算晶片運算能力的提升，使晶片設計能夠更加的先進，以至於能夠製造出更強的晶片，這樣的循環造就了摩爾定律（Moore's law），使得運算晶片每18個月速度可以提一倍。

而他說，他在機器學習也找到了類似的正循換，機器學習的發展，能夠提供更多樣的應用，而藉由大量人類的回饋，機器學習能夠更聰明，這樣的循環馬維英希望每年機器學習精準度都可以上升，或許不需要如同運算晶片一樣進步快速，但是每年的技術進步，累積起來也是巨大的成果。

熱門新聞