AI日常生活化之後，智慧邊緣運算優化是新挑戰

IBM Research首席資料科學家Romeo Kienzler （攝影／洪政偉）

今年9月，臺北一場企業工作坊中，一位穿著休閒藍襯衫，夾腳拖鞋的鄰家大男孩，站在臺上又講又跳，但臺下的企業高層、IT主管、企業資料科學家們，AI技術開發者，卻都十分專注地聆聽。

這位年輕的講者，是IBM Watson IoT首席資料科學家Romeo Kienzler，也身兼伯恩應用科學大學的AI助理教授職務，是一位產學雙棲的資料科學家。

臺下還有不少人是他的書迷，等著演講後的簽名活動。這位專研資料探探勘、機器學習，甚至還有區塊鏈的Romeo Kienzler，去年剛完成了一本新書《Spark 2.x大數據分析與機器學習實戰》，深入淺出地介紹了開源串流大數據平臺Spark的運用方式，甚至連如何運用最夯的容器和Kubernetes來打造大數據分析平臺的作法，都有詳細的介紹。中文翻譯版本今年9月也在臺出版，趁著新書出版，他特地來臺分享最新的機器學習和資料科學趨勢。

「未來3年，IT技術不會有爆發式的成長！而是會一天天進步，逐漸成為我們日常生活的一部份。」工作坊會後時，Romeo Kienzler這樣對我說。

他更以語音助理和自駕車來說明。像Amazon的智慧語音助理Alexa，每一年都比前一年更進步，不只服務變多，也越來越聽得懂人話，甚至可以串接到更多生活中的裝置。而自駕車技術也是越來越聰明，例如最近加州有位開著Tesla電動車的Uber計程車駕駛，差點撞上一位婦人，但所幸，車上的自駕車輔助系統即時發現，緊急接手駕駛才避免了這次車禍。

「當AI變成日常生活之後，好的AI得依賴高品質的ML模型，」他說，人們越來越需要新的演算法、新的數學，關鍵得依靠開放政策，善用各種開源技術來開發產品，再透過開放技術給整個社群或生態系，才能讓這些技術和產品更加成熟。

像IBM的開放也是從技術開放做起，他解釋，雖然Watson服務沒有全面開放，但IBM也拆解了其中的部分技術開源釋出，例如IBM開發的開源機器學習平臺SystemML，現在已經捐給了Apache基金會管理，這是一個適合用來進行各種優化的機器學習平臺。在Romeo Kienzler新書中，還特別有專章介紹這個技術，「Spark很適合用來優化特定場域，」而SystemML可以優化在Spark上執行機器學習演算法。

格外留意機器學習優化的原因是，他認為：「各種優化，將會是接下來AI推進的方向。」尤其在資料科學家分析資料時，最花時間的其實有三類，資料蒐集、資料處理和可預期的實體工作，可以反過來藉助機器學習加以優化。若從產業應用來看，供應鏈優化也是接下來最有可能大幅改善的應用領域，例如改善供應鏈上的資料蒐集、資料處理，或者是供應鏈管理中的各種可預期的重複性工作。

不過，在資料分析中，運算力將會是一大挑戰，硬體將是一大挑戰。一個解法是善用雲端的基礎架構服務，這就得善用如Docker、Kubernetes等容器技術，或在雲端租用GPU來強化運算能力，另一個方式就是從用戶端的設備運算力著手，「這也是為何越來越多AI專用晶片問世的原因。」

他舉例，像是Nvidia的GPU嵌入式開發套件Jetson已經推出了第二版TX2，而連Google就跳出來發表了Edge TPU晶片，IBM自己也有一款神經突觸（neurosynaptic）晶片TrueNorth。

IBM早在2014年就發表了TrueNorth晶片，模擬人腦架構而設計的晶片。採用三星的28奈米製程，嵌有54億個電晶體，內有4096個核心，具備100萬個可程式化的神經元以及2.56億個可程式化的突觸。Romeo Kienzler透露，TrueNorth晶片目前已經進入產品化的階段，最近IBM將這款晶片與動態影像感測器（Dynamic Vision Sensor，簡稱DVS）結合，來分析人體動作和姿態，只需要200mW的低功率，就可以在0.1秒內辨識出人體的動作，準確度可以達96.5％。

「這類AI晶片最大的用途就是邊緣運算，可以把邊緣裝置或設備，變成了智慧邊緣裝置。」Romeo Kienzler強調，未來只需要資料彙整後，上傳到雲端來訓練演算法，再把訓練後的機器學習模型抽出，放入到裝置端進行推論。

現有邊緣運算三大難題，靠AI晶片可以解

他認為，過去的邊緣運算（Edge Computing）有三大難題，如何確保隱私、如何減少延遲、以及如何強化網路連線機制。若將AI能力帶入邊緣裝置，就可以解決這些挑戰。

例如IBM最近有飯店邊緣運算的實測，飯店管理平臺部署在雲端，可以透過雲端平臺的儀表版，來監控設置在飯店內各處的智慧邊緣裝置，可以用來聆聽顧客下達的語音指令，IBM將Watson服務API，放入了這些裝置，直接就在這些裝置上進行資料分析。

因為裝置具備了AI的能力，不用將原始資料傳回雲端才能處理，可以保留在裝置內，只需將處理後的結果回傳，「這就同時解決了隱私問題，後臺不需接觸到顧客原始資料。」而不用像過去得把所有資料都回傳到雲端分析，有些可以立即反應的行為，就可直接在裝置端立即回應給使用者，而不用等待雲端後臺的回應。減少了需要回傳資料的頻率和資料量，也有助於降低對網路連線的依賴。

而對雲端管理平臺而言，在IBM這個飯店實測中，後臺系統只需發出SQL指令給這些邊緣裝置，在裝置上進行資料處理和彙整，再把彙整後的統計結果回傳，就可在儀表版上即時看到整體狀態。「同樣不用上傳所有原始資料到雲端，可確保一定程度的隱私。」他說。

邊緣運算資料的價值可能幾毫秒就過期

Romeo Kienzler還從另一個角度來思考邊緣運算，「邊緣運算蒐集到的資料，甚至可能是一種只有幾毫秒價值的資料集。」

他同樣又以自駕車舉例，車上的自動煞車系統若能在發生車禍前，即時攔截到資訊，或偵測到有人或物體突然竄出到路中，立即採取行動，就能阻止車禍。從資料取得，完成分析，判斷出可能有事故，到採取行動，可能不到幾秒，而判斷處理的時間甚至不到1秒，超過時間，就來不及反應，等於資料的價值就消失了。「非得在邊緣裝置端處理才來得及，上傳雲端再回傳來反應，根本無法忍受。」Romeo Kienzler強調。

不過，將AI放入邊緣裝置，則會帶來一個新挑戰，就是分散式計算。他解釋，就算是把每一個小感測器的資料，集中到邊緣設備中，但每一個邊緣裝置得各自先處理，再來彙整上雲端，「這就需要一套分散式計算的資料處理流程。」

這也正是為何Romeo Kienzler所率領的其中一個團隊，開發了一款用Node.js框架打造的資料處理流程設計工具Node-RED，還開源釋出。在這款工具上，可以透過滑鼠拖拉元件的直覺式操作，來定義出資料從來源，經過不同的資料處理節點（例如邊緣設備或特定主機）到最後儲存到資料庫或應用系統的資料處理流程全程。因為採用網頁技術Node.JS來開發，可以部署到各種支援JavaScript的環境中。

Romeo Kienzler解釋，只需要設計出語義上的資料處理流程，這套工具可以自動轉換成分散式的實際資料處理流程和對應的配置、程式，再部署到不同的執行環境中。

這類工具可以讓企業或開發者，很容易地設計出IoT應用的資料處理流程。「未來甚至希望做到，開發者直接定義出，哪段資料處理流程上雲端，或是哪一段處理保留在邊緣裝置段，其餘部署，不論雲端或邊緣端，全部自動完成所需的動作。」他說，這是Node-RED未來的願景方向。

IoT感測器是最有價值的資料

目前，他認為：「產業應用上，最重要也最有價值的資料，就是來自IoT感測器的訊號。」因為這些資料沒有社交風險，也不容易有隱私問題，而且企業往往會累積或擁有大量資料，可以輕易地建立高度相關的機器學習模型，可以提供高品質的預測，尤其製造業手上有大把AI可運用的IoT感測器資料，他認為，這也是製造業擅長的臺灣，有史以來最大的機會。

企業打造自家的機器學習模型時，他提醒：「總要找尋找最簡單的模型。」過去的線性預測模型，資料科學家們很容易透過參數變化，輸入不同的數值來觀察結果，就能了解這個模型的意義，甚至用來解釋。但複雜的AI模型就不容易理解其運作，因此，「AI模型越簡單，越好，就可以交叉運用不同的資料點來比對，找出這個模型中，不同資料點產生的影響差異，甚至可以判斷出，哪些資料點是更有說服力的資料點，進而能對這個模型有概略的解釋。」

還有一個想要擁抱AI的企業，必須注意的事，「挑戰永遠來自資料的品質，資料若有偏見，就無法建立好的模型。」Romeo Kienzler強調。

他舉例，如在美國開始用AI來判斷一個犯人的刑期，如果AI模型有偏見，就會容易誤判，甚至侵犯了人權。目前不少資料集可能潛在著對女性或特定議題的偏見，因為資料不足所致，或是資料蒐集來源不均勻的後果，而導致了AI模型對女性的預測力較差。想要運用AI的企業，得意識到這一點，而不是全面信賴AI模型的結果。這也是現在開始有科技公司試圖採取不同作法，來改善AI偏見的緣故。

新一代大數據串流分析實戰經驗大公開

Spark是新一代大數據串流平臺，曾被譽為是Haoop的接班人，也成了許多矽谷科技新創打造大數據、AI、IoT應用的關鍵必備平臺。從2.0版以後，Spark更是強化了IoT串流資料分析需要的機制，更獲得數位製造、IoT應用業者的青睞。在這本書中，作者IBM Research首席資料科學家Romeo Kienzler以第二版Spark為主，包括Spark SQL、Catalyst優化器、Tungsten、Spark Streaming、結構化串流處理等大數據常用功能，另外也針對機器學習相關模組Spark MLlib、SparkML以及SystemML、深度學習、GraphX和GraphFrames圖學分析都有專門介紹，尤其會分享如何對這些資料分析作業進行優化的實務作法。最後還針對目前大數據分析和機器學習訓練，最常見的部署環境Kubernetes，有一章來介紹如何在Kubernetes上部署Spark，讓讀者可以快速建置妥出一套能快速擴充的實用Spark運算叢集，來進行大數據分析和機器學習訓練之用。

CTO小檔案

Romeo Kienzler

IBM Research首席資料科學家

學經歷：蘇黎世聯邦理工學院應用統計、生物資訊暨資訊系統碩士。2008年進入IBM擔任資料科學家和架構師。2015年成為首席資料科學家，在IBM蘇黎世雲端轉型實驗室工作。現在則是負責Watson IoT的首席資料科學家，也是IBM技術專家委員會與IBM技術學院的成員。他也身兼伯恩應用科學大學的AI助理教授。

公司檔案

IBM

● 成立時間：1911年

● 網址：www.ibm.com

● 執行長：Virginia Rometty

● 年營收：2017年791億美元

● 總部地址：總部位於美國紐約市，全球177國皆有據點。

● 全球員工人數：約36.6萬人（2017年）

公司大事紀

● 2004年：出售個人電腦事業部門，更聚焦企業市場

● 2009年：買下統計軟體SPSS，強化資料分析技術

● 2011年：IBM 新一代超級電腦 Watson20誕生，也展開了Watson認知服務的品牌和產品線

● 2012年：買下SoftLayer展開雲端布局

● 2014年：出售x86伺服器業務，更聚焦AI和雲端業務

● 2015年：併購兩大產業數據巨頭Merge Healthcare和The WeatherCompany

● 2016年：併購網路影平臺Ustream和健康分析公司Truven

● 2017年：整併旗下所有IBM雲端服務為單一品牌「IBM Cloud」

● 2018年10月：宣布以340億美元買下紅帽

● 2018年12月：出售Notes/Domino等產品，更專注進軍AI及混合雲

現有邊緣運算三大難題，靠AI晶片可以解

邊緣運算資料的價值可能幾毫秒就過期

IoT感測器是最有價值的資料

熱門新聞