IBM Research首席資料科學家Romeo Kienzler (攝影/洪政偉)

今年9月,臺北一場企業工作坊中,一位穿著休閒藍襯衫,夾腳拖鞋的鄰家大男孩,站在臺上又講又跳,但臺下的企業高層、IT主管、企業資料科學家們,AI技術開發者,卻都十分專注地聆聽。

這位年輕的講者,是IBM Watson IoT首席資料科學家Romeo Kienzler,也身兼伯恩應用科學大學的AI助理教授職務,是一位產學雙棲的資料科學家。

臺下還有不少人是他的書迷,等著演講後的簽名活動。這位專研資料探探勘、機器學習,甚至還有區塊鏈的Romeo Kienzler,去年剛完成了一本新書《Spark 2.x大數據分析與機器學習實戰》,深入淺出地介紹了開源串流大數據平臺Spark的運用方式,甚至連如何運用最夯的容器和Kubernetes來打造大數據分析平臺的作法,都有詳細的介紹。中文翻譯版本今年9月也在臺出版,趁著新書出版,他特地來臺分享最新的機器學習和資料科學趨勢。

「未來3年,IT技術不會有爆發式的成長!而是會一天天進步,逐漸成為我們日常生活的一部份。」工作坊會後時,Romeo Kienzler這樣對我說。

他更以語音助理和自駕車來說明。像Amazon的智慧語音助理Alexa,每一年都比前一年更進步,不只服務變多,也越來越聽得懂人話,甚至可以串接到更多生活中的裝置。而自駕車技術也是越來越聰明,例如最近加州有位開著Tesla電動車的Uber計程車駕駛,差點撞上一位婦人,但所幸,車上的自駕車輔助系統即時發現,緊急接手駕駛才避免了這次車禍。

「當AI變成日常生活之後,好的AI得依賴高品質的ML模型,」他說,人們越來越需要新的演算法、新的數學,關鍵得依靠開放政策,善用各種開源技術來開發產品,再透過開放技術給整個社群或生態系,才能讓這些技術和產品更加成熟。

像IBM的開放也是從技術開放做起,他解釋,雖然Watson服務沒有全面開放,但IBM也拆解了其中的部分技術開源釋出,例如IBM開發的開源機器學習平臺SystemML,現在已經捐給了Apache基金會管理,這是一個適合用來進行各種優化的機器學習平臺。在Romeo Kienzler新書中,還特別有專章介紹這個技術,「Spark很適合用來優化特定場域,」而SystemML可以優化在Spark上執行機器學習演算法。

格外留意機器學習優化的原因是,他認為:「各種優化,將會是接下來AI推進的方向。」尤其在資料科學家分析資料時,最花時間的其實有三類,資料蒐集、資料處理和可預期的實體工作,可以反過來藉助機器學習加以優化。若從產業應用來看,供應鏈優化也是接下來最有可能大幅改善的應用領域,例如改善供應鏈上的資料蒐集、資料處理,或者是供應鏈管理中的各種可預期的重複性工作。

不過,在資料分析中,運算力將會是一大挑戰,硬體將是一大挑戰。一個解法是善用雲端的基礎架構服務,這就得善用如Docker、Kubernetes等容器技術,或在雲端租用GPU來強化運算能力,另一個方式就是從用戶端的設備運算力著手,「這也是為何越來越多AI專用晶片問世的原因。」

他舉例,像是Nvidia的GPU嵌入式開發套件Jetson已經推出了第二版TX2,而連Google就跳出來發表了Edge TPU晶片,IBM自己也有一款神經突觸(neurosynaptic)晶片TrueNorth。

IBM早在2014年就發表了TrueNorth晶片,模擬人腦架構而設計的晶片。採用三星的28奈米製程,嵌有54億個電晶體,內有4096個核心,具備100萬個可程式化的神經元以及2.56億個可程式化的突觸。Romeo Kienzler透露,TrueNorth晶片目前已經進入產品化的階段,最近IBM將這款晶片與動態影像感測器(Dynamic Vision Sensor,簡稱DVS)結合,來分析人體動作和姿態,只需要200mW的低功率,就可以在0.1秒內辨識出人體的動作,準確度可以達96.5%。

「這類AI晶片最大的用途就是邊緣運算,可以把邊緣裝置或設備,變成了智慧邊緣裝置。」Romeo Kienzler強調,未來只需要資料彙整後,上傳到雲端來訓練演算法,再把訓練後的機器學習模型抽出,放入到裝置端進行推論。

現有邊緣運算三大難題,靠AI晶片可以解

他認為,過去的邊緣運算(Edge Computing)有三大難題,如何確保隱私、如何減少延遲、以及如何強化網路連線機制。若將AI能力帶入邊緣裝置,就可以解決這些挑戰。

例如IBM最近有飯店邊緣運算的實測,飯店管理平臺部署在雲端,可以透過雲端平臺的儀表版,來監控設置在飯店內各處的智慧邊緣裝置,可以用來聆聽顧客下達的語音指令,IBM將Watson服務API,放入了這些裝置,直接就在這些裝置上進行資料分析。

因為裝置具備了AI的能力,不用將原始資料傳回雲端才能處理,可以保留在裝置內,只需將處理後的結果回傳,「這就同時解決了隱私問題,後臺不需接觸到顧客原始資料。」而不用像過去得把所有資料都回傳到雲端分析,有些可以立即反應的行為,就可直接在裝置端立即回應給使用者,而不用等待雲端後臺的回應。減少了需要回傳資料的頻率和資料量,也有助於降低對網路連線的依賴。

而對雲端管理平臺而言,在IBM這個飯店實測中,後臺系統只需發出SQL指令給這些邊緣裝置,在裝置上進行資料處理和彙整,再把彙整後的統計結果回傳,就可在儀表版上即時看到整體狀態。「同樣不用上傳所有原始資料到雲端,可確保一定程度的隱私。」他說。

邊緣運算資料的價值可能幾毫秒就過期

Romeo Kienzler還從另一個角度來思考邊緣運算,「邊緣運算蒐集到的資料,甚至可能是一種只有幾毫秒價值的資料集。」

他同樣又以自駕車舉例,車上的自動煞車系統若能在發生車禍前,即時攔截到資訊,或偵測到有人或物體突然竄出到路中,立即採取行動,就能阻止車禍。從資料取得,完成分析,判斷出可能有事故,到採取行動,可能不到幾秒,而判斷處理的時間甚至不到1秒,超過時間,就來不及反應,等於資料的價值就消失了。「非得在邊緣裝置端處理才來得及,上傳雲端再回傳來反應,根本無法忍受。」Romeo Kienzler強調。

不過,將AI放入邊緣裝置,則會帶來一個新挑戰,就是分散式計算。他解釋,就算是把每一個小感測器的資料,集中到邊緣設備中,但每一個邊緣裝置得各自先處理,再來彙整上雲端,「這就需要一套分散式計算的資料處理流程。」

這也正是為何Romeo Kienzler所率領的其中一個團隊,開發了一款用Node.js框架打造的資料處理流程設計工具Node-RED,還開源釋出。在這款工具上,可以透過滑鼠拖拉元件的直覺式操作,來定義出資料從來源,經過不同的資料處理節點(例如邊緣設備或特定主機)到最後儲存到資料庫或應用系統的資料處理流程全程。因為採用網頁技術Node.JS來開發,可以部署到各種支援JavaScript的環境中。

Romeo Kienzler解釋,只需要設計出語義上的資料處理流程,這套工具可以自動轉換成分散式的實際資料處理流程和對應的配置、程式,再部署到不同的執行環境中。

這類工具可以讓企業或開發者,很容易地設計出IoT應用的資料處理流程。「未來甚至希望做到,開發者直接定義出,哪段資料處理流程上雲端,或是哪一段處理保留在邊緣裝置段,其餘部署,不論雲端或邊緣端,全部自動完成所需的動作。」他說,這是Node-RED未來的願景方向。

IoT感測器是最有價值的資料

目前,他認為:「產業應用上,最重要也最有價值的資料,就是來自IoT感測器的訊號。」因為這些資料沒有社交風險,也不容易有隱私問題,而且企業往往會累積或擁有大量資料,可以輕易地建立高度相關的機器學習模型,可以提供高品質的預測,尤其製造業手上有大把AI可運用的IoT感測器資料,他認為,這也是製造業擅長的臺灣,有史以來最大的機會。

企業打造自家的機器學習模型時,他提醒:「總要找尋找最簡單的模型。」過去的線性預測模型,資料科學家們很容易透過參數變化,輸入不同的數值來觀察結果,就能了解這個模型的意義,甚至用來解釋。但複雜的AI模型就不容易理解其運作,因此,「AI模型越簡單,越好,就可以交叉運用不同的資料點來比對,找出這個模型中,不同資料點產生的影響差異,甚至可以判斷出,哪些資料點是更有說服力的資料點,進而能對這個模型有概略的解釋。」

還有一個想要擁抱AI的企業,必須注意的事,「挑戰永遠來自資料的品質,資料若有偏見,就無法建立好的模型。」Romeo Kienzler強調。

他舉例,如在美國開始用AI來判斷一個犯人的刑期,如果AI模型有偏見,就會容易誤判,甚至侵犯了人權。目前不少資料集可能潛在著對女性或特定議題的偏見,因為資料不足所致,或是資料蒐集來源不均勻的後果,而導致了AI模型對女性的預測力較差。想要運用AI的企業,得意識到這一點,而不是全面信賴AI模型的結果。這也是現在開始有科技公司試圖採取不同作法,來改善AI偏見的緣故。

 

新一代大數據串流分析實戰經驗大公開

Spark是新一代大數據串流平臺,曾被譽為是Haoop的接班人,也成了許多矽谷科技新創打造大數據、AI、IoT應用的關鍵必備平臺。從2.0版以後,Spark更是強化了IoT串流資料分析需要的機制,更獲得數位製造、IoT應用業者的青睞。在這本書中,作者IBM Research首席資料科學家Romeo Kienzler以第二版Spark為主,包括Spark SQL、Catalyst優化器、Tungsten、Spark Streaming、結構化串流處理等大數據常用功能,另外也針對機器學習相關模組Spark MLlib、SparkML以及SystemML、深度學習、GraphX和GraphFrames圖學分析都有專門介紹,尤其會分享如何對這些資料分析作業進行優化的實務作法。最後還針對目前大數據分析和機器學習訓練,最常見的部署環境Kubernetes,有一章來介紹如何在Kubernetes上部署Spark,讓讀者可以快速建置妥出一套能快速擴充的實用Spark運算叢集,來進行大數據分析和機器學習訓練之用。

 

CTO小檔案

Romeo Kienzler

IBM Research首席資料科學家

學經歷:蘇黎世聯邦理工學院應用統計、生物資訊暨資訊系統碩士。2008年進入IBM擔任資料科學家和架構師。2015年成為首席資料科學家,在IBM蘇黎世雲端轉型實驗室工作。現在則是負責Watson IoT的首席資料科學家,也是IBM技術專家委員會與IBM技術學院的成員。他也身兼伯恩應用科學大學的AI助理教授。

 

公司檔案

IBM

● 成立時間:1911年

● 網址:www.ibm.com

● 執行長:Virginia Rometty

● 年營收:2017年791億美元

● 總部地址:總部位於美國紐約市,全球177國皆有據點。

● 全球員工人數:約36.6萬人(2017年)

公司大事紀

● 2004年:出售個人電腦事業部門,更聚焦企業市場

● 2009年:買下統計軟體SPSS,強化資料分析技術

● 2011年:IBM 新一代超級電腦 Watson20誕生,也展開了Watson認知服務的品牌和產品線

● 2012年:買下SoftLayer展開雲端布局

● 2014年:出售x86伺服器業務,更聚焦AI和雲端業務

● 2015年:併購兩大產業數據巨頭Merge Healthcare和The WeatherCompany

● 2016年:併購網路影平臺Ustream和健康分析公司Truven

● 2017年:整併旗下所有IBM雲端服務為單一品牌「IBM Cloud」

● 2018年10月:宣布以340億美元買下紅帽

● 2018年12月:出售Notes/Domino等產品,更專注進軍AI及混合雲

熱門新聞

Advertisement