iThome
微軟在臺首度揭露倫敦地鐵採用Azure機器學習(Azure Machine Learning)和大資料分析來預測電梯或電扶梯需要保養或維修的時間點,來維持地鐵平日的營運,解決倫敦地鐵過去需要靠大量人力,且僅依靠經驗判斷的困難。
倫敦地鐵是全世界第三大的地鐵網路,總長為402公里,共有11條路線、270個車站,平均每日載客量高達304萬人,根據維基百科資料,倫敦地鐵早在1911年於伯爵府地鐵站安裝第一部電扶梯後,至今共有426部電扶梯,以及164部電梯,由於建設無障礙設施的需要,電梯數量近年來也不斷增加。
倫敦地鐵透過感測器記錄各個地鐵站內各區域的使用量,在多處如鐵軌、火車、電梯、電扶梯等設備上,設有累計上萬個感測器(Sensor)即時蒐集地鐵硬體設備的各種資料,如溫度、濕度、振動等。
微軟全球資料平臺總監湯中權表示,感測器蒐集的資料會即時傳回倫敦地鐵的中央控制中心和Azure機器學習來進行預測分析,分析後就會產生維修預警,例如警告某臺電梯或電扶梯可能故障的時間點,倫敦地鐵就是藉此方法來預防電梯故障。
另外,湯中權也表示,機器學習基本的觀念就是要有資料(Data)、模型(Model)等,接著把資料餵進機器學習的系統中,開始訓練機器,利用資料和參數來控制機器,而機器在每一次的學習和訓練中都會優化預測精準度。而預測分析(Predictive Analysis)在全球是很熱門的議題,也可以協助企業做顧客流失的分析、社群聆聽(Social Listening)、推薦引擎(Recommendation Engine)等。
臺灣微軟營運暨行銷事業群副總經理周旺暾表示,機器學習就是藉由蒐集大量歷史資料來分析預測結果,而傳統的資料分析則是在分析現有的資料,但是分析資料的目的是更想知道能不能預測未來,以及作為未來決策的判斷。所以微軟就利用歷史資料來訓練電腦,其實就是不斷優化參數,模擬目前資料,預測未來會發生的事情。
微軟全球資料平臺總監湯中權表示,機器學習基本的觀念就是要有資料、模型等,接著把資料餵進機器學習的系統中,開始訓練機器,利用資料和參數來控制機器,而機器在每一次的學習和訓練中都會優化預測精準度。
利用歷史資料訓練機器學習預測電梯維修時間
當電梯運載量大的時候,電梯比較容易故障,可是過去並沒有辦法知道電梯故障的時間,僅能依靠人為判斷,所以電梯會在固定的時間維修。但是現在在電梯上裝感測器就可以知道有多少人通過電梯、電梯的速度、密度等資料,但是僅憑這些資料也無法判斷電梯故障的時間,所以除了這些資料外,再累積維修記錄的資料,就可以預測電梯經過多少使用率、負載率之後需要保養或維修。
周旺暾表示,透過機器學習就可以不需要依靠人為經驗來判斷電梯需要保養維修的時間,而是訓練機器利用歷史資料來預測電梯的維修時間,也因為電梯可能某個地方的運載量特別大,所以可以藉由系統和歷史資料的分析來提醒地鐵人員電梯需要保養的時間,例如上潤滑油、更換某些驅動設備等。
由倫敦地鐵電梯維修預測的案例中可以發現,如果只是單純依靠技術人員的經驗來判斷可能不夠精準,且當考量到很多因素時,包含運載的溫度、當時的溫度、通過的流量、運行的密度、累積的運作次數等,利用電腦來蒐集這些資料並且分析,就可以預測電梯何時需要維修保養。
機器學習與SSIS使用介面及概念皆相似
微軟全球數據科學卓越中心資深架構師Rich Ho也表示,在大資料的時代,資料快速成長,企業面臨的資料來源多,應用場景也多,因此需要技術、產品或解決方案來因應。
而在大資料時代中,企業無可避免要用一些方法來處理過去難以處理的非結構化資料,各大廠商包含微軟決定採用Hadoop來處理非結構化資料。Rich Ho則表示,當微軟決定部署Apache Hadoop到Windows Server上,這個消息令人震驚,因為當時微軟內部的人都知道微軟屬於較為封閉的軟體帝國,甚至在內部都不能談論開源應用,所以此決定也表示微軟開始擁抱開源。
亞洲資採技術長尹相志表示,要從大量資料中得到效益,無非就是利用歷史資料來產生許多預測結果,以掌握使用者行為,企業就可以根據這些行為和結果來最佳化資源。
尹相志表示,基本上透過資料就可以從中找出規則,但是不可能用人工的方式來看這些資料且進行判斷。而機器學習的技術就是幫助使用者透過一些演算法,從大量資料中快速找出有意義的規則,包含分類、分群等,可以利用這些方式歸納顧客的行為模式,並且應用在商業上,例如,房貸、信用卡等,也可以透過機器學習來預測顧客流失率。
微軟機器學習的使用介面與Windows Server中的SSIS極為相似,而兩者的概念也非常相像。基本上,微軟的機器學習把所有資料來源、資料庫分析、處理等變成一個一個的節點。另外,機器學習也可以透過瀏覽器存取,將分析功能透過流程圖的模式進行設計,且使用者還可以用拖拉的方式來設計流程。
此外,機器學習還包含了資料源的存取、資料清理(例如,抽樣、樣本切割、計算欄位等)、敘述性統計、有效變數選取、建立預測模型、評估預測模型、應用預測模型等。
Rich Ho補充,微軟將一些演算法建立成一個模組(Module),類似SSIS的封裝,而SSIS要做ETL就是用拖拉的方式來決定資料來源、資料目的地等。而微軟機器學習裡也像SSIS一樣有一些方塊,這些方塊則是代表各種演算法。
使用者可以透過微軟機器學習的使用者介面來儲存各種上傳的資料集(Data Set)、在雲端裡的資料來源等,除了資料讀取外還可以寫回資料,所以預測結果可以寫回雲端的資料來源中。微軟機器學習除了資料轉換外,還有內建的各種演算法、迴歸等統計模型,使用者只需要拖拉圖形,就可以連結裡面的流程和節點。
而在系統分析出行為變數後,到底哪些和使用者想要預測的行為模式是相關的?而這在過去需要大量的人工來統計檢定,不過,在微軟機器學習中有內建自動特徵選取(Feature Selection),也就是說,使用者只要在系統設定想預測的事情,系統就會自動在後臺逐一掃描使用者需要放進系統分析的變數,透過這樣的方式來協助使用者找尋出這些影響變數中最重要的關鍵變數,接著使用者就可以利用關鍵變數來建立統計模型。
新型態的演算法
尹相志表示,微軟其實在SQL Server 2005時致力於資料採礦的研究,不過從SQL Server 2005到SQL Server 2014之間並未出現太大的改版,但這並不表示微軟不重視資料採礦,而是微軟還在思考要用何種方式來推出,其實在微軟亞洲研究院一直有在做大資料的相關研究和分析。
微軟在演算法的更新上,除了常見的決策樹(Decision Tree)外,還推出了決策森林(Decision Forest)和決策叢林(Decision Jungle)的演算法。
在大資料分析中,資料的關係和關聯是很微薄的,只透過一個模型和一個方程式來評估使用者的行為模式很可能會預測失準,那該如何確保預測是正確的?
所以微軟設計出決策森林,以N棵決策樹投票表決,如果設計的100棵決策樹中,有70棵認為使用者會購買,那預測結果就會顯示該名使用者可能會有購買行為。如此,決策森林可以降低模型的失效率。
除了決策森林外,微軟還推出決策叢林演算法,相較於以前的決策樹是單向式一層層往下區分的樹狀結構,決策叢林可以再把多棵決策樹彼此之間的節點再互相融合,來達到更高的信度和效度。
而微軟機器學習相較於SAS和SPSS的優勢在於,使用者可以依照使用的時間和空間計價,所以並不是一次性買斷。另外,即使微軟沒有像SAS和SPSS這些統計軟體公司累積了幾十年的背景,但是微軟在機器學習內預裝了410種R語言封裝。此外,使用者還可以自行載入自行開發的R語言封裝,而R語言封裝也能夠與分析流程前後的資料流整合。
除了整合外,微軟機器學習可以將R語言的執行融合到資料流程中,例如,可以從mapInputPort中讀取到上一個節點傳進來的資料,並且轉換為R語言的物件, 接著交由R語言執行後,再將結果轉為一個資料集,再傳回微軟機器學習系統中。
也就是說微軟機器學習可以從前一個節點讀取資料,經過整理後再將結果傳回系統中。而微軟就是透過這種方式來擴充目前機器學習能夠做到的範圍。另外,微軟機器學習也支援R裝置(R Device)。
周旺暾表示,微軟目前還在測試機器學習產出的模型的可能性,微軟已經用機器學習分析,例如Bing的社群應用,可以利用機器學習得知每個人搜尋行為的差異性,來優化使用者搜尋的結果,或是推薦給使用者的廣告也會因而不同。
另外,周旺暾也表示,Office 365也已經用機器學習來分析垃圾信件,而垃圾信件有時候就像病毒,如果只是掃描病毒特徵,病毒只要改變一下特徵,傳統掃描就無法找到病毒了。
資料價值如何衡量?
微軟全球資料平臺總監湯中權提出資料價值的公式,也就是如何用企業裡現有的資料,無論是數據、資料、結構性資料、非結構性資料等,從資料中創造營收。
資料價值的公式分為5個部分,包含多元的資料流、新一代的分析工具、更多的使用對象、速度和創造營收。
湯中權也提出資料文化(Data Culture)的觀念,他說,在企業中要充分利用各種不同的資料,也就是多元的資料流,無論是企業現有的內部系統資料(Internal System),或是從外部社群網站、感測器(Sensor)等資料。
而這些資料包含結構性資料、非結構性資料和即時串流資料,湯中權表示,這些類型的資料越來越多,企業能從中找到的價值也就越多。
但是湯中權也說,光有資料是不夠的,還需要工具來分析,而全世界廣受歡迎的BI工具就是Excel,所以微軟將新一代的BI工具都放到Excel裡,包括了Excel、Power Pivot、Power View、Power Query、Power Map等,這些都是新版Excel的功能,能讓使用者能夠更充分利用Power BI的工具。
而有了這些分析工具後,合適的使用對象又是哪些人呢?湯中權表示,企業內部的使用者不需要再仰賴資料庫管理師或資料科學家等專家來協助資料分析,使用者自己就可以利用這些工具來分析資料。
除了多元的資料流、分析工具和使用對象外,還要有速度,面臨物聯網時代的來臨,現今資料蒐集和累積的速度相較於以往快很多,所以需要很快的處理和分析,從中找出資料中的價值。
而這個資料價值的公式就是能夠讓企業從資料中創造營收,根據微軟和IDC的估計,4年內,從資料中創造的營收可以達到1.6兆美元。
熱門新聞
2024-12-24
2024-12-22
2024-08-14
2024-12-20
2024-11-29