微軟亞太區資料科學總監Graham Williams

圖片來源: 

iThome

微軟在2015年併購R語言工具商Revolution Analytics之後,隨即在2016年,也開始在自家主力開發工具Visual Studio上,支援R語言。微軟將如何定位R語言在微軟開發工具鏈的位置?微軟亞太區資料科學總監Graham Williams直言:「R是Visual Studio生態系的第一公民!」

擁有30年資料探勘研究經歷的Graham Williams,是運用R語言來進行資料探勘研究的先驅之一,早在10年前更開發一款R語言資料探勘的圖形化工具Rattle。

他在2016年進入微軟,曾是澳洲國稅局首席資料科學家,超過10年投入各種稅務、海關、健保、金融分析研究。他也是R社群基礎入門教材的重要貢獻者之一。

「R是資料科學家最常用的分析工具!」Graham Williams一語點出目前分析工具的使用現狀,他認為,R能夠成為最多資料科學家使用的工具,不僅是因為R是個開源且免費的工具,R更是資料科學家的生態圈。

他表示,R軟體的生態圈中,有來自世界各地的資料科學家、統計學家、機器學習工程師等開發人員,都會使用R,若發現需要解決的問題,就會貢獻套件(Package)到R的CRAN(Comprehensive R Archive Network)中。

目前整個生態圈的資料科學家貢獻的套件,已高達10,450個,「身為一個資料科學家,我擁有10萬多的套件可以完成我的任務,」他舉例,無論是時間序列的分析、金融預測分析和機器學習演算法,R都有相對的資源可以運用。

除此之外,Graham Williams也補充,R軟體與其他分析工具也可以相容,像是數據分析軟體Weka,在R軟體中也可以直接呼叫Weka的套件來使用。

他認為,對資料科學家而言,R是個很強大的工具,因為只要單一工具,就可以使用相當多元的資源。

R軟體很大的優點就是有許多套件可以使用,不過,R的套件是誰在管理的呢?「R其實分為兩個部分,一小部分由R核心團隊管理,剩下的另一部分,開發人員可以貢獻經過官方審核的套件到CRAN中,」Graham Williams表示。

一般來說,開發人員貢獻的套件必須經過縝密的審核,符合核心團隊要求的套件,才能放入CRAN,而R核心團隊則負責小於100個重要的套件,且有權利修改R軟體。

Visual Studio整合R,打破兩大限制

在2015年微軟併購Revolution Analytics後,Graham Williams強調,微軟在Visual Studio上將R視為第一優先順位,提供資料科學家R語言工具R Tools for Visual Studio(RTVS),而且,R Studio所擁有的功能RTVS幾乎都有。

他認為,RTVS可以讓資料科學家不須要重新適應開發環境,可以直接在Visual Studio中使用R。

Graham Williams表示,數據分析生命週期需要完整的管理機制,Visual Studio可以提供企業監督和管理大數據開源工具的平臺,讓資料科學家在同一個平臺上,運用許多資料科學的工具。

舉例來說,Visual Studio提供R、Python、Spark和Hadoop等這些資料科學的工具,甚至,還提供資料倉儲管理和版本管理的功能。

除此之外,Graham Williams表示,微軟還突破了開源R軟體的兩項限制:第一,微軟解決了R只能分析符合記憶體的資料量,讓資料科學家能夠分析任何大小的資料量。

第二,原本開源的R只能執行單一執行緒,但是機器學習的演算法往往需要多執行緒的請求方式,Microsoft R則提供資料科學家能夠靈活地運用多執行緒。

Python和R不是競爭關係,而要共存

不過,除了R語言之外,另一個語言Python在資料科學界也越來越火紅,Graham Williams認為,開源的環境不是競爭的關係,而是和諧共存。

「我不會希望把資料科學家綁死在R,」他坦言,其實開源軟體的優勢就是,開發人員有很高的自由度可以選擇自己的工具,資料科學家可依照自己的情況,選擇最好的工具。

「我可以自由地選擇最適合我的工具,再將其他資源整合到我的生態圈,」Graham Williams指出,一般資料科學家習慣同一個環境下執行數據分析,若分析過程需要新的工具,就會將其他的工具套用進原本的環境中。

他認為,R和Python各自有不可取代的優點,像是R同時具有統計和機器學習的生態圈,或許在資料科學的領域,會維持很長一段時間領先的地位,但Python有好的套件可以串接到Hadoop和Spark。

除了這兩大數據分析語言,他也不排除,未來或許會有更新、更好的語言會出現,像是近期就有新的語言Julia出現。

「以前執行資料科學的專案,需要花費3年的時間,現在,只要5分鐘就能完成!」他說。

Graham Williams表示,現在因為有許多工具,可以讓企業的資料科學家自由地調度雲端上的運算能力,和使用各式各樣的分析工具,讓資料科學變得方便又快速,不僅如此,還可以為企業省下大筆的花費。

他指出,過去,多數企業購買了許多超級電腦來運行數據分析,還需花費資金和人力,來維護硬體設備,不過,實際運用到的資源卻不到10%,他表示,若是利用雲端上的資源,企業則可以省去建置環境的過程,並且依照使用量付費。

即使雲端運算有如此吸引人的優點,Graham Williams坦言,許多企業和政府機關對於內部的資料上雲端還是有很大的疑慮。

不過,他表示,加密的技術早就已經相當純熟,就像我們在使用的Dropbox、Google Drive等,技術可以確保資料不會外洩,只有資料的擁有人可以存取。

他認為,科技不是問題,而是要慢慢建立起企業對雲端的信任感,他也坦言,企業對資料上雲端的疑慮,是微軟目前面臨的狀況。

整合個人異質數據,更能創造資料科學新商機

對於害怕將資料上雲端的人,Graham Williams也建議,其實每個人都握有個人自身的數據,且擁有唯一的權限,可以存取數據,「若能將所有分散的異質數據整合起來,可以做到非常驚人的數據分析!」

他進一步舉例,只有自己個人知道自己有幾家銀行的戶頭,也只有自己可以存取這些資料,一家銀行只會知道客戶一個帳戶的資訊,且不會與其他銀行分享資訊。

比方說,若銀行開發一款App,能夠提供消費者在個人裝置上,像是智慧型手機,透過整合分散的異質資料,包括銀行的帳戶、稅務資訊和社群軟體的數據等,分析預測自己的投資組合或是財務狀況。

「提供機器學習演算法的模型,讓客戶在個人裝置執行分析,能創造出更多的商機,」Graham Williams舉例,使用者可以藉由分析結果來管理自己的財務,企業也可以增加推薦行銷的機會,提供客戶理財的建議與方案。

不過,他也坦言,由於企業必須在沒有取得客戶資料的情況下,先建置出精準的分析模型,提供給客戶使用,這樣的工作其實相當困難。

除此之外,Graham Williams預測,未來,機器學習和深度學習演算法,將不再局限於超級電腦或是雲端的執行環境中,可以變得更貼近我們的生活,普及在個人裝置上運行。

Visual Studio提供的R語言工具RTVS幾乎涵蓋R Studio的所有功能,讓資料科學家能在熟悉的環境完成資料分析任務,就連分析流程中重要的資料可視化,都能在繪製視窗中一一呈現,進而提升資料科學流程效率。(圖片來源/微軟)

熱門新聞

Advertisement