微軟亞洲研究院的所在地北京,是全球空氣污染惡名昭彰的城市,整座都市時常處於一片灰濛濛的霧霾中。其他城市不受歡迎的颳風下雨,在北京市民的眼中,卻是迎接明日藍天白雲、清新空氣的好預兆。

在臺灣很多人都沒聽過PM 2.5(細懸浮微粒),但許多北京市民卻非常注意這項代表空氣品質的指標。PM 2.5是指空氣中粒徑小於2.5微米的細懸浮微粒,大小約是髮絲的三十分之一而已,因而能直接進入肺部的深處。在空氣污染嚴重的地區,PM 2.5微粒通常會附著一些有害的物質,像是重金屬或是多環芳香烴等經證實會致癌的有害物質,而直接進入人體肺部深處。今年10月,世界衛生組織(WHO)亦首度將戶外空氣污染,列為最高等級的第一類致癌物。

傳統空氣品質監測的極限
近年來中國許多城市的PM 2.5數值不時飆高,美國大使館在北京監測的數據,甚至一度超過儀器的上限。一起生活在北京市的微軟亞洲研究院的電腦科學家,自然也就將其擅長的技術運用在城市空氣品質的預測。

微軟亞洲研究院現場示範的U-Air空氣品質預測系統,已經能提供即時空氣品質預測,不論你選擇北京、上海等城市的任何一個角落,該系統都能提供即時的PM 2.5推估值。

微軟研究員鄭宇指出,傳統分析城市空氣品質的作法,是依賴空氣監測站的分析數據,例如北京官方就設立了22個空氣品質監測站。但即使有22個監測站,對一座城市來說覆蓋率依然很低,再者城市的空氣品質其實並不一致,受到交通流量、房屋密度、建築物造形、綠地等影響,城市裏緊鄰區域的空氣品質有可能落差很大,而傳統仰賴空氣監測站的做法,除非是廣泛設立監測站,否則是難以針對更小的區域提供空氣品質的監測資訊。但是空氣品質監測站價格不菲,事實上是難以大量部署。

大資料分析可預測城市各處空氣品質
微軟亞洲研究院開發的U-Air空氣品質預測系統,利用大資料與機器學習技術,從空氣監測站的歷史與即時數據,結合交通、地型、地物等相關資料一起分析,可針對城市內任一定點方圓1公里的空氣品質提出預測。

分析5種影響空氣品質的異質資料集,建立空氣品質分析模型

微軟的做法則是利用大資料(Big Data)分析技術,提供城市各角落的空氣品質預測。鄭宇表示,U-Air的作法是除了空氣監測站的即時數據外,再結合5種異質資料集一起分析,包括氣象資訊、交通流量、人群移動、城市據點(如車站、大樓、飯店、停車場、公園等等)及道路結構等資料。利用機器學習的技術,微軟研究員從這些大量的資料中,找出空氣品質的分析模型。再以這個模型為基礎,就能依據即時的空氣監測數據、交通流量等數據,以及各地區的地形、地物等資訊,提出城市任一地點的空氣品質預測。

在我們採訪的當天,U-Air系統推測微軟亞洲研究院所在地的PM 2.5數值是131(微克/每立方公尺),屬輕度污染程度,抬頭朝玻璃窗望去,戶外看起來有些矇矓,確實不太好。鄭宇接著拿起手機,開啟U-Air的Windows Phone App,其中已經預設其住家的位置,顯示PM 2.5數值為153,比微軟亞洲研究院還要高。

 

針對多項空氣品質指標提出預測
在採訪當天,U-Air系統的即時預測數據顯示,北京的空氣品質狀況不太好,有許多地區的PM 2.5值都已經達到中度污染的程度。

至於預測的準確率如何,鄭宇開啟另一項資料,顯示當下北京市的PM 2.5預測準確率達到84%,而上海市的預測準確率則超過9成。他指出,U-Air系統每個小時會比對預測結果與監測站的數據,以驗證分析預測的準確度。若只由監測站的歷史資料來分析未來趨勢,傳統作法的準確率只有60%,而把監測站的歷史資料結合上述的5種資料集,準確率就能超過80%。倘若不計算這5種資料集中的流量類型資料,那麼準確率就會降到76%,「每多加一項資料集,都有它的價值。」他說。

 

預測準確率超過9成
U-Air系統每隔1小時會比對空氣監測站的即時資料,以了解系統的預測準確率。由圖中上海市的空氣品質預測結果來看,多項空氣品質預測都有9成以上的準確率。

U-Air像是神奇的空氣品質算命師,但其背後的作法其實很複雜,鄭宇表示,最主要的關鍵是大資料分析與異質資料融合。以前預測空氣品質的方法是分析監測站的歷史數據,只著重單一資料在時序上的變化,微軟U-Air則是融合時間與空間數據等異質資料,透過半監督的機器學習模型來分析、預測。例如其中一個機器學習的模型,是分析交通流量對空氣品質的影響,分析模型除了建立資料的時序關係,還要分析空間關係。

5分鐘完成北京市空氣分析,大資料處理方法與能力是關鍵
鄭宇指出,大資料處理方法與處理能力非常重要。大資料的處理分法並非在一開始找出精確資料,而是用更模糊的方法,把許多資料匯整起來,以機器學習的方法,從許多資料中找出特徵,學習資料之間的相關性。也因為這些巨量、異質資料要放到一個大模型去分析,才能找出相關性,因此需要擁有巨量資料的處理能力,因為實際上處理的資料量非常大,而且計算速度要非常快,才能提出即時的分析。

微軟U-Air系統在5分鐘內就能分析整個北京市的空氣品質,鄭宇表示,分析速度快的關鍵不在於硬體設備,因為這套系統其實只靠1臺伺服器運行,而且不是什麼大型設備。真正的關鍵在於機器學習、資料管理與資料協同運算等技術的突破。他說,若沒有大資料技術的突破,傳統作法需要2、3個小時才能完成資料分析,對於即時空氣品質分析這樣的應用根本派不上用場。如果沒有大資料的處理能力與可行的分析方法,是不可能實現這樣的預測系統。

微軟亞洲研究院目前尚未對外公開U-Air,不過相關的網站與手機App都已經實際在運作。鄭宇說,未來的應用甚至可以透過手機的即時資訊,建議路跑者空氣品質最佳的路線。

 

手機App立即掌握空氣品質
微軟同時也開發U-Air的Windows Phone App,使用者由手機就能隨時知道城市中各個地點的空氣品質狀況。這套系統未來甚至可以依據預測數據,建議空氣品質最佳的路跑路線

熱門新聞

Advertisement