SEEDS(Scalable Ensemble Envelope Diffusion Sampler)模型能夠生成比傳統方法多一個量級的樣本。

Google發表最新的天氣預報研究,其採用一種稱為機率擴散模型(Probabilistic Diffusion Model)的生成式人工智慧技術,開發出SEEDS(Scalable Ensemble Envelope Diffusion Sampler)天氣預報模型。SEEDS可以有效地大規模產生天氣預報系集(Ensemble),成本僅為傳統物理預報模型的一小部分,而這是原本僅被用於生成式人工智慧應用的機率擴散模型,在天氣預報上的創新應用。

機率擴散模型是一種基於機器學習的生成式人工智慧技術,模型的運作主要分為二步驟,第一步驟是添加雜訊,從原始資料逐步增加隨機雜訊,直到資料完全變成隨機雜訊,這個過程被稱為前向擴散,以圖片當作例子,就像是在一張清晰的圖片逐漸添加雜訊點,直到圖片上滿是隨機雜訊。

第二步驟則是移除雜訊,機率擴散模型進行反向擴散,學習將充滿雜訊的資料移除雜訊,最終恢復出接近原始資料的新資料。同樣以圖片為例,也就是清理滿是雜訊的圖片,嘗試恢復出原來的景物,或是創造出全新的圖片。

機率擴散模型中的機率性,指的便是去雜訊的過程,模型在每一步都會考慮多種去雜訊的可能路徑,每一條路徑都可能產生略有不同的結果。這代表即便機率擴散模型處理非常相似的雜訊資料,最後也能生成多種且高品質的資料樣本。

機率擴散模型的這種能力,使其成為可以生成高度複雜且多樣化資料的強大工具,而在天氣預報的應用中,就能夠從有限的初始預測出發,生成一系列可能的未來天氣狀況,也就是系集預報,反應未來天氣的不確定性和多樣性。

科學家在創建天氣預報系統的時候,需要將天氣混沌(Chaos)的特性考慮進去。即便是微小的初始條件差異,隨著時間的推移便會呈現指數增長,人們之所以無法對天氣進行單一預測,是因為單是一個預測,並無法量化天氣的不確定性。

為了適應這種不確定性,天氣預報組織在計算系集預報時,會於在初始條件加入合成雜訊,以及在物理過程加入隨機性,利用天氣模型中快速的錯誤增長率,使得系集中的預測各有不同,進而量化天氣條件的不確定性。

雖然機率預測是有效的,但是要生成這些預測,需要在大型超級電腦上,執行多次高度複雜的數值天氣模型,而這是一個非常耗費運算資源的過程,許多天氣預報組織,只能負擔生成大約10到50個系集成員的規模,而這個數量可能不足以用來評估罕見且高度影響天氣的事件,研究人員表示,要評估罕見氣候事件需要更大的系集,使用一萬個成員組合的系集,可能才有辦法預測到發生機率為1%的事件。也就是說,成員少於100的系集,不可能可以預測出極端天氣事件。

而Google研究人員所開發的SEEDS,效能遠超過數值天氣預報系統,並且可以根據數值天氣預報系統一到兩次的預報,產生大型系集。SEEDS生成的系集能夠提供與真實情況類似的可信預測,特別是在預測極端天氣事件的準確度上,SEEDS表現也非常出色。

最重要的是,與需要超級電腦耗費數小時運算的傳統天氣預測相比,SEEDS模型的計算成本幾乎可以被忽略,在Google雲端TPUv3-32執行個體上,每3分鐘可以產生256個系集成員,藉由部署更多的加速器,就可以擴展更高的吞吐量。

SEEDS的具體貢獻在於利用生成式人工智慧技術,提高天氣預測效率。SEEDS只要使用2個預測種子,就能夠快速生成大量的系集預報。SEEDS提供了一種高效混合方法,把數值天氣預報系統作為輸入,就能產生額外的預測。

SEEDS高效運算的特性,在節省運算資源的同時,也能夠更頻繁地發出預報,提高天氣預測的品質和可用性。而且SEEDS不只可用於天氣預測,也增加了氣候風險評估領域的可能性,提升科學家準確量化未來氣候不確定性的能力。

熱門新聞

Advertisement