
有電腦科學界諾貝爾獎之稱的ACM圖靈獎(ACM A.M. Turing Award),揭曉2024年得主,為強化學習(Reinforcement Learning)領域的兩位先驅,分別是Andrew Barto與Richard Sutton。兩位學者從1980年代開始,便逐步建立強化學習的核心理論與演算法框架,奠定了人工智慧代理透過經驗和獎勵訊號自主學習的基礎,開創了機器自主決策的現代應用。
Andrew Barto目前為美國麻州大學阿默斯特分校(University of Massachusetts Amherst)資訊與電腦科學系的榮譽退休教授,Richard Sutton則任職於加拿大亞伯達大學(University of Alberta)電腦科學系,同時兼任人工智慧新創公司Keen Technologies的研究科學家。
Andrew Barto與Richard Sutton最主要的貢獻,是從心理學與神經科學的概念出發,透過建立時序差分學習(Temporal Difference Learning)演算法,讓電腦在未知環境下,能根據累積的經驗自行調整行為,逐步提升決策品質。此外,他們也提出策略梯度法(Policy Gradient Method)以及以神經網路表達學習函式,而這些研究成果正是強化學習的實務基礎。他們於1998年共同出版的《Reinforcement Learning: An Introduction》,至今仍被視為該領域的權威著作,引用數超過75,000次。
事實上,強化學習的核心概念並非近年才出現,早在1950年代,電腦科學先驅Alan Turing以及Arthur Samuel就曾提出透過獎懲方式來訓練機器學習的方法。不過,一直到Andrew Barto與Richard Sutton於1980年代重新梳理並提出可行的數學框架與演算法之前,這項技術始終未能廣泛應用。
過去十年深度學習快速崛起,讓強化學習技術得以再度受到重視,例如Google旗下DeepMind研發的圍棋程式AlphaGo擊敗人類頂尖棋手,以及近期熱門的對話機器人ChatGPT中,強化學習扮演了關鍵角色。其他如晶片設計、機器人控制、網路壅塞控制,甚至供應鏈最佳化等領域,也已開始大規模導入強化學習技術。
ACM主席Yannis Ioannidis表示,Barto與Sutton的研究跨越了心理學、認知科學、神經科學等多個領域,他們奠定的強化學習基礎,不僅支撐了現今人工智慧的許多突破,也讓我們對人腦運作有了更深刻的理解。這次圖靈獎獎金由Google贊助為100萬美元。ACM圖靈獎從1966年開始,每年頒發給在電腦科學領域做出長遠貢獻的個人,得獎者多被視為當代科技進步的重要推手。
熱門新聞
2025-03-03
2025-03-03
2025-03-03
2025-03-05
2025-03-05