強化學習 | iThome

| IT周報 | 機器人 | 生物電腦 | AI | 強化學習 | 微軟 | VS Code | 數發部 | 資料

AI趨勢周報第269期：只靠合成資料，也能訓練精準擺放物體的機器人

來自喬治亞理工學院等機構的研究團隊，發表一項機器人訓練方法AnyPlace；澳洲新創用人腦神經元打造生物電腦；數發部瞄準AI資料需求，研擬草案要解放更多資料價值；數發部揭AI算力、行銷和資金策略；VS Code 1.98版推代理模式

2025-03-09

2024圖靈獎揭曉，強化學習奠基者Andrew Barto與Richard Sutton獲獎

2024圖靈獎頒發給Andrew Barto與Richard Sutton，表揚兩人建立強化學習核心理論與演算法，推進人工智慧自主決策實務應用

2025-03-06

| DeepSeek | MIT | 強化學習

中國DeepSeek開源其R1推論模型，數學、程式開發表現緊追OpenAI o1

中國DeepSeek釋出推論模型DeepSeek-R1，採用強化學習技術，突破傳統監督微調對大規模標註資料的依賴，在數學與程式開發測試中表現出色，部分領域已接近或超越OpenAI o1模型

2025-01-22

Nvidia新AI系統能訓練機器手轉筆、開抽屜等動作

Nvidia新AI系統Eureka以Open AI GPT-4為基礎，生成出的獎賞程式可從事機器人的嘗試錯誤學習，訓練實體機器人執行開抽屜或拿剪刀等近30種複雜動作

2023-10-23

AI趨勢周報第225期：DeepMind發表新演算法ReST，不需人為介入強化學習

人類回饋強化學習（RLHF）是當今LLM的重要訓練方法，但DeepMind新演算法ReST可免去人為介入；Hugging Face發布圖文通吃的多模態模型；文字、語音都能懂！Meta開源多語言翻譯模型；微軟在Excel加入Python支援；資料不外洩！Hugging Face推出企業級自託管程式開發助手

2023-08-24

| 假新聞 | 中研院 | 強化學習 | 反事實解釋

中研院用強化學習開發實驗平臺來打擊假新聞，最快今年上線

中研院資訊科學研究所研究員古倫維分享中研院假新聞研究成果，團隊以自然語言處理（NLP）、強化學習等技術，來辨識新聞內容、規畫最佳投放正確資訊的時機點，要給接觸假新聞的讀者正確資訊，打造為一套實驗平臺來打擊假新聞，最快今年上線。

2022-11-20

Alphabet的Everyday Robot開始在自家辦公室執行打掃任務

透過強化學習、協同學習的機器學習演算法，Alphabet X實驗室強調其通用型學習機器人Everyday Robot執行特定任務能力更成熟，能拿抹布擦桌子、開門、將椅子歸位

2021-11-22

| 強化學習 | Deepmind | 機器人

DeepMind釋出可改進機器人堆疊物體能力的基準測試RGB-Stacking

DeepMind所發布的RGB-Stacking基準測試，提供技能掌握以及技能泛化兩種難度的堆疊任務，而DeepMind的機器人已經可以在真實世界的技能掌握任務，達到82％的成功率

2021-10-13

| TPU | 強化學習 | google | 晶片設計 | 製造業 | AI | 雲端 | AI不確定性

AI趨勢周報第171期：TPU v4已比超級電腦快，Google如何用AI自動設計下一代TPU？

Google用強化學習來自動進行晶片佈局規畫，產生晶片平面圖，6小時內就能完成、比人類數個月還要快，Google也用這個方法研發下一代TPU v5；Google雲端調查發現，全球製造業將三分之一IT支出花在AI上；ML推理引擎ONNX Runtime 1.8支援網頁AI推理了！

2021-06-12

| 微軟 | AI | CyberBattleSim | 強化學習 | 資安 | 攻防演練 | 網路攻擊模擬

微軟釋出AI網路攻防模擬工具

微軟釋出內部AI模擬研究工具的Python原始碼，讓安全研究人員模擬建構網路防禦環境，以阻擋AI控制的攻擊

2021-04-09

| Deepmind | 強化學習 | 元學習 | 微軟 | 防詐欺 | GAN | 超高解析度 | AI | IT周報

AI趨勢周報第138期：DeepMind新方法可自動產生強化學習演算法

DeepMind最新研究論文描述新設計的後設學習（Meta learning）架構，透過與環境互動來產生強化學習演算法，團隊也將生成的演算法用於Atari遊戲，達到非平凡等級；知名動畫公司皮克斯用GAN來產生超高解析度電影畫面，降低算圖農場的運算負荷；微軟鎖定零售業，推出Dynamics 365防詐欺新功能。

2020-07-23

AI趨勢周報第121期：通吃自然語言和程式語言！微軟發表CodeBERT模型讓程式碼搜尋更便利

微軟亞洲研究院發表CodeBERT模型，可理解自然語言和6種程式語言，包括Ruby、Java、JavaScript、Python、Go、PHP等，能用自然語言來查詢程式碼，也可以建立程式碼文檔；另一方面，DeepMind釋出兩款JAX函式庫Haiku和RLax，要來提升強化學習的實作；而由微軟共同創辦人成立的艾倫AI研究院AI2，發表了電腦視覺模型評比工具

2020-02-27

iThome 研討會

數位轉型攻略 VII : GenAI 加速企業創新落地，更需要全新 IT 戰略

善用 GenAI 技術和工具，快速打造出更多高性價比的應用，不只是考驗企業的 AI 技術能力，更是基礎架構管理、雲原生開發能力、全方位資安與 IT 永續發展的挑戰。

日期: 即日起~06/25

2025 iThome 臺灣雲端大會

不論您是技術專家、企業決策者，還是關注 AI 與雲端技術的從業者，iThome Cloud Summit Taiwan 2025 都將為您帶來最前沿的技術洞察與實戰經驗！

日期: 7/2 (三) 08:30 ~ 17:00

Kubernetes Summit 2025 誠邀技術專家投稿

Kubernetes Summit 2025 議程徵稿現正開放，誠邀技術專家、架構師、SRE、DevOps 工程師及開發者踴躍投稿，分享您的技術實踐與實戰經驗。

日期: 即日起至 6 月 13 日