AI趨勢周報第258期：OpenAI發布重磅新功能，結構化輸出解決LLM生成格式不符痛點

重點新聞(0802～0809)

結構化 OpenAI JSON

OpenAI發布結構化輸出新功能，解決LLM生成格式不符問題

JSON是一種常見的JavaScript物件表示標準格式，也是目前大型語言模型（LLM）常見的應用案例，比如給定資料，要求LLM生成符合JSON格式的答案。但問題是，LLM容易給出格式不符的回答。

為解決這個痛點，OpenAI在自家API中新添結構化輸出（Structured Outputs）功能，來確保模型生成的答案，完全符合開發者所需的JSON結構。OpenAI API提供兩種結構化輸出使用方式，一是功能呼叫，適用於所有支援工具的模型，二是開發者可在response_format參數中使用新的json_schema選項，這適用於模型不呼叫工具，而是以結構化方式回應用戶的情境。這項新功能可用來打造爬蟲等工具，透過功能呼叫抓取所需資料、從非結構化資料中擷取結構化資料，再根據這些資料來回答用戶問題，對資料處理情境非常有幫助。（詳全文）

LangChain IDE LLM

LangChain推出新開發環境，簡化LLM代理管理

大型語言模型（LLM）開發框架LangChain最近推出LangGraph Studio，是一款用於建置和測試AI代理的整合開發環境（IDE），來簡化複雜的AI代理應用開發。這個工具建立在LangGraph框架上，提供代理視覺化功能，比如圖形化顯示代理架構、顯示節點和分支等。同時，LangGraph Studio也提供互動式開發功能，開發者可觀察代理的執行過程和每個步驟的詳細資訊，像是如何使用搜尋、生成答案，開發者也能對複雜的多代理系統除錯，比如在步驟間暫停、修改。LangGraph Studio目前為Beta版，註冊LangSmith帳號即可使用。（詳全文）

行政院 AI 預算

行政院長揭臺灣AI產業發展3面向政策

日前，行政院人事行政總處、數位發展部與臺灣人工智慧學校共同舉辦部會副首長AI共識營，行政院院長卓榮泰參訪時表示，為建構臺灣AI產業健全發展的基礎環境，政府將從政策面、法規面和執行面三方面著手。

在政策面部分，行政院經濟發展委員會已將AI人才培育列為議重要討論議題，除了在7月18日召開的首場會議提出國家人才競爭力躍升方案，也依據經濟部規畫，預計8年內為各產業訓練20萬名AI人才，並推動育才、留才、攬才策略，持續引進外國人才來臺、根留臺灣，與本國人才一同學習、培訓。在法規面，則有國科會於7月15日預告的《人工智慧基本法》，持續整合各界意見。在執行面部分，行政院去年核定臺灣AI行動計畫2.0，也在今年6月6日核定人事行政總處的提升行政院公務人員AI知能實施計畫，要提供基層到高階公務人員一系列的培訓課程，來培育種子人才。

卓榮泰也表示，2025年中央政府總預算案已進入最後定案階段，明年度的科技預算大幅提升，增幅達14.9%，投入AI、太空與通訊及半導體領域的科技預算分別約100億元、100億元和170億元。此外也編列近220億元預算，來協助五大信賴產業發展，要將臺灣從AI科技製造大國，轉型成為AI運用與解決方案輸出國。（詳全文）

數位部 AI培訓 公務員

數位部推動公部門AI培訓計畫

8月7日，數位部宣布啟動公部門AI培訓計畫，預估今年底培養至少700位具備AI基本技能的公務人員。即日起到年底，數位部將舉辦超過20場的公部門AI實戰工作坊，同時會提供線上AI學習資源，開放公務人員和一般民眾線上學習AI基本技能。

數位部指出，公務人員掌握基本AI應用技能，是國家數位轉型的關鍵，因此策畫一系列AI實戰工作坊，內容涵蓋AI基礎知識、核心演算法、應用實例、實機操作等層面，要提高不同單位、職級公務人員具備AI基本技能。同時，數位部也會和人事行政總處合作，針對公部門資訊人員、主管、機關首長，提供相關的AI培訓課程，不只是基層公務人員，讓資訊單位、主管、首長也具備合適的AI知識或技能。（詳全文）

Stable Fast 3D 3D模型 Stability AI

從2D到3D只需0.5秒，Stability AI釋出Stable Fast 3D新模型

Stability AI最近發表一款新模型Stable Fast 3D，可將平面的圖片轉為3D模型，只需要不到0.5秒，就能快速生成完整、自然的3D模型。目前，Stable Fast 3D已在Hugging Face平臺上架，並以Stability AI社群授權釋出。

這款模型有幾個特點，首先是生成的3D模型的顏色，會盡量減少光照影響的痕跡，意即在不同環境光照下，都能呈現正確的顏色。使用者還能選擇四邊形或三角形網格重建功能，來更細緻的控制模型網格拓撲結構。再來，和前代相比，單個模型推理時間從10分鐘縮短至0.5秒，再加上新模型架構調整，其生成的3D網格和材質更加細緻，還能產生UV展開網格，對後續材質貼圖和細節表現非常重要，可進一步擴大應用範圍。（詳全文）

DeepMind 桌球 控制器

和業餘人類選手一樣強，DeepMind揭桌球機器人

Google DeepMind打造一款桌球機器人，具備業餘人類桌球選手的水準，程度勝過初學者，與中階選手對打也有55%的勝率。進一步來說，在現實世界任務中，達到人類水準的速度和表現，一直是機器人研究的指標，桌球也不例外。

為挑戰這個題目，DeepMind研究員組隊，想設計出可與真人對打的桌球機器人。他們提出4大方法，首先是階級式和模組化的策略架構，由低階控制器和高階控制器組成，其中，低階控制器的技能描述器能對代理能力建模，也能橋接模擬環境與真實世界的落差，而高階控制器可用來選擇低階的技能。第二個方法是，將在模擬環境中學習到的內容，直接應用到現實；三是可即時適應陌生對手的能力。最後則是在真實世界中，與陌生的人類對手對打。這個桌球機器人可正手、反手打球，也能連續擊球、打到不同的位置，還能適應不同的球風。在29場與人類對手的比賽中，機器人勝率為45%，但若以程度區分，機器人完全打不贏高手，但贏了所有的初學者和部分中等程度的玩家。（詳全文）

Meta 影片分割 SAM 2

突破影片物件分割難題，Meta釋出影片分割模型SAM 2

繼今年4月發表圖像物件分割AI模型Segment Anything Model後，Meta前陣子又釋出第二代分割模型Segment Anything Model 2（簡稱SAM 2），將分割物件的能力從圖像延伸到影片。也就是說，SAM 2可分割圖像和影片中的任何物件，還能即時在影片中的所有畫面追蹤該物件。要成功分割影片中的物件，難度很高，除了要了解實體在空間與時間中的位置，影片中的物件還可能因移動、變形、遮擋、照明變化或其它因素，在不同畫面間發生大變化，且影片品質通常低於圖像，難度又更高了。

為克服這些困難，Meta建立一套影片物件分割資料集（SA-V Dataset），包含5.1萬個真實世界的影片，以及超過60萬個時空掩碼（Masklet），這些掩碼標註了物件在畫面中出現的時間點與位置，是目前最大的影片分割資料集。他們以這個資料集來訓練模型，經測試，SAM 2在17個零樣本影片資料集的互動式影片分割，明顯優於現有模型，且所需的人機互動次數減少了3倍左右。Meta指出，可同時分割圖像物件和影片物件的SAM 2，可用於自駕系統，來追蹤瀕臨絕種的動物，或應用於腹腔攝影鏡頭上來改善醫學檢查。SAM 2模型程式碼和權重已開源，資料集也CC BY 4.0授權開源。（詳全文）

Google Gemini學院 LLM

Google在臺深耕18年，下半年要將AI人才培訓擴大公部門

Google在臺經營邁入18年，Google臺灣總經理林雅芳盤點，自2018年，Google開始推動智慧臺灣計畫和各種倡議，來加速臺灣AI發展，同時也投資硬體基礎建設，如打造美國總部外最大的硬體研發基地、設置Google資料中心，甚至還有正在興建的3條海底纜線，預計在2026年降低臺灣網路使用者的上網延遲率、增加三分之一頻寬。

不只是硬體，Google也在臺灣展開不少AI計畫，比如與長庚醫院開發乳癌早期檢測工具，也與中醫大附醫打造AI輔助醫師，今年6月也與健保署聯手，要用MedLM打造第二型糖尿病併發症風險。同時，Google也自2018年開始推動AI人才培育計畫，今年進一步推出AI全民通識課和Gemini學院，尤其已有1,500名中小學老師完成後者的培訓，下半年則要擴大到公務體系。

至於開發者部分，Google也在今年於臺灣新添1位機器學習Google開發者專家（目前共3位），今年也培育了60多位AI開發技術社群領袖、訓練1,600位開發者投入生成式AI。另一方面，Google臺灣預計今年底再添11項研究專案資助計畫，來擴大學界合作，其中8項鎖定大型語言模型、機器學習，也計畫邀請學者擔任Google臺灣駐點科學家。（詳全文）

人型機器人 Figure 02 VLM

改進手部設計更靈活，最新人型機器人Figure 02亮相

專攻人型機器人的Figure Robotics揭露最新人型機器人Figure 02，高約168公分、重70公斤，續航時間為5小時、前進速度是每秒1.2公尺。與第一代相比，Figure 02外觀上更簡約美觀，其AI運算推理能力也提升了3倍，搭配6個RGB攝影機和內建的視覺語言模型（VLM），可更快感知周遭環境、做出決策。

此外，該機器人也配置了麥克風和喇叭，可與人進行語音對話。這部分使用了與OpenAI聯手開發的AI模型，專門讓機器人有效理解和回應語音指令。另一方面，Figure 02改善了手部設計，為雙手大拇指新添1個自由度，共達到16個自由度，可承重20公斤、能更靈活執行多種任務。目前，該機器人已於BMW工廠內試運行。（詳全文）

圖片來源／OpenAI、行政院、Google DeepMind、Meta、Figure Robotics

AI近期新聞

1. 史丹佛大學AI實驗室打造alphaXiv公開討論平臺，可針對arXiv論文討論

2. OpenAI悄悄釋出GPT-4o更新，發布新版模型GPT-4o-2024-08-06

資料來源：iThome整理，2024年8月

重點新聞(0802～0809)

熱門新聞