OpenAI在連續12天更新直播中,於第2天發布了強化微調(Reinforcement Fine-Tuning,RFT)功能,該技術的目的是協助開發者和機器學習工程師,打造出針對特定領域或複雜任務的專家級模型,藉由降低強化學習實作技術門檻,推進人工智慧模型的客製化發展。

強化微調技術與傳統的監督式學習微調方法不同。傳統的監督式學習微調主要仰賴模型學習自參考答案,而強化微調則更注重模型推理過程,透過提供任務及其參考答案,讓模型在解決這些任務時進行學習,並透過評分機制來指導模型的表現,逐步提升其在類似問題中的推理能力與準確性。

該技術特別適用於具備客觀正確答案且大多數專家能達成共識的任務,明顯提升人工智慧在法律、保險、醫療、金融及工程等專業領域的實用價值。

OpenAI目前開放強化微調研究計畫,鼓勵研究機構、大學和企業參與。該計畫提供RFT API的Alpha測試版本,讓參與者可以將技術應用於其領域中的專業任務,並回饋測試經驗供OpenAI改進技術細節。

OpenAI這項功能有助於人工智慧技術的普及,藉由友善的介面供使用者應用強化微調技術,使得一般企業與開發者,也能夠用到過去僅有專業人工智慧研究團隊才可使用的強化學習技術,並有助於縮短人工智慧在專業領域的應用周期。

 

熱門新聞

Advertisement