今年5月,Google和微軟2大科技巨頭分別年度技術大會上,揭露新一代生成式搜尋體驗,不只瀏覽器搜尋能消化更長的提問,還能直接給出摘要小卡片,使用者不必再從多個藍色連結中一一尋找答案。這種生成式搜尋體驗背後的關鍵技術,就是生成式AI+資訊檢索(IR),也就是生成式IR。
但這種與生成式模型高度結合的技術,要實際落地普及,還有不少挑戰要克服。
挑戰1:忠實度
其一就是忠實度(Faithfulness)。意思是,生成式問答系統產出的答案,要能反映在來源文件中發現的證據,且不會在模型抽取知識或生成答案的過程中,扭曲原意。也就是說,系統生成的答案,要和資料來源文件的內容相符。這個挑戰,通常發生在開放式生成式問答系統,也就是結合外部工具(如檢索器)的生成式AI系統。
對此,有專家提出理論框架,來定義生成式問答系統的忠實度。Google研究團隊在2021年提出,生成式模型應具備3個條件:客觀語氣、詞彙重疊,以及語義相符。進一步來說,客觀是指系統產出的答案,應避免「我認為」這類用語,再來,系統產生答案時,應高度使用來源資料的詞彙,以及,答案的語義應與來源資料語義一致,以確保系統產出的答案忠於來源資料。
他們也提出實際解法,透過控制Token來代表這3個條件,比如是否客觀、詞彙重疊程度高低等,藉此教導T5和GPT-2模型理解這3個條件。在模型推論時,就能根據給定的控制Token,來實現忠實度要求。
挑戰2:歸因
要是系統給出的答案,與資料出處的證據不匹配,也就是一本正經胡言亂語,那該怎麼辦?
這也是開放式系統會遭遇的挑戰,需要一套機制來將答案與外部來源資料歸因(Attribute),讓答案與證據相匹配。這個問題也有專家琢磨了,他們提出的解法是RARR,也就是一種新型的歸因機制,能自動為大型語言模型(LLM)產出的答案,找到資料出處,且還能對模型輸出的答案再編輯,修改未經證實的內容,同時盡可能保留原始答案。
另一種解法是,用完善的基準測試來衡量LLM的歸因能力,如此就能下手改善。去年,Google團隊就打造一系列的歸因基準測試,來讓開發者評估生成式模型產出的答案,有憑有據的程度為何。這些基準測試有3個指標,包括答案與資料來源完全匹配、可歸因到資料來源,以及自動歸因,來衡量歸因能力。同時,他們還用這些基準測試,來評估3種典型生成式問答系統的歸因能力,並公布分數來給研究圈參考。
挑戰3:模型崩塌
生成式IR非常仰賴生成式AI模型,模型表現好,生成式IR的體驗就越好。而生成式模型的表現,與模型的訓練密不可分。自ChatGPT問世後,許多類似模型不斷湧現、刷新LLM排行榜,其中一種主流訓練方式是,拿ChatGPT這類模型產出的高品質對話資料,來訓練、微調新模型。這種訓練效果還不錯,模型能給出高品質的回覆。
但今年5月,來自劍橋大學和牛津大學的學者們指出,大量使用生成式模型產出的資料來訓練新模型,會導致模型發生不可逆轉的缺陷,也就是模型崩塌(Model collapse)。因為,隨著時間推移,這種模型會漸漸遺忘真實的基礎資料分布,等於模型吸收的生成資料中的錯誤資訊會被放大,最終迫使模型誤解現實情況。
也就是說,隨著新模型接觸到更多AI生成的資料,久而久之,模型表現會越來越差,且生成的內容會產生更多錯誤,產出的正確內容多樣性也更低。「這個過程無法避免,就算在理想的長期學習狀態下,也是如此,」他們在《遞迴的詛咒》(The Curse of Recursion)論文中強調。
若要繼續享有LLM帶來的優越效能,他們建議,訓練生成式模型時,應人工介入,來區分機器產生和人類產生的內容,並盡可能用人類產生的內容作為訓練資料。
挑戰4:AI內容分辨
然而,人類能準確區分機器產生的內容嗎?
答案很可能是不見得。去年,康乃爾大學和史丹佛大學聯手做了項大規模研究,找來4,600名受試者,請他們閱讀幾個自我介紹,並判斷哪些是機器產生的。結果發現,人類判斷的準確率不高,可說是難以區分機器產出的內容。
另一方面,坊間也出現不少工具,來協助人類區分AI產生的內容。比如史丹佛大學開發的DetectGPT,不需個別訓練分類器,也不需要收集AI產生和人類產生的資料,就能直接判斷給定的文本是否為機器產生,是眾多工具中,零樣本表現亮眼的偵測工具。
區分機器產生內容與人類產生內容,可避免訓練生成式模型時,使用到未經查證的內容農場文章,進而避免模型崩塌,提高模型永續性。
挑戰5:搜尋導流衝擊
有別於生成式IR幕後的技術挑戰,將生成式IR用於生成式搜尋體驗,很可能衝擊一些網站的流量和獲利。因為,生成式搜尋能根據使用者提問,快速從海量資訊中撈取最相關的資料,並摘要為圖文資訊重點小卡片,直接提供所需資訊給使用者。
一直以來,內容創作者很常在網站內容中,納入增加獲利的元件,如廣告、置入性產品、聯盟行銷連結、免費增值服務、授權,甚至是捐款請求等。其中,免費提供網站內容的創作者,仰賴搜尋引擎的導流,來獲取流量和回報。
而生成式搜尋體驗,將會改變這種導流模式,直接呈現資訊給使用者。雖能提高使用者體驗,但對網站來說,不只減少曝光機會(若相關性較低),還會降低導流而獲利的機會,這是生成式IR可能帶來的生態系挑戰。
這些挑戰和觀點,都來自Google DeepMind傑出研究科學家Marc Najork。他7月底來臺參與頂級學術會議ACM SIGIR,分享在業界第一視角觀察到的生成式IR趨勢。
科技巨頭技術老將怎麼看生成式IR
Google DeepMind傑出研究科學家Marc Najork指出,生成式IR將帶來搜尋新典範,能直接回答使用者問題,解決IR界一直以來想突破的搜尋難度(Delphic costs)問題。圖片來源/臺大AI中心
數十年來,Google DeepMind傑出研究科學家Marc Najork專攻資訊檢索(IR)、推薦和排名技術,近年開始鑽研生成式AI優化資訊檢索,也就是生成式搜尋體驗。這位站在前瞻技術第一線的老將,盤點了生成式IR發展趨勢。
首先,生成式IR能摘要重點、直接給使用者答案,比傳統搜尋引擎丟出10幾條藍色連結、讓使用者自己找答案更直接,更有效率,可解決IR界一直想克服的搜尋難度(即Delphic costs)問題。而且,利用生成式模型產出的資訊摘要,還能包含多個資料來源,是一種更整合的資訊提供模式。
再來,生成式IR在產出有憑有據的答案和歸因(Attribute)領域,正大幅進步。比如,專家已提出一套歸因機制,來輔助大型語言模型(LLM),將產出的答案與資料來源相匹配,讓答案忠於資料出處。此外,坊間還有完善的基準測試,來讓開發者衡量LLM的歸因能力,進而改善模型。
而且,生成式問答系統的狀態記憶能力,會隨著時間推移越來越好。意思是,系統能記住過去的互動,從單輪對話擴展到多輪對話,更能確保使用者的銜接體驗。再加上開放型生成式IR系統,還能搭配其他工具,來執行資訊搜尋以外的任務,比如交易。
最後,生成式IR的發展,並不意味著傳統IR技術沒有價值。相反,索引、詞彙和語義等外部記憶庫,仍是IR不可或缺的元素,尤其是語義檢索,仍是個活躍的研究領域。而且,傳統IR領域還有很多新議題能探討,比如排名,應也能根據檢索的詮釋資料,來提供除了相關性以外更多元的搜尋結果。
熱門新聞
2024-12-16
2024-11-29
2024-12-16
2024-12-17
2024-12-19