生成式IR未來5大挑戰

Google DeepMind傑出研究科學家Marc Najork日前來臺參與頂級學術會議ACM SIGIR，分享在業界第一視角觀察到的生成式IR趨勢。（圖片來源／臺大AI中心）

今年5月，Google和微軟2大科技巨頭分別年度技術大會上，揭露新一代生成式搜尋體驗，不只瀏覽器搜尋能消化更長的提問，還能直接給出摘要小卡片，使用者不必再從多個藍色連結中一一尋找答案。這種生成式搜尋體驗背後的關鍵技術，就是生成式AI+資訊檢索（IR），也就是生成式IR。

但這種與生成式模型高度結合的技術，要實際落地普及，還有不少挑戰要克服。

挑戰1：忠實度

其一就是忠實度（Faithfulness）。意思是，生成式問答系統產出的答案，要能反映在來源文件中發現的證據，且不會在模型抽取知識或生成答案的過程中，扭曲原意。也就是說，系統生成的答案，要和資料來源文件的內容相符。這個挑戰，通常發生在開放式生成式問答系統，也就是結合外部工具（如檢索器）的生成式AI系統。

對此，有專家提出理論框架，來定義生成式問答系統的忠實度。Google研究團隊在2021年提出，生成式模型應具備3個條件：客觀語氣、詞彙重疊，以及語義相符。進一步來說，客觀是指系統產出的答案，應避免「我認為」這類用語，再來，系統產生答案時，應高度使用來源資料的詞彙，以及，答案的語義應與來源資料語義一致，以確保系統產出的答案忠於來源資料。

他們也提出實際解法，透過控制Token來代表這3個條件，比如是否客觀、詞彙重疊程度高低等，藉此教導T5和GPT-2模型理解這3個條件。在模型推論時，就能根據給定的控制Token，來實現忠實度要求。

挑戰2：歸因

要是系統給出的答案，與資料出處的證據不匹配，也就是一本正經胡言亂語，那該怎麼辦？

這也是開放式系統會遭遇的挑戰，需要一套機制來將答案與外部來源資料歸因（Attribute），讓答案與證據相匹配。這個問題也有專家琢磨了，他們提出的解法是RARR，也就是一種新型的歸因機制，能自動為大型語言模型（LLM）產出的答案，找到資料出處，且還能對模型輸出的答案再編輯，修改未經證實的內容，同時盡可能保留原始答案。

另一種解法是，用完善的基準測試來衡量LLM的歸因能力，如此就能下手改善。去年，Google團隊就打造一系列的歸因基準測試，來讓開發者評估生成式模型產出的答案，有憑有據的程度為何。這些基準測試有3個指標，包括答案與資料來源完全匹配、可歸因到資料來源，以及自動歸因，來衡量歸因能力。同時，他們還用這些基準測試，來評估3種典型生成式問答系統的歸因能力，並公布分數來給研究圈參考。

挑戰3：模型崩塌

生成式IR非常仰賴生成式AI模型，模型表現好，生成式IR的體驗就越好。而生成式模型的表現，與模型的訓練密不可分。自ChatGPT問世後，許多類似模型不斷湧現、刷新LLM排行榜，其中一種主流訓練方式是，拿ChatGPT這類模型產出的高品質對話資料，來訓練、微調新模型。這種訓練效果還不錯，模型能給出高品質的回覆。

但今年5月，來自劍橋大學和牛津大學的學者們指出，大量使用生成式模型產出的資料來訓練新模型，會導致模型發生不可逆轉的缺陷，也就是模型崩塌（Model collapse）。因為，隨著時間推移，這種模型會漸漸遺忘真實的基礎資料分布，等於模型吸收的生成資料中的錯誤資訊會被放大，最終迫使模型誤解現實情況。

也就是說，隨著新模型接觸到更多AI生成的資料，久而久之，模型表現會越來越差，且生成的內容會產生更多錯誤，產出的正確內容多樣性也更低。「這個過程無法避免，就算在理想的長期學習狀態下，也是如此，」他們在《遞迴的詛咒》（The Curse of Recursion）論文中強調。

若要繼續享有LLM帶來的優越效能，他們建議，訓練生成式模型時，應人工介入，來區分機器產生和人類產生的內容，並盡可能用人類產生的內容作為訓練資料。

挑戰4：AI內容分辨

然而，人類能準確區分機器產生的內容嗎？

答案很可能是不見得。去年，康乃爾大學和史丹佛大學聯手做了項大規模研究，找來4,600名受試者，請他們閱讀幾個自我介紹，並判斷哪些是機器產生的。結果發現，人類判斷的準確率不高，可說是難以區分機器產出的內容。

另一方面，坊間也出現不少工具，來協助人類區分AI產生的內容。比如史丹佛大學開發的DetectGPT，不需個別訓練分類器，也不需要收集AI產生和人類產生的資料，就能直接判斷給定的文本是否為機器產生，是眾多工具中，零樣本表現亮眼的偵測工具。

區分機器產生內容與人類產生內容，可避免訓練生成式模型時，使用到未經查證的內容農場文章，進而避免模型崩塌，提高模型永續性。

挑戰5：搜尋導流衝擊

有別於生成式IR幕後的技術挑戰，將生成式IR用於生成式搜尋體驗，很可能衝擊一些網站的流量和獲利。因為，生成式搜尋能根據使用者提問，快速從海量資訊中撈取最相關的資料，並摘要為圖文資訊重點小卡片，直接提供所需資訊給使用者。

一直以來，內容創作者很常在網站內容中，納入增加獲利的元件，如廣告、置入性產品、聯盟行銷連結、免費增值服務、授權，甚至是捐款請求等。其中，免費提供網站內容的創作者，仰賴搜尋引擎的導流，來獲取流量和回報。

而生成式搜尋體驗，將會改變這種導流模式，直接呈現資訊給使用者。雖能提高使用者體驗，但對網站來說，不只減少曝光機會（若相關性較低），還會降低導流而獲利的機會，這是生成式IR可能帶來的生態系挑戰。

這些挑戰和觀點，都來自Google DeepMind傑出研究科學家Marc Najork。他7月底來臺參與頂級學術會議ACM SIGIR，分享在業界第一視角觀察到的生成式IR趨勢。

科技巨頭技術老將怎麼看生成式IR

Google DeepMind傑出研究科學家Marc Najork指出，生成式IR將帶來搜尋新典範，能直接回答使用者問題，解決IR界一直以來想突破的搜尋難度（Delphic costs）問題。圖片來源／臺大AI中心

數十年來，Google DeepMind傑出研究科學家Marc Najork專攻資訊檢索（IR）、推薦和排名技術，近年開始鑽研生成式AI優化資訊檢索，也就是生成式搜尋體驗。這位站在前瞻技術第一線的老將，盤點了生成式IR發展趨勢。

首先，生成式IR能摘要重點、直接給使用者答案，比傳統搜尋引擎丟出10幾條藍色連結、讓使用者自己找答案更直接，更有效率，可解決IR界一直想克服的搜尋難度（即Delphic costs）問題。而且，利用生成式模型產出的資訊摘要，還能包含多個資料來源，是一種更整合的資訊提供模式。

再來，生成式IR在產出有憑有據的答案和歸因（Attribute）領域，正大幅進步。比如，專家已提出一套歸因機制，來輔助大型語言模型（LLM），將產出的答案與資料來源相匹配，讓答案忠於資料出處。此外，坊間還有完善的基準測試，來讓開發者衡量LLM的歸因能力，進而改善模型。

而且，生成式問答系統的狀態記憶能力，會隨著時間推移越來越好。意思是，系統能記住過去的互動，從單輪對話擴展到多輪對話，更能確保使用者的銜接體驗。再加上開放型生成式IR系統，還能搭配其他工具，來執行資訊搜尋以外的任務，比如交易。

最後，生成式IR的發展，並不意味著傳統IR技術沒有價值。相反，索引、詞彙和語義等外部記憶庫，仍是IR不可或缺的元素，尤其是語義檢索，仍是個活躍的研究領域。而且，傳統IR領域還有很多新議題能探討，比如排名，應也能根據檢索的詮釋資料，來提供除了相關性以外更多元的搜尋結果。

相關報導

熱門新聞