SIGIR資訊檢索大會40多年來首度來臺舉辦,也帶來AI新典範全球第一手的研究,由Google DeepMind傑出研究科學家Marc Najork以生成式IR開場,探討生成式AI和IR的技術演變與未來。(圖片來源/臺大AI中心)

輸入一句「我要一件適合5月邁阿密戶外婚禮的禮服且要是流行色、2天送達」,瀏覽器馬上跳出摘要小卡,不只列出邁阿密5月天氣的重點,還有適合該天氣的服裝材質和一件件達標的禮服產品縮圖與連結,一次滿足你的提問。

這是Google在今年5月I/O技術大會上揭露的生成式搜尋體驗,還預告不久後將落地普及。微軟則更進一步,將今年初已運用於瀏覽器的生成式搜尋,擴大到多項平臺服務中,用更直接的方式提供搜尋資訊給使用者。

生成式IR改變導流模式,也可加深消費旅程

這些科技巨頭押寶的生成式搜尋,背後關鍵技術就是生成式AI和資訊檢索(IR),也稱為生成式IR。它不只改變人們搜尋資訊的樣貌,還可能改變搜尋生態的導流模式。

因為,生成式搜尋直接提供摘要資訊和參考連結,更容易幫助使用者找到所需資料,對搜尋目標網站的導流效果也更好。也就是說,相關性高的網站更容易獲得曝光和流量,獲利也可提高。但同樣地,這種搜尋模式,也大幅降低使用者一一從搜尋結果中找答案的機會,等於減少某些網站的曝光度和點擊機會。

尤其,一些免費提供內容的網站,多半靠內嵌的廣告、置入性產品、聯盟行銷連結、免費增值服務、授權等元件來獲利,在生成式搜尋模式的影響下,這些網站若相關性不高,流量和獲利機會就會減少。

正因如此,生成式搜尋未來可期的是,更多元的商業模式將會出現,來因應導流衝擊。

不只瀏覽器搜尋,生成式IR還能支援使用者制定更好的決策。舉例來說,在購物、電商和零售領域,生成式IR不只能用來搜尋,還能比對並摘要相似的產品,提供消費者更細緻的產品選擇體驗,深化整體消費旅程。

生成式AI改變發展70年的舊範式

回過頭來,有能力引發搜尋變革的生成式IR,是從一系列的技術突破演變而來。早在1950年代,IR就已出現,當時二戰後,大量文件解禁,圖書管理員開始編寫電腦程式,來加速書籍和文獻搜尋工作。

這項技術在網際網路出現後,也套用了進來。不論是1990年代的AltaVista搜尋引擎,還是現在的Google搜尋,都根據使用者輸入的關鍵字,跳出十幾條藍色連結,使用者仍需要一一掃過、找出最佳答案。

但隨著自然語言處理(NLP)技術進展,生成式IR概念開始浮現:一種可直接將答案給使用者的搜尋模式。

2013年,詞嵌入(Word embedding)技術有了飛躍式進展,word2vec工具將文字處理問題簡化為向量運算問題,大幅提高多項NLP任務精準度。再來,預訓練語言模型開始出現,2018年的BERT再次拉高多種NLP任務表現,資訊檢索也不例外。後來,專家們發現,這種預訓練語言模型不只儲存語言知識,還儲備基礎知識。

於是,IR圈開始思考,能否將這種大型語言模型(LLM)用做單一知識庫,來完成資訊檢索工作。此後,便有了封閉型生成式IR和開放型生成式IR的領域研究,差別在於,封閉型系統不借助任何外部工具,只以LLM為單一知識來源,來回答使用者問題。開放型生成式問答系統則能外接多種工具,如網路搜尋器、計算機等,來生成答案給使用者。

由於封閉型系統難以大規模擴展、納入數千億文件,因此,開放型生成式IR成為研究主流,也是科技巨頭重點押寶的領域。至此,生成式AI成功走進發展70餘年的資訊檢索學科。

還有不少難題要精進

生成式IR以生成式模型為核心,模型面臨的問題,必然是生成式IR得解決的問題。比如,如何確保模型產出的答案,忠於模型參考的資料來源?如何提高模型的歸因(Attribute)能力,也就是模型產出的回答有憑有據,能與資料來源相匹配?

目前已有不少專家提出解方,像是定義模型忠實度、打造一系列基準測試來衡量模型歸因能力,甚至還有歸因工具,來協助模型講話有憑有據。

不過,還有專家發現,許多人想復刻ChatGPT這類高效能模型,卻用大量ChatGPT等生成式模型產出的對話資料,來訓練新模型。這導致了嚴重的模型崩塌(Model collapse)問題,亦即隨著時間推移,接收生成的錯誤資訊的新模型,將對現實產生錯誤認知,且這問題無法避免,也不可逆。最好的方法是,先人工分辨機器產生的內容,來確保訓練資料不使用大量AI生成資料。

然而,光靠人類分辨機器vs.人類產出的內容,仍有挑戰。坊間因此出現不少工具,如DetectGPT,來協助人類區分兩者內容。

生成式IR勢在必行,傳統IR仍重要

正如同本文破題場景,搜尋引擎龍頭積極擁抱生成式IR,這種生成式搜尋將成為必然,為什麼?

首先,生成式IR可解決IR界一直想改善的搜尋難度,也就是降低非金錢的搜尋成本(Delphic costs),比如搜尋的時間成本、認知成本和互動成本等。而且,用生成式IR產出的摘要資訊,可結合多個不同資料來源內容,提供更整合式的搜尋結果。

而且,關於模型歸因能力和忠實度等問題,目前也正大幅進展中,比如已有專家開發歸因工具、歸因基準測試等,來逐步確保模型不會一本正經亂說話。再來,生成式IR系統的狀態記憶能力也會越來越好,來記住使用者與系統過往的互動,也就是說,問答能夠延續下去,從單輪對話進步到多輪對話,提供更一致的搜尋體驗。

最後,傳統IR仍有其價值,因為,索引、詞彙和語義檢索等仍是IR不可或缺的模組。而且,傳統IR還有很多新議題能探討,比如排名,是否能根據檢索的詮釋資料(Metadata),來提供除相關性以外,另一種更多元的搜尋結果?這些都是傳統IR能持續探索的潛在應用領域。

生成式IR正是今年頂級學術盛會ACM SIGIR最熱門的話題之一。SIGIR年會是全球13個頂級AI會議之一,也是資訊檢索領域公認最重要的學術會議。開辦46年來,首次在臺舉辦,由臺大AI中心擔任主辦方。

今年大會收到1,700多篇不同形式的投稿,最終接受465篇,主題涵蓋各種IR相關領域,如搜尋、排序、評估、自然語言處理(NLP)、推薦系統、內容分析、FATE(公平透明倫理、可解釋性)等。而IR技術,正是電商、企業常用推薦技術背後的基礎。也因此,大會不只吸引學術研究專家,業界研究團隊也用第一線經驗,分享技術研發應用成果,包括科技巨頭、跨國企業,甚至是摩根大通集團都有數篇論文發表。

主辦方還在大會開幕式上揭露,搜尋推薦和機器學習這2個主題,是今年投稿論文的前兩名,分別占了近6成、5成,AI顯然成為IR技術發展的重要技術。特別的是,主辦方統計了熱門關鍵字,生成式AI也上榜,更是今年主題演講的重點。

這包括Google DeepMind 、微軟研究院的重量級科學家開場分享的生成式檢索、Copilot搜尋等AI新典範浪潮下的研究進展。其中,Google DeepMind傑出研究科學家Marc Najork詳解生成式IR的技術發展和趨勢,他鑽研IR、推薦和排名數十年,在Google研究院帶領過70人團隊、打造各種IR應用,現在專心研究生成式AI。因為,比起傳統IR提供參考答案連結給使用者判斷,他更喜歡用生成式語言模型分析資訊、摘要成有用答案,直接呈現給使用者。

Marc Najork從第一線研究者視角,剖析生成式AI對傳統IR的衝擊與潛在應用,雖然這些觀點無法代表Google產品發展方向,但卻是這位AI技術老將對IR技術的長年觀察,更揭露了生成式IR的過去,現在和未來可能的發展。

 相關報導  

熱門新聞

Advertisement