美國國會圖書館是全世界最大的圖書館,館藏超過了1億4千萬冊,光是各類書架的總長度,就超過8百公里,是臺北到高雄距離的2倍以上。若不知道你想要的書放在哪,光靠兩只腳到處逛來找去,恐怕一個禮拜都還找不到。雖然不見得每個圖書館的規模都這麼大,但要從茫茫書海中,找出想看的書,都需要費一番功夫。這正是為何,到圖書館找書,後來非靠電腦檢索系統幫忙不可的緣故。
數十年前,到圖書館要怎麼找書,得先把想找的書(需求)轉換成一句話,或一個詞,輸入電腦,靠系統找出最接近輸入這個句子的書本,放在哪一座書架上的哪一排,你才知道要到哪裡找出這本書。
當要找的資料不只侷限在圖書館,而是更廣大的網路世界,搜尋引擎的作法,仿效了圖書館找書的模式,輸入一段句子,搜尋引擎比對出最相關的哪一批網路資料的連結,再回傳到瀏覽器上列出來,提供給使用者,讓使用者自己判斷,哪幾個連結,才是符合需求的內容。整個模式就像是傳統在圖書館找書一樣。這種搜尋資料的模式,70年來一直沒有變,直到生成式AI技術的崛起。
去年ChatGPT開始竄紅時,將你好奇的一個問題,一句話輸入電腦,就可以得到擬人般的文字,彷彿能夠直接告訴你問題的答案,不用像過去得自已一一打開連結,才能判斷是不是想要的內容。
ChatGPT改變了人們尋找資訊的方式,不是查詢,而更像是發問,得到的也不是連結清單,而是更直接、簡潔的「答案」。ChatGPT也因此而風靡了全世界。直到一段時間之後,人們漸漸發現,這個「答案」不一定是真實或是正確的「答案」,才意識到,生成式AI給的答案,終究需要人來判斷,就像傳統搜尋引擎給出的參考連結,還是得靠人自己判斷,哪些才是自己想要的答案。但以ChatGPT為首的生成式AI技術典範,已經大大改變了人們搜尋資料的體驗。
兩大科技巨頭,Google和微軟,都開始嘗試將生成式AI的超大語言模型,運用到不同的搜尋場景中,從網路搜尋引擎、生產力軟體工具中的搜尋,到作業系統內建搜尋機制,都開始結合生成式AI技術,作為人和機器(系統)之間的新溝通介面。
不過,要用生成式AI技術來滿足人們各種搜尋的需求,Google DeepMind傑出科學家Marc Najork日前來臺時就強調,這個稱為生成式IR的發展領域,未來有5大挑戰需要克服。從生成內容有多貼近來源文件的忠實度、如何讓回答與證據相匹配的歸因挑戰、如何分辨AI產生的內容(內容辨識),還有許多新研究用生成式模型產生的資料來訓練新模型,而衍生了模型崩塌問題(模型出現健忘症狀),還有項挑戰是生成式IR更快更白話提供答案的同時,也削弱了搜尋引擎對其他網站的導流效果,相關性低的網站更不容易被看見,甚至減少了導流廣告的效益。
運用電腦技術,更快更準找出想要的資訊,這個早已融入日常高度數位化生活的老派技術應用,面臨了生成式AI新典範的影響,正慢慢開始改變中。
專欄作者
熱門新聞
2024-10-05
2024-10-07
2024-10-07
2024-10-05
2024-10-07
2024-10-07
2024-10-04