德克薩斯大學奧斯汀分校(University of Texas at Austin)研究人員將語言模型和功能性磁振造影(fMRI)技術相結合,開發出具有讀心術能力的系統,該系統能夠將大腦活動轉為文字敘述。這個研究的價值在於,其證明了非侵入性腦機介面的可能性。

過去科學家雖然透過讀取並解碼人類腦中的語言活動訊號,開發腦機介面概念性驗證,期望有朝一日可以讓失去語言能力的人,更容易地與其他人交流,但是過去的實驗存在兩項主要的限制,而這兩項限制也就影響了腦機介面的實用性。

過去的腦機介面解碼器,需要執行侵入性的外科手術,而這顯然無法適用於大多數用途。另一個限制,則是來自於fMRI技術,fMRI擁有良好的空間特異性,也就是說,fMRI能夠以很高的空間解析度捕捉腦內活動,精確地在腦中定位出特定區域在特定時間點所出現的變化,這使得研究人員有能力找出腦內特定區域與認知、情感、行為之間的關聯。

可惜的是,fMRI所用來反映大腦活動的血氧訊號BOLD(Blood Oxygen Level Dependent)卻很緩慢,導致fMRI的時間解析度很低,一般來說自然語言的節奏,大腦每秒處理兩個單字以上,也就是說fMRI所拍攝到的每張腦圖像,可能受超過20個單字影響,因此要解碼連續語言,還需要解決fMRI捕捉腦活動不夠敏感的問題。

而研究人員研發出一種能夠猜測候選單字序列的解碼器來克服這個問題,該解碼器根據記錄的腦反應,評估每個候選序列的可能性,最終選擇出最佳的序列,而這個解碼器便能夠用於處理連續自然語言。

為了將單字序列與受試者的腦反應相比較,研究人員訓練了一個編碼模型,該模型能夠預測受試者的腦對自然語言短語所產生反應,透過比較腦反應紀錄,以及受試者的腦反應,就能推測出受試者正在聽,或是想像的候選序列可能性。

每個受試者穿戴fMRI掃瞄器,聽了16個小時的Podcast,研究人員使用解碼器和語言模型GPT,將受試者的大腦活動轉換成有意義的文字內容。雖然目前這項研究還在很初期的階段,但是對於部分刺激,解碼器已經可以正確解析出特定的單詞,並且生成意思相近的語句。

熱門新聞

Advertisement