Meta最新開發的模型,可在3秒的大腦活動中,從793個單字字彙表中,解碼出相對應的語音片段,前10名單字的準確率高達73%,研究人員提到,這已經是人們每天常用字彙的一大部分。

這項研究的目標是要開發一個人工智慧模型,以非侵入性的方式,從大腦的活動中解碼語音。之所以這項研究很重要,是因為全世界每年都有數千萬人,因為創傷性腦損傷使他們無法說話、打字或是手勢進行交流,因此如果發展出非侵入性從大腦活動解碼語言的技術,這些人便可更方便地與其他人交流。

解碼大腦活動是腦神經科學家一直努力的方向,但是到目前為止,大部分的研究都仰賴侵入式的方式記錄大腦活動,雖然這些裝置比無創的方法能夠紀錄更清晰的訊號,但是卻需要神經外科介入。無創的方法提供一種更為安全且可擴展的解決分案,能夠使更多人的人受益,但是研究人員表示,無創方法的挑戰很大,因為紀錄大腦活動包含許多雜訊,且因為各種原因,在每個人頭上安裝感測器的位置都不同,每個人的紀錄會有很大的差異。

研究人員以比對學習技術訓練深度學習模型,再用該模型對齊大腦活動紀錄和語音。研究人員使用FAIR團隊所開發的開源自監督學習模型wave2vec 2.0,並用這個模型來辨識聽有聲讀物受試者大腦中的語音表達。

這項研究所使用的非侵入性紀錄技術,包括腦電圖(EEG)和腦磁波儀(MEG),其分別紀錄神經元活動所引起的電場和磁場波動,這兩個系統每秒可以使用數百個感測器,拍攝大約1,000個宏觀大腦活動的快照。

Meta使用了來自學術機構4個開源的腦電圖和腦磁波儀資料集,其中含有169名健康受試者150小時的腦部紀錄,研究人員將這些資料輸入到一個大腦模型中,但因為腦電圖和腦磁波儀紀錄有很大的個體差異,影響的因素包含大腦解剖結構、神經功能作用的位置和時間差異,還有紀錄時感測器安裝的位置,因此大腦模型的功能便是將這些腦部訊號轉換到一個通用空間中。

wav2vec 2.0則能夠從語音,自動生成與大腦一致的語音表示,最後,Meta的架構會學習將大腦模型的輸出和語音的深度表示對齊,如此就能比對出大腦的訊號對應的語音。

Meta所發展的這個人工智慧系統可以執行零樣本分類,也就是分析一個大腦活動片段,並從大量新的音訊片段中,推斷受試者聽到的對應片段,研究人員提到,這是一個重要的成果,因為其證明人工智慧能夠在接收語音時,成功解碼存在雜訊的大腦活動紀錄。

不過這項研究工作僅是最終目標的一小部分,要實現讓腦創傷患者交流,需要推進研究到語音生成,但目前已經讓人工智慧能夠更好地理解人類大腦。Meta研究人員藉由公開這項研究成果,以推進該領域的研究。

熱門新聞

Advertisement