| AI | 語音辨識 | 圖文生成 | Transformer | 自監督 | 抓臭蟲 | 微軟 | IT周報

AI趨勢周報第184期:會聽也會讀唇語!Meta AI研究院開源新模型讓語音辨識更精準

Meta AI研究院用Transformer打造出能聽又能讀唇語的語音辨識模型;百度推出中文界最大跨模態圖文生成預訓練模型「文心ERNIE-ViLG」;微軟用自監督AI抓程式碼臭蟲,效能提高3成;蘋果打造最大的室內3D場景AR資料集。

2022-01-13

| Meta | BERT | 語音轉文字 | 語音辨識 | AV-HuBERT

Meta開發能邊聽邊看的語音辨識模型,語音轉文字錯誤率大幅下降

Meta新的語言模型AV-HuBERT,能夠連結語音和影像中說話者的嘴唇動作,提升語音辨識抗噪效果,使單字錯誤率大幅下降

2022-01-11

| MLCommons | 關鍵字 | 資料集 | 語音辨識 | Multilingual Spoken Words Corpus | 開源 | 語音助理

MLCommons釋出多語言口語大型語音辨識資料集

這個以CC-BY 4.0授權釋出的MSWC資料庫,包含50種語言的音訊資料,而MSWC是其中46種語言第一個開源口語資料集。

2021-12-17

| IT週報 | AWS | Meta | 語音辨識 | 機器人 | Nvidia

AI趨勢周報第181期:Meta開源懂128種語言的語音辨識預訓練模型

Meta旗下臉書AI研究院開源XLS-R,是一套具20億參數、跨128種語言的語音辨識預訓練模型;AWS在re:Invent年會上發表機器人管理服務IoT RoboRunner;GCP新增AI對話新功能,中小企業不必寫程式也能打造好用的Chatbot;字節跳動以BERT架構打造SOTA等級影像辨識新模型。

2021-12-02

| 語言障礙者 | Relate | App | 語音辨識 | 語音轉文字 | 語音合成 | Google語音助理

讓語言障礙的帕金森氏症、腦麻病患出門更容易與人溝通!Google新App能幫忙轉譯文字再合成語音唸出聲

為了讓語言障礙者說的話更容易被他人理解,Google發布一款Android應用程式Relate,目前在Beta版測試。這款App涵蓋三大功能,除了能將語言障礙者說的話正確轉譯為文字,還能以合成語音唸出,並串接Google語音助理來啟動相關操作

2021-11-13

| Project Relate | 無障礙 | 口語溝通 | 語言障礙 | AI | 機器學習 | 語音辨識

Google測試協助口語障礙者溝通的AI App

為強化協助語言障礙者進行溝通的Project Relate App,Google邀請口語障礙人士參加公測,藉此蒐集語音樣本以提升模型精準度

2021-11-11

| google | 機器學習 | 語音辨識 | 客服

Google雲端發布語音身分驗證服務Speaker ID

使用Google的語音身分驗證服務Speaker ID,來電者只要完成註冊,該服務就能在3秒內透過語音片段辨識來電者身分

2021-10-05

| Amazon | 語音辨識 | 客服中心

不需訓練自定義模型,Amazon Transcribe通話分析可快速擷取顧客來電特徵

用戶不需要建立額外的人工智慧工作管線,或是訓練機器學習模型,就可簡單使用Amazon Transcribe通話分析來擷取通話中的特徵

2021-08-10

| 臉書 | 語音辨識 | 非監督式 | Wav2vec | AI

臉書發布高效能完全非監督式語音辨識模型Wav2vec-U

Wav2vec-U是臉書Wav2vec語音辨識模型的非監督式版本,完全不需要轉錄資料,也不用標籤資料訓練,效能已經與2019年最佳監督式語音辨識模型相當

2021-05-24

| google | 音訊分類 | 機器學習 | LEAF | 預處理音訊 | 梅爾濾波器組 | Mel Filterbanks | 語音辨識

Google開發新方法LEAF改進音訊分類任務

音訊任務所使用的標準梅爾濾波器組(Mel Filterbanks),主要為了模仿人類的聽覺特徵,但反而不利於處理像是鯨魚聲音辨識這類任務,因此Google開發可適用各種任務的新方法LEAF

2021-03-16

| 臉書 | Learning from Videos | AI | 電腦視覺 | 語音辨識 | 臉書公開影片

臉書利用使用者所上傳的公開影片來訓練AI模型

臉書目前已經把使用者上傳的公開影片餵給電腦視覺及語音辨識系統以提高AI判讀正確性,現在宣布要將這些影片資料擴大使用到臉書家族各種應用的AI模型

2021-03-15

| 微軟 | 語音辨識 | AI | 隱私 | 個資 | 資料收集

微軟讓用戶貢獻可用於人工轉錄的語音片段

微軟接下來會在使用語音辨識技術的產品,讓用戶能夠貢獻與服務互動的語音片段,並交由微軟員工與承包商聽取或是轉錄成文字

2021-01-19