語音轉文字

OpenAI推出新語音模型，增強語音辨識準確度與語氣控制能力

OpenAI新一代語音轉文字與文字轉語音模型，透過強化學習與語音資料預訓練提升辨識準確度，並支援語氣控制功能。新模型在多語言環境中表現優異，有助於開發更自然且個人化的語音應用

2025-03-21

| google | AI | Conformer | 語音轉文字

Google雲端語音轉文字服務採用Conformer新模型，將大幅提升辨識品質

Google雲端語音轉文字API，現使用融合CNN與Transformer的Conformer新模型，能夠明顯提升語音轉錄的精確度

2022-04-22

| google | API | 語音轉文字

Google雲端語音轉文字API加入視覺化介面，降低AI模型使用障礙

Google自動語音轉文字API現在提供用戶視覺化操作介面，以簡化使用API建置應用程式和服務的過程

2022-02-09

Line CLOVA AI產品中文化落地臺灣，今年新推CLOVA Note，CLOVA Chatbot更推出三種部署版本

Line臺灣發布CLOVA AI產品三大更新，除了陸續將產品中文化落地臺灣，CLOVA OCR新增了Table Extractor與角度自動校正功能，CLOVA Chatbot也推出三種部署方式，包括針對臺灣用戶客製化的混合雲版本，今年稍晚更要推出中文CLOVA Note語音轉文字服務

2022-01-27

Meta開發能邊聽邊看的語音辨識模型，語音轉文字錯誤率大幅下降

Meta新的語言模型AV-HuBERT，能夠連結語音和影像中說話者的嘴唇動作，提升語音辨識抗噪效果，使單字錯誤率大幅下降

2022-01-11

讓語言障礙的帕金森氏症、腦麻病患出門更容易與人溝通！Google新App能幫忙轉譯文字再合成語音唸出聲

為了讓語言障礙者說的話更容易被他人理解，Google發布一款Android應用程式Relate，目前在Beta版測試。這款App涵蓋三大功能，除了能將語言障礙者說的話正確轉譯為文字，還能以合成語音唸出，並串接Google語音助理來啟動相關操作

2021-11-13

Adobe發布多項應用程式更新，不只將AI融入影像設計，更在Premiere Pro內建語音轉文字來自動上字幕

Adobe在今年Max大會中揭露多項由AI驅動的新功能，相較於去年來看，AI應用更進階深化，比如在Premiere Pro中首度亮相的語音轉文字字幕功能，以及Photoshop中的神經網路濾鏡，能用來調整人物眼睛與頭部轉向

2020-10-22

Google擴展雲端語音轉文字服務新增支援7種語言

雲端語音轉文字API現在支援機器學習模型訓練資料較缺乏的7種語言，包括愛沙尼亞語、烏茲別克語以及旁遮普語

2020-03-07

AI趨勢周報第115期：12合一！臉書AI研究院用一套ViLBERT模型，搞定不同類型資料集的ML訓練任務

臉書AI研究院日前聯手喬治亞理工學院、奧勒岡州立大學，用12個資料集訓練一套ViLBERT模型，不只可用來解決不同類型的電腦視覺與自然語言任務，參數還從30億個減少至2.7億個，準確度平均提升2分。另一方面，為更精準掌握景氣循環，國發會研擬開發一套景氣循環AI預警系統。此外，由國發會成率領民間團體成立的國家級投資公司台杉投資，明年計畫成立AI科技基金，同時要吸引國外AI技術團隊在臺成立研發中心。

2019-12-27

AI趨勢周報第86期：微軟發表文字轉語音新成果，只要少數樣本就能訓練出準確度99.84％的模型

微軟發表一款文字轉語音AI，只用共20分鐘長的200個音頻樣本及其文字檔，就開發出準確度達99.84％的模型。另一方面，三星近日發表一項AI研究，只需幾張臉部表情的影像，就能讓靜態的人物肖像開口說話。此外，日本平價眼鏡連鎖品牌JINS宣布引進JINS Brain AI智慧判讀服務至臺灣分店，來幫臺灣消費者「挑眼鏡」。

2019-05-29