中研院近期開源其內部AI逐字稿服務使用的AI語音轉錄平臺,專案名稱TranscriptHub。

圖片來源: 

GitHub

中研院內部使用的AI逐字稿服務,近期中研院對外開源該服務使用的AI語音轉錄平臺程式碼,開源專案TranscriptHub,該平臺採用MIT授權,可用於商用使用,讓企業或公務機關建置內部的AI轉錄服務,搭配Whisper模型,用於會議內容或研討會演講錄音內容,快速製作AI逐字稿。

生成式AI在全球帶動風潮,中研院也在2023年開始嘗試生成式AI技術,其中為了解決會議內容或演講內容傳統人工整理逐字稿的痛點,中研院資訊服務處採用OpenAI的Whisper模型開發內部使用的AI逐字稿服務,在不斷改良下,AI逐字稿可以自動辨識中文、英語、法語、德語、西班牙語、義大利語、日語、荷蘭語等進行轉錄。

中研院資訊服務處長陳伶志表示,資訊服務處最初在內部使用Whisper模型,沒有開放中研院的業務單位使用,只有專案方式與業務單位合作,儘管當時的Whisper模型辨識已有一定的準確度,但是辨識的準確度可能不符使用者的期待,公家單位對辨識結果要求更高,因此資訊服務處花費相當多的時間與使用者溝通,直到後來WhisperX問世,辨識的結果更快更準。

資訊服務處在2024年陸續接受其他單位委託,業務單位提供錄音檔案,資訊服務處協助辨識,再將辨識結果提供給業務單位,隨著各個單位的AI辨識需求增加,資訊服務處工作量也增加,陳伶志決定讓AI辨識逐字稿走向服務化、自動化發展,來減輕資訊團隊的負擔。

因此他們將其發展為AI服務平臺,並且和院內帳號系統連結,正好中研院近期積極推動FIDO,將AI逐字稿服務和FIDO身分驗證結合,以算力資源珍貴為由,員工如果想要使用AI逐字稿,就需要先用FIDO驗證身分,讓AI服務成為內部推動FIDO的誘因,今年2月進一步開放全院員工使用。

陳伶志表示,最初以為AI逐字稿服務使用會以會議內容為主,但是有不少研究人員用於研討會或訪談內容,相關的需求漸漸開始增加。資訊服務處以Whisper模型為基礎,建置院內的AI逐字稿服務,目的是希望讓沒有IT能力的單位也能使用AI服務,避免他們使用外部的服務或軟體,造成資安控管的風險增加,「與其控管,不如提供服務讓其他單位來使用」。

由於中研院資訊服務處開發AI逐字稿服務,吸引外界的興趣,中研院資訊服務處近期整理程式碼,近期在GitHub上開源AI語音轉錄平臺,專案名稱AS-AIGC/TranscriptHub。

陳伶志表示,不少感興趣的單位為業務單位,但是基於資安考量,希望建置落地的AI逐字稿服務,因此向中研院資訊服務處表達興趣,因此資訊服務處開源AI逐字稿,讓外部單位也能夠自行建置落地的AI逐字稿服務,或是委托外部的資訊服務廠商協助建置,同時也能透過開放讓外界使用,蒐集各方的意見,不斷優化、增加新功能。(下圖來源: 陳伶志提供)

中研院內部測試使用期間,除了行政單位的會議紀錄需求,還有老師、研究人員的研討會、訪談內容,有的錄音時間2到4個小時,曾佔用大量的算力資源,影響其他專案使用資源的權益,為避免資源被過度佔用,中研院目前將AI逐字稿的錄音檔大小限制在200MB,轉檔資料保留1個月。

陳伶志自己測試AI逐字稿,以2小時的會議錄音檔為例,如果為WAV格式,檔案大小約為1GB左右,轉為MP3後,檔案大小才低於200MB,使用者如果有更長的錄音檔轉檔需求,就需要切割檔案後再轉檔。他認為目前AI逐字稿辨識整體而言準確率表現不錯,但是對於專有名詞或人名、地名可能出現錯誤辨識,此外,同時間多人一起講話會難以辨識,或是講話的語氣突然變小聲,可能造成錯誤辨識,建議使用者利用轉錄後的SRT檔,根據錄音的時間序重新調整辨識的內容。中研院的AI逐字稿可針對錄音檔內不同講者辨識Speaker,再手動修改Speaker名稱。

中研院內部部署方式

中研院開發部署AI逐字稿,最初使用RTX4090顯卡作為算力資源,後來增加至2片4090,但是AI逐字稿仍要與其他專案競爭算力資源,去年底中研院再採購2片H100,才將模型推論、RAG移到H100上執行,讓2片RTX4090作為AI逐字稿的專用算力資源。

中研院部署AI服務,也同時兼顧管理的方便及資安風險。

陳伶志表示,AI逐字稿服務的目的是讓行政單位使用的較低規格的電腦也能使用AI辨識逐字稿,因此採用Web的服務模式,讓其他單位也能容易使用,原本的2片RTX4090增加採購2片H100之後,將Web服務和內部算力資源切開,將Ollama的運算集中到H100的算力資源,RTX 4090則作AI逐字稿服務的專用資源,切割的目的也考量到資安風險問題,Web服務容易被攻陷,一方面減少上面開啟的Port服務,前端機器減少運算需求,前端機器只以存取控管、登入UI為主,使用者上傳的音檔在轉檔完成後即刪除,轉檔後的逐字稿檔案則保留一個月。

在RTX 4090、H100之後,中研院今年準備再建置更新的算力資源,規畫採購L40S GPU,專門用於處理院內的API服務,未來隨著效能更高的新算力資源建置,陳伶志表示,未來AI逐字稿會持續跟進Whisper更新,隨著新的算力資源加入,也不排除從RTX4090轉移到H100資源。

熱門新聞

Advertisement