圖片來源: 

百度

日前,百度AI實驗室(Silicon Valley AI Lab,SVAIL)在GitHub上開源釋出語音辨識機器學習演算法Warp-CTC,用來解決如語音辨識的監督問題,可以對應輸入序列和輸出序列的資料。

Warp-CTC是用於CPU和Nvidia GPU上的開源CTC演算法,而CTC是連結時序分類(Connectionist Temporal Classification)的縮寫,可用來訓練端對端(End-to-End)系統的語音辨識。CTC是一個物件函數,可以不需要輸入和輸出的資料與標籤之間的組合,也可以做序列資料預測的監督訓練。

(圖片來源/百度)

以上圖為例,上圖顯現出CTC計算一個語音輸出序列「貓(The Cat)」的概率,經由加總所有輸入序列可能的組合,可以對應到「貓」這個詞彙。

百度AI實驗室表示,因為包含組合數學的計算,要能夠明確地計算所有概率的成本過高,但是CTC使用動態程式設計來降低計算的複雜度。另外,因為CTC是一個微分函數,所以也可以用在深度神經網路(Deep Neural Network)的SGD(Stochastic Gradient Descent)標準訓練上。

此外,百度也表示,百度AI實驗室專注在經常性神經網路的(Recurrent Neural Network)擴大,而CTC損失函數(Loss Function)則是重要的元素。

而除了百度開源釋出AI軟體之外,臉書、Google、微軟、IBM等廠商早在去年相繼釋出開源AI軟體。其中,由臉書在去年年初打頭陣,開源釋出了自家人工智慧實驗室所研發的深度學習模組Torch,接著,Google在去年11月開源釋出了機器學習引擎TensorFlow,而微軟亞洲研究院也緊跟著在Github上開源釋出了分散式機器學習工具包DMTK。幾周後,IBM也跟著開源釋出了機器學習技術SystemML。

熱門新聞

Advertisement