Amazon今日(11/30)在AWS re:Invent大會宣布推出3項雲端AI服務,將Amazon內部採用的機器學習與深度學習技術,以雲端服務的型式提供給所有非機器學習專家的開發人員使用,包括圖像辨識、文字轉真人語音,以及如同Amazon Alexa的對話式應用服務。Amazon終於加入由Microsoft與Google領先的雲端AI服務市場。

AWS(Amazon Web Services)執行長Andy Jassy表示,在Amazon有上千位工程師負責機器學習與深度學習等人工智慧領域的技術,其實Amazon的多項服務早就已經採用機器學習與人工智慧等技術,只是礙於公司文化風格而不太對外張揚。

機器學習與深度學習雖然是近年來非常熱門的AI新興技術,然而兩者的技術門檻極高,不僅需要熟悉機器學習與人工神經網路演算法的專家,流程中也需要高度仰賴技術專家處理機器學習演算法、調校機器學習模型,再加上事前需蒐集處理大量資料、整理訓練用資料等手續,不只是流程繁複,而且針對不同的狀況,例如辨識不同的物體影像,又或是針對不同的媒體如聲音,則又必須整個流程再重複施行。

AWS推出雲端AI服務所訴求就是解決上述困難,讓非機器學習專家的軟體開發人員也能使用機器學習與深度學習技術。整個流程中的資料處理、整理、演算法、機器學習模型,以及類神經網路架構的擴充性等,都由AWS在雲端架構中完成,而以API型式提供機器學習功能,讓軟體開發人員可以輕易呼叫使用圖像辨識、自然語言處理等機器學習與深度學習的功能。

Amazon新推出的3項雲端AI服務中,第一項是立基於深度學習技術的圖像識別與分析服務-Amazon Rekognition。這個圖像識別服務可分析物件、人臉及場景,以一張拍照者從汽車副駕駛座拍攝女性駕駛的照片為例,Amazon ReKognition可分析出汽車、戶外、白天及駕車等標籤,而從臉部辨識則可分析出女性、微笑與太陽眼鏡。一旦圖片帶有這些特性標籤,開發人員就能有許多進一步運用照片的方法。

第二項也是立基於深度學習技術的AI服務是Amazon Polly,它可將文字轉換成真人發音的MP3檔案,Andy Jassy舉一個例子是,把「WA的氣溫70F」輸入Polly,則可轉成由真人發音說出:「華盛頓州的天氣是華氏75度。」它其實是做了一些自然語言處理,再經由合成的真人發音輸出音訊。目前Polly支援24種語言、47種語調,不過尚未有中文版。

第三項AI服務則是將Amazon Alexa語音助理的核心技術,透過雲端提供使用,由於這是取自Alexa的核心技術,在命名上就把Alexa去掉頭尾,成為人機對話服務Amazon Lex。

Amazon Lex立基於自然語言理解(Natural Language Understanding,NLU)、自動語音識別(Automatic Speech Recognition,ASR)及深度學習技術,將人類語言轉換為電腦可處理型式,再將處理的結果轉換為人類自然語言,也就是人機對話。隨著Amazon Alexa帶動新一波人機對話的應用模式,諸如Chatbot對話機器人、對話(Conversation)介面、對話平臺也開始風行,而Amazon Lex則可做為這類應用的核心。

AWS產品策略總經理Matt Wood在現場示範以Lex開發的Chatbot應用,可透過語音或文字提出請求,例如詢問訂購飛往倫敦的機票,Lex系統會接著回問何時起程,一旦答覆了起程時間,Lex系統就會查詢機票,一旦有機票可訂,會再詢問使用者是否確認訂票,在使用者同意後,Lex系統就會驅動Amazon Lambda服務去訂票。


另以飯店訂房為例,當使用者說出訂紐約市飯店房間後,系統先以自動語音識別技術轉換為可理解的文字,並且斷詞,區分出「訂」「紐約市」「飯店」「房間」等關鍵詞,再由自然語言理解技術分析使用者要訂房、住宿紐約市,接下來系統會詢問使用者預計入住與退房的時間,驅動Amazon Lambda服務查詢空房資訊,在找到空房時再進一步透過語音確認是否要訂房,一旦使用者確認要訂房,再驅動訂房服務,在訂房成功後,再透過Amazon Polly服務,以語音回覆成功訂房的訊息。這樣的對話式互動讓使用者覺得宛如真人客服。

目前Amazon Rekognition及Amazon Polly服務皆已對外提供,而Amazon Lex則是預覽版。Amazon Lex的計價為文字每千次查詢為0.75美元,語音每千次查詢為4美元。

熱門新聞

Advertisement