Google發布了一個稱為Lookout的Android應用程式,利用電腦視覺為視障人士建立無障礙空間。當用戶將智慧型手機,對準超級市場貨架上的商品時,Lookout能夠即時辨識商品,並且大聲地唸出品牌名稱以及容量。

Google提到,視障人士日常生活遇到的挑戰之一,便是在超級市場或是廚房中,辨識包裝食品,因為許多包裝食品使用一樣的容器,像是相同形狀大小的盒子和罐子,只是標籤上的文字和圖像不同。這樣的包裝增加了視障人士辨認商品的困難度,因此Google嘗試使用行動裝置與機器學習技術,來解決這樣的問題。

由於近年來人工智慧的發展,裝置上的神經網路準確度大幅提升,再加上行動裝置的運算能力越來越好,因此不少電腦視覺的運算,已經可以在行動裝置上高效能地執行,Google表示,只要結合裝置索引技術,以及諸如MnasNet和MobileNets等裝置上模型,就能在行動裝置上開發完整的電腦視覺系統,即時辨識標籤。

Lookout內含具裝置上產品索引的超級市場產品偵測和辨識模型,還有MediaPipe物件追蹤和光學字元辨識模型,研究人員特別設計結合兩者的架構,能夠有效率地在裝置上即時辨識商品。Google解釋,完全裝置上系統的優勢,是低延遲且不用依賴網路,但是這也代表,要商品辨識系統有用,裝置上的資料庫必須要良好地覆蓋產品範圍,其中包括根據用戶地理位置,動態選擇兩百萬種熱門商品。

但是傳統的電腦視覺產品辨識方法,仰賴比對部分圖像特徵來進行,這些沒有使用機器學習技術的方法,雖然能夠可靠地配對符合的圖像,但是索引圖像的儲存容量卻相當大,每張圖像大小約為10 KB到40 KB,要儲存200萬種商品是一個不小的數字,而且傳統方法對於處理照明不佳或是模糊的圖像,辨識能力並不好,Google還指出,僅使用部分圖像特徵也就代表了,索引圖像僅提供局部資訊,無法捕捉更全面的外觀。

另一種方法,則是使用基於機器學習技術的光學字元辨識系統(OCR),以擷取產品包裝上的文字,但同樣會有索引文字檔過於龐大的問題,而Google最後則是選用了神經網路方法,替每個圖像產生全域特徵,大小僅有64位元組,由於大幅縮小索引容量,因此可以在索引添加更多產品,提升商品辨識的覆蓋範圍,使得用戶體驗更好。

Lookout除了可以在超級市場中,辨識產品品牌以及容量之外,還能提供包括營養成分、過敏原等詳細產品資訊,附加用戶評價、產品比較和價格追蹤等額外資訊,Google提到,他們也還持續提升Lookout的功能,強化模型品質和強健性。

熱門新聞

Advertisement