重點新聞(0327~0402)
DeepQ T-BERT 自然語言處理
國、臺語和客語都能通!DeepQ用12年新聞大數據訓練出T-BERT未來還要開源
HTC健康醫療事業部DeepQ不止打造擁有百萬用戶的抗疫機器人疾管家,近日還推出新一代自然語言處理平臺T-BERT,是團隊利用12年來國、臺語和客語新聞、線上教材、朗讀比賽等資料訓練而成,可讀、寫國臺語和客語,並將應用於Chatbot的語義分析和問答互動,像是疾管家、蘭醫生等。
該平臺由DeepQ與臺大資工系副教授廖世偉聯手開發,DeepQ資深處長鄭志偉指出,團隊在Google發表超強自然語言處理預訓練模型BERT後,就開始計畫以其Transformer架構,來打造適合臺灣本土的BERT。於是,團隊鎖定國語、臺語和客語,蒐集了數十年新聞資料,以及臺語和客語等專屬文字資料,作為訓練素材;而在訓練T-BERT模型時,團隊特別利用了64顆GPU和平行運算架構,來加速訓練,提升60倍運算時間,將學習時間縮短為6小時。目前,T-BERT已能自動分類9大類的國語新聞,如財經、國際等,準確度達93.7%。另一方面,由於臺語、客語資料庫相對較小,團隊採2階段微調方法,來提升準確度。
接下來,T-BERT將支援語音轉文字功能,就可聽懂國、臺語和客語,來進行問答。DeepQ總經理張智威也指出,未來,團隊將開源釋出T-BERT。(詳全文)
Google 公共資料集 BigQuery ML
Google發起COVID-19公共資料集計畫,研究員還可用BigQuery ML來建模不收額外費用
科技巨頭Google結合數據力和運算力來對抗武漢肺炎(COVID-19)疫情,日前宣布啟動COVID-19公共資料集計畫,來網羅目前各組織釋出的資料集,比如約翰霍普金斯大學CSSE的疫情追蹤地圖、世界銀行的全球衛生資料、開放街圖資料(OpenStreetMap)等,然後整合為一個資料庫,免費讓研究員快速查找資訊。
此外,Google也指出,研究員可直接使用自家機器學習服務BigQuery ML和資料集中的數據,來訓練機器學習模型,不須額外付費。最後,對公共資料集計畫有興趣的研究者,可自Google Cloud Console使用這些資料集,該計畫有效期至今年9月15日。(詳全文)
Uber 分散式訓練 計算函式庫
上千臺機器大規模訓練AI更輕鬆!Uber開源分散式訓練函式庫Fiber
大量的算力可讓機器學習演算法大規模擴展,也讓分散式訓練成為可能。但這種大規模分散式訓練仍有些挑戰,比如在本地端和在生產端執行程式碼,會有一大段落差,而且缺乏動態擴展方法、沒有錯誤控管和學習成本過高等。
為解決這些問題,Uber和OpenAI團隊聯手開發分散式訓練函式庫Fiber,可輕鬆執行分散式機器學習訓練,還能擴展至上百甚至上千臺機器,且不需要專用硬體或設備。Fiber提供了和Python一樣的標準多重處理(Multi-processing)API,因此容易上手;另一方面,使用者不需要部署Fiber,只要在電腦叢集上,像執行其他普通應用程式即可。
在架構上,Fiber由API層、後端層和叢集從組成,API層提供基本常用的模組,像是流程處理、管理器、佇列等。後端層負責電腦叢集上建立或終止的任務,叢集層則由不同管理器組成,可幫助Fiber管理、追蹤不同工作,降低Fiber本身所需追蹤的任務。在使用上,Fiber可支援Python 3.6版本或以上的Linux系統,也能支援Google Cloud等公有雲上的K8s。(詳全文)
Element AI 武漢肺炎 自然語言處理
加拿大AI新創免費開源NLP工具,幫研究者找出武漢肺炎關鍵文獻
加拿大AI新創Element AI日前開源一套搜索工具,可讓研究者利用自然語言,從COVID-19開放研究資料集(CORD-19)中找出關鍵資訊。進一步來說,CORD-19是美國產官學界為對抗疫情,聯合建立的開放研究資料集,號稱資訊全球最豐富,彙集了4萬4千多篇相關論文。然而,其中有許多論文尚未經過同儕評審,因此,要找出關鍵資訊,可得花上一番功夫。
為幫助研究者快速找到所需的資訊,Element AI開源自家語義搜索工具Knowledge Scout,研究者可以自然語言輸入關鍵字、片語,甚至是整個段落,搜尋引擎就能從CORD-19中,找出語義相關的資料。Element AI指出,這套語義搜索模型可以找出不同資訊間的關係,並會隨著時間來學習、改進,同時建立隱性知識庫。未來,Element AI還要將更多武漢肺炎相關資料集,納入這套工具的搜索範圍。(詳全文)
Nvidia 超級採樣技術 DLSS 2.0
Nvidia新版AI超級採樣技術DLSS 2.0亮相,玩Game也可享受4K畫質
Nvidia近日發表新版深度學習超級採樣技術DLSS 2.0,不僅能即時渲染畫面,還能達到超解析度等級。這是因為,DLSS 2.0可渲染更少像素,再以AI產生清晰、高解析度的影像。
相較於DLSS 1.0,DLSS 2.0採用全新模型,先以非特定遊戲內容來訓練跨遊戲的通用網路,再於遊戲執行時,取得其他訓練資料,產出品質更高的畫面。此外,DLSS 2.0執行AI模型的速度,是前一代的兩倍,大幅提高每秒幀數(FPS)。而DLSS 2.0提供品質、平衡和效能三種模式,其中,效能模式可提高渲染影像4倍解析度,等於可從1080p轉換為4K解析度。(詳全文)
Google 遊戲伺服器託管 Kubernetes
Google推出遊戲伺服器託管服務,讓遊戲開發商用K8s管理全球遊戲伺服器機群
Google發表雲端遊戲伺服器服務Game Servers測試版,是一款K8s遊戲伺服器託管平臺Agones的服務,可讓企業簡單管理全球多叢集遊戲伺服器機群,提供了自動縮放排程規畫,也可用來進行A/B或金絲雀測試。
3年前,Google與法國知名遊戲開發業者Ubisoft打造Agones平臺,用戶可直接在K8s上託管、執行和擴展專有的遊戲伺服器,並管理遊戲伺服器的生命周期。現在,Agones現有用戶,只要使用Game Servers API在Agones叢集中註冊,就能加入託管服務。Google指出,該服務可讓用戶簡單調度資源,比如遊戲舉辦特別活動時,可按日期事先安排額外容量,來應付爆量等。(詳全文)
MetNet 天氣預測 降雨率
快狠準!MetNet模型精準告訴你未來8小時降雨率
Google近日發表了神經天氣模型MetNet,可精準預測未來8小時降雨率。MetNet是一款深度神經網路(DNN),能以每2分鐘為區間來預測,解析度可達1公里,表現還比起美國最先進的物理模擬模型好,幾秒鐘就能完成計算,比原本1小時快上好幾倍。
有別於傳統物理模擬,Google開發的天氣預報方法,是以深度神經網路來預測,可利用TPU或GPU等資源來執行平行運算,來找出資料模式。MetNet可自動取得雷達感測系統(MRMS)和環境觀測衛星系統(GOES)的降雨預測值,作為模型輸入值,而且不需人工註釋。然後,模型會產生機率分佈,團隊可用來判斷各區域的降雨機率。(詳全文)
呼吸音 肺炎 聽診系統
時時把關!AI隔空讓醫生了解患者心音
自疫情爆發以來,許多醫生穿上隔離衣,卻難以透過聽診器檢查病人心跳。臺灣新創聿信醫療開發的AI連續輔助聽診系統,正好可解決這個問題。這套系統包含貼在病人胸口、僅13克的微型聽診器和貼片,以及一支可執行AI的手機,可不間斷檢測呼吸聲,隨時偵測肺臟與不同肺葉的變化,並視覺化呈現,來告訴醫護人員病人動態。
這套AI模型由過去臨床測試紀錄的資料訓練而成,包括1,800人次、8,000多小時的呼吸聲音資料,其中30萬筆資料也已完成標註。該系統目前於臺大醫院、亞東醫院測試,能正確檢測呼吸率、氣喘音、痰音、囉音等肺部異常音。除了肺炎患者,連續呼吸監測還可應用於非插管的麻醉手術,以降低意外發生。(詳全文)
圖片來源/TensorFlow、Sam's Club、微軟
AI趨勢近期新聞
1. 華為開源專門打造AI App的深度學習框架MindSpore
2. Nokia 5G AVA認知服務平臺將為電信商推出AI服務
3. Google發表語義反應器Semantic Reactor,來強化自然語言理解能力
4. 必勝客靠AI追蹤顧客瀏覽軌跡,挑出猶豫客及時發送限時折價券搶訂單
資料來源:iThome整理,2020年4月
熱門新聞
2025-01-26
2025-01-26
2025-01-25
2025-01-24
2025-01-24
2025-01-26