此為一般深度學習推薦模型的組成圖,綠色區域為推薦模型的基線,黃色區域則是臉書團隊提出的模型壓縮設計TT-Rec,可取代綠色區域來縮小模型。

圖片來源: 

臉書

重點新聞(0219~0225)

  推薦模型     模型壓縮     臉書  

推薦模型太大跑不動?臉書最新壓縮術讓模型縮小成百分之一

臉書聯手喬治亞理工學院(Georgia Tech),發表一項推薦模型縮小術,可將模型大幅壓縮至原本的112分之一,且表現不受太大影響。這個方法叫做TT-Rec,是深度學習推薦模型(DLRM)張量訓練的縮寫,TT-Rec專門用來縮小耗費記憶體的推薦模型,讓大規模部署變得更容易。它的創新之處,在於用張量分解(Tensor train decomposition)的矩陣乘積序列,來取代推薦模型的大型嵌入表(Embedding table)。

推薦模型幾乎是內容大廠的標配,比如YouTube、Netflix、臉書等,其中,推薦模型由2大部分組成:多層感知器(MLP)和嵌入表。MLP負責處理連續性特徵,如使用者年紀,嵌入表則將稀疏、高維度的輸入值,編碼成高密度的向量示例,來處理類別型的特徵。但現今產業所用的推薦模型嵌入表,記憶體耗費量從GB等級躍升到TB等級,以臉書的推薦模型來說,光是嵌入表就占了99%的容量,若加入新的推薦模型,所需的記憶體容量又會成指數成長。

為解決問題,團隊設計了TT-Rec壓縮技術,用張量分解來取代嵌入表。團隊比喻,這個方法就像是用查詢表(Lookup table)來換取記憶體容量和頻寬。為評估,團隊訓練了MLPerf-DLRM,用TT-Rec後可縮小為原本的112分之一,而訓練時間只增加13.9%。目前TT-Rec已於GitHub上開源(詳全文)

雲象    全玻片辨識    Nature Communications  

不必再切割和標註了!雲象新方法讓電腦一次就懂上億畫素的病理全玻片影像

數位病理AI新創雲象科技費時3年研究,終於找出新方法突破算力障礙,讓深度學習模型可以上億畫素的全玻片影像來訓練、判讀,不必像過去要切割影像才能做得到;這個研究成果,最近也登上國際頂級期刊Nature Communications。

雲象科技執行長葉肇元指出,數位病理AI一直有個瓶頸,也就是難以完整的病理全玻片影像來訓練。這是因為,全玻片影像是由許多顯微鏡下放大的視野拼接,解析度可達數十億,要用這些影像來訓練深度學習模型,非常耗費記憶體和時間。而傳統方法是將影像切割為多個區塊(Patch),以低畫素(如256*256或512*521)影像來訓練模型、讓模型判讀。但這個方法,需要在每個區塊進行標註,因此相當耗費醫師人力。

於是,雲象決定找出方法,讓AI模型可用未標註的全玻片影像來訓練,並進行判讀。他們先是解決記憶體問題,在訓練階段,讓電腦不只運用GPU記憶體,還加上系統記憶體來一起解析影像。接著,他們再以資料搬遷方法,來解決速度慢的問題,比如優化算圖(Computation graph)、將計算工作分群分階段,降低資料在GPU和系統間搬遷的頻率,此外,他們也採用Pre-fetch,將下一階段所需的資料,提前搬到GPU記憶體。最後,他們運用科技部巨量醫療影像計畫中的9,000多張肺癌影像資料集,用近5億畫素的全玻片影像來訓練AI模型並辨識癌症和分類,發現AUC高達0.959,優於現有最佳方法。這個成果的意義,不只AI全玻片影像訓練和判讀,更重要的是不需人為標註。 (詳全文)

  Transformer     蛋白質    長序列  

Transformer不只突破NLP天花板,還完勝蛋白質預測權威方法

「這是Transformer架構的巨大進展!」臉書AI首席科學家、CNN之父Yann LeCun日前在Twitter上寫道。這次,臉書AI研究院聯手柏克萊大學和紐約大學,利用Transformer來預測蛋白質接觸的結構變化,而且,輸入值不只單一個蛋白質序列,而是好幾個。

3年前,Transformer架構因Google BERT聲名大噪,在NLP領域寫下里程碑。這次,臉書團隊用Transformer來解決半世紀難題:蛋白質結構預測。一般來說,蛋白質結構預測常用神經波茨模型(Neural Potts Models),透過共享參數來模擬多個蛋白質家族的分布,後來因未標註序列資料集的誕生,延伸出另一種新方法,也就是非監督學習的蛋白質語言模型。但缺點是,它一次只能輸入一個蛋白質序列,因此需要大量參數。

為解決問題,臉書團隊開發MSA Transformer模型,能一次輸入好幾對對齊的蛋白質序列,並跨序列家族共享參數。簡單來說,團隊把Transformer預訓練擴展到MSA演算法上,將Transformer強大的配對能力用來對應序列內的交互作用,成為殘基對殘基的對應圖。經測試,團隊發現MSA Transformer模型在非監督蛋白質接觸預測上,完勝現有高階蛋白質語言模型和傳統的Potts模型。(詳全文)

  Google     機器學習模型搜尋    Model Search  

找模型好麻煩?Google開源模型自動搜尋工具幫你挑最好的

Google開源機器學習模型搜尋平臺Model Search,要讓研究社群更容易找出適合特定問題和資料集的ML模型、大幅減少程式開發時間與工作量。

Google表示,好用的類神經網路(NN)有賴於泛化任務的能力,但要做到這一點很有挑戰性,因為社群理解有限。比如,適合解決特定問題的NN,會長怎樣?要多深?隱藏層只用LSTM就夠了,還是要結合Transformer?因此,這幾年出現許多AutoML演算法,比如NAS、演化演算法、RL等,要將這段重手工的過程自動化,但這些演算法需要大量算力,又是一大負荷。

為此,Google研發Model Search平臺,由多個訓練程式(Trainer)、搜尋演算法、遷移學習演算法和用來儲存各種評估模型的資料庫所組成,能以自適應的方式,執行各種機器學習模型的訓練工作和評估實驗。Model Search中實作的搜尋演算法具適應性、貪婪和漸增特性,所以收斂的速度比RL要快,也能模仿RL,因此兼具深度與廣度,能更快找到最佳結果。Google也將Model Search用來探索關鍵字標記與語言辨識模型,不到200次迭代,就能獲得比專家設計更好的模型,少用了13萬可訓練參數。最後,Model Search以Tensorflow建成,可在單機或分散式裝置中運作。(詳全文)

  蘋果    聯合學習       FE&T  

蘋果研發裝置通用聯合學習系統FE&T

蘋果研發一套在裝置上執行的通用聯合學習系統FE&T,讓資料在不離開裝置的情況下,在個別裝置上改善特定分能的準確率。FE&T包含了資料儲存器、任務排程器、成果管理器,其中,資料儲存器有一套資料保留策略,確保裝置上留存的資料是有限的、最近的,而任務排程器則會定期下載一系列描述器,最後的成果管理器則會回傳任務結果,並在裝置上產生一個資料庫,讓終端使用者檢視哪些資料是與中央伺服器分享的。(詳全文)

  LinkedIn     會員大數據    銷售分析  

LinkedIn靠7億會員大數據推出銷售分析平臺

LinkedIn正式發布分析平臺Sales Insights,運用LinkedIn上7億多筆會員資料,來提供銷售團隊即時分析數據。銷售主管可透過Sales Insights掌握企業分布和即時人力資源,包括特定區域的企業、企業員工特性,來了解這些人所需的產品和服務。

Sales Insights運用LinkedIn Economic Graph資料集,來反映人、企業、技能、工作和學校等各種實體間的關係,而且,該平臺透過分析帳號、市場與關係強度等資料,讓銷售團隊將資源集中在最有機會的客戶上。其中,平臺也運用多種AI和資料探勘技術,來清洗、整合資料,確保資料正確性,並透過AI自動配對公司屬性,將乾淨的資料整合進企業CRM系統。(詳全文)

未知的未知物    群眾外包     影像辨識  

Google要藉群眾外包力量打造未知物資料集,改善AI辨識力

Google發起機器學習群眾外包不良測試集CATS4ML挑戰,要挑戰者以創新方法,來改善ML模型辨識未知的未知物(Unknown Unknowns)能力。Google指出,影響ML模型表現的兩大關鍵是演算法和資料,而資料又可分為訓練資料和評估資料,現有的評估資料卻過於直白簡單,往往忽略現實世界的模稜兩可性,造成辨識弱點。

這弱點又可分兩種,包括已知的未知和未知的未知,前者是指模型無法確定的分類,後者是指模型分類錯誤的例子。於是,Google發起CATS4ML挑戰第一版,要收集未知的未知物資料集,用來評估ML模型辨識能力。目前第一版鎖定電腦視覺,挑戰者可透過資料集現有的標籤,來找出未知的未知物,或以創新的方法來探索資料集。(詳全文)

圖片來源/雲象、蘋果、Google、LinkedIn

 AI趨勢近期新聞 

1. Google雲端整合資料科學平臺Databricks

2. AWS加入開源框架PennyLane指導委員會,要融合機器學習和量子運算技術

3. Google開除另一位AI倫理研究員Margaret Mitchell

資料來源:iThome整理,2021年2月

 

熱門新聞

Advertisement