全球最大電腦科學論文平臺arXiv聯手Kaggle,打造擁有170萬篇論文的資料集。

圖片來源: 

arXiv

重點新聞(0807~0813)

arXiv     Kaggle     電腦科學  

全球最大電腦科學論文平臺arXiv聯手Kaggle,要打造機器可讀的最大論文資料集

擁有全球最多科學論文檔案的平臺arXiv日前宣布將所有電腦科學相關論文,分享給機器學習數據分析和競賽平臺Kaggle,要打造全球最大的機器可讀論文資料集。

arXiv於1991年創立,由康乃爾大學管理,是一個開放、免費的平臺,來保管研究員提交的電腦科學或機器學習論文。arXiv這次與Kaggle聯手建立了一個擁有170萬篇論文的資料集,該資料集目前已經上線,每周定期更新一次。arXiv期望,透過這個資料集,能帶來更新穎的機器學習應用,比如趨勢分析、論文推薦引擎、類別預測、語義搜索介面等。(詳全文)

  Salesforce     經濟決策    AI Economist  

Salesforce開源自家經濟決策AI專案,可用AI分析政經影響

CRM大廠Salesforce日前開源經濟決策制定專案AI Economist,要藉其中的AI模擬器,來助政府、經濟學者等人制定經濟決策,比如稅務徵收。在這個模擬器中,使用者可觀人民對特定稅收政策的反應,以及該政策對人民的影響,而非採用古典經濟學理論,忽略了人民增加收入所產生的勞動成本。

進一步來說,AI Economist是一套兩階級的深度強化學習模型,利用獎勵方法來讓AI代理人(Agent)盡可能模擬真實人民對稅務政策的反應。AI Economist的模擬環境為一個平面世界,其中,代理人可透過建造石屋或木屋來賺取資源和硬幣,硬幣的多寡取決於代理人的技能,另一方面,代理人也可在整個環境中移動,來收集資源,或是互相交易,來換取硬幣,再進一步建造房屋。

代理人最終的報酬以其累積的勞動和收入為基準,每隔一段時間會課稅,並根據AI模型再重新分配稅額,在下一期實施新的稅務政策。團隊也將AI Economist與真實世界的實驗相比,發現該方法不需要任何經濟學理論知識,也不必特別設置稅率,就能模擬出與真實世界非常相近的結果。Salesforce將該專案開源後,也號召電腦科學專家和經濟學家,來一起強化AI Economist。(詳全文)

  Google     數位筆跡辨識     ML Kit  

Google機器學習開發工具包又有新API,數位筆跡辨識連手寫字都能懂

Google在機器學習開發工具ML Kit中,新增了數位筆跡辨識(Digital Ink Recognition)API,可讓開發者在ML Kit中,打造能辨識觸控手寫或手寫筆書寫的應用程式,可在Android和iOS上執行。Google指出,該API不只能辨識螢幕觸控手寫字,還能識別手寫的筆記,並以此來搜尋。

其中的辨識原理,是透過一部分分類器將文字分解為字符串,再透過另一部份的分類器,來描述這些字符串的類別,比如表情符號、塗鴉、圖形等。Google指出,數位筆跡辨識API可在100毫秒內完成辨識,近乎即時,而且支援了300多種語言和25種書寫系統,這些語言涵蓋主要的拉丁語言、中文、日文、韓文、阿拉伯文等。(詳全文)

  TensorFlow 2.3   模型訓練       工作管線 

提高1倍訓練速度!TensorFlow 2.3新工具可預載預處理

機器學習框架TensorFlow發布了最新2.3版本,主打新工具,讓使用者可在一臺或多臺電腦中,輕鬆載入並預處理資料,解決輸入工作管線瓶頸的問題。首先是tf.data的新服務API,可提升訓練速度,透過將資料分散預先載入到訓練的叢集中,同時進行預處理,提高一倍訓練速度。再來是快照API,可將預處理工作管線中的資料,輸出到磁碟中永久保存,以便在不同的訓練中重複使用。

此外,新版的TF Profiler還加入兩個新功能,分別是記憶體分析器和Python追蹤器。記憶體分析器能在模型訓練期間,監控記憶體的使用狀況,來分析在訓練工作期間記憶體不足的情況。而Python追蹤器則能監控Python的呼叫堆疊,提供更多程式執行中的資訊。(詳全文)

  PyTorch 1.6     混合精度訓    效能分析  

PyTorch 1.6版本強化混合精度訓練

PyTorch 1.6版近日釋出,這次更新包括新API和效能分析工具,供用戶掌握模型執行狀況。PyTorch 1.6版本的新API,結合了由Nvidia貢獻的自動混合精度(AMP)訓練功能,AMP API提供混合精度的使用方法,像是在線性層或是卷積操作上,可在部分資料操作使用半精度浮點數float16,另一部分使用float32。

此外,新版本也增加了記憶體分析器,讓用戶能查看CPU和GPU中,不同運算的張量記憶體消耗狀況。不只如此,1.6版也開始支援分散式資料平行(DDP)和遠端程序呼叫(RPC)的協作,來改善分散式訓練效能。(詳全文)

Julia 1.5    程式語言    資料科學 

Julia 1.5改進多執行緒功能正式發布穩定版API

資料科學家愛用程式語言Julia釋出了1.5版,多執行緒功能終於進入穩定階段,新版本也增加了函式庫和建置系統的改善。Julia從0.5版就開始加入實驗性多執行緒平行運算功能,到了1.5版,終於成為穩定功能,除了將大多數執行緒API標記為穩定,也使@sync和SuiteSparse繫結成為執行緒安全,還加入新的語法@threads。

官方為Julia編譯器添加每模組最佳化等級功能,也就是說,開發者可指定每個模組最佳化的等級,像是可將Plots.jl指定為@optlevel 1,可減少首次繪製時間約三分之一。(詳全文)

MediaPipe Iris    虹膜量測     RGB相機  

Google新測距AI模型用RGB鏡頭就能靠虹膜大小量距離

Google釋出一套機器學習模型MediaPipe Iris,可透過雙眼的虹膜大小來精確量測相機與人的距離。這款模型以跨平臺AI工作流程框架MediaPipe上的Face Mesh為基礎,能用單個RGB攝影機,即時追蹤虹膜、瞳孔和眼睛輪廓,在不使用專用深度感測器的情況下,人與相機的量測距離相對誤差小於10%。

打造虹膜追蹤的第一步,是以Face Mesh生成高逼真度的人臉幾何網格,再從網格分離出眼睛區域。接著是眼睛輪廓評估和虹膜定位,團隊手動標註了5萬筆眼睛區域訓練資料,再用手機相機焦距和眼睛虹膜大小,來推估實際距離。經測試,在2公尺內,MediaPipe Iris平均相對誤差為4.3%,標準差為2.4%。(詳全文)

圖片來源/Salesforce、Google、Julia、MediaPipe

 AI趨勢近期新聞 

1. 臉書開源可偵測Python程式碼安全與隱私問題的工具Pysa

2. IBM打造AI模型來偵測帕金森氏症惡化狀況

3. Google利用電腦視覺開發超逼真3D重建系統NeRF-W,可合成栩栩如生的世界景點戶外場景

4. 具AI夜拍功能的Google Pixel 4a手機即將在臺上市

資料來源:iThome整理,2020年8月

 
 
 
 

熱門新聞

Advertisement