Slack
重點新聞(0428~0504)
Slack Slack GPT 自動化
企業協作平臺Slack推出Slack GPT平臺,要讓工作流程更自動化
企業常用的協作溝通平臺Slack最近推出Slack GPT平臺,要助使用者整合各種生成式AI,來實現工作流程自動化。Slack GPT有3大特點,首先,使用者可用它直接整合、自動執行自己選擇的語言模型,不論是ChatGPT、Claude這類第三方App還是自建模型,都能在Slack GPT上整合使用。再來,Slack GPT提供一系列Slack內建AI功能,包括對話摘要和寫作輔助,其中,對話摘要功能在使用者切換頻道時,就會自動跳出。
此外,Slack GPT還提供一款新的Einstein GPT應用程式,可讓使用者觀看Salesforce Customer 360服務和資料雲服務所分析的消費者洞察。Slack還透露,今年晚些時候,使用者還能將生成式AI,即時帶入自己在Slack的自動化流程。也就是說,只要使用Slack的無程式碼自動化工具Workflow Builder,使用者就能在自己的工作流程中,增添生成式AI指令功能,來讓工作流程更自動化。(詳全文)
YOLO NAS 物件偵測
最新物件偵測模型YOLO-NAS為何特別?開發者揭背後關鍵
YOLO系列模型一直是物件偵測的主流模型,最近又有新進展了。一家AI公司Deci日前發表即時物件偵測模型YOLO-NAS,宣稱準確度和速度都比過往YOLO系列模型要好,勝過YOLOv6、YOLOv7和YOLOv8。進一步來說,YOLO-NAS的基礎模型是由Deci自家神經架構搜尋器AutoNAC產生,這款神經架構搜尋器的特點在於,它可根據使用者需求,來快速生成兼具速度、準確度和高效能的自定義深度學習模型。Deci稱,該工具不只能根據資料和硬體等參數來尋找最佳架構,還能根據其他模型推理棧(如編譯器和量化)來尋找,在準確度與模型推論速度間取得平衡。
YOLO-NAS採用COCO、Objects365和Roboflow 100等資料集進行預訓練,可良好執行各種下游任務。在Nvidia T4 GPU的條件下與其他SOTA模型相比,YOLO-NAS的吞吐量提高了50%,平均精度均值則提高1 mAP。目前,Deci已開源YOLO-NAS模型和預訓練權重,其預訓練權重可在Deci的PyTorch函式庫SuperGradients使用。
不過,Deci共同創辦人Ran El-Yaniv指出,AutoNAC雖生成目前最好的YOLO模型,但他們知道,目前不會有一體適用的模型。因為,用相同的現成模型,在邊緣裝置上進行即時串流影片分析,並用雲端GPU來偵測物件,模型表現並不好。關鍵在於神經架構的設計,得兼顧影像解析度、物件大小、硬體屬性(如平行化能力、運算效率和記憶體緩存大小等),這是AutoNAC嘗試克服的挑戰。(詳全文)
LLaMA OpenLLaMA 大型語言模型
Meta的LLaMA很厲害但不開源,加州大學伯克萊分校不只復刻還開源了
加州大學伯克萊分校近日釋出一個大型語言模型OpenLLaMA預覽版,具70億參數,號稱是Meta的LLaMA復刻版。因為,團隊參照了LLaMA論文,採用相同的模型前處理和訓練方法,舉凡模型架構、文章長度、訓練步驟、超參數訓練方式、學習率排程和優化器等都與LLaMA相同,唯有資料集不同。
進一步來說,他們採用的資料集是RedPajama資料集,該資料集也是仿LLaMA的訓練資料而建置,共有1.2兆多個Token。而目前釋出的7B OpenLLaMA模型,是採用資料集中2千億個Token訓練而成。為訓練模型,團隊也開發一套Jax訓練/微調流程EasyLM,並用雲端TPU-v4s來訓練OpenLLaMA。
之後,團隊用語言模型評估工具lm-evaluation-harness來測試LLaMA、OpenLLaMA和GPT-J的表現。他們發現,OpenLLaMA的分數與LLaMA和GPT-J相當,甚至在某些任務上優於兩者。目前,開發者可在Huggingface社群中,找到Python和Jax版本的OpenLLaMA預訓練模型權重。同時,團隊也正訓練另外兩種OpenLLaMA模型,包括30億參數、較小型的模型,以及要用整個RedPajama資料集(含1.2兆Token)來訓練的大型模型版本,未來將釋出這兩種模型。(詳全文)
Gogolook GPT-3.5 金融客服
Gogolook用生成式AI打造金融客服機器人Roo AI
Gogolook主打金融諮詢服務,開發袋鼠金融平臺來協助民眾辨識網路上各種金融商品資訊,最近還推出GPT-3.5加持的AI智能問答服務Roo AI,回答內容更貼近臺灣消費者金融知識,還能從用戶提問內容中,找出可能導致用戶受騙的資訊,並提醒用戶。
首先,團隊選用GPT-3.5作為回答生成模型。接著,為避免GPT模型給錯答案,團隊自建資料庫來訓練一套LLM模型,用了400萬字的金融文章和200多項金融商品的資料,來確保生成內容符合臺灣消費者金融需求。同時,Gogolook也用微調和嵌入2種方法來完善Roo AI問答模型,也就是說,在流程上,使用者輸入問題後,會先透過團隊自建的嵌入式上下文分析器,來比對搜尋自建的金融知識資料庫,找出匹配的文本內容,再連同提問文字轉為向量,將這些資訊輸入GPT模型,提高正確性。而模型產出的結果會搭配參考資訊,回傳給使用者。
不只如此,團隊也用BERT的NLU語言模型,來處理斷詞、關鍵字,甚至是預先過濾提問中可能包含的不當或非法詞彙,並在後續回覆加註警示。目前,使用者向Roo AI提問時,平均需等待30秒到1分鐘左右,但該服務為beta版,有使用次數限制,團隊未來將透過用戶回饋持續調校優化LLM模型。(詳全文)
語音助理 生成式AI 蘋果
Amazon和蘋果都要用LLM強化語音助理
在Google、微軟掀起大型語言模型(LLM)和聊天機器人服務競爭的同時,Amazon和蘋果也要開發LLM來改善各自的語音助理。Amazon執行長Andy Jassy日前表示,Amazon將用LLM來改良Alexa,在既有底層模型上,再開發規模、能力和通用性都還要大的模型。
同時,蘋果也傳有LLM改良Siri的計畫。《紐約時報》指出,蘋果近日舉行生成式AI、LLM相關的內部活動,特別是給Siri開發部門,且蘋果員工也正測試一些語言生成概念技術。《9to5Mac》則報導一個可能是蘋果Siri的初期LLM計畫,在近日釋出的tvOS 16.4中,包含一個名為Siri Natural Language Generation的軟體框架,顯示蘋果可能用LLM來在Apple TV上執行對話力更強的Siri。(詳全文)
腦機介面 文字 GPT
非侵入性腦機介面成功將大腦活動轉為文字
德克薩斯大學奧斯汀分校整合語言模型和功能性磁振造影(fMRI)技術,開發出一套系統,可將大腦活動轉為文字敘述,證明了非侵入性腦機介面的可行性。由於大腦每秒處理超過2個單字,現行fMRI還難以跟上大腦速度、連續解碼語言訊號,因此,團隊研發出一種能猜測候選單字序列的解碼器,可根據腦反應來評估每個候選序列的可能性,最終選出最佳序列,來處理連續解碼工作。
為將單字序列與受試者的腦反應相比較,團隊還訓練一個編碼模型,來預測受試者大腦對自然語言短語的反應。測試時,每位受試者穿戴fMRI掃瞄器,聽16個小時的Podcast,研究團隊也用解碼器和語言模型GPT,來將受試者的大腦活動轉換成有意義的文字內容。雖然目前這項研究還在很初期的階段,但解碼器已能針對部分大腦刺激,正確解析出特定單詞,並生成意思相近的語句。(詳全文)
微軟 網頁設計 生成式AI
微軟網頁設計工具和視覺設計工具再添生成式AI功能
繼在Office、Power System、Dynamic 365等產品加入AI助理Copilot後,微軟日前又在另一款協作產品SharePoint中加入Copilot新功能。SharePoint是一款能讓使用者設計網站和共享資訊的平臺,最近整合大型語言模型GPT和Microsoft Graph中的資料,使用者可在SharePoint對話框中,用文字描述網站或網頁,比如「建立一個給新任產品經理使用的員工介紹頁、外加公司logo和員工導覽」,它就能產生一個網頁原型,用戶可再一邊與AI助理對話,一邊調整要的動線或外觀。Copilot也可將現有文件轉變成SharePoint網頁,例如將一份無人機產品規格文件變成介紹網頁,並抓出其中特色成為網頁標題。
此外,微軟視覺設計工具Designer也加入新AI功能,還整合到瀏覽器Edge的側邊欄工具中,並開放全面免費測試。微軟去年10月開始將OpenAI的文字轉圖像模型DALL-E整合到自家視覺設計工具Designer,來協助使用者設計社群平臺貼文、邀請函、電子賀卡等。現在,使用者只需輸入一個詞語,Designer的DALL-E模型就能生成數個配合貼文的圖片、小標或hashtag建議,來供選擇。
其次,Designer也加入自訂和調整原有設計畫布大小的功能,並新增動態視覺元素,如動態背景、表情符號及具轉場效果的文字。微軟預告,未來Designer還會加入新AI功能,像是以物件填滿某個圈起的部位、擴大背景填滿圖片、從圖片中塗抹掉某個物件,並生成其他圖片取代、以及變更背景等。(詳全文)
圖片來源/Slack、Deci、Gogolook、德克薩斯大學奧斯汀分校、微軟
AI近期新聞
1. 美國聯邦交易委員會主席呼籲規範生成式AI
2. 微軟Bing Chat全面開放試用,強化圖表搜尋、自動化和外掛支援
3. 吳恩達聯手OpenAI開設免費的ChatGPT Prompt Engineering課程
資料來源:iThome整理,2023年5月