Line今年開發者大會聚焦自身技術實力的鍛造成果,介紹強化AI生產力的多項關鍵。「明年,Yahoo開發成果也將會在Line開發者大會上展現。」Line技術長朴懿彬這樣預告,揭露了她對兩家公司合併後技術整合的期待,將在明年開花結果。(圖片來源/Line)

今年滿10歲的Line,正處於關鍵的企業轉型期。

3年前,Line在開發者大會宣布轉型成AI公司的大願景,更揭露了AI藍圖要發展8大領域AI。但去年全球疫情肆虐,日本災情衝擊下,Line轉而集中資源發展零接觸商機、遠距抗疫等新需求,如聊天支付、線上視訊會議等,8大AI領域也進一步聚焦到4大AI研發方向。

企業定位調整之際,日本Line母公司Naver和日本Yahoo的母公司軟銀合資開設了ZHD控股公司,將日本Line和日本雅虎兩家公司整併成為同一個集團的兩家子公司,在今年3月完成合併。

日本最大入口網站和最大即時通訊平臺兩大巨頭,雙方用戶加起來超過3億人,服務的企業店家超過了1,500萬家,橫跨金融、電商、廣告、媒體、網路社群、旅遊等產業。彼此的平臺、技術、資料、人力的資源要能互通,甚至共享,不只是公司體制面的調整,更是技術面的大考驗。過去有不少科技公司整併後營運挫敗甚至消失,就是因為技術面或產品面的整合失敗所致,這正是Line在2021年所面對的課題和挑戰。成則加速飛天,不成則斷翅落地。

這個挑戰多大?可從Line的使用規模略知一二。全球各國的每月活躍人數在2021年6月時,達到了2億人規模,不只通訊平臺,廣告,新的影音服務和新聞服務在去年也大幅成長,而新聞服務在日本的單月瀏覽人數更達到154億人次。技術面,Line即時通訊平臺每秒要處理高達40萬個請求,用戶一天上傳的資料量更是高達11PB,包括各種圖片、影片、貼圖等。過去幾年所打造的集中式資料平臺Information Universe(簡稱IU),目前累計有290PB資料,每個月都會再增加10PB的龐大資料量。

在IU平臺上更有一套Machin Learning Universe(MLU)平臺,可提供NLP模型、電腦視覺模型、推薦模型、廣告優化模型等,更從Line不同服務的授權Log資料中,蒐集了8千萬種特徵,作為機器學習訓練之用。「因為有這一套資料平臺和機器學習平臺,我們才能更快推出新服務。」Line技術長朴懿彬強調。

但上述這些數據,只有Line自己的用戶數據。今年6月時,Line日本用戶數約8,900萬人,而日本Yahoo則有約6,700萬人,旗下支付服務PayPay也有4,000萬人。兩家公司整併後,在使用者端的技術將以Line現有技術為主,也就是說,Line這套技術體系最後得面對的考驗是,超過3億人的日本用戶規模,比Line全球規模還要多了50%,要整併這些新來用戶和資料,都是平臺和技術的超大難題。

今年Line開發者大會上,不像過去兩屆大談未來方向,Line今年更聚焦揭露自身技術實力的鍛造成果,其中有3大技術進展,是為了強化前瞻AI技術力、機器學習應用開發速度,甚至能更自動化累積訓練資料的AI生產力關鍵大改造。

關鍵1:發展超大規模通用NLP模型和生態圈

第一個關鍵是超大規模的通用NLP模型HyperCLOVA。朴懿彬表示,MLU是Line對內提供的機器學習平臺,對外部使用者和開發者也有一套通用機器學習平臺,就是HyperCLOVA。

Line AI執行長砂金信一郎指出,全球AI技術發展上,不只出現各式各樣的資料集,也出現了各種超大規模的通用型NLP模型,例如Open AI組織發展的GPT 3或是Google的T5,可以用於各種任務的AI推論之用。這正是Line也要自己發展通用NLP模型的原因。

Line和Naver聯手,去年先發表了日語版NLP,今年5月更在Line的AI大會上揭露了HyperCLOVA這個超大規模通用NLP專案,新增加了韓語版NLP,號稱是韓文版GPT-3,用2,040億個參數訓練而成,比GPT-3的1,750億參數還要多。而去年日語版NLP模型現在發展到390億個參數。Line也開始打造多語言模型,目前達到390億參數,希望2022年達到820億個參數,而日語版NLP模型明年目標更是驚人的2,040億個參數。

「參數越多,代表能描述更多字詞間的關係,NLP的推論能力和泛用性就能越大。」砂金信一郎強調,但語言模型的訓練是NLP應用一大挑戰,往往需要1、2個月才能訓練出一個超大規模的NLP模型,非常耗時,Line希望透過HyperCLOVA這個超大規模NLP模型,再結合少樣本訓練或單樣本訓練來調校,加快開發特定應用NLP模型的速度。為了讓HyperCLOVA打造的NLP模型能提供給第三方商用,Line在訓練語料蒐集上不只排除有版權保護的資料,也不用Line自家服務的資料。

不只如此,Line還進一步打造GUI介面的AI開發環境HyperCLOVA Studio服務,內建NLP模型、資料生成機制和ML調校機制,更能直接線上測試NLP應用。還有一套Explorer工具可用來輔助語料文本分類和生成的處理。這兩個工具都內建了過濾層和稽核機制,可因應AI倫理或資料隱私議題。

目前Line已經完成了HyperCLOVA的API,正準備釋出,也將開放試用HyperCLOVA Studio。砂金信一郎透露,未來將提供半自動的場景生成工具,可自動產生特定場景的AI應用,如Chatbot和AiCall服務,也打造更多小型的通用語言模型。未來還會邁向多模態通用模型,不只文字語料,也將可以用來訓練影像和聲音的語料。

關鍵2:結合MLOps更自動化追蹤ML模型品質

將通用NLP模型發展成一個推動NLP應用生態圈的技術架構,只是Line強化AI生產力的第一關鍵,另外還有兩個關鍵,第二項就是ML模型品質監控自動化。Line打造了一套MLOps系統,稱為Lupus。Line現在有上百款運用機器學習的產品,分散在20多個部門中,如何讓這些單位都有能力自行掌握所用模型的狀態,尤其當資料漂移,例如使用者行為改變,導致所用機器學習模型的預測力開始下滑時,能夠第一時間發現,進而重新訓練機器學習模型。這套Lupus以專屬監控主機、函式庫和一款網頁應用程式,讓開發者、維運者和專案成員更方便掌握模型最新動態。

Lupus不只可以讓開發者容易建立偵測指標,也能自動偵測模型的異常,並且透過視覺化儀表板方便業務團隊參與判斷。這正是AI生產力的第三個關鍵,可以用來維護AI應用的預測品質,還能簡化ML長期維運的工作。

關鍵3:打造新一代使用者特徵自動預測系統

最後一項是,Line在去年重新改造了使用者人格(User Persona)預測系統,這是一個用來推測用戶屬性的系統,可以利用機器學習技術自動預測使用者的興趣、特質、特徵等,作為內容推薦或目標行銷等需用戶分類資訊的場景。

這套系統所涵蓋的用戶規模,以Line用戶為主,如8,900萬人日本用戶上,累積的機器學習特徵維度高達480萬維,也涵蓋了臺灣每月活躍用戶近5千萬人次,針對臺灣用戶的特徵維度則有140萬維。這些都是Line的訊息推播、廣告發送、內容推薦能夠更精準鎖定目標對象的關鍵。

為了因應未來日本用戶規模達到3億人,Line在去年夏天導入了GPU和K8s叢集,重新改造了這套系統,能夠運用主流的機器學習框架,更計畫要發展一套使用者人格特徵自動產生的機器學習框架,來加快,每次新增一種新使用者機器學習特徵抽取自動化的流程,可以更快將新服務的使用者納入使用者人格系統所涵蓋的範圍中。

上述這三項關鍵,可以加速AI應用開發、簡化AI訓練流程,甚至是確保模型品質和長期維運的關鍵,可說是提升AI生產力的核心。這正是今年的 Line提升自身技術體質的成果。

「明年,Yahoo開發成果也將會在Line開發者大會上展現。」朴懿彬在開發大會主場演講中這項預告,揭露了她對兩家公司合併後技術整合的期待,將在明年開花結果。

Line區塊鏈戰略的下一步:降低Web開發者打造區塊鏈應用的技術門檻

早在全力發展AI之前,Line在2018年也大舉投入區塊鏈發展,自行打造了一套區塊鏈架構和加密貨幣,後來更推出了自己的加密貨幣交易所。去年,推出加密貨幣錢包BitMax Wallet和Line區塊鏈開發者服務,策略是要發展開發者容易使用的的區塊鏈技術,今年趕搭NFT熱潮,Line在6月也推出NFT市場服務。

Line將NFT交易的三項動作,購買加密貨幣,購買NFT和儲存NFT這三動作,整合到單一平臺上提供NFT交易。在Line今年開發者大會上也預告,未來將會推出3大功能,一個是在Line的繼續改善NFT市集的加密貨幣錢包功能,要提供Line區塊鏈和Ethereum區塊鏈之間的橋接,另外也會在自家Line區塊鏈開發者服務上,推出可以支援智能合約的虛擬機器功能,可以提供WASM虛擬機器來執行智能合約,還會開源釋出一個JavaScript的區塊鏈API,讓開發者用網頁技術就能運用區塊鏈的智能合約。這三大未來計畫,反映出Line的區塊鏈戰略是,降低Web開發者跨入區塊鏈應用開發的門檻,甚至透過Line區塊鏈,也能和現有主流區塊鏈技術Ethereum互通。

 

熱門新聞

Advertisement