16年前,正值網際網路興起的高峰,痞客邦刊出了第一篇部落格文章。16年後的今天,累積了8.1億篇文章,涵蓋食、衣、住、行各類生活議題,每天還不斷產生2億筆用戶行為資料。Pixnet研發中心副總經理黃凱澤笑說,如此龐大的數據,就是最大優勢,「我們要用這個優勢,成為臺灣食衣住行最具權威的嚮導。」
十年醞釀數據煉金,一年轉虧為盈
誕生於2003年的痞客邦,是Pixnet優像數位媒體旗下最成功的服務之一,更是臺灣最老牌、最受歡迎的社群網站,不僅坐擁上億篇吃喝玩樂部落客文章,這個數量每天還在增加中。根據國際流量排名網站Alexa,痞客邦造訪流量僅次於Google和YouTube,是臺灣第三名。
人氣如此旺盛的痞客邦,雖然替Pixnet帶來響亮名聲,卻沒辦法交出亮眼的成績單。好幾年來,公司營收並不理想,而自痞客邦上線以來,內部也一直醞釀著,要利用大數據分析來開發新服務的想法,但一直沒有採取行動,遲遲猶豫是否要從部落格平臺營運商,轉型為大數據分析公司。
直到6年前,公司面臨極大的營運壓力,Pixnet執行長周守珍卻毅然決然決定,要投入數據人力、成立資料團隊,來發展大數據分析平臺。「當時,大家內心很忐忑,」黃凱澤解釋:「因為發展新服務,不只是人員、業務的調整,而是要投資一大筆錢來重整IT基礎架構,根本不知道能不能回本。」
即便如此,團隊還是如火如荼地執行了。這個大數據平臺的目標很簡單,就是鎖定痞客邦網站訪客和部落格文章,分析這兩者的特徵,挖掘出訪客興趣、找出社群趨勢,來進行加值服務,比如推薦文章、廣告或商品等。
數據分析系統建置之初,黃凱澤表示,團隊先以痞客邦部落格分類機制為基礎,人工定義了138個指標(Index),比如年紀、性別、興趣等,再進一步以自然語言處理(NLP)方法,將部落格文章自動分類到相對應的指標,同時也針對訪客行為特徵來分類,再推薦文章給擁有同指標的訪客。
「但是,興趣會隨著潮流快速改變,指標失準的速度越來越快,甚至不到2個月就不適用了。」黃凱澤指出,這個現象,讓團隊不得不放棄人為定義指標的方法,改採關係網路分析(SNA),透過演算法來計算訪客本身以及與文章互動的參數,將擁有相似行為、興趣的訪客群聚在一起,形成獨特的興趣群,並根據群的鏈結,自動產生該群的興趣名稱,比如美白、饅頭、生酮飲食等。「慢慢地我們不需要人為介入,純粹以數據看數據,不必每3個月就校正一次,」他說。除了用更精準的方法來挖掘社群趨勢,團隊還透過10種演算法來推薦內容。
在應用層面上,大數據分析平臺從興趣挖掘出發,用來推薦部落格文章之外,還能根據特定受眾,衍生出廣告推薦、商品推薦、市場趨勢分析等應用。「數據分析平臺上線隔年,企業營收就由負轉正。」Pixnet也在接下來幾年,陸續推出獨立的社群商務服務、廣告行銷服務平臺,以痞客邦經年累月的巨量資料為基礎,瞄準精準行銷市場,量身打造出口碑調查、消費者行為剖析、廣告投遞、行銷建議等服務,行銷操作的細緻程度,遠勝於傳統只靠網站曝光度的效果。
如果痞客邦的巨量資料是石油,那麼這套大數據平臺,就是Pixnet的數據石油煉金術。
重整IT儲存架構,積極上雲搶攻即時分析
為進行大量資料分析,Pixnet在資料儲存架構上也有自己的設計。黃凱澤指出,起初,團隊將資料分別儲存於AWS Redshift雲端資料倉儲,以及本地端機房的儲存系統。其中,Redshift存放了超過百億筆的使用者瀏覽記錄(Log)等分析性資料,而本地機房則是儲存網站資料的元資料(Metadata)。
當時採取這個設計的考量是,研發團隊希望將主要資料和較常更新的資料存放於本地端資料倉儲,而需要後續分析的資料,則轉移到Redshift上。
不過,隨著時間推進,越來越多業務講求即時分析、即時行銷,這讓原本Pixnet的儲存架構,越來越難滿足速度的要求。「以前,大數據分析平臺以分析離線資料為主,」黃凱澤表示,這些作業通常從半夜2點開始,分析前一天的網站瀏覽資料,早上產出深度分析報告,作為當天內容推薦的參考。
但是,「現在要進行即時內容推薦,不可能花一天來分析。」他強調, Pixnet的目標是,即便單日高達2億筆訪客瀏覽資料,也要在20秒內完成每位訪客的貼標、分類,然後精準推薦內容。
於是,近幾年,團隊重新調整了儲存架構,將資料儲存分為3部分,分別儲存在Google雲端平臺(GCP)、本地端儲存系統,以及Google的BigQuery數據分析倉儲,要借重雲端大數據平臺的內建功能,來縮短架設基礎架構時間和資料分析時間。
在資料配置上,原本網站的元資料、部落格文章及圖片等,仍舊存放於自家內部機房。至於原本存放於Redshift的分析性資料,現在搬遷到了GCP。黃凱澤表示,BigQuery提供的數據分析工具,可以讓資料分析、模型訓練等作業更便利,再加上內建完善的基礎架構,團隊不需要重新建置,就能快速使用。
不只如此,就連在查詢(Query)速度上,也有顯著的差異。他舉例,假設團隊要從過去1個月(相當於60億筆)的訪客瀏覽記錄中,查詢特定資料,透過MySQL資料庫須花上整整1個月才查得到;但透過BigQuery,「幾10秒就完成了,」再再突顯速度的差異性。
雖然BigQuery帶來即時分析所需的快速與便利,但也所費不貲。黃凱澤話鋒一轉指出,傳統機器雖然慢,但容易計算使用的資源成本。相比之下,雲端服務雖然快,卻難以衡量運算資源,導致團隊在使用初期,產生了極大成本。
後來,他發現,雲端費用與資料儲存位置有關,經過1、2個月嘗試,黃凱澤制定出一套資料儲存機制,根據資料特性來分別梳理,再儲存至對應的位置,才逐漸降低了使用成本。
專職資料分析團隊,不只懂數據還要讓數據說話
即便資料分析技術再厲害,也要搭起向外溝通的橋樑,才能釋放資料分析的價值。─── Pixnet研發中心副總經理 黃凱澤 (攝影/洪政偉) |
有了儲存架構的調整,Pixnet發展大數據的另一關鍵,就是新設的資料分析團隊。這個團隊由12人組成,隸屬於研發中心,下設3個小組,分別是資料工程小組、演算法小組、資料分析小組。
就工作職掌來說,資料工程小組負責後端作業,包括架構處理、資料梳理等,負責將痞客邦一天產生的上億筆資料,進行梳理、存放至對應的資料倉儲中,打好資料分析的基礎。
接著,就輪到演算法小組出場。這個小組的目標,是要利用這些處理過的資料,來設計、開發模型。
再來,就是黃凱澤今年初指定成立的資料分析小組。「這個組很特別,因為小組成員兼具數據背景,以及業務領域背景,來負責對外溝通。」他解釋,Pixnet許多業務,是以研發團隊的大數據分析成果為基礎,需要懂數據的人來解釋才有效果。但過去,對外溝通由後端資料工程師負責,「他們對機器、架構等工程領域較為熟悉,對數據解讀較不拿手,」因此與其他部門溝通時,常顯得力不從心。黃凱澤坦言,這也是他上任後遇到的最大困難。
後來,為改善這個問題,他設立了一個「角色超然」的資料分析師小組,做為橋樑,來與內部業務部門溝通,必要時也會向外部客戶解說,「以對方聽得懂的語言,來解釋數據分析的結果。」
不只如此,為更進一步強化溝通效果,資料分析小組還採用了開源視覺化工具Gephi,將社群興趣資料的分析結果,以畫面和影片方式呈現,將資料視覺化,讓聽眾更容易理解。
舉例來說,資料分析團隊曾探索對美食感興趣的目標受眾,當時,資料分析師就利用Gephi,從痞客邦整體的社群興趣星雲中,鎖定出對食譜非常有興趣的社群星群。這些社群同樣由密密麻麻的小點凝聚而成,群中的每一點,代表一位使用者,點上顯示著年齡和最顯著的興趣,只要與其他點擁有共同興趣,就會產生連結;要是點與點顏色相同,就表示強大的連結力。
這個方法,有助於鎖定內容投遞的對象。因為,「同一個產品需求,來自許多受眾,」黃凱澤解釋,比如從痞客邦的食譜族群中,還能延伸出美食、減肥、生酮飲食族群,甚至是癌症,要是投遞相關內容,就可鎖定這些族群。
對Pixnet來說,資料視覺化之後,不只可以彰顯示資料分析的價值,更能讓數據自己來說話。
多方探索AI可能性,目標要成為食衣住行權威嚮導
不只在大數據分析上下功夫,這幾年,研發中心也在探索AI的各種可能。比如去年,研發團隊打造一款美食語音問答機器人,爬梳站內15萬篇餐廳美食文章,利用國產的中研院自動斷詞工具CKIP,以及Google語音辨識系統,整理出2,500家餐廳名稱、400多萬個句子、3千多個關鍵字,以及7萬多個食物名稱,並用這些資料和遷移學習,來訓練聊天機器人AI模型。這款聊天機器人的準確率達92%,團隊也持續優化中。
另外,研發中心也聚焦另一個AI領域:電腦視覺。黃凱澤指出,痞客邦不只有巨量文字資料,還有數十億張的影像。於是,團隊利用站內大量美食圖片,來訓練AI模型,學習辨識餐廳環境和菜單。雖然仍處於研究階段,黃凱澤透露,模型已能準確辨識餐廳內外部,以及特定料理,比如義大利餐點等。
之後,Pixnet還考慮運用這個模型,設計一套自動選圖工具,可以在進行內容推薦時,不只能自動選出符合敘述的照片,還要能挑出部落格中,人氣最高的圖片作為代表。
Pixnet從6年前跨入大數據分析事業至今,黃凱澤揭露,未來還要往一條龍服務商邁進。他指出,痞客邦擁有大量美食、旅遊、美妝和3C等內容,每天吸引許多訪客瀏覽;在他看來,「每一次瀏覽,都代表使用者的潛在需求,」比如查看自由行文章的訪客,可能計畫出國,對住宿、機票等就可能感興趣。
瞄準這一點,研發中心正強化即時推薦演算法,不只要快速推薦精準的內容,還要包辦使用者搜尋、瀏覽、評比的需求,甚至要在痞客邦站上,直接提供消費、訂位功能,打造一站式服務,「要成為臺灣最具權威的生活百科嚮導。」
CTO小檔案
黃凱澤
Pixnet研發中心副總經理
學歷:臺灣大學資訊工程研究所博士
經歷:曾任訊舟科技物聯網事業群總經理、凌通科技(凌陽集團)IC設計處處長,於2018年加入Pixnet,擔任研發中心副總經理一職,帶領研發中心開發AI與大數據分析產品面,要提供更好的使用體驗。另一方面,也積極與交通大學、成功大學等學術單位進行產學合作交流。
公司檔案
Pixnet優像數位媒體科技
● 地址:臺北市中山區民生東路三段51號12樓
● 成立時間:2003年
● 主要業務:以社群為核心,發展痞客邦社群服務、PIXinsight大數據分析系統、廣告行銷平臺PIXmarketing、社群商務服務PIXgoods
● 網址:www.pixnet.net
● 員工數:約150人
● 執行長:周守珍
● 研發部門名稱:Pixnet研發中心
● 研發部門人數:47人
● 研發部門分工:分為平臺組、行動組、網站組、前端組、SRE組、軟體測試組、研究組。平臺組負責Pixnet旗下各產品的功能開發,研究組成員包含大數據資料工程師、演算法工程師、資料分析師,負責大數據資料分析及AI演算法。
研發部門大事記
● 2006年:成立技術研發部,由全端工程師負責開發、營運各項平臺產品
● 2010年:設置平臺組、軟體測試組、前端組、行動組等
● 2013年:投入人力開發大數據分析平臺PIXinsight
● 2014年:社群大數據平臺PIXinsight正式上線
● 2016年:中心成立研究組,負責資料分析、AI演算法研發
● 2017年:社群商務服務PIXgoods上線
● 2018年:全新痞客邦上線,推出會員經驗值制度
● 2019年:痞客邦App與廣告行銷平臺PIXmarketing上線,成立資料分析師小組
熱門新聞
2024-11-18
2024-11-20
2024-11-12
2024-11-15
2024-11-15
2024-11-19
2024-11-14