雅虎奇摩是臺灣最大的入口網站,超過9成臺灣網民每個月來報到,但如何每天持續抓住這1千1百萬人的眼球來關注,卻是Oath原生廣告平臺Gemini臺灣團隊日復一日的挑戰,更是這個10人團隊主管,Oath通訊/數據暨搜尋產品事業群資深技術總監許明彥,每天最煩惱的問題。

雅虎在電信巨頭Verizon併購後改名為Oath,臺灣雅虎奇摩網站儘管還在,但團隊已經成了Oath旗下的臺灣分公司。目前全球Oath旗下擁有超過50個媒體品牌,全球瀏覽人數超過10億人次,而臺灣Oath主要營收仍聚焦在電商和廣告業務。

當年的網路巨人雅虎,很早就開始經營數位廣告業務,不論是早期的橫幅式線上廣告,或是10年前開始竄起的關鍵字廣告,挾臺灣最大入口網站的流量,雅虎奇摩是臺灣網路廣告的重要業者。從2014年中開始,雅虎奇摩更進一步在臺推出原生廣告。

「原生廣告是近兩年Oath成長最快速的產品之一。」許明彥透露:「原生廣告是以關鍵字廣告為基礎,發展出的新型廣告推播方式」,但和關鍵字廣告最大的差異是,原生廣告運用程式猜測網友的興趣,再來推播廣告,不需要網友輸入關鍵字。許明彥解釋,原生廣告要讓廣告內容與跟使用情境產生關聯,藉此放大廣告推播效果。

這也正是Oath打造原生廣告平臺Gemini的用途,可以根據網友當下瀏覽的內容、過去瀏覽行為紀錄,或是該員購買商品的行為,分析網友可能有興趣的廣告內容。當網友在瀏覽新聞、社群媒體等內容時,Gemini可以同時推播合適的廣告,協助廣告主找到潛在用戶、消費者。

不過原生廣告難度在於,很難追蹤網友每一個足跡,尤其當網友並未明顯透露出其使用行為或意圖時更困難,所以在近年Oath才開始使用AI、機器學習,來加強廣告投放預測的準確度,「如何預測網友對哪些議題有興趣?」他說:「這就是我們的挑戰之一。」因為即使沒有關鍵字、搜尋紀錄或瀏覽紀錄,Oath也得找出能引起網友好奇的廣告,才能得到好的廣告宣傳效果。

許明彥認為,Oath除了有自營運數位媒體部門,也有搜尋引擎業務、電子商務,比其他業者,具有更完整的事業版圖,因此,系統判定網友的廣告喜好時,可以整合更豐富的資料維度,例如將網友在搜尋引擎、電商平臺鍵入的關鍵字來預測。另外,為了綜合評估廣告投放效率,也因此,每個頁面、連結、顯示區域都要追蹤納入分析。

Gemini現在也得分析更細緻的網友行為,像是網頁停留時間是衡量廣告成效的重要指標,如果網友直接關閉頁面,這顯示他對於這個內容完全沒有興趣,但若是一則廣告視窗彈出後,網友停留頁面時間較久,意味廣告內容與關鍵字的相關性較高。

而究竟哪一些指標,可以用於判定該廣告投放效果的優劣,許明彥表示,廣告點選率是最基本的判斷標準,不過他表示,現在Oath也會評斷廣告轉換率,或是公司業績成長好壞。比方說,團隊可以會利用兩組不同參數,實驗哪組的使用者數據更好、營收更好,之後再決定該如何調整模型。例如,某個產品安插了新聞模組,雖然點選率很高,但是同時間該頁面的廣告模組點選率便下降。或者是新功能上架後,某廣告點選率突然暴增,「導致使用者體驗下降」,為了讓使用者體驗不要受到太大的影響,團隊得要一步一步導入新功能,「而不是很突兀的推出新功能」,反而本末倒置造成營收下降。

因此,開發新廣告產品時,Oath也要評估其長期價值,能否維持一定的使用者體驗。以行動裝置為例,下拉的時間、點選時間、重新搜尋關鍵字的次數,或是閱讀下篇文章的時間區隔,「都可以作為衡量指標。」同時,系統也會評估放棄率(Abandon Rate),假若網友看到該廣告後,直接跳離該頁面,「很明顯消費者對此廣告沒有興趣」,或是網友不斷重新轉換關鍵字、來回搜尋內容,也都是使用者經驗不佳的指標。

臺灣團隊任務是延伸關鍵字指涉範圍,觸及更多潛在用戶、消費者

而在Gemini專案中,在臺灣的成員主要是資料工程團隊,負責將關鍵字所指涉的意義進行延伸(Extension),並且剖析不同關鍵字間的關聯性,藉以讓廣告對象可以接觸更多潛在的相關內容。許明彥解釋,雖然網友可能心中想著同樣的搜尋目標,「但是描述方式大不同」,例如,同樣是找尋房地產相關內容,同類型關鍵字可能就包含租屋、買屋、不動產、房子、民宿等,因此,要設法擴張單一關鍵字所指涉的搜尋內容,才能滿足更多潛在廣告主的需求。

再者資料工程團隊得要讓系統學會判定不同關鍵字間的關聯,不只像俗稱或縮寫等同義不同字的連結而已。許明彥表示,有時兩個字義上完全無關的字,但網友搜尋這兩個的字,卻點選至同一網站時,「藉此可判定這些關鍵字有所關聯。」

許明彥再舉例,像是兩個名詞在同一篇文章中同時出現的比例很高,或是在文章中,兩者在文脈內相距的行數很近時,「也可以判定這兩個名詞有關聯。」或者,許多消費性產品,該品牌粉絲也喜歡取一些不同的產品暱稱,都可視為相關的關鍵字。

不過,這類規則過於繁雜,不可能單靠人力分類,必須建立一套系統自動判斷,因此必須藉助機器學習,才可能讓應用規模擴大。許明彥補充,要讓系統學會這樣一套判定規則,一般需要分析至少過去5年的新聞、文章內容。

許明彥表示,最後,Oath還會透過上線測試,來評估關鍵字關聯判定規則的效果。像是會觀察網友的點選率、停留時間長短等數據來判斷關鍵字延伸的效果,作為修正關鍵字關聯度的參考。

而同時Oath也有準備自家內部的資料集(Library),作為機器學習的訓練素材。而許明彥表示,機器學習、大數據困難的地方在於,除了要設計好的數據收集模型,還要確保有用資訊都有妥善保存,同時,為了增加數據可讀性,還要用儀表板將相關結果視覺化。

Oath通訊/數據暨搜尋產品事業群資深技術總監許明彥認為,目前Oath在臺資料工程團隊仍是偏向傳統處理資料任務為主,「未來的目標是Create insight,要能做到預測未來結果。」(攝影/洪政偉)。

影響機器學習效果的關鍵,除了資料,還有人才

機器學習應用還有另一個實作上的挑戰,許明彥表示,儘管電腦運算能力增加,大數據平臺技術成熟,但不是將所有資料匯入平臺進行運算就能解決問題,導致資料模型過於龐大,反而得花更長才能產出分析結果。

也因此,許明彥認為,資料科學家得要試著推敲事件間的因果關係,這樣的判斷能力,就是機器學習中常見的特徵擷取,「擷取得越精準,越能判定成效。」匯入大量品質不佳的資料,對模型提升的效果反而有限。

許明彥認為,厲害的資料科學家,必須有能力擷取出最具代表性的特徵,來減少每一筆資料進行特徵擷取的時間,「否則只會變成亂槍打鳥。」優秀的資料科學人才要能找到最關鍵的特徵,藉此減低資料模型的複雜度,機器學習應用才能展現出優勢。

資料工程人才必備熱誠、韌性及創意

目前Gemini專案在臺灣的團隊主要是資料工程團隊,而以色列則是資料科學團隊,另外在資料團隊中,還設有一組具備統計專長的分析團隊,在產品上線前根據實驗結果,判定該產品好壞,其他成員再依此團隊的回饋來修正模型。

許明彥招募資料工程人員的標準,和傳統軟體工程師的要求,有很大的不同。他解釋,過去對於軟體工程師的要求,只要在越短的時限內,滿足各項開發規格就好。但是現在進入大數據分析的時代,對於資料工程師的要求更加嚴格,除了要能撰寫可執行、沒有系統臭蟲的程式外,還要判斷程式的成效為何。許明彥以廣告專案為例,過去只要廣告能順利推播即可,但是現在的資料工程師要思考,如何提升網友注目廣告的時間。因此,要不斷從錯誤中學習,並且根據瀏覽行為改變,並且不停修改模型,「還要找到方法,預測自己開發的程式,是否達到預期表現。」

資料科學人才必備四大特質

 熱誠  必須不斷提升模型效果,如果沒有熱情,將無法支撐反覆不斷的工作流程

 韌性  資料科學家提出的解決方法會不停被質疑、挑戰,必須在一定壓力下證明自己的模型有效

 創意  思考資料中潛在的特徵,並且進行擷取,此工作必須具備創意,才能為模型找到足夠多的分析特徵

 敏感  能夠敏感觀察數據的高低變化,如果有數值大幅度改變,或是產出報告在統計誤差內,都要有能力判定

不過,除了技術和判斷力之外,不論是資料工程師或是資料科學家,許明彥認為,有四項特質格外重要,首先,「熱誠是資料科學人才必須具備的重要特質,」許明彥強調,為了不斷提升模型效果,資料工程師其實也得不停地修改程式,反推特徵擷取的效果好壞,同時還要探詢更多潛在的特徵。在資料科學家的工作中,需要不停重複上述的工作流程,因此要有熱情,否則會很難持續。

甚至,就算實驗結果不錯,但是一項新功能上線後,卻導致其他功能的成效下降,例如新功能可以帶來點擊率的提升,但卻縮短了網友瀏覽停留的時間,就得回頭重新修正廣告產品。Oath的資料工程師和資料科學家們經常得面臨這樣的衝突。

第二個人格特質,許明彥認為是韌性,「得要禁得起考驗、挑戰。」傳統對軟體工程師的要求,只需要系統功能上線,可以順利運作即可。但是開發機器學習、人工智慧應用程式的要求標準截然不同,「必須不停地驗證實驗結果」,此外,資料工程師不只要跟資料科學團隊合作,還想要構思新方法,利用數據驗證模型有效。

許明彥表示,Oath的資料科學團隊、資料工程團隊散布在全世界各處,而且工程師所提出的解決方法會不停被質疑、挑戰,「光是這點就很容易受挫折」,必須具備英語溝通能力,證明自己模型有效,「在這樣全球合作團隊下,完成自己的工作。」

第三個他特別要求資料科學人才要有創意,如何判斷資料中潛藏的特徵,得要具備敏銳的觀察力、創意,「分析事件間的因果關係,找到越多特徵,成效就越好。」

最後一項特質是敏感的數據分析能力。許明彥認為,資料科學家得要對數值變化的感覺敏銳,他表示:「數據的高低、大幅度改變,或是結果在統計誤差內,都要能判定。」

在技術層面,由於現在是雲端運算時代,雖然硬體運算能力增加,可以處理更多巨量資料。「不過Oath內部運算平臺有限」,如果程式效能不佳,也會拖累其他人的運算結果。尤其現在這些雲端運算資源,都是隨需計價,必須重視效能表現,節省基礎架構的營運成本。不過相比人格特質,許明彥認為,這些技術能力都可以後續培養。當內部有新職員,也會從加入計畫開始,一同參與開發。雖然一開始沒辦法獨立完成專案,但可以在旁邊觀察團隊如何設計模型,以及解讀資料的能力。

跨國合作秘訣:溝通以數據為基礎,免於意氣之爭

不論是臺灣的資料工程團隊,或是以色列的資料科學團隊,許明彥解釋,兩種團隊各有不同的特色,例如,資料科學團隊很注重強調模型的效果,「但是較不在意模型的運算效能。」例如,資料科學團隊設計了新模型,但是每秒只能處理一筆資料,而資料工程的工作就是提升該模型的運算效能,「讓它每秒鐘至少可以處理200至300筆數據。」而資料科學團隊的主要工作是設計新模型,之後交付資料工程團隊改善效能,並且設計資料串流基礎架構、分析該模型的正確度。

而且現在跨國團隊合作下,也會碰上許多實務上的溝通問題,例如,當本地團隊受外國團隊質疑時,要能靜下心就事論事討論。許明彥表示,資料工程團隊跟資料科學團隊經常發生爭辯,「但用數據證明想法,這樣溝通就不會流於意氣之爭。」

「臺灣工程師被挑戰時,有時會退卻或不敢反抗」,許明彥舉例,像是目前現在臺灣團隊的內部以色列籍工程師,就相當習慣挑戰現況,質疑Oath既有制度,並且尋求更好的運作模式,「而臺灣職員一般都習慣交付工作的事,找入不同國籍的人進入團隊,也會給Oath帶來許多文化衝擊。」

不過運作跨國團隊,光是在溝通上要找到適合的時間就相當頭大。他笑說,光是要湊齊美國、臺灣及以色列團隊,「永遠找不到合適的時間。」過去甚至得分別開會,跨國合作光是溝通就有很多問題,很多郵件往返得等上一天,後來改導入線上協作軟體後,才減少了許多溝通障礙。除了跨時區的影響,許明彥表示,資料工程師在描述想法時,必須搭配數據,才能加速溝通效果。尤其跨國團隊的運作,不如本地團隊可以當面討論。因此,Oath每個在地團隊都會各自進行工作會議,再一併整理結果給所有資料科學團隊,最後再進行每周會議。

同時,在開發流程上,Oath也已經推行敏捷開發,許明彥表示,加上過去Yahoo時期,「敏捷開發在Oath已經推動了將近10年」,每天在正式開工前都有簡短的工作會議,快速回報團隊每人進度。而工程師提交程式碼前,其開發結果也都會經過他人檢閱。而在跨國資料團隊合作時,也有導入CI、CD自動化流程。

許明彥表示,這樣的好處就是,每一次提交程式碼,都會驅動系統自動進行測試,「有問題馬上就會發現。」

不僅與跨國分公司的資料科學團隊合作外,Oath資料工程團隊也要跟業務團隊密切合作。許明彥表示,開發產品時,需要了解廣告主的需求,例如,原生廣告有一個再行銷功能(Retargeting),除了鎖定新廣告外,有些網友在購物中心後遲遲沒有購買,因此系統必須鎖定這些網友,過一陣子後再重新推銷,「此時回購率就非常高」,而如何在海量資料中找到這些潛在客戶,吸引他們回購,都要跟廣告主及業務討論。

未來要透過資料,規畫未來廣告投放策略

未來,對於資料工程團隊的規畫,許明彥表示,希望未來可以針對長遠的廣告投放需求做出更精準預測。

例如,折扣季時,必須要判斷哪些資訊對消費者才有用,「不是每個人都受同樣的廣告吸引」,許明彥認為,未來競爭要區隔化,精準滿足該消費者需求,電商成交率才會高。

他認為,目前Oath的挑戰,就是要了解每個網友的行為,判斷他們不同時間的需求,並且在不影響隱私權下,為網友建立一個完整使用履歷。未來資料科學的目標,是根據廣告主去年度的投放效果,告訴他們下一年度如何配置廣告預算,他表示,現階段只能根據過去幾個禮拜蒐集的數據,給予廣告主建議,但當廣告主與Oath已經有長期合作時,「我們要根據去年同期活動的數據,判斷廣告吸引到哪些組群,協助業主更精準判斷。」

不過,他也坦言,Oath資料工程團隊還未善用所有的內部數據,目前Oath收集的廣告相關數據會留存3年,加上每天蒐集廣告點選、營收數字等各類數據,不包含原始資料,就多達300TB,目前資料工程團隊所處理的資料顆粒度仍然偏大,而原始資料蘊藏的潛力,應該可進行更精密的處理。

「必須更有創意,」許明彥表認為,Oath臺灣資料工程團隊目前工作大多類似傳統的資料處理任務,但「未來的目標是Create Insight,預測未來結果。」

熱門新聞

Advertisement