Netflix如何打造AI工廠

圖片來源:

天下文化出版

二○一○年時，Netflix（網飛）開始採用人工智慧工廠，有系統的將資料分析及人工智慧應用在推薦引擎上。到了二○一四年，更進一步根據連網速度、使用裝置、偏好的影片類型等因素了解用戶行為，研判應該從邊緣伺服器上快取哪些電影和電視節目，縮短節目與用戶之間的網路距離，提升個人化的串流媒體體驗。

目前網飛在全球一百九十多個國家擁有約一．五億個訂戶，影片庫中已經累積超過五千五百個節目，所使用的頻寬占全球網際網路流量的一五％。

網飛及其他領先公司的經驗，凸顯出人工智慧工廠的一些基本組件的重要性：

1.資料匯流（data pipeline）：此流程以有系統、可持續、可規模化的方式，蒐集、輸入、清理、整合、處理與保全資料。

2.開發演算法（algorithm development）：演算法產生有關於事業的未來狀態或行動的預測，這些演算法及預測是數位型公司運作的心臟，驅動一家公司最重要的營運活動。

3.實驗平台（experimentation platform）：透過實驗平台機制，人工智慧工廠可以檢驗有關預測及決策的各種假設，以確定演算法建議的改變方案。

4.軟體基礎設施（software infrastructure）：這些系統把資料匯流嵌入一個堅實的模組化軟體和運算基礎設施裡，並視需要及適切性，把它連結至內部及外部使用者。

若說資料是人工智慧工廠的燃料，那麼基礎設施就是輸送燃料的管路，演算法就是執行工作的機器，實驗平台則是把新燃料、新管路與新機器連結至現有營運系統的閥門。

人工智慧工廠的建造與運作：資料匯流

資料是人工智慧工廠的投入要素。近年來人工智慧技術蓬勃發展，原因之一在於可供分析的資料數量及種類快速增加。二○一二年時，網飛就已經擁有大量資料，看看工程師阿瑪特里安（XavierAmatriain）和巴西里柯（Justin Basilico）在網飛部落格中的描述，就能夠以知道他們使用的資料種類有多麼廣泛：

● 我們擁有數十億筆會員評價（ratings），而且以每天數百萬筆的規模快速增加。

● 我們以人氣（popularity）做為演算法基準。計算影片「人氣」的方法很多，可以根據特定時間區間的資料，例如每小時、每天或每週的人氣；也可以根據地區或其他相似性指標來區分會員群，計算影片在不同群體中的受歡迎的程度。

● 我們每天收到數百萬筆串流播放（plays）相關資料，包括觀看時間、何時觀看、使用什麼裝置觀看等等。

● 我們的會員每天在他們專屬的片單（queues）中加入數百萬部影片。

● 我們的每一部片子有大量後設資料（metadata），包括演員、導演、類型、年齡分級、評價等等。

● 我們知道我們向會員展示（presentations）或推薦哪些影片、在何處向他推薦，可以檢視這些推薦如何影響會員行動。我們也觀察會員和推薦影片的互動情形，例如捲動滑鼠滾輪、將滑鼠游標移至推薦影片上的滑動或點擊動作，以及在特定頁面的停留時間等。

● 社交（social）資料已經成為我們最新的個人化功能依據之一，我們可以分析會員的親朋好友觀看或評價些什麼。

● 我們的會員每天在網飛服務中直接輸入數百萬筆搜尋項（search terms）。

● 除了上述內部資料，我們也可以利用外部資料（external data）來改進系統的功能，例如可以加入票房表現、影評的評論等等。

● 當然，我們蒐集與使用的資料不限於這些，還有許多其他的資料，例如人口結構統計、地點、語言、時間資料等，都可以運用在我們的預測模型。

網飛運用資料的深度與廣度令業界稱羨。在這些資料與分析資產中，有一部分是來自網飛創造約兩千個「微群集」（microclusters），把具有相似觀影喜好的用戶連結起來，因此這又稱為「品味社群」（taste communities）。一位用戶可能同時歸屬在好幾個品味社群之中，這是簡單的人口統計資料所無法呈現的，例如一位住在印度孟買市的六十五歲阿嬤，以及一位居住於阿肯色州農村的青少年，兩人可能為同類型節目深深著迷。

網飛把電視娛樂給資料化（datafication），這是阿里巴巴總參謀長暨湖畔大學教育長曾鳴創造的詞彙。「資料化」是指有系統的從任何事業自然進行的活動與交易中取得資料。舉例而言，Google的Nest Thermostat就是透過把一群傳統活動（控制家中暖氣、冷氣、通風等空調系統的行動）資料化，進而進軍睡眠市場。裝設電子感應器來感測家中溫度及住戶起居活動，再加上電腦控管及Wi-Fi連結，創造出能為屋主創造重要價值的全新資料。只要短短幾天，Nest Thermostat就能學會根據你的使用習慣自動調節室內溫度，或自動選擇適合你家的電力公司節能方案，並且讓你透過智慧型手機來操控這一切。

從臉書上的社交行為、戴著Apple Watch或Fitbit去運動，到以Oura或Motiv追蹤睡眠與健康狀態，類似的資料化歷程可說是無所不在。如同我們在網飛的案例中看到，愈來愈多資料可以與外部資料結合起來，為使用者提供更多價值。例如，Oura智慧指環的應用程式能將睡眠及心率資料與Apple Watch的感測資料相結合，提示使用者每日所需的休息時間與活動量。優步、來福車、Grab、滴滴出行、GOJEK等共乘平台已經將交通運輸相關資訊資料化，它們的應用程式能夠和智慧型手機功能相互結合，產生關於個人交通喜好、交通服務市場供需、市中心進出交通流量等廣泛且規模空前龐大的資料。在過去，企業根本難以想像能夠擁有如此準確、即時的資料。

有時需要一些創新，才能把傳統活動轉化為有用資料的源頭，例如支付寶和微信廣泛使用QR code作為支付工具，在商業交易領域取得領先地位。有些資料並不容易取得、甚至根本不存在，這時公司就十分值得投入生成資料相關技術與服務。就連必能寶（Pitney Bowes，一家擁有百年歷史的郵遞服務供應商）都拓展出新的商業模式，將資料化策略應用在美國實體地址資料，為銀行、保險公司、社交平台及零售業者推出「知識結構」（Knowledge Fabric）解決方案，用地址資料來滿足行銷、詐騙偵測等各種需求。這一切都源自於該公司能夠意識到，它可以在收取郵資之外創造價值與攫取價值。

試圖建立人工智慧工廠的傳統型企業往往會發現，它們手中擁有的資料不僅片斷零散、缺乏完整性，而且經常是分散而孤立的存放在各部門IT系統。以傳統商務旅館為例，一家連鎖商務旅館理論上應該擁有大量資料，包括顧客的住家地址、信用卡資訊、差旅頻率、搭乘的航空公司、交通型態、差旅地、住房房型、餐點選擇、當地旅遊景點喜好、健康情況與運動偏好等等；但實際上，多數連鎖旅館擁有的資料非常片斷零散、存放在缺乏相容資料結構的不同系統、沒有通用識別碼，而且未必完全正確。許多傳統公司主管始終低估投資在跨部門清理、整合資料的挑戰性與急迫性。為了建立一個有效人工智慧工廠，公司主管首要之務就是確保做出適當的投資。（摘錄整理自本書第三章，天下文化提供）

領導者的數位轉型

馬可．顏西提（Marco Iansiti）、卡林．拉哈尼（Karim R. Lakhani）／著；李芳齡／譯

天下文化出版

售價：500元

作者簡介

馬可．顏西提（Marco Iansiti）

哈佛大學商學院教授、哈佛創新科學實驗室（Laboratory for Innovation Science at Harvard）聯合主任。

卡林．拉哈尼（Karim R. Lakhani）

哈佛商學院教授，美國全國經濟研究所（National Bureau of Economic Research）研究員；也是Mozilla董事會成員，以及數家人工智慧新創顧問。

熱門新聞