360影片順暢的關鍵不藏私，臉書強化學習平台Horizon開源了

圖片來源:

臉書

臉書（Facebook）在本周開源了已應用在內部多項服務的強化學習平台Horizon，強調該平台是專為生產用途而設計，也是首個可解決大規模商業問題的免費方案。

在機器學習技術中，最早的監督式學習（Supervised Learning）是在訓練的過程中直接告訴機器答案，強化學習（Reinforcement Learning）則是屬於非監督式學習，它會藉由觀察環境來行動，並隨時根據新進資料逐步修正，不管是AlphaGo Zero或是Dota 2專案都是採用強化學習。

然而，強化學習是以試誤法（trial and error）來改善能力，很難直接被部署在生產環境中，但Horizon平台以各種工作流程來訓練熱門的深度強化學習演算法，也包含資料處理、功能轉換、分散式培訓、反事實政策評估及最佳化服務，標榜是替生產使用所設計。

研究人員指出，Horizon可被應用在具備龐大資料集、回饋迴路緩慢，以及必須小心進行實驗的產業環境中。

事實上，臉書已有多項服務採用了Horizon。例如臉書的推播通知原本是使用監督式學習模型，預測被通知者的點擊率及造成互動的可能性來判斷通知與否，但它無法捕捉傳送傳送的長期價值，有些訊號也許沒能及時出現，再加上基於靜態閥值的過濾機制無法滿足對通知有不同偏好的用戶，使得臉書決定改用Horizon。

Horizon能夠根據特定用戶在臉書上的互動與行為給予獎勵，並針對通知祭出懲罰來控制通訊的寄送數量，依照用戶曝露在模型中的行為不斷訓練，使得它大幅改善了用戶在臉書上的活動及互動行為。

臉書也將Horizon應用在粉絲頁的管理員通知與360度影片服務中。研究人員說明，將Horizon導入自適性比特率（Adaptive Bitrate，ABR）串流網域，藉由提供更聰明的影片緩衝及預先擷取的方式，可在減少比特率使用的同時不影響用戶的觀看經驗。

Horizon是以Python撰寫，使用PyTorch來建模及訓練，藉由Caffe 2部署，即日起已可自GitHub下載。

熱門新聞