圖片來源: 

臉書

臉書(Facebook)在本周開源了已應用在內部多項服務的強化學習平台Horizon,強調該平台是專為生產用途而設計,也是首個可解決大規模商業問題的免費方案。

在機器學習技術中,最早的監督式學習(Supervised Learning)是在訓練的過程中直接告訴機器答案,強化學習(Reinforcement Learning)則是屬於非監督式學習,它會藉由觀察環境來行動,並隨時根據新進資料逐步修正,不管是AlphaGo Zero或是Dota 2專案都是採用強化學習。

然而,強化學習是以試誤法(trial and error)來改善能力,很難直接被部署在生產環境中,但Horizon平台以各種工作流程來訓練熱門的深度強化學習演算法,也包含資料處理、功能轉換、分散式培訓、反事實政策評估及最佳化服務,標榜是替生產使用所設計。

研究人員指出,Horizon可被應用在具備龐大資料集、回饋迴路緩慢,以及必須小心進行實驗的產業環境中。

事實上,臉書已有多項服務採用了Horizon。例如臉書的推播通知原本是使用監督式學習模型,預測被通知者的點擊率及造成互動的可能性來判斷通知與否,但它無法捕捉傳送傳送的長期價值,有些訊號也許沒能及時出現,再加上基於靜態閥值的過濾機制無法滿足對通知有不同偏好的用戶,使得臉書決定改用Horizon。

Horizon能夠根據特定用戶在臉書上的互動與行為給予獎勵,並針對通知祭出懲罰來控制通訊的寄送數量,依照用戶曝露在模型中的行為不斷訓練,使得它大幅改善了用戶在臉書上的活動及互動行為。

臉書也將Horizon應用在粉絲頁的管理員通知與360度影片服務中。研究人員說明,將Horizon導入自適性比特率(Adaptive Bitrate,ABR)串流網域,藉由提供更聰明的影片緩衝及預先擷取的方式,可在減少比特率使用的同時不影響用戶的觀看經驗。

Horizon是以Python撰寫,使用PyTorch來建模及訓練,藉由Caffe 2部署,即日起已可自GitHub下載

熱門新聞

Advertisement