跟Google學ML系統SRE

早在13年前,Google開始將維運大規模服務可靠性的SRE做法,開始套用到ML系統上,第一個適用對象就是搜尋引擎關鍵字廣告的推薦,後來成了內部許多ML系統上線維運的重要助力,從十多年ML SRE經驗,Google歸納出四大可靠性工程關鍵策略

 

十多年ML系統SRE經驗,Google練出4大ML可靠性戰略

13年前,Google在匹茲堡設立了第一個ML SRE團隊,開始將累積了好幾年的SRE經驗,開始運用到ML系統,先從改善搜尋引擎關鍵字廣告投放精準做起,後來擴大導入到各式各樣的ML服務,甚至要發展成可以支援多模型類型多租戶架構的ML維運平臺

按讚加入iThome粉絲團追蹤