| 封面故事 | ML | AI | 機器學習 | SRE | ML可靠性戰略 | google | 服務可靠性工程
十多年ML系統SRE經驗,Google練出4大ML可靠性戰略
13年前,Google在匹茲堡設立了第一個ML SRE團隊,開始將累積了好幾年的SRE經驗,開始運用到ML系統,先從改善搜尋引擎關鍵字廣告投放精準做起,後來擴大導入到各式各樣的ML服務,甚至要發展成可以支援多模型類型多租戶架構的ML維運平臺
2022-03-15
| 封面故事 | ML | AI | 機器學習 | SRE | ML可靠性戰略 | google | 服務可靠性工程 | ML當機
10多年Google ML維運經驗,歸納19種ML當機情境要注意
Google ML維運團隊分析近百起大型ML當機事故後發現,系統出錯原因不盡然是ML本身問題,而是與系統管理方式有關