雲原生如何改變Target

2015年大舉上雲,積極擁抱開源雲原生技術,2016年全面微服務化,2018年從單雲邁向多雲混合雲。4千名IT,維運2千座大小機房,靠K8s管理10萬個VM叢集,2020年新設SRE團隊,隨時監控76萬支微服務,支援1.7億名顧客線上線下消費體驗。從30套大型單體應用,到全面雲原生架構,Target足足走了5年多

Target如何提前阻止大規模事故?從POS失效徵兆學到4大SRE教訓

這個成立才3個月的SRE團隊,驚覺幾家分店少數結帳POS機掃碼「嗶」聲響起的速度慢了,沒想到,竟是上周一次更新造成的微服務出錯,若不能趕快排除,不只全美近2千家分店,連服務上億顧客的網路商場都會大受影響,錯過2020年的復活節購物潮商機

新手Target SRE首次重大事件的4個教訓

因為系統異動造成的問題,經常會延後發酵;監控機制必須連備用系統都監控,才有完整數據;第一時間先採取緩解對策,而不是先找出問題根源來處理;不要浪費事故教訓的價值,必須從這些事件來累積和學習

按讚加入iThome粉絲團追蹤