Amazon技術長Werner Vogels (圖片來源/AWS)

隨著業務發展,IT系統越建越複雜,甚至不可避免地疊床架屋,一不注意就變成東拼西湊的違章建築了。如何簡化IT複雜性,一直是資訊長、技術長們的重要課題。日前,一位在全球龍頭電商磨練了20年的IT老將,不藏私分享他的6大管理心法。

上任之初開始摸索管理方法

這位老將,就是Amazon技術長Werner Vogels。2005年,他剛進入Amazon沒多久,時任執行長Jeff Bezos和資訊長Rick Dalzell就問他,願不願意接任技術長這一職。

他當時想:「怎麼能錯過打造全球最大分散式系統的機會?」於是接受了這份職務,雖然還不知道自己將面臨什麼挑戰。

這20年來,「學習、學習和學習」是Werner Vogels不斷重複的事。他坦言,隨著組織業務擴大,IT系統不可避免地越來越複雜,比如AWS有許多以簡單(Simple)為名的服務,像是SimpleDB、Simple Storage Service(即Amazon S3雲端儲存服務)、Simple Queuing Service等,每年都在新增功能、服務規模越來越大,它們變得「不再簡單,反而很複雜。」

這種「複雜性(Complexity)隨時會發生,你必須管理它。」Werner Vogels娓娓道來,團隊20年裡跌跌撞撞嘗試,最終摸索出一套方法,成功管理了複雜的IT系統。

這套方法簡單、可靠又安全,Werner Vogels用「Simplexity」來形容,還總結出自己從中學到的6堂課。他希望分享這些經驗,來幫助資訊長、技術長們管理IT環境,確保日益複雜的系統不失控。

第一堂課:系統要具備進化能力

分享第一堂課前,他先強調:「Simplexity需要紀律。」有了紀律,才能謹慎規畫IT系統的長期發展。

在這個前提下,他領悟的第一課,就是在設計系統的第一天,融入系統的「進化能力」(Evolvability)。換句話說,系統未來幾年一定會面臨變動,資訊長和技術長必須制定一套因應系統複雜性的長期策略,無論未來發生什麼變化,例如規模擴展或功能增減,IT架構都能靈活調整、應對。

Werner Vogels舉例,18年前,團隊打造Amazon S3服務的第一天,就清楚知道,1年後的架構一定和當下不一樣。

於是,他們設計一套可控的架構,來因應未知需求,讓團隊新添功能或變更系統的同時,還能輕易管理。這也是他們每年新增S3功能,十多年來仍不影響客戶體驗的關鍵。

具備進化能力的系統,乍聽之下很抽象,Werner Vogels進一步解釋,這類系統有幾個特點,比如要根據業務概念建置,或是以細緻的使用者介面來隱藏內部細節,以及採取智慧端點(Smart endpoints)設計概念,將業務邏輯放入服務內部,讓每個端點自主執行特定任務、降低對中央控制的依賴。

再來,分散式設計和獨立可部署設計也很重要,如此才有足夠的彈性,讓系統隨著時間推移而更新。擁抱雲原生、確保系統高度可觀察和自動化,都是具備進化能力的做法。最後一個重點是,系統發生故障或錯誤時,要能被隔離在特定範圍內,確保單一故障不會引發連鎖反應、導致整個系統停止運作。

這是Amazon團隊開發系統進化能力學到的第一堂課,也是Werner Vogels眼中最重要的一課。

第二堂課:拆解複雜性

Werner Vogels學習到的第二課是拆解複雜系統,將其分解為一系列低耦合、小規模的元件(Component),將功能相關的元件或模組聚在一起,讓它們專門執行密切相關的任務,並以良好定義的API來溝通。

Amazon CloudWatch就是一例,這是一款專門監控AWS應用程式和效能的服務,每天要處理665兆個指標觀察、消化440PB的大量日誌。

原本,這個服務非常龐大且複雜。為簡化它的複雜性,Werner Vogels團隊把握3個核心原則:將系統解構,轉換為一系列高內聚且低耦合的元件,再透過妥善定義的API,讓這些元件互相溝通。

現在,CloudWatch前端只處理核心功能,整個系統的複雜性則分散到個別元件上處理。如此一來,這些元件可以隨著時間推移不斷更新,不論更新的是功能、函式庫還是程式語言都可以,比如Amazon後來就將原本以C語言寫成的高容量資料儲存功能,以Rust語言改寫。

第三堂課:組織要與架構一致

Werner Vogels學到的第三堂課,是組織的複雜度要與IT架構一致。當內部的系統越建越複雜,組織也該有對等的複雜性,反之亦然。

舉例來說,大約6年前,Amazon S3團隊經歷快速成長期,開始大幅招募工程師,新來的工程師未必熟悉S3服務,尤其是如何確保S3服務的耐用性。於是,S3團隊幾位主管討論,借鏡安全工程的威脅模型優化模式,也就是盤點安全弱點,再用威脅模型評估風險,來檢查防禦措施是否做足。

這個模式,後來成為S3提高耐久性風險模型的作法,每當團隊要更改S3時,就會寫下可預見的耐久性風險,以及採取的應對措施。

這麼做,只需找來團隊中少數的資深工程師,擔任耐久性審查員就能確保服務的耐用性,不用擔心新手的經驗不足;甚至,團隊還可針對威脅模型深入討論、找出漏洞並改進,再以這個經驗進行教育訓練。

這就是將組織規模對應IT架構的實例之一。Werner Vogels還提出另一個重點,也就是建立所有權(Ownership),賦予能完成任務的最小團隊權力,給予支持和時限壓力,來讓隊員在一定時間範圍內,授權完成任務,並為此負責。這是Amazon S3團隊的另一項實踐。

圖片來源/AWS

第四堂課:拆分為單元

解決了組織與IT架構的複雜性,接著要解決維運的複雜性。

「在Amazon,我們的做法是將應用程式組成為單元(Cells),來解決維運的複雜性。」Werner Vogels說明,一支應用程式的架構包含前端、中層容器和後端儲存,只要任一環節出現問題,整支服務就會受到牽連,影響所有客戶的使用體驗。

為解決這個問題,Amazon團隊將原本的大架構拆解為小單元,這些小單元可以獨立維運,就算發生故障,也不會影響其他單元的運作,降低故障帶來的衝擊範圍。

在這種單元架構中,不同單元的系統可以獨立運作,互不影響。開發者再透過一套演算法,比如路由演算法,來將大量使用者對應到不同單元,分散負載。理想情況下,一個單元要足夠大到能處理最大工作負載,但也要足夠小到能進行全面測試,這是Werner Vogels學習到的第四堂課。

第五堂課:設計可預測系統

設計可預測系統,是他學到的另一堂課。因為,維運的不確定性非常難處理,「所以必須在打造系統之初,就採取可預測性設計,才能避免維運的不確定性。」

Werner Vogels舉例,一套處理數百萬家企業顧客負載配置異動需求的配置管理系統,通常採取事件驅動架構。這種架構先將顧客的配置異動請求,存入資料庫,再一一送到事件佇列,來觸發無伺服器負載平衡處理機制。但若顧客不斷提出重新配置的請求,負載平衡器的處理工作就會變得不可預測。

於是,Amazon團隊採取一種相對簡單的做法,將所有的配置異動請求,寫入一個S3的檔案,負載平衡器固定每隔幾秒來讀取這個檔案,取得所有的異動,一口氣執行每一個異動請求。

「如此一來,重新配置就變得完全可預測了!」Werner Vogels強調,這種可預測設計大幅降低了不確定性帶來的衝擊,也減低未知的影響力,是管理複雜系統的另一重要手段。

第六堂課:自動化是標配

這位IT老將管理複雜系統的最後一課,是盡可能將複雜系統自動化,特別是大規模的複雜系統。Amazon自己就有不少自動化應用,Werner Vogels舉例,AWS靠自動化來維持服務的耐用性和容量,前述的負載平衡重新配置、甚至是區域的建立,也都靠自動化完成,幾乎沒有人工介入。

然而,什麼事情該自動化?

「這個問法不對,你應該要問『什麼不該自動化』!」Werner Vogels點出,只有在真正需要人類高度判斷的領域,才保留人工介入,「其餘一律自動化。」

他還建議,企業或組織應該將自動化視為標準,人為參與視為例外。而且,不要只讓某一類職員做決策,應該還要納入監督者角色,才能確保人為錯誤不發生。

舉例來說,AWS團隊就靠AI代理工作流程,來自動化工單分派。首先,AI代理會分析工單、產出執行計畫,接著挑選工具、自動執行任務。再來,代理會選用其他工具來驗證結果,完成後交由人工審核。Werner Vogels補充,團隊可以選擇由代理自動解決問題,也可以升級人工審核。在Amazon內部,還有許許多多這類自動化實例。

「這就是我在Amazon工作20年來,管理複雜IT系統學習到的6堂課。」Werner Vogels說。

 

 CTO看2025年科技趨勢 

Amazon技術長Werner Vogels前陣子發表2025年科技趨勢預測文章,一共給出5項預測。

首先,未來的勞動力將以使命感為導向,也就是除了薪水和更好的職涯發展,未來勞動力還會想為世界帶來正面的改變;而認知到這一點的企業,將獲得長期成功。再來,能源效率將進入新時代,將推動創新,比如發展小型模組化反應器、重新設計資料中心的耗能方法等創新。

第三,科技發展將大規模助長事實查核,新一波AI工具將出現,來幫助記者、研究員和熱心公民尋求真相。

第四,開放資料將推動去中心化的自然災害韌性,尤其將資料和決策權交到社區手中,不但能改善災害應變,還能建立緊急預備的災害管理網。最後,有別於現行感官刺激來吸引點擊、造成分心的消費科技,講求斷開數位連結的目的導向消費科技將日益普及。

 

 CTO小檔案 

Amazon技術長Werner Vogels

學歷:阿姆斯特丹自由大學電腦科學博士畢業

經歷:2004年擔任康奈爾大學科學研究員並進入Amazon,隔年擔任技術長至今,負責推動雲端運算發展,另也致力協助年輕創業家擴大至全球規模、協助企業轉型為快速發展的數位化組織。他也著有多篇關於企業運算的分散式系統技術文章

 公司檔案 

Amazon.com

●總部:美國西雅圖

●成立時間:1995年

●主要業務:最初為網路書店,後來擴展為電子商務平臺,並進軍雲端服務、AI、數位媒體等領域

●員工數:約150萬人

●營收:1,589億美元(2024年第三季)

●董事長:Jeff Bezos

●執行長:Andy Jassy

 公司大事紀 

●1997年:Amazon成立

●2002年:推出AWS雲端運算服務平臺

●2005年:Amazon Prime付費訂閱服務推出

●2006年:AWS第一代Amazon S3公雲服務正式上線

●2014年:Amazon智慧語音助理Alexa推出

●2017年:併購Whole Foods,成為實體零售電商

●2018年:Amazon資料庫從Oracle資料倉儲系統,改搬到AWS雲端資料倉儲

●2023年:Amazon推出AVI自動貨車檢查系統;AWS揭AI訓練晶片Trainium2和Arm架構處理器Graviton4、正式上線生成式AI平臺Amazon Bedrock

●2024年:Amazon推出生成式AI購物助理Rufus、6款Nova系列模型;Amazon加深與Anthropic合作、投資1.1億美元啟動Build on Trainium大學創新計畫;Amazon SageMaker機器學習平臺重新定位為AI統一大平臺;生成式AI助理Amazon Q正式上線

●2025年:Amazon RMN廣告技術服務開放給第三方零售業者

熱門新聞

Advertisement