你是否遇到機房局部區域溫度過高的現象,雖然加強了高架地板的出風量,甚至連蜂巢板都移除了,但仍無法徹底解決散熱問題。而這些問題正是臺灣大學(臺大)現階段所遇到的難題。今年臺大超級電腦的新建置案,共花費3千6百萬元,標案的規格則明文規定要使用刀鋒伺服器,臺灣大學計算機及資訊網路中心作業管理組程式設計師張傑生說:「如何解決散熱與耗電量是我們現階段遇到的最大挑戰。」
臺大去年採購的超級電腦(左圖),因採用機架伺服器,而且配置過於密集,導致系統過熱的問題;於是,今年新購的超級電腦(如右圖為2005年所購的刀鋒伺服器),便選擇刀鋒伺服器。 |
高效能運算機架伺服器難解決散熱
我們實地在臺大的機架式伺服器機櫃後方量測10分鐘,溫度就高達47度,機架式伺服器密度過密與排線過多都是造成機櫃溫度過高的主因,而刀鋒伺服器由於共用顯示卡、電源供應器與網路卡等,相較之下,後端的布線也簡易許多。
分散熱源將是臺大的解決之道
為了解決機架式伺服器過熱的問題,臺大曾經改變機房的架構,將機櫃前方的高架地板重新設置,在冷氣出口的蜂巢板下方設置風扇,強化冷空氣的排送,但這些做法都只能治標不能治本。
散熱的大問題-機櫃布線影響大
企業在剛建置伺服器時,如果沒有考慮布線的問題,當伺服器數量越來越多時,才驚覺機櫃後方布線凌亂,造成排熱不易時,要挽救已經來不及了。解決之道應每隔一段時間就整理後方排線,將後端的布線以束帶捆綁在一起,避免影響出風口才可達到有效散熱。高效能運算機架伺服器難解決散熱
2006年開始臺大對高效能電腦的硬體架構採取較開放的策略,由每個競標廠商自行規畫,在此時期共採購了1臺IBM P595 Unix伺服器與106臺HP(惠普)DL140 G3的1U機架伺服器。「如果你走到Unix伺服器機櫃後方就會覺得熱,那你一定沒走到機架式伺服器後方,當你走到機架伺服器機櫃時會感覺到更熱。」張傑生說。
散熱不易是這臺106機架式伺服器所遇到最大的問題,由於密度過高再加上後方排線過多造成散熱不易。當初IBM、Dell、昇陽與HP的經銷商都有投標,IBM與Dell的經銷商提出刀鋒式的叢集架構,而昇陽與HP的經銷商是以1U機架伺服器來建置。
「價格是勝出的主因。」張傑生說,最後得標者為HP的機架式伺服器。不過,當初負責的經銷商也因為經營不善而結束經營,臺大的後續維護變成難題。
張傑生表示,一個刀鋒模組就要14萬元,而一臺1U的機架式伺服器卻只要8萬元,相同的價格可以買到更多的1U機架伺服器,獲得更多的運算資源,所以臺大最後選擇106臺HP 1U伺服器的方案。
張傑生說,HPC(High Performance Computing)運算負載量高,相對的伺服器散發出的熱量更高。張傑生表示,一般的1U伺服器可能用在郵件、網站或檔案伺服器,這些應用的負載量不可能一直都達到滿載,不過,在HPC的應用上卻是有可能,因此1U機架式伺服器所散發出的熱量會比一般預期的還要高。
張傑生表示,以IBM刀鋒伺服器與1U機架式伺服器來比較,一臺刀鋒可以容納14組刀鋒模組,若將14個1U伺服器疊在一起,相較於刀鋒伺服器,機架式伺服器散發出來的熱量更勝一籌。
這套HP叢集電腦共建置4座機櫃,而負責運算的106臺機架式伺服器則是安裝在3個機櫃中,平均每個機櫃共容納36臺機架伺服器,以42U的機櫃而言,密度是相當高的。張傑生表示,相較於刀鋒伺服器,機架式伺服器由於無法解決散熱的問題,系統的穩定度相當的低。「如果伺服器一年只當機一次那還可以接受,但如果一個禮拜就有1~2臺伺服器發生不穩定,對於我們而言,就無法接受。」張傑生說。
排線是造成臺大機架式伺服器不穩定的一項主因。張傑生表示,一臺機架式伺服器後端就必須連結5~6條電線與訊號線,一個機櫃容納了30多臺的伺服器,後端排線便密密麻麻,不但造成整線的困擾,還因為排線過多,造成散熱不易。
我們實地在臺大的機架式伺服器機櫃後方量測10分鐘,溫度就高達47度,張傑生表示,機架式伺服器密度過密與排線過多都是造成機櫃溫度過高的主因。他表示,由於刀鋒伺服器共用顯示卡、電源供應器與網路卡等,後端的布線也相對的簡易許多。
從HPC的應用看刀鋒與機架伺服器 |
高效能運算的伺服器在大多數的時間都呈現高負載,在這樣的前提下,刀鋒與機架式伺服器在不同的層面上,各具有不同的優勢,如散熱、耗電量、擴充性與傳輸的問題。
首先在散熱與耗電量的部分,一臺刀鋒機箱便容納相當多數目的刀鋒模組,如果以10臺刀鋒模組為例,相較於10臺機架式伺服器在耗電量與散熱上則更具優勢。 不過,若一個機櫃大量部署刀鋒伺服器時,這些問題反而更為嚴重,HP業務經理周錫榮表示,以一個42U的機櫃為例,共可部署4臺HP c7000刀鋒機箱,最高可容納64個刀鋒模組,若換成1U的機架式伺服器,最高也只能容納42臺,若以一個機櫃而言,刀鋒伺服器的耗電與散熱量是相當可觀的。 另一方面,刀鋒伺服器在擴充性上則呈現劣勢。刀鋒伺服器之所以能容納更多的伺服器,捨去部分零組件的擴充性來解決密度過高的問題,而這也是刀鋒伺服器不及於機架式伺服器的地方。 在採購的成本上,機架式伺服器則更具優勢,如臺大採購1個刀鋒模組就需要花費14萬元,若換成1臺1U的機架式伺服器便只需要8萬元,在同樣的採購預算上,機架式伺服器能提供更高的運算資源。 在傳輸速度上,機架式伺服器也更具優勢,IBM業務經理楊維楷表示,刀鋒模組都必須通過刀鋒背板的連結才可傳輸資料,而機架式伺服器由於少了背板,在傳輸速度上提升許多,更適合使用在高效能運算。如今年8月國家高速網路與計算中心(國網中心)正式上線的超級電腦IBM System Cluster 1350便是採用機架式伺服器,不過,他們透過水冷式技術來解決散熱的問題。 國網中心位在南科的超級電腦共使用512臺IBM x86機架式伺服器,規畫23個機櫃,分三排,其中負責計算節點的伺服器機櫃都採用IBM Rear Door Heat eXchange散熱技術,國家高速網路計算中心計算基礎設施服務計畫主持人朱賢良表示,IBM System Cluster 1350是該單位首次使用水冷式技術,透過水冷式系統來解決散熱的問題,更可增加系統穩定。文⊙林文彬 |
分散熱源將是臺大的解決之道
為了解決機架式伺服器過熱的問題,臺大曾經改變機房的架構,將機櫃前方的高架地板重新設置,在冷氣出口的蜂巢板下方設置數臺風扇,強化冷空氣的排送,並針對故障率較高的機櫃,將該機櫃前方的蜂巢板移走。張傑生表示,這些做法都試過,不過,只能治標不能治本。
張傑生認為要徹底解決過熱的問題必須將熱源分散。他表示,將4個機櫃增加至6個,讓發熱量較高的HPC主機與負載率較低的郵件伺服器等混插,就能避免熱源集中在某處。
不過,臺大最後還是沒有增加到6個機櫃,主要考量便是價格與排線。張傑生表示,以HP原廠機櫃而言,一個機櫃的售價就要約10萬元,雖然其他國產品牌只要1萬元,不過,由於後續保固條約規定,若伺服器不使用在HP的機櫃中,HP便不提供後續保固,所以臺大目前並無計畫添購機櫃。
而機櫃的排線也是臺大不輕易移動伺服器的另一個主因,張傑生表示,機架式機櫃後方的排線相當複雜,不過,若要整線則必須負擔線材與人力成本,若建置廠商不提供這樣的服務,臺大並無充分的經費來解決這樣的問題。
為了解決機架式伺服器的熱源,臺大也曾思考使用水冷式技術來解決散熱問題,張傑生表示,採用水冷系統雖然可以有效降低散熱問題,但整個機房都必須要改裝,如冷熱水管的配置等,由於該中心並無變更機房的權限,也因此,必須在現有的機房架構下來改善散熱問題。
因為這一次的建置經驗,臺大今年4月添購的HPC伺服器便不打算使用機架式伺服器,而是採用刀鋒伺服器。「這並不代表機架式伺服器就不適合HPC的應用,只要能解決散熱的問題,機架式伺服器也是一個不錯的方案。」張傑生說。文⊙林文彬
臺大超級電腦將首度登上全球500大 |
強化學術研究的競爭力,臺灣大學早在1995年便著手建置Cray超級電腦,不過這臺超級電腦隨著時間的演進,運算能力逐漸無法符合臺大學術研究的需求,再加上Y2K千禧蟲危機,臺大便淘汰該臺超級電腦。於是,從2003年開始,臺大便掀開建置平行化計算叢集的序幕,並於2005年建置第二套系統,至今日已完成4套高效能運算叢集主機的建置,並預計明年初完成第5套系統。這套系統共使用128片IBM刀鋒模組,共花費3千6百萬元,可望讓臺大首度進入Top500全球超級電腦排行榜。
臺大於2003年12月完成新漢50個刀鋒模組的建置,掀開了臺大叢集運算的序幕。臺大共使用5個刀鋒機箱,每個機箱共可容納10片刀鋒模組,每個模組共使用2顆單核心Xeon 處理器,時脈為2.0GHz,不過,這套系統已使用一段時間,無法應付現今HPC運算需求,目前臺大以支援教學課程為主,提供程式練習、開發等用途使用。 緊接著在2005年6月臺大建置78個IBM刀鋒模組,共使用6個刀鋒機箱,每個刀鋒模組共採用2顆單核心Xeon (時脈為3.2GHz)。臺灣大學計算機及資訊網路中心作業管理組程式設計師張傑生表示,這兩套刀鋒伺服器運作得相當好,並不會因刀鋒密度高而造成過熱的問題。 到了2006年,臺大共採購了1臺IBM P595 Unix伺服器與106臺HP 1U機架伺服器。不過由於機架伺服器不愉快的建置經驗,臺大今年新建置的超級電腦便採購刀鋒伺服器,這套超級電腦共採購128臺IBM刀鋒模組,共容納至4個IBM BladeCenter H機箱,每個模組採用2顆英特爾(Intel)4核心Xeon 5300系列處理器(Clovertown),每片模組依使用量的不同,分別分配8GB與16GB的記憶體,張傑生表示,過去我們都用時脈來論定執行的速度,但現在處理器走向多核心,越多核心更強化處理速度,更適合運用在高效能運算領域。 這套超級電腦可望讓臺大於今年11月首度進入全球超級電腦前500強。張傑生表示,此次建置的刀鋒伺服器浮點運算實際值約為7 Tflop/s,理論值達10 Tflop/s,至今年年底可望進入前500強。 張傑生表示,目前計畫於10月申報Top500後,將刀鋒伺服器依作業系統不同區分為兩大叢集系統,分別為微軟Windows Compute Cluster Server 2003作業系統與RedHat Linux作業系統。 張傑生表示,我們主要服務臺大2千位老師與3萬名學生,由於服務族群不同,對於我們而言,許多使用者並無能力自行開發程式,往往使用一般的套裝軟體如SAS、SPSS等,而這些套裝軟體往往只支援Windows作業系統,因而這套超級電腦將採用Windows叢集系統。文⊙林文彬 |
散熱的大問題-機櫃布線影響大
目前各大廠牌的伺服器,排線的出口都盡量設計在伺服器的左右兩側,以避免阻擋散熱氣流,但是,許多企業在施工中並未詳實將排線固定在機櫃兩旁。HP(惠普)企業系統服務事業群工業標準伺服器事業處業務經理周錫榮表示,一般企業購買伺服器都是逐年分批購買,也因此,一個機櫃可能有不同時期,不同規格與廠牌的伺服器。「一般企業在建置伺服器時,只要伺服器能夠運作,根本不太會考慮布線的問題。」周錫榮說。
企業在剛建置伺服器時,如果沒有考慮布線的問題,當伺服器數量越來越多時,才驚覺機櫃後方布線凌亂,造成排熱不易時,到了這個時候,要挽救已經來不及了。周錫榮表示,機櫃的布線就像是人體一般,如果人剛開始生病時,由於病徵並不明顯,也因此容易忽略,但當問題嚴重才驚覺時,已為時已晚。
解決之道只有透過不斷的整線才可以解決,周錫榮表示,每隔一段時間就需要整理後方排線,將後端的布線以束帶捆綁在一起,避免影響出風口才可達到有效散熱。
此外,若企業購買大批的伺服器並另外購買安裝服務時,原廠在施工時,便會注意將布線移往機櫃兩側,避免布線阻礙散熱。如臺大建置1U機架伺服器機櫃,原廠出貨時就將布線整合至機櫃左右兩側,不過,由於臺大大量部署機架式伺服器,就算是布線集中在兩側,由於排線過密也造成伺服器排熱不易。
因此,臺大冀望透過刀鋒伺服器來解決機櫃後端布線的問題。周錫榮認為,機架式伺服器排線過多,雖然可以將排線往機櫃的左右側擺置,但難免造成出風口的阻礙,而刀鋒伺服器共用顯示卡、電源供應器與網路卡,讓伺服器都整併在刀鋒機箱中,排線數目較一般機架式伺服器少,不但容易管理,也比較不會阻礙出風口的風量。
不過,當機櫃布滿刀鋒伺服器時,由於刀鋒伺服器的出風口都設於刀鋒機箱的中央,周錫榮表示,如果少量部署刀鋒伺服器尚不會有太大的影響,不過,若大量部署刀鋒伺服器時,刀鋒散發出的熱量並不會少於一般的機架式伺服器,若不能有效管理刀鋒伺服器的布線,讓刀鋒伺服器後方排線垂直散落在機箱後方,阻礙伺服器後方的出風口,散熱的問題仍是會發生。文⊙林文彬
機架與刀鋒伺服器叢集架構大剖析 |
|
刀鋒伺服器機櫃(背面) | 機架伺服器機櫃 (背面) |
▲刀鋒伺服器簡化排線,讓牌線不至於阻礙刀鋒機箱的散熱。 | ▲雖然排線仍往左右兩側集中,但後方排線仍過多,散熱仍受到阻礙。 |
熱門新聞
2025-01-30
2025-01-31
2025-01-26
2025-01-27
2025-01-27
2025-01-27
2025-01-26