Search
Close this search box.

0.1 秒的資料遺失可能讓 AI 模型訓練前功盡棄!台達如何透過全方位解決方案,滿足企業對 AI 伺服器與資料中心的新需求?

輝達(NVIDIA)創辦人黃仁勳在去年台大畢業典禮上提到:「每個行業都將因為 AI 經歷革命性變革!」隨著「AI 無所不在」(AI Everywhere)概念發酵,黃仁勳的話正在應驗,AI 相關產業鏈也蓬勃發展,尤其是訓練 AI 模型不可或缺的 AI 伺服器更是關鍵。除了提升運算能力的 GPU 及晶片,在 AI 伺服器內部,還需要其他技術及硬體設施配合到位,才能確保穩定運作,其中就包括了電力供應。因此身為電源及散熱大廠,台達在這波 AI 浪潮中,也扮演著重要角色。

COMPUTEX 2024 活動於 6 月初落幕,這屆主題聚焦 AI,許多大廠紛紛秀出多元的解決方案。台達也向外界展出了 AI 伺服器機櫃、機架式電源、BBU(資料備援電池模組)、液冷散熱等解決方案。而做為 AI 龍頭輝達(NVIDIA)重要的合作夥伴之一,台達也展示了替 NVIDIA 開發的 19 吋 ORV3 33kW 伺服器電源、應用於 GPU 的電源轉換器等多種產品。活動期間,台達董事長鄭平,更與 NVIDIA 創辦人暨執行長黃仁勳在展位進行交流。

「電源供應器向來是機房伺服器的重要設備之一,不過在 AI 伺服器中,它已經從『重要』變成『關鍵』。」台達電源及系統事業群旗下的電腦及網通電源事業部總經理鄭謝雄,在接受採訪時,就提到了電對於 AI 伺服器的重要性。

台達電源及系統事業群電腦及網通電源事業部總經理鄭謝雄。

「如果把整部 AI 伺服器比做人體,GPU 就好比 AI 伺服器大腦,負責處理複雜運算,記憶體、網路、電源等零組件則如同人體其他器官,共同組成了完整系統,而電力就如同血液,為 AI 伺服器各個組件提供能量,使其能夠正常運作,執行運算任務。如果 AI 伺服器斷電或電力供應不穩定,各硬體組件就無法運作,運算任務也會被迫中斷。」

鄭謝雄指出,就像人體器官需要血液輸送養分維持運作一樣,AI 伺服器替 AI 模型訓練期間,也需要確保電力的穩定輸出和分配,絕對不能有任何不穩定的情況發生,否則整個訓練過程將會前功盡棄。

以 ChatGPT 3.5 模型訓練為例,整個訓練週期長達 3 到 5 個月,投入成本更是高達數十億美金。在這段訓練過程中,一旦電力供給不穩,就算只有 0.1 秒的資料遺失,都可能讓整個訓練過程必須從頭來過。因此要確保電穩定、持續輸出,就必須靠高效率、穩定可靠的電源供應器,這也是 AI 運算訓練成敗的關鍵因素。

台達完整電源、備援、散熱解決方案,助力 AI 產業發展

隨著 AI 伺服器 GPU 效能持續提升,對電源需求也越來越高。鄭謝雄指出,以往電源供應器功率,每 2-3 年大約成長 50% ,但如今 AI 技術蓬勃發展,客戶每半年到 1 年就要求功率提升一倍,而且體積還不能增加太多。此外,電源轉換過程難免有電能損耗,因此電源供應器效率優劣,就會顯著影響整體系統的能耗表現。以一台 33kW 的 AI 伺服器機架式電源為例,若是電源效率能從 97.5% 提升至 98%,並 24 小時不間斷運行,一年下來就能為資料中心公司節省可觀的電費支出。因此,如何進一步提升電源效率,也是切入 AI 供應鏈時的關鍵課題。 

對此,鄭謝雄指出:「台達以電源技術起家,在電源供應器市場位居全球領先地位。針對 AI 伺服器及資料中心的需求,台達有全方位的解決方案。」他舉例,在電源供應方面,台達有提供最新ORV3(Open Rack v3)第三代開放式機櫃標準伺服器電源方案,當中包括了目前高達 5.5kW 的高效電源供應器和機架式電源。另外針對從電網、電源供應器到 AI 晶片所需的 DC-DC 轉換器,也因應所需的直流電從傳統的 12V 提升到 48V,甚至未來還可能進一步到 380V,開發出新款高效產品,以減少 AI 伺服器在不同高低電壓轉換時的電力損耗。除了追求高效之外,電源供應器還必須通過過載、過壓保護等設計,確保電力異常時,不會對 GPU 和運算資料造成毀損。

台達在 COMPUTEX 2024 活動中展出最新 ORV3(Open Rack v3)第三代開放式機櫃標準伺服器電源方案。

為了確保電力供應的順暢性,必須搭配完善的備援與保護機制,以因應突如其來的斷電狀況。台達針對備援系統提供多種方案,包括大型資料中心用的 UPS、機架式 UPS(In-Rack),以及放置在伺服器機架內的 BBU(Battery Backup Unit,電池備援電力模組)等方案,確保系統在市電異常時仍能正常運作。

台達針對 AI 伺服器及資料中心,提供包括電源供應器、液冷散熱、直流電源轉換等多項解決方案,並於六月初COMPUTEX 2024 活動中展出。

散熱則是另一個重要的環節,它能維持資料中心在適當的溫度範圍內運作,避免因過熱當機。台達提供機房的冷熱通道隔離設施(如冷通道封板、熱通道封板等)、冷氣系統,到機架冷卻設備,如CDU(Cooling Distribution Unit,冷卻液分配裝置)、AALC(Air Assisted Liquid Cooling,空氣輔助液冷散熱)等,還提供 GPU 的冷凝板、與 CDU 連接的水路管線等產品,以確保資料中心的散熱效果達到最佳狀態。

鄭謝雄指出,隨著業界對運算能力要求不斷提升,AI 伺服器走向高密度設計,以便機架內能容納更多 GPU,這也代表電源供應器必須跟上腳步,無論是電源供應器功率、能效或功率密度,都必須同步提升,才能成為 AI 運算的堅實後盾,助力 AI 產業發展。

台達運用五大策略,保持 AI 關鍵技術領先

台達致力於研發創新,投入的研發經費超過總營收的 8%,並通過市場觀察分析及產品線多角化,在 AI 浪潮來襲時,迅速取得領先地位。

台達能提供客戶從電源、備援系統到散熱的完整解決方案,並非一蹴可幾,而是長期投入足夠的研發能量才有的成果。鄭謝雄形容,這就像培養奧運國手,必須要長期挹注資源、厚植實力,在 AI 競賽到來時,才能在伺服器及資料中心的市場取得領先地位。

他點出台達幾項重要策略,首先是每年投入超過總營收的 8% 作為研發費用。「即使面對景氣衰退,研發預算也是逐年成長,不會減少投入。透過長期、持續的研發投資,我們得以在關鍵技術上保持領先。」其次,台達著重在產業趨勢分析與洞察,積極探討市場變化、預測客戶可能需求,並採取「先布局再等市場成熟」的策略,提前 3-5 年投入新技術,從而搶得先機。像是 48V 電壓轉換、液冷等尖端技術,就是台達預期資料中心發展趨勢後搶先佈局的成果,後續也會視市場需求再進行調整。

此外,台達也致力於研發完整的解決方案,以伺服器供電為例,當中就涵蓋了電源、不斷電系統、散熱到軟體管理,並透過完善的品質管理系統,進行可靠度測試、失效分析等嚴謹檢測,確保研發產品的穩定度,滿足客戶在供電端各項需求。鄭謝雄說:「台達不僅有穩定可靠的電源及散熱解決方案,滿足伺服器大廠的剛性需求,還擁有靈活的客製化能力,可以因應客戶獨特要求,快速修改設計,這也是台達能贏得客戶信賴的重要原因,更是我們立足市場的基石。」

AI 運算需求從「訓練」走向「推論」,台達整合各領域技術提供一條龍 AI 基礎架構

隨著 AI 技術不斷更新,預期未來相關應用將導入各行各業,實現「AI 無所不在」願景。

對於未來趨勢,鄭謝雄看好 AI 產業的龐大潛力,他認為目前 AI 仍處於起步階段,隨著 AI 技術的不斷突破,未來將對各行各業產生顛覆性的影響。接下來,AI 運算需求將從「訓練」走向「推論」,而推論市場的規模將遠大於訓練市場,為 AI 伺服器廠商創造更多商機。此外,AI 也將在製造、醫療、金融、能源等領域催生出各種創新應用,為企業創造新的價值來源。

為了因應 AI 市場潛在發展,台達將持續研發高效電源、先進液冷技術等應用在新一代 AI 晶片時所需的關鍵技術。同時,台達也致力於整合旗下在電源、散熱、基礎設施、機構設計等領域的技術,推出整機架/整機櫃的解決方案,藉由提供一條龍的 AI 基礎架構,滿足客戶對快速佈建、高擴充、易維護的需求。未來,台達將持續從關鍵技術研發、整體解決方案、客製化服務、節能優化以及軟體定義基礎架構等多管齊下,為客戶提供最先進的 AI 伺服器電源解決方案。