若談起 AI 硬體,許多人第一反應都是 NVIDIA 所製造的 GPU,但是 Google 身為第一家研發客製化 AI 晶片的雲端供應商,對於自家所開發的 TPU 更是自信滿滿;不只是為了擺脫對 NVIDIA 的依賴,Google 之所以選擇走自己的路,還是對於翻上 100 倍的 AI 運算效率有著強烈堅持。
目錄
連蘋果都青睞的 Google TPU
位在美國加州山景城的 Google 總部內,數百個伺服器在機房中轟轟作響,但它們所運算的任務卻不是 Google 自豪的搜尋引擎,也不是為全球數百萬客戶提供幕後支援的 Google Cloud。
這些位於 Google 總部內的伺服器,事實上都搭載了該公司自行開發的 TPU,或者稱之為「張量處理單元」。
TPU 最初是 Google 針對內部運算工作所開發,直到 2018 年才正式對外提供,並且成功吸引到另一家科技巨頭蘋果(Apple),將 TPU 用來訓練旗下的人工智慧模型 Apple Intelligence;此外,TPU 現在也支撐著 Google Gemini 模型及 AI 聊天機器人的即時運算和訓練。
Google AI 晶片研發,比起別人快一步
趨勢研究公司 Futurum Group 執行長 Daniel Newman 指出,全世界對於 AI 似乎有著一個基本共識,那就是所有的人工智慧和大型語言模型,全都必須在 NVIDIA 硬體上進行訓練;當然,NVIDIA 確實擁有最大占比的模型訓練量,但是 Google 卻在這件事情上有著不同想法。
Google 是全世界第一家生產客製化 AI 晶片的雲端供應商,直到 3 年之後,亞馬遜才宣布推出首款雲端 AI 晶片 Inferentia,而微軟的 AI 晶片 Maia 更是到了 2023 年底才正式登場。
Google 在 AI 晶片方面的領先,為母公司 Alphabet 的財報增光不少,不僅最近一個季度的雲端收入成長了 29%,季度營收更首次超過 100 億美元。
處理特定任務,TPU 效率高出 100 倍
今年 7 月,外媒首度深入 Google 的晶片實驗室,並採訪了該公司客製化雲端晶片負責人 Amin Vahdat。
Amin Vahdat 回憶,Google 第一次冒出研發晶片的想法,可以回推到遙遠的 2014 年,當時多位 Google 高層提問:假設 Google 使用者每天只想透過語音,跟 Google 旗下服務互動 30 秒,那麼伺服器將會發生哪些事情?Google 需要多少算力才能夠應付使用者需求?
當時 Google 得到的結論是:他們必須將現有資料中心的伺服器數量增加一倍;因此在成本考量下,開發團隊開始尋找其他更好的解決方案。
Amin Vahdat 說,Google 團隊很快就意識到「客製化硬體」也許能夠解決問題,因此 TPU 的概念就此誕生;比起 GPU 這類的通用硬體,TPU 在特定任務上,運算效率能夠高出 100 倍。
GPU 供應量吃緊,TPU 因此得利
目前 Google 資料中心仍然同時使用了 CPU、NVIDIA 的 GPU,以及自家開發的 TPU;TPU 本質上是一種專用積體電路(ASIC),為特定目標的運算需求量身打造;Google TPU 專注於人工智慧,同時該公司還研發了另一種專門處理影片串流的 ASIC,稱為「視訊編碼單元」即 VCU。
Google TPU 中的「T」代表了 Tensor,中文意思是「張量」,意指進階 AI 應用背後所快速發生的大規模矩陣乘法運算;2018 年 Google 推出第二代 TPU,並將產品重點擺在 AI 的推理擴展和訓練,使旗下雲端客戶可以使用 TPU 來執行工作負載,對標 NVIDIA GPU 的 AI 運算需求。
Bernstein Research 資深半導體研究員 Stacy Rasgon 指出,雖然 GPU 確實擁有更好的可程式化彈性,同時也能更加靈活的展開運用,但市場上的 GPU 供應量長期以來都十分緊張,反觀 TPU 方面卻不曾產生過類似問題。
Google TPU 幕後推手:博通與台積電
只不過,想要成為 NVIDIA GPU 的「替代品」卻絕非易事。Stacy Rasgon 指出,唯有科技巨頭具備研發 AI 晶片的各種條件,例如金錢與資源;由於研發過程太過複雜且成本高昂,即便是 Google 也必須找來合作夥伴,那就是從第一塊 TPU 就開始參與設計的博通(Broadcom)。
根據 Stacy Rasgon 說法,博通負責幫助 Google 設計 TPU 的其他細節,包含 I/O 與 SerDes 等等,以及其它讓晶片得以正常運作的必要部分,接著 Google 與博通共同將設計圖送進台積電,由這家全世界最大的晶片製造商進行代工。
博通曾經表示,他們已經花費超過 30 億美元,攜手合作夥伴一同設計 AI 晶片,Google 的第六代 TPU 晶片 Trillium,預計今年稍晚就能正式推出。
由於把旗下晶片交由台積電進行代工,所以當被問及:若是台灣和中國大陸之間,某天因地緣政治而發生最糟糕的情況時,Google 是否會採取任何緊急措施?對此 Google 客製化雲端晶片負責人 Amin Vahdat 回應,即便公司對此早有思考,甚至於已經有所準備,但 Google 實際上仍不希望台海之間發生任何事情。
Google 的下一塊晶片將是 CPU
就在 TPU 逐漸邁向成熟後,Google 的下一步也非常明確,那就是大規模部屬自行研發的 Arm 架構 CPU Axion。
Amin Vahdat 表示,Axion 是 Google 晶片計畫的最後一塊拼圖,許多內部服務如 BigQuery、Spanner 與 YouTube 廣告等等,其實都已經在 Axion 上順利運行。
相較於雲端 AI 晶片領域的超前,Google 的通用 CPU 開發顯然有些落後;舉例來說,競爭對手亞馬遜早於 2018 年就推出了 Graviton 處理器,中國阿里巴巴在 2021 年也推出自行研發的伺服器晶片,微軟則是於去年 11 月加入 CPU 戰場。
當被媒體問到為什麼 Google 不早一點生產 CPU 時,Amin Vahdat 指出,Google 所關注的重點,一直都是考量如何為客戶提供最大價值,例如 TPU、VCU 就是因為有所需求,因此才投入相關研發,而 Google 現在則認為是時候端出 CPU 了。
客製化晶片是淨零排放的關鍵
Google 所研發的 CPU Axion 採用 Arm 架構,由於設計彈性更高、運作更加節能,因此比起 Intel 或 AMD 所開發的傳統 x86 處理器,目前 Arm 架構 CPU 在市場上可謂更加受到歡迎。
選擇 Arm 架構開發 CPU,同時也能為了滿足各國政府的碳排放要求;根據 Google 主動提出的環境報告顯示,從 2019 年到 2023 年,Google 的整體碳排放量增加了近 50%,部分原因必須歸咎於 AI 所帶來的資料中心規模成長。
Amin Vahdat 表示,如果 Google 沒有這些客製化晶片帶來的效率提升,旗下資料中心的碳排放量將出現更為誇張的數字,同時 Google 仍會致力朝基礎建設淨零碳排的目標持續邁進。
【推薦閱讀】
◆ Google IPO 滿 20 年卻無心慶祝,股價上漲 7600% 竟換來「生死危機」
*本文開放合作夥伴轉載,資料來源:《CNBC》、《The Register》。首圖來源:YouTube
(責任編輯:鄒家彥)



