Search
Close this search box.

AI 發展模式轉彎!OpenAI 等巨頭布局不再是「越大越好」

現有 AI 模型發展遭遇瓶頸,OpenAI 等人工智慧公司正積極尋求突破,透過開發更像人類思考方式的訓練技術,試圖克服開發更大規模大型語言模型(LLM)的挑戰,並解決訓練時間過長及硬體限制等問題。

大型語言模型發展遇瓶頸,資料與算力不再是唯一解方

多位 AI 科學家、研究人員和投資者向路透社表示,這些新技術可能重塑 AI 軍備競賽,並對 AI 公司的能源和晶片等資源需求帶來影響。

自從兩年前 ChatGPT 發布以來,科技公司普遍認為,透過增加數據和算力來「擴展」現有模型,就能持續提升 AI 模型的效能。然而,部分頂尖 AI 科學家,現在卻開始質疑這種「越大越好」的理念。

AI 實驗室安全超級智慧(SSI)和 OpenAI 的共同創辦人 Ilya Sutskever 指出,透過擴大預訓練(使用大量未標記數據理解語言模式和結構的 AI 模型訓練階段)的效益已達瓶頸。

訓練大型模型成本高昂,硬體故障和電力短缺成阻礙

據三位知情人士透露,開發超越 OpenAI GPT-4 模型的大型語言模型競賽中,大型 AI 實驗室的研究人員正面臨訓練時間過長及硬體限制等問題。訓練大型模型的成本高達數千萬美元,需同時運行數百個晶片,硬體故障風險也隨之提升。此外,訓練過程耗時數月,研究人員需等到訓練結束才能評估模型效能。

大型語言模型需要消耗大量數據,然而 AI 模型已用盡全球易取得的數據。此外,訓練過程需要龐大電力,電力短缺也成為一大阻礙。

「測試時間運算」技術興起,提升 AI 模型推理能力

為解決上述問題,研究人員正探索「測試時間運算」(test-time compute)技術,在模型使用階段(推理階段)增強現有 AI 模型。模型可以即時生成和評估多種可能性,而非立即選擇單一答案,最終選擇最佳方案。

此方法讓模型能將更多算力用於數學、編碼等複雜任務,或需人類推理和決策能力的運算。OpenAI 研究人員 Noam Brown 表示:「我們發現在撲克牌局中,讓機器人思考 20 秒,推理能力的提升幅度,相當於將模型擴大 10 萬倍並訓練 10 萬倍的時間。」

OpenAI、Anthropic、xAI、Google DeepMind 等公司積極布局

OpenAI 已將「測試時間運算」技術應用於新模型 o1(先前稱為 Q* 和 Strawberry)。o1 模型能以多步驟方式思考問題,並使用來自專家學者的數據和回饋。o1 系列的關鍵,是在 GPT-4 等「基礎」模型之上進行的另一組訓練。OpenAI 表示,計畫將此技術應用於更多、更大的基礎模型。

其他頂級 AI 實驗室,如 Anthropic、xAI 和 Google DeepMind,也正積極開發類似技術。OpenAI 產品長 Kevin Weil 表示:「我們還有很多可以改進的空間,可以快速提升這些模型的效能。當其他人追趕上來時,我們會努力保持領先。」

AI 硬體市場競爭格局可能改變,輝達面臨挑戰

此趨勢可能改變 AI 硬體市場的競爭格局,目前該市場由輝達(NVDIA)的 AI 晶片主導。紅杉資本(Sequoia)和安德森·霍洛維茨基金(Andreessen Horowitz)等創投公司,已投入數十億美元資金於 AI 模型開發,他們也關注此一轉變,並評估其對投資的影響。

對輝達 AI 晶片的需求,推升其成為全球市值最高的公司,於 10 月超越蘋果(Apple)。然而,與輝達主導的訓練晶片市場不同,在推理晶片市場,輝達可能面臨更多競爭。

【下載 TechOrange 2024 資安趨勢報告】

穩定!精準!互信!找回企業與資安防護的互相信任

>> 免費下載報告看完整分析 <<

*本文開放合作夥伴轉載,資料來源:《Reuters》首圖來源:Unsplash