Search
Close this search box.

一次推 6 款模型挑戰 OpenAI,Amazon Nova 文字、影片生成全都包

一次推 6 款 AI 模型挑戰 OpenAI,Amazon Nova 文字、影片生成全都包

亞馬遜(Amazon)於 2024 年的 AWS re:Invent 大會上,宣布推出新一代基礎模型 Amazon Nova 系列,並且一口氣帶來 6 款多模態 AI 模型,正面迎戰 OpenAI、Google 等科技巨頭。

跟 AI 互動將更直覺!Gartner 預測到 2027 年,40% 生成式 AI 解決方案將是多模態

>> 立即下載《2025 趨勢觀察報告》看 AI 趨勢 <<

掌握所有模態,Amazon Nova 放大招

亞馬遜這次推出的 Amazon Nova 系列模型,包含超快速文本生成模型 Nova Micro,以及能夠處理文本、圖像和影片輸入,並且以文本方式輸出的多模態模型 Nova Lite、Nova Pro 和 Nova Premier。

此外,亞馬遜也帶來更先進的 Nova Canvas 與 Nova Reel 模型,前者適用於生成高品質圖像,後者則適用於生成高品質影片,相當於文字、靜態圖像與動態影片全都能交由 AI 掌握。

亞馬遜通用 AI 資深副總裁 Rohit Prasad 表示,目前公司內部大約擁有 1000 個生成式 AI 應用正在發展,所以十分了解開發者所面臨的挑戰。

未來,Amazon Nova 將為開發人員提供強大的智慧內容生成功能,並且在延遲、成本效益、客製化、檢索增強生成(RAG)及智慧代理(agentic)等領域,為使用者提供強大 AI 後盾。

新模型表現具水準,抗衡 Meta、OpenAI

根據亞馬遜說法,主打速度與低延遲的 Nova Micro,每秒可以輸出多達 210 個 token,並且於多項基準測試表現中,相較 Meta LLaMa 3.1 8B、Google Gemini 1.5 Flash-8B 等 AI 模型,皆要來得更優或者水準相當。

功能再往上提升的 Nova Lite 於多項基準測試中,亦有跟 OpenAI GPT-4o mini、Anthropic Claude Haiku 3.5 等 AI 模型互相抗衡的表現;亞馬遜指出,Nova Lite 特別適合用於 AI 代理工作流程,例如理解畫面視覺元素,接著於瀏覽器、電腦螢幕上主動執行操作。

更加強大的 Nova Pro 則強調準確性、速度和成本之間的平衡;至於 Nova Premier 則屬於頂級多模態模型,專為複雜推論任務而生,開發人員可將其作為蒸餾客製化模型(distilling custom models)的最佳典範模型(teacher model)使用。

無縫整合自家服務,成本壓低、效能更高

亞馬遜表示,Nova Micro、Lite 和 Pro 支援 200 多種語言,其中 Nova Micro 支援 128K 輸入 token 的上下文長度,而 Nova Lite 和 Pro 的上下文長度亦可達 300K token,處理影片時長更可達到 30 分鐘。

亞馬遜進一步指出,Nova Micro、Lite 和 Pro 在各自競品類別中,成本比 Amazon Bedrock 表現最佳的模型至少便宜 75%,同時 Nova 系列模型也跟 Bedrock 服務無縫整合,支援微調以提升準確性,並且提供客製化回應。

除了 Nova Premier 預計在 2025 年第一季才能對外提供,較簡易的其他三套模型皆已經於 Bedrock 服務中全面上線。

挑戰 AI 圖像、影片生成,瞄準前沿應用

至於更先進且專注於視覺內容的兩套 AI 模型,即 Nova Canvas 與 Nova Reel,前者可以讓使用者透過文本輕鬆調整圖像,控制顏色組合與畫面佈局,並且內建浮水印功能,讓外界得以追溯每張生成圖像的來源,同時也具備內容審核機制,方便使用者主動限制有害圖像輸出。

此外,亞馬遜最先進的影片生成模型 Nova Reel,預期能夠幫助使用者以文本和圖像,輕鬆打造出超高品質影片,適用於廣告、行銷和培訓等內容創作。

未來使用者將可以透過自然語言,控制 AI 模型掌握視覺風格和節奏,包含鏡頭移動、旋轉和縮放,雖然目前 Nova Reel 僅支援生成 6 秒短影片,但官方指出於未來幾個月之內,就會將影片生成長度提升至兩分鐘。

下一步發展語音,任意模態 AI 代理將登場

除了 6 組 AI 基礎模型之外,亞馬遜也計畫在 2025 年第一季,推出 Amazon Nova 語音到語音模型,透過理解自然語言的即時語音輸入,解釋語言和非語言訊號(如語調和節奏),提供流暢、接近真人的互動,徹底改變對話式 AI 應用,確保低延遲的雙向交流。

此外,亞馬遜內部也還在開發一款新模型,能夠接受文本、圖像、音訊和影片作為輸入,並以任意模態生成輸出。

這款具備本地「多模態到多模態」,即「任意到任意」模態能力的 Amazon Nova 模型,最快將於 2025 年中旬推出,未來能夠協助使用者簡化應用程式開發,並且同時執行多種任務,例如內容模態轉換、內容編輯,以及驅動足以理解和生成所有模態的 AI 代理。

【推薦閱讀】

◆ 蘋果罕見背書使用亞馬遜 AI 晶片,亞馬遜成 NVIDIA 最新競爭者

◆ OpenAI 稱 2025 年 AI 代理成主流,Google 版「賈維斯」最快年底登場

◆ Google 曝內部 25% 程式碼交由 AI 生成,工程師負責「審查」效率變更高

*本文開放合作夥伴轉載,資料來源:亞馬遜。首圖來源:Amazon