不久之前 OpenClaw 創立者 Peter Steinberger 在 Podcast 節目中表示,由於近來自己透過語音跟 AI 助手大量對話,導致他稍微有點「失聲」,這件事似乎反映出科技界一項創新趨勢,那就是「語音 AI」已經悄悄融入到了普通人的日常工作流程之中。
然而,語音 AI 應用所帶來的變革,並不僅僅限於「氛圍編碼(Vide Coding)」,更是一路深入到企業最基礎的工作流程。
無處不在的 AI 語音應用
根據 AI 語音代理平台 Thoughtly 在 2025 年,針對超過 500 家企業所進行的調查,結果顯示高達 78% 的受訪公司,正在或早已部署了 AI 語音解決方案,比例較兩年前的 45% 顯著提升。
目前獲得部署的 AI 語音助理與客服人員,基本上都具備回答問題、查詢內部資料及自動化執行任務的能力,無需使用者手動輸入任何文字。
不僅如此,具備人工智慧能力的語音助理,還能簡化多數客服單位核心任務的重複性流程,讓真人客服能夠專注於接聽電話,進一步提升客戶體驗。
從傳統語音到 ChatGPT
綜觀過去幾年的發展,像 Siri 和 Alexa 這樣的 AI 語音工具,雖然往往能夠於消費市場引發關注,但隨之而來的可靠性問題,卻始終阻礙了它們的普及。
時間來到 2024 年,隨著 OpenAI 為 ChatGPT 增加了「進階語音模式」,其穩定且頗受好評的使用者體驗,令 AI 語音聊天市場開始出現轉變。
OpenAI 向外媒表示,過去一年以來,他們觀察到旗下 AI 語音輸出、語音輸入轉寫的功能採用率出現大幅提升,然而外界經常有所誤解之處在於,企業對語音轉文字工具的使用,其實早在 ChatGPT 實裝進階語音模式之前,就具備一定規模的需求。
舉例來說,市場研究與諮詢公司 Info-Tech Research Group 研究總監 Shashi Bellamkonda 就指出,包含金融機構和客服中心等組織在內,它們早已運用了語音相關技術長達許多年。
Shashi Bellamkonda 進一步解釋,普遍而言,消費者十分討厭打電話給客服中心處理問題,即便他們不得不打,民眾也非常厭惡超長的接通時間,以及不斷循環播放的背景音樂。這導致必須常態性處理大量消費者來電的公司,勢必得尋求技術解決方案,一邊維持客戶滿意度,一邊縮短等待時間以解決問題。
雖然像 ChatGPT 這類消費級 AI 工具,也能夠於企業環境中使用,但 Shashi Bellamkonda 強調,那些能夠獲得企業青睞的語音服務業者,依然是有能力整合專業語音通訊與相關合規功能的平台提供者,比方說 Avaamo、OpenStream AI 和 PolyAI 等,專門替大型組織提供對話式 AI 功能的廠商。
當然,Shashi Bellamkonda 說,企業也可以選擇自行建置,基於大型語言模型(LLM)的原生 AI 全端解決方案,只是這類方法的成本相對較高,而且也更加難以維護。
動動嘴巴就能寫程式
除了將客服中心升級自動化運作之外,AI 語音技術最主要的應用場景之一,便是近來逐漸掀起流行的「氛圍編碼」。
強大的 AI 語音轉文字工具,為程式設計師提供了一種全新媒介,讓他們能透過口語來開發新產品,其速度遠比單純打字來得更快。
即時 AI 語音開發商 Deepgram 共同創辦人兼執行長 Scott Stephenson 向外媒強調,當某一款產品擁有任何需要文字輸入的功能、任何使用者通常會利用鍵盤輸入的內容,以及任何具備按鈕可以點擊、閱讀或查詢的介面,其設計師現在都會開始把「語音」視為最主要的輸入方式。
Scott Stephenson 說,雖然不是每一套軟體、每一種介面全都適用,但以大多數的情況而言,語音操作不只更加簡便,同時也更為快速。
在前述的發展趨勢下,越來越多程式開發者將語音 AI 工具,納入自己的工作流程之中;正如同 Scott Stephenson 所舉例,如果某個軟體設計師,想趁著空閒時隨便寫點程式碼,那麼透過語音進行操作,並且以更加口語的方式向 AI 表達,作業效率自然也會更高。
當被問及 Deepgram 內部進行產品開發,是否也大量應用語音功能時,Scott Stephenson 毫不諱言表示,公司旗下表現最優異的工程師,就經常使用語音輸入功能,同時 Deepgram 也透過 AI 語音平台管理公司客服團隊,並運用 Claude Code 和 Deepgram Saga 等工具,進一步簡化工作流程。
企業、員工、客戶互動的革新
在企業客服中心與氛圍編碼之外,AI 語音功能的潛在應用場景,其實比外界想得更加遼闊,尤其是在積極於人工智慧領域投入大量資源的 IBM 手上。
根據 IBM人工智慧技術合作部門 VP Nick Holda 的說法,目前 IBM 已經在公司內部署了許多 AI 語音助理,協助員工透過電話處理常見的 IT 與支援請求,比方說密碼重設與硬體設備申請等。
Nick Holda 指出,語音 AI 有助於提升員工體驗,並且協助 IBM 推動更快速、更直覺的雙向互動;此外,這項技術的革新也具備更宏大的意義,即人類員工跟企業技術之間,關於互動方式的嶄新轉變。
近期,IBM 亦宣布跟第三方語音 AI 業者,建立起策略性的合作夥伴關係,其中也包含了 Deepgram;該公司正運用 AI 語音技術,支援醫療保健及金融服務等產業中的各項應用場景,舉凡自動化客戶服務、通話分析,以及語音驅動的資料輸入等。
不僅如此,日前 IBM 亦跟文字轉語音服務供應商 ElevenLabs 建立了合作夥伴關係,將高品質語音與 IBM Watsonx 互相整合,期望藉此協助企業部署由 AI 所驅動的語音客服,使其能以多達 70 種語言跟客戶進行對話,同時兼具各國家、地區的口音和語調。
用語音寫程式,真的有必要嗎?
儘管 AI 確實為傳統的語音技術服務,帶來飛躍式的產業革新,但該技術在普及的過程中,依舊面臨許多障礙,包含最常見的誤判使用者輸入內容等等。
對此,AI 語音平台 PolyAI 共同創辦人暨執行長 Nikola Mrkšić,就曾經公開質疑「透過 AI 語音輸入功能進行程式設計」,似乎只是行銷上的噱頭。
Nikola Mrkšić 說,身為一名軟體開發者,他也經常進行氛圍編碼工作,但利用語音 AI 撰寫程式,目前只能算是一種「炫技」,畢竟大多數的工程師都依然更喜歡終端機、命令列介面(CLI)以及整合開發環境(IDE),因為這些工具都具備讓使用者「直接操作」的能力。
Nikola Mrkšić 進一步解釋,雖然 Claude Code 確實支援語音功能,但總令人感覺是噱頭,就跟 Macbook 上的 Siri 一樣。
顯然,在不同的開發者之間,關於 AI 語音助理的實際貢獻有著不小差異,這在很大程度上也取決於不同工作團隊不一樣的工作方法,畢竟世界上亦不存在萬能的解決方案。
AI 語音技術的無窮潛力
另一方面,Nikola Mrkšić 也對語音 AI 當前的侷限性表達了看法。他指出,目前 AI 語音的實際應用效果,跟大多數人的想像仍然擁有差距,業界尚未找到真正具備殺手級應用的任務案例。
Nikola Mrkšić 亦認為,在強化客戶服務方面,語音 AI 應用極具價值,若企業能將 30% 至 40% 的客服任務完全自動化,不僅可以將等待時間縮短到零,整體服務成本亦能大幅降低,語音技術也能為持續優化客戶體驗奠定基礎。
【推薦閱讀】
◆ 【聊天機器人填不滿的缺口】AI 開始有臉,數位人如何以擬人介面重建與用戶的信任?
◆ 微軟悄悄研發「類 OpenClaw」功能:Copilot 走向全自主運作,爭奪企業 AI 主導權
◆ 單一提示詞已不夠用,企業如何透過提示鏈讓 AI 輸出真正可信賴?
*本文開放合作夥伴轉載,參考資料:Forbes、SiliconANGLE,首圖來源:PxHere
(責任編輯:鄒家彥)



