根據自由接案平台 Upwork 近日發表的全新研究,即便是目前技術最為先進的 AI 代理工具,當它們獨力處理簡單任務,沒有任何人類介入工作時,其成果經常以失敗告終。
然而,研究也指出當 AI 代理跟人類展開合作,各種類型專案的完成率竟可飆升至 70%,這反映出未來職場的工作樣貌,絕非是走向「人機對抗」,而是透過人類與 AI 的強強聯手,繼續創造出無限可能。
一場「人類」如何提升 AI 表現的實驗
根據 Upwork 說法,該研究以平台上 300 多個真實客戶專案為基礎,是全世界首次針對「人類專業知識如何提升 AI 表現」進行的系統性評估。
Upwork 技術長 Andrew Rabinovich 直言,事實上目前的 AI 代理仍沒有外界想像的如此全能,重點在於搭配人類專家後,專案完成率獲得了顯著提升,這直接證明了人類的直覺與專業知識,仍會於未來扮演關鍵角色。
在實驗中,Upwork 透過自主開發的「AI 人機生產力指數」(HAPI)測試了三款主流 AI 系統,包括 Google Gemini 2.5 Pro、OpenAI GPT-5 和 Claude Sonnet 4,範圍則涵蓋寫作、資料科學、網頁開發、工程、銷售與翻譯等真實案件。
為了對應 AI 代理目前的真實性能,Upwork 特意挑選了預算低於 500 美元,並且定義明確、過程簡單的任務。Andrew Rabinovich 解釋,研究團隊刻意選擇入門級任務,理由在於一旦進入高價值、高難度、高複雜性的問題和情境,現今的 AI 代理根本就沒有能力處理,無法反映真實應用情況。
讓 AI 獨自工作?不如人類從旁協助
即便如此,Upwork 仍然發現 AI 代理在獨立作業時,工作表現就變得非常吃力,但只要過程中有人類專家介入,並給予每次平均 20 分鐘的回饋和調整,AI 表現就會出現大幅進步。
換句話說,在具備人類從旁指導的情況下,AI 代理的表現確實會變得更好。以資料科學與分析專案來說,若由 Claude Sonnet 4 執行獨立工作,其完成率僅僅只有 64%,而經人類專家指導後竟可躍升至 93%。
至於在銷售與行銷任務方面,若由 Gemini 2.5 Pro 獨自作業,其專案完成率僅有 17%,在獲得人類協助後可提升至 31%;工程和建築類任務上,GPT-5 也從獨立作業的 30% 完成率,一舉提升至 50%。
研究中特別強調,在寫作、翻譯等需要「人類編輯判斷力」的創意領域,專家回饋最高可以讓任務成功率提高 17%。
雖然 AI 考滿分,但職場實戰卻是小白
Andrew Rabinovich 認為,雖然 AI 代理獨立執行任務的整體表現,跟各家開發商所宣稱的結果相似,但 Upwork 卻也反過來證明,AI 若可以跟人類一起協作,效能會出現明顯提升,而這也不僅限於單次、單向的互動,只要人類提供的回饋越多,AI 代理的任務執行能力就會越出色。
另一方面,Upwork 的實驗亦證明了將現有的學術評測方式,比方說 SAT 考試、奧林匹亞數學競賽等評分標準,套用到 AI 模型身上早已出現飽和,根本無法準確預測 AI 的實戰能力。
Andrew Rabinovich 指出,當今的 AI 模型可以在各種考試中拿下滿分,但卻會算錯單字「strawberry」中有幾個「r」,這就是評測跑分不等於實戰應用的最佳證明。
人機協作提升效率,人類甚至工作更多
既然 AI 跟人類協作可以獲得效能提升,那麼成本開銷方面呢?
對此 Andrew Rabinovich 指出,雖然人類跟 AI 一起工作,仍需要提供多個輪次、每次約 20 分鐘的回饋和調整,但相比人類獨自作業得耗時數天,AI 加上人類的工作模式,僅需數小時即可完成任務,換算下來效率提升了數倍,成本開銷也自然得到降低。
此外,AI 人機協作的經濟影響也遠遠不止節省時間如此簡單。根據 Upwork 日前發表的報告,2025 年第三季 AI 相關工作的總量年增率達 53%,為平台上最強勁的成長動能之一。
Upwork 財務長 Erica Gessert 曾經指出,當 AI 開始蓬勃發展時,人們普遍認為所有工作機會都將消失並遭到 AI 取代,尤其衝擊自由工作者這類不穩定群體,然而,實際情況卻是恰好相反。
Andrew Rabinovich 強調,AI 技術是「賦能」而非「取代」自由工作者,藉由將重複性的工作交給 AI,人類將能更專注於創意與概念設計,所以 AI 並不會取代現有的工作任務,只是會改變人類的工作內容。
Andrew Rabinovich 說,未來簡單的任務將會由 AI 自動完成,而工作本身會變得更加複雜,任務數量也會更多,因此,自由工作者的工作量和收入,實際上甚至會出現提升。
AI 擅長模式複製,弱點仍是缺乏創意
至於人類工作者跟 AI 未來將如何分工,從 Upwork 的最新研究中,其實多少也能窺見一二。
研究發現,AI 尤其擅長數據明確、可直接驗證,即具備標準答案的任務。舉例來說,Claude Sonnet 4 在缺乏人類幫助下,不僅完成了 68% 的網頁開發工作,也完成了 64% 的資料分析任務;Gemini 2.5 Pro 在特定技術任務上,成功率亦達到 74%。
而在涉及「主觀創意」的任務方面,比方說網頁版面設計、行銷文案撰寫,或者情境、語意的翻譯工作方面,目前的 AI 仍會暴露出明顯弱點,若缺少人類從旁指導,就更容易迷失方向。
最後在寫作與工程設計之類,需要透過創造性方式解決問題的專案上,研究發現人類介入後 AI 的進步最為顯著,成功率最高可提升 23%,這反映出 AI 雖然擅長模式複製,但仍缺乏創意、判斷與情境理解,而這些東西正是高價值專業工作的核心技巧。
Uma:回應 AI 代理的真正缺口
Upwork 這次所發表的研究,已經被神經資訊處理系統大會(NeurIPS)接受,並且通過了雙盲同儕審查,未來官方也計畫公開完整的測試方法,保持題庫持續更新,避免將來參測的 AI 模型出現過適(overfitting)現象,期待成為 AI 業界的效能評測基準之一。
除了研究本身之外,Upwork 也透露公司正在投入開發被稱為「Uma」的「元協調代理(Meta-orchestration agent)」工具,用於協調人類工作者、AI 系統與客戶之間的關係。
簡單來說,未來 Upwork 的客戶將主要跟 Uma 進行互動,而不是像現在一樣,直接僱用自由工作者。
Upwork 將透過 Uma 分析客戶的專案需求,判斷哪些任務需要人類專業知識,而哪些任務可以由 AI 自主執行,藉此協調工作流程並確保品質。
Andrew Rabinovich 強調,Uma 更類似於智慧型的專案經理,既不會取代掉人類員工,Upwork 也不想打造能夠完成各種任務的 AI 代理,只是想替客戶找到可以完成任務的工作者,配合對應的 AI 技術,再由人類扮演老師角色,機器扮演學生角色,透過人機合作探索出全新解決方案。
邁向 AI 人機協作,新技能要準備到位
在各大科技巨頭幾乎盡全力投入 AI 代理的環境下,Upwork 並沒有等待 AI 完全成熟後再進入市場,而是大膽押注於混合式的方法,希望整合人工智慧的優勢,即速度、可擴展性、模式識別,同時保留人類優勢,例如判斷力、創造力和情境理解,創造出更有效率的協作方式。
Upwork 技術長 Andrew Rabinovich 直言,外界普遍認為 AI 正在取代許多工作崗位,比方說寫作、翻譯、程式設計或其他數位任務,但卻很少有人真正提及 AI 所創造出來的新興工作機會。
從歷史角度來看,當人類發明電力、蒸汽機等科技時,有一些工作不免會遭到取代,然而新型工作的數量卻也呈現指數級增長,同樣情況或許也會發生在人工智慧領域。
Andrew Rabinovich 說,目前求職市場上已經出現如 AI 任務監督、人機工作流程設計,以及 AI 輸出驗證等新興崗位,這些工作在兩年前幾乎都不存在,可是如今卻能夠於 Upwork 等平台上,讓自由工作者獲得高薪報酬。
Andrew Rabinovich 強調,AI 時代下人類終究需要掌握新技能,包括參與人機互動、引導 AI 提升效能,以及驗證 AI 提出的方案是否正確等,這些技能不只將驅動 AI 往下一個階段發展,同時亦是現代工作者所必備的關鍵能力。
【推薦閱讀】
◆ AI 新職稱「AI 代理長」出現了:這位決策者不喜歡「人機協作」這個說法
◆ 第一批能對 AI 指出錯誤的人——中高齡反成 AI 時代職場王牌?
◆ 不是工人,是主管先失業——白領職位急凍,藍領與技職正崛起
*本文開放合作夥伴轉載,參考資料:《VentureBeat》、《Upwork》,首圖來源:GPT-4o
(責任編輯:鄒家彥)



