對於大多數企業與組織來說,將大量紙本文件與 PDF 檔案提供給員工進行教育培訓,通常是公司邁向數位轉型「最後一哩路」的必要工作,但是文字指南的實際效果,卻經常不如公司管理層所預期。
不僅如此,許多企業雖然願意斥資數百萬,採購 SAP 或 Salesforce 等公司的高階商業軟體,然而最後卻發現,員工根本連最基本的程式操作都難以駕馭。
如今隨著 AI 時代來臨,企業除了培訓員工之外,還得教導人類跟 AI 進行協作,同時引導 AI 代理穿梭於錯綜複雜的軟體介面迷宮之中,大幅提升了工作量與數位轉型的難易度。
因此,一種獨特的解決方法浮上了檯面。
捕捉專家操作,製作教學影片
近日於社群平台上,有家 AI 新創公司展示了一套特殊的開放式應用,概念是透過錄下人類操作任務時,比方說建立工單或處理發票的電腦螢幕畫面,接著做成教學影片與操作指南,投入並訓練 AI 根據影片內容,直接複製人類的工作流程。
只不過,該公司所提出的新創概念,事實上已由另一家以色列公司 Guidde 在商業領域實踐。
跟傳統訓練 AI 代理的方式不同,Guidde 藉由捕捉「真實人類專家」使用複雜軟體時的操作軌跡,建構成一條帶有豐富資訊流的「影片基準資料」,進一步投入 AI 代理進行訓練。
記錄操作互動,建構數位世界模型
本質上,Guidde 是一款「人工智慧數位採用平台(ADAP)」,其最主要的技術突破,在於平台執行螢幕錄影的過程中,還會記錄下除了畫面之外的其他背景資訊,包含使用者跟網頁、軟體之間的每一次點擊、滾動與潛在互動,甚至是細微的停頓、特定的滾動深度,以及系統延遲時人類所進行的修正動作等。
與此同時,Guidde 還會同步影像畫面跟程式底層中介數據、文件物件模型(DOM)的更動,而一旦擁有足夠豐富的背景資訊,平台就會將原始影片轉化為類似「視覺-語言-動作(VLA)」訓練資料集,作為 AI 代理的訓練基礎。
Guidde 特別強調,其平台的「魔法遮蔽」功能將會於螢幕錄影過程中,自動遮擋密碼及信用卡號碼等敏感資料,確保最終產出的訓練影片,足夠安全並符合 HIPAA 規範;同時,所有使用者跟軟體介面之間的互動數據,全都會執行嚴格的清理與淨化,確保其中不包含任何私人資訊。
這些以豐富中介資料為訓練基礎,替企業軟體打造的「數位世界模型」,正是 Guidde 最強大的產品護城河。
影像如同導引地圖,引導 AI 投入實戰
畢竟,每家企業選擇的應用程式與工作流程都是獨一無二,而透過 Guidde 教學影片所訓練的 AI 代理,既可以透過傳統使用者介面進行任務推理,還具備與人類相同的空間感知能力,以此確保 AI 自動化技術不僅能在實驗室中運作,更能夠真正適用於生產環境。
從另一個角度看,對人類而言 Guidde 平台所產出的訓練影片,已經是一份可以直接遵循的教學指南,至於對 AI 代理來說,影片更像一份高精確的導引地圖,使 AI 能夠像人類一樣「看見」並解析複雜的使用者介面,從而解決企業自動化轉型過程中,AI 代理缺乏實戰使用情境的難題。
外媒形容,某種意義上 Guidde 在數位轉型領域所扮演的角色,有點像是自動駕駛汽車產業的 Waymo,差別只在於 Guidde 的應用是針對電腦操作情境而來,而非人車雜沓的大馬路。
目前 Guidde 平台具備三項主要應用,包含協助特定領域專業人士,在數分鐘內將工作流程轉化為文件的 Guidde Create;以及提供常用工具問題解答的個人化推薦引擎 Guidde Broadcast,它能識別使用者身分與所屬部門,並在員工需要時精準提供相關內容。
至於 Guidde Discover 則是該公司在 AI 代理領域的全新支柱,它會追蹤員工的工作模式以規劃軟體操作路徑,同時能理解工作流程、自動生成內容,並在使用者介面出現變化時自主更新。
不只訓練 AI,同時也訓練人類
雖然 Guidde 看似是為 AI 代理所服務,但該公司執行長 Yoav Einav 指出,他們其實是市場上唯一一個,既能夠訓練 AI,也能夠訓練人類的平台。
隨著科技巨頭陸續推出如 Microsoft 365 Copilot、ServiceNow 等 AI 工具,許多企業內部卻開始面臨「技能落差」的生產力困境。
由 Guidde 所服務的一家大型企業就透露,雖然他們每年為某款先進的 AI 工具,支付超過 100 萬美元的成本開銷,然而公司內部卻沒有人知道,該工具究竟應該如何使用,因為其教育培訓時間只有短短 30 分鐘;Guidde 透過在工作流程中,提供給人類員工「簡短易懂」的影片教學,成功填補了技能落差。
當然,教學影片也被用於訓練 AI 代理,畢竟像 Google Gemini 或 OpenAI GPT-4 這類通用基礎模型,在處理企業內部特定的工作流程時,經常會產生幻覺,而由 Guidde 所提供的訓練影像,具備讓 AI 代理執行任務所需要的「起始點」、「中介數據」及「按鈕位置座標」,使 AI 可以順利完成操作不卡關。
借助 AI 力量,降低時間成本
Guidde 起源於新冠疫情爆發之後,公司創辦人Yoav Einav 與 Dan Sahar 看到了將視訊技術應用於職場的巨大機會,但是為企業製作軟體教學影片的時間成本過高,導致商業模式難以持續。
在導入 AI 技術後,Guidde 藉由即時生成結構化敘事腳本,以及專業級人工智慧旁白的優勢,整合多款多模態先進 AI 模型,如 Google Gemini、Anthropic Claude 等,將過去需要兩到三週才能製作教學影片的時間,壓縮到僅需數秒即可完成,徹底消除了過去的瓶頸。
根據 Guidde 說法,企業客戶在採用了該公司的平台後,內部教學、培訓影片的製作時間降低了 41%,而技術單位的支援工單數量則減少 34%。
同時 Guidde 也聲稱,目前公司已經擁有 4,500 家企業客戶,並計劃透過新一輪,由 PSG Equity 領投的 5,000 萬美元融資,繼續擴大經營規模。
AI 訓練朝「真實動態素材」轉變
總歸來說,從純文字大型語言模型相關應用,直到更加智慧的視訊素材 AI 培訓,Guidde 的蒸蒸日上,正充分反映出 2026 年 AI 業界的關鍵趨勢,那就是企業 AI 正在將訓練資料從從靜態文件,轉向更接近真實工作流程的多模態資料。
透過捕捉數千萬種工作流程和任務的執行方式,Guidde 已經開始建立起一套,其他業者幾乎都無法與之抗衡的珍貴資料集。
正如同 Yoav Einav 所言,無論是哪種工作任務,起初都會由人類參與決策環節,但是隨時間推移,未來可能朝更高度自動化的方向發展。
因此,過去靜態的文字導引和教學指南,將會被充滿生命力的動態影像所取代,而這些內容既能引導人類,也會帶領 AI 代理朝更精準的方向發展。
【推薦閱讀】
◆ 告別遙控示範?NVIDIA 研究發表機器人世界模型 DreamDojo,模擬與真實相關性達 99.5%
◆ 跨越恐怖谷:為什麼「精準對嘴」是 AI 機器人進入家庭的關鍵拼圖?
◆ 大型手臂太笨重、人類進去太危險,可拆卸機械手如何解決工業維修最頭痛死角?
*本文開放合作夥伴轉載,參考資料:VentureBeat、AI Insider,首圖來源:Nano Banana 2
(責任編輯:鄒家彥)



