OpanAI 公佈 Dota AI 比賽細節，打贏人類就靠「自我訓練」與「模仿高端玩家」

【我們為什麼挑選這篇文章】

擊敗《Dota 2》人類最強選手的 OpenAI 釋出了部分細節，其中最吸引人的的確是「自我訓練」成長的模型，以及在與人類的對戰中學習，與 AlphaGo 如出一徹。

另外一個值得注意的是，開發團隊有將 AI 的參數進行調整，所以在操作的速度上不會出現「人類無法企及的滑鼠移動速度」的現象。（責任編輯：陳君毅）

在攻克了圍棋以後，人工智能研究者們似乎不約而同地把電子競技遊戲作為了下一個練兵場。《TO》曾報導，在 Dota2 國際邀請賽 TI7 上，OpenAI 率先展示了自己的成果，在西雅圖讓 AI 在 1v1 比賽中擊敗了職業選手，又一次點燃了關於 AI 的討論。

雷鋒網對比賽結果也進行了諸多分析，就目前的資料來看，其實 1v1 比賽可能較圍棋來得簡單，在 1v1 比賽中取勝，也不能說明在 5v5 的完整比賽中能戰勝人類，人類還保有一定的尊嚴。

經過約一周的時間，OpanAI 最終公佈了 Dota AI 的一些細節，不過它還是有所保留，沒有說明技術細節。最後，他們還說到最終的目的就是在 5v5 比賽中戰勝人類。

上圖是遊戲 AI 的 TrueSkill 評級（類似於國際象棋中的 ELO 評級）分數變化，計算方式是模擬 AI 之間的遊戲對局，並觀察勝率。TrueSkill 系統是基於貝葉斯推斷的評分系統，由微軟研究院開發，主要用於多人遊戲匹配。這套評分系統考慮到了玩家水平的不確定性，綜合考慮了玩家的勝率和可能的水平漲落，而不是簡單的基於勝率的評分。

圖中顯示的變化趨勢是線性的，這意味著 AI 的提升水平呈指數級增長。

OpenAI 還具體介紹了項目的開發時間表。從某種角度看，15％的玩家低於 1.5K MMR，58％的玩家低於 3k，而 99.99％低於 7.5k。（Dota 的天梯積分）

MMR 是比賽匹配分級系統，全稱是 match making ranking，簡單理解就是 Dota 中常說的天梯分。

3 月 1 日：在簡單的 Dota 環境中得到了第一個經典強化學習下的結果，AI 操作的黑暗遊俠可以對付神牛了。
5 月 8 日：1.5k MMR 水平的測試員說自己的速度比 AI 要快。
6 月初：擊敗 1.5k MMR 水平的測試者
6 月 30 日：在與 3k MMR 測試者的比賽中多數會贏
7 月 8 日：對戰 7.5K MMR 水平的半專業測試者，終於贏了一次。
8 月 7 日：3-0 擊敗 Blitz（6.2k 的前職業選手），2-1 擊敗 Pajkatt（8.5k 的職業選手），3-0 擊敗 CC＆C（8.9k 的職業選手），不過大家都認為，系統還是打不過頂尖選手 Sumail。
8 月 9 日：10-0 擊敗 Arteezy（10k 職業選手）10-0，但他還是認為系統搞不定Sumail。
8 月 10 日：6-0 擊敗 Sumail（8.3k 職業選手，頂級 1v1 玩家），不過在與 8 月 9 日版的系統對戰結果是 2-1。
8 月 11 日：2-0 擊敗 Dendi（7.3k 職業選手，前世界冠軍）2-0。這個時候的系統對戰前一天的版本，勝率是 60％。

完整的比賽是 5v5 版本的，不過 1v1 也出現在一些錦標賽中。OpenAI 寫到，系統是在標準比賽規則下對戰的，在 1v1 中沒有為 AI 做特別的簡化。

系統的操作環境如下：

觀察：使用遊戲的 Bot API 接口，功能集與視角和人類玩家的一樣，會受英雄，小兵，信使和附近地形的影響。整個遊戲對 AI 系統來說是部分可觀察的。
操作：也是調用 Bot API，操作頻率被限定在與人類水平相當，這包括移動到某個位置，攻擊或使用某個物品的頻率。
反饋：系統在贏得比賽後會得到獎勵，其它一些基本指標，如英雄的生命狀態和最後一擊等，也會影響獎勵。

系統還可以選擇使用的幾十個裝備道具，選擇後會有評估。OpenAI 還用了傳統的強化技術單獨訓練開局前的擋兵，這基本是 1v1 的標準操作。

OpenAI 稱，他們使用的方法結合了少量的「教練」式訓練與自我對戰，每天都能有很大的提升。比如在 TI 比賽的那段時間，週一晚上的時候 Pajkatt 還打贏了系統，當時他使用了一個不尋常的裝備，即在早期購買了魔棒。後來 OpenAI 將這種操作加到了培訓當中。

星期三下午 OpenAI 再次測試了最新的系統。比賽中 AI 在第一波攻擊中就掉了一大半血，正當研究人員覺得要把系統回復了原先版本的時候，他們注意到了驚人的發展，原來第一波攻擊是在誘使對方採用更激進的攻擊方式。系統進一步的自我對局逐漸解決了這個問題，並學會了抵制引誘策略。

在與 Arteezy 的比賽之後，OpenAI 更新了擋兵模型，讓系統的 TrueSkill 分增加了一點。然後在與 Sumail 比賽之前又進行了進一步訓練，把 TrueSkill 分增加了兩點。Sumail 比完後說，AI 甚至學會了在敵方的視線之外壓影炮，這樣可以打斷敵人在視野之外的回覆。

Arteezy 還與 OpenAI 的 7.5k 評級半專業測試員打了一場比賽。Arteezy 贏了比賽，但測試人員用了從 AI 系統那學的一招，著實讓人吃驚。Arteezy 後來說，這是他以前與 Paparazi 比賽時對方用過的招數，很少有人會用。

這種情況在圍棋中也曾出現過，當 AlphaGo 戰勝李世石後，再到它與柯潔的比賽，人類棋手也越來越多地開始學習它的佈局與下法。

Sumail 在對戰後說，AI 系統是「不可戰勝的」，但它仍然會在與之前遇到過的狀況非常不同的情況下不知混所措。在 TI 的比賽那段時間，OpenAI 還設了一次局域網比賽讓很多人參加進來，以各種方式與 AI 系統對戰，總共收集了 1000 多次比賽數據。最終還是發現了不少系統的破綻，可以戰勝它，主要有三類：

引兵：當小兵進攻的時候，可以不斷攻擊它們吸引火力，讓他們跟著你跑，這樣可以導致 AI 一方的防衛塔被小兵消耗而亡。
淬毒之珠+風靈之紋：買這兩個裝備可以在 1 級的時候帶來很大的移動速度優勢，這樣可以快速拿 AI 的一血（首次擊殺）。有了這樣好的開始戰勝電腦就很容易了。
1 級影壓：用這一條戰勝電腦需要不少技巧，不過根據 OpenAI 的說法，有幾個 6-7k 水平的玩家能夠在較短時間內壓 3-5 記影炮，在 1 級的時候就殺死 AI 系統。

以上都是在 1v1 比賽中的小 bug，很容易修復錯誤。但是對於 5v5 比賽來說，這樣的問題根本就不是漏洞了，這時候需要的是一個可以處理突發且怪異情況的系統。

最後，OpenAI 表示還沒有準備好對外公佈開發的 AI 代理的具體構造，團隊的重點是首先解決 5v5 比賽。如果說 1v1 比賽很複雜，那 5v5 比賽就是複雜的集合，而解決這一問題會進一步推動 AI 的進步。

OpenAI 認為，一個比較好的著手方式是行為複製。Dota 每天有大約一百萬場公開賽，這些比賽的重播數據會被存儲在 Valve 的服務器上兩週。雷鋒網了解到，自去年 11 月以來，OpenAI 一直在下載每位專家級別玩家的重播數據，已經收集了 580 萬局遊戲的數據（每局都是 10 人參與的 45 分鐘遊戲）。

OpenAI 的 Dota 2 系統表明，如果有充分的計算，自我對局可以將機器學習系統的性能從遠低於人類的水平提高到超越人類。在一個月的時間裡，它們的系統就從比不上高水平玩家，發展到了擊敗頂級職業選手，而且還在繼續提升。有監督深度學習系統只能與培訓數據集一樣好，但在自我對局系統中，隨著代理越來越好，可用數據會自動提升。

——

（本文經雷鋒網授權轉載，並同意 TechOrange 編寫導讀與修訂標題，原文標題為〈OpanAI 公佈 Dota AI 比賽細節，自我對局讓它超越人類〉。）

延伸閱讀

要追，就追最好的！全球 AI 社群最具影響力的意見領袖、品牌、知識社群總整理
 人類玩家血流成河！最反 AI 的馬斯克，開發稱霸《Dota 2》的無敵 AI
【馬斯克說對了！】Open AI 最新研究：AI 真的會失控，太執著得分，不停相撞引起火

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

OpanAI 公佈 Dota AI 比賽細節，打贏人類就靠「自我訓練」與「模仿高端玩家」

延伸閱讀

TO 會員電子報

【科技早餐】長鑫存儲拿下 Tencent，歐日 AI 主權與企業成本戰同步升溫

【科技早餐】AI 算力不夠了，Google 卡 Meta、南韓 800 兆韓元擴產記憶體

【科技早餐】OpenAI 新模型先過政府關，蘋果漲價與美歐晶片聯盟同步升溫

【科技早餐】NVIDIA 押 AI 工廠，OpenAI、高通、日本同步重押 AI 基建戰