1997 年," 深藍 " 在國際象棋上擊敗人類冠軍卡斯帕羅夫的時候,人們說來一盤圍棋啊,結(jié)果有了 AlphaGo 橫掃人類頂尖高手李世石、柯潔。這時候,有人說來一盤 " 星際 " 啊 ……
結(jié)果,還不到三年,《星際爭霸 2》又被 AI 拿下,而且人類輸?shù)脦缀躞w無完膚!
北京時間 1 月 25 日凌晨,Google DeepMind 的最新 AI 人工智能程序 "AlphaStar" 以兩個 5:0 連續(xù)血洗《星際爭霸 2》職業(yè)選手 TLO、MaNa,只是在隨后的一場表現(xiàn)賽中輸給了 MaNa。
其中,TLO 是 Liquid 戰(zhàn)隊的蟲族選手,目前世界排名第 68,MaNa 則是 2018 年 WSC 大賽的奧斯汀站亞軍,神族選手,世界排名第 19。
這次是 AlphaStar 首次公開亮相,比賽用的游戲版本是 4.6.2,只進行神族內(nèi)戰(zhàn),固定在 Catalyst LE 地圖。
尤其令人稱奇的是,AlphaStar 與兩位人類對手的比賽相隔只有兩周,就迅速自學成才,對戰(zhàn) TLO 時雖然完勝但表現(xiàn)還相當菜鳥,而對戰(zhàn) MaNa 的時候已經(jīng)有了幾乎的完美,非人類的操作讓人猝不及防。
DeepMind 科學家 Oriol Vinyals、David Silver 介紹說,AlphaStar 的訓練首先是模仿學習,訓練大量的比賽回放資料,讓 AI 通過觀察一個人所處的環(huán)境,盡可能地模仿某個特定的動作,從而理解游戲基本知識。
然后使用 "Alpha League" 循環(huán)比賽方法,先對比從人類數(shù)據(jù)中訓練出來的神經(jīng)網(wǎng)絡,然后逐次迭代,產(chǎn)生新的 Agent 和分支,使其發(fā)展壯大。
接下來,這些 Agent 通過強化學習過程與 Alpha League 中的其他競爭對手進行比賽,盡可能有效地擊敗所有這些不同的策略,并調(diào)整個人學習目標,鼓勵競爭對手朝特定方式演進,比如說獲得特定獎勵。
最后在 Alpha League 中選擇最不容易被利用的 Agent,稱之為 "The nash of League",去挑戰(zhàn)人類。
至于為何選擇《星際爭霸 2》,主要是因為這款游戲具備策略性、競爭性的特性,需要即時做出大量決策,是非常有趣和復雜的游戲,在全球都很火爆,每年都有大量的比賽,有著海量的玩家基礎(chǔ)。
【來源:驅(qū)動之家】