1997 年," 深藍 " 在國際象棋上擊敗人類冠軍卡斯帕羅夫的時候,人們說來一盤圍棋啊,結果有了 AlphaGo 橫掃人類頂尖高手李世石、柯潔。這時候,有人說來一盤 " 星際 " 啊 ……
結果,還不到三年,《星際爭霸 2》又被 AI 拿下,而且人類輸得幾乎體無完膚!
北京時間 1 月 25 日凌晨,Google DeepMind 的最新 AI 人工智能程序 "AlphaStar" 以兩個 5:0 連續血洗《星際爭霸 2》職業選手 TLO、MaNa,只是在隨后的一場表現賽中輸給了 MaNa。
其中,TLO 是 Liquid 戰隊的蟲族選手,目前世界排名第 68,MaNa 則是 2018 年 WSC 大賽的奧斯汀站亞軍,神族選手,世界排名第 19。
這次是 AlphaStar 首次公開亮相,比賽用的游戲版本是 4.6.2,只進行神族內戰,固定在 Catalyst LE 地圖。
尤其令人稱奇的是,AlphaStar 與兩位人類對手的比賽相隔只有兩周,就迅速自學成才,對戰 TLO 時雖然完勝但表現還相當菜鳥,而對戰 MaNa 的時候已經有了幾乎的完美,非人類的操作讓人猝不及防。
DeepMind 科學家 Oriol Vinyals、David Silver 介紹說,AlphaStar 的訓練首先是模仿學習,訓練大量的比賽回放資料,讓 AI 通過觀察一個人所處的環境,盡可能地模仿某個特定的動作,從而理解游戲基本知識。
然后使用 "Alpha League" 循環比賽方法,先對比從人類數據中訓練出來的神經網絡,然后逐次迭代,產生新的 Agent 和分支,使其發展壯大。
接下來,這些 Agent 通過強化學習過程與 Alpha League 中的其他競爭對手進行比賽,盡可能有效地擊敗所有這些不同的策略,并調整個人學習目標,鼓勵競爭對手朝特定方式演進,比如說獲得特定獎勵。
最后在 Alpha League 中選擇最不容易被利用的 Agent,稱之為 "The nash of League",去挑戰人類。
至于為何選擇《星際爭霸 2》,主要是因為這款游戲具備策略性、競爭性的特性,需要即時做出大量決策,是非常有趣和復雜的游戲,在全球都很火爆,每年都有大量的比賽,有著海量的玩家基礎。
【來源:驅動之家】