人工智能在多角色游戏中获胜-王飞跃的专栏

人工智能在多角色游戏中获胜

2020-06-10 09:51:07栏目：观点评述 IP属地：北京市

2019年, 在美国宾夕法尼亚匹兹堡的Rivers赌场, 卡耐基梅隆大学开发的人工智能系统Libratus战胜了四位德州扑克的顶级选手, 取得了胜利.

人工智能(AI)在多玩家扑克游戏中战胜顶级人类玩家 (图片来源:Science杂志官网)

此次比赛赛程为20天, 一共进行了12万手牌的比赛, 人工智能程序Libratus对战4名人类职业玩家: Jason Les、Dong Kim、Daniel McAulay 和JimmyChou. 尽管听起来不可思议, 但是Libratus最终“打败”了他们. 参加比赛的人类选手表示, Libratus的胜利“名副其实”, 因为它灵活掌握了各种对战策略, 有时候明明牌很好, 却偏偏下最低的赌注.

相较于人工智能在围棋领域的胜利, 此次人工智能在扑克牌领域的胜利其实是一个更大的进步. 围棋对弈双方的信息是完整、对称的, 但是在扑克牌的对战中, 由于对方的底牌是隐藏信息, 因此对计算机来说, 其实是在处理一种“非完整信息博弈”. 从这个角度来看, Libratus此次战胜顶级人类德州扑克选手, 表明人工智能已经越来越“聪明”了.

从人工智能(AI)创立之初, AI游戏一直是其主要研究内容之一. 2016年AlphaGo战胜人类围棋大师, 是AI历史上的里程碑事件, 有力地推动了AI技术的迅速普及和深入. 2019年美国卡内基梅隆大学团队开发的AI系统Pluribus在六人桌无限制的德州扑克比赛中, 分别以单机对五人和五机对单人的方式, 击败十五名世界顶级专业选手, 突破了过去AI仅能在国际象棋等二人游戏中战胜人类的局限, 成为机器在游戏中战胜人类的又一个里程碑性工作, 被Science评选为当年的十大科学突破之一.

为什么Pluribus被如此关注, 还被视为AI领域的重大突破? 近几年AI研究者在不同的复杂游戏博弈中都取得了重要突破, 比如围棋、二人扑克、星际争霸2和Dota2等等. 然而, 这些游戏绝大多数被限制在二人玩家的零和博弈与完备信息框架之内. 尽管基于强化学习的AI策略在Dota2Five和QuakeIII等多玩家游戏博弈问题上已取得了相当的进展, 但6玩家的德州扑克问题对于AI来说依然是最有挑战性的问题. 主要原因如下:

(1)必须处理不完备信息, 玩家需要在不知道对手策略和资源的情况下决策, 需要在不同子博弈之间寻找平衡;

(2)很难达到纳什均衡, 纳什均衡的复杂度随着玩家数量的增加而指数性增加, 在算力上几乎不可能实现;

(3)需要使用诈唬等心理技巧, 真实比赛中需要有效推理隐含信息、寻找让对手无法预测的策略, 懂得诈唬技巧是成功的关键之一.

在不使用任何先验信息的前提下, Pluribus从头开始学习, 以自玩的模式训练、推理、积累, 进而获取并提高博弈技巧. 在单机同时对抗五位全球顶尖高手的比赛中, 一万手回合中战胜了13位人类专业大师;在五机同时对抗一位人类高手的比赛中, 分别五千手回合中战胜了二位世界冠军, 取得“超人Superman”般的胜利. 这是AI技术的重大突破, 为此卡内基梅隆大学团队付出了十余年的心血和努力, 不但为多玩家场景下的博弈和电竞做出了重大贡献, 更为AI在商务决策、企业管理和军事指控等重要领域的实际应用提供了技术支撑.

与其他的AI博弈技术不同, Pluribus具有诈唬(bluffer)的能力. 专业玩家在比赛后承认, 在抵制机器的行动中遇到麻烦. Pluribus是个“怪兽级”的欺骗者, 而且大多数情况下它的欺骗手段是非常高效的, 这是为何Pluribus难被击败的原因. 尤其特别的是, 尽管在很多情况下玩家明知道它在使用欺骗手段, 在与之对战时还是感受到了巨大压力. 在算法和玩家的共同训练下, Pluribus不但让人类难以琢磨, 而且常常“大胆”地以玩家忌讳的“驴赌DonkBetting”取胜. Pluribus不但没有采用任何人类玩家策略或先验信息, 还会生成很多人类不常采用或者认为是错误的策略, 比如DonkBet, 就是一种被玩家看作是没有战略意义的弱势举动. 顶尖玩家认为, 这将在一定程度上改变人们对传统策略的看法, 影响职业玩家. 现在, 人类必须向机器学习!

这些结果对研究人类社会认知能力和水平具有重要意义. 例如, 研究结果为量化精准地研究个体中瞬态认知的Miller 数和群体中长期认知的Dunbar数提供了新方法, 更为设计并计算人类心理负担和脑力劳动强度等难以共识的指标提供了可能途径. 最重要的是, 这为针对不定、多样、复杂情况下的知识工作自动化提供了技术支持, 具有广泛的应用前景, 对企业管理智能化、财务智能化、法务智能化等至关重要, 必将在智能产业中发挥核心关键作用.

目前, 我国在游戏领域取得的成就主要集中在1v1的视频游戏领域. 例如, 中科院自动化所团队设计开发的CESBot在2018年的第八届AIIDE星际争霸AI挑战赛以87.11％的胜率取得大赛季军. 星际争霸游戏考察的是多智能体协同合作的能力. 腾讯AILab利用深度强化学习在王者荣耀1v1游戏虚拟环境中构建“绝悟”AI, 开发高扩展、低耦合的强化训练系统, 使得AI能够完成进攻、诱导、防御、欺骗和技能连招释放的能力. 不同于星际RTS实时策略研究agent之间的协作策略, “绝悟”AI更关注agent动作的复杂控制, 此类MOBA1v1游戏的复杂性来自其机制及巨大的动作和状态空间. 2016年, 基于游戏的ViZDoom AI竞赛诞生, 作为第一人称FPS类游戏, 该比赛首先搜索输入像素级视觉信息, 直接输出AI控制策略的强化学习算法. 清华大学TSAIL与腾讯AILab合作, 获得2018年比赛的初赛和决赛冠军. FPS类游戏考察的是智能体对于环境感知与定位的能力. 总体而言, 我国目前对于多玩家场景的发展速度还比较慢, 在进一步的研究中.

真实世界中大部分策略交互问题都包含隐藏信息, 一般超过两名参与者. 因此, 对于复杂场景下信息不完备、多玩家参与的博弈问题的研究具有非常现实的重要意义. Pluribus的相关技术可以应用到战争防卫、防止诈骗、信息安全以及包含多智能体或者隐藏信息等交流有限、参与者之间有作弊行为的许多领域. Pluribus相关团队获得美国军方长期的大力支持, 就是一个佐证. 显然, 对AI游戏的研究意义远不止游戏本身, 对于游戏的研究可以打通虚拟世界与现实世界的藩篱, 利用虚拟世界中的计算实验完成现实世界中无法完成的测试. AI游戏可以作为解决现实问题的低成本高性能试验场, 进而构建与真实系统交互的人工甚至数字孪生系统, 最终形成虚实互动的平行智能系统, 无论是在国防军事还是社会经济领域, 都具有十分重大的意义.

作者简介

王飞跃, 中国科学院自动化研究所研究员, 复杂系统管理与控制国家重点实验室主任. 主要研究复杂系统、智能控制、智能机器人、无人驾驶等领域, 先后当选IEEE、INCOSE、IFAC、ASME和AAAS等国际学术组织的Fellow. 主持完成多项国家重大项目, 并应用于城市交通、工业生产、社会与国防安全领域.曾获国家自然科学二等奖、IEEE SMC诺伯特·维纳奖.

后记：本文于2020年发表在《中国科学基金》杂志第34卷第2期

原文链接：https://kns.cnki.net/kns/brief/default_result.aspx

微信图片_20200611141205.png

微信图片_202006111412051.png

微信图片_202006111412052.png

微信图片_202006111412053.png