AlphaGo后Libratus又来了人工智能攻陷德州扑克_国内国际_新闻首页

长期以来，扑克不同于围棋等“完美信息”博弈，它的不确定性和不透明性，人类可以“诈唬”、可以虚张声势，这被认为是人类博弈心理、智商和情商的优越性的体现。但是这一次，人类输得体无完肤。

人工智能（AI）无疑是2017开年以来最大的话题。阿法狗（AlphaGo）化身Master在新年伊始横扫围棋圈带给人类的震撼余波仍在，转眼间，又一个重要阵地沦陷了。

不久前在美国宾夕法尼亚州匹兹堡的河流赌场，一个名为Libratus的人工智能程序在共计12万手的一对一无限注德州扑克比赛中轮流击败了四名顶尖人类高手，斩获20万美元奖金和约177万美元的筹码。

这场失利被业界认为比阿法狗横扫棋坛更让人沮丧。

人类的崩溃？

比赛一共持续了20天，每天早上11点前，四位顶尖牌手开始坐在电脑屏幕前轮流与由Libratus控制的电脑系统展开“决斗”，每天至少要打出1500手牌，直到晚上10点以后才结束，整场比赛后，他们一共打出了12万手牌。期间，全世界最强的扑克玩家之一的东金开始觉得Libratus好像能看到他的牌。不过他说：“我不是指它作弊，而是说它有那么强。”

实际上，整个比赛过程中，人类选手整体上从未领先过。进入比赛最后一天时，Libratus赢得156万美元筹码。人类选手要挽回劣势，只有不到5000手的机会。另一名世界顶级选手杰森·莱斯说，最后的感觉就是，自己所能做的就是输，“这太打击士气了。我们用了所有能想到的办法，它实在是太强大了。它每天的出现都让我们士气低落，最后输得这么惨……”

这个机器“赌神”是如何做到的？背后操作者是谁？他们赢下人类的奥秘又是什么？上月初，成都商报全球独家专访了研发了阿法狗的谷歌DEEPMIND团队，也许正是这个渊源，Libratus的研发人昨日同意了记者的专访要求，并首次对外曝光了自己的真实身份信息——他就是美国卡耐基梅隆大学博士诺阿·布朗。正是布朗与导师图奥马斯·桑德霍姆教授合力，推翻了人类防守智能机器在体育游戏领域的“最后一道防线”。

与谷歌花费4亿英镑收购的阿法狗DEEPMIND团队不同的是，布朗几乎是单枪匹马拿下了德州扑克。这名年仅29岁的计算机科学专业博士向成都商报记者表示，自己现在的目标仅仅是留校继续从事科研。

平时只打五美元的小牌

从不通过自己的经验教它怎么玩牌

成都商报：现在很多报道称德州扑克比围棋更难攻克，因此你们的这次胜利意义非凡。你同意这种说法吗？

布朗：围棋和德扑性质上是完全不同的。此前20年间被人工智能攻克的西洋双陆棋、国际象棋和围棋都是“完美信息”游戏，所有玩家在游戏中能获得的确定性信息是公开和对称的。人工智能掌握这些游戏的难度，主要取决于游戏中需要做出的决策点的数量，这决定了计算机需要的计算量。人工智能在每一个决策点都能独立地计算出一个最优解。

然而扑克是一种包含很多隐藏信息的“不完美信息”游戏。玩家只掌握不对称的信息，他只看得到自己手里的牌，却不知道对手手中是什么牌，不知道五张公共牌会开出怎样的结果，也不知道对手猜测自己握有怎样的手牌。因而，虽然一局德扑中的决策点数量要少于一盘围棋，但是这些决策点并不独立，在每一个决策点上，玩家都需要再从全盘进行推理，这在计算量上是难以想象的。

因此，以前的人工智能在“完美信息”游戏中能够充分运用，而对于“不完美信息”游戏却很难突破。而且，扑克游戏在全球范围内更加流行，因此对于人工智能来说确实更难以攻克。

一年科技跨越鸿沟

去年，同样是卡耐基梅隆大学开发的人工智能Claudico与四名排在世界前十的顶尖扑克选手单挑。当时人类几乎赢下了每个比赛日，最终以73万美元的筹码差取得完胜。而在这次的德扑领域的人机大战中，人类可谓惨败，共计20个比赛日中，人类团队只在其中四天赢得了筹码。曾帮助Google设立人工智能实验室、现为百度首席科学家的吴恩达说：“扑克曾是人工智能最难攻克的游戏之一，因为你只能看到部分资讯，扑克并没有单一最优打法。相反，人工智能玩家必须让自己的移动随机化，这样它唬骗时对方才无法确定真假。”

成都商报：布朗先生，你自己平时打德州扑克吗？

布朗：我本身只是一个德州扑克的爱好者，并不十分精通，平时只与朋友打打五美元一盘的小牌。我不喜欢赌博，但是我十分推崇德州扑克中的战术以及无限制的复杂性。我从未通过自己或其他人类的经验教Libratus怎么玩牌，而仅仅给了它德扑的玩法规则，让它通过“左右互搏”来自己摸索这个游戏该怎么去玩、如何能更大概率地获胜。由于不受人类固有经验的约束，Libratus试误的过程十分大胆而随意，下注的范围天马行空，远远超过一个普通玩家会尝试的尺度。

诈唬

正因为布朗并未传授人类的经验给Libratus，它玩德扑的风格才如此迥异于人类，让人捉摸不透，而这对获胜十分关键：在玩德扑的过程中，下注要具备足够的随机性，这样才会让对手摸不清底细，同时也是成功诈唬住对手的关键。与Libratus交手的四位人类职业玩家证实了Libratus下注十分大胆，不拘一格：它动不动就押下全部筹码，多次诈唬住人类对手。

Libratus意思是制衡

每晚我都要清除弱点

不给人类可乘之机

成都商报：能简单说说，你们突破“不完美信息”游戏的奥秘吗？

布朗：以往人工智能处理“不完美信息”游戏会采用一种缩略的方法，即将一盘大型游戏简化为一盘近似的小游戏，在缩略的游戏中进行计算，并将结果输出到真实游戏中。但在这个过程中，信息会不可避免地流失，因而此前人工智能迟迟未能攻克德州扑克。我们这次采用了一种新的残局计算法，通过纳什均衡来计算该如何应对对手那些没出现在决策树上的招数，并以收益反馈对自身的出招进行动态修正，以期达到最大可能的收益，而非简单地将对手的行为进行近似处理。所以我给我的程序取名为Libratus，这个单词在拉丁语中是“平衡”、“制衡”的意思。

原标题：AlphaGo之后Libratus又来了人工智能攻陷德州扑克

网友跟帖仅表达其个人看法，并不表明全搜索同意其观点或证实其描述。

请理性评论、文明发言，勿发布违法和损害公序良俗的信息。我们将不予发表或删除可能引发法律纠纷和损害公序良俗的信息。