全搜索首页 新闻 视频 图片网 更多» 专题 评房网
新闻首页  »  国内国际  »  正文

AlphaGo后Libratus又来了 人工智能攻陷德州扑克

2017-02-08 07:40   来源: 成都商报   编辑: 肖凌霄   责任编辑: 马兰

长期以来,扑克不同于围棋等“完美信息”博弈,它的不确定性和不透明性,人类可以“诈唬”、可以虚张声势,这被认为是人类博弈心理、智商和情商的优越性的体现。但是这一次,人类输得体无完肤。

人工智能(AI)无疑是2017开年以来最大的话题。阿法狗(AlphaGo)化身Master在新年伊始横扫围棋圈带给人类的震撼余波仍在,转眼间,又一个重要阵地沦陷了。

不久前在美国宾夕法尼亚州匹兹堡的河流赌场,一个名为Libratus的人工智能程序在共计12万手的一对一无限注德州扑克比赛中轮流击败了四名顶尖人类高手,斩获20万美元奖金和约177万美元的筹码。

这场失利被业界认为比阿法狗横扫棋坛更让人沮丧。

人类的崩溃?

比赛一共持续了20天,每天早上11点前,四位顶尖牌手开始坐在电脑屏幕前轮流与由Libratus控制的电脑系统展开“决斗”,每天至少要打出1500手牌,直到晚上10点以后才结束,整场比赛后,他们一共打出了12万手牌。期间,全世界最强的扑克玩家之一的东金开始觉得Libratus好像能看到他的牌。不过他说:“我不是指它作弊,而是说它有那么强。”

实际上,整个比赛过程中,人类选手整体上从未领先过。进入比赛最后一天时,Libratus赢得156万美元筹码。人类选手要挽回劣势,只有不到5000手的机会。另一名世界顶级选手杰森·莱斯说,最后的感觉就是,自己所能做的就是输,“这太打击士气了。我们用了所有能想到的办法,它实在是太强大了。它每天的出现都让我们士气低落,最后输得这么惨……”

这个机器“赌神”是如何做到的?背后操作者是谁?他们赢下人类的奥秘又是什么?上月初,成都商报全球独家专访了研发了阿法狗的谷歌DEEPMIND团队,也许正是这个渊源,Libratus的研发人昨日同意了记者的专访要求,并首次对外曝光了自己的真实身份信息——他就是美国卡耐基梅隆大学博士诺阿·布朗。正是布朗与导师图奥马斯·桑德霍姆教授合力,推翻了人类防守智能机器在体育游戏领域的“最后一道防线”。

与谷歌花费4亿英镑收购的阿法狗DEEPMIND团队不同的是,布朗几乎是单枪匹马拿下了德州扑克。这名年仅29岁的计算机科学专业博士向成都商报记者表示,自己现在的目标仅仅是留校继续从事科研。

平时只打五美元的小牌

从不通过自己的经验教它怎么玩牌

成都商报:现在很多报道称德州扑克比围棋更难攻克,因此你们的这次胜利意义非凡。你同意这种说法吗?

布朗:围棋和德扑性质上是完全不同的。此前20年间被人工智能攻克的西洋双陆棋、国际象棋和围棋都是“完美信息”游戏,所有玩家在游戏中能获得的确定性信息是公开和对称的。人工智能掌握这些游戏的难度,主要取决于游戏中需要做出的决策点的数量,这决定了计算机需要的计算量。人工智能在每一个决策点都能独立地计算出一个最优解。

然而扑克是一种包含很多隐藏信息的“不完美信息”游戏。玩家只掌握不对称的信息,他只看得到自己手里的牌,却不知道对手手中是什么牌,不知道五张公共牌会开出怎样的结果,也不知道对手猜测自己握有怎样的手牌。因而,虽然一局德扑中的决策点数量要少于一盘围棋,但是这些决策点并不独立,在每一个决策点上,玩家都需要再从全盘进行推理,这在计算量上是难以想象的。

因此,以前的人工智能在“完美信息”游戏中能够充分运用,而对于“不完美信息”游戏却很难突破。而且,扑克游戏在全球范围内更加流行,因此对于人工智能来说确实更难以攻克。

一年 科技跨越鸿沟

去年,同样是卡耐基梅隆大学开发的人工智能Claudico与四名排在世界前十的顶尖扑克选手单挑。当时人类几乎赢下了每个比赛日,最终以73万美元的筹码差取得完胜。而在这次的德扑领域的人机大战中,人类可谓惨败,共计20个比赛日中,人类团队只在其中四天赢得了筹码。曾帮助Google设立人工智能实验室、现为百度首席科学家的吴恩达说:“扑克曾是人工智能最难攻克的游戏之一,因为你只能看到部分资讯,扑克并没有单一最优打法。相反,人工智能玩家必须让自己的移动随机化,这样它唬骗时对方才无法确定真假。”

成都商报:布朗先生,你自己平时打德州扑克吗?

布朗:我本身只是一个德州扑克的爱好者,并不十分精通,平时只与朋友打打五美元一盘的小牌。我不喜欢赌博,但是我十分推崇德州扑克中的战术以及无限制的复杂性。我从未通过自己或其他人类的经验教Libratus怎么玩牌,而仅仅给了它德扑的玩法规则,让它通过“左右互搏”来自己摸索这个游戏该怎么去玩、如何能更大概率地获胜。由于不受人类固有经验的约束,Libratus试误的过程十分大胆而随意,下注的范围天马行空,远远超过一个普通玩家会尝试的尺度。

诈唬

正因为布朗并未传授人类的经验给Libratus,它玩德扑的风格才如此迥异于人类,让人捉摸不透,而这对获胜十分关键:在玩德扑的过程中,下注要具备足够的随机性,这样才会让对手摸不清底细,同时也是成功诈唬住对手的关键。与Libratus交手的四位人类职业玩家证实了Libratus下注十分大胆,不拘一格:它动不动就押下全部筹码,多次诈唬住人类对手。

Libratus意思是制衡

每晚我都要清除弱点

不给人类可乘之机

成都商报:能简单说说,你们突破“不完美信息”游戏的奥秘吗?

布朗:以往人工智能处理“不完美信息”游戏会采用一种缩略的方法,即将一盘大型游戏简化为一盘近似的小游戏,在缩略的游戏中进行计算,并将结果输出到真实游戏中。但在这个过程中,信息会不可避免地流失,因而此前人工智能迟迟未能攻克德州扑克。我们这次采用了一种新的残局计算法,通过纳什均衡来计算该如何应对对手那些没出现在决策树上的招数,并以收益反馈对自身的出招进行动态修正,以期达到最大可能的收益,而非简单地将对手的行为进行近似处理。所以我给我的程序取名为Libratus,这个单词在拉丁语中是“平衡”、“制衡”的意思。

原标题:AlphaGo之后Libratus又来了 人工智能攻陷德州扑克

上一页 1 2下一页

网友跟帖仅表达其个人看法,并不表明全搜索同意其观点或证实其描述。

请理性评论、文明发言,勿发布违法和损害公序良俗的信息。我们将不予发表或删除可能引发法律纠纷和损害公序良俗的信息。


本日 本周 本月
关注排行

今日推荐