电脑在围棋上无法击败人类的定论终于改写。3月12日,谷歌AlphaGo击败世界围棋顶尖高手、曾经获得18个世界围棋冠军头衔的李世石。
在AlphaGo的第一场胜利之后,职业围棋界不再取笑取胜“欧洲冠军”的电脑棋手,而在李世石0比3输掉了比赛后,职业围棋选手们不得不低头。中国围棋终身棋圣聂卫平就表示,AlphaGo最终说服了我们,它真的会下围棋。
而人们普遍意识到的是,AlphaGo的这场胜利,将会在世界范围内掀起一场人工智能、机器学习所引导的革命,广泛地影响到金融、互联网等行业。
世界知名人工智能、数据挖掘专家,伦敦大学学院(UCL)计算机系教授、互联网科学与大数据分析专业主任汪军认为,之前“深度学习”的应用和突破停留在预测上,比如图像识别、语音识别和机器翻译等,现在AlphaGo有效的展示出 “深度学习”也可以用在控制和决策上去分析处理动态数据和实时接收并处理反馈信息。
汪军的主要研究领域包括信息检索、数据挖掘以及在线广告学,他发表了80篇学术论文。2007年,他获得了由微软 “超越搜索——语义计算和互联网经济学奖”。此外,他还是2014年Yahoo! FREP的获奖者之一,是ACM SIGIR 2005(国际计算机学会信息检索)的领域主席。
汪军也是优路科技的创始人,一家基于人工智能和数据挖掘领域的技术创业公司,主要服务于电商、媒体、金融、互联网娱乐等领域。
汪军认为,人工智能和机器学习未来几年会有更广泛和深入的应用,特别是在实时的控制和决策层面,比如在金融方面可以不光对市场的价格浮动进行预测,更重要的是对投资决策进行动态实时优化和决策。
同样,在在线广告行业,传统的人工智能是对用户行为进行预测,达到广告投放的精确性,现在可以同时考虑到价格因素,计算机可以实时竞价,动态的接受反馈信息并调整策略。另外,对网上的欺诈行为可以进行有效地动态监测和剔除。
AlphaGo的创造者DeepMind的创始人Demis Hassabis在UCL获得博士学位,另外有两位核心人员Thore Graepel和David Silver仍兼任UCL大学的教职。在大赛开始前一周,DeepMind团队的曾Thore Graepel回到UCL大学,针对全球关注的AlphaGo进行学术讨论,展望与李世石的比赛,信心满满。
3月24日,在和李世石的世纪大战结束之后,David Silver还将回到UCL做一次总结报告。汪军也将专门开设深度学习的课程,alphago将是课程的重要例子。
AlphaGo项目的成功彰显了UCL大学在研究和产业转化的超强实力。UCL计算机系在人工智能和机器学习的研究领域在全球处于领先地位。2014年,在英国四年一度的大学研究评比中UCL计算机系排名全英国排名第一。
此次,AlphaGo与李世石的比赛吸引了来自全球科研、职业围棋界、企业乃至大众的广泛关注。全球范围内如此关注一场“人机大战”,最早是1997年IBM研制的“深蓝”与国际象棋大师卡斯帕罗夫之间的比赛,深蓝获得了胜利。2011年,沃森自然处理系统在电视综艺节目中战胜人类冠军。
汪军分析认为,AlphaGo的胜利同深蓝和沃森的例子不同。都是利用树搜索,AlphaGo 采用深度学习的技术,更加趋向于实现 通用人工智能AGI (artificial general intelligence)的理想目标。采用深度学习强调是end to end从原始数据开始直接提供解决方案,尽量减少人工干预。换一个场景重新训练,只要问题相似可以解决另外一个问题。
“AlphaGo一个主要的技术突破是把深度学习和强化学习有效地结合起来解决一些实际的问题。让机器人学习围棋这件事归结于一个搜索的问题,也就是说在有限的时间里怎么样找出最优的落子。”汪军说,“深度学习”目前也是世界范围内最受瞩目的研究领域,该技术主要是用多层嵌套的神经网络技术已达到end to end的解决方案。
AlphaGo的难度在于,围棋有10的170次方种落子选择,超过了整个中宇宙原子的个数。直接遍历所有的可能是不现实的。计算机的任务就是要发现一个比较好的方案能够在有限的时间里面找到落子方案。
10年前技术突破是计算机采用树状的结构把棋手的步数,有效表达出来,再用蒙特卡洛仿真的技术随机的遍历搜索树以达到有效地寻找到优化解决方案的目的。这个方法的好处就是因为不需要任何先验的知识(比如说以前自然人的棋局)和人工干预就可以和人类进行比拼。
但是,这种算法效率对于围棋来说还是非常不够。在小棋盘中可以,但是到真正的19×19的棋盘中就显得捉襟见肘。 AlphaGo正是采用深度学习的方法有效地将先验知识结合到蒙特卡罗仿真树搜索中。
汪军解释,AlphaGo有两个“大脑”。一个是通过深度学习的方法,通过对以前大量自然人与人下围棋的数据进行“监督学习”,预测如果是自然人他应该走哪一步的概率。通过概率预测,可以剔除一些不必要的落子步数。而另外一个大脑采用同样的深度学习网络结构,对第一个大脑进行进一步提高,通过不断地仿真比赛对每一个下棋位置提供一个赢面的价值预测。这样可以减少搜索的深度。当有了这两个大脑以后,蒙特卡罗仿真就能有的放矢,大大的提高了优化的准确率和遍历的效率。
“虽然以前有人尝试用卷积神经网络提高围棋游戏中搜索效率,但只采用了两层的神经网络。 AlphaGo采用达12层的深度学习方法。 深度学习和强化学习的结合是一个技术上的发展,延续的深度学习在自然语言处理和计算机视觉中的应用突破。值得关注的是之前的深度学习的应用停留在预测上,比如说对图像的识别、机器翻译。AlphaGo证明深度学习也可以用在控制和决策上接受实时反馈信息。”
汪军认为,正如此前深蓝和沃森自然处理系统引发全球工业界和学术界对相关技术领域产生了一次热潮,推动的技术的进步和发展,此次,AlphaGo所引发的关注更超过了深蓝和沃森系统,对人工智能、机器学习领域研究和产品开发持续升温,“我们应该会陆续看到更多的技术开发和工业应用会接踵而来”。
原标题:汪军:人工智能将广泛应用于金融和广告行业