“人机世纪大战”第一局落下帷幕,李世石认输,这是让很多人没有想到的。原本被寄以厚望的李世石,到底为什么会输于古力口中“业余六七段”的Alphago?
Alphago深度学习发挥作用
“国际象棋每步大约会出现35种左右的走位可能,而围棋的走位可能则高达250种,每一步250种相乘就意味着整局比赛会出现多到几乎无穷尽的走位方案。”谷歌DeepMind实验室主管德米斯-哈撒比斯(Demis Hassabis)说道。Alphago在击败欧洲围棋冠军樊麾时学习了3000万盘棋,而经过将近半年的学习,这个数量已经增长到1亿以上。
AlphaGo的核心是两种不同的深度神经网络。“策略网络”(policy network)和“值网络”(value network)。它们的任务在于合作“挑选”出那些比较有前途的棋步,抛弃明显的差棋,从而将计算量控制在计算机可以完成的范围里,本质上和人类棋手所做的一样。
其中,“值网络”负责减少搜索的深度——AI会一边推算一边判断局面,局面明显劣势的时候,就直接抛弃某些路线,不用一条道算到黑;而“策略网络”负责减少搜索的宽度——面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。利用蒙特卡洛拟合,将这些信息放入一个概率函数,AI就不用给每一步以同样的重视程度,而可以重点分析那些有戏的棋着。
这意味着Alphago属于典型的力战型棋风,善于敏锐地抓住对手的弱处主动出击,以强大的力量击垮对手。李开复先生说现在的AlphaGo和1997年击败世界象棋冠军的深蓝相比,从围棋到象棋的难度高了很多,是难度非常大的跳升。
近年来深度学习的技术,非常大的数据量和计算量可以扩张地使用,超过了我们的想象。同时我们也对人所谓的智力,当时有一些错误的幻想,实际上深度学习的成长非常快速,它可以非常好地利用更多地机器。所以在任何客观、科学工程评估的领域,包括游戏,其实是金融、搜索、广告等各方面的应用,人类基本上不会再有更多的机会跟机器来竞争了。
小编推荐阅读