人机博弈”给教育带来什么启示

2018-12-14

人机博弈就是让计算机像人一样从事需要高度智能的博弈活动。国际象棋、围棋等棋类游戏因为规则明确,对弈双方接收到的信息完全相同,输赢都在盘面,因此也被称为“完全信息类”的AI博弈,最适合计算机程序,所以最早被科学家选为人机博弈的研究对象。


历史上的人机对弈

计算机程序在棋类博弈早期优先选择“暴力”的计算方法,根据数学和逻辑推理的方法,将每一种可以形成的路径都模拟一遍后,从中选择出最优的走法。图灵最早写过跳棋程序,但是由于当时硬件限制,根本无法实现。1956年的跳棋程序已经使用机器学习及强化学习技术实现自学习,可通过对大量棋局的分析逐渐辨识出当前局面下的“好棋”和“坏棋”,从而不断提高弈棋水平,但是直到1994年仍不能战胜人类高手。直到2007年,计算力大大提升,科学家通过依靠强大计算力的穷举法,证明对于跳棋,只要对弈双方不犯错,最终都是和棋。


1997年IBM的深蓝Deep Blue)打败了国际象棋大师加里·卡斯帕罗夫(Garry Kasparov)轰动世界。深蓝的胜利是数据和计算力的胜利,它确切说是一套专用于国际象棋的硬件,大部分逻辑是以“象棋芯片”(Chess Chip)的形式用电路实现的。深蓝吸收了历史上所有棋谱,记住所有国际象棋的路数,它数据库包含4000个棋局的“最优开局库”和70万个大师级比赛的棋谱数据库以及所有已解决残局数据库。深蓝所采用算法的核心是基于暴力穷举:生成所有可能的走法,然后执行尽可能深的搜索(深蓝采用各种剪枝方法能预测14层左右),并不断对局面进行评估,尝试找出最佳走法。所以说,深蓝战胜人类是以穷举大量数据库的方式依靠其强大的计算能力破解大师的棋路取得的。


围棋被认为是人类智力巅峰之作,2017年由谷歌(Google)旗下DeepMind公司开发的阿尔法围棋(AlphaGo)战胜人类世界冠军柯洁,轰动世界的同时让人们深深震撼人工智能的水平和发展速度。与国际象棋8×8的64个小方格组成的约10的70次方下法数量级相比,围棋棋盘19×19的方格361个点组成的多达10360下法比人类所估计的1080个宇宙原子数量还要多,搜索复杂度高达250^150。如此巨大的运算量推演,就连巨型数据处理器都要运算许多年才能计算完成,因此依靠存储海量的信息进行穷举“硬算”的方式取胜行不通了。AlphaGo作为一个能够运行在通用硬件之上的纯软件程序,它抛弃了深蓝仅仅依靠强大计算力穷举蛮算的算法,而是在蒙特卡罗搜索树(MCTS)中嵌入了深度神经网络来减少搜索空间。


机器是如何“学习”和“思考”的

AlphaGo的核心算法基于机器学习。AlphaGo是最新深度学习方法、棋谱大数据以及最新超算体系的总和,从对于围棋规则一无所知到战胜人类冠军,主要训练过程可以总结为:深度卷积网络,模仿高手,寻找好的落点;深度强化学习,形成左右互博,自我进化。深度强化学习另外一个副产品就是产生了海量的对局,用来充实深度卷积网络的训练数据,两招完美结合在一起。


其实深度学习神经网络1998年就提出来了,它能够发挥巨大威力的前提是,要有大量的数据用来训练深度结构,如果数据不够,很容易过拟合、降低性能。AlphaGo使用的深度学习结构基本没变,但是超强的计算能力满足了大规模的训练需要,更强的CPU和以前没有的GPU(训练的时候会用到1202个CPU,176个GPU),以及千万倍的训练图像(存有15万职业棋手、百万业余高手的棋谱)是它取胜的法宝。


理论上只要在计算能力和算法上有新的突破,任何新的棋类游戏都有可能得到攻克。人机博弈的突破能够启发AI在其他方面的研究和应用,并能将创新应用到更多行业和领域,激励更多的人投身于AI的研究和实用化,让人类生活更加便捷、高效和智能化,使整个人类和大自然都能够受益于AI。在对弈过程中,人工智能研究领域的技术、专家人才培养体系也得以更加完善,从而推动人工智能去攻克一个又一个技术和应用的“高地”,从这个意义上讲,人机博弈可以代表人工智能的发展程度。


□文/于晓雅(北京教育学院信科院) 



_163A9.tmp.png

本网站所有内容属现代教育报社所有,未经许可不得转载。
技术支持:北京慈航教育科技有限公司
京ICP备05065273号-1号 京新网备20112111201号 京公网安备110101000594号