Stories Behind Science丨“弈”智游戏——从“深蓝”到AlphaGo

Stories Behind Science丨“弈”智游戏——从“深蓝”到AlphaGo
2022年03月16日 19:53 麻省理工科技评论
语音播报 缩小字体 放大字体 微博 微信 0

关于 Stories Behind Science

科学之所以迷人,是因为背后有无数精彩的故事

Stories Behind Science 旨在挖掘科学背后的人与事

向读者展现科学更加感性与动人的一面

(图片来源:互联网)

在过去几十年里,棋坛曾上演过数次激动人心的“人机大战”。而每一次大战的结局,都带给人类巨大的冲击与思考。

2016年的今天(3月15日),“人机大战”的一次巅峰对决尘埃落定——围棋大师李世石以总比分1比4败给了人工智能AlphaGo。

尽管这场举世瞩目的“大战”已过去6年,但AI对于整个围棋行业以及职业棋手们的影响,一直延续至今。

2022年中日韩三国围棋擂台赛赛后,输给韩国棋手申真谞的柯洁,在社交媒体上留下了这样的字句(图片来源:互联网)

人类与计算机在棋盘上的“羁绊”究竟是从何时开始的呢?故事要从100多年前说起……

1898年,美国行为主义心理学家爱德华·桑代克(Edward Thorndike)正在进行一项有趣的实验——“迷箱实验”。

爱德华·桑代克(图片来源:互联网)

他将猫关进一个名为“迷箱”的实验装置中。箱子设有机关,只有通过触碰一个杠杆,猫才能从内部打开箱子,吃到外面的鱼。每当猫成功逃离迷箱后,又会被再一次放回箱内。在多次尝试之后,猫就“学会”了通过按压杠杆来获得最有益的结果。它们会接受这种行为,并在之后的实验中更迅速地按下杠杆。

桑代克的迷箱(图片来源:互联网)

正是这样一个实验,帮助桑代克验证了生物学习过程中的“规律性”——学习是一个渐进的过程,而非顿悟。桑代克将这种行为命名为“效果律”(Law of Effect),即能够带来好结果的行为会得到重复,而不好的行为可能会被停止。而这一规律与后来强化学习的方法论如出一辙。

然而,这种学习机制在机器上的模拟,却晚了近半个世纪。

1943年,美国学者沃伦·麦卡洛克(Warren S.McCulloch)沃尔特·皮茨(Walter Pitts)在《数学生物物理学公告》上发表论文《神经活动内在思想的逻辑演算》(A Logical Calculus of the Ideas Immanent in Nervous Activity),讨论简化人工神经元网络及其实现逻辑功能的机制。这篇文章不仅推动了人工网络的研究,还给当年一位名叫马文·明斯基(Marvin Minsky)的哈佛大学学生带来很大的启发。

马文·明斯基(图片来源:互联网)

1950年前后,马文·明斯基决定和他的同学迪恩·埃德蒙兹(Dean Edmonds)合作进行人工神经网络的研发。他们打造了一台名为SNARC(Stochastic Neural Analog Reinforcement Calculator)的模拟人脑的机器。

明斯基埃德蒙兹用SNARC进行了“老鼠走迷宫”实验。在多次随机尝试后,这些老鼠可能会在偶然情况下走出迷宫。这个成功的反馈,会“促使”老鼠们对行为产生的结果进行“思考”,继而在后续的逃离迷宫尝试中更倾向于选择会带来这些良性结果的尝试。

1956年夏季,明斯基和一批有远见卓识的年轻科学家聚在一起,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语。这也标志着“人工智能”这门新兴学科正式诞生。

后来,马文·明斯基被奉为“人工智能之父”。

1963年,人类与计算机展开了历史上的首次“对弈”。国际象棋大师兼教练大卫·布龙斯坦怀疑计算机的创造性能力,决定用自己的智慧与计算机一较高下,并且,他还同意“让一个子”的不利条件。但当对局进行到一半时,计算机就把布龙斯坦的一半兵力都吃掉了......

时间转眼来到1996年2月10日,“人机大战”真正意义上的巅峰对决终于打响。由IBM公司研发的超级电脑——“深蓝”(Deep Blue),向当时的国际象棋世界冠军加里·卡斯帕罗夫(Garry Kasparov)发起了首次挑战。

IBM的超级电脑"深蓝"(图片来源:互联网)

卡斯帕罗夫在国际象棋界可谓是叱咤风云的人物。他6岁开始下棋,13岁获得全苏青年赛冠军,15岁成为国际大师,16岁获世界青年赛第一名,17岁晋升国际特级大师,22岁时成为世界上最年轻的国际象棋冠军。

加里·卡斯帕罗夫(图片来源:互联网)

卡斯帕罗夫棋风活泼,思维非理性,有异常敏锐的感知判断力,能通过一些战术性的接触出人意料地改变棋局的自然进程。甚至经常采取大胆弃子、疾进反击的策略去赢得比赛。

果不其然,面对世界顶级大师,“深蓝”作为国际象棋界的“新晋选手”以2-4败下阵来。比赛结束后,研究小组决定把深蓝加以改良。

加里·卡斯帕罗夫VS深蓝(图片来源:互联网)

1997年5月3日至11日,卡斯帕罗夫再次与“深蓝”展开对垒,而“人机大战”也终于迎来了历史性的时刻。在经过六盘大战后,“深蓝”以3.5∶2.5(2胜1负3平)的比分险胜卡斯帕罗夫,震惊了世界。

输掉比赛后的卡斯帕罗夫只能调侃地说道:“它(深蓝)不会因为胜利而感到喜悦。”

此后,计算机又向延续了上千年的中国象棋发起了“进攻”。2006年,“浪潮杯”首届中国象棋人机大战拉开帷幕。在这次比赛中,超级计算机“浪潮天梭”迎战了5位中国象棋特级大师。经过三个小时历时十局的激战,“浪潮天梭”取得了3胜5平2负的战绩,最终战胜了大师联盟。

整场比赛可谓是“艰苦卓绝”,几位大师更是坦言:“浪潮天梭”耐力惊人、不知疲倦,并且稳定性极强。以往和人比赛,到了最后时刻就是意志和心态的对决,看谁能坚持到最后,谁能不犯错误,但是计算机则没有这样的问题。

当国际象棋冠军卡斯帕罗夫输给“深蓝”时,一位远在英国的计算机青年菁英——戴密斯·哈萨比斯(Demis Hassabis)大受触动。他感受到了人工智能蕴含的无穷魅力,立志要为围棋编写一个智能程序来打败人类顶级的围棋高手。

戴密斯·哈萨比斯(图片来源:互联网)

哈萨比斯从小便被称为“天才少年”。他4岁开始下国际象棋,8岁开始自学编程,13岁时获得国际象棋大师称号。16岁那年,他进入剑桥大学攻读计算机科学专业。在大学里,他第一次接触围棋就被这个人类开发的最复杂的游戏之深深地吸引了,于是他决定开始学习围棋。

哈萨比斯在计算机领域可谓天赋异禀。17岁时,他便设计出游戏《主题公园》,是当时最早包含人工智能元素的游戏之一。1998年,22岁的哈萨比斯就成立了自己的电脑游戏公司“仙丹工作室”。

2010年,哈萨比斯和他的伙伴们创建了DeepMind Technologies,并以“解决智能”为公司的终极目标。但在哈萨比斯创立DeepMind之初,人们对于人工智能领域的兴趣还远远不及今天。为了加速该领域的发展,DeepMind采用了跨学科的方式,汇集了机器学习、神经科学、工程、数学、模拟等方面的各种新想法。

DeepMind(图片来源:百度百科)

DeepMind最先是在计算机游戏中取得了早期的成功。他们开发的一个智能程序能够从零开始,只是通过看到屏幕上的像素和分数,就学会了玩49种不同的游戏。

2014年,DeepMind被谷歌高价收购。在那年的温哥华TED大会上,谷歌CEO拉里·佩奇(Larry Page)专门谈到了哈萨比斯,还将他公司的技术称作“我很久以来见过的最惊人的技术之一”。

而之后,那个连续创造“围棋神话”的人工智能——AlphaGo,就是由DeepMind研发的。

尽管此前,国际象棋的计算机程序已经可以逼平和战胜人类冠军,但是在围棋领域,当时的程序水平却尚不及业余围棋手的水平。因为对于计算机来说,围棋的难度远远超过了国际象棋。

围棋起源于3000多年前的中国,棋盘虽然算不上太大,但围棋的棋路是变化莫测的。围棋甚至被誉为“人类最复杂的智力游戏”之一。

国际象棋棋盘VS围棋棋盘

众所周知,国际象棋的棋盘为8行8列共64格,而正式比赛中的围棋棋盘,各有19路,共计361个可供落子的交叉点。也就是说,从状态空间的复杂度(state-space complexity)来看,国际象棋约为10的47次方,而围棋则高达10的170次方。

复杂度的天壤之别,意味着“深蓝”的制胜套路无法复制到围棋赛场上。当年就有人质疑过“深蓝”的实力,称其所谓的“智能”不过是依靠每秒可以计算2亿步的“蛮力”而已。如果人工智能想在围棋上继续使用这种暴力列举的方式,那么围棋需要计算的变化数量将远远超过已经观测到的宇宙中原子的数量。这是一个巨大、惊人、且令几乎所有计算机望而却步的数字。

另一方面,当时像卡斯帕罗夫这样的国际象棋大师可以预测当前走棋对未来10步局面的影响,而“深蓝”则可以预测12步。但由于围棋没有能够明确计算当前棋局状况的机制,因此也难以测算某些走棋的优劣。

其实,要让人工智能学会下围棋,简单来说需要解决3个问题:

① 下棋规则

② 如何评价棋步的优劣

③ 如何改善棋路

很显然,最主要的挑战是在后面两个问题上。

对于普通人来说,通过增加对弈次数、学习大师的棋路,在一定程度上,棋艺就能实现提升。但对于专业选手甚至是大师而言,下围棋除了要掌握一般的棋路之外,更离不开天赋般的“灵感”。因此,AlphaGo也需要具备获得“灵感”的能力,毕竟“暴力枚举”在围棋这种比赛中几乎是无法实现的。

为了让AlphaGo能够“参悟”下棋的感觉,DeepMind对其赋予了两大核心的人工智能技术——蒙特卡洛树搜索(Monte Carlo Tree Search)以及深度强化学习

DeepMind于2016年1月28日在《Nature》杂志上发表了第一篇关于AlphaGo的论文,并登上封面(图片来源:互联网)

DeepMind将蒙特卡洛树搜索与两个深度神经网络——价值网络(value network)策略网络(policy network)相结合,并通过人类职业棋手的比赛数据对网络进行监督学习(supervised learning)训练。通俗地说,就是先让AlphaGo学会评价棋路的优劣,然后再通过不断与自己对弈的方式进行强化学习,来提升棋艺。

AlphaGo在有监督的情况下,学习了数百万盘职业棋手的对弈过程,并建立起对棋局走势及棋步价值的评估体系。当棋艺提升后,DeepMind又让它和早期版本的自己对弈,从而在不借助外力的情况下完成几百万甚至几千万次的模拟。在这种训练方式下,AlphaGo的围棋实力“突飞猛进”。

2015年10月,AlphaGo以5∶0的战绩横扫了欧洲围棋冠军樊麾,开启了人工智能在围棋领域的“巅峰”。这是人工智能第一次,在不让子的情况下,在完整的围棋竞技中击败职业选手。

2016年3月9日到15日,AlphaGo挑战世界围棋冠军李世石的五番棋(五局三胜制)大战在韩国首尔举行,这场比赛也堪称人类与计算机的“世纪对决”。尽管赛前,大多数人都非常看好李世石,认为他会以5 : 0的绝对优势完胜机器人,但最终结果,却让全世界的围棋爱好者为之震惊——AlphaGo以4比1的总比分获得了最终的胜利。

据说,当时全球有超过 2 亿人观看了这次比赛。而人工智能,也被推向了前所未有的热议高峰。

AlphaGo VS 李世石(图片来源:互联网)

‎“我以为AlphaGo是基于概率计算的,它只是一台机器。但当我看到这一举动时,我改变了主意。当然,AlphaGo是有创造力的。‎”

——‎李世石‎

2016年12月29日至2017年1月4日,改进版的AlphaGo在某棋类网站上以“大师”(Master)为名注册账号,并与中日韩数十位围棋高手进行快棋对决,取得了60胜0负的全胜战绩。

‎随着时间的推移,AlphaGo不断进步,变得越来越强大,在学习和决策方面也做的越来越出色。

四个月后,在中国乌镇举行的围棋峰会上,AlphaGo以3比0的总比分战胜了世界头号选手——围棋冠军柯洁。AlphaGo再次以“完胜”的战绩,向世人展示着人工智能的强大。

然而此役过后,DeepMind团队宣布AlphaGo将不再参加围棋比赛。

AlphaGo VS 柯洁(图片来源:互联网)

AlphaGo之所以能够一路“过关斩将”,靠的正是经验的积累,同时借助蒙特卡洛树搜索去动态寻找最优方法,如此才缔造了最终的“压倒性”胜利。‎AlphaGo是第一个击败职业人类围棋选手的计算机程序,也是第一个击败围棋世界冠军的计算机程序,可以说是历史上最强的“围棋选手”。而‎这一壮举,甚至被盛赞为“领先时代十年”。

2017年10月18日,DeepMind团队公布了最强版围棋机器人——AlphaGo Zero。俗话说:生最大的成功,莫过于战胜自AlphaGo Zero在仅仅经过3天的自我训练的情况下,就强势打败了此前战胜李世石的旧版AlphaGo,并且战绩是恐怖的100:0。而经过40天自我训练之后的AlphaGo Zero,又战胜了之前横扫网络的AlphaGo Master版本。

从“无知”到“”,AlphaGo在围棋史上写下了一段“神奇的篇章”。

人类之所以对人工智能如此着迷,是因为它能创造这个现代世界里的无限可能。就像哈勃望远镜帮助我们更深入地观察太空一样,人工智能正在不断帮助人类扩展认知并产生积极的影响。‎‎人工智能使人类能够学习,想象,合作,创造,沟通...... ‎‎人类也正利用这些来寻找解决难题的新方法。

如今,人工智能的应用已覆盖生产生活、经济运作、社会管理和军事作战等方方面面,为消费、金融、农业和制造业等诸多行业赋予了更大的能量与价值。

回顾过去的人机大战历史,我们看见的不仅是人工智能技术一次次飞跃式的突破,更是人类探索人工智能领域建立的一座座里程碑。从“深蓝”到“浪潮天梭”,再到AlphaGo,人工智能的胜利是人类在科技领域的胜利,这种科技的胜利未来将可能彻底颠覆我们的生活,为人类的前行带来巨大的推动力。

《AI·未来》

李开复  ©著

迎来“深度学习”这项重大技术突破后,人工智能已经从发明的年代步入了实干的年代。现在已是未来,我们所处的时代,已经与过去完全不同。面对已经来临的、机遇与挑战并存的人工智能时代,我们必须要了解人工智能,跟上人工智能发展的脚步,这样才能不被时代淘汰。

在本书中,李开复博士凭借对全球科技业与人工智能行业的深入了解,为读者描绘了人工智能新世界的样貌、未来人工智能对社会的冲击以及在人工智能时代我们的应对策略。

《科技之巅》系列丛书 

《麻省理工科技评论》  ©著

《麻省理工科技评论》从 2001 年开始,每年都会公布“10大突破性技术”,即TR10(10 Breakthrough Technologies),并预测其大规模商业化的潜力以及对人类生活和社会的重大影响。

每年的TR10代表了当时世界科技的发展前沿和未来发展方向,反映了世界科技发展的新特点和新趋势。其中许多技术已经走向市场,主导着产业技术的发展,极大地推动了经济社会发展和科技创新。

转眼间,《麻省理工科技评论》“10大突破性技术”已历经二十载。而今年,由DeepTech出品的《科技之巅》20周年纪念版也将与广大的科技从业者和爱好者见面!

《科技之巅:全球突破性技术创新与人类未来

(20周年纪念版)

《科技之巅(20周年纪念版)》梳理了由《麻省理工科技评论》发布的200项“全球十大突破性技术”,并邀请全球科技领域专家、投资人,对过往二十年的前沿科技进行深度解读和权威点评,从而为读者绘制出全球科技发展的未来蓝图。书中还提供丰富详实、具有代表性的经典产业案例,以期开拓读者视野,更为创业者、投资方预判新技术、新产业的未来趋势提供重要参考。

  即将推出,敬请期待!

  • 西交大团队实现自组装六方氮化硼纳米片制备大面积薄膜,兼具高探测率与低暗电流,可用于空间微光探测

  • 人大团队解决复杂时空场景的物体分割难题,能用于自动驾驶和影像分析

  • Climax Foods公司用AI设计植物基奶酪,年底有望正式出售布里干酪和羊乳酪

财经自媒体联盟 更多自媒体作者

今日推荐 优秀作者 看点月榜
新浪首页 语音播报 相关新闻 返回顶部