您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
雷峰网
  • AI研习社
  • 雷峰网公开课
  • 活动中心
  • GAIR
  • 专题
  • 爱搞机
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给大壮旅
发送

0

DeepMind将博弈论融入多智能体研究,让纳什均衡变得更简单

本文作者: 大壮旅 编辑: 郭奕欣 2018-01-20 06:45
导语:如何将博弈论应用到多个 AI 系统的交互中?

DeepMind将博弈论融入多智能体研究,让纳什均衡变得更简单

雷锋网 AI 科技评论按,随着 AI 系统在现实生活中变得越来越重要,我们自然该探索不同系统间的交互方式了,这些多智能体间到底用了什么独特的方式呢?

在 DeepMind 的 最新论文(发表在 Scientific Reports , Nature 出版社旗下杂志)中,研究人员用了博弈论来阐明这一问题。雷锋网了解到,具体来说,他们研究了两套智能系统在非对称博弈游戏(asymmetric game)中的反应和表现,这些游戏包括 Leduc 扑克和一些图版游戏(如 Scotland Yard)。

在现实生活中,我们会遇到许多类似非对称博弈游戏的场景,自动拍卖(automated auction)就是其中之一。在这一过程中,会混入许多 AI 扮演的买家或卖家,而真正参与其中的人类买家和卖家也都有自己的小算盘。最终的测试结果让研究人员对这种奇怪的情况有了深刻了解,他们还拿出了一个相当简单的分析方法。

虽然 DeepMind 的主要目标是如何将博弈论应用到多个 AI 系统的交互中去,但研究人员得出的结果也可以用在经济、生物进化和实证博弈论等学科中。

众所周知,博弈论是数学界的重量级理论,研究人员通常会用它来研究竞争态势下决策者们的战略,该理论几乎可通用于人类、动物和计算机世界。不过,在 AI 研究中,它一般会被用在“多智能体”环境下的研究中。举例来说,多款家政机器人合作清洁房间就属于其中的应用场景之一。

一般来说,多智能体系统的演化动力学都靠简单的对称博弈论来分析,比如经典的囚徒困境理论。虽然此类游戏能帮我们对多智能体系统的工作方式有一定了解,并告诉我们如何实现你好我好大家好的理想结果(即所谓的纳什均衡),但却无法模拟所有情况。

DeepMind 的新技术让研究人员能快速容易地在更复杂的不对称博弈游戏中找到取得纳什均衡的策略,这类游戏中玩家通常有不同的战略、目标和奖励。如果你想了解 DeepMind 是如何用新技术“破解”这类游戏的,可以试着去了解“性别博弈”,它也是博弈论研究的经典案例之一。

在“性别博弈”中,两个玩家要协调晚上到底去哪玩,是去看歌剧还是看电影?令人遗憾的是,他们中有一个人倾向于看歌剧,另一个人则偏爱电影。这样的情境下,不对称的情况就出现了,因为即使两个人达成一致,其中也有一个人会不高兴。因此,要想继续维持两人的友谊(划掉),或者说均衡,玩家就该共进退(毕竟产生分歧换来的只有零回报)。

DeepMind将博弈论融入多智能体研究,让纳什均衡变得更简单

这个游戏有三种“势均力敌”的均衡情况:

  1. 两个玩家都决定去看歌剧,

  2. 两人都选择去看电影,

  3. 则是混合选项,即每位玩家在夜晚外出的五分之三时间内享用自己的心头好。

第三种选项是一种“不稳定”(unstable)选项,用 DeepMind 的方法很轻松就能进行简化或者分解,非对称博弈游戏也就转换成为对称的对应部分。这一方法将两个玩家的奖励表分别当作独立的双玩家对称博弈,这样也能轻松地找到原本不对称博弈游戏的纳什均衡点。

在下图中,b 和 c 图的纳什均衡点很容易找到,借助它们我们就能在非对称博弈中找到 a 图中的最佳策略。当然,我们也可以反过来,通过非对称博弈来找寻对应体中的平衡点。

DeepMind将博弈论融入多智能体研究,让纳什均衡变得更简单

红点代表纳什均衡。对于非对称博弈游戏(a),可以从(b)与(c)代表的两个对应图中找到纳什均衡。如图所示,x轴和y轴分别代表玩家1和2选择看歌剧的可能性。

这种方法还可运用于其他游戏,比如 Leduc 扑克,在论文中研究人员还对它进行了详细解读。无论哪种情况下,这种方法都足够简单,它能帮玩家快速和直接的分析非对称博弈游戏,进而帮助我们理解不同的动态系统,其中就包括多主题环境下的系统交互。

Via.  DeepMind

论文地址: https://www.nature.com/articles/s41598-018-19194-4, 雷锋网编译

雷峰网版权文章,未经授权禁止转载。详情见 转载须知。

DeepMind将博弈论融入多智能体研究,让纳什均衡变得更简单

6人收藏
分享:
相关文章
  • 微软AI新官上任!DeepMind与Inflection联创Mustafa ...
  • 「AlphaFold 3」要来了?DeepMind推出新一代蛋白质结 ...
  • DeepMind 最新发文:AlphaZero 的黑箱打开了
  • 人类反超 AI:DeepMind 用 AI 打破矩阵乘法计算速度 ...
大壮旅

编辑

发私信
当月热门文章
最新文章
  • 闷声狂奔一年,字节大模型的进阶之路
  • 国产端侧小模型超越 GPT-4V,「多模态」能力飞升
  • 字节跳动发布豆包大模型,主力模型比行业价格低99.3%
  • 免费GPT-4o来袭,音频视觉文本实现「大一统」
  • 在 ICLR 2024,看见中国大模型的力量
  • 牵手五大顶尖高校教授 “云阙智能”打造AIGC智囊团
热门搜索
机器学习 360 大数据 GAIR Dropbox 地平线 陌陌 Adobe 今日头条 电信 BlackBerry
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请 验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以 设置密码以方便用邮箱登录
立即设置 以后再说

聚圣源变身国王2霍尊发手写信回应恋情黑格尔法哲学批判少康战情室我是余欢水百度云1440宝宝起名可爱小名吊顶施工工艺附庸风雅的意思广告公司怎么起名杨姓 孩子起名的篮球俱乐部起名怎样为新生儿起名论文研究思路书法开店起名二手房公司起名大全康熙字典9画的字饭店起名我想突出家的感觉鼠年冯姓宝宝起名小食品批发起名取名起名大全秦禁止外国人入境中粮招聘睿字什么字起名琉璃美人煞在线观看色戒完整版在线观看汕头市委书记荔枝app下载汅api免费网址在线观看免费游戏起什么名字小石城山记淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化