3366游戏-小游戏,小游戏大全,双人小游戏

当前位置: 主页 > 游戏新闻 > 正文

棋类大战中惨败的人类,现在想要在电子游戏上

来源:3366游戏-小游戏,小游戏大全,双人小游戏    时间:2018-01-16 10:35

棋类大战中惨败的人类,现在想要在电子游戏上扳回一局 | Arxiv Insights

2018-01-15 11:40 来源:雷锋网 游戏 /人类

原标题:棋类大战中惨败的人类,现在想要在电子游戏上扳回一局 | Arxiv Insights

棋类大战中惨败的人类,现在想要在电子游戏上

雷锋网:喜欢机器学习和人工智能,却发现埋头苦练枯燥乏味还杀时间?油管频道 Arxiv Insights 每周精选,从技术视角出发,带你轻松深度学习。

翻译/ 曹晨

校对/ 凡江

整理/ 廖颖

雷锋网本期Arxiv Insights围绕一篇名为《研究电子游戏中人类的先验信息》(Investigating Human Priors For Playing Video Games)展开。论文提出的核心问题是:为什么人类擅长通关电子游戏?作者发现其中一个关键点是,人类能够利用强大的先验能力快速决策、快速通关。

视频解读

人类1分钟通关的游戏,机器要花37小时

以“营救公主”的益智游戏为例,游戏通关方式是,需要营救者爬上梯子到达最顶端,越过敌人救出公主,对普通玩家来说,整个操作过程只需要1分钟时间。但如果用现阶段最先进的增强学习算法进行游戏,就算是最有效的一类算法也大约需要4百万帧来训练。(要连续通关,这个数量的帧数是必须的)

现在我们以时间为单位,来重新计算这些帧数。假设你运行的游戏是每秒30帧左右,那么400万帧就相当于一个人不间断地玩37个小时左右的游戏。这样算下来,机器花费的时间大约是人类闯关所需时间的2000倍。

棋类大战中惨败的人类,现在想要在电子游戏上

为什么人类擅长处理新的复杂环境?

很显然你会说,这是因为人类有很多已知的先验信息。比如,我们知道梯子是需要爬的,所以我们避开梯子。但关键问题不在信息数量,而在于信息的重要度和影响力:不同的先验信息重要程度会有所不同吗?我们能否量化这些先验信息所带来的影响?

在最近几年中,机器学习取得了非常显著的进步,增强学习也取得了显著的进步。这些进步大部分来自于类似谷歌的 DeepMind OpenAI 以及在人工智能研究前沿中声名鹊起的大学。

棋类大战中惨败的人类,现在想要在电子游戏上

这些进展表明我们能够训练agent,使它在动态环境中能学习到非常复杂的行为。agent使用了一种信号,我们称之为奖励信号。不同于监督学习,需要告知agent在给定情况下应该采取什么行动。这种agent可以在环境中按照其想要的方式自由行动。但是它有一个信号,即之前提到的奖励信号,奖励信号试图随着时间的推移,不断优化agent,使其达到最优值。

这些算法在各式各样的场景中,表现非常出色。这样的成就甚至让很多人提出,我们可能看到了泛化人工智能早期的萌芽。尽管已取得一些可观的成就,要使机器达到与人类水平相近的学习能力,还有很长的路要走。

机器学习究竟差在哪?

目前的算法擅长于泛化学习(general learning),但它们存在样本利用率(sample efficiency)差的问题。这个问题意味着,在它们能够分清什么行为是当前环境所需要的之前,你必须给agent很多训练帧。还需要说明,算法和人类表现的不同之处,大部分研究者并没有提到嵌入式知识(embedded knowledge),即人们带到新的任务中的知识。这些知识使得我们找寻特定问题的最优解法能比我们目前拥有的任何算法都快速。

如果你还了解些心理学,我们就知道,新生婴儿实际上是有模仿倾向的。如果一个父亲伸出他的舌头,虽然孩子没有意识到发生了什么,但是我们经常会看见婴儿模仿这个动作。这个事实说明有些信息是嵌入在我们基因中的。同样我们有强烈的倾向去注意人脸。因此,对于新生婴儿而言,如果给他很多很多图片,他们总是会首先盯着人脸看。

棋类大战中惨败的人类,现在想要在电子游戏上

而还有一些人类的先验信息是没有存储到我们基因中的,但我们会在年轻的时候去学习。其中一个案例就是客体永久性(object permanence)。客体永久性表明一个事实:如果你有一个给定的物体,突然将该物体隐藏起来,我们还是认为物体在那儿。