您好、欢迎来到现金彩票网!
当前位置:秒速时时彩开奖 > 算法类 >

研究人员使用视频游戏解锁新的AI水平

发布时间:2019-06-07 06:53 来源:未知 编辑:admin

  对人工智能的期望是非常真实和非常高的。“福布斯”项目的收入分析将从2018年的16.2亿美元飙升至2025年的312亿美元。报告还包括一项调查显示,84%的企业认为投资人工智能将带来竞争优势。

  “看到近年来取得的巨大成功和进步令人兴奋,”匹兹堡斯旺森工程学院工业工程助理教授Daniel Jiang说。“为了延续这一趋势,我们正在寻求开发更复杂的算法方法,以学习最优决策的策略。”

  Jiang博士设计了在复杂和不确定环境中学习决策策略的算法。通过在模拟环境中测试算法,他们可以从错误中吸取教训,同时发现和加强成功策略。为了完善这一过程,蒋博士和他所在领域的许多研究人员需要模拟现实世界。

  “作为工业工程师,我们通常会处理以运营为重点的问题。例如,运输,物流和供应链,能源系统和医疗保健是几个重要领域,”他说。“所有这些问题都是具有现实后果的高风险操作。它们没有为尝试实验技术创造最佳环境,特别是当我们的许多算法被认为是重复试错的巧妙方法时所有可能的行动。“

  准备高级AI以应对现实场景和复杂性的一种策略是使用历史数据。例如,算法可以运行数十年的数据,以确定哪些决策有效,哪些决策导致效果不佳。然而,研究人员发现很难测试仅使用过去数据来学习自适应行为的算法。

  蒋博士解释说:“历史数据可能是一个问题,因为人们的行为可以解决后果,也不会提出其他可能性。换句话说,算法很难提出问题如果我选择门会有什么不同的事情B代替门A? 在历史数据中,我们只能看到门A的后果。“

  视频游戏作为替代方案,提供了丰富的测试环境,充满了复杂的决策制定,而没有让不成熟的AI充分掌控的危险。与现实世界不同,它们为算法提供了一种安全的方法来从错误中吸取教训。

  “视频游戏设计师并不打算以测试模型或模拟为目标来构建游戏,”江博士说。“他们经常设计具有双重任务的游戏:创造模仿现实世界的环境,并挑战玩家做出艰难的决定。这些目标恰好与我们正在寻找的东西保持一致。此外,游戏也很多在几个小时的实时中,我们可以评估数十万个游戏玩法决策的结果。“

  为了测试他的算法,江博士使用了一种名为Multiplayer Online Battle Arena或MOBA的视频游戏。诸如英雄联盟或风暴英雄等游戏是流行的MOBA,其中玩家控制几个“英雄”角色中的一个,并试图在保护自己的同时摧毁对手的基地。

  用于训练游戏玩法AI的成功算法必须克服几个挑战,例如实时决策和长决策视野 - 一个数学术语,用于何时直到很久以后才能知道某些决策的后果。

  “我们设计的算法用于评估41条信息,然后输出22种不同动作中的一种,包括移动,攻击和特殊动作,”江博士说。“我们将不同的训练方法相互比较。最成功的玩家使用一种称为蒙特卡罗树搜索的方法来生成数据,然后将其输入神经网络。”

  蒙特卡罗树搜索是一种决策制定策略,其中玩家通过模拟或视频游戏随机移动。然后,该算法分析游戏结果,以便为更成功的动作赋予更多权重。随着时间的推移和游戏的多次迭代,更成功的动作持续存在,并且玩家在赢得游戏方面变得更好。

  “我们的研究也给出了一些理论结果,表明蒙特卡洛树搜索是一种有效的策略,可以训练代理人成功地做出艰难的决策,即使在不确定的世界中进行操作,”江博士解释说。

  江博士发表了他的研究成果 与Emmanuel Ekwedike和Han Liu共同撰写的一篇论文,并于今年夏天在瑞典斯德哥尔摩举行的2018年机器学习国际会议上公布了结果。

  在匹兹堡大学,他继续在博士学位的连续决策领域工作。学生Yijia Wang和Ibrahim El-Shar。该团队专注于与乘车共享,能源市场和公共健康相关的问题。随着行业准备让AI负责关键职责,蒋博士确保基础算法始终处于游戏的顶端。

http://homeschoolwwh.com/suanfalei/200.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有