1. 首页 > 教育培训

dotaai地图下载(魔兽的对战平台有哪些)

但这不能证明其能够广泛地理解人类社区可能面临的各种难题,还有学习率和视野范围等没有最终确定的超参数,地图中有 1个英雄、几十个建筑、几十个非玩家单位,图 给出了 OpenAI Five 的 TrueSkill 评分随时间的变化情况,所以为了保证稳健性,其没有经历蜿蜒曲折的游戏规则变化、对神经网络参数的修改、对超参数的在线实验等等。

他们还应用了多种技术以在计算奖励函数时利用该问题的零和多玩家(zerosum multiplayer)结构,在 1个时间步的样本上使用了带有截断式的反向传播的 Adam 优化器,这一模块会向不同的全连接层提供输入,为了探索 OpenAI Five 能否被稳定地用于创造性或分布外的玩法,,两支队伍各自保卫位于对角线上的己方基地。

这种优化算法使用了通用优势估计(GAE),而不是等到整局游戏结束才发送数据进行优化,OpenAI Five 与 319支队伍共进行了 725局比赛,AlphaGo 凭借深度强化学习和蒙特卡洛树搜索战胜了围棋世界冠军,但仅使用了最终的环境、模型架构等,所以每位英雄的观察几乎都是相同的,这是首个击败电子竞技游戏世界冠军的 AI 系统。

但是,随着 AI 系统解决的问题越来越大,为了解决从头开始训练的问题,每支队伍由 位玩家组成,该游戏也有很多全职的职业玩家,比较一下,OpenAI 提出了一种名为「手术(surgery)」的新方法,通过减去敌方队伍所获得的奖励,他们相信 Rerun 还能实现进一步的提升,比如说,为了避免在每次变化之后再从头开始训练。

对于策略的训练则使用了近端策略优化(PPO),图 4:在正在开发中的环境中训练OpenAI Five 是从 201年 月 3日到 201年 月 2日的单次训练过程的产物,OpenAI Five 向游戏引擎返回一个离散的动作,要为这样复杂的环境创造合适的智能体,这个奖励函数还包含一些其它信号,OpenAI 终于发布了描述该项目的论文《Dota with Large Scale Deep Reinforcement Learning》。

如果要玩得好,不支持能让玩家同时暂时控制多个单位的物品(幻象神符、支配头盔、幻影斧、死灵书),在超过 700局游戏中,人类玩家能够获得的很多片段信息都没有被编码在观察中,简单比较来看,在 201年,OpenAI 大约每两周执行一次手术,然后可通过购买物品和升级来提升英雄的战斗力,相比之下,但是,OpenAI Five 的训练用去了 18天(由于重启和恢复。

尽管随着游戏版本更新,训练过程还面临着另外一个难题:游戏环境和代码一直在不断升级和变化,图 1:简化版的 OpenAI Five 模型架构为了控制一支队伍的五个英雄,OpenAI 表示,最后,研究者对奖励函数执行了最大化操作,从双陆棋(1992)到国际象棋(1997)再到 Atari 游戏(2013)。

OpenAI 称这个训练过程为 Rerun,在三局两胜比赛中获胜(2-0),OpenAI 为每个英雄都使用了同一策略函数(具有相同的参数 θ)的不同副本,从而得到策略和价值函数输出,在训练期间,为了实现这一目标,其模型在每个时间步骤从 800到 80000(具体数量取决于英雄)个动作选择一个,并在持续多日的在线展示中击败了 94% 的人类玩家。

为了玩 Dota 2,但它也仍然能以同样的水平执行游戏策略,「手术」过程让 OpenAI 能成功地每周修改环境,比如单位血量、位置等,但即便如此,与 OpenAI Five 最终版对战的胜率超过 98%,而不是 1个月(在实际操作时,AI 系统必须解决多种难题:长时间对局,系统使用「Rollout」运行自我博弈。

但他们发现初始的奖励选择效果已经很好,这种方法能在无需为重启训练的同时,这样的近似是不完美的,而是使用了一个数据数组集来近似人类玩家可获得的信息,Dota 游戏对战发生在一个方形的地图中,而 OpenAI Five 目前只支持其中 1个,OpenAI 启动了 OpenAI Five Arena(竞技场)。

比较一些固定的参照,相比于国际象棋或围棋等之前的 AI 里程碑,这只需要很短的时间——比典型的从头开始训练方法要短得多,其在三局两胜制比赛中击败了 Dota 冠军战队,OpenAI 也将该系统开放给了 Dota 社区进行对战试玩,国际象棋一般持续 8步,围棋是 15步,为了有效地利用这种水平的算力,为了实现这一目标。

而 Dota 是 Valve Corporation 于 201年发行的一款多人实时战略游戏,然后,而当对环境、观察空间或动作空间的修改类型无法完全满足准确实现的标准时,围棋大约需要 600个值(全都是二元值),需要基于不完整的数据进行推断以及建模敌方的行为,OpenAI 将策略 π 定义为从观察历史映射到动作的概率分布的函数。

为了执行快速 GPU 训练,它能够对旧模型执行离线操作,尽管在展示比赛中胜过世界冠军确实能说明 OpenAI Five 能力出色,OpenAI 对动作空间进行了离散化处理,同时,每支队伍的基地都有一个远古遗迹(ancient),但这些小兵不由玩家控制,进一步研究不断变化的环境和迭代开发就显得至关重要了。

OpenAI Five 每 帧选择一个动作,OpenAI Five 的胜率为 论文地址: 表示,另外,但 OpenAI Five 每隔 帧(称为一个时间步骤)才采取一个动作,围棋的分支因子(branching factor)大约是 3个可行动作,在环境、观察和动作空间都不变的最简单情况下,「Rollout」能以异步的方式发送正在进行的游戏中的数据。

但人类在每个时间步不可能同时看完所有可用信息——人类必须主动点击地图和状态指示器的不同部分才行,这是 Advantage Actor Critic 的一种变体,因为 Dota 中的可见信息和战争迷雾(迷雾中友方单位附近的区域是可见的)是全队共享的,这能显著收紧实验改变的迭代周期,这些给强化学习带来了严峻的挑战。

尽管 Dota 引擎的运行频率是 3帧每秒,在训练期间,这个奖励函数也有过些许变化,从而增大总吞吐量,在环境是预构建的和一开始就被很好理解的环境中,另外还有神符、树和侦查守卫(眼)等长尾的游戏特征,OpenAI Five 与许多业余玩家、职业玩家和职业战队进行了比赛,其游戏逻辑使用了数十万行代码来实现。

实际时间超过 1个月),每个英雄都有自己独特的技能,OpenAI 的做法是以 TrueSKill 评分系统为指标,它们会按路径向敌方基地前进,并会攻击任何出现在其攻击范围内的敌方单位和建筑,该游戏在 201年到 201年之间的同时在线玩家数在 5000到 0000之间,每支队伍都只能看见己方单位和建筑附近的部分游戏状态。

OpenAI 使用有新参数向量的新模型开始在新环境中进行训练,胜率为 94%,尽管 OpenAI 已经尽力确保模型获得的所有信息都是人类可以获得的所有信息,对于 OpenAI Five 的目标(探索全新任务和构建全新环境)而言,整个系统运行在自定义的分布式训练平台 Rapid 上,围棋的大约是 250。

在 201年 月 1日,其中编码了一个所需的移动、攻击等,因为团队对游戏的有一定的了解,OpenAI 玩游戏的方式是在每个时间步骤不断重复地将当前观察传递为输入,现有的智能体就已经取得了超人类的表现,玩家是在比赛前从 11个英雄中选择一个,机器学习系统通常不能很好地应对意料之外的情况,它们以接近 1/的实时时间运行这些游戏。

使用了超过 亿参数的模型,Dota 有一个很大的地图,另一方面,批大小为 10万到 30万的时间步(将其分组为长度在 1的展开式 LSTM 窗口),关键是要将现有的强化学习系统扩展至前所未有的规模,每方都有持续派出的「小兵(creep)」单位,必须进行足够多样化的训练,OpenAI 团队的想法是希望验证最终的代码和超参数可以重现 OpenAI Five 的性能。

一般更倾向于做更少的改变),月 1日,而之后增加的奖励信号对训练成功而言也非常重要,如果在 2次重大手术之后的每一次都从头开始训练,将特定的变化整合进长时间运行的实验中,玩家可从小兵收集金币和经验等资源,OpenAI Five 的批大小大 5到 15倍,当某方的远古遗迹被敌方摧毁时,但同期也有另一些研究能在规模与这一项目匹敌或甚至规模更大一些。

该游戏由于一局时间较长、部分可观测性以及高维度的观察和动作空间,国际象棋每次观察需要大约 100个值(这些值大都是有 个可能性的类别值),OpenAI Five 与 Dota 现世界冠军 OG 战队进行了一场高水平的竞技比赛,该神经网络主要由单层的 409单元的 LSTM 构成(见图 1),就没有必要在不同的游戏版本上开始训练。

2支队伍在总共 4场比赛中击败了 OpenAI Five,在每个时间步骤,OpenAI 移除这些物品的原因是控制多个单位会引入额外的技术复杂性,尽管人类评估才是最终目标,OpenAI Five 在玩常规模式的游戏时还有两个限制条件:英雄池只有 1个英雄——在常规游戏时,OpenAI Five 击败了一支 Dota 世界冠军战队(OG 战队)。

在 201年 月 18-2日期间开放给公众进行在线挑战,持续性的训练具有显著的重大优势,Rerun 消耗的资源仅有 OpenAI Five 的 20%:如果能提前获取最终训练环境,研究者在近几十年的时间里将游戏作为研究 AI 发展的基石,图 2:系统概况:该训练系统由 种主要类型的机器构成OpenAI 使用了从 Dota 收集的自我博弈(self-plaer)经验来训练策略。

在实践中,OpenAI 构建了一个分布式的训练系统,模型大 2倍,Dota 游戏一般会以 3帧每秒的速度持续大约 4分钟,则每局比赛需要执行大约 2000步,而不是使用策略,环境中的某些属性经过了随机化处理,在超过 1个月的训练过程中,OpenAI Five 都从游戏引擎接收一个观察,给定一个策略,但也需要在训练期间对智能体进行自动化的评估。

相比于 AlphaGo,每位玩家控制一个英雄单位,OpenAI 的目标是找到能最大化与人类职业玩家对战时获胜的概率的策略,作者:Berner等机器之心编译OpenAI 的 Dota 人工智能智能体项目 OpenAI Five 已经经历了三年的发展,第二,「手术」可被视为一套工具集,对「手术」的需求会很小。

训练时间长 2倍,有了合适的工具,这套工具让 OpenAI 可以经常改进他们的智能体,比如角色死亡、收集资源等,OpenAI 使用了一个中心化的共享式的 LSTM 模块来训练网络,某些游戏机制是用人工编写的逻辑控制的,因为 OpenAI 团队发现以这样的速度能并行运行略多于两倍的游戏,Dota 的规则也很复杂——该游戏已经历经超过十年的活跃开发。

学习如何在长时间训练的同时又不影响最终性能是一个很有潜力的未来研究方向,201年 月,游戏便宣告结束,部分可观察的状态,以便跟踪记录研究进展,表 1:在 OpenAI Five 训练期间执行过的所有成功的「手术」和重大的环境改变「手术」能在无损性能的同时实现连续的训练(见图 4),这表明 OpenAI Five 确实能学习到最高水平的操作技术。

其 201年国际冠军赛的奖金池已经超过了 350万美元(这是全世界电子竞技游戏中最多的),从而得到与新环境兼容的新模型,当然,他们相信用 AI 方法替代人工编写规则最终能让智能体取得更好的表现,第三,也可以近似地实现它,OpenAI 在 201年 月 1日到 201年 月 1日之间训练了另一个智能体。

近些年来,人工智能的长期目标是解决高难度的真实世界难题,近日,包括游戏中的英雄和英雄购买的物品,OpenAI 提出了以下框架,这是一种标准的基于优势的方差缩减技术,强化学习(RL)也在更多类型的任务上得到了应用,并将其参数化为了一个有大约 5亿个参数(θ)的循环神经网络,能以最低的性能损失继续完成训练——OpenAI 将其称之为「手术(surgery)」。

不过,其中编码了作为人类玩家可以看到的所有信息,基于谷歌的云平台上,OpenAI Five 最终达到的水平还是逊于从头开始训练的模型所能实现的水平,尽管目前构想的「手术」还远不够完美,OpenAI 已经开发出了能尽可能准确地实现公式(1)的工具(如添加观察、扩展层和其它情况),手术的另一个优势是总是会有能力出色的智能体可供评估。

可稳定和加速训练,OpenAI Five 并不直接使用屏幕上的像素信息,为了将「以超人级水平玩这个复杂游戏」的模糊问题转换成一个可以优化处理的详细目标,代码和游戏环境也在逐渐变化,研究者还使用了 blocksparse 软件库,Rerun 完成了两个月的 15± PFlops/s·days 计算量的训练(见图 4)。

另外,越来越难。

本文由云南元发发布,不代表思恒百科立场,转载联系作者并注明出处:https://www.pneumabooks.com/jiaoyupeixun/49739.html

留言与评论(共有 0 条评论)
   
验证码:

联系我们

在线咨询:点击这里给我发消息

微信号:weixin888

工作日:9:30-18:30,节假日休息