创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
红色av 《在兵棋推演的战役模拟中彭胀智能体》 - 38ab
2
栏目分类
热点资讯
经典三级电影 你的位置:38ab > 经典三级电影 > 红色av 《在兵棋推演的战役模拟中彭胀智能体》
红色av 《在兵棋推演的战役模拟中彭胀智能体》 发布日期:2024-07-19 16:53    点击次数:60

红色av 《在兵棋推演的战役模拟中彭胀智能体》

要在翌日与技巧先进的竞争敌手的打破中保抓竞争力,就必须加速兵棋推演东谈主工智能(AI)的有计划与征战。更禁锢的是,应用机器学习进行智能作战行径征战将是有朝一日在这一鸿沟收尾超东谈主性能的要害--栽培在翌日干戈中的决策质地并加速决策速率。尽管深度强化学习(RL)在游戏中的智能体行径征战方面不断取得令东谈主饱读吹的遵循,但在战役建模与仿真中常见的长视距复杂任务中,其阐发尚未达到或超越东谈主类水平。应用分层强化学习(HRL)已被阐明的后劲和最近取得的得胜,咱们的有计划正在看望和彭胀 HRL 的使用,以创建大约在这些大型复杂模拟环境中灵验实施任务的智能体。最终缱绻是征战出一种大约阐明超东谈主性能的智能体,然后将其手脚军事计算者和决策者的东谈主工智能照顾人。本文先容了正在进行的有计划步伐,以及五个有计划鸿沟中的前三个鸿沟,这些鸿沟旨在经管迄今为止罢休东谈主工智能在作战模拟中应用的狡计量指数级增长问题: (1) 为作战单位征战一个 HRL 西宾框架和智能体架构;(2) 为智能体决策征战一个多模子框架;(3) 征战情状空间的维度不变不雅测抽象,以经管狡计量的指数增长;(4) 征战一个内在奖励引擎,以收尾长期计算;(5) 将此框架实施到更高保确切作战模拟中。这项有计划将进一步鼓动国防部正在进行的有计划好奇,即彭胀东谈主工智能以处理大型复杂的军事场景,从而复旧用于见地征战、解释和分析的兵棋推演。

图片红色av红色av红色av

性爱画面东谈主工智能(AI)技巧的最新进展,如 OpenAI 的 ChatGPT,再次体现了东谈主工智能在重塑九行八业方面的变革后劲。正如生成式预西宾变换器(GPT)模子从根柢上再行界说了对东谈主工智能巨大威力的联络一样,其他东谈主工智能步伐也能为国防部门征战转换游戏规矩的器用作念出孝顺,而迄今为止,东谈主工智能已被评释过于复杂,无法灵验措置这些问题。东谈主工智能不错产生变革性影响的一个鸿沟是复旧兵棋推演的战役建模和仿真鸿沟。但缺憾的是,就像兵棋推演的历史不错纪念到几个世纪前一样,如今用于当代兵棋推演的大多数器用和技巧亦然如斯。固然传统兵棋推演器用(如实体游戏棋盘、纸牌和骰子)王人备仍有其作用,但将兵棋推演带入 21 世纪的压力也越来越大(Berger,2020 年,2022 年;好意思国国防科学委员会,2021 年;好意思国国防部副部长,2015 年;好意思国政府问责局,2023 年),并应用当代技巧逾越,如东谈主工智能(Davis & Bracken,2022 年),'从技巧和步伐两方面发展现时的兵棋推演范式'(Wong 等东谈主,2019 年)。固然好意思国在大多数鸿沟都享有军事上风,但机器学习(ML)的寰球化已运转为竞争敌手和其他国度行径体提供无数的破损契机(Zhang 等东谈主,2020)。因此,比以往任何时候都更有必要积极投资于有计划与征战,以征战对东谈主工智能优时弊的塌实基础联络(Schmidt 等东谈主,2021 年),以及怎样将其用于瞎想、计算、实施和分析各式办法的兵棋推演。只须这么,国防部(DOD)才调更好地应付政策突袭和破损(Zhang 等东谈主,2020 年)。然则,兵棋推演和军事计算与迄今为止得得手用东谈主工智能的传统鸿沟--如图像分类和后勤关连的优化问题--有很大不同。由于干戈的复杂性,任务分析和计算常常需要在早期应用直观和想维启发法来罢休搜索问题的鸿沟(Zhang 等东谈主,2020 年)。固然启发式步伐如实能让咱们更容易地找到可接管的措置决策,但这些措置决策的可彭胀性或可靠性常常不及以评估可能出现的无数突发事件。此外,直观也不及以措置高度复杂的问题,例如那些波及很多不同参与者的高维空间以及复杂的火器和传感器互相作用的问题(Zhang 等东谈主,2020 年)--然则这些复杂性恰是可能决定翌日干戈的特征(Narayanan 等东谈主,2021 年)。固然不以为东谈主工智能会在可猜度的翌日取代东谈主类的判断或决策,但咱们如实以为,东谈主工智能在融入决策支持器用后,有契机加速决策历程并提供新的视力。事实上,若是不行充分应用东谈主工智能的力量,那么当咱们深入多域作战时,就可能会濒临巨大风险(Narayanan 等东谈主,2021 年)。最终,通过应用超东谈主智能体手脚东谈主类决策者决策复旧器用的基础,有望在翌日干戈中取得超越敌手的决策上风--加速决策速率,栽培决策质地。因此,要想在翌日与技巧先进的竞争敌手的打破中保抓竞争力,就必须加速对兵棋推演东谈主工智能的有计划和征战。更禁锢的是,应用机器学习进行智能作战行径征战将是有朝一日在这一鸿沟收尾超东谈主阐发的要害。本文先容了在彭胀东谈主工智能方面的有计划步伐,以处理兵棋推演中战役建模和模拟所特有的复杂而犬牙相错的情状空间。固然有计划仍在进行中,何况还不完好,但将在本文中先容总体步伐、初步遵循和前进标的。有计划计算有计划应用 RL 已评释的后劲和 HRL 最近取得的得胜,瞎想进一步栽培彭胀机器学习的才略,以征战智能体行径,用于战役建模和仿真中常见的大型复杂场景。为了收尾这一缱绻,咱们瞎想招揽文件中的很多视力,同期为这一鸿沟作念出咱们我方的独到孝顺。有计划主要分为五个有计划鸿沟:(1) HRL 西宾框架和作战单位的智能体架构;(2) 用于智能体决策的多模子框架;(3) 情状空间的维度不变不雅测抽象;(4) HRL 框架的内在奖励工程;(5) 将此框架实施到高保真作战模拟中。本文仅存眷前三个有计划鸿沟。HRL 西宾框架和智能体架构起始征战了一个 HRL 西宾框架,通过彭胀和招揽 Dayan & Hinton(Dayan & Hinton, 1992)、Vezhnevets 等东谈主(Vezhnevets et al、 2017)、Levy(Levy 等东谈主,2019)、Pope 等东谈主(Pope 等东谈主,2021)、Wang 等东谈主(Wang 等东谈主,2021)、Rood(Rood,2022)和 Li 等东谈主(S. Li 等东谈主,2022)。为了复旧这一框架,咱们还征战了一种新的智能体架构,由智能体头绪结构和决策头绪结构构成--每个单独的智能体都是一个多模子智能体。如图 3 所示,'智能体头绪结构 '中的每个头绪主要对不同数目的下级智能体实施划定,最低头绪划定单个实体。为便于说明,咱们将这些层级定名为 指引官、司理和操作员。然则,咱们不错把这种头绪结构看作从 1 到 n 层的任何深度,其中最低层级为 1,最高层级为 n。只须少数单位的纯粹任务可能只需要两个层级,而波及多个交互单位的复杂任务可能需要三个或更多层级。由于咱们的有计划瞎想考核更复杂的场景,因此咱们预测至少需要三个头绪。在这一分层框架内,还制定了决策分层。值得持重的是,尽管在图 3 中列出了具体的决策,但这仅仅为了说明问题,并不一定 是决策的最终细分。萨顿等东谈主率先为决策头绪见地创造了 '选项 '一词(萨顿等东谈主,1999 年)。选项是对行动的综合,萨顿等东谈主精致将其用于原始弃取。之前的术语包括宏不雅行动、行径、抽象行动和子划定器。在头绪结构中默示这一见地时,咱们使用了决策一词。在传统的 RL 问题中,智能体接管不雅察完毕,并在固定的时辰步输出一个动作,而在 HRL 问题中,智能体要么被赐与配景学问,要么必须发现配景学问,从而以显式或隐式的面貌领会问题(Sammut & Webb,2010 年)。然后,智能体应用这些学问,通过西宾优化翌日答谢的策略,更高效地措置问题。分层结构中的多个头绪还允许每个头绪针对不同的缱绻和不同的抽象进程进行西宾,从而使彭胀到终点复杂的场景成为一个更容易措置的问题。此外,这种分层步伐还隐含着对智能体融合与配合的西宾,因为表层划定着基层的总体行径(Wang 等东谈主,2021 年)。除最底层外,头绪结构的每一层都不错被视为抽象或领路层(即,它们率先是高层决策,最终将为原始行动提供信息)。只须处于头绪结构最底层的智能体才是游戏板上的施行实体,会采取影响环境的闹翻或原始行动。图 4 展示了 HRL 框架。层级结构的指引官层级摄取我方对情状空间的独到抽象不雅察,并向下一层级输出子缱绻和断绝条目。不才一级中,经管者摄取指引者的子缱绻和对情状空间的不同抽象不雅察完毕,并输出其 我方的子缱绻。临了,在最底层,操作员摄取子缱绻和对情状空间的抽象腹地不雅察,并应用咱们的多模子智能体框架输出一个供实体采取的行动。

图片

多模子智能体为了构建咱们的多模子智能体框架,咱们鉴戒并弃取了众人搀和(MoE)(Jacobs 等东谈主,1991 年)、'多模子想想家'(Page,2018 年)、荟萃步伐和 RL 的见地。尽管咱们从 MoE 和荟萃文件中鉴戒了弃取各式众人采集的想法,但咱们偏离了这些传统步伐建议的中心想想。固然咱们仍然应用了很多不同的模子,但咱们并莫得弃取结净的分而治之的步伐(Jacobs 等东谈主,1991 年)或模子输出的收罗(Page,2018 年),而是对模子进行了鉴识,以驯服哪个特定的模子不错在每个行动弃取步伐中最大化智能体的举座性能。换句话说,咱们并不是将模子输出进行组合,而是纯粹地将它们手脚一个评估函数的输入,然后由该函数决定在每个步伐中应使用哪个特定的行径模子。荟萃步伐要求建模者琢磨模子的偏差或过失,而咱们的多模子步伐规允许咱们应用一组不同的模子(剧本模子或机器学习西宾的模子),而无需琢磨模子的均衡或考证。之是以能作念到这极少,是因为咱们不是将模子预测联接在一王人,而是对模子预测进行鉴识,并弃取能最大化特定缱绻的单一最好策略。多模子框架如图 5 所示。在每个行动弃取步伐中,多模子都会摄取一个不雅察完毕手脚输入,并将其传递给每个得分预测模子。每个得分预测模子都会推导出一个预测的游戏得分,并将其输入评估函数。然后左证评估函数弃取特定的行径模子。临了,原始不雅察完毕被传递给采纳的行径模子,由其产生一个动作。为了提供弃取符合行径模子的评估函数,咱们为资源库中的每个行径模子西宾了一个单独的分数预测模子。该分数预测模子是一个卷积神经采集(CNN),可左证现时游戏情状预计出游戏分数。预测的游戏得分假设蓝方按照各自的行径模子不时游戏,红方按照特定的敌手行径模子不时游戏。鉴于 Atlatl 是一款回合制游戏,而非时辰步进模拟,咱们将棋盘上实体被领导采取某项行动的每个实例都称为行动弃取步伐。尽管迄今为止,咱们一直在使用监督学习步伐西宾得分预测模子,并在游戏中使用了 '行动弃取 '模子。数据来西宾得分预测模子,但咱们最近征战了一个单独版块的得分预测模子,并正在对其进行测试。

图片

在实验中评估了这种多模子步伐相干于传统单模子步伐(无论是剧本仍是基于 RL 的)的灵验性,发现多模子步伐比阐发最好的单模子栽培了 62.6%。此外,咱们还发现,由更多模子构成的多模子彰着优于由较少模子构成的多模子,即使这些非凡模子的举座性能较差。这标明,即使咱们的某些单个模子在总体上阐发欠安,但它们很可能在终点额外的情况下取得特出胜--咱们的分数预测模子似乎准确地捕捉到了这一景色,而咱们的评估函数也正确地用于为每个行动弃取步伐弃取最好模子。更禁锢的是,使用这种步伐,无谓西宾一个大约在扫数可能情况下都灵验实施任务的单一模子,而是不错征战或西宾大约在特定情况下实施任务的终点专科的模子,然后在碰到这些特定情况(即游戏中的特定情状)时自动调用这些专科模子。此外,由于咱们的多模子不错鉴识其镶嵌的模子,因此咱们不错左证需要加入新的模子,而无需琢磨行径考证、均衡以致偏差等问题--传统的荟萃建模步伐常常需要将完毕收罗在一王人。情状空间的不雅测抽象即使使用 Atlatl 这么的纯粹环境,将其彭胀到更大的场景也会导致性能欠安(Boron,2020;Cannon & Goericke,2020;Rood,2022)。部分原因在于,与东谈主类不同,RL 的样本遵循不高,需要无数的西宾数据(Botvinick 等东谈主,2019 年;Tsividis 等东谈主,2017 年),而浩大的行动和不雅察空间则进一步加重了这一问题。不外,Abel 等东谈主指出,RL 中的抽象不错栽培采样遵循(Abel 等东谈主,2020 年),从而有可能让咱们彭胀到处理终点复杂的环境。此外,学习和使用符合的寰宇抽象表征是任何智能体(无论是生物仍是东谈主工智能)都必须具备的基本技巧(Abel,2020)。然则,由于抽象实质上会丢弃信息--这可能会毁伤基于这些抽象所作念决策的灵验性--咱们必须在使学习变得更容易(或可操作)与保留弥漫信息以收尾最优策略发现之间量度轻重(Abel,2020)。咱们对情状空间抽象得越多,丢失的信息就越多,就越难保证取得最优或接近最优的措置决策(L. Li 等东谈主,2016 年)。不外,这亦然一种量度,因为尽管更不祥的抽象可能会导致次优行动,但它们如实不错更好地进行计算和价值迭代(李玲等东谈主,2016 年)。为了克服在大型情状空间中进行西宾时所濒临的一些量度挑战,同期保留弥漫的信息以找到最优或接近最优的措置决策,咱们现在正在征战一种步伐,其中包括左证头绪结构的级别应用不同级别的抽象。在《模拟与兵棋推演》一书中,Tolk 和 Laderman 扣问了 '任务常常会驱动所需的抽象层级'(Turnitsa 等东谈主,2021 年)。相似,正如咱们在军事计算中常常看到的那样,高头绪的抽象会更粗,而低头绪的抽象会更细(FM 5-0 Planning and Orders Production, 2022;Joint Publication 5-0 Joint Planning, 2020;MCWP 5-10 Marine Corps Planning Process, 2020)。因此,咱们的 HRL 框架波及在较高头绪的决策中应用较不祥的抽象头绪,同期仍通过腹地不雅测为较低头绪的决策保留扫数腹地情状空间信息。咱们以为,这种步伐将使高层的长期计算愈加灵验,并使低层的磋磨在当地得到更灵验的及时实施。为了说明这一见地,咱们起始描述了一般的 Atlatl 不雅测空间。尽管不雅察空间在不断演变,但最近的一个不雅察空间由 n x m 网格的 17 个通谈构成,其中网格的每个进口代表 n x m 大小棋盘的一个十六进制。这个不雅察空间被编码为张量。图 6 例如说明了每个通谈所代表的信息。例如,每个通谈编码的信息包括单位迁移、单位类型、地形类型等。

图片

图 7 深远了一个 20 x 20 棋盘的情状空间默示示例,其中重迭了三个通谈(蓝色戎行、红色戎行、城市六角形)。咱们不才面扫数图中重迭了三个通谈,仅供参考;但在 Atlatl 中,这些通谈将默示为 3 个零丁通谈(共 17 个通谈),如图 6 所示。

图片

专知粗浅检察 本站仅提供存储奇迹,扫数内容均由用户发布,如发现存害或侵权内容,请点击举报。

创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False