Americký vojenský výzkum vede k efektivnějšímu modelu výcviku robotů

Autor:

Výzkum nové armády snižuje nepředvídatelnost současných výcvikových strategií pro zdokonalování učení, aby byly praktičtější pro fyzické systémy, zejména pozemní roboty. Tyto tréninkové komponenty umožní autonomním agentům uvažovat a přizpůsobovat se měnícím se podmínkám na bojišti. Půjčka: americká armáda

Operace s více doménami, budoucí operační koncept armády, vyžadují pro boj po boku samostatných agentů s výcvikovými složkami. Výzkum nové armády snižuje nepředvídatelnost současných výcvikových strategií pro zdokonalování učení, aby byly praktičtější pro fyzické systémy, zejména pozemní roboty.

Tyto tréninkové komponenty umožní autonomním agentům uvažovat a přizpůsobovat se měnícím se podmínkám na bojišti. Uvedl to Dr. Alex Koppel, armádní výzkumný důstojník z US Army Combat Capability Development Command, nyní známého jako DEVCOM, armádní výzkumná laboratoř.

Základní mechanismus přizpůsobení a reorganizace sestává z politiky založené na posilovacím výcviku. Účinné dosažení těchto politik je zásadní pro uskutečnění koncepce provozu MDO, uvedl.

Podle Koppela jsou postupové metody politiky posilování výcviku základem rozsáhlých kontinuálních algoritmů, ale stávající techniky nemusí zahrnovat širší cíle rozhodování, jako je citlivost na rizika, bezpečnostní omezení, průzkum a kontroverze v minulosti.

Rozvoj autonomního chování, kdy je vztah mezi dynamikou a cíli obtížný, lze vyřešit pomocí posilovacího tréninku, který se v poslední době zaměřil na řešení dříve řešitelných problémů, jako jsou strategické hry, jako je hraní, šachy a videohry, jako je Atari. և Starcraft II, řekl Koppel.

Převládající praxe bohužel vyžaduje astronomickou složitost vzoru, například simulační hra tisíce let, říká. Díky složitosti tohoto designu je velmi běžné, že učící se mechanismy používají nepoužitá data pro hladové parametry požadované v kontextu MDO pro bojové vozidlo nové generace nebo NGCV.

„Výcvikové mechanismy by měly zlepšit efektivitu a spolehlivost vzorků v nepřetržitých prostorech, aby se usnadnil výcvik posilování MDO և NGCV,“ řekl Koppel. „Agregací běžných nástrojů ve stávajících systémech tvorby politiky činíme krok k prolomení stávajících překážek účinné účinnosti převládající praxe v posilovacím výcviku.“

Koppel և a jeho výzkumný tým vyvinuli nová schémata hledání politiky užitkových systémů, jejichž složitost byla také potvrzena. Poznamenali, že výsledná schémata vyhledávání zásad snižují volatilitu akumulace odměn, poskytují efektivní studii neznámých domén a poskytují mechanismus pro začlenění předchozích zkušeností.

„Tento výzkum pomáhá zvýšit větu klasického gradientu politiky v posilovacím výcviku,“ řekl Koppel. „Zavádí nová schémata politiky veřejných služeb, jejichž složitost byla také prokázána. „Tyto inovace mají vliv na americkou armádu a umožňují posílení cílů výcviku ze standardních kumulativních výnosů, jako je citlivost na rizika, bezpečnostní omezení, průzkum a kontroverze z minulosti.“

Je pozoruhodné, že v souvislosti s pozemními roboty je získávání dat podle něj nákladné.

„Snižování volatility akumulace odměn, efektivní prozkoumávání neznámé oblasti nebo začlenění předchozích zkušeností – to vše přispívá k odstranění překážek efektivity v převládající praxi posilovacího výcviku zmírněním náhodného vzorkování, které vyžaduje úplnou optimalizaci politiky,“ uvedl.

Budoucnost tohoto výzkumu je velmi jasná. Եւ Koppel věnoval své úsilí zpřístupnění nejnovější technologie svým vojákům na bojišti.

„Jsem optimista v tom, že autonomní roboti, kteří se učí posilovat, budou schopni pomoci bojovníkovi při dalším průzkumu, průzkumu a hodnocení rizik na bojišti,“ řekl Koppel. „Realizace této vize může být tím, co řídí výzkum, který věnuji svému úsilí.“

Dalším krokem v této studii je prozkoumat širší rozhodovací cíle, které běžné nástroje poskytují v posilovacím výcviku, v několika prostředích agenta, a zkoumat, jak interaktivní ujednání mezi agenty posilovacího tréninku generují v týmech synergické, antagonistické úsudky.

Podle Koppela bude technologie, která je výsledkem tohoto výzkumu, schopna uvažovat v podmínkách nejistoty scénářů týmu.

Odkaz; Generál Uny hang Angi, Alex Koppel, Amrit Singh Bedi, Saba Sepeswari են Mengdi Wang „Postupná metoda kolísání politiky v učení prostřednictvím obecných služeb“ NeurIPS řízení,
Odkaz

Tento výzkum byl proveden ve spojení s: Univerzita PrincetonNa University of Alberta և Google Deepmind se zaměřil NeurIPS 2020, jedna z premiérových konferencí, která usnadňuje výměnu výzkumu neurálních informačních systémů z biologického, technologického, matematického a teoretického hlediska.

Related articles

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Share article

Latest articles

Lipidy na membráně mozkových buněk jsou kvůli léčbě Alzheimerovy choroby většinou přehlíženy

Byly vytvořeny vazby mezi lipidovou nerovnováhou a onemocněním, kdy změny lipidů zvyšují tvorbu amyloidových plaků, což je rys Alzheimerovy choroby. Tato nerovnováha inspirovala...

Astrofyzici jsou překvapeni neočekávanými účinky černých děr mimo jejich vlastní galaxie

Umělecká kompozice supermasivní černé díry, která reguluje vývoj jejího prostředí. Autor obrázku: Gabriel Pérez Díaz, SMM (IAC) a Dylan Nelson (Illustris-TNG) Ve středu téměř každé...

Největší australský dinosaurus – jižní titán – právě vstoupil do knih rekordů!

Australotitan cooperensis, „Southern Titan of the Cooper“. Fotografický kredit: Vlad Konstantinov, Scott Hocknull © Eromanga Natural History Museum Co je to basketbalové hřiště tak...

„Paralelní reaktory“ na bázi fotonických krystalových vláken odhalují kolektivní analogie hmotných a solitárních molekul

A. Schéma paralelních optických solitonových reaktorů založené na dutině prstencového vláknového laseru s režimem blokování. Časová optomechanická (OM) mříž umožněná fotonickými krystalovými...

Drsná kůra, která se v noci ozývá, vede k objevení nových druhů

V lesích západní a střední Afriky se v noci ozývají hlasitá volání hybridů stromů - malých, býložravých savců, ale jejich zvuk se liší podle...

Newsletter

Subscribe to stay updated.