Americký vojenský výzkum vede k efektivnějšímu modelu výcviku robotů

Autor:

Výzkum nové armády snižuje nepředvídatelnost současných výcvikových strategií pro zdokonalování učení, aby byly praktičtější pro fyzické systémy, zejména pozemní roboty. Tyto tréninkové komponenty umožní autonomním agentům uvažovat a přizpůsobovat se měnícím se podmínkám na bojišti. Půjčka: americká armáda

Operace s více doménami, budoucí operační koncept armády, vyžadují pro boj po boku samostatných agentů s výcvikovými složkami. Výzkum nové armády snižuje nepředvídatelnost současných výcvikových strategií pro zdokonalování učení, aby byly praktičtější pro fyzické systémy, zejména pozemní roboty.

Tyto tréninkové komponenty umožní autonomním agentům uvažovat a přizpůsobovat se měnícím se podmínkám na bojišti. Uvedl to Dr. Alex Koppel, armádní výzkumný důstojník z US Army Combat Capability Development Command, nyní známého jako DEVCOM, armádní výzkumná laboratoř.

Základní mechanismus přizpůsobení a reorganizace sestává z politiky založené na posilovacím výcviku. Účinné dosažení těchto politik je zásadní pro uskutečnění koncepce provozu MDO, uvedl.

Podle Koppela jsou postupové metody politiky posilování výcviku základem rozsáhlých kontinuálních algoritmů, ale stávající techniky nemusí zahrnovat širší cíle rozhodování, jako je citlivost na rizika, bezpečnostní omezení, průzkum a kontroverze v minulosti.

Rozvoj autonomního chování, kdy je vztah mezi dynamikou a cíli obtížný, lze vyřešit pomocí posilovacího tréninku, který se v poslední době zaměřil na řešení dříve řešitelných problémů, jako jsou strategické hry, jako je hraní, šachy a videohry, jako je Atari. և Starcraft II, řekl Koppel.

Převládající praxe bohužel vyžaduje astronomickou složitost vzoru, například simulační hra tisíce let, říká. Díky složitosti tohoto designu je velmi běžné, že učící se mechanismy používají nepoužitá data pro hladové parametry požadované v kontextu MDO pro bojové vozidlo nové generace nebo NGCV.

„Výcvikové mechanismy by měly zlepšit efektivitu a spolehlivost vzorků v nepřetržitých prostorech, aby se usnadnil výcvik posilování MDO և NGCV,“ řekl Koppel. „Agregací běžných nástrojů ve stávajících systémech tvorby politiky činíme krok k prolomení stávajících překážek účinné účinnosti převládající praxe v posilovacím výcviku.“

Koppel և a jeho výzkumný tým vyvinuli nová schémata hledání politiky užitkových systémů, jejichž složitost byla také potvrzena. Poznamenali, že výsledná schémata vyhledávání zásad snižují volatilitu akumulace odměn, poskytují efektivní studii neznámých domén a poskytují mechanismus pro začlenění předchozích zkušeností.

„Tento výzkum pomáhá zvýšit větu klasického gradientu politiky v posilovacím výcviku,“ řekl Koppel. „Zavádí nová schémata politiky veřejných služeb, jejichž složitost byla také prokázána. „Tyto inovace mají vliv na americkou armádu a umožňují posílení cílů výcviku ze standardních kumulativních výnosů, jako je citlivost na rizika, bezpečnostní omezení, průzkum a kontroverze z minulosti.“

Je pozoruhodné, že v souvislosti s pozemními roboty je získávání dat podle něj nákladné.

„Snižování volatility akumulace odměn, efektivní prozkoumávání neznámé oblasti nebo začlenění předchozích zkušeností – to vše přispívá k odstranění překážek efektivity v převládající praxi posilovacího výcviku zmírněním náhodného vzorkování, které vyžaduje úplnou optimalizaci politiky,“ uvedl.

Budoucnost tohoto výzkumu je velmi jasná. Եւ Koppel věnoval své úsilí zpřístupnění nejnovější technologie svým vojákům na bojišti.

„Jsem optimista v tom, že autonomní roboti, kteří se učí posilovat, budou schopni pomoci bojovníkovi při dalším průzkumu, průzkumu a hodnocení rizik na bojišti,“ řekl Koppel. „Realizace této vize může být tím, co řídí výzkum, který věnuji svému úsilí.“

Dalším krokem v této studii je prozkoumat širší rozhodovací cíle, které běžné nástroje poskytují v posilovacím výcviku, v několika prostředích agenta, a zkoumat, jak interaktivní ujednání mezi agenty posilovacího tréninku generují v týmech synergické, antagonistické úsudky.

Podle Koppela bude technologie, která je výsledkem tohoto výzkumu, schopna uvažovat v podmínkách nejistoty scénářů týmu.

Odkaz; Generál Uny hang Angi, Alex Koppel, Amrit Singh Bedi, Saba Sepeswari են Mengdi Wang „Postupná metoda kolísání politiky v učení prostřednictvím obecných služeb“ NeurIPS řízení,
Odkaz

Tento výzkum byl proveden ve spojení s: Univerzita PrincetonNa University of Alberta և Google Deepmind se zaměřil NeurIPS 2020, jedna z premiérových konferencí, která usnadňuje výměnu výzkumu neurálních informačních systémů z biologického, technologického, matematického a teoretického hlediska.

Related articles

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Share article

Latest articles

Paleontologové řeší 150 let starou záhadu – a objevují novou skupinu hmyzu

Křídlo nového druhu Okanagrion hobani z fosilního naleziště McAbee v Britské Kolumbii je samoobslužným hmyzem nového podřádu Cephalozygoptera. Kredit: Copyright Zootaxa, použitý v...

„Houboví duchové“ chrání pokožku, látku před toxiny a zářením

Houboví duchové vznikají extrakcí biologického materiálu z buněk hub. Uznání: Nathan Gianneschi lab / Northwestern University Inspirován houbou, novou formou syntetického melaninu, který působí...

Vezmeme 2D materiály pro rotaci

Ilustrace konceptu výpočetní techniky Spintronic. Vědci z Ústavu fyziky vysokého tlaku na univerzitě v Tskubě vyvíjejí nový tranzistor disulfidu molybdenu, který vytváří obraz rotace elektronů,...

Dva astronauti. Dva dny otevřených dveří. Dvě nádherné krajiny.

23. května 2012 Dva astronauti. Otevřeno dva dny. Dva úžasné výhledy na střechu světa. Astronauti z Mezinárodní vesmírné stanice (ISS) pořídili tyto fotografie Himálaje,...

Mars, P Plejády, Jupiter, Saturn a další vrcholy vzdušného dozoru v březnu 2021

Co se děje v březnu? Mars S přáteli v noci je pár skvělých planet zpět ... V prvním nebo tak nějakém březnovém týdnu uvidíte Mars...

Newsletter

Subscribe to stay updated.