Roboti vnímající prostor jako lidé

24. září 2020  ·  Mgr. Zdeňka Březinová

Aby mohli roboti reagovat na lidské příkazy a plnit je v roli plnohodnotných domácích pomocníků, budou muset být schopni vnímat své fyzické okolí jako lidé. K učinění veškerých nezbytných rozhodnutí, si budou muset umět vytvářet mentální model svého okolí, což často bývá namáhavé i pro člověka. U robota to znamená transformovat pixelové hodnoty přijímané skrz objektiv kamery do podoby chápání světa jako takového.

Luca Carlone, odborný asistent letectví a astronautiky na MIT se svými studenty vyvinul reprezentaci prostorového vnímání pro roboty, jež je vystavěno na principu, kterým svět vnímají a řídí lidé. Tento model nazvaný „3D Dynamic Scene Graphs“ (dynamické scénické 3D-grafy) umožňuje robotu rychle generovat 3D mapu svého okolí, jež obsahuje také objekty, lidi, místnosti, stěny a další struktury včetně jejich sémantických štítků. Model robotovi také umožňuje extrahovat z 3D mapy relevantní informace a zjišťovat umístění objektů a místností nebo pohyb osob. Takto vybavení roboti jsou vhodní pro práci na vysoké úrovni, kupříkladu po boku člověka v továrně či při pátrání po přeživších na místech postižených přírodní katastrofou.

Na rozdíl od většiny stávajících modelů využívajících 2D vyobrazení, nový model prostorového vnímání pro roboty generuje 3D mapu okolí v reálném čase a zároveň zaznamenává veškeré objekty, osoby (jež jsou na rozdíl od objektů dynamické) i struktury uvnitř oné 3D mapy.

Klíčovou součástí tohoto nového modelu je Kimera, knihovna s otevřeným zdrojovým kódem, kterou Carloneho tým vyvinul již dříve, a která v průběhu vytváření geometrického 3D modelu prostředí současně propočítává pravděpodobnost, že daný objekt je, řekněme, židlí versus stolem.

„Tak jako chiméra je mýtickou směsicí různých zvířat, chtěli jsme, aby Kimera byla směsicí mapování a sémantického porozumění ve 3D,“ říká Carlone.

Kimera přijímá streamované obrazy z kamery robota i inerciální měření z jeho palubních senzorů, a poté odhadne trajektorii robota či kamery a rekonstruuje scénu do 3D sítě, vše v reálném čase. Výsledkem je mapa prostředí robota, která se podobá husté trojrozměrné síti, v níž je každý povrch barevně označen jakožto součást objektů, struktur a lidí.

Navigace v prostředí založeném pouze na této síti by bylo výpočetně nákladné a časově náročné, proto ji vědci rozdělili do dynamických „scénických grafů“ (tato technologie bývá využívána k reprezentaci 3D prostředí ve videohrách). Robot tak ve výsledku „vidí“ scénu kolem sebe přes konkrétní vrstvu nebo čočku. Vrstvy jsou řazeny hieraticky od objektů a lidí přes otevřené prostory a struktury, jako jsou stěny a stropy, až po místnosti, chodby, haly a celé budovy. Díky této vrstvené reprezentaci robot nemusí rozumět miliardám bodů a ploch v původní 3D síti.

V rámci vrstvy objektů a lidí byli vědci schopni vyvinout také algoritmy, jež sledují pohyb a tvar lidí v prostředí v reálném čase. Tým otestoval svůj nový model na fotorealistickém simulátoru vyvinutém ve spolupráci s Lincolnovou laboratoří MIT, který simuluje navigaci robota v dynamickém kancelářském prostředí plném lidí pohybujících se kolem.

Tento výzkum je dalším krokem na cestě k nové éře robotického vnímání zvaného prostorová umělá inteligence, jež je sice zatím teprve v počátcích, má však velký potenciál v robotice i velkorozměrové virtuální a rozšířené realitě.

Významný dopad však tento revoluční způsob vnímání robotů může mít i na řadu dalších aplikací včetně samohybných aut, pátracích a záchranných prací, kooperativní výroby či domácí robotiky.

Zdroj:
https://www.rdworldonline.com/alexa-go-to-the-kitchen-and-fetch-me-a-snack/