Spot wordt performanter dankzij Reinforcement Learning

Spot – de gekende hond-achtige robot van Boston Dynamics – heeft een nieuwe update van zijn controlesoftware gekregen waarin voor het eerst gebruikgemaakt wordt van een neuraal netwerk om de bewegingen van de robot aan te sturen. Het neuraal netwerk wordt getraind met Reinforcement Learning en helpt de robot om in moeilijk te definiëren omstandigheden de juiste keuzes te maken.

Hoewel robots zoals die van Boston Dynamics vaak aangehaald worden als toepassingen van artificiële intelligentie werkte Spot tot voor kort volledig op basis van klassieke controle-algoritmes. Daarbij werd gebruikgemaakt van Model Predictive Control (MPC) om op elk moment de optimale volgende actie van de robot te bepalen.

Een robot zoals Spot heeft vele vrijheidsgraden die op een gecoördineerde manier aangestuurd moeten worden om een gewenste beweging te bekomen. In het Engels noemt men de coördinatie van al die bewegingen de ‘gait’. Daarbij gaat het niet alleen over de beweging van de benen maar over de volledige houding die aangenomen wordt om op een stabiele manier bijvoorbeeld over een hindernis te stappen, een trap op te lopen of te herstellen na het uitglijden.

Model Predictive Control houdt in dat de sturing gebruikmaakt van een model dat vrij goed de dynamiek van de fysieke robot weergeeft, om na te gaan wat het effect zal zijn van het aannemen van een bepaalde houding.

Zodra de robot merkt dat hij zijn evenwicht verliest, bijvoorbeeld, zijn er meerdere acties waaruit hij kan kiezen zoals een stap terugzetten of net het versnellen van de huidige beweging. Voor de sturing betekende het dat hij simultaan met MPC het effect van al die mogelijkheden evalueerde om daaruit zeer snel af te leiden welke oplossing de beste kans had om zijn evenwicht te herstellen.

Ook in minder dramatische omstandigheden, maakte het algoritme gebruik van MPC om in functie van de omstandigheden een optimale gait te kiezen uit de verschillende vooraf gedefinieerde mogelijkheden.

Reinforcement Learning

Met de release van versie 4.0 van de sturing van de robot is er voor het eerst een neuraal netwerk toegevoegd om de gait te bepalen waarmee de robot gaat bewegen in functie van de omstandigheden. Dat neuraal netwerk wordt getraind met een methode uit artificiële intelligentie die Reinforcement Learning genoemd wordt.

Bij Reinforcement Learning laat men de robot in een gesimuleerde omgeving door trial & error de parameters van een neuraal netwerk bepalen tot een gewenste output bekomen wordt. Het neuraal netwerk met die parameters kan dan als controle-algoritme gebruikt worden om de robot in vergelijkbare omstandigheden tot het gewenste resultaat te laten komen.

Bij Boston Dynamics is men er bijvoorbeeld in geslaagd om dankzij Reinforcement Learning de robot veel stabieler te maken bij het stappen op gladde ondergronden. Het is een typische uitdaging waarbij de doelstelling zeer duidelijk gedefinieerd kan worden terwijl de nodige acties – de synchronisatie van opeenvolgende stappen en bijhorende houdingin – zeer complex is. Reinforcement Learning blijkt een efficiënte methode te zijn om in dat soort gevallen tot een performant algoritme te komen.

Researcher Kit

Boston Dynamics heeft nu samen met NVIDIA een Spot RL Researcher Kit ontwikkeld waarmee onderzoekers aan de slag kunnen gaan om op basis van Reinforcement Learning bijkomende algoritmes te ontwikkelen voor specifieke uitdagingen waarmee de robot geconfronteerd zou kunnen worden.

Onderzoekers aan The AI Institute, bijvoorbeeld, zijn er met die kit al in geslaagd om een algoritme te ontwikkelen dat Spot in staat stelt om veel sneller te lopen dan wat tot nu toe met de klassieke sturing mogelijk was.

De Spot robots worden wereldwijd al in een hele reeks van toepassingen ingezet en hebben samen al meer dan 250.000 km afgelegd. Boston Dynamics verwacht dat het aantal mogelijke toepassingen dankzij Reinforcement Learning sterk verhoogd zal worden.