Professional Documents
Culture Documents
THSE
Prsente devant
Pour obtenir
LE GRADE DE DOCTEUR
Par
YOUCEF ZENNIR
Jury
Cette thse a t prpare et soutenue au Centre de Recherche LGI2P de lcole des Mines dAls en
collaboration avec le Laboratoire d'Automatique Industrielle de l'INSA de Lyon.
A mes Parents,
mes Professeurs
et Souad ...
A mes Parents,
mes Professeurs
et Souad ...
INSA DE LYON
DEPARTEMENT DES ETUDES DOCTORALE
Septembre 2003
Chimie Inorganique
CHIMIE DE LYON M. D. SINOU M. R. GOURDON 910643
UCBL1 87.53
(Chimie, Procds, Environnement) 04.72.44.62.63 Sec 84.30 Sciences et Stratgies Analytiques
Sec 04.72.44.62.64 Fax 87.17 910634
EDA206 Fax 04.72.44.81.60
Sciences et Techniques du Dchet M. R. GOURDON
910675 Tl 87.53 Fax 87.17
EDA417
EDA 407
Informatique et Systmes Coopratifs pour lEntreprise
950131 M. A. GUINET
Tl 85.94 Fax 85.38
Biochimie M. M. LAGARDE
INTERDISCIPLINAIRE SCIENCES- M. A.J. COZZONE M. M. LAGARDE 930032 Tl 82.40 Fax 85.24
SANTE UCBL1 82.40
04.72.72.26.72 Fax 85.24
(EDISS) Sec 04.72.72.26.75
Fax 04.72.72.26.01
EDA205
EDA 409
Acoustique M. J.L. GUYADER
MECANIQUE, ENERGETIQUE, GENIE M. F. SIDOROFF M. G.DALMAZ 910016 Tl 80.80 Fax 87.12
CIVIL, ACOUSTIQUE ECL 83.03
04.72.18.61.56 Fax 04.72.89.09.80 Gnie Civil M. J.J.ROUX
(MEGA) Sec 04.72.18.61.60 992610 Tl 84.60 Fax 85.22
Fax 04.78.64.71.45
EDA162
Gnie Mcanique M. G. DALMAZ
992111 Tl 83.03
Fax 04.78.89.09.80
Thermique et Energtique
910018 M. J. F. SACADURA
Tl 81.53 Fax 88.11
En gris : Les Ecoles doctorales et DEA dont lINSA est tablissement principal
Novembre 2003
Directeur : STORCK A.
Professeurs :
AMGHAR Y. LIRIS
AUDISIO S. PHYSICOCHIMIE INDUSTRIELLE
BABOT D. CONT. NON DESTR. PAR RAYONNEMENTS IONISANTS
BABOUX J.C. GEMPPM***
BALLAND B. PHYSIQUE DE LA MATIERE
BAPTISTE P. PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERS
BARBIER D. PHYSIQUE DE LA MATIERE
BASKURT A. LIRIS
BASTIDE J.P. LAEPSI****
BAYADA G. MECANIQUE DES CONTACTS
BENADDA B. LAEPSI****
BETEMPS M. AUTOMATIQUE INDUSTRIELLE
BIENNIER F. PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERS
BLANCHARD J.M. LAEPSI****
BOISSE P. LAMCOS
BOISSON C. VIBRATIONS-ACOUSTIQUE
BOIVIN M. (Prof. mrite) MECANIQUE DES SOLIDES
BOTTA H. UNITE DE RECHERCHE EN GENIE CIVIL - Dveloppement Urbain
BOTTA-ZIMMERMANN M. (Mme) UNITE DE RECHERCHE EN GENIE CIVIL - Dveloppement Urbain
BOULAYE G. (Prof. mrite) INFORMATIQUE
BOYER J.C. MECANIQUE DES SOLIDES
BRAU J. CENTRE DE THERMIQUE DE LYON - Thermique du btiment
BREMOND G. PHYSIQUE DE LA MATIERE
BRISSAUD M. GENIE ELECTRIQUE ET FERROELECTRICITE
BRUNET M. MECANIQUE DES SOLIDES
BRUNIE L. INGENIERIE DES SYSTEMES DINFORMATION
BUFFIERE J-Y. GEMPPM***
BUREAU J.C. CEGELY*
CAMPAGNE J-P. PRISMA
CAVAILLE J.Y. GEMPPM***
CHAMPAGNE J-Y. LMFA
CHANTE J.P. CEGELY*- Composants de puissance et applications
CHOCAT B. UNITE DE RECHERCHE EN GENIE CIVIL - Hydrologie urbaine
COMBESCURE A. MECANIQUE DES CONTACTS
COURBON GEMPPM
COUSIN M. UNITE DE RECHERCHE EN GENIE CIVIL - Structures
DAUMAS F. (Mme) CENTRE DE THERMIQUE DE LYON - Energtique et Thermique
DJERAN-MAIGRE I. UNITE DE RECHERCHE EN GENIE CIVIL
DOUTHEAU A. CHIMIE ORGANIQUE
DUBUY-MASSARD N. ESCHIL
DUFOUR R. MECANIQUE DES STRUCTURES
DUPUY J.C. PHYSIQUE DE LA MATIERE
EMPTOZ H. RECONNAISSANCE DE FORMES ET VISION
ESNOUF C. GEMPPM***
EYRAUD L. (Prof. mrite) GENIE ELECTRIQUE ET FERROELECTRICITE
FANTOZZI G. GEMPPM***
FAVREL J. PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERS
FAYARD J.M. BIOLOGIE FONCTIONNELLE, INSECTES ET INTERACTIONS
FAYET M. MECANIQUE DES SOLIDES
FAZEKAS A. GEMPPM
FERRARIS-BESSO G. MECANIQUE DES STRUCTURES
FLAMAND L. MECANIQUE DES CONTACTS
FLEURY E. CITI
FLORY A. INGENIERIE DES SYSTEMES DINFORMATIONS
FOUGERES R. GEMPPM***
FOUQUET F. GEMPPM***
FRECON L. REGROUPEMENT DES ENSEIGNANTS CHERCHEURS ISOLES
GERARD J.F. INGENIERIE DES MATERIAUX POLYMERES
GERMAIN P. LAEPSI****
GIMENEZ G. CREATIS**
GOBIN P.F. (Prof. mrite) GEMPPM***
GONNARD P. GENIE ELECTRIQUE ET FERROELECTRICITE
GONTRAND M. PHYSIQUE DE LA MATIERE
GOUTTE R. (Prof. mrite) CREATIS**
GOUJON L. GEMPPM***
GOURDON R. LAEPSI****.
GRANGE G. GENIE ELECTRIQUE ET FERROELECTRICITE
GUENIN G. GEMPPM***
GUICHARDANT M. BIOCHIMIE ET PHARMACOLOGIE
GUILLOT G. PHYSIQUE DE LA MATIERE
GUINET A. PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERS
GUYADER J.L. VIBRATIONS-ACOUSTIQUE
GUYOMAR D. GENIE ELECTRIQUE ET FERROELECTRICITE
HEIBIG A. MATHEMATIQUE APPLIQUEES DE LYON
JACQUET-RICHARDET G. MECANIQUE DES STRUCTURES
JAYET Y. GEMPPM***
JOLION J.M. RECONNAISSANCE DE FORMES ET VISION
Novembre 2003
JULLIEN J.F. UNITE DE RECHERCHE EN GENIE CIVIL - Structures
JUTARD A. (Prof. mrite) AUTOMATIQUE INDUSTRIELLE
KASTNER R. UNITE DE RECHERCHE EN GENIE CIVIL - Gotechnique
KOULOUMDJIAN J. INGENIERIE DES SYSTEMES DINFORMATION
LAGARDE M. BIOCHIMIE ET PHARMACOLOGIE
LALANNE M. (Prof. mrite) MECANIQUE DES STRUCTURES
LALLEMAND A. CENTRE DE THERMIQUE DE LYON - Energtique et thermique
LALLEMAND M. (Mme) CENTRE DE THERMIQUE DE LYON - Energtique et thermique
LAUGIER A. PHYSIQUE DE LA MATIERE
LAUGIER C. BIOCHIMIE ET PHARMACOLOGIE
LAURINI R. INFORMATIQUE EN IMAGE ET SYSTEMES DINFORMATION
LEJEUNE P. UNITE MICROBIOLOGIE ET GENETIQUE
LUBRECHT A. MECANIQUE DES CONTACTS
MASSARD N. INTERACTION COLLABORATIVE TELEFORMATION TELEACTIVITE
MAZILLE H. PHYSICOCHIMIE INDUSTRIELLE
MERLE P. GEMPPM***
MERLIN J. GEMPPM***
MIGNOTTE A. (Mle) INGENIERIE, INFORMATIQUE INDUSTRIELLE
MILLET J.P. PHYSICOCHIMIE INDUSTRIELLE
MIRAMOND M. UNITE DE RECHERCHE EN GENIE CIVIL - Hydrologie urbaine
MOREL R. MECANIQUE DES FLUIDES ET DACOUSTIQUES
MOSZKOWICZ P. LAEPSI****
NARDON P. (Prof. mrite) BIOLOGIE FONCTIONNELLE, INSECTES ET INTERACTIONS
NELIAS D. LAMCOS
NIEL E. AUTOMATIQUE INDUSTRIELLE
NORMAND B. GEMPPM
NORTIER P. DREP
ODET C. CREATIS**
OTTERBEIN M. (Prof. mrite) LAEPSI****
PARIZET E. VIBRATIONS-ACOUSTIQUE
PASCAULT J.P. INGENIERIE DES MATERIAUX POLYMERES
PAVIC G. VIBRATIONS-ACOUSTIQUE
PECORARO S. GEMPPM
PELLETIER J.M. GEMPPM***
PERA J. UNITE DE RECHERCHE EN GENIE CIVIL - Matriaux
PERRIAT P. GEMPPM***
PERRIN J. INTERACTION COLLABORATIVE TELEFORMATION TELEACTIVITE
PINARD P. (Prof. mrite) PHYSIQUE DE LA MATIERE
PINON J.M. INGENIERIE DES SYSTEMES DINFORMATION
PONCET A. PHYSIQUE DE LA MATIERE
POUSIN J. MODELISATION MATHEMATIQUE ET CALCUL SCIENTIFIQUE
PREVOT P. INTERACTION COLLABORATIVE TELEFORMATION TELEACTIVITE
PROST R. CREATIS**
RAYNAUD M. CENTRE DE THERMIQUE DE LYON - Transferts Interfaces et Matriaux
REDARCE H. AUTOMATIQUE INDUSTRIELLE
RETIF J-M. CEGELY*
REYNOUARD J.M. UNITE DE RECHERCHE EN GENIE CIVIL - Structures
RICHARD C. LGEF
RIGAL J.F. MECANIQUE DES SOLIDES
RIEUTORD E. (Prof. mrite) MECANIQUE DES FLUIDES
ROBERT-BAUDOUY J. (Mme) (Prof. mrite) GENETIQUE MOLECULAIRE DES MICROORGANISMES
ROUBY D. GEMPPM***
ROUX J.J. CENTRE DE THERMIQUE DE LYON Thermique de lHabitat
RUBEL P. INGENIERIE DES SYSTEMES DINFORMATION
SACADURA J.F. CENTRE DE THERMIQUE DE LYON - Transferts Interfaces et Matriaux
SAUTEREAU H. INGENIERIE DES MATERIAUX POLYMERES
SCAVARDA S. AUTOMATIQUE INDUSTRIELLE
SOUIFI A. PHYSIQUE DE LA MATIERE
SOUROUILLE J.L. INGENIERIE INFORMATIQUE INDUSTRIELLE
THOMASSET D. AUTOMATIQUE INDUSTRIELLE
THUDEROZ C. ESCHIL Equipe Sciences Humaines de lInsa de Lyon
UBEDA S. CENTRE DINNOV. EN TELECOM ET INTEGRATION DE SERVICES
VELEX P. MECANIQUE DES CONTACTS
VIGIER G. GEMPPM***
VINCENT A. GEMPPM***
VRAY D. CREATIS**
VUILLERMOZ P.L. (Prof. mrite) PHYSIQUE DE LA MATIERE
C'est avec un grand plaisir que je remercie les personnes qui de prs ou de loin, ont
contribu la ralisation de cette thse.
Je remercie les membres du jury de cette thse : Maurice Btemps, Professeur au LAI
de l'INSA de Lyon, Pierre Couturier, Matre assistant au LGI2P, Denis Floutier, Professeur
l'ESIA de Universit de Savoie, Nadine Le Fort-Piat, Professeur l'ENSMM de Besanon,
Pascal Poncelet, Professeur au LGI2P, et Claude Touzet, Matre de confrence et HDR au
LNIA de l'Universit de Provence et tout particulirement les rapporteurs Nadine Le Fort-Piat
et Claude Touzet qui ont accept d'examiner cette thse.
Je remercie mes parents, ma femme, mes surs et mes frres qui m'ont soutenu tout au
long de ma thse, sans oublier mes deux oncles Ali et Hocine et leurs familles.
Enfin, je voudrais remercier les personnes que j'ai ctoyes de prs : Selim, Kamel,
Mohamed, Mourad, Abdenour, Abdelghani, Djamal, Nawel, Rachid, Monika, Ursula, Djamel,
Abdellah, Jihad, Christophe, Michael, Herve, Kristophe, Himanshu, Manoj, Alain, et
l'ensemble des thsards du LGI2P.
RSUM
Lhypothse forte sur laquelle repose ce travail est quun centre unique de dcision
central n'est pas ncessaire pour commander les mouvements de locomotion. Plus
gnralement nous tudions comment plusieurs entits ou agents (acteurs) indpendants
peuvent contribuer un objectif global alors quils acquirent par apprentissage un
comportement pour satisfaire leur propre objectif local.
Une tude bibliographique prsente une synthse de travaux portant sur les lois de la
marche des insectes, sur les modles de robots hexapodes et sur les diffrentes mthodes
dapprentissage par renforcement dans le cas mono-acteur ou multi-acteurs. Cette tude a
permis de dfinir un modle gomtrique de simulation intgrant le contrle de la posture du
robot. Elle a aussi permis de concevoir la fonction critique associe chaque contrleur de
mouvement considr comme agent dot d'une certaine autonomie.
The goal of this thesis is to study and to develop reinforcement learning techniques in
order a hexapod robot to learn to walk. The main assumption on which this work is based is
that effective gaits can be obtained as the control of the movements is distributed among the
legs rather than centralised in a single decision center.
A state of the art study presents a synthesis of research work related to: the walk of the
insects, the mechanical, geometrical and dynamical models of hexapod robots and various
reinforcement learning methods and algorithms in the case of single agent or many agents.
The centralized and distributed approaches are compared. Different simulations and
tests are carried out so as to generate stable periodic gaits. The influence of the learning
parameters on the quality of the gaits are studied. The walk appears as an emerging
phenomenon from the individual movements of the legs. Problems of fault tolerance and lack
of state information are investigated. Finally it is verified that with the developed algorithm
the simulated robot learns how to reach a desired trajectory while controlling its posture.
INTRODUCTION________________________________________________________ 12
1. PROBLMATIQUE__________________________________________________ 13
2. LE BUT DE LA THSE_______________________________________________ 13
4. PLAN DE LA THSE_________________________________________________ 14
CHAPITRE 1
1.1 INTRODUCTION____________________________________________________ 17
CHAPITRE 2
2.1 INTRODUCTION____________________________________________________ 31
1
2.3.1. Modles logiques __________________________________________________ 36
2.3.2. Modles gomtriques ______________________________________________ 37
2.3.3. Les modles dynamiques des robots hexapodes___________________________ 40
2.3.4. Conclusion sur les modles de robots hexapode __________________________ 47
2.4 LES SYSTMES DE CONTRLE COMMANDE_________________________ 47
2.4.1. Architecture des systmes de commande ________________________________ 47
2.5 TABLEAU RCAPITULATIF _________________________________________ 52
CHAPITRE 3
2
CHAPITRE 4
4.1 INTRODUCTION_____________________________________________________ 83
CHAPITRE 5
5.1 INTRODUCTION____________________________________________________ 99
3
5.6.2. Gnration de diffrents types de marche ______________________________ 110
5.6.2.1. Obtention de marches priodiques ____________________________________________ 111
5.6.2.2. Influence de la fonction critique supplmentaire _________________________________ 114
5.6.2.3. Influence de la fonction symtrie _____________________________________________ 116
5.6.2.4. Les cycles attracteurs ______________________________________________________ 118
5.6.3. Influence du facteur doubli et du pas du gradient ______________________ 119
5.6.4. Evolution des Fonctions valeurs______________________________________ 124
5.6.5. Influence du choix des entres _______________________________________ 126
5.6.6. Tolrance aux fautes _______________________________________________ 130
5.7 COMPARAISON ENTRE LAPPROCHE CENTRALISE ET LAPPROCHE
DISTRIBUE ___________________________________________________________ 131
5.7.1. Influence de limplmentation de la fonction Q__________________________ 131
5.7.2. Influence du facteur coefficient de pondration et du pas dapprentissage __ 133
5.8 RSUM __________________________________________________________ 138
1. SYNTHSE__________________________________________________________ 155
1.1 Ce travail de recherche a t organis autour, des trois activits suivantes : ___ 155
1.2 Les principales contributions de ce travail de recherche sont : ______________ 157
2. PRINCIPAUX RSULTATS ___________________________________________ 157
BIBLIOGRAPHIE
BIBLIOGRAPHIE _______________________________________________________ 160
4
Liste des Figures
CHAPITRE 1
CHAPITRE 2
5
CHAPITRE 3
CHAPITRE 4
CHAPITRE 5
6
Fig. 5. 11 Marche 54 63 45 27 avec un enchanement incorrect des mouvements de
proaction.. ........................................................................................................................ 115
Fig. 5. 12 Chronogramme de la marche quatre temps (54 61 47 27). ................................ 115
Fig. 5. 13 Chronogramme de la marche a six temps (63 59 31 61 55 62).. .......................... 117
Fig. 5. 14 Chronogramme de la marche a six temps (47 23 31 61 55 62). ........................... 118
Fig. 5. 15 Exemples de cycles attracteurs. ............................................................................. 119
Fig. 5. 16 Nombre moyen dpisodes sans marche en fonction de . .................................... 120
Fig. 5. 17 Dure moyenne des pisodes qui se terminent par une marche en fonction de . . 120
Fig. 5. 18 Variation du nombre moyen des chutes sur les pisodes qui se terminent par une
marche en fonction de . .................................................................................................. 121
Fig. 5. 19 Influence du pas de gradient sur : le nombre moyen de chutes pour les pisodes
qui se terminent par une marche, la dure moyenne des pisodes qui se terminent par une
marche, le nombre moyen des pisodes sans chute et le nombre moyen de marches
diffrentes trouves.......................................................................................................... 122
Fig. 5. 20 Influence de pas de gradient sur la priode des marches trouves. .................... 123
Fig. 5. 21 Influence de pas de gradient sur la priode des marches trouves.. ................... 123
Fig. 5. 22 Evolution des 6 courbes Q pour ltat 53 en fonction du temps dans le cas
caractristique o une marche ttrapode.. ....................................................................... 125
Fig. 5. 23 Evolution des 6 courbes Q pour ltat 53 en fonction du temps dans le cas
caractristique o une marche ttrapode.. ....................................................................... 125
Fig. 5. 24 A : Srie de signaux de renforcement (pnalits et rcompenses) reus en fin
dpisodes par les agents.. ............................................................................................... 126
Fig. 5. 25 Changement dinformation dtats entre les pattes................................................ 127
Fig. 5. 26 Changement dinformation dtats entre les pattes................................................ 127
Fig. 5. 27 Changement dinformation dtats entre les pattes................................................ 127
Fig. 5. 28 Changement dinformation dtats entre les pattes................................................ 127
Fig. 5. 29 Influence du facteur doubli sur le nombre des pisodes sans marche.. ........... 134
Fig. 5. 30 Influence du facteur doubli sur la dure moyenne des pisodes qui se termine
par une marche................................................................................................................. 134
Fig. 5. 31 Influence du facteur doubli sur le nombre moyen des chutes sur les pisodes qui
se termine par une marche.. ............................................................................................. 135
Fig. 5. 32 Influence du pas de gradient sur le nombre moyen de chutes pour les pisodes qui
se terminent par une marche, la dure moyenne des pisodes qui se terminent par une
marche, le nombre moyen des pisodes sans chutes et le nombre moyen de marches
diffrentes trouves.......................................................................................................... 136
Fig. 5. 33 Influence du pas de gradient sur la priode des marches trouves. Laxe
horizontal (T): priode des marches.. .............................................................................. 137
Fig. 5. 34 Influence du pas de gradient sur la priode des marches trouves. Laxe
horizontal (T): priode des marches.. .............................................................................. 138
Fig. 5. 35 Limitations de lalgorithme Q-learning classique.................................................. 140
Fig. 5. 36 Matrice des valeurs de Q pour chaque agent. ........................................................ 141
Fig. 5. 37 Tableau des valeurs tat -action tenant compte du choix des actions des autres
agents. .............................................................................................................................. 142
Fig. 5. 38 Polygone de configuration de rfrence. ............................................................... 146
Fig. 5. 39 Contrle de la posture en utilisant lanalogie des ressorts .................................... 147
Fig. 5. 40 Contrle de changement de trajectoire. ................................................................. 149
Fig. 5. 41 Codage des espaces d' tat et d'action.................................................................... 150
Fig. 5. 42 Les diffrentes positions initiales de test. .............................................................. 151
Fig. 5. 43 Trajectoire du robot hexapode dans le plan x,y. .................................................... 152
Fig. 5. 44 Variation de langle de rotation G autour de Gz................................................... 152
7
Fig. 5. 45 Trajectoire du robot hexapode, position du centre de gravit dans le plan x,y...... 153
Fig. 5. 46 Variation de langle de rotation G autour de Gz................................................... 153
8
Liste des Tableaux
CHAPITRE 1
Tableau. 1. 1 Mesures de PAE et PPE en mm, effectue sur une population minimale de 63
sujets de la mme espce [Cru 76a],[Cru 76b]. ________________________________ 25
Tableau. 1. 2 Diffrents travaux sur la marche des insectes. _________________________ 29
CHAPITRE 2
CHAPITRE 3
CHAPITRE 4
CHAPITRE 5
9
Tableau. 5. 15 Les marches trouves. .................................................................................... 119
Tableau. 5. 16 Paramtres de simulation pour ltude de linfluence de ............................. 120
Tableau. 5. 17 Paramtres de simulation................................................................................ 125
Tableau. 5. 18 Paramtres de simulations. ............................................................................. 129
Tableau. 5. 19 Les marches trouves, cas 1 : ......................................................................... 129
Tableau. 5. 20 Les marches trouves, cas 2 : chaque patte ne connat que l'tat des pattes
situes du mme ct. ...................................................................................................... 129
Tableau. 5. 21 Les marches trouves, cas 3 : ......................................................................... 130
Tableau. 5. 22 Les marches trouves dans le cas 4 : ............................................................ 130
Tableau. 5. 23 Les marches trouves ( =0.9, D_max_ret=3, D_min_ret=D_max_ret, ....... 131
Tableau. 5. 24 Les marches trouves avec un apprentissage par renforcement centralis, un
seul tableau (64*64) de valeurs Q pour lensemble des agents et un signal de
renforcement global. ........................................................................................................ 133
Tableau. 5. 25 Les marches trouves avec une architecture hirarchise (slection daction en
local), un tableau (64*2) de valeurs Q pour chacun des 6 agents et un signal de
renforcement global. ........................................................................................................ 133
Tableau. 5. 26 Les marches trouves avec un apprentissage par renforcement distribu, un
tableau (64*2) de valeurs Q pour chacun des 6 agents recevant son propre signal de
renforcement. ................................................................................................................... 133
Tableau. 5. 27 Paramtres de simulation pour ltude de linfluence de ............................. 134
Tableau. 5. 28 Comparaison entre lapproche distribue et hirarchise par rapport.............. 136
10
Liste des Algorithmes
CHAPITRE 3
CHAPITRE 4
CHAPITRE 5
11
INTRODUCTION
Les robots de diffrents types (robots manipulateurs, robots nageurs, robots roues,
robots marcheurs) et la Robotique en gnral jouent un rle trs important dans le secteur
industriel et aussi de plus en plus dans les secteurs de services comme l'entretien,
l'exploration, la mdecine. Les structures, formes et fonctionnalits de ces robots doivent tre
adaptes lenvironnement avec lequel ils interagissent.
Les robots manipulateurs peuvent tre utiliss pour des tches de tri, dassemblage
(notamment dans le secteur automobile) ou plus rcemment pour dautres oprations
exigeant de la prcision par exemple en chirurgie [Lai 04]. Les robots nageurs sont utiliss
pour explorer et filmer la vie sous-marine, travailler sur les fonds marins, rechercher ou
rcuprer des objets trs importants comme la boite noire dun avion qui est tomb dans la
mer ou des vestiges historiques comme l'pave du "Titanique" ou celles de navires antiques.
Les robots rouleurs, peuvent avoir un nombre variable de roues (2, 4, 6 et mme 8)
selon la charge transporter et aussi selon lapplication. Ces robots sont utiliss dans
lindustrie pour leur capacit se dplacer avec une vitesse importante. Cependant ils sont
mal adapts aux terrains accidents ou aux environnements mal connus. Des modles de
conception gomtrique, mcanique ou lectronique doivent alors tre tudis
spcifiquement comme c'est le cas des robots envoys par la NASA pour lexploration de la
Lune et de la plante Mars, (ex. Robot RWC, utilis pour ports des charges).
Les robots marcheurs, peuvent tre trs diffrents par leur forme et par leur nombre
de pattes. Il existe des robots deux pattes (robot bipde BIP 2000 [Aze 00]), quatre pattes
(robot quadripode de Sony imitant un chien) et des robots six pattes (le robot R-III [Nel
97], [Qui 01] ou le robot R-V [Kin 03]) et des robots huit pattes (robot scorpion de
Klaassen Bernhard et Frank Kirchner [ Ber 02] dont l'objectif est de faire traverser au robot
40 kilomtres du dsert Mojave de Californie jusqu' un point dtermin, puis de revenir
son point de dpart), etc.
Les robots marcheurs six pattes (robots hexapodes) prsentent en gnral des
similitudes avec des insectes capables de se dplacer dans des terrains naturels, ils peuvent
emprunter par exemple leurs principes de marche. Ils prsentent un bon compromis entre
complexit de conception, stabilit et mobilit. Ils peuvent tre utiles pour accder des
zones dangereuses pour lHomme comme les sites nuclaires ou lespace. La ncessit de
matriser les interactions du robot avec son environnement, de coordonner les mouvements
pendant la marche, de contrler l'quilibre et la posture rend ces systmes difficiles
commander surtout lorsque ces robots hexapodes possdent un grand nombre de degrs de
libert (le robot R-V |Kin 03] possde 24 degrs de libert).
Nous dgageons dans le paragraphe suivant plusieurs problmes lis la conception des
robots hexapodes.
12
1. Problmatique
Les questions suivantes se posent pour concevoir un robot hexapode pouvant voluer
dans un environnement inconnu :
Parmi les principes de marches observs chez les insectes, quel sont ceux qui
peuvent tre utilement appliqus aux robots hexapodes ?
2. Le but de la thse
Le but de la thse est dtudier des techniques dapprentissage par renforcement pour
lapprentissage de la marche dun robot hexapode pouvant voluer dans un environnement
inconnu. Lhypothse forte sur laquelle repose ce travail est quun unique centre de dcision
central n'est pas ncessaire pour commander les mouvements de locomotion. Plus
gnralement nous tudions comment plusieurs entits ou agents indpendants peuvent
contribuer un objectif global alors quils acquirent par apprentissage un comportement
pour satisfaire leur propre objectif local.
13
3. Synthse de la dmarche propose
Dans le domaine biologique, plusieurs chercheurs ont tudi la marche des insectes.
Wilson [Wil 66], a ainsi propos des rgles qui dcrivent lenchanement des mouvements de
marche. Nous nous sommes inspirs de ces rgles pour valuer la qualit des mouvements de
marche.
Pour traiter des actions autres que binaires, nous avons opt pour un apprentissage par
renforcement de type Q-learning (Watkins 1989). Pour simplifier la tche de commande, elle
est distribue sur lensemble des pattes (Q-learning distribu), chaque patte recevant son
propre signal de renforcement. Cette approche est pousse jusqu considrer chaque patte
comme un agent autonome, et nous nous sommes intresss lapprentissage dans le cas de
systmes multi-acteurs.
4. Plan de la thse
Ce manuscrit est structur autour des chapitres suivants :
Chapitre 1 :
Dans le chapitre un, sont prsentes des notions de base sur les insectes marcheurs,
leurs structures biologiques, leurs modes et rgles de marche dans la nature. Quelques
notions et dfinitions sur le maintien, l'quilibre, la posture, le mouvement, la marche, la
locomotion, la navigation sont donnes.
Chapitre 2 :
14
Chapitre 3 :
Dans le troisime chapitre, est prsent un tat de lart sur lapprentissage par
renforcement avec les diffrentes mthodes et algorithmes dapprentissage (Programmation
dynamique, mthode de Monte Carlo, mthodes de diffrence temporelle). Nous insistons sur
des mthodes d'apprentissage bases sur les diffrences temporelles comme le Q-learning et
certaines de ses variantes. Nous dcrivons des applications de lapprentissage par
renforcement pour le contrle de la marche d'un robot hexapode et analysons leurs limites.
Chapitre 4 :
Dans le quatrime chapitre, est abord lapprentissage par renforcement dans les
systmes non centraliss. Aprs avoir identifi les limites du Q-learning mono-agent, sont
prsentes les approches thoriques et les algorithmes proposs pour tendre le Q-learning
dans le cas des systmes multi-acteurs.
Chapitre 5 :
Considrant chaque patte du robot comme un agent, nous distinguons le cas o les six
agents signorent de celui o ils prennent leurs dcisions en tenant compte des actions
excutes par les autres. Pour ce dernier cas, une version particulire dalgorithme Q-learning
est propose dans le cadre des systmes multi-acteurs. Puis, est abord le problme despace
daction et dtat continus.
Enfin nous rcapitulons les rsultats obtenus et ouvrons des perspectives pour de
futurs travaux.
15
5. La contribution de cette thse
La contribution de ce travail de recherche concerne principalement les points
suivants :
16
Chapitre 1
"Ce qui se conoit bien, s'nonce clairement et les mots pour le dire viennent aisment "
"Boileau"
1.1 Introduction
Nous introduisons dans ce chapitre des dfinitions et notions relatives la marche.
Nous prsentons certains rsultats d'tudes biologiques qui ont pour but de comprendre les
principes utiliss par les insectes pour marcher dans diffrents environnements. Ainsi sont
prsentes les rgles que semblent suivre les insectes pour coordonner les pattes, maintenir
lquilibre, et s'adapter au terrain. Diffrents termes tels que le mouvement, le maintien, la
stabilit, la posture, sont utiliss pour dfinir et caractriser la marche dun insecte ou dun
robot hexapode. Nous prcisons ces dfinitions et introduisons la terminologie que nous
emploierons dans la suite de notre travail.
Les insectes appartiennent au groupe des arthropodes et sont dots de trois paires de
pattes. Les insectes sont de taille variable : les plus petits mesurent moins de 0,25 cm. Les
plus grands atteignent la taille de petits mammifres. Par exemple, certains phasmes mesurent
30 cm de long ; une espce de scarabe, le dynaste, dpasse 16 cm et certains papillons
peuvent atteindre 30 cm denvergure.
17
Chapitre 1 : La marche des insectes
Le corps des insectes, de mme que celui des autres arthropodes, est form par un
certain nombre dlments appels segments (ou mtamres) disposs la suite les uns des
autres. Chez tous les insectes, le thorax est form de trois segments distincts. Chaque segment
porte une paire de pattes. La forme des pattes varie en fonction de lutilisation qui en est faite.
Elles peuvent en effet servir la marche, comme chez le hanneton, au saut, comme chez la
sauterelle, la nage, ce qui est le cas du dytique, ou encore au fouissage dans le sol
(courtilire ou taupe-grillon). Elles peuvent galement servir des activits beaucoup plus
spcialises, comme chez labeille, pour la rcolte et le transport du pollen.
Dans tous les cas, la patte est constitue par cinq pices appeles segments. Ces
segments, articuls entre eux, ont reu les noms de hanche (ou coxa), trochanter, fmur,
tibia et tarse (la tarse et les griffes ou parfois les coussinets ne faisant quun). La hanche
assure larticulation de la patte sur le thorax. Chez les insectes de type marcheur les hanches
sont de taille importante dcuplant ainsi la force des pattes. On notera encore que chez
certaines espces le tibia et le tarse peuvent tre souds donnant naissance au tibiotarse ou que
les pattes vont mme jusqu tre atrophies.
18
Chapitre 1 : La marche des insectes
Les diffrentes articulations dune patte sont mises en vidence sur la figure 1.2 suivante :
Aprs avoir prsent quelques notions sur les insectes et leurs anatomies, nous
dfinissons dans la suite la marche qui est un de leurs modes de locomotion.
1.2.2. Le mouvement
Daprs J. Massion [Mas 97], le mouvement est une source de dsquilibre qui change
la gomtrie du corps, et modifie la position de son centre de gravit. Le corps est compos de
segments comme, la tte, le tronc, les membres, ces derniers tant eux mmes composs de
plusieurs segments reliant les articulations. Pour stabiliser le centre de gravit lors du
dplacement dun segment, il faut que dautres segments participent au mouvement.
Parmi les mouvements actifs on discerne les mouvements volontaires, les mouvements
rflexes et les mouvements automatiques :
Les mouvements volontaires sont des mouvements qui apparaissent sans stimulus
extrieur apparent, sur la base dune consigne interne.
19
Chapitre 1 : La marche des insectes
1.2.3. Le maintien
1.2.4. La stabilit
1.2.5. La posture
La posture est dfinie par la position des diffrents segments un moment donn dans
lenvironnement. La posture assure essentiellement deux fonctions [Mas 97]:
J.Porta, propose un modle de la posture des robots marcheurs tels que des hexapodes
[Cel 98a]. Ce modle sappuie sur la notion de polygone de configuration :
Le contrle de la posture consiste alors dplacer le corps par rapport aux points de
contact au sol de faon amliorer la stabilit et la mobilit du robot marcheur [Cel 98a].
20
Chapitre 1 : La marche des insectes
1.2.6. La marche
La marche est lun des principaux moyens utiliss pour assurer le dplacement de
lensemble du corps vers un point prcis de lespace, la marche doit rpondre simultanment
plusieurs exigences.
Elle doit, en premier lieu propulser le corps selon un axe principal, c'est dire vers
l'avant ou vers l'arrire. Cette propulsion doit pouvoir tre module en vitesse, de
manire rpondre aux exigences lies la motivation et l'environnement.
Le dplacement du corps au cours de la marche doit pouvoir tre orient vers un but (il
faut pouvoir incurver la trajectoire droite ou gauche pour se diriger vers ce but).
Le cycle de marche (dune jambe ou dune patte) dfinit lensemble des vnements
articulaires et musculaires qui se produisent entre deux appuis successifs au sol. Ce cycle
comprend deux phases, la phase de balancement et la phase dappui. Lors dun
dplacement vers lavant la phase de balancement ou "proaction" (return stroke) est la
phase pendant laquelle le membre se dplace dans lair vers l'avant du corps et la phase
dappui ou "retraction" (power stroke) correspond la phase pendant laquelle le membre
est en contact avec le sol puis se dplace vers l'arrire du corps, cette phase se dcompose en
deux temps (un temps de contact avec le sol et le temps de pousse, c'est--dire la propulsion
du corps vers lavant).
PAE (Position Antrieur Extrme) : est la position limite vers lavant, partir de
laquelle la patte commence la phase de rtraction.
PPE (Position Postrieur Extrme) : est la position limite vers larrire, o la patte
commence la phase de proaction.
21
Chapitre 1 : La marche des insectes
Appui (rtraction)
A0
Balancement
(proaction)
B0
Fig. 1. 3 Cycle locomoteur. A0 (PAE) : valeur initiale de lappui. B0 (PPE) : valeur initiale
de balancement
1.2.7. La Locomotion
la gravit
la pousse ralise par linsecte.
le frottement qui dtermine si linsecte glisse ou possde un point dappui.
Le premier mcanisme est de faire varier la frquence des pas situes droite et
gauche, tandis que le maintien de la coordination est assur.
Dans le deuxime mcanisme les pattes situes dun ct de l'insecte avancent tandis
que simultanment les pattes situes de lautre ct reculent. Ce mouvement provoque
une rotation sur place.
22
Chapitre 1 : La marche des insectes
Troisime mcanisme : certains insectes utilisent une des pattes du milieu pour
pousser sur le substrat dans des directions diffrentes (spcialement les cafards qui
peuvent changer ainsi rapidement dorientation pendant une fuite) [Cam 88], [Bee91].
Quatrime mcanisme : les pattes situes des deux ctes de l'insecte sont dcouples,
les pattes situes l'extrieur de la courbe marchant avec un frquence plus leve.
Cinquime mcanisme : alors que la coordination entre les pattes situes de part et
dautre de linsecte est maintenue, lamplitude des pas des pattes qui se trouvent
l'extrieur de la courbe est augmente tandis que lamplitude des pas des pattes se
trouvant l'intrieur de la courbe est diminue provoquant ainsi une marche incurve
[Cru 90], [Cru 90] [Cym 98].
Les mcanismes un et quatre sont observs chez les insectes phasmes D. Graham, [Gra
85]. D'aprs U. Bssler [Bs 85], la rotation ce fait gnralement par le changement
d'amplitude des pas, plutt que par le changement de frquence des pas, et d'aprs J.P. Jander
[Jan 85], le comportement de rotation dpend des efforts exercs sur les pattes.
1.2.11. Navigation
La navigation de l'insecte est base sur un procd d'intgration de chemin, par lequel
les informations sur l'environnement et sur la distance de dplacement sont combines pour
calculer la position. L'intgration de chemin a t postule pour tre le mcanisme principal
qui permet aux insectes de retrouver leur chemin vers le nid [Lab 02]. Pour employer ce
mcanisme de navigation, les deux informations de distance et des information directionnelles
doivent tre disponibles [Lab 02]. Pour mesurer et intgrer les composants angulaires et
linaires des mouvements l'insecte se base sur la position du soleil et la lumire polarise du
23
Chapitre 1 : La marche des insectes
ciel [Lam 00]. Par exemple, les abeilles se basent sur le flux optique reu pendant le vol [Lab
02]. L'intgration de chemin exige une mmoire, qui permet l'insecte de mmoriser pendant
la navigation une valuation courante de la direction et de la distance par rapport au nid. Une
telle mmoire est normalement de courte dure, d au processus de mise jour, mais elle peut
persister pendant plusieurs heures si l'insecte est confin [Lam 00] .
Les fourmis emploient des marqueurs chimiques pour crer des chemins, mais
lapprentissage de routes familires constitue galement une stratgie efficace : la fourmi
'Gigantiops destructor' fourrage en solitaire et emploie de telles routes lors des sorties hors du
nid [Mac 04]. Le dveloppement des yeux chez cette espce lui permet d'utiliser des repres
visuels dans le milieu naturel pour le guidage le long des routes familires La forme dune
route familire est influence par la position des objets dans lenvironnement et par la rponse
de linsecte ces objets [Mac 04].
Nous prsentons en figure 1.4, quelques chronogrammes des marches observes par
Wilson chez les insectes, repris par C. Ferrell [Fer 93], et M.J. Randall [Ran 99]. Dans la
marche tripode il y a toujours trois pattes en contact avec le sol, cette marche est utilise dans
le cas o linsecte veut marcher vite et avec peu de charge. Dans la marche ttrapode, il y a
toujours quatre pattes en contact avec le sol et cette marche est utilise dans le cas o linsecte
veut marcher lentement avec une charge importante.
D3
D2
Marche longue D1
G3
G2
G1
D3
Marche D2 G3 D1
Ttrapode D1
G3
G2 G2 D2
G1
G1 D3
D3
D2
Marche D1
Tripode G3
G2
G1
Proaction Rtraction
Fig. 1. 4 Quelques marches observes sur les insectes par Wilson 1966, repris par M.J.
Randall [Ran 99] .
24
Chapitre 1 : La marche des insectes
Wilson 1966, repris par M.J. Randall [Ran 99] a tabli plusieurs rgles qui permettent
de caractriser les marches gnralement observes chez les insectes sur une surface plane :
Les proactions se propagent de larrire vers lavant. Aucune patte ne commence une
phase de proaction avant que les pattes voisines soient en phase dappui de la
rtraction .
Les pattes opposes par rapport laxe longitudinal (pattes controlatrales) bougent en
phase alterne (il ny a pas de proactions simultanes)
Cruse a montr que les variations de la valeur de la position antrieur extrme (PAE)
et la position postrieure extrme (PPE) change en fonction du chemin et du plan sur le quel
l'insecte marche. Les valeurs de PPE et PAE peuvent changer d'un pas l'autre [Gra 85]. La
valeur typique de PAE et PPE en fonction du terrain pour diffrentes sujets sont ports dans le
tableau 1.1 [Ran 99] :
Tableau. 1. 1 Mesures de PAE et PPE en mm, effectue sur une population minimale de 63
sujets de la mme espce [Cru 76a],[Cru 76b]. Les valeurs de PAE et de PPE sont variables
en fonction du type de patte et de l'environnement.
25
Chapitre 1 : La marche des insectes
Ainsi K. Pearson en 1976, repris par C. Ferrell [Fer 93], et ses collaborateurs ont
tudi les systmes neuronaux qui commandent la marche des insectes, et ils ont dvelopp
des modles pour expliquer la commande individuelle d'une patte ainsi que la coordination
entre les pattes. Les marches trouves sont conformes au modle descriptif de Wilson. Nous
prsentons sur la figure 1.5 le modle de la commande individuelle d'une patte et la figure 1.6
reprsente diffrentes marches associes aux changements de frquence entre les oscillateurs
locaux des pattes.
Signal de retardement du
Signal charg dajuster la
balancement
force de la pousse
3
Inhibition
Fig. 1. 5 Modle du contrle d'une patte propos par Pearson, repris par C. Ferrell [Fer 93].
1 : inhibition de la rtraction, 2 : excitation de la proaction, 3 : point de dclanchement. Un
oscillateur fournit le rythme de progression qui dclenche une commande de balancement
prs de la crte de son cycle et inhibe la commande de pousse. Une entre d'excitation
rgulire maintient le circuit de pousse actif toutes les fois qu'elle n'est pas empche par la
commande d'oscillation.
Avant
Milieu
Arrire
Fig. 1. 6 Les diffrentes marches associes aux changements de frquence des oscillateurs
locaux des pattes, proposes par Pearson, repris par C. Ferrell [Fer 93].
26
Chapitre 1 : La marche des insectes
Pour expliquer les diffrentes marches obtenues, Pearson dcrit trois mcanismes de
coordination entres les pattes :
1- Accouplement central direct des gnrateurs de rythme dans chaque patte par le
systme nerveux.
2- Accouplement indirect des gnrateurs de rythme : les mouvements de n'importe
quelle patte modifient linfluence des capteurs sensoriels sur les gnrateurs de rythme des
autres pattes.
3- Influences directes des capteurs sensoriels d'une patte sur les gnrateurs de rythme
des autres pattes.
Pearson propose alors un modle dinhibition des mouvements des pattes (proaction
ou rtraction), si ce mouvement provoque une collision entre les pattes ou linstabilit du
robot. Cette inhibition se fait dune faon mutuelle entre les pattes adjacentes comme
reprsent par la figure 1.7 suivante [Ran 99] :
G3 D3
G2 D2
G1 D1
Centre d'excitation
Fig. 1. 7 Modle dinhibition mutuelle des pattes adjacentes de Pearson et repris par M.J.
Randall [Ran 99].
H. Cruse et d'autres chercheurs [Cru 76a, 79, 80b, 81, 90a], [Ran 99], [Fer 93] ont
tudi la locomotion. H. Cruse a tudi la locomotion de plusieurs insectes et a dvelopp
deux modles de la locomotion de la marche du phasme. Le premier est un modle de
commande d'une patte individuelle (Figure 1.8) mettant en vidence plusieurs boucles de
contre raction imbriques (de vitesse, de charge, de position) ; le deuxime est un modle de
coordination entre les pattes. Les rsultats obtenus sont conformes aux observations de
Wilson.
PAE + + + Muscles
PEP -
- -
vitesse
charge
Position
Fig. 1. 8 Circuit de contrle d'une patte propos par Cruse, repris par C. Ferrell [Fer 93].
27
Chapitre 1 : La marche des insectes
Daprs H. Cruse la coordination des mouvements des pattes [Cru 80a], rsulte des
interactions locales de leurs systmes de commande, l'interaction implique que les positions
extrmes de la patte dpendent des positions du point distal (cest--dire le point de contact
avec le sol) et des tats d'autres pattes qui sont les "voisins" proches. Ainsi, une patte peut
seulement tre influence par la patte antrieure ou postrieure ipsilaterale (i.e. du mme ct)
si ces pattes existent et par la patte controlatrale symtrique (i.e. oppos par rapport laxe
longitudinal) ; le mouvement de chaque patte peut ainsi tre influenc par deux ou trois pattes.
Le diagramme de la figure 1.9, prcise les influences mutuelles entre pattes.
2,3,5
G1 D1
2,3
G3 D3
Fig. 1. 9 Diagramme de coordination entre les pattes, propos par H. Cruse et repris par C.
Ferrell [Fer 93].
H. Cruse a propos six rgles qui rgissent les effets dinhibition ou dexcitation dune
patte sur une autre :
6- Action rflexe provoque lorsque deux pieds (tarses pour les insectes) rentrent en contact.
28
Chapitre 1 : La marche des insectes
29
Chapitre 1 : La marche des insectes
1.5 Conclusion
Nous avons prsent dans ce chapitre des rsultats importants obtenus par des tudes
effectues sur la marche des insectes. Nous avons donn diffrentes dfinitions relatives la
locomotion, le mouvement, la posture, la stabilit, la marche, et la navigation.
Nous remarquons que la marche dun insecte peut-tre trs complique, car elle met en
jeu des fonctions de locomotion, de contrle de la posture, de maintien de lquilibre et
dpend de facteurs tels que la charge transporte ou la nature du terrain.
A partir des rsultats connus sur les insectes, des quipes de recherches ont investigu
plusieurs voies pour rpondre aux questions prcdentes. Chaque quipe a bas ses travaux
sur un modle spcifique de robot hexapode (en particulier modle mcanique) mais tous ces
modles tirent leur inspiration des principes de la marche des insectes.
Par exemple, dans la rapport de C. Ferrell [Fer 93], nous trouvons une tude sur
l'implmentation d'une locomotion robuste, flexible sur un robot hexapode, sur la base des
observations de la locomotion et des stratgies utilises par les insectes pour la navigation sur
un terrain naturel.
30
Chapitre 2
" Si vous cherchez la source du fleuve Yosthino, vous la trouverez dans les gouttes d'eau sur
la mousse. " Proverbe Japonais
2.1 Introduction
Aprs avoir prsent les principes de la marche des insectes, nous abordons dans ce
chapitre le passage de la biologie (insecte) la robotique, c'est--dire la conception des robots
marcheurs six pattes [Cla 01]. Plusieurs voies de recherche ont t explores, selon le choix
de la structure mcanique du robot et la nature des modles utiliss pour la commande. Aprs
une prsentation de ralisations connues dans le monde des robots hexapodes, nous dcrivons
quelques modles de simulation logiques, gomtriques, cinmatiques et dynamiques avec
une analyse des avantages et des limites des diffrents modles.
Le robot hexapode Sir Arthur propos par F. Kirchner [Kir 98] est compos de trois
segments, avec deux pattes pour chaque segment. Les articulations des segments entre eux
prsentent deux degrs de libert.
31
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
Les deux degrs peuvent tre commands pour lever ou faire pivoter le segment avant
et le segment arrire du robot. Les pattes sont pilotes par deux servomoteurs, les axes des
moteurs formant un angle de 90. Chaque patte peut faire quatre mouvements (vers : le haut,
le bas, l avant, et larrire). La combinaison de ses quatre mouvements donne les deux
mouvements principaux la proaction et la rtraction de la patte. Une vue du robot est fournie
par la figure 2.1.
Segments
X X X
X X X
Dans les travaux de Cynthia Ferrell [Fer 93], nous trouvons un robot hexapode
'Hannibal', pour lequel chaque patte possde trois degrs de libert (figure 2.2).
Force horizontale
Force verticale
F2
F1
Position et Vitesse
de pousser
P2, V2
Axe de pousser
Axe de
propagation
Axe de
balancement
Fig. 2. 2 Robot 'Hannibal' avec un modle de la patte et les capteurs [Fer 93]. F1 : capteur
de la force verticale externe applique sur la patte, F2 : capteur de la force horizontale
externe applique sur la patte. P1, V1 : capteur de position et de vitesse du mouvement de
rotation autour de l'articulation 1 (degr de libert 1). P2, V2 : capteur de position et de
vitesse du mouvement de rotation autour de l'articulation 2(degr de libert 2). P3, V3 :
capteur de position et de vitesse du mouvement autour de l'articulation 3 (degr de libert 3).
32
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
Le deuxime robot hexapode est R-II. Ce robot a une structure similaire l'insecte
phasme. Chaque patte de ce robot a trois degrs de liberts. La stratgie et les lois de la
marche sont aussi inspires de la marche de l'insecte comme le robot R-I. Le robot R-II a, en
plus de R-I, la facult de marcher en arrire, de tourner sur place, de se dplacer latralement
et dvoluer sur une surface non plane [Esp 93], [Esp 96], [Nel 97].
33
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
A cause de diffrences fonctionnelles, les pattes avant ont 5 degrs de libert, les
pattes des milieux 4, et les pattes arrire 3. Lallure d'une patte avant et reprsente par la
figure 2.6 suivante :
34
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
profiter du stockage d'nergie gagn pendant un cycle de mouvement des pattes [Qui 01]. Le
robot R-IV est reprsent par la figure 2.7 suivante :
D.A. Kingsley [Kin 03] a conu un robot hexapode, inspir de linsecte (cafard)
comme le robot R-III et R-IV. Il porte le nom R-V (ou Ajax). Ce robot a 24 degrs de
liberts, 5 degrs de libert pour les deux pattes avant, 4 degrs de libert pour les pattes du
milieu et trois degrs de libert pour les pattes de derrire. Les actionneurs sont des muscles
artificiels. En figure 2.8, est reprsente une patte avant du robot R-V:
Corps
Coxa
Joint entre
coxa-
fmur
Fmur
Joint entre
Fmur-
Tibia Tibia
Les pattes avant sont relativement petites et peu puissantes, mais trs adroites, elles
peuvent manipuler efficacement des objets ou voluer dans des terrains difficiles. Les pattes
du milieu sont plus grandes et elles jouent un rle trs important dappui et de leve du corps
pour les manoeuvres de rotation et de franchissement dobstacles. Comme le cafard, le robot
R-V utilise principalement ses pattes arrires (les plus puissantes), pour la locomotion. Les
travaux de R. Altendorfer et al., sont bass aussi sur une inspiration biologique du modle du
robot hexapode [Alt 01a], [Alt 01b], avec une tude dynamique du mouvement du robot.
Certains travaux de recherche rcents ont pour but de construire des robots hexapodes
de la taille d'un insecte. Par exemple les travaux mens au laboratoire d'automatique de
35
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
Besanon ont pour but d'intgrer dans un volume de 2 3 cm3 non seulement les fonctions
locomotrices mais aussi les microcapteurs et la connectique ncessaire la transmission de
l'information [Lab 04].
Dans la nature, les insectes existent sous plusieurs formes, qui ont donn des ides
pour construire des robots hexapodes. Ceux-ci se distinguent par leur conception mcanique
(nombre de degrs de libert, formes des pattes et du corps, types dactionneurs et
caractristiques dimensionnelles) et aussi par leurs systmes de perception de l'environnement
et de commande. En fonction des applications vises, des modles plus ou moins compliqus
de robots hexapodes ont t dvelopps, parmi lesquels nous trouvons des modles logiques
[Tou 92], [Joh 95], et des modles gomtriques [Sar 99], [Nel 98], [Por 98], [Ran 99].
Ces modles sont utiliss pour tudier les mcanismes de coordination entre les pattes
pour apprendre soit marcher [Tou 92], [Joh 94], [Joh 95], [Por 98], soit viter des
obstacles [Joh 95], soit atteindre un but fix dans lenvironnement [Svi 01].
Mais lutilisation de ces modles logiques sont limits ltude de la marche sur un
sol plan, et ne tiennent pas compte des irrgularits du terrain. Dautre part, le nombre dtats
et dactions augmente rapidement lorsque, comme dans le modle de Kirchner, la
quantification de lespace devient plus fine.
36
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
h1
z k
y
x A
Fig. 2. 9 Modle gomtrique dune patte. Chaque patte trois degr de liberts; k l'angle
de genou, h1, h2. angle de rotation de hanche. L : longueur d'une patte.
M.J. Randall [Ran 99], a propos le modle gomtrique dun robot hexapode
reprsent par la figure 2.10 suivante :
z2
Repre fixe z Centre
de gravit
x2 O2
R Arrire
y2
y
G6 G D1
z1
r (s) x1
G5
D2
x y1
G4 (s) Point s D3
Avant
37
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
Les mouvements possibles pour une patte de ce robot sont reprsents sur la figure 2.11.
Z Fmur
l2
Coxa l3
z1
x1
y1 O1
Tibia
l1
Fig. 2. 11 Modle gomtrique d'une patte. Les angles de rotations autour des axes des
articulations sont respectivement (, , ). Les angles qui dcrivent l'orientation d'une
patte par rapport au repre(O1,x1,y1,z1) li au corps sont respectivement (, ).
Le corps de ce robot a six degrs de libert trois de translation (gauche droit, avant et
arrire, en haut et en bas) et trois de rotation par rapport au repre O2 (Rx2, Ry2, Rz2). Chaque
patte a trois degrs de libert. Donc le robot a globalement 24 degrs de libert.
Px = (cos( ) cos( ) cos( ) sin ( ) sin ( )) [l 2 cos( ) + l 3 cos( + ) + l1 ] + sin ( ) sin ( ) [l 2 sin ( ) + l 3 sin ( + )]
3. 1
Py = (sin ( ) cos( ) + cos( ) cos( ) sin ( )) [l2 cos( ) + l3 cos( + ) + l1 ] sin ( ) cos( ) [l2 sin ( ) + l3 sin ( + )]
3. 2
Pz = sin() sin( ) [l2 cos() + l3 cos( + ) + l1] + cos() [l2 sin() + l3 sin( + )] 3. 3
Parmi les modles gomtriques, nous prsentons le modle propos par J. Porta [Por
98]. Ce modle permet de dcrire la posture et la locomotion du robot hexapode dans des
terrains difficiles. La mobilit du robot est amliore en levant le corps du robot par rapport
au sol et en loignant les pieds des limites de leur espace de travail afin de permettre une
grande varit de mouvements dans toutes les directions. La posture dun robot est lensemble
des positions des pieds par rapport au corps. La posture de rfrence est celle qui, dans des
38
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
conditions gnrales, offre le meilleur compromis entre stabilit et mobilit. Nous avons en
figure 2.12 une configuration de rfrence.
Ly
z RG
G
y
x
Lz
Lx
Lx
2Ly
Position optimale
Posture initiale
Ressorts Posture finale
Fig. 2. 13 Contrle de la posture en utilisant lanalogie des ressorts. Le corps de dplace afin
de rduire au minimum lnergie potentielle stocke dans les ressorts.
39
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
Ce modle considre les effets de pousse ou de rsistance des pattes au sol. Une patte
dj pose au sol exerce une force de frottement sec. De plus, au moment o une patte entre
en contact avec le sol, elle exerce une force dirige selon laxe longitudinal dans le sens de la
marche avant ou de la marche arrire du robot (selon le mouvement davant en arrire ou
darrire en avant de cette patte). Pour chaque ct de lhexapode est valu le sens et
lamplitude de la force motrice (Fg pour le ct gauche, Fd pour le ct droit) selon le calcul
suivant : on calcule la rsultante des contributions motrices de chaque patte entrant en contact
avec le sol. Si cette rsultante est suprieure en valeur absolue au cumul des forces de
frottement dues aux pattes restes au sol alors la force motrice pour ce ct a mme sens que
la rsultante et son amplitude est celle de la rsultante diminue des forces de frottement,
sinon la force motrice est nulle.
(t + 1) = (t ) + 3. 6
Avec = C M et v = C v F o C. et Cv dsignent des coefficients de compliance. Ce
modle simplifi se limite dcrire le dplacement dans le plan du robot et ne rend pas
compte des effets dynamiques dus aux inerties des masses en translation ou en rotation.
40
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
A
A xY
xo
Fig. 2. 14 Mouvement d'une patte. Translation selon l'axe A X, rotation autour de l'axe AY
et autour de AZ.
Ces modles prsentent une analogie biologique, c'est dire que chaque patte est
contrle par deux paires de muscles antagonistes. Ces muscles sont modliss par des
ressorts dont la longueur au repos peut tre module [Kod 98], la patte est reprsente par la
figure 2.15.
Dans les deux modles, ltat du robot est dfini par la position du corps et par la
position des pattes. Une patte est dite pose si sa longueur dpasse un seuil donn sinon elle
est rentre et ne supporte donc pas de poids.
Le robot est repr par trois variables (xG, yG et G) : xG,yG reprsente la position du
centre de gravit du robot dans un plan li l'environnement et G lorientation du robot
autour de laxe vertical passant par G comme l'indique la figure 2.16
41
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
X
RS
Y
lR Muscle 1 PS Ax
l0
B d P
Muscle 2
Fig. 2. 15 Contrle du pied (mouvement de translation d'une patte) [Kod 98]. lR et l0 longueur
au repos des ressorts travaillant en translation PS et PR longueur au repos des ressorts
travaillant en torsion.
YG
o XG
Dans SWAN-1D, les pattes du robot sont dcrites par deux variables p et Xp qui
correspondent respectivement langle de la patte avec la verticale (figure 2.14) et la
hauteur du pied par rapport au corps (figure 2.15). Dans SWAN-2D et une variable
supplmentaire, p (figure 2.16), reprsente langle que fait le plan de rotation de la patte avec
un plan vertical parallle au corps.
42
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
En translation, les deux muscles sont modliss par deux ressorts antagonistes de
mme raideur, un des ressorts a une longueur au repos fixe l0 (Muscle1 en figure 2.15), alors
que la longueur au repos des autres (Muscle2 en figure 2.15) est variable et dpend d'une
variable de commande u. La longueur de la patte se dduit de la solution de lquation de la
dynamique :
d2X p
m = Fp 3. 7
dt 2
o
Fp dsigne la somme : des forces de traction des ressorts, du poids et des forces de
frottement visqueux exerces sur la patte p.
m : la masse de la fraction du corps supporte si la patte est pose, et la masse de la patte
sinon.
En rotation les deux muscles antagonistes sont modliss par deux ressorts de
torsion qui permettent lanimat de moduler la position angulaire dune patte (figure 2.15).
Les deux muscles sont disposs de manire symtrique et sont caractriss par une mme
constante de torsion et un angle au repos modulable.
En position rentre, la somme des moments des forces appliques une patte autour
de laxe (Ay) est MpA et prend en compte les couples de torsion exercs par les muscles
ainsi que des couples de frottement visqueux.
Dans le cas o la patte est en contact avec le sol, la somme des moments des forces
appliques cette patte autour de laxe (By) parallle (Ay) et qui passe par le point B de
contact avec le sol, est MpB et prend en compte le poids, des couples de torsion exercs par
les muscles et un couple de frottement visqueux. La patte exerce alors une pousse Fpx sur le
corps de lanimat, dans la direction de laxe du corps et dintensit proportionnelle
M p cos( p ) [Kod 98].
B
Dans le cas du modle SWAN-2D, les forces de pousse latrale Fpy sont galement
considres, ainsi que les moments que les forces Fpx et Fpy exercent autour de laxe vertical
Gz passant par le centre de masse G de lanimat [Kod 98].
Les forces et les moments appliques au corps sont donns par les formules suivantes :
d 2 yG d 2 G
m
d 2 xG
2 = F x m 2 = F p
y
JG 2 = M FGx , y 3. 8
dt p
p dt p
dt p
p
43
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
- Le modle de U. Saranli
Un autre modle du robot hexapode, reprsent figure 2.17, t propos dans les
travaux de U. Saranli [Sar 99]. Le corps du robot a six degrs de libert. Deux repres et
sont dfinis, le premier () est attachs au corps du robot hexapode et l'autre () au monde
extrieur.
i
z y
x
ai
Li
Ai
rb
Li
i
i fi
zi
xi
yi
: repre du monde
: repre du corps
rb : vecteur de position du corps dans le repre
Li : longueur de la patte i
Ai : point d'attachement de la patte i dfini par le vecteur ai dans le repre .
fi : vecteur de position du pied dans le repre
i , i : angle de rotation (coordonnes sphriques)
Les pattes sont relies au corps rigide, aux points d'attache Ai. Chaque patte prsente
un mouvement sphrique et est considre de masse ngligeable sauf dans la proaction, o sa
masse du pied (ngligeable par rapport celle du corps) est prise en compte. A chaque patte
sont associs un ressort radial, un ressort de torsion (travaillant selon ), et un couple moteur
agissant selon le degr de libert .
La distribution des forces et moments est reprsente par la figure 2.18 suivante :
44
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
F5 C2
F6
F4
C1
C3
i
Li
F1
F3
F2
Fig. 2. 18 Analyse d'une patte dans le plan dfini par une patte et l'axe z du repre . F1
F6, C1, C2, C3 les forces et les moment appliqus sur la patte. Li longueur de la patte.
Tels que :
F1 = F4 = Fri o Fri dsigne la force exerce par le ressort radial 3. 9
C I
F2 = F5 = o Ci dsigne le couple de torsion selon i 3. 10
Li
Ci
F3 = F4 = o Ci dsigne le couple moteur exerc selon i 3. 11
Li cos( i )
C1 = Ci C 2 = Ci tan ( i ) C 3 = C i 3. 12
Le corps rigide du robot hexapode est soumis des forces et des moments opposs par
rapport la patte au point dattachement. Ces forces et moments dans le repre sont dcrits
par les quations suivantes :
sin ( i ) cos ( i ) 0 F r
i
F = cos ( i ) sin ( i ) sin ( i ) sin ( i )
c
cos ( i )
C i
i Li 3. 13
cos ( i ) cos ( i ) sin ( i ) cos ( i )
sin ( i ) C
i
(Li cos ( i ))
J i
C i = J i tan ( i ) sin ( i ) + J i cos ( i ) + a i Fi c
c
3. 14
J tan ( i ) cos ( i ) + J sin ( i )
i i
Les rsultantes FT des forces et CT des couples appliqus sur le corps du robot
exprimes dans le repre scrivent :
45
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
0 6
F T = 0 + Rb pattei F i
c
3. 15
i =1
mb g
6
C T = Rb pattei C i
c
3. 16
i =1
tels que :
mb masse du corps
pattei = 0 si la patte est en proaction et pattei=1 si la patte est en rtraction
Lorsque une patte proacte, la position du pied est calcule par rsolution des quations
dynamiques appliques cette seule patte. En rtraction, un modle simple de frottement de
Coulomb est introduit. Dans cette phase, le vecteur de force exerc sur le pied est projet sur
le plan tangent au terrain au point de contact au sol. Un modle simple de glissement du pied
est intgr.
La dynamique du corps rigide est dcrite par les quations des forces et des moments
suivantes :
.. FT
rb = 3. 17
mb
..
o r b est l'acclration de translation du corps de robot
mb : la masse du corps
FT : la somme de toutes les forces applique sur le corps du robot
CT : La somme de tous les moments applique sur le corps du robot
.
.
M b = J ( b ) M b + C T 3. 18
. .
R b = J ( b ) R b 3. 19
0 z y
Avec J x ([ y z ]
T
)
:= z 0
x 3. 20
y x 0
Ce modle a t utilis pour mener des simulations de la marche d'un robot hexapode
sur un terrain plat ou en pente [Sar 00], [Sar 02], [Sar 03]. Nous remarquons que la structure
mcanique est trs diffrente par rapport au modle prcdent. En fait il ny a pas, pour les
robots hexapodes, de structure universelle et les structures tudies peuvent s'loigner de
celles dun insecte.
46
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
Chaque quipe de recherche son propre modle et ses propres objectifs par rapport
l'utilisation du robot dans son environnement. Des proccupations communes peuvent tre
dgages :
A partir de ces informations le robot hexapode doit dterminer les actions ncessaires
pour atteindre ses objectifs (dplacement du corps, maintien de lquilibre, contrle du
mouvement ) dans un environnement qui peut tre inconnu. Dans ces systmes comportant
des degrs de libert redondants, il ny a pas en gnral de solution de commande unique.
Quel type de structure de commande faut-il alors choisir pour obtenir de bonnes
capacits dadaptation ?
47
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
Les niveaux les plus bas peuvent fonctionner indpendamment des niveaux les plus
hauts, et les niveaux suprieurs sappuient sur les comptences dveloppes aux niveaux
infrieurs pour ajouter de nouvelles comptences.
Message de commande
Message d'information
Niveau 3 : Locomotion sur terrain irrgulier
action
Capteurs
Fig. 2. 19 Architecture de commande dun robot hexapode selon C. Ferrell [Fer 93].
Cependant ces sous systmes sont coupls car ils sont lis physiquement entre eux et
interagissent avec le mme environnement, les actions des uns influenant les actions des
autres.
48
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
Donc pour assurer le fonctionnement correct du systme global (robot) il faut que les
sous systmes et les niveaux cooprent entre eux. Pour cooprer, ces sous systmes et niveaux
doivent communiquer, soit directement par l'change de messages soit indirectement par
modification de ltat du robot dans son environnement.
R.A. Brooks [Bro 89] a propos un rseau de base pour contrler la locomotion sur un
terrain plat dun robot hexapode (nomm Genghis) chaque patte du robot admet deux degrs
de libert : avance ou recul () et leve ou baisse () par patte.
Deux modules centraux ont pour rle respectivement de dclencher les mouvements
de leve et de pousse des pattes en fonction des informations dtat reues de chacune
delles. Les autres mouvements sont dcids au niveau local. Ce rseau est reprsent par la
figure 2.20.
Marche Lever
Position Avancer
Baisser S
Boucle 1
S Position
Un module par robot Pousser
Commande de moteurs
Boucle 2
S Nud de filtrage de sortie
Fig. 2. 20 Rseau basique de contrle de locomotion pour un robot hexapode propos par
Brooks [Fer 93]. La boucle 1 assure le contrle de avec le choix du mouvement de la patte
(en haut ou en bas). La boucle 2 assure le contrle de avec le choix entre le deuxime
mouvement possible (avancer ou pousser).
E. Celaya et J. Porta [Cel 96], [Cel 95], [Por 00a], on propos une structure de contrle
de la marche dun robot hexapode (nomme Genghis II) sur un terrain non rgulier et
prsentant des obstacles. Cette structure est base sur la dcomposition des tches selon
l'architecture de subsomption, dans laquelle les niveaux sont indpendants mais peuvent
changer des donnes et des informations entres eux.
Le robot hexapode (Genghis II) a deux degrs de libert. Chaque patte a deux
mouvements possibles, un mouvement de proaction et un mouvement de rtraction
commands par deux moteurs La structure de commande propose par E. Celaya [Cel 96],
est compose de six niveaux. Chaque niveau reprsente une comptence rsultant dun ou de
plusieurs comportements. Les diffrents niveaux sont dcrits comme suit :
49
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
Le premier niveau pilote directement les moteurs pour assurer le maintien de chaque
patte du robot dans la dernire position demande. Par dfaut cette position est une position
de rfrence offrant une bonne stabilit et le choix important de possibilits de mobilit. Par
ordre dun niveau suprieur, les segments peuvent bouger, la dernire consigne de position
tant communique en retour tous les niveaux suprieurs.
Ce niveau assure une position correcte du corps du robot par rapport aux pieds
(contrle de la posture). Ce niveau est compos de cinq comportements appels
compensations. Chaque compensation se traduit soit par une translation, soit par une
rotation du corps. Ces diffrents comportements sont reprsents en figure 2.21.
Y
Z
X
X
Rotation autour de laxe X
Fig. 2. 21 Les cinq degrs du mouvement du corps du robot hexapode. Contrl par
le niveau 2 [Cel 98].
Le but de ce niveau est de modifier les consignes de posture gres par le niveau 2
pour sadapter aux conditions du terrain telles quelles sont perues par les capteurs. Ainsi,
selon les besoins le corps peut tre avanc ou recul par rapports aux positions des pieds en
contact avec le sol, il peut tre lev ou abaiss, ou il peut subir une rotation autour de lun
des axes Gx, Gy, Gz de la figure 2.21. Par exemple, lorsquun obstacle est dtect du ct
avant gauche, le robot opre une rotation droite.
A ce niveau le robot adapte la position de chaque pied laltitude du sol. A cet effet
leffort support par chaque patte est valu et sil est infrieur un certain seuil, le pied est
abaiss. Ainsi, en cas de surcharge sur une des pattes, les pattes qui se trouvent en sous charge
50
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
ont tendance descendre pour diminuer cette surcharge. Cette stratgie combine aux effets
de contrle de posture, constitue une forme de compliance active.
Le comportement davance dclenche une proaction ds que les deux pattes voisines
ont mis un message comme quoi elles sont bien en contact avec le sol. Puis, le niveau de
contrle de posture agit pour ramener les pattes exerant un effet de traction laplomb du
corps (ce qui provoque lavance du corps par rapport aux points de contacts avec le sol). Sur
un terrain irrgulier, lattente entre deux pas peut varier et la marche est imprvisible, alors
que sur un terrain plat la marche est rgulire et gnralement de type tripode.
Les six niveaux prcdemment dcrits sont reprsents sur la figure 2.22 suivante :
Niveaux 6 : Navigation
Niveaux 5 : Marche
Niveaux 3 : Adaptation
Niveaux 1 : Maintien
Fig. 2. 22 Structure de contrle. Dcomposition des taches pour le contrle de la marche d'un
robot hexapode sur un terrain non rgulier, d'aprs E. Celaya et J. Porta [Cel 96].
51
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
52
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
2.6 Conclusion
Nous avons prsent dans cette partie diffrents modles de robots hexapodes en
particulier les modles logiques utiliss pour tudier les rythmes de marche sur terrain plat,
les modles gomtriques (avec leurs variantes selon le nombre de degrs de libert et la
forme du robot,) qui permettent de rendre compte de lvolution dans le plan ou dans
lespace, et des modles dynamiques qui considrent des forces de traction et des couples de
torsion exercs sur les pattes ou sur le corps pour dcrire notamment des phnomnes de
compliance ncessaires ladaptation des terrains irrguliers.
Ces modles sont utiliss pour grer, selon des stratgies varies, diffrents types de
marche, le changement d'allure ou de trajectoire, lvitement dobstacle, ladaptation des
terrains irrguliers. Les stratgies dveloppes pour le contrle de la locomotion d'un robot
hexapode sont cependant souvent inspires de lobservation de la locomotion des insectes.
Cette approche diffre de celle plus classique base sur la planification des tches, la
gnration des trajectoires et lexcution de ces trajectoires. En effet, dans un environnement
perturb et inconnu, la planification des tches est difficile, voire impossible. De plus dans le
cas o le systme est distribu, les plans doivent tre labors en tenant compte des multiples
interactions possibles entre les diffrents lments du systme.
Une stratgie base sur la planification suppose alors le recours un systme central
capable de collecter, dintgrer, danalyser et dexploiter les informations utiles pour prdire
les diffrents scnarios possibles et calculer les plans associs.
Puisque les solutions ne sont pas connues par avance, ces comportements doivent tre
acquis par apprentissage selon un processus dessais et erreurs. Cest pourquoi nous nous
intressons dans le chapitre suivant aux processus d'apprentissage par renforcement
(apprentissage par essai et erreur).
53
Chapitre 3
" Les rivires ne se prcipitent pas plus vite dans la mer que les hommes dans l'erreur. "
Voltaire
3.1 Introduction
Nous avons vu au chapitre prcdent que certains travaux de recherche sur les robots
hexapodes ont pour but lamlioration des capacits mcaniques (gomtrie des pattes et du
corps, nombre de degrs de libert), dautres l'amlioration de la perception de
l'environnement (par exemple ajout de capteurs trs efficaces), d'autres lamlioration du
modle de contrle et de la commande du robot. Nos travaux sont orients sur ce dernier axe
de recherche concernant la commande de la marche du robot hexapode dans un
environnement qui peut tre inconnu. Dans ce cadre les techniques d'apprentissage prennent
tout leur sens. On trouve par exemple dans la littrature des modles de commande bass sur
les rseaux de neurones volutionnistes, sur l'apprentissage par renforcement ou sur des
algorithmes gntiques. Nous avons privilgi lapprentissage par renforcement (par essais et
erreurs), parce qu'il permet au robot d'apprendre marcher dune faon autonome dans
l'environnement. Des questions de fond se posent pour sa mise en oeuvre :
54
Chapitre 3 : Apprentissage par renforcement et robot hexapode
Un modle lmentaire utilis pour dcrire un tel agent considre dune part les tats
atteignables par l'agent dans son environnement, et dautre part les actions qui lui permettent
de passer d'un tat un autre. Dans un environnement incertain, on utilise un modle
stochastique pour dcrire les transitions entre tats. Lorsque les actions excuter pour
atteindre un but sont connues, l'agent peut apprendre de faon supervise reproduire et
gnraliser ces actions. Dans le cas o ces actions ne sont pas connues, il n'est pas possible de
planifier lavance le comportement de lagent, et il faut apprendre par essai- erreur ce
comportement. Cest ainsi que lon est amen introduire lapprentissage par renforcement.
L'agent utilise alors ce signal pour amliorer sa stratgie, c'est dire la squence de ses
actions, afin de maximiser le cumul de ses rcompenses futures. Dans ce but, il doit trouver
un quilibre entre exploration et exploitation. L'exploration consiste tester de nouvelles
actions, pouvant conduire des gains suprieurs, mais avec le risque qu'ils soient infrieurs
tandis que l'exploitation consiste appliquer la meilleure stratgie acquise jusqu'alors (celle-ci
pouvant ne pas tre optimale).
55
Chapitre 3 : Apprentissage par renforcement et robot hexapode
Fonction de
Q(s,a) renforcement
Action a
Situation ou tat s
Environnement
56
Chapitre 3 : Apprentissage par renforcement et robot hexapode
- Le temps
L'espace de temps a des formes diffrentes, il peut tre :
- Discret ou continu.
- Fini ou infini.
- Dtermin ou alatoire.
La plupart des tudes sur l'apprentissage par renforcement utilisent un espace de temps
discret.
- Les tats
Les tats caractrisent les situations d'un agent et de l'environnement chaque instant,
ils peuvent se dcomposer en trois formes :
Les trois formes d'tat peuvent tre prsentes en mme temps en fonction du problme
trait.
- Les actions
Un agent choisit une action parmi les actions possibles chaque instant t, cette action
peut tre instantane ou durer jusqu'au prochain instant. A chaque tat de l'espace d'tat est
associ un ensemble d'actions possibles de l'espace d'action, cette relation est reprsente par
la figure 3.2 suivante :
Ensemble d'actions possible
a1
x1 a1
X : espace d'tat x2 aa2
2
A : espace d'actions
xi ai
- Le signal de renforcement
A chaque instant, linteraction produit une valeur de renforcement rt, valeur numrique
borne, qui mesure la justesse de raction de lagent. Le but de lagent est de maximiser le
cumul de ces renforcements dans le temps. Pour prendre en compte l'horizon de temps, il
suffit de considrer la somme des valeurs de renforcement quil recevra dans le futur :
57
Chapitre 3 : Apprentissage par renforcement et robot hexapode
Rt = rt +1 + rt + 2 + ... + rT 3. 1
O T est un instant terminal qui met fin linteraction. Dans bien des cas cependant,
linteraction na pas de limite (T = ). Pour viter que le critre ci-dessus ne diverge, on
retient la somme pondre sur le long terme :
Rt = rt +1 + rt + 2 + 2 rt + 3 + ... = k rt + k +1 3. 2
k =0
A contrario, si vaut 0, on dit que lagent est glouton : son but revient alors, chaque
instant, maximiser sa rcompense immdiate sans se proccuper de celles qui suivent.
Lutilisation dun signal de rcompense (local dans le temps) pour dfinir une tche peut
paratre a priori limitant par rapport un critre global calcul sur toute la trajectoire des tats.
De nombreuses applications dans la littrature ont nanmoins montr que cette approche tait
pratique et flexible.
Par exemple, pour construire un agent dont le but est de sortir dun labyrinthe, on peut
donner une rcompense nulle la plupart du temps et +1 ds que lagent atteint la sortie [Kae
96]. Pour viter quun tel agent ne se cogne contre les murs, on peut le sanctionner chaque
fois quil touche un mur en lui attribuant une pnalit [Buf 00], [Buf 03a] .
- L'environnement
58
Chapitre 3 : Apprentissage par renforcement et robot hexapode
Processus de Processus
Modles de
dcision de stochastiques
Markov
Markov
Pr ( X 0 = x 0 , X 1 = x1 ,...., X T = xT ) = Pr ( X 0 = x 0 ) Pr ( X 1 = x1 X 0 = x 0 ).
3. 4
Pr ( X K = x K X 0 = x 0 ,...., X K 1 = x K 1 ) Pr ( X T = xT X 0 = x 0 ,...., X T 1 = xT 1 )
Pr ( X K = x K X 0 = x 0 ,...., X K 1 = x K 1 ) = Pr ( X k = x k X k n = x k n ,...., X k 1 = x k 1 ) 3. 5
l'ordre un on a :
Pr ( X K = x K X 0 = x 0 ,...., X K 1 = x K 1 ) = Pr ( X k = x k X k 1 = x k 1 ) 3. 6
Le modle de Markov est dit stationnaire si la probabilit de transition entre deux tats
ne varie pas avec le temps. Un processus de dcision markovien (MDP) est un modle de
Markov d'ordre 1 constitu de :
- Un ensemble dtats S,
- Un ensemble dactions A,
59
Chapitre 3 : Apprentissage par renforcement et robot hexapode
La plupart des rsultats thoriques sur l'apprentissage par renforcement concernent des
systmes dont le comportement peut-tre dcrit par un processus de dcision markovien. Dans
un MDP, lagent connat les tats et actions du systme, mais il ne connat pas ncessairement
le fonctionnement de lenvironnement (P) ni les situations provoquant des rcompenses (R).
On distingue en gnral deux situations dapprentissage [Kae 96] :
Dans le second cas, il faut ncessairement que lagent exprimente, quil apprenne par
essais-erreurs. Nos travaux ne supposeront pas la connaissance explicite dun modle
(fonction de transition P et fonction de gain/ rcompense R non connues). Cest donc des
algorithmes qui rpondent cette situation que nous mettrons en oeuvre.
- MMDP (MDP Multiples) : un MMDP est une variante de MDP adapte au cas des
systmes multi-agents, de mme que les DEC-MDP (MDP dcentraliss) et les jeux
de Markov.
- SMDP : le modle, dit semi-Markovien, a pour but damliorer la gestion du temps,
considrant que le passage dans un tat peut tre de dure variable (selon des lois
stochastiques).
- POMDP : MDP partiellement observable, un POMDP ajoute lide quun agent na
de son environnement quune perception partielle, donc quil ne connat quune
observation et non un tat complet.
{
Rssa ' = E rt +1 / st = s, at = a, st +1 = s ' } 3. 8
60
Chapitre 3 : Apprentissage par renforcement et robot hexapode
Cest la somme des rcompenses futures partir de ltat (s) en appliquant la politique
. A linstant t :
V (s ) = E {Rt / st = s} = E k rt + k +1 / st = s , 0 < < 1 3. 9
k =0
[
V ( s ) = ( s, a). Psa, s ' Rsa, s ' + .V ( s ' ) ] 3. 10
a s'
Cest la somme des rcompenses futures partir de (s) en choisissant laction (a)
selon la politique . A linstant t :
Q ( s, a ) = E {Rt / st = s, at = a} = E k rt + k +1 st = s, at = a 3. 11
k =0
[
Q ( s, a ) = Psa, s ' Rsa, s ' + .V ( s ' ) ] 3. 12
s'
s
V(s) Q(s, a)
s, a
(s,a)
Pas s, Ra s s
a s'
s (s', a')
61
Chapitre 3 : Apprentissage par renforcement et robot hexapode
Si V * ( s ) = max (V ( s )) alors V *
(s ) = max
a
[
P ssa ' R ssa ' + V *
(s ' )] 3. 13
s'
Si Q * ( s ) = max (Q ( s, a )) alors Q ( s, a ) =
*
P s'
a
ss ' [
Rssa ' + max Q* (s ' , a ')
a'
] 3. 14
Le principe du calcul de ces deux fonctions est reprsent par le diagramme de la figure 3.5:
V* s
Q*
(s, a)
r
Max (a)
a s'
Max (a)
r
s s', a'
valuation de
V,Q
Amlioration de
* V*
62
Chapitre 3 : Apprentissage par renforcement et robot hexapode
- toute-visite : V(s) est la moyenne des renforcements aprs toutes les visites (s)
dans un ensemble dpisodes.
- premire visite : V(s) est la moyenne des renforcements aprs les premires
visites (s) dans un ensemble dpisodes.
1
V (s ) = Rtn
n n 3. 16
Rtn = r n t +1 + r n t + 2 + 2 r n t +3 + .... + T r n T
Au lieu de
V (s ) = E {Rt } 3. 17
63
Chapitre 3 : Apprentissage par renforcement et robot hexapode
V (s ) = E {Rt / st = s} = E k rt + k +1 / st = s 3. 18
k =0
De mme les mthodes TDs peuvent apprendre partir de l'exprience sans avoir
besoin d'un modle de l'environnement mais sans attendre la fin de chaque pisode. Comme la
mthode DP, la mthode TD calcule pendant l'pisode les nouvelles valuations partir des
valuations prcdentes. Soit s un tat non terminal visit linstant t, la mise jour de la
fonction V est mene sur la base de ce qui arrive aprs cette visite.
[ ]
Vt+1 (s ) Vt (s ) + rt +1 + Vt (s ') Vt (s ) 3. 19
Dans les mthodes TD, l'valuation est faite un pas de temps et il n'est pas besoin
d'un modle. La mthode TD a conduit plusieurs algorithmes par exemple : SARSA, AHC-
learning, Q-learning, R-learning, critique- acteur, TD(), SARSA(), Q-learning(). Les
64
Chapitre 3 : Apprentissage par renforcement et robot hexapode
approches correspondantes se distinguent par le type de fonction valeur estime, et par les
techniques d'valuation et d'amlioration des stratgies. On distingue notamment :
- Les mthodes off-policy : la stratgie utilise pour prendre des dcisions peut tre
sans rapport avec la stratgie qui est value et amliore. Lavantage de cette
sparation est que la stratgie amliore peut tre, par exemple (avide), tandis que la
stratgie applique pendant l'apprentissage peut continuer lchantillonner toutes les
actions possibles.
PD MC TD
SARSA :
SARSA est une mthode d'apprentissage par renforcement on-policy qui value et
amliore la stratgie utilise pour prendre les dcisions d'action. La mthode sarsa utilise
la fonction valeur-tat_action pour lapprentissage. Ici, une exprience consiste non seulement
au choix de l'action a depuis l'tat s, mais aussi au choix de laction a qui va tre choisie
65
Chapitre 3 : Apprentissage par renforcement et robot hexapode
depuis ltat s (en suivant la stratgie dexploration adopte). L'estimation des valeurs selon
la stratgie courante s'crit :
Qt +1 (s, a ) = Qt (s, a ) + [rt +1 + Qt (s ' , a ') Qt (s, a )] 3. 21
Les algorithmes dapprentissage par renforcement de type AHC sont bass sur deux
fonctions adaptatives spares : une fonction dvaluation (ACE) et une fonction de contrle
(ASE) comme illustr par la figure 3.8. Le premier algorithme est d Barto, Anderson et
Sutton en 1983 repris par S. Sehad [Seh 96]. LACE est une fonction dvaluation du
systme, son but est destimer la somme des renforcements externes venir tant donn ltat
prsent. Laction est donne par lASE. Les fonctions ASE et ACE sont ractualises selon la
diffrence entre deux prdictions de renforcement successives. Cette mise jour tant faite
un pas de temps, l'algorithme AHC-learning est considr comme un algorithme de la
mthode TD.
r
ACE
s a
ASE
Les mthodes critique-acteur sont des mthodes TD qui ont une structure de mmoire
spare pour explicitement reprsenter la politique de choix d'action et la fonction valeur-
tat. Cet apprentissage est de type on-policy [Cri 95], [Sut 98]. Les mmoires peuvent tre
ractualises selon la mthode TD, comme il est prsent par la figure 3.9, suivante :
Acteur
Erreur de TD
Fonction
tat Valeur Action
Rcompense
Environnement
66
Chapitre 3 : Apprentissage par renforcement et robot hexapode
Q-learning :
R-learning :
Le R-learning propos par Schwartz en 1993 repris par [Sut 98], [Lan 93], est une
adaptation du Q-learning au critre de maximisation du revenu moyen. L'objectif est de
construire une politique dont le revenu moyen est le plus proche possible du revenu moyen
d'une politique gain optimal.
B-learning :
Le principal effet de cette modification est que la politique obtenue tient compte de la
stratgie dexploration suivie et est donc plus sre. En effet, si cette stratgie consiste en un
taux dactions au hasard, les autres actions suivant la politique dterministe dduite de Q
(stratgie -glouton), vont avoir tendance compenser par exemple les situations dangereuses
encourues du fait des actions alatoires (ne pas rester prs dun prcipice si il y a un risque
dy tomber).
Dans ces mthodes, leffet dune rcompense r nest pas limit ltat ou la paire
tat-action qui vient de passer, mais est transmise aux tats et actions prcdents (avec un taux
de diffusion ]0,1[). Cela permet dacclrer lapprentissage par rapport aux mthodes TD
simples qui ne permettent cette diffusion qu travers un nombre bien plus grand de passages
dans chaque tat, [Uri 99].
67
Chapitre 3 : Apprentissage par renforcement et robot hexapode
3.7 Q-learning
3.7.1. Dfinition
Le Q-learning a t propos par Watkins 1989, repris par S. Sehad [Seh 96] comme
mthode dapprentissage par renforcement dans le cas d'un MDP (processus de dcision
Markovien) quand le modle dvolution est inconnu. C'est une mthode de type
off_policy . Un modle du processus d'apprentissage Q-learning a t propos par S. Sehad
[Seh 96] et met en vidence les fonctions suivantes :
Une fonction de slection : partir de la situation actuelle telle quelle est perue par
le systme, une action est choisie et excute en se basant sur la connaissance
disponible au sein de la mmoire interne (cette connaissance est stocke sous forme de
valeur dutilit associe une paire (situation, action)).
Une fonction de mise jour : utilise la valeur de renforcement pour ajuster la valeur
associe la situation ou bien la paire situation, action qui vient dtre excute.
[ (
Qt+1 (st , at ) = (1 t ).Qt (s, a ) + t rt +1 + max a Qt (s ' , a ) )] 3. 24
O rt+1 est le renforcement reu en ayant choisi laction a dans ltat s, ce qui a mis le
processus dans le nouvel tat s et t est un rel positif compris entre 0 et 1. En principe, il
faut explorer alatoirement lenvironnement pendant un grand nombre ditrations pour que
le Q-learning puisse converger vers la fonction Q optimale et seulement ensuite on peut
utiliser la politique optimale dfinie par :
* (s ) = arg max a A Q * (s , a ) 3. 25
68
Chapitre 3 : Apprentissage par renforcement et robot hexapode
On peut orienter lexploration pour la rendre plus efficace : choisir des actions qui
vont mieux renseigner que dautres sur les bonnes dcisions prendre. Lexploration peut par
exemple tre simplement amliore en se basant sur la comptabilisation des paires tat-action
dj rencontres, sur les variations de la fonction Q, ou sur une mmoire des essais les plus
rcents [Sut 90].
La temprature Tt est prise assez leve au dbut, puis dcrot vers 0 au fur et mesure
que lapprentissage progresse.
T leve T0
Exploration Exploitation
Do lalgorithme du Q-learning :
Il a t prouv, par exemple dans [Jaa 94], que si les espaces dtats et dactions S et A
sont finis, si t est tel que :
69
Chapitre 3 : Apprentissage par renforcement et robot hexapode
t
t = et que
t
t
2
.
et si lon passe par chaque tat-action un nombre infini de fois, alors lalgorithme de Q-
learning converge vers Q*.
Si cet tat nest que partiellement observ, on est dans le cas d'un processus de Markov
partiellement observ (POMDP) et les algorithmes classiques dapprentissage par
renforcement conduisent gnralement des solutions sous-optimales. En sappuyant sur les
remarques et les limitations du Q-learning classique utilis dans les POMDP, Jaakkola et al.
[Jaa 93b] proposent un algorithme de renforcement qui construit des politiques markoviennes
stochastiques.
Bien que les politiques ainsi dfinies soient sous-optimales, ces travaux, avec ceux de
S. Singh et al. [Sin 96] [Buf 00], sont parmi les premiers tudier le comportement des
algorithmes classiques quand les observations sont partielles. Dans certains cas, il peut tre
suffisant de trouver des politiques sous-optimales, et cela est mme ncessaire quand ce sont
les seules que lon peut obtenir en un temps de calcul limit. Si de nombreux travaux utilisent
des algorithmes de Q-learning classiques sur des environnements non markoviens et
obtiennent des rsultats intressants, dans le cas gnral, la convergence du Q-learning n'est
pas dmontre [Sin 96], [Buf 00].
Lin en 1992 [Lin 92], [Seh 96], [Tou 99a], ont proposs aussi une implmentation de
l'algorithme AHC-learning sur un rseau de neurones multicouche AHCON .
70
Chapitre 3 : Apprentissage par renforcement et robot hexapode
Lide principale des travaux de Lin [Lin92], et C. Touzet [Tou 94a], est dutiliser un
rseau de neurones pour calculer une approximation de la fonction dutilit du processus.
Pour utiliser linformation contenue dans le pass du processus, il utilise des rseaux
rcurrents comme ceux proposs par Elman [Elm 90]. Larchitecture de Q-rcurrent est
reprsent par le schma suivant [Lin 92] :
Utilit (Q(s,a)
Histoire mmorise
Mmoire
interne
Q-Rseaux
Situation Action
Ces architectures lui permettent de stocker dans les couches internes des rseaux
rcurrents des informations pertinentes sur le pass du processus. Ces informations dtat sont
ensuite utilises dans une architecture dapprentissage par renforcement neuronale plus
classique. Lapprentissage de rseaux rcurrents posent des problmes thoriques et pratiques
pour lesquelles des solutions performantes ont t proposes [Gui 00], et [Cou 97].
3.7.5. Q-Kohonen
Dans les travaux de S. Sehad [Seh 96] et de C. Touzet [Tou 98b], [Tou 99a], une carte
auto-organisatrice de Kohonen est utilise pour stocker les valeurs dutilit Q. La phase
dapprentissage associe chaque neurone de la carte une paire de situation- action et sa valeur
Q. Cest une mthode de regroupement qui implique des critres de similarit et de localit.
Le nombre de paires mmorises est gal au nombre de neurones.
71
Chapitre 3 : Apprentissage par renforcement et robot hexapode
laction effectivement ralises qui est slectionn. La valeur dutilit est actualise en
utilisant lquation de mise jour courante du Q-learning.
Le maximum de la valeur dutilit que lon peut esprer depuis la situation atteinte est
obtenu en utilisant la mmoire associative (carte auto-organisatrice) de manire presque
identique lutilisation prcdente : la situation est la situation atteinte lissue du
mouvement prcdent et cest la valeur dutilit Q (et non pas laction) quil nous intresse de
connatre. En mme temps que le neurone slectionn, ses voisins sont aussi remis jour.
Durant lapprentissage, linfluence sur les voisins dcrot proportionnellement linverse du
nombre ditrations (cest- - dire de mouvements).
Q-Learning
HQL
Implmentations neuronales
Implmentations non neuronales
L'algorithme Q-learning est trs utilis dans l'apprentissage par renforcement pour ses
performances de convergence et de reprsentation claire de lvolution de lapprentissage
partir de ltat et laction et aussi pour la simplicit de mise en uvre. Il est limit par lespace
de mmorisation de la fonction valeur des couples (tat, action) mais pour cela il y a t
dvelopp des implmentations neuronales.
72
Chapitre 3 : Apprentissage par renforcement et robot hexapode
Sur la base d'tudes biologiques, ces travaux reposent sur l'hypothse forte selon
laquelle chaque patte d'un insecte est dote de son propre gnrateur de mouvement, les
gnrateurs tant relis par des connexions intra et inter segments inhibitrices [Fer93]. Ainsi
contrairement Pearson en 1976 repris par M.J. Randall [Ran 99] qui a mis l'hypothse de
l'existence d'un gnrateur central de formes locomotrices, il est montr dans ce modle qu'un
gnrateur central des mouvements du robot hexapode n'est pas ncessaire. La structure de
commande des mouvements des pattes est ainsi compose de six circuits neuronaux connects
entre eux sans superviseur. Afin de simplifier le problme du contrle de la locomotion,
seules les positions statiques des pattes et non la dynamique de leurs mouvements sont prises
en compte.
Plusieurs marches diffrentes dont la marche tripode sont ainsi apprises par le robot.
Les rsultats obtenus, prouvent que la matrise de la marche ne ncessite pas de gnrateur
central et qu'elle peut tre obtenue par un contrle individuel de chaque patte condition que
leurs mouvements se coordonnent. A. Johannet [Joh 95] poursuit les travaux de C. Touzet
[Tou 92]. Elle utilise la mme architecture de commande en apportant des amliorations pour
atteindre les objectifs suivants : l'vitement d'obstacles et la gnration de marche dgrades
en cas de dfaillance dune des pattes.
Chaque rseau est constitu d'un seul neurone stochastique calculant la probabilit
d'effectuer une proaction ou une rtraction. Le critique retourne le signal de renforcement r(t)
suivant : une rcompense +1 en cas d'avance, une pnalit -1 si le robot chute ou s'il reste
immobile. Deux architectures de commande sont envisages, l'une exploite le renforcement
immdiat, l'autre une prdiction de la somme des renforcements futurs : les deux approches
peuvent tre synthtises par le schma suivant de la figure 3.13.
73
Chapitre 3 : Apprentissage par renforcement et robot hexapode
s(t)
si(t)
Interactions robot
environnement
r(t)
Fonction de
renforcement
Re(t)
Rt = r (t ) + r (t + 1) + 2 r (t + 2) + .... + N r (t + N ) 3. 28
Avec N grand.
L'esprance des gains futurs Re(t) peut-tre estime par un rseau neurones N tel que :
Re (t + 1) = N {s (t + 1), s (t ), Re (t )} 3. 29
Re (t ) = [r (t ) + Re (t + 1) Re (t )] 3. 30
Lorsque seul le renforcement immdiat est utilis, on a :
Re (t ) = R(t ) = r (t ) 3. 31
Chacun des rseaux de commande calcule la probabilit de l'action : la sortie si du
rseau de commande de la patte i vaut +1 (proaction) avec la probabilit
P(+ 1) = 1
(1 + exp( 2 vi )) 3. 32
vi = cij e j + bi 3. 34
ij
74
Chapitre 3 : Apprentissage par renforcement et robot hexapode
Les capteurs sont rpartis en plusieurs groupes. La confiance que l'on peut accorder
un groupe de capteurs est inversement proportionnelle l'erreur de prdiction des gains futurs
calculs partir de ce groupe de capteur. L'action excuter est dtermine partir des
75
Chapitre 3 : Apprentissage par renforcement et robot hexapode
valeurs d'utilit Q(s, a) correspondant au groupe de capteurs en qui la confiance est la plus
grande. Aprs chaque nouvelle action, les tables de prdiction des gains futurs estims partir
de chacun des groupes de capteurs sont mis jour ainsi que l'erreur de prdiction des gains
futurs. Les capteurs les moins srs sont limins. La mthode a t value sur un simulateur
de robot hexapode de type Genhis II. Chaque patte a deux actions possibles (proaction ou
rtraction), donc il y a 26 actions possibles. L'tat du robot est caractris par la position des
pattes : une entre binaire traduit que la patte est en contact avec le sol ou non, une seconde
entre binaire repre si la patte est situe vers l'avant ou vers l'arrire de son espace de travail.
Si le robot tombe il reoit une pnalit, s'il avance il reoit une rcompense. L'exploration est
assure par le choix d'une action selon une distribution de probabilit de Boltzmann.
Dans un tat donn, on slectionne les rgles pour lesquelles la somme pondre des
carts quadratiques entre les composantes du vecteur dentre et les valeurs des capteurs sont
les plus petites. Le facteur de pondration pour chaque capteur varie ente 0 et 1 ce qui peut
permettre de tenir compte diffremment des informations dlivres par les capteurs.
A chaque rgle est associe une utilit. La rgle la plus utile est applique selon une
distribution de probabilit de Boltzmann.
Lutilit dune rgle augmente ou diminue selon que son application provoque une
rcompense ou une pnalit. Le renforcement est propag sur les rgles antcdentes avec un
76
Chapitre 3 : Apprentissage par renforcement et robot hexapode
A chaque itration la rgle qui vient dtre applique donne naissance une nouvelle
rgle sauf si le robot a chut ou a fait un mouvement arrire. La nouvelle rgle cre admet
alors pour vecteur dentre ltat des capteurs au moment o lancienne rgle a t applique,
un nouveau jeu de coefficient de pondration et une valeur dutilit drivs de lancienne
rgle. Chaque patte du robot deux degrs de libert et peut effectuer quatre mouvements
(baisse et tourne vers lavant, baisse et tourne vers larrire, monte et tourne vers larrire,
monte et tourne vers lavant), les mouvements ayant des amplitudes fixes. Pendant
lapprentissage le systme sauto-organise selon la squence des pnalits (cas dune chute
ou dun retour en arrire) et des rcompenses (avance ou atteinte de lobjectif).
77
Chapitre 3 : Apprentissage par renforcement et robot hexapode
78
Chapitre 3 : Apprentissage par renforcement et robot hexapode
79
Chapitre 3 : Apprentissage par renforcement et robot hexapode
80
Chapitre 3 : Apprentissage par renforcement et robot hexapode
3.10 Conclusion
Au cours de ce chapitre, nous avons prsent les bases de l'apprentissage par
renforcement (AR) et des formalismes aidant les dcrire tels que les processus de dcision
de Markov (PDM). Nous avons prsent brivement quelques mthodes AR comme les
mthodes de programmation dynamique (DP), qui ncessitent un modle de l'environnement
souvent difficile obtenir. Ces mthodes consomment un temps de calcul important lorsque
les nombres d'tat et d'action sont grands.
A l'encontre des mthodes DP, les mthodes de Monte Carlo (MC) ne supposent pas
connu un modle de l'environnement mais pour apprendre, un grand nombre d'pisodes
doivent tre drouls. Puis nous nous sommes focaliss sur les mthodes de diffrences
temporelles (TD), qui ne ncessitent pour apprendre ni modle de l'environnement ni
ralisation d'pisodes complets.
Parmi le grand nombre d'algorithmes issus des mthodes TD, nous avons dcrit
brivement les plus connus et nous avons insist sur l'algorithme Q-learning qui est le plus
utilis.
Parmi les solutions proposes pour rsoudre les problmes de l'AR classique comme la
limitation de la mmoire et la gnralisation, nous avons prsent des solutions bases sur
l'approximation base de mthodes neuronales. Nous avons trait aussi le problme du
dilemme Exploration\ Exploitation particulirement sensible pour les systmes de grandes
dimensions et avons cit quelques mthodes d'exploration comme la mthode de softmax
qui est base sur la distribution de probabilit de Boltzmann. Enfin, nous avons dcrit
quelques applications de l'apprentissage par renforcement au robot hexapode. Les rsultats
obtenus sont rsums par les points suivants :
L'AR base de rseaux de neurones est efficace pour la gnration locomotrice d'un
robot hexapode et est intressant pour ses capacits de mmoire et de gnralisation
(C. Touzet).
L'vitement d'obstacle peut tre trait par un second rseau neuronal plac en parallle
au rseau charg de la marche normale (A. Johannet).
81
Chapitre 3 : Apprentissage par renforcement et robot hexapode
travaux cits prcdemment ne tiennent pas compte de cette dpendance et considre que
chaque circuit de commande peut tre calcul comme s'il tait seul. Ces rsultats et remarques
nous amnent poser les questions suivantes :
4. Comment utiliser l'exprience acquise sur des tches simples pour traiter des tches
plus complexes ?
Pour rpondre ces questions, nous prsentons dans le chapitre suivant les
architectures de commandes non centralises et les systmes multi-acteurs.
82
Chapitre 4
" L'esprit est clips par l'esprit, comme un diamant par un autre diamant. "
W. Congreve
4.1 Introduction
Nous avons prsent dans le chapitre prcdent des applications de lapprentissage par
renforcement pour la commande de robots hexapodes. Nous avons mis en vidence, comme
voie damlioration, lintrt de dlocaliser les centres dapprentissage et de dcision vers
chaque entit oprationnelle. Nous posons ici le problme de lapprentissage dune tche
devant tre ralise collectivement par plusieurs entits distantes les unes des autres.
Afin de dgager des solutions pour mener cet apprentissage nous comparons dans ce
chapitre les architectures de pilotage centralises et non centralises et des modes
apprentissage par renforcement correspondant.
83
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
Architecture Architecture
centralise Non-centralise
Architectures Architectures
hirarchiques htrarchiques
Architectures Architectures
hirarchises hirarchises
modifies
Architecture hybride
Architecture
distribue
84
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
1 Agent
central
Ordres
Informations
2
Agents
Pour viter ces inconvnients, les recherches se sont alors portes sur des architectures
non centralises.
L'architecture hirarchique est une architecture que nous pouvons observer dans la vie
sociale. Ce type d'architecture est compos de plusieurs niveaux de sous-systmes (ou de sous
contrleurs) avec au niveau suprieur une centralisation locale.
C'est dire que chaque niveau a un dcideur central qui contrle et coordonne les
autres agents du mme niveau. Les relations entre les agents du mme niveau sont
indpendantes des niveaux suprieurs. Mais il y a une relation de matre (niveau suprieur) et
esclave (niveau infrieur) entre les niveaux [Rea 03]
85
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
Agent
Niveau 1
central
Contrle
Niveau 2
Niveau 3
Il existe une autre forme d'architecture hirarchique o les agents du mme niveau
peuvent se coordonner entre eux et communiquer. Ce type d'architecture est appel
architecture hirarchique modifie. Jai dvelopp une telle architecture dans mon stage de
D.E.A. [Zen 00] portant sur la commande dun bras de robot deux axes. La commande dun
tel systme est complique parce que le systme est non linaire.
Pour cela nous avons dcompos le systme non linaire en trois sous systmes
linaires (linarisation autour de trois points de fonctionnement) et nous avons utilis trois
contrleurs calculs autour de ces mmes points. Chaque contrleur est indpendant des
autres et a pour but dassurer un bon fonctionnement local, et lensemble doit assurer le bon
fonctionnement du systme non linaire. La commande du systme non linaire est gale la
somme pondre des trois commandes. Un niveau suprieur dcide de la pondration de
chaque contrleur.
86
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
Agent
Niveau 1
centrale
Contrle
Niveau 2
Niveau 3
Coordination et communication
Communication
Contrleurs
Actions
87
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
Les agents dans cette architecture disposent des proprits suivantes [Rea 03] :
En robotique, nous avons par exemple les travaux de Full [Ful 93], o une architecture
htrarchique (distribue) a t utilise pour contrler la marche d'un robot hexapode.
Mais, cette architecture prsente aussi quelques inconvnients. Nous pouvons souligner
que [Rea 03] :
- Les performances globales du systme dpendent du choix des rgles locales et des
protocoles de ngociation entre les entits [Dil 91],
88
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
Dans la structure hybride, les agents de contrle de mme niveau hirarchique sont
interconnects via un mme moyen de contrle. Ils sont capables de communiquer et de
cooprer pour satisfaire leurs objectifs locaux. Lors de perturbations, lensemble des agents de
contrle peut demander de laide leur moyen de contrle pour rsoudre les problmes
dtects.
Contrleurs
Niveau 1
Communication Contrleurs
et contrle Niveau 2
Communication
Actions
89
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
signal de
renforcement Fonction de mise jour
Evironnement unique actions des agents
Fonction de slection
Situations S unique
Nous avons rencontr une telle architecture (que nous considrons comme
hirachique) dans le chapitre prcdent propos des travaux de A. Johannet sur la commande
de la marche dun robot hexapode [Joh 95]. Chaque agent est un contrleur stochastique
indpendant commandant une patte du robot hexapode. Lagent central est un mcanisme de
mis jour des contrleurs selon un algorithme dapprentissage par renforcement Arp
dvelopp par Barto 1985. Cette application est reprsente par le schma de la figure 4.8.
signal de
Fonction de mise
renforcement actions des agents
jour
Environnement
Situations
S
Fonctions de
slection
indpendantes
90
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
Chaque agent peut avoir une perception locale ou partielle de l'environnement et son
propre signal de renforcement diffrent de celui des autres. Cette implmentation de
lapprentissage par renforcement sur des systmes distribus est reprsente par le schma
suivant :
91
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
Lorsquil ny a pas de systme de contrle global, chaque agent prend ses propres
dcisions. Selon les facults de reprsentation du monde, de raisonnement et dinteraction
entre agents, on peut tablir plusieurs niveaux de coopration entre agents qui sont lis aux
quatre niveaux de :
Niveau 3 : les agents peuvent changer des requtes (la communication permet alors
dchanger et de partager des informations utiles la coordination)
Niveau 4 : les agents se rpartissent les tches (dlgation, division du travail), des
groupes dagent avec des donnes diffrentes participent au mme processus
dapprentissage global.
Leur reprsentation du monde se limite des valeurs dutilits associes aux situations
et actions perues par lagent et ils ne sont pas capables de raisonner sur cette reprsentation.
Ils ne prsentent pas non plus de comportement opportuniste dans la mesure o ils prennent
des dcisions systmatiquement. Par contre ils mettent jour ces valeurs dutilit selon un
processus essai erreur comportant des phases dexploitation et dexploration.
92
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
Les niveaux de coopration envisageables entre ces agents ou acteurs sont donc limits
au niveau 1 et au niveau 2. Le niveau 1 ne suppose pas de modification des algorithmes
d'apprentissages individuels, l'interaction entre agents tant indirecte. Nous indiquons dans la
suite des algorithmes Q-learning correspondant au niveau 2. Leurs fondements thoriques
s'appuient sur la thorie des jeux.
La thorie des jeux est importante, lorsque les buts atteindre par un agent dpendent
des actions des autres agents, chacun d'eux pouvant suivre des stratgies diffrentes. Il faut
des rgles ou des mcanismes pour les aider cooprer quand cela est ncessaire.
Un jeu de Markov (appel aussi jeu stochastique) considre diffrents joueurs (agents)
qui peuvent tre en comptition ou en coopration. Les joueurs ne suivent pas ncessairement
un objectif commun.
Par rapport un MDP classique les MMDPs prsentent les diffrences suivantes [Buf
03b]:
L'analyse des jeux de Markov quelconques est complexe et il est utile d'tudier des cas
particuliers comme le jeu une tape (il n'y a qu'un seul tat et une seule tape dans le jeu),
93
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
les jeux d'quipe dans lesquels tous les joueurs reoivent la mme rcompense, les jeux
somme nulle dans lesquels la somme des gains des joueurs est nulle.
Les jeux somme gnrale sont les plus difficiles. Les joueurs cherchent maximiser le
cumul des gains futurs (pondrs par un coefficient d'escompte compris entre 0 et 1).
E j .r 4. 1
j =0
Daprs Owen 1982, repris par [Buf 03b], les jeux de Markov avec critre non pondr
nont pas de stratgie optimale.
Dans un jeu de Markov, une stratgie pure pour un joueur i est une fonction i : S
Ai. Un ensemble de stratgies pour tous les joueurs = {1,,n} est appel un vecteur de
stratgies (ou vecteur de politiques).
Dans un jeu stochastique, les comportements des joueurs peuvent tre non
dterministes, do la dfinition dune stratgie mixte qui pour un joueur i est une fonction pi :
S (Ai) (qui un tat associe une distribution de probabilit sur les coups possibles). Cette
dfinition stend comme prcdemment la notion de vecteur de stratgies mixtes.
Une stratgie est stationnaire si les rgles de dcisions sont les mmes pendant toute la
dure du jeu. Les joueurs se trouvent dans des situations dquilibre, lorsqu'ils ont adopt une
stratgie pour faire face aux jeux des autre joueurs.
Filar et Vrieze ont dmontr en 1964 que tout jeu stochastique somme gnrale avec
escompte possde au moins un point d'quilibre pour les stratgies stationnaires.
On retrouve souvent dans les jeux de Markov le cas particulier des jeux deux joueurs
dans lesquels la somme des gains est connue. Lide est de trouver laction, dans ltat donn,
qui va maximiser le gain de l'un, sachant que ladversaire cherche simultanment minimiser
le sien
Littman 1994 [Lit 96], a prsent deux rgles d'actualisation quivalentes pour
apprendre par renforcement une stratgie mixte optimale :
Q(s,a 1,a2)(1)Q(s,a1,a2)+[r + max p1 mina2 Q(s', p1,a2)] 4. 2
O Q(s,a1,a2) reprsente la matrice des gains du joueur 1 (celui qui maximise les
gains), chaque joueur appliquant une stratgie mixte pi.
Avec pi : S (Ai) ( un tat on associe une distribution de probabilit sur les coups
possibles du joueur i sur l'ensemble des action Ai).
94
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
La fonction valeur Q dun agent dpend des actions des autres agents. Hu et Wellman
ont propos un algorithme Q-Multi-agent pour deux agents [HU 98]. Si on numrote 1 et 2
chacun des agents, lalgorithme suivi par lagent 1 est le suivant :
Initialiser :
t=0,
Pour tout s dans S, a1 dans A1, et a2 dans A2
initialiser s0
Boucle
choisir action a1 base sur 1(s), qui est une stratgie mixte, quilibre de Nash*
du jeu (Q1(s), Q2(s)).
Observer r1 ,r2 ,a2 , et s'
Mise jour de Q1, et Q2, selon
Une stratgie mixte 1(s),2(s) aboutit a un quilibre de Nash si une des deux
conditions suivantes est respecte :
Nash a montr en 1951 qu'il existe une stratgie mixte, quilibre de Nash pour tout jeu
2 joueurs somme quelconque ('bimatrix game').
95
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
Le schma de la figure 4.10 reprsente les matrices Q gres par lagent 1 pour les
tats s et s. Pour chaque tat, il y a deux tableaux de |A1| lignes et |A2| colonnes contenant
les valeurs dutilit Q des 2 agents estimes par lagent 1.
Lagent 2 procde de manire semblable. Ainsi chaque agent rsout dans la situation s
un jeu une tape, lexcution conjointe de leurs actions les conduit dans une situation s et
un nouveau jeu une tape.
Selon cette reprsentation, la taille mmoire ncessaire pour mmoriser les fonctions
Q augmente de manire proportionnelle avec le nombre dtat et de manire exponentiel avec
le nombre d'agents.
Ainsi, en supposant N joueurs, |S| situations et un nombre dactions |A| identique pour
chaque joueur, le nombre de valeurs Q calculer est N*|S|*|A|N.
Fig. 4. 10 Les matrices Q gres par chaque agent dans les situations s et s.
96
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
Architecture des
systmes d'apprentissage Limitations Avantages
Limitations des architectures Avantages des architectures
centralises. centralises
Approche centralise de
La taille mmoire pour stoker les Apprentissage men pour
lapprentissage par
valeurs tat ou action crot de faon satisfaire l'objectif global.
renforcement
exponentielle avec le nombre de Problmes de coordination rsolus
variables d'tat et d'actions (ce au niveau suprieur.
dernier augmente avec le nombre
d'agents).
Un seul signal de renforcement pour
l'ensemble des agents.
Difficult pour satisfaire des
contraintes locales
97
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
4.9 Conclusion
Nous avons prsent dans ce chapitre diffrentes architectures de pilotage des
systmes et des architectures d'apprentissage par renforcement correspondantes (architecture
centralise et architecture distribue). Ensuite nous avons pos une problmatique d'actions
collectives dans un environnement distribu pour des agents ractifs. Nous avons fait
rfrence des outils mathmatiques utiles comme la thorie des jeux et en particulier les jeux
de Markov pour dcrire des modles de dcision et d'apprentissage dans le cas o
lapprentissage est influenc par lobservation du comportement dautres agents. Nous avons
prsent dans ce contexte des versions de lapprentissage par renforcement comme par
exemple minmaxQ-learning et Q-multiagent. Dans la suite, nous cherchons clater un agent
complexe (tel qu'un robot hexapode) en plusieurs agents autonomes de structures plus simples
(les membres et leurs contrleurs), et plus faciles commander individuellement. Il reste
cependant rsoudre, dune faon pratique et thorique, les problmes :
Nous traitons ces questions dans le chapitre suivant consacr lapplication de cette
approche (apprentissage par renforcement des systmes distribus) pour le pilotage d'un
robot hexapode.
98
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
CHAPITRE 5
Exprimentations et rsultats
dapplication de lapprentissage par
renforcement sur l'apprentissage de
la marche dun robot hexapode
5.1 Introduction
Aprs une brve prsentation du robot hexapode ralis au laboratoire, nous
prsentons dans ce chapitre une application de l'apprentissage par renforcement un robot
hexapode considr comme un systme distribu constitu d'agents (les pattes) dotes d'une
certaine autonomie mais devant se coordonner pour assurer l'ensemble des fonctionnalits
de plus haut niveau qui sont la marche, le contrle de la posture et le suivi de trajectoire.
99
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
- 36 capteurs
- 6 cartes moteurs avec chacun deux filtres numriques de type PID (LM628)
- 1 carte dentre/sortie (PIA 82C55)
- 1 carte liaison- srie (ACIA RC65C52)
Chaque patte possde deux moteurs, lun des moteurs permet davancer ou de reculer
(rotation autour de laxe z) et lautre permet de monter ou de descendre (rotation autour de
laxe x). Lamplitude de chacun des mouvements peut tre quelconque dans le dbattement
autoris, des vitesses angulaires maximales peuvent tre imposes. Du fait des rductions
mcaniques importantes, les mouvements des pattes sont assez lents (environ 3 s pour
effectuer un mouvement de balancement), et le robot tient en position mme lorsque les
moteurs ne sont pas aliments. Les caractristiques mcaniques du robot hexapode sont :
- Poids mcanique 2 kg
- Poids lectronique 1kg
- Dbattement dpaule = 30
- Dbattement coude = 45
- Puissance de chaque moteur 3,8 W
- Rduction paule 33
- Rduction coude 1090
1
LGI2P : Laboratoire de Gnie Informatique et dIngnierie de Production
100
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
L G
E
o
Y
X
Fig. 5. 1 Une patte du robot hexapode.
: Rotation autour de laxe Z.
: Rotation autour de laxe X.
Capteur de chute
Moteur Dtection
dobstacle
Contact au sol
101
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Nous pouvons donner un modle logique simple codant pour chaque patte ltat du
capteur de contact avec le sol : 0 si la patte est en lair, 1 si la patte est en contact. Une
configuration de l'hexapode est alors dcrite par une hexuplet dont chaque bit code la position
en lair ou au sol de chaque patte. Ainsi chacune des 64 configurations possibles de
lhexapode est associ un nombre dcimal dont le code binaire caractrise la position des
pattes. Un exemple est donn en figure 5.3.
1
6
2
5 1 0 1 0 1 0
6 5 4 3 2 1
3
4
42 Configuration n 42
5.3 Problmatique
Lobjectif de notre travail est dtudier une mthode robuste dapprentissage pour que
le robot puisse marcher faibles allures en matrisant sa trajectoire dans un environnement
qui peut tre inconnu, et dans des conditions qui peuvent tre dgrades (cas de pannes de
moteurs ou de capteurs). Lhypothse dun dplacement faible allure est de la forte
rduction des motorisations et nous permet de ne pas prendre en compte les effets dynamiques
des masses en mouvement, mais le robot doit tre capable de changer de vitesse de
dplacement. Les fonctions assurer sont alors :
Sur terrain plat, il y a dix-huit tats stables possibles (deux pattes conscutives ne
peuvent pas tre en lair simultanment) reprsents sur la figure 5.4 suivante :
102
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
63 62 61 59 58
46
55 54 53 47
45 43 42 29
31
27 21
23
103
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Pour atteindre ses objectifs nous avons privilgi une approche distribue de la
commande et de lapprentissage par renforcement base sur larchitecture de subsomption
[Zen 02].
Pour traiter le problme du pilotage du robot marcheur, nous nous sommes bass sur la
modlisation en plusieurs niveaux de commande propose par Brooks [Bro 86][Por 00a].
Chaque niveau de commande gre une partie du fonctionnement du robot. Chaque niveau
reprsent en figure 5.5 ajoute une fonctionnalit et l'ensemble permet le pilotage global du
robot.
3. Contrle de la navigation
2. Contrle la marche
Capteur Action
2
Arp : Algorithme (rcompense / pnalit)
104
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Ces travaux ont montr quil tait possible de trouver des marches priodiques
rectilignes comme la marche tripode (trois pattes au sol en alternance). Mais cette approche
prsente plusieurs limitations :
Le nombre dactions possibles pour chaque segment est limit 2. En effet lalgorithme
Arp permet de calculer la probabilit deffectuer une action ou laction qui lui est oppose.
Cette probabilit peut tre augmente ou diminue selon que l'action conduit une
rcompense ou un chec. Pour tendre lapproche plus de 2 actions, il faudrait assurer
que la somme des probabilits associes chacune d'elles soit gale 1 ce qui suppose de
prvoir un mcanisme dajustement efficace pour augmenter les probabilits des actions
qui nont pas t pnalises et diminuer celles qui nont pas t rcompenses.
Le signal de renforcement est identique pour chaque patte, or par exemple, une chute peut
tre provoque par la proaction simultane de deux pattes adjacentes. Il nest alors pas
ncessaire de pnaliser les autres pattes puisqu'elles ne sont pas en cause. De mme si on
introduit la notion de dure maximale de rtraction, si une patte reste trop longtemps au
sol, elle peut tre pnalise sans que les autres le soient. Il nest pas non plus vident que
chaque patte joue un rle identique (chez un insecte comme le cafard, les fonctions des
pattes du milieu sont diffrentes de celles des pattes arrires). Enfin les informations
sensorielles qui dterminent les mouvements ne sont pas ncessairement identiques pour
toutes les pattes (par exemple : cas d'une perturbation extrieure provoquant une raction
rflexe d'une des pattes). Certaines donnes locales (surcharge ou dficience ponctuelles)
peuvent contraindre localement certains mouvements. Les consquences sur les
mouvements des autres pattes sont alors indirectes.
Nous avons choisi lapprentissage de type Q-learning dvelopp par Watkins 1989
[Seh 96], car :
Il permet destimer lutilit associe lexcution dune action partir dun tat donn. Il
nest pas possible dans le cas de lapprentissage de la marche de nvaluer que lutilit
associe aux tats. En effet, contrairement ce qui est habituellement pratiqu lorsque
seule lutilit de ltat est connue, les actions ne peuvent pas tre choisies pour permettre
une transition vers un tat dutilit plus grande, tant donn que dans un cycle (marche
priodique), le systme boucle sur les mmes tats. Sur un cycle priodique l'utilit ne
peut pas crotre. Ces tats doivent alors avoir la mme utilit.
105
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Il est possible de ladapter dans le cas ou les variables dactions ou dtats sont continues
[Seh 96]
Il peut tre tendu aux cas des systmes distribus, par exemple dans la version Q-
multiacteurs (voir chapitre 4).
Notre travail, est bas sur une approche distribue de lapprentissage par renforcement
schmatise par la figure 5.6. Chaque patte du robot hexapode est commande
indpendamment [Joh 96]. Chaque agent contrleur 'dcide' du mouvement suivant partir
de la connaissance de l'tat binaire (en l'air ou au sol) des autres pattes. Toutes les pattes ne
reoivent pas ncessairement la mme information d'tat ni le mme signal de renforcement,
et lapprentissage est local pour chacune delle [Zen 03b].
Renforcement r6
Q-learning 6
Action a6 Critique
Situation S6
Renforcement r1
Q-learning 1
Patte 6
Critique
Action a1
Situation S1
Environnement
Patte 1
106
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Nous avons dcrit larchitecture de commande adopte dans notre travail, nous
prsentons maintenant les rsultats obtenus en simulation en appliquant lapproche distribue
prconise pour la gnration de mouvements de marche. Nous confrontons les approches
centralises et distribues. Puis nous abordons le problme du contrle de la posture et du
changement de trajectoire. Dans ce cadre nous proposons une mthode dapprentissage dans
les systmes distribus qui permet de tenir compte au niveau de chaque agent des dcisions
prises par les autres agents. Cette mthode est tendue par la suite aux cas o les espaces
dactions et dtat sont continus et plus seulement discrets [Zen 04].
Q i (s, a ) Q i (s, a ) + r + max a ' Q i (s ' , a') Q i (s, a ) 5. 1
107
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Sauf indication contraire (paragraphe 4.) chaque agent accs aux mmes
informations sur l'tat des capteurs de contact des pattes avec le sol. Chaque agent actualise
donc une table des valeurs associes au couple (tat, action) comportant 2^6=64 lignes (une
ligne par tat) et deux colonnes (une par action possible).
Les paramtres dont l'influence sur les rsultats de la simulation a t tudie sont
rassembls dans le tableau 5.1 suivant :
108
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
(1) : Dans lapplication de cette structure de commande, et pour tenir compte de la symtrie
du robot et du rle similaire que jouent les diffrents pattes lors d'une marche rectiligne sur
sol plan, il est envisag que les pattes controlatrales (en vis vis par rapport l'axe de
symtrie longitudinal) ragissent de faon analogue (c'est dire qu'elles puissent partager les
estimations des valeurs d'tat associes aux couples (tat, action).
Configuration 1 Configuration 2
G6
D1
G6
D1
D2
G5 D2
G5
D3 G4
G4 D3
(2) : en plus des fonctions critiques de base nonces plus haut, et dans le but de restreindre
le nombre de marches obtenues celles qui sont observes gnralement sur un insecte, une
fonction critique supplmentaire tient compte des mouvements de plusieurs pattes et adresse
une pnalit lorsqu'un mouvement de proaction s'effectue alors que la patte collatrale
antrieure vient d'effectuer une proaction (les mouvements de proaction devant se propager de
l'arrire vers l'avant; le cas de la marche tripode faisant exception). Comme nous le verrons
par la suite ces rgles sont ncessaires pour limiter le nombre de marches possibles.
109
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Chaque agent cherche maximiser sa propre fonction objectif [San 98], [San 99], qui
consiste rpter un cycle locomoteur form d'une proaction suivi d'une rtraction. L'agent
est pnalis si une proaction dure plus d'une unit de temps. L'agent est pnalis si la dure de
la rtraction est trop courte ou trop longue. La consigne de dure de rtraction provient du
niveau de commande suprieur (niveau 3 de la figure 5.5) o est choisie l'allure. En cas de
chute, les seuls agents en cause sont pnaliss. Si deux pattes conscutives se lvent
simultanment, le robot bascule du ct de celles-ci provoquant l'enfoncement du contact de
dtection de chute correspondant et une pnalit locale aux pattes qui ont provoquer la chute.
Si toutes les pattes sont au sol, il s'agit d'une position de repos que nous avons choisi de
pnaliser ( un niveau local cette situation pourrait tre dtecte au niveau de chaque patte
par le biais d'un capteur d'effort, la charge alors supporte par chacune des pattes tant la plus
faible). Ainsi les rgles nonces traduisent seulement des comportements ou phnomnes
locaux pouvant tre perus par les agents et ne rsultent pas d'une analyse globale de
l'enchanement des mouvements ressemblant une marche. Nous supposons que la
maximisation des gains de chaque agent ralisant leurs propres objectifs est compatible avec
l'objectif global qui est que le robot marche. Les rgles d'attribution des pnalits et des
rcompenses pour chaque patte sont rsumes dans le tableau 5.2 suivant.
Pnalit : r = - 1 si Rcompense : r = +1 si
Suite une dcision de proaction Le mouvement de proaction se
le robot chute. passe normalement ( pas de
chute)
L'ordre de proaction est rpt Le mouvement de rtraction a
deux fois de suite. dpass la dure minimale.
Le mouvement de rtraction une
dure trop longue ou trop courte
Toutes les pattes sont au sol
Ainsi toutes les pattes ne reoivent pas simultanment le mme signal de renforcement.
110
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Nous examinons les squences priodiques (elles ne sont retenues que si elles se
reproduisent 10 fois conscutivement) pour diffrentes consigne D_max_ret de dure de
rtraction, les autres paramtres tant fixs comme indiqu dans le tableau 5.3.
21 42 21 42 21 42 21 42 21 42 21 42 21 42
D3
D2
D1
G4
G5
G6
Fig. 5. 8 Chronogramme de la marche tripode (21 42). Une ligne verticale reprsente une
transition dun tat lautre, et les lignes horizontales reprsentent les pattes.
111
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
47 27 61 54 47 27 61 54 47 27 61 54 47 27 61 54
D3
D2
D1
G4
G5
G6
112
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Nous avons ici comme exemple, le chronogramme dune marche trouve reprsent
par le schma suivant :
47 59 31 61 55 62 47 59 31 61 55 62 47 59 31 61 55 62
D3
D2
D1
G4
G5
G6
Fig. 5. 10 Chronogramme dune marhe a six temps (47 59 31 61 55 62). Une ligne verticale
reprsente une transition dun tat lautre, et les lignes horizontales reprsentent les pattes.
Pour les valeurs de D_max_ret paires, nous observons en 50 pisodes des marches 3
temps (pour D_max-ret =2), la dure moyenne des pisodes tant de 164 units de temps
et des marches 5 temps et quelques marches 4 temps (pour D_max_ret = 4), la dure
moyennes des pisodes tant 580 units de temps.
Lorsque l'on fait varier D_min_ret, entre 1 et D_max_ret on autorise toutes les marches
priodiques depuis les marches (D_min_ret +1) temps jusqu'aux marches
(D_max_ret+1) temps comme le montre le rsultat de simulation suivant obtenu avec
D_max_ret = 5 et D_min_ret =1 :
Conclusion :
En fixant la consigne de dure maximale de rtraction, on agit sur la priode des marches
trouves et donc sur la vitesse de dplacement.
En fixant la consigne de dure minimale de rtraction une unit de temps, le robot peut
adopter diffrentes marches de priodes deux temps la priode maximale autorise.
Trois des marches naturelles d'insecte (marche tripode, ttrapode et longue) sont obtenues.
113
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Afin de limiter le nombre de marches qui ne correspondent pas celles observes chez
les insectes, nous avons introduit une rgle supplmentaire qui impose qu'une patte ne peut
entreprendre de mouvement de proaction avant la patte ipsilatrale postrieure (si elle existe)
traduisant ainsi que les mouvements de proaction se propagent de l'arrire vers l'avant
(comme suggr par les observations de Wilson sur les insectes [Ran 99]).
Nous avons donc compars les rsultats obtenus sans ou avec cette rgle, les autres
paramtres tant fixs comme indiqus par le tableau 6.10 suivant :
114
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
- Nombre moyen des chutes: 25, Dure moyenne des pisodes: 100
45 27
1
6
5 2
3
4
D3 54 61 47 27 54 61 47 27 54 61 47 27 54 61 47 27
D2
D1
G4
G5
G6
Avec la rgle qui pnalise toute patte qui proacte avant la patte ipsilatrale postrieure
(quand elle existe), sur 50 pisodes d'une longueur maximale de 2000 units de temps, nous
obtenons cette fois que 31 succs mais toutes les marches sont correctes.
115
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
- Nombre dpisodes : 50
- Nombre moyen des chutes sur 50 pisodes : 37,3
- Dure moyenne des pisodes sur 50 pisodes : 450,8
Conclusion :
En introduisant une rgle supplmentaire qui ne prend en compte que des informations
locales en pnalisant toute patte qui proacte avant la patte ipsilatrale postrieure
(quand elle existe), nous liminons des marches trouves et qui ne correspondent pas
des marches observes chez les insectes.
Pour tenir compte de la symtrie du robot et du rle similaire que jouent les diffrents
contrleurs lors d'une marche rectiligne sur sol plan, il est envisag que les pattes
controlatrales (en vis vis par rapport l'axe de symtrie longitudinal) agissent de faon
analogue.
Pour cela nous considrons qu'elles partagent les mmes estimations des valeurs d'tat
associes aux couples (tat, action) dans le cas de configurations similaires.
Nous illustrons ici les effets d'une telle hypothse dans le cas d'une simulation mene
avec les paramtres runis dans le tableau 5.11 :
Sur 50 pisodes, d'au plus 2000 units de temps, 34 ont abouti sur des marches
priodiques prsentant des anomalies.
116
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
D2
D1
G4
G5
G6
Nous constatons que sur 50 pisodes, tous aboutissent une marche pour lesquelles
chaque patte effectue une proaction un mme nombre de fois au cours d'une priode.
117
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
47 23 31 61 55 62 47 23 31 61 55 62 47 23 31 61 55 62
D3
D2
D1
G4
G5
G6
Conclusion :
Nous tudions comment le robot se comporte lorsqu'il est rinitialis dans une
configuration stable et qu'il continue son apprentissage alors qu'au moins une marche a dj
t dcouverte. Pour traiter ce cas, nous ne rinitialisons pas les fonctions valeurs Q(s, a)
aprs chaque pisode. Les autres paramtres sont donns par le tableau 5.14 suivant :
Si le tableau Q(s,a) n'est pas rinitialis aprs chaque pisode, le robot apprend
marcher de n'importe quelle configuration initiale stable. Des attracteurs dynamiques,
118
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
correspondant aux cycles priodiques de marche, peuvent tre prciss comme reprsent sur
1e schma 5.15 suivant :
59
54 55
27
47
53 61
31 43
62
46
29 21
L'etat 63 correspond une configuration stable de repos dans laquelle aucune des
pattes ne bouge. Cest pour viter cet attracteur que nous avons introduit une rgle qui pnalise
les pattes lorsquelles forment une telle configuration.
Conclusion :
Les rsultats obtenus nous montrent que les marches apparaissent comme des cycles
stables attracteurs des autres configurations stables dans l'espace des configurations.
Ainsi dmarrant depuis une configuration stable, les premiers pas permettent d'atteindre
un cycle de marche, chacun de ces cycles prsentant son propre bassin d'attraction.
Il peut y avoir cependant des attracteurs parasites.
Nous tudions maintenant linfluence du coefficient qui pondre les valeurs des
rcompenses attendues dans lestimation de la somme des gains futurs. Les autres
coefficients sont fixs comme indiqu dans le tableau 5.16 suivant :
Pour prenant des valeurs entre 0 et 1 selon un pas 0.2, on fait la moyenne sur 5 tests
de 1000 pisodes de dure maximale 2000 units de temps, de la dure moyenne des pisodes
qui ont abouti ( une marche), du nombre moyen de chutes sur les pisodes qui ont abouti. On
119
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
relve aussi la moyenne sur les 5 essais du nombre des pisodes qui ne se sont pas termins
par une marche priodique.
Les rsultats sont donns sur les figures (5.16, 5.17, 5.18) suivantes :
Nous remarquons que le nombre des pisodes sans marche diminue rapidement avec ,
c'est--dire quil est plus facile de trouver des marches avec proche de 1.
Fig. 5. 17 Dure moyenne des pisodes qui se terminent par une marche en fonction de .
120
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Nous remarquons sur la figure 5.17, que lapprentissage est plus rapide lorsque est proche
de 1 (plus rapide avec =0.9) car la dure ncessaire pour trouver des marches diminue
progressivement avec laugmentation de .
Fig. 5. 18 Variation du nombre moyen des chutes sur les pisodes qui se terminent par une
marche en fonction de .
On constate que ce nombre diminue progressivement par des phases diffrentes jusqu
=0.9. Plus est grand, moins il y a de chutes pendant la recherche des marches priodiques.
Les valeurs de sont (0.01, 0.05, 0.1, 0.5, 1, 2), =0.9, avec les mme valeurs de
D_max_ret. et D_min_ret. Les figures sont les suivantes :
121
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Fig. 5. 19 Influence du pas de gradient sur : le nombre moyen de chutes pour les pisodes
qui se terminent par une marche, la dure moyenne des pisodes qui se terminent par une
marche, le nombre moyen des pisodes sans chute et le nombre moyen de marches diffrentes
trouves, avec =0,9 sur cinq tests de 1000 pisodes de dures maximale 2000 itrations.
Nous avons aussi analyser pour un essai de 1000 pisodes dau maximum 2000
itrations linfluence du pas de gradient sur la priode des marches trouves. Avec les
valeurs de (0.8, 0.9, 1) et de pas de gradient (0.01, 0.05, 0.1, 0.5, 1, 2). Les rsultats de
simulations avec =0.9 sont reprsents par les figures suivantes :
122
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
- Avec =0.9
Fig. 5. 20 Influence de pas de gradient sur la priode des marches trouves. Laxe
horizontal (T): priode des marches. Laxe vertical : Nombre des marches trouves pour
chaque priode
Fig. 5. 21 Influence de pas de gradient sur la priode des marches trouves. Laxe
horizontal (T): priode des marches. Laxe vertical : Nombre des marches trouves pour
chaque priode.
123
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Nous remarquons que le nombre de marches avec diffrentes priodes est trs grand et
diminue avec laugmentation de pas de gradient (), jusqu il trouve une seule marche avec
une priode 2T. Nous remarquons aussi que le robot arrive a trouver souvent des marches 4
temps et 6 temps comme exig avec le choix des paramtres (D_max_ret =5, D_min_ret=1).
Nous remarquons aussi que le plus grand nombre de marches avec des priodes diffrentes est
obtenu avec =0.05.
Nous analysons ici lvolution des fonctions Q au cours du temps dans le cas de la
recherche de marche 4 temps selon les conditions de simulation dcrites dans le tableau
5.17 suivant :
Nous traons en figure 5.23 lvolution des 6 courbes Q pour ltat 53 en fonction du
temps dans le cas caractristique dune marche 4 temps : 61, 53, 47, 29 est dcouverte.
Nous constatons que les fonctions Q convergent vers la valeur 10 ce qui correpond
bien la valeur r+/(1-) attendue lorsque que les agents ne reoivent plus que des
rcompenses r+ = 1. Nous vrifions bien que le meilleur choix daction depuis ltat 53
daprs les courbes Q correspond celui qui conduit ltat 47.
On constate aussi en figure 5.22 quil nest pas ncessaire dattendre la convergence
pour que le robot volue selon une marche priodique. En effet dj litration 60, le robot
reproduit toujours le mme cycle de marche. Cest pourquoi nous considrons que le robot a
dcouvert une marche non pas lorsque les courbes Q ont atteint leur valeur de convergence
(par exemple 95% prs), mais lorsque le robot a reproduit le mme motif priodique de
marche au moins M fois (M=10 dans les simulations).
124
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
12
10
8 Q6(53,1)
Q5(53,0)
6 Q4(53,1)
4 Q1(53,1)
Q2(53,1)
2 Q3(53,1)
0
1 501 1001 1501 2001 2501 3001 3501
-2
Fig. 5. 22 Evolution des 6 courbes Q pour ltat 53 en fonction du temps dans le cas
caractristique o une marche ttrapode : 61, 53, 47, 29 est dcouverte.
1,2
1,2
1
1
0,8
0,8
0,2 0,2
0
0
-0,2
-0,2
1 11 21 31 41 51 61 71 81 91
1 11 21 31 41 51 61 71 81 91
1,2 1,2
1 1
0,8 0,8
0,6 Q5(53,0) 0,6 Q2(53,0)
0,4 Q5(53,1) 0,4 Q2(53,1)
0,2 0,2
0 0
-0,2 -0,2
1 11 21 31 41 51 61 71 81 91 1 11 21 31 41 51 61 71 81 91
1,2 1,2
1 1
0,8 0,8
0,6 Q4(53,0) 0,6 Q3(53,0)
0,4 Q4(53,1) 0,4 Q3(53,1)
0,2 0,2
0 0
-0,2 -0,2
1 11 21 31 41 51 61 71 81 91 1 11 21 31 41 51 61 71 81 91
Fig. 5. 23 Evolution des 6 courbes Q pour ltat 53 en fonction du temps dans le cas
caractristique o une marche ttrapode : 61, 53, 47, 29 est dcouverte (dtail).
125
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Nous avons aussi constat que les courbes Q peuvent converger sans que tous les
agents ne reoivent plus de pnalits. La figure 5.24 suivante reprsente le cas parasite
dune marche priodique 3 temps dcouverte (47, 58, 21) et reproduite par le robot sans que,
comme lindique les signaux de renforcement, les agents ne soient plus pnaliss. On observe
alors que les courbes Q convergent vers une valeur infrieure 1/(1-)= 10 [Zen 03].
Q6(47,0)
3,5
Q6(47,1)
1 3
Q5(47,0)
2,5 Q5(47,1)
0,5
2 Q4(47,0)
1,5 Q4(47,1)
0
1 Q1(47,0)
1 -0,5 Q1(47,1)
0,5
5 Q2(47,0)
-1 0
9 Q2(47,1)
S5
-0,5
S3
Q3(47,0)
A B
S1
Ceci peut sexpliquer par le fait que le terme derreur qui permet de corriger les
valeurs de Q et qui scrit selon lexpression suivante:
= r + max(Q(s ' , a')) Q(s, a ) 5. 2
a
Peut tre positif alors que r est ngatif. Ainsi lors du cycle de marche, si le rapport du
nombre de rcompenses sur le nombre de pnalits est suffisamment grand, les courbes Q
continues de crotre, mais natteignent pas la valeur maximum attendue. Nous avons aussi
constat lors des simulations que mme si le robot est initialis dans la mme configuration de
dpart, le temps ncessaire pour atteindre une marche priodique pouvait varier fortement
dun essai lautre. On peut alors observer sur les courbes Q que dans certains cas des
fonctions Q tendent rapidement vers une valeur de convergence positive alors que dautres
oscillent ou prennent des valeurs ngatives traduisant une impossibilit de dcision sur
laction excuter. Nous pensons que lanalyse de ces comportements particuliers permet de
dtecter des conflits de dcision (conflit dintrt pour un agent ou entre les agents). Nous
navons pas cependant trouver de mthode satisfaisante pour exploiter ces comprtement afin
de rsoudre efficacement de tels conflits et pour ainsi diminuer le temps moyen ncessaire
pour converger vers une marche priodique.
Nous tudions ici, comment une limitation des informations sur ltat du robot peut
influencer la marche. Dans ce but, nous considrons que chaque patte ne reoit que les tats
d'un nombre limit des autres pattes. Parmi les cas possibles, nous avons retenus les quatre
cas suivants dcrits par les figures 5.25 5.28 :
126
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
patte6 patte1
patte5 patte2
patte4 patte3
Cas 2 : chaque patte ne connat que l'tat des pattes situes du mme ct.
patte6 patte1
patte5 patte2
patte4 patte3
Cas 3 : chaque patte ne connat que l'tat des deux pattes voisines.
patte6 patte1
patte5 patte2
patte4 patte3
Patte 6 Patte 1
Patte 5 Patte 2
Patte 4 Patte 3
127
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Pour mener cette simulation, nous avons utilis les paramtres suivants :
a 0,01
0.95
D_max_ret 1ou 3 ou 5
D_min_ret D_max_ret
Considration sur la symtrie du robot Oui
Rgle de propagation des proactions oui
Initialisation des tables chaque pisode oui
Nous constatons quaucune marche 6 temps nest apprise par le robot (cas o
D_max_ret = 5). Les marches trouves dans les cas 1,2, 3 sont :
Tableau. 5. 20 Les marches trouves, cas 2 : chaque patte ne connat que l'tat des pattes
situes du mme ct.
128
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
129
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Conclusions :
Du fait du nombre limit d'informations sur l'tat des pattes, on ne peut pas obtenir de
marches 6 temps car il y a ambigut : un mme tat correspondrait 2 actions
diffrentes.
Lorsque lagent ne connat que son propre tat, seule la marche tripode est trouve. En
effet dans une marche tripode, chaque patte alterne successivement entre proaction et
rtraction. Les pattes apprennent se synchroniser de telle sorte que depuis toute
configuration stable, les premiers pas conduisent une des configurations de la marche
tripode (qui est le seul cycle attracteur possible pour la mme raison que prcdemment).
Lobtention des marches 4 temps sont facilites lorsque chaque agent ne connat que
ltat de ces deux voisins immdiats. Le temps moyen pour obtenir une marche est mme
diminu par rapport au cas ou ltat de toutes les pattes est connu par lagent. En effet les
informations dtat inutiles augmente la taille des tables de valeurs Q(s,a), ce qui
rallonge le temps ncessaire lapprentissage.
Dans cette partie nous voulons observer si le robot peut trouver ou non des marches
lorsque une ou plusieurs pattes sont bloques : soit en position haute (patte manquante), soit
en position basse (patte tranante). Lorsque une patte est bloque en lair, nous nobtenons
pas de marche. Cela est d au fait quaucune des deux pattes voisines ne peut entreprendre de
proaction car alors le robot chute. Les pattes ainsi bloques au sol reoivent des pnalits car
la satisfaction de leur propre objectif impose de ne pas rester bloque en position basse. Il y a
donc contradiction et lalgorithme ne converge pas. Il faudrait relcher la contrainte qui
impose une patte dentreprendre un mouvement de proaction par cycle de marche. Par
contre pour une cinq patte bloques au sol, lalgorithme converge et des marches dgrades
sont obtenues comme lillustre le rsultat suivant :
130
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Nous avons vrifi que pour 1 4 pattes bloques au sol, des marches peuvent tre
trouves mais, pour une patte bloque en lair, des marches ne sont pas trouves.
Conclusion :
Il nest pas possible dobtenir une marche priodique lorsque une des pattes est manquante
car il y a contradiction entre les rgles du critique. Il est alors ncessaire de relcher une
contrainte (cest dire quil faut supprimer une rgle pour lever la contradiction).
Par contre des marches dgrades sont obtenues lorsque 1 4 pattes restent bloques au
sol.
- Une pnalit est envoye chaque patte si une des rgles en vigueur du critique
fournit une pnalit.
- Une rcompense est envoye chaque patte si et seulement si, au moins une rgle du
critique fournit une rcompense alors que les autres signaux de renforcement sont
nuls.
131
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Nous prsentons les rsultats de simulations suivant obtenu pour des valeurs
identiques de et .
Cas 1 :
Tableau. 5. 25 Les marches trouves avec une architecture hirarchise (slection daction
en local), un tableau (64*2) de valeurs Q pour chacun des 6 agents et un signal de
renforcement global.
Cas 3 :
132
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Conclusions :
Dans le cas distribu (chaque agent gre sa propre table Q partir de son propre signal de
renforcement) :
Dans le cas centralis et hirarchis o le renforcement est unique pour lensemble des
pattes :
- Lapprentissage est plus facile (50 marches trouves) et plus rapide dans le cas
centralis o il existe quune table (64x64) que dans le cas hirarchis o chaque agent
gre sa propre table (64x2).
- Ce rsultat peut sinverser avec les valeurs des paramtres D_Max_ret et D_Min_ret
(par exemple dans le cas D_Max_ret=D_Min_ret=5, le deuxime cas est meilleur que
le premire cas).
133
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Les rsultats de la simulation obtenus en calculant la moyenne sur cinq tests de 1000
pisodes de dure maximale 2000 itrations sont illustres par les figures (5.29, 5.30, 5.31)
suivantes :
Fig. 5. 29 Influence du facteur doubli sur le nombre des pisodes sans marche. Rsultats
obtenus en calculant la moyenne sur cinq tests de 1000 pisodes de dures maximale 2000
itrations.
Fig. 5. 30 Influence du facteur doubli sur la dure moyenne des pisodes qui se termine
par une marche. Rsultats obtenus en calculant la moyenne sur cinq tests de 1000 pisodes
134
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Fig. 5. 31 Influence du facteur doubli sur le nombre moyen des chutes sur les pisodes qui
se termine par une marche. Rsultats obtenus en calculant la moyenne sur cinq tests de 1000
pisodes de dures maximale 2000 itrations.
Les figures (5.29, 5.30, 5.31) montrent que avec laugmentation du facteur doubli ,
la dure moyenne des pisodes qui se terminent par une marche diminue progressivement,
ainsi que le nombre moyen des chutes sur les pisodes avec marche. Le nombre des pisodes
sans marche augmente avec cette augmentation de . Donc, contrairement au cas distribu, le
robot trouve avec difficults des marches diffrentes lorsque est proche de 1. Cela peut
sexpliquer par le fait que dans le signal de renforcement global est souvent pnalisant (une
pnalit est envoye tous ds quun agent nagit pas correctement), il est plus difficile de
trouver une solution qui conduit des rcompenses sur le long terme. La comparaison de ces
rsultats avec larchitecture distribue est illustre dans le tableau suivant :
135
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Avec = 0.9 :
Fig. 5. 32 Influence du pas de gradient sur le nombre moyen de chutes pour les pisodes qui
se terminent par une marche, la dure moyenne des pisodes qui se terminent par une
marche, le nombre moyen des pisodes sans chutes et le nombre moyen de marches
diffrentes trouves, avec =0,9 sur cinq tests de 1000 pisodes de dures maximale 2000
itrations.
136
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Les remarques sur linfluence de la variation de pas de gradient sont les suivantes :
On trouve plus facilement des marches diffrentes lorsque est proche de 0.01, mais
il faut prendre voisin de 0.5 pour que la dure moyenne des itrations ncessaires
pour trouver une marche soit la plus faible. Nous suggrons que ceci traduit le fait que
pour petit, lalgorithme se trouve plus facilement pig dans une solution
(correspondant un minimum local de lobjectif ), une augmentation de
permettant datteindre plus facilement des solutions de bassin dattraction plus grand.
Nous avons trait linfluence du pas dapprentissage sur la priode des marches total
de marche trouves sur un essai de 1000 pisodes de dure maximale 2000 itrations. Avec la
valeur de = 0.9 et le pas dapprentissage prenant les valeurs 0.01, 0.05, 0.1, 0.5, 1, 2, 0. Les
rsultats de simulations sont illustrs dans les figures (5.33, 5.34) suivantes :
Avec =0.9
Fig. 5. 33 Influence du pas de gradient sur la priode des marches trouves. Laxe
horizontal (T): priode des marches. Laxe vertical : nombre total de marches trouves pour
un essai de un essai de 1000 pisodes de dure maximale 2000 itrations.
137
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Fig. 5. 34 Influence du pas de gradient sur la priode des marches trouves. Laxe
horizontal (T): priode des marches. Laxe vertical : nombre total de marches trouves pour
un essai de un essai de 1000 pisodes de dure maximale 2000 itrations.
Daprs les figures 5.33 et 5.34 confirment le fait quune valeur petite permet de
dcouvrir davantage de marches diffrentes.
Le nombre de marches trouves est nettement plus faible que dans le cas distribu.
5.8 Rsum
A la fin de cette premire tape de la simulation portant sur la gnration des marches
priodiques en terrain plat, nous rcapitulons les rsultats obtenus avec l'approche distribue
en tudiant linfluence des paramtres de simulations et comparons lapproche centralise et
approche distribue :
Nous observons que lalgorithme converge vers des marches stables parmi
lesquelles certaines sont observes chez les insectes. Ces marches sont des
cycles attracteurs pour les autres tats.
138
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Influence du critique :
On peut modifier la fonction critique pour liminer des marches non observes
sur les insectes.
Lorsque on limite l'information sur l'tat des pattes, on ne peut pas obtenir de
marches 6 temps car il y a ambigut : un mme tat correspondrait 2
actions diffrentes.
2. Dans le cas de plusieurs agents (dans notre application, il y a six agents), le rsultat de
laction dun agent dpend aussi des actions des autres agents. Il peut tre intressant pour
un agent de prendre en considration les actions des autres agents. Afin de permettre la
coordination entre ceux-ci, nous proposons un algorithme Q-Multiacteur.
3. Le nombre des valeurs tat-action calculer crot avec le nombre dactions possibles et le
nombre dtats visits. Dans le cas de variables d'action ou d'tat continues, l'algorithme
Q-learning ne peut pas tre appliqu dans sa version de base. Pour rsoudre ce problme
nous ralisons la discrtisation des espaces.
139
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Limitations du
Q-learning classique
- Stratgie individuelle :
Chaque agent mne son apprentissage en ignorant les autres acteurs. Cela revient
appliquer lalgorithme dapprentissage comme si chaque agent tait seul dans un
environnement non-stationnaire. En effet au cours de lapprentissage, une action "a" excute
140
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
depuis le mme tat "s" ne conduit pas toujours au mme tat "s" car ltat atteint s
dpend des actions de tous les agents.
- Stratgie collective :
Lagent va prendre en compte lexistence des autres mais peut adopter soit un
comportement goste (l'agent cherche maximiser ses propres gains) soit un comportement
altruiste (l'agent agit pour augmenter les gains du groupe). La stratgie conduisant un
quilibre de Nash est celle pour laquelle aucun des acteurs ne peut esprer un gain suprieur
compte tenu du choix des actions des autres.
Un quilibre de Nash nest pas forcment Pareto optimal, cest dire quil peut exister
un autre choix dactions conduisant des gains non infrieurs pour tous et suprieurs pour au
moins l'un dentre eux [Zen 04].
Lexemple de la figure 5.36 illustre des stratgies possibles dans le cas de deux
agents : chaque matrice reprsente les gains attendus par chacun d'eux en fonction des actions
choisies.
a11 3 0 -3 -2 0 9
a12 0 1 0 0 1 -1
a13 2 -2 2 3 -1 2
Selon une stratgie individuelle, le meilleur choix de lagent 1 est a11 et son gain
est 3 tandis que le meilleur choix de lagent 2 est a23 et son gain est 9. Cependant en
excutant ces actions, le gain de lagent 1 est en fait -3, et la somme des gains des deux
agents est gale 6. Selon une stratgie collective, si lagent 1 choisit a12 et lagent 2
choisit a22 alors il y a quilibre de Nash (aucun des agents n'a intrt modifier
unilatralement son choix) et la somme des gains est gale 2. Avec le choix optimal (a13,
a21), tous deux gagnent et la somme des gains est 5. Notons que le choix qui maximise la
somme des gains est (a11 , a23) mais ce choix nest pas satisfaisant puisque lagent 1
connat une perte de 3.
Cet exemple montre que les agents peuvent avoir intrt cooprer plutt que de
s'ignorer. Cependant la stratgie de coopration est diffrente selon que le critre de
performance est de maximiser la somme des gains obtenus ou d'assurer des gains maxima
pour chacun des agents ou de satisfaire une condition d'quilibre de Nash.
141
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Une table de valeur d'utilit n'est qu'une estimation de l'esprance du cumul des gains
attendus par un agent. Elle peut comporter des erreurs en dbut d'apprentissage et
volue au cours du temps vers une estimation correcte (s'il y a convergence de
l'algorithme d'apprentissage).
Un agent ne connat pas forcment les tables de valeurs d'utilit des autres agents.
Dans ce cas il doit non seulement calculer sa propre table mais aussi estimer celles des
autres. A cette fin il doit connatre les situations perues par chacun des autres agents,
les actions choisies par eux et les rcompenses ou pnalits obtenues.
Un agent ne connat pas forcment les stratgies suivies par les autres agents. Il lui est
alors ncessaire de l'observer en permanence pour adapter sa propre stratgie.
Il apparat donc que la mise en oeuvre d'un apprentissage par renforcement dans le cas
de systmes multiacteurs posent des problmes thoriques et pratiques importants. Nous
proposons dans le paragraphe suivant un algorithme d'apprentissage distribu qui prend en
compte les choix d'actions des autres agents sans toutefois mettre en oeuvre des procdures
d'estimation des tables des valeurs d'utilit des autres agents.
On suppose quau moment dagir les agents ne connaissent pas a priori les actions
choisies par les autres agents. Par contre on fait l'hypothse qu'ils connaissent a posteriori les
actions exerces par tous. Nous considrons une forme simple de comportement collectif qui
permet un groupe d'agents de tenir compte de lexistence des autres membres du groupe
sans pour autant aller jusqu' estimer les tables de valeurs d'utilit ni la stratgie des autres
agents. Soit trois agents i, j, k chacun deux nayant le choix quentre deux actions notes 0 et
1. Pour chaque tat s, les agents vont maintenir 4 tables de valeurs tat-action correspondant
aux quatre possibilits daction des deux autres agents :
aj = 0 ak= 0 aj = 0 ak = 1 aj = 1 ak = 0 aj = 1 ak = 1
ai = 1 3 -4 2 5
ai = 0 1 1 -5 -1
Fig. 5. 37 Tableau des valeurs tat -action tenant compte du choix des actions des autres
agents.
142
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Lagent choisit l'action conduisant une esprance de gain maximum, c'est dire celle
qui, pour un tat s donn, correspond la ligne comportant la valeur de gain la plus grande (le
gain 5 dans la figure 5.37) sans se soucier si les autres agents choisiront effectivement les
actions correspondant la colonne comportant cette valeur. Par contre suite au signal de
renforcement reu, lagent met jour la case de la colonne correspondant aux choix des autres
agents (par exemple, d'aprs la figure 5.37, si aj =0 et ak = 1, la case contenant -4 est
modifie). Ainsi lestimation du gain est actualise en tenant compte des choix des autres
agents contrairement une stratgie individuelle, pour laquelle les quatre tables sont
confondues en une.
Ainsi tout se passe comme si les actions que peuvent excuter les autres agents du
groupe taient de nouvelles variables d'tat dont les valeurs ne peuvent seulement tre
observe qu'une fois la dcision est prise. Si les membres du groupe partagent la mme
information d'tat et reoivent le mme signal de renforcement, le groupe peut tre considr
comme un seul agent dont les actions excutables sont les combinaisons de celles de chaque
membre dans le groupe.
Sinon, chaque membre du groupe agit indpendamment et met jour sa propre table
de valeur Q, la diffrence avec la stratgie individuelle rside dans le fait que des valeurs de Q
sont indexes par les actions des membres. Ainsi la valeur de Q qui est actualise chaque
itration est celle qui correspond aux actions rellement excutes. Selon cette approche, pour
chaque membre d'un groupe dtermin d'agents, l'algorithme Q-learning devient :
Choisir ai daprs Q ( -avide) sans tenir compte des autres actions que ai ,
Observer a1,..,a i-1, a i+1, ... aN et ri
Ractualiser
Q(s,ai, a1,..,a i-1, a i+1, ... aN) Q(s,ai, a1,..,a i-1, a i+1, ... aN) +
a.[r+.maxaiQ(s,ai, _, _)- Q(s,ai, a1,..,a i-1, a i+1, ... aN)]
s s
Si chaque groupe ne contient qu'un agent (N=1), l'algorithme est quivalent celui
correspondant une stratgie individuelle. Quand un groupe contient tous les agents,
lapprentissage peut tre considr quivalent un processus Q-learning unique (centralis)
sous les conditions que :
les tats et les signaux de renforcement soient les mmes pour tous les membres du
groupe
en cas de choix parmi des actions quivalentes, une rgle soit convenue pour que les
agents effectuent le mme choix.
143
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Cependant, lorsque la fonction valeur Q est implmente comme une table, le cot en
temps de calcul explose rapidement avec la rduction de la granularit des reprsentations des
grandeurs dtat et daction, rendant le Q-learning inadapt dans sa version de base au cas o
espace dtat ou lespace daction est continu.
Pour dpasser cette limitation, plusieurs approches ont t proposes sappuyant soit
sur un codage manuel des espaces continus soit sur des techniques de quantification
vectorielle bases sur les cartes auto-organisatrices de Kohonen (Self Organisation Maps)
[Seh 96], [Smi 02] ou bien encore sur des mthodes dapproximation de fonctions base de
rseaux de neurones multicouches.
On note s et a les vecteurs dtat et daction. On note "sn" et "an" les valeurs
codant les espaces d'tat et d'action. Ainsi le code de "s" (respectivement de "a") est la valeur
"sn" (respectivement "an") la plus proche au sens de la distance euclidienne.
144
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Initialiser Q(sn,an) 0
Pour tout pisode
Pour toute tape dans lpisode
Rechercher le neurone sn le plus proche de s codant lespace dtat
Choisir le neurone an daprs Q selon un comportement -avide,
Explorer (2) les valeurs continues autour des actions a codes par an : a = a +a
Observer s et r
1
Rechercher le neurone a n le plus proche de a sur la carte codant lespace des actions
Rechercher le neurone sn le plus proche de s sur la carte codant lespace dtat
Ractualiser
Q(sn , a1n) Q(sn , a1n )+ .[r+.maxanQ(sn,an) - Q(sn , a1n )]
Si [r+.maxanQ(sn,an) - Q(sn , a1n )]>0, ajuster (1),(3) les valeurs d'action en
rapprochant a1n de a
s s
(1) : soit w0 le vecteur des composantes du reprsentant xn se situant le plus prs de la donne
x, alors la phase dactualisation consiste rapprocher le reprsentant w0 du vecteur x
selon lexpression suivante :
w 0(t+1) = w 0 (t) + ( t)*(x(t)- w 0 (t))
o ( t) est un pas dapprentissage dcroissant au court du temps.
Nous mettons en uvre par la suite les algorithmes proposs, en simulation, pour que
le robot apprenne changer de trajectoire tout en contrlant sa posture.
145
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
La posture est dfinie par la position et lorientation relatives du corps par rapport aux
pieds. Le contrle de la posture consiste alors dplacer le corps relativement aux pieds, afin
par exemple damliorer la stabilit et la mobilit du robot. Ainsi une posture de rfrence est
dfinie comme celle qui assure un bon compromis entre stabilit et possibilit de mobilit. La
figure 5.38 dfinit une telle posture de rfrence.
RG Ly
z
G
y
x
Lz=0.5 dm
Lx=1dm
Lx=1 dm
2.Ly=0.4 dm
146
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Dans notre modle, le polygone de configuration est dfini par les seuls pieds qui sont
en contact avec le sol, cest dire que nous admettons que les pattes qui sont en lair nont pas
dinfluence sur la recherche dune posture optimale.
Position optimale
Fig. 5. 39 Contrle de la posture en utilisant lanalogie des ressorts . Dans ce cas particulier,
le polygone de configuration est un triangle. La position et lorientation du corps changent
afin de rduire au minimum lnergie potentielle stocke dans les ressorts virtuels reliant les
pieds en contact avec le sol et les pieds correspondant au polygone de configuration dfini
par la posture de rfrence.
Le modle de la posture est identique celui propos par Porta [Por 98] mais nous ne
prenons en considration que les pieds en contact avec le sol. Ce modle est dcrit par les
expressions suivantes :
147
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
5. 3
n 2 n
DQ , R () = q i r i = (q x rx ) 2 +(q y ry ) 2 + (q z rz ) 2
i i i i i i
5. 4
i =1 i =1
DQ , R
On en dduit le gradient par rapport de la distance dans la posture Q :
DQ , R n DQ , R n
= 2. ( p xi rxi ) = 2. (ryi p zi rzi p iy )
x =0 i =1 =0 i =1
DQ , R n DQ , R n
= 2. ( p iy ryi ) = 2. (rzi p xi rxi p zi ) 5. 5
y =0 i =1 =0 i =1
DQ , R n DQ , R n
= 2. ( p zi rzi ) = 2. (rxi p iy ryi p xi )
z =0 i =1 =0 i =1
148
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
1 1
q i q i
= 0 = p zi
x
=0 0
=0 p iy
0 p zi
q i q i
= 1 = 0 5. 6
y
=0
0 =0 p xi
0 p y
i
q i
= 0 q i
= p xi
z
=0
1 =0 0
Notons que ce modle suppose que chaque patte possde trois degrs de libert ce qui
nest pas le de notre robot hexapode, pour lequel chaque patte seulement deux degrs de
libert (par conception, un dbattement de lpaule autour dun axe parallle au grand axe du
robot existe mais il nest pas motoris). Ainsi chaque ajustement ou balance excute des
petits dplacements de tous les pieds du polygone de configuration correspondant la posture
de rfrence dans la direction correspondant ces vecteurs et ralise ainsi une descente de
gradient selon un degr de libert donn. Lorsque le gradient est nul, le corps se trouve dans la
posture optimale, et il a donc chang de position et dorientation par rapport au repre RG et
aussi par rapport un repre absolu li lenvironnement. Ce changement dorientation et de
position est li lamplitude et au sens des mouvements de pousses succdant aux phases de
balancement des pattes. Description du changement de trajectoire avec contrle de la posture.
Nous utilisons dans notre travail ce modle de posture pour conduire des simulations
sur lapprentissage des mouvements permettant un changement de trajectoire de faon ce
que partant dune position et orientation initiale quelconque, le robot rattrape une trajectoire
proche et parallle laxe Ox du repre li au terrain et telle que laxe principal du robot soit
pratiquement parallle laxe Ox. Cette trajectoire atteindre est donc dfinie par lcart
maximal tolr yf avec laxe x et la rotation maximale f tolre autour de laxe Gz (figure
5.40).
y Ymax
2 f 2y f
x
Nous supposons dans la simulation que le robot volue selon une marche tripode, et
que chaque patte peut pousser vers lavant ou vers larrire indpendamment des autres avec
diffrentes amplitudes. Ainsi, le robot peut marcher en avant comme en arrire (l'analogie
149
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
avec des marches naturelles n'est plus valide puisque les insectes marchent en arrire moins
facilement quen avant). Dans cet exemple particulier nous avons choisi de coder
manuellement les informations discrtes d'tat et d'action. Comme reprsent sur le schma
(Fig.5.41), quatre zones parallles laxe Oy et six secteurs autour de laxe e Gz ont t
dfinis. Ainsi le nombre d'tats possibles est S= 24.
+m
my
s
Gz sy
- sy x
-s
- my
-m
Les actions sont dcrites par l'amplitude algbrique des mouvements de balancement
des pattes entre la position de posture de rfrence et la prochaine position de contact au sol.
L'amplitude de tels mouvements peut prendre des valeurs continues dans l'intervalle [- avx,
+avx] (avx tant la plus grande amplitude possible de mouvement). Cet intervalle est dcoup
au dpart en A-1 sous-intervalles damplitudes gales.
Chacune des A bornes initialise une valeur discrte d'action l'amplitude du mouvement
pouvant tre ajust lors de la phase d'exploration comme dcrit dans le paragraphe prcdent.
Dans les simulations nous avons runis les deux algorithmes 5.3 et 5.2. Les pattes ont
t divises en deux groupes, chacun des groupes tant constitu par les trois pattes qui
soutiennent alternativement le robot pendant la marche tripode. Chaque agent (un par patte)
actualise sa propre table de valeur de Q de dimension S*A3.
- Une rcompense est attribue au groupe dont les pattes sont au sol si la valeur absolue
de la rotation autour de laxe vertical Gz est plus petite que s = teta f et si la
distance de G l'axe Ox est plus petite que sy = yf.
- Une pnalit si la valeur absolue de la rotation autour de laxe vertical Gz est plus
grande que m' ou si la distance de laxe x est plus grande que 'my'.
150
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Choisir la position initiale du centre de gravit (xG, yG, zG) et l'orientation autour de
laxe Gz ( thetaG) du robot :
xG=0, zG =zref, yG valeur alatoire entre - ymax + ymax,
thetaG valeur alatoire entre et .
Si des rcompenses en nombre suffisant sont reues ou si le nombre de pas est plus
grand qu'une limite prdfinie, allez Dbut
(1) : Le test consiste atteindre et suivre suffisamment longtemps la trajectoire fixe comme
objectif partir de Nt positions et orientations diffrentes.
Yg =0.75 g =/4
g =0 Yg =0.5 g =/2
Yg =0
g =3./4 Yg =0.5
1 2 3 4
g =-3./4 Yg =0.5
g =0
Yg =0 Yg =0.5 g =-/2
Yg =0.75 g =-/4
5 6
7 8
Nous prsentons ci-aprs les rsultats de simulation en test, reprsents par les
comportements acquis pour changer de trajectoire et rejoindre l'objectif fix.
151
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
152
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
Fig. 5. 45 Trajectoire du robot hexapode, position du centre de gravit dans le plan x,y.
Nous pouvons observer sur les figures 5.45 et 5.46 que le robot progresse un temps
assez long (900 pas) dans la direction oppose celle souhaite avant de changer
dfinitivement dorientation. Ce comportement peut tre amlior en prolongeant
lapprentissage.
153
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
5.12 Conclusion
Nous avons prsent dans ce chapitre le robot hexapode du LGI2P ainsi que la
problmatique de lapprentissage de la marche du robot hexapode et du changement de
trajectoire avec contrle de la posture.
Nous avons constat, que larchitecture distribue donne de meilleurs rsultats pour la
gnration des marches priodiques rectilignes par rapport aux critres concernant le temps
ncessaire pour lapprentissage et le nombre de marches trouves.
Dans la deuxime partie du travail, nous avons prsent les limitations du Q-learning
classique : augmentation inacceptable du temps de calcul et de lespace mmoire lorsque les
espaces daction et dtat sont continus, besoin de coordination lorsque plusieurs agents
doivent apprendre rsoudre une mme tche.
Nous avons alors propos un algorithme Q-multiacteur pour que les agents tiennent
compte pendant lapprentissage de lexistence des autres agents contribuant la mme tche
et avons trait le problme despace continu (tat et action) par le recours une discrtisation
des espaces.
Nous avons combin ces algorithmes pour que le robot apprenne changer de
trajectoire avec contrle de la posture. Daprs les rsultats obtenus en simulation, nous
observons des trajectoires correctes, lapprentissage du demi-tour tant le plus difficile.
Ces rsultats nous permettent denvisager pour des travaux futurs dtudier
lapprentissage de la marche en terrain non plat, lvitement des obstacles et la navigation.
154
CONCLUSION GNRALE ET PERSPECTIVES
CONCLUSION GNRALE
ET PERSPECTIVES
1. Synthse
Dans ce travail de recherche qui s'inscrit dans le prolongement des travaux sur le
robot hexapode mens par C.Touzet, et A.Johannet, nous nous sommes intresss
dvelopper une approche distribue de la commande du robot et de lapprentissage de la
marche dans un environnement qui peut tre inconnu. Nous nous sommes aussi intresss
dvelopper des techniques de contrle de la posture du robot et de changement de sa
trajectoire.
Les travaux prcdents [Tou 93] [ Joh 95] utilisaient une architecture base de
rseaux de neurones calculs selon un algorithme dapprentissage par renforcement de type
1
Arp [Bar 85]. Cette architecture a donn de bons rsultats en ce qui concerne la gnration
de marches rectilignes stables, parmi lesquelles certaines ont t observes chez les
insectes (marche tripode). Cependant l'approche prsente des limitations : le nombre
possible dactions est rduit deux par segment, la fonction critique utilise attribue le
mme renforcement (pnalit ou rcompense) pour lensemble des pattes, mme lorsque
seulement quelques pattes parmi les six sont responsables du bon ou du mauvais
comportement du robot, enfin il nest pas possible de traiter le cas o l'espace daction est
continu.
Cette tude bibliographique porte sur les lois de la marche des insectes, les modles
de robots hexapodes et diffrentes approches et mthodes dapprentissage par
155
CONCLUSION GNRALE ET PERSPECTIVES
renforcement dans le cas monoagent ou multiagent. Cette tude nous a permis de faire
voluer notre modle gomtrique de simulation notamment pour prendre en compte le
contrle de la posture. Elle nous a permis de concevoir la fonction critique associe
chaque contrleur de mouvement considr comme agent dot d'une certaine autonomie.
2. Approche conceptuelle :
Chaque contrleur de mouvement (un par patte) est un agent dou d'autonomie et
menant son propre apprentissage avec son propre signal de renforcement pour optimiser
une fonction de gain locale compatible avec l'objectif global fix au robot. Les approches
centralises et distribues de l'apprentissage par renforcement de type Q-learning ont t
compares.
Dans le cas de plusieurs agents contribuant la mme tche, des techniques
d'apprentissage sont tudies pour que chaque agent puisse prendre en compte les dcisions
des autres agents.
Les problmes de contrle de posture et de changement de trajectoire sont traits. La
rsolution de ces problmes supposent de discrtiser les espaces daction et dtat continus.
3. Simulations
156
CONCLUSION GNRALE ET PERSPECTIVES
L'adoption d'une vision multiacteur, chaque patte tant considre comme un agent
situ dot d'une certaine autonomie et pouvant se coordonner avec les autres agents.
Une version Q-multiacteur a t propose o chaque agent, plutt que dignorer les
autres agents, tient compte dans son apprentissage de lexistence dautres agents
constituant un groupe et contribuant la mme tche commune.
L'utilisation d'un modle qui a t propos par E.Celaya et J.M.Porta [Cel 98] avec
des modifications (prise en compte seulement des pattes en contact avec le sol)
pour le contrle de la posture du robot. La version Q-multiacteur propose et le
modle de contrle de la posture ont t mis en oeuvre en simulation pour
contrler le changement de trajectoire du robot. Les espaces d'tat ou d'action tant
dans ce cas continus, il est procd une discrtisation des espaces avec possibilit
d'ajuster les valeurs d'actions pendant l'apprentissage.
2. Principaux rsultats
Dans les rsultats obtenus dans le cas de lapproche distribue de l'apprentissage
des marches priodiques en terrain plat, nous avons tudi linfluence du rglage des
paramtres de simulation sur les rsultats et avons compar lapproche centralise et
lapproche distribue. Les principales conclusions sont les suivantes :
Nous observons que lalgorithme converge vers des marches stables parmi lesquelles
certaines sont observes sur des insectes. Ces marches sont des cycles attracteurs pour les
autres tats.
Influence du critique:
L'laboration de la fonction critique est trs importante. Les principes de marche des
insectes tablis par les biologistes permettent de guider cette laboration. En particulier, on
peut modifier la fonction critique pour liminer des marches non observes sur les insectes.
157
CONCLUSION GNRALE ET PERSPECTIVES
rtraction agit sur la priode des marches trouves et donc sur la vitesse dplacement.
Lorsque on limite l'information sur l'tat des pattes, certaines marches ne peuvent plus
tre obtenues mais celles qui sont apprises le sont plus facilement (en moins
d'itrations).
L'approche retenue a montr des proprits de tolrance aux pannes puisque des
marches priodiques peuvent tre obtenues mme lorsque certaines pattes sont bloques
en position d'appui.
Evolution de la fonction Q
3. Perspectives
Les perspectives envisages pour poursuivre ce travail de recherche peuvent tre
rparties selon les diffrentes orientations suivantes :
1. Continuer de travailler avec les mmes approches pour traiter la marche sur un terrain
irrgulier ou inclin.
2. Traiter les problmes d'vitement d'obstacles avec les mmes approches, en exploitant
des informations rcupres par les capteurs tactiles du robot pour dtecter la prsence
d'obstacles. Etudier l'apprentissage de techniques de navigation (apprendre atteindre
158
CONCLUSION GNRALE ET PERSPECTIVES
4. Le modle mcanique du robot de notre laboratoire ne permet pas de traiter les points 1,
2, car chaque patte ne possde que deux degrs de libert. Il faudrait donc amliorer le
robot actuel ou en concevoir un second.
5. Travailler les mthodes de coordination entre les agents pour viter les conflits ou
rendre le travail collectif plus efficace. On pourra pour cela s'appuyer sur la thorie des
jeux, ou dvelopper des mthodes de communication entre les agents ou aussi introduire
des mcanismes dinhibition ou dexcitation.
6. Passer un modle dynamique du robot hexapode pour tre plus proche de la ralit du
systme physique du robot (prise en compte des frottements et des forces d'inerties en
cas de dplacements rapides).
7. Traiter le cas o lenvironnement est partiellement observable par chaque agent : dans
ce cas il faut se baser sur les POMDP (Processus de Dcision Markovien Partiellement
Observable).
8. Etudier lapplication de ces approches dans d'autres domaines tels que la Mcatronique
et la Productique. Comme exemple d'application, nous pouvons citer le travail de
J.Reaidhy [Rea 03]. L'objectif de son travail tait ltude et la conduite de systmes de
production dcentraliss dans un environnement dynamique situ : Les machines d'un
atelier de production sont considres comme des agents mettant disposition des
capacits et des disponibilits de production. A chaque ordre de fabrication est aussi
associ un agent dont le but est de faire effectuer par les machines appropries le travail
dsir. Il se pose alors des problmes de prise de dcision et de coordination entre les
composantes autonomes du systme.
Les approches dveloppes dans notre travail pourraient permettre aux agents
d'apprendre maximiser leurs gains (par exemple inversement proportionnel au temps
ncessaire pour effectuer un travail).
159
BIBLIOGRAPHIE
BIBLIOGRAPHIE
[Ado 03] Adouane L., Le Fort-Piat N. Bio-inspired behaviours of a group of microrobots for
cooperative box-pushing task. Proceedings of 6th Japan-France Congress on Mechatronics
and 4th Asia-Europe Congress on Mechatronics, Japon, 2003, pp.483-488.
[Alt 01a] Altendorfer R., Moore N., Komsuoglu H., and al. RHex: A Biologically Inspired
Hexapod Runner. Autonomous Robots , 2001 , pp.207-213.
[Alt 01b] Altendorfer R., Saranli U., Komsuoglu H., and al. Dynamic Evidence for Spring
Loaded Inverted Pendulum Running in a Hexapod Robot. In Experimental Robotics VII,
Springer Verlag, 2001, pp. 291-302.
[And 94] Anderson C.W., and Crawford-Hines S.G. Multigrid Q-Learning . Technical
Report, Colorado State University, Fort Collins, CO 80523, 1994, pp.94-121.
[And 94] Anderson C.W., and Hong Z. Reinforcement Learning with Modular Neural
Networks for Control. Proceedings of NNACIP'94, the IEEE International Workshop on
Neural Networks Applied to Control and Image Processing, 1994, 4 p.
[Bai 95] Bairo L. Residual Algorithms: reinforcement learning with function approximation.
In Proceedings of the Twelfth International Conference on Machine Learning, San Francisco
1995, pp.30-77.
[Bar 91] Barto A.G., Bradtke S.J., and Singh S.P. Real-time learning and control using
asynchronous dynamic programming. Technical report, Computer science department,
University of Massachusetts, 1991, pp.57-91.
[Barf 00] Barfoot T.D., Earon E.J.P., and D'Eleuterio G.M.T. A step in the right direction :
learning hexapod gaits through reinforcement . Presented at the international symposium on
robotics, Canada, 2000, pp.14-17.
[Bs 85] Bssler U. Proprioceptive control of stick insects walking. In B.M.H.Bush and
F.Clarac, (Eds.), Coordination of motor behaviour, society for experimental biology, seminar
series, Cambridge University press, vol. 24, 1985, pp.271-281.
[Bax 99] Baxter J., and Bartlett P. Direct Gradient-Based Reinforcement Learning: I. Gradient
Estimation Algorithms. Technical report, Research School of Information Sciences and
Engineering, Australian National University, 1999, 24 p.
[Bee 93] Beer R.D., and Chiel H. Simulation of cockroach locomotion and escape. In
biological neural networks in invertebrate neuroethology and robotics, Academic press, Inc.,
Boston, 1993, pp.267-286.
160
BIBLIOGRAPHIE
[Bee 91] Beer R.D., Kacmarcik G.J., Ritzmann R.E., and al. A model of distributed
sensorimotor control in the cockroach escape turn. In R.P.Lippmann , J.E.Moody, and
D.S.Touretzky (Eds.), Neural information processing systems, vol.3, Morgan Kaufmann,
1991, pp.436-442.
[Bla 96] Blayo F., and Verleysen M. Les rseaux de neurones artificiels Que Sais-je?. Presses
Universitaires de France, 1996, 128 p. ISBN: 2-13-047355-5.
[Bro 89] Brooks R.A. A robot that walks; emergent behaviors from a carefully evolved
network. In Neural computation vol., 1989, pp.365-382.
[Bro 86] Brooks R.A. A robust layered control system for a mobile robot. In IEEE journal of
robotics and Automation, vol. 2, n. 1, 1986, pp.14-23.
[Bru 98] Brussel H.V., Wyns J., Valckenaers P., and al. Reference architecture for holonic
manufacturing systems: PROSA . Computers in Industry (Elsevier), vol. 37, 1998, pp.255-
274.
[Bue 00] Buehler M., Saranli U., Papadopoulos D., and al. Dynamic locomotion with four and
six-legged robots. International Symposium on Adaptive Motion of Animals and Machines,
Montreal, Canada, August 8-12, 2000, 6 p.
[Buf 03a Buffet O. Dutech, A., and Charpillet, F. Apprentissage par renforcement pour la
conception de systmes multi-Agents ractifs . In Journes Francophones sur les Systmes
Multi-Agents, JFSMA'03, Hammamet, Tunis, 2003, pp.219-231.
[Buf 03b] Buffet O. Une double approche modulaire de lapprentissage par renforcement pour
des agents intelligents adaptatifs. Thse UFR STEMIA. Nancy : Universit Henri Poincar-
Nancy1, 2003, 215 p.
[Buf 01] Buffet O. Dutech,A., and Charpillet, F., Incremental Reinforcement Learning for
designing Multi-Agent Systems. In the proceedings of the fifth International Conference on
Autonomous Agents, Montreal, Canada, 2001, pp.31-32.
[Buf 00] Buffet O. Apprentissage par renforcement dans un systme multi-agents : rapport de
stage de DEA. DEA Informatique. Nancy : UFR STEMIA, Universit Henri Poincar-
Nancy1, 2000, 40 p.
[Cam 88] Camhi J.M. Escape behavior in the cockroach: distributed neural processing.
Expericatia, vol.44,1988, pp.401-408.
[Cel 99] Celaya E., and Porta J.M. Navigation of Walking a robot in Natural Environments.
Second International Conference on Climbing and Walking Robots, Portsmouth, 1999, 10 p.
[Cel 98a] Celaya E., and Porta J.M. A Control Structure for the locomotion of a legged Robot
on difficult Terrain. IEEE Robotics and Automation Magazine, vol. 5, n. 2, 1998, pp.43-51.
[Cel 98b] Celaya E., Porta J. M., and Ruiz de Angulo V. Reactive Gait Generation for
Varying Speed and Direction. First International Symposium on Climbing and Walking
Robots, Brussels, 1998, 6 p.
161
BIBLIOGRAPHIE
[Cel 96] Celaya E., and Porta J.M. Control of a Six-Legged Robot Walking on Abrupt
Terrain. IEEE International Conference on Robotics and Automation, Minneapolis, 1996, 6 p.
[Cel 95] Celaya E., and Porta J. M. Force-Based Control of a Six-legged Robot on Abrupt
Terrain Using the Subsumption Architecture. 7th International Conference on Advanced
Robotics, Sant Feliu de Guxols, Spain, 1995, 10p.
[Cla 01] Clark J.E., Cham J.G., Bailey S.A., and al. Biomimetic design and fabrication of a
hexapedal running robot. IEEE International conference on robotics and automation, 2001, pp
7.
[Cou 97] Couturier P. Commande par rseaux de neurones : application au contrle d'un
prhenseur lectropneumatique. Thse Automatique Industrielle. Lyon : INSA de Lyon, 1997,
167 p.
[Cri 95] Crites R.H., and Barto A.G. An Actor / Critic Algorithm that is equivalent to Q-
learning. In Tesauro G., Touretzky D., and Leen T. (Eds). Advances in Neural Information
Processing Systems, vol. 7, Publisher The MIT Press, 1995, pp.401--408.
[Cru 91] Cruse H. Coordination of leg movement in walking animals. In J.A. Meyer, S.
Wilson (Eds.). Simulation of adaptive behavior. From animals to animats. A Bradford Book
MIT Press, Cambridge, Massachusetts, London, England, 1991, pp.105-119.
[Cru 90] Cruse H. What mechanisms coordinate leg movement in walking arthropods?.
Trends in neurosciences, vol.13, 1990, pp.15-21.
[Cru 81] Cruse H. Is the position of the Femur-Tibia joint under feedback control in the
walking stick insect? I. Force Measurements. Journal of experimental biology, vol. 92,1981,
pp.87-95.
[Cru 80b] Cruse H. A quantitative model of walking incorporating central and peripheral
influences: I. The control of the individual leg, Biological cyberntics, vol. 37, 1980, pp.131-
136.
[Cru 80a] Cruse H. A quantitative model of walking incorporating central and peripheral
influences : II. The connections between the different legs. Biological cyberntics, vol. 37,
1980, pp.137-144.
[Cru 79] Cruse H. A new model describing the coordination pattern of the legs of a walking
stick insect. Biological cybernetics, vol. 32, 1979, pp.107-113.
[Cru 76a] Cruse H. The control of body position in the stick insect (carausius morosus), when
walking over uneven terrain. Biological cybernetics, vol. 24, 1976, pp.25-33.
[Cru 76b] Cruse H. The function of the legs in the free walking stick insect, carausius
morosus. Journal of comparative physiology, vol.112, 1976, pp.235-262.
[Cym 98] Cymbalyuk G.S., Borisyuk R.M., Mueller-Wilm U., and al. Oscillatory network
controlling six-legged locomotion optimization of model parameters. Neural Networks,
vol.11, 1998, pp.1449-1460.
162
BIBLIOGRAPHIE
[Dea 91] Dean J. A model of leg coordination in the stick insect, carausius morosus : I.A
geometrical consideration of contralateral and ipsilateral coordination mechanisms between
two adjacent legs. Biological cybernetics, vol. 64, 1991, pp.393-402.
[Dil 91] Dilts D.M., Boyd N.P., et Whorms H.H. The evolution of control architectures for
automated manufacturing systems. J. Mfg. Sys., vol. 10, n. 1, 1991, pp.79-93.
[Duf 96] Duffie N.A., et Prabhu V.V. Heterarchical control of highly distributed
manufacturing systems. International Journal of Computer Integrated Manufacturing, vol. 9,
n. 4, 1996, pp.270-281.
[Duf 94] Duffie, N.A., et Prabhu V.V. Real-time distributed scheduling of heterarchical
manufacturing systems. Journal of Manufacturing Systems, vol. 13, n. 2, 1994, pp.94-107.
[Esp 96] Espenschied K. S., Quinn R. D., Chiel H. J., and al. Biologically-based distributed
control and local reflexs improve rough terrain locomotion in a hexapod robot. Robotics and
Autonomous Systems, 1996, vol. 18, pp.59-64.
[Esp 93] Espenschied K.S., Quinn R.D., Chiel H.J., and al. Leg coordination mechanisms in
stick insect applied to hexapod robot. Adaptive Behavior, vol. 1, n. 4, 1993, pp.455-468.
[Eli 01] Elie L., and Lapeyre B. Introduction aux mthodes de Monte-Carlo. Cours, Paris,
CERMICS, ENPC, 2001, 39 p.
[Elm 90] Elman J.L. Finding qtructure in time. Journal Cognitive science, vol. 14, 1990, pp.
179-211.
[Ferb 95] Ferber J. Les systmes multiagents vers une intelligence collective. Inter-Edition,
Paris, France, 1995, 522 p. ISBN 2-7296-0665-3.
[Fer 95b] Ferrell C. Global behavior via cooperative local control. Autonomous Robots, vol.
2, n. 2, 1995, pp.105-125.
[Fer 93] Ferrell C. Robust agent control of an autonomous robot with many sensors and
actuators. Technical Report , MIT Artificial Intelligence Lab, vol. 1443, 1993, 165 p.
[Fis 02] Fischer J., Breithaupt R., Bode M., and al. DIVA: A self organizing adaptive world
model for reinforcement learning. Proceedings of the first international NAISO Congress on
Autonomous Intelligent Systems, ICAIS'02, Geelong, Australia, 2002, 6 p.
163
BIBLIOGRAPHIE
[Ful 93] Full R. Integration of individual leg dynamics with whole body movement in
arthropod locomotion. In biological neural networks in invertebrate neuroethology and
robotics, Academic press, Inc., Boston, 1993, pp.267-286.
[Gra 85] Graham D. Pattern and control of walking in insects. Advances in insect physiology,
vol.18, 1985, pp.31-140.
[Gar 97] Garcia F., and Ndiaye S.M. Apprentissage par renforcement en horizon fini I :
comparaison du Q-learning et du R-learning. Revue READ, vol.1, 1997, 15 p.
[Gui 00] Guillot A., and Meyer J.A. From SAB94 to SAB2000: What's New, Animat ?.
Proceedings of the Sixth International Conference on Simulation of Adaptive Behavior. The
MIT Press., 2000, 10 p.
[Hu 98] Hu J., and Wellman M.P. Multiagent Reinforcement Learning: Theoretical
Framework and an Algorithm. 15th International Conference on Machine Learning, in
Madison, Wisconsin, USA, 1998, pp.242-250.
[Jaa 93a] Jaakkola J., Jordan M.I., and Singh S.P. On the convergence of stochastic iterative
dynamic programming algorithms. Technical report, MIT Computational Cognitive Science,
n 9307, July 20, 1993, 18 p.
[Jaa 93b] Jaakkola J., Jordan M.I., and Singh S.P. Renforcement learning algorithm for
partially observable markov decision problems. In G.Tesauro, Eds, advances in neural
information processing systems, 1994, vol. 7, pp.345-352.
[Jan 85] Jander J.P. Mechanical stability in stick insects when walking straight and around
curves. In M.Gewecke and G.Wendler (Eds.), Insect locomotion, Paul Parey, 1985, pp.33-42.
[Joh 00] Johannet A. Les rseaux de neurones formels. Cours, cole des Mines d'Als, 2000,
82 p.
[Joh 96] Johannet A., and Sarda I., Couturier P. Apprentissage de Comportement par un
Robot Hexapode : de l'Apprentissage de la Marche l'vitement d'obstacle. NSI 96, Marly-le
Roi, 1996, pp.45-48.
[Joh 95] Johannet A., and Sarda I. Behaviour learning by a reward-penalty algorithm : from
gait learning to obstacle avoidance by neural networks. Proceedings of international
conference artificial neural netsard genetic algorithms, France, 1995, pp.465-467.
[Joh 94] Johannet A., and Sarda I. Gait learning of hexapod robot with neural networks : from
simulation to realization. 2me congrs Franco-Japonais de takamatsu, 1994, 4 p.
[Kae 96] Kaelbling L.P., Littman M.L., and Moore A.W. Reinforcement learning: A survey.
Journal of artificial intelligence research , vol. 4, 1996, pp.237-285.
164
BIBLIOGRAPHIE
[Kin 03] Kingsley D. A., Quinn R. D., and Ritzmann R. E. A cockroach inspired robot with
artificial muscles. International Symposium on Adaptive Motion of Animals and Machines ,
Kyoto, Japan, 2003, 7 p.
[Kir 95a] Kirchner F. Learning to solve Markovian Decision Tasks in a Hierarchy of Learning
Agents. In Proceedings of the 10th bienanial Conference on AI and Cognitive Science, T.
Prescott, and J. Hallam (Eds.), Society for the Study of Artificial Intelligence and Simulation
of Behaviour, Sheffield, England, 1995, pp.43-49.
[Kod 98] Kodjabachian J., and Meyer J.A. Evolution and Development of Neural Controllers
for Locomotion, Gradient-Following, and Obstacle-Avoidance in Artificial Insects. IEEE
Transactions on Neural Networks.,1998, pp.796-812.
[Lab 02] Labhart T., and Meyer E.P. Neural mechanisms in insect navigation : polarization
compass and odometer. In Current opinion in Neurobiology, Elsevier Science, vol. 12, 2002,
pp.707-714.
[Lai 04] LAI - Thme de recherche : Robotique, (en ligne). Disponible sur : http://www.insa-
lyon.fr/pg/index.php?Rub=344&cd_act=7, site web consult en Avril 2004.
[Lam 00] Lambrinos D., Mller R., Labhart T., and al. A mobile robot employing insect
strategies for navigation. In Robotics and Autonomous Systems, vol. 30, 2000, pp.39-64.
[Lan 92] Langlois T., and Canu S. B-Learning: A Reinforcement Learning Algorithm,
Comparison with Dynamic Programming. International Work-Conference on Artificial and
Natural Neural Networks, Spain, 1993, pp.261-266.
[Lin 92] Lin L.J., and Mitchell T.M. Memory to reinforcement learning in non-markovian
domains. Technical report, Carnegie Mellon University, 1992, pp.92-138.
[Lin 91] Lin L.J. Programming robots using reinforcement learning and teaching. In
proceedings of Conference AAAI, 1991, pp.781-786.
[Lit 96] Littman M.L., and Kaelbling L.P. Reinforcement Learning : Asurvey. Computer
science department, Box1910, Brown university Providence, USA, 1996, pp.19-13.
165
BIBLIOGRAPHIE
[Mac 04] Macquart D., et Beugnon G. L'apprentissage de routes familires chez la fourmi
notropicale : Gigantiops destructor. Union Internationale pour l'tude des insectes sociaux,
colloque annuel de la section Franaise, Bruxelles, vol. 16, 2004.
[Mas 01] Massotte P., Liu Y., Reaidy J. DAPS : Dynamic adaptation of complex production
systems ESS'01 - 13th european simulation symposium in simulation industry, France, 2001, 6 p.
[Mas 97] Massion J. Cerveau et motricit :fonctions sensori-motrices. Imprimerie des Presses
Universitaires de France, 1997, 187 p. ISBN 2-13-047591-4.
[Mey 03 ] Meyer J.-A., and Filliat, D. Map-based navigation in mobile robots - II. A review
of map-learning and path-planning strategies. Journal of Cognitive Systems Research. 2003,
vol. 4, pp.283-317.
[Mey 98a] Meyer J.-A. Evolutionary approaches to neural control in mobile robots.
Proceedings of the IEEE International Conference on Systems, Man and Cybernetics, San
Diego, 1998, 6 p.
[Mey 98b] Meyer J.-A. Evolutionary approaches to walking and higher-level behaviors in 6-
legged animats. In Gomi (Ed.). Evolutionary Robotics. Vol II. From Intelligent Robots to
Artificial Life (ER'98). AAAI Books, 1998, 32 p.
[Nel 98] Nelson G.M., and Quinn R.D. Posture Control of a Cockroach-like Robot. IEEE
Internationnal Conference on Robotics and Automation, Belgium,1998, 12 p.
[Nel 97] Nelson G.M., Quinn R.D., Bachmann R.J., and al. Design and simulation of a
cockroach-like hexapod robot, contained in proceedings IEEE international conference on
robotics and automation albuquerque, New Mexico, 1997, 6 p.
[Por 00a] Porta J.M., and Celaya E. Body and leg coordination for omnidirectional walking in
rough terrain. Third International Conference on Climbing and Walking Robots, Madrid,
Spain, 2000, 8 p.
[Por 00b] Porta J.M. The Legged Robot 3d Simulator: Description and Programming Guide.
IRI-DT-2000/4, Barcelona, Spain, 2000, 72 p.
[Por 00c] Porta J.M. -Learning : A robotics oriented reinforcement learning algorithm.
Institut de robotica i informtica industrial ( UPC-CSIC ) , Barcelona, Spain , 2000, 12 p.
[Por 98] Porta J.M., and Celaya E. Gait analysis for six-legged robots. Document Tcnic de
lInstitut de Robtica i Informtica Industrial, IRI-DT-9805, Barcelona, 1998, 10 p.
[Pra 96] Pratt J., Torres A., Dilworth P., and al. Virtual actuator control. In proceeding
international conference on intelligent robots and systems, IROS, Osaka, Japan, 1996, 8 p.
[Puj 02] Pujo P., et Kieffer J.-P. Concepts fondamentaux du pilotage des systmes de
production , dans Fondements du pilotage des systmes de production. Hermes, Lavosier
(Eds), 2002, 204 p. ISBN : 2-7462-0513-0.
166
BIBLIOGRAPHIE
[Que 01] Query S., and Sekkay F. Auto-organisation des systmes de production distribus.
Rapport Etude de cas option automatique. Nmes : Site-EERIE_EMA, , 2001, 360 p.
[Qui 98] Quinn R.D., and Ritzmann R.E. Construction of a hexapod robot with cockroach
kinematics benefits both robotics and biology. Connection science, vol. 10, 1998, pp.239-254.
[Qui 03] Quinn R. D., Nelson G.M., Bachmann R.J., and al. Parallel strategies for
implementing biological principles into mobile robots. In Journal of Robotics Research, Sage
publications, vol. 22, n. 3, 2003, pp. 169-186.
[Qui 01] Quinn R. D., Nelson G.M., Bachmann R.J., and al. Insect designs for improved robot
mobility. In Proc. of 4th Int. Conf. On Climbing and Walking Robots Conference , Berns and
Dillmann (Eds), 2001, pp.69-76.
[Ran 99] Randall M.J. Stable adaptive neural control of systems with closed kinematic chains
applied to biologically-inspired walking robots. These in philosophy. Bristol : Faculty of
engineering, University of the West of England, Bristol, 1999, 322 p.
[Rea 03] Reaidy J. Etude et mise en uvre dune Architecture dAgents en Rseau dans les
Systmes Dynamiques Situs : Pilotage des Systmes de Production Complexes. Thse gnie
industrielle. Nmes : LGI2P-site-EERIE_EMA, 2003, 181 p.
[Rei 00] Reichler J.A., and Delcomyn F. Dynamics Siumulation and Controller Interfacing for
Legged Robots. The Intenational Journal of Robotics Research, vol. 19, n. 1, 2000, pp. 49-
58.
[San 99] Santos J.M., and Touzet C. Exploration tuned reinforcement function.
Neurocomputing, 1999, pp.93-105.
[San 98] Santos J.M., and Touzet C. Automatic tuning of the reinforcement function.
NEURAP'98, 11-13 March, Marseilles, France, 1998, pp.103-110.
[Sar 03] Saranli U., and Koditschek D.E. Template Based Control of Hexapedal Running.
Proceedings of the IEEE International Conference On Robotics and Automation, vol. 4391,
Septembre, 2003, 6 p.
[Sar 02] Saranli U. Dynamic locomotion with a hexapod robot. PhD. thesis. The University of
Michigan, 2002, 205 p.
[Sar 00] Saranli U., Buehler M., and Koditschek D.E. Design, Modeling and Preliminary
Control of a Compliant Hexapod Robot. In IEEE Int. Conf. on Robotics and Automation, San
Francisco, CA, 2000, 8 p.
[Sar 99] Saranli U., and Buehler M. Modeling and Analysis of a Spatial Compliant Hexapod.
Technical papers, Department of Electrical Engineering and Computer Science, McGill
University, Montreal, Canada, 1999, 18 p.
[Sarz 91] Sarzeaud O., Stephan Y., et Touzet C. Finite element meshing using kohonens self-
organizing maps. International Conference on Artificial Neural Networks, Helsinki, Finland,
1991, 5 p.
167
BIBLIOGRAPHIE
[Seh 94] Sehad S., and Touzet C. Reinforcement learning and neural reinforcement learning.
ESANN'94, Bruxelles, Belgique, 1994, 6 p.
[Sim 04] Simulium, (en ligne). Disponible sur : http://simulium.bio.uottawa.ca/, Site Web
consult en Mars 2004
[Sin 96] Singh S., Norrig P., and Cohn D. How to make seftware Agents do the right thing an
introduction to reinforcement learning. Adaptive systems group, harlequin, INC., 1996, pp.
12.
[Smi 02] Smith A.J. Applications of the self-organising map to reinforcement learning. Neural
Networks, vol. 15, Special Issue, 2002, pp.1107-1124.
[Sut 98] Sutton R.S., and Barto A.G. Reinforcement Learning. Mit press, Cambridge,
Bradford book, 1998, 322 p. ISBN 0-262-19398-1.
[Sut 88] Sutton R.S. Learning to predict by the methods of temporal differences. In Machine
learning, vol. 3, 1988, pp.9-44.
[Svi 01] Svinin M.M., Yamada K., and Ueda K. Emergent synthesis of motion patterns for
locomotion robots. Artificiel intelligence in engineering, 2001, pp.353-363.
[Tor 96] Torres A.L. Virtual model control of a hexapod walking robot. S.B. Thesis,
Department of Mechanical Engineering, Massachusetts Institute of Technology, Cambridge,
Massachusetts, June, 1996, 55 p.
[Tou 99a] Touzet C. Programming robots with associative memories. IJCNN'99, USA, 1999,
4 p.
[Tou 99b] Touzet C., and Cloete I. Applications of Artificial Neural Networks. Special Issue
of Neurocomputing (Elsevier), guests editors, vol. 28, No. 1/3, 1999.
[Tou 98a] Touzet C. L'apprentissage par renforcement. CESAR-ORNL, USA, Janvier 1998,
28 p.
[Tou 98b] Touzet, C. Des rseaux de neurones artificiels a la robotique cooprative. Mmoire
pour l'habilitation diriger de recherches, soutenue 28 septembre, Facult des Sciences et
Techniques de Saint-Jrme, Universit d'Aix-Marseille III, 1998, 81 p.
[Tou 96] Touzet C. Neural reinforcement learning for behavior synthesis. Computational
Engineering in Sytems Applications, France, 1996, 6 p.
168
BIBLIOGRAPHIE
[Tou 93] Touzet C. Apprentissage par renforcement neuronal dun comportement dobstacles
pour le mini-robot Khepera. Second European congress on systems sciences, Prague, 1993,
pp.5-8.
[Tou 92] Touzet C., et Sarzeaud O. Application d'un algorithme d'apprentissage par pnalit
/rcompense a la gneration des formes locomotrices hexapodes. Journes de rochebrune,
AFCET IA. Et cognition, 1992, 5 p.
[Uri 99] Uribe A.P., and Sanchez E. A comparison of reinforcement learning with Eligibility
traces and integrated learning, planning and reacting. Concurrent systems engineering series,
vol. 54, Ios press, Amsterdam, 1999, pp.154-159.
[Zen 04] Zennir Y., and Couturier P. Control of the trajectory of a hexapod robot based on
distributed Q-learning. IEEE International Symposium on Industrial Electronics (ISIE'04),
Palais des Congres Expositions, Ajaccio, France, 2004, pp.277-282. ISBN : 0-7803-8305-
2(CD-ROM).
[Zen 03a] Zennir Y., Couturier P., and Btemps M. Apprentissage de la marche d'un robot
hexapode selon une approche distribue du Q-learning. Confrence International en sciences
Electroniques, Technologies de l'Information et de Tlcommunications, Bouhlel, M.S.,
Solaiman, B., and Kamoun, L., (Eds.), Sousse, Tunisie, 17-21 Mars, 2003, 8 p. ISBN 9973-
41-685-6(CD-ROM).
[Zen 03b] Zennir Y., Couturier P., and Btemps M. Emergence of the gaits of a hexapod
robot using distributed reinforcement learning. Proceeding of The IASTED International
conference on Intelligent systems&control, Salzburg, Austria, 2003, pp.106-111.
[Zen 03c] Zennir Y., Couturier P., and Btemps M. Distributed reinforcement learning of a
six-legged robot to walk. Proceeding of 4th International conference on control and
automation, IEEE Control chapter, Singapore, Montreal section, Montral, Canada, 2003, pp.
896-900. ISBN / 0-7803-7777-X(CD-ROM).
[Zen 02] Zennir Y., Couturier P., and Btemps M. Approche distribue de l'apprentissage par
renforcement : application la marche d'un robot hexapode. XIime journes Neurosciences
et science pour l'ingnieur, La Londe Les Maures, Var, France, 15-18 Septembre, 2002, 4 p.
[Zen 00] Zennir Y. Commande mulit-contrleurs d'un bras de robot un axe : Evalution et
comparaison de deux approches de la commutation. rapport de stage de DEA. DEA
Automatique industrielle. Annecy : ESIA-Universit de Savoie, 2000, 39 p.
169
FOLIO ADMINISTRATIF
Prnoms : YOUCEF
TITRE : Apprentissage par renforcement et systmes distribus : Application l'apprentissage de la marche d'un robot hexapode.
RESUME :
Le but de cette thse est dtudier et de proposer des techniques dapprentissage par renforcement pour lapprentissage de la
marche dun robot marcheur hexapode. Lhypothse sur laquelle repose ce travail est que des marches peuvent tre obtenues lorsque la
commande des mouvements est distribue au niveau de chaque patte plutt que d'tre centralise. Une approche distribue de l'apprentissage
par renforcement de type Q-learning a t retenue dans laquelle les agents (les contrleurs de mouvement) contribuant une mme tche
mnent leur propre apprentissage en tenant compte ou non de l'existence des autres agents. Diffrentes simulations et tests on t mens
avec pour objectif la gnration de marches priodiques stables. La marche apparat comme un phnomne mergeant des mouvements
individuels des pattes. L'influence des paramtres d'apprentissage sur les marches obtenues est tudie. Sont aussi traits des problmes de
tolrances aux fautes et de manque d'information sur l'tat du robot. Enfin il est vrifi en simulation que, avec les algorithmes dvelopps,
le robot apprend rattraper une trajectoire prdfinie tout en contrlant sa posture.
Mots Cls : Robot hexapode, Apprentissage par renforcement, Q-learning, Systmes distribus.
Composition du jury :