These

N dordre 04ISAL0034 Anne 2004
THSE
Prsente devant
INSTITUT NATIONAL DES SCIENCES APPLIQUES DE LYON
Pour obtenir
LE GRADE DE DOCTEUR
COLE DOCTORALE DES SCIENCES POUR LINGNIEUR

FORMATION DOCTORALE : AUTOMATIQUE INDUSTRIELLE
Par
YOUCEF ZENNIR
APPRENTISSAGE PAR RENFORCEMENT

ET SYSTEMES DISTRIBUS : APPLICATION
LAPPRENTISSAGE DE LA MARCHE D'UN ROBOT HEXAPODE
Soutenue le 05 Juillet 2004 devant la Commission dexamen
Jury
M. Btemps Directeur de Thse Professeur L.A.I.-I.N.S.A. de Lyon.

P. Couturier Codirecteur de Thse Matre assistant L.G.I.2.P-Ecole des Mines d'Als.
D. Floutier Examinateur Professeur ESIA-Universit de Savoie.
N. Le Fort-Piat Rapporteur Professeur E.N.S.M.M.-de Besanon.
P. Poncelet Examinateur Professeur L.G.I.2.P.- Ecole des Mines d'Als.
C. Touzet Rapporteur M.C et HDR L.N.I.A.-Universit de Provence.
Cette thse a t prpare et soutenue au Centre de Recherche LGI2P de lcole des Mines dAls en
collaboration avec le Laboratoire d'Automatique Industrielle de l'INSA de Lyon.
A mes Parents,
mes Professeurs
mes surs et mes frres
et Souad ...
A mes Parents,
mes Professeurs
mes surs et mes frres
et Souad ...
INSA DE LYON
DEPARTEMENT DES ETUDES DOCTORALE
Septembre 2003
Ecoles Doctorales et Diplmes dEtudes Approfondies
habilits pour la priode 1999-2003
ECOLES DOCTORALES RESPONSABLE CORRESPONDANT DEA INSA RESPONSABLE

n code national PRINCIPAL INSA n code national DEA INSA
Chimie Inorganique
CHIMIE DE LYON M. D. SINOU M. R. GOURDON 910643
UCBL1 87.53
(Chimie, Procds, Environnement) 04.72.44.62.63 Sec 84.30 Sciences et Stratgies Analytiques
Sec 04.72.44.62.64 Fax 87.17 910634
EDA206 Fax 04.72.44.81.60
Sciences et Techniques du Dchet M. R. GOURDON
910675 Tl 87.53 Fax 87.17
Villes et Socits Mme M. ZIMMERMANN

ECONOMIE, ESPACE ET M.A. BONNAFOUS Mme M. ZIMMERMANN 911218 Tl 60.91 Fax 87.96
MODELISATION DES LYON 2 60.91
COMPORTEMENTS 04.72.72.64.38 Fax 87.96 Dimensions Cognitives et Modlisation M. L. FRECON
Sec 04.72.72.64.03 992678 Tl 82.39 Fax 85.18
(E2MC) Fax 04.72.72.64.48
EDA417
Automatique Industrielle M. M. BETEMPS

ELECTRONIQUE, M. D. BARBIER 910676 Tl 85.59 Fax 85.35
ELECTROTECHNIQUE, INSA DE LYON
AUTOMATIQUE 85.47 Dispositifs de lElectronique Intgre M. D. BARBIER
Fax 60.82 910696 Tl 85.47 Fax 60.82
(E.E.A.)
Gnie Electrique de Lyon M. J.P. CHANTE
EDA160
910065 Tl 87.26 Fax 85.30
Images et Systmes Mme I. MAGNIN

992254 Tl 85.63 Fax 85.26
Analyse et Modlisation des Systmes Biologiques M. S. GRENIER
EVOLUTION, ECOSYSTEME, M. J.P FLANDROIS M. S. GRENIER 910509 Tl 79.88 Fax 85.34
MICROBIOLOGIE , MODELISATION UCBL1 79.88
04.78.86.31.50 Fax 85.34
(E2M2) Sec 04.78.86.31.52
Fax 04.78.86.31.49
EDA403
Documents Multimdia, Images et Systmes M. A. FLORY

INFORMATIQUE ET INFORMATION M. L. BRUNIE dInformation Communicants Tl 84.66 Fax 85.97
POUR LA SOCIETE INSA DE LYON 992774
87.59 Extraction des Connaissances partir des Donnes M. J.F. BOULICAUT
(EDIIS) Fax 80.97 992099 Tl 89.05 Fax 87.13
EDA 407
Informatique et Systmes Coopratifs pour lEntreprise
950131 M. A. GUINET
Tl 85.94 Fax 85.38
Biochimie M. M. LAGARDE
INTERDISCIPLINAIRE SCIENCES- M. A.J. COZZONE M. M. LAGARDE 930032 Tl 82.40 Fax 85.24
SANTE UCBL1 82.40
04.72.72.26.72 Fax 85.24
(EDISS) Sec 04.72.72.26.75
Fax 04.72.72.26.01
EDA205
Gnie des Matriaux : Microstructure, Comportement M. J.M.PELLETIER

MATERIAUX DE LYON M. J. JOSEPH M. J.M. PELLETIER Mcanique, Durabilit Tl 83.18 Fax 85.28
ECL 83.18 910527
UNIVERSITE LYON 1 04.72.18.62.44 Fax 85.28
Sec 04.72.18.62.51 Matriaux Polymres et Composites M. H. SAUTEREAU
EDA 034 Fax 04.72.18.60.90 910607 Tl 81.78 Fax 85.27
____________________________________________
Matire Condense, Surfaces et Interfaces M. G. GUILLOT
910577 Tl 81.61 Fax 85.31
Analyse Numrique, Equations aux drives partielles M. G. BAYADA

MATHEMATIQUES ET M. F. WAGNER M. J. POUSIN et Calcul Scientifique Tl 83.12 Fax 85.29
INFORMATIQUE FONDAMENTALE UCBL1 88.36 910281
04.72.43.27.86 Fax 85.29
(Math IF) Fax 04.72.43.00.35
EDA 409
Acoustique M. J.L. GUYADER
MECANIQUE, ENERGETIQUE, GENIE M. F. SIDOROFF M. G.DALMAZ 910016 Tl 80.80 Fax 87.12
CIVIL, ACOUSTIQUE ECL 83.03
04.72.18.61.56 Fax 04.72.89.09.80 Gnie Civil M. J.J.ROUX
(MEGA) Sec 04.72.18.61.60 992610 Tl 84.60 Fax 85.22
Fax 04.78.64.71.45
EDA162
Gnie Mcanique M. G. DALMAZ
992111 Tl 83.03
Fax 04.78.89.09.80
Thermique et Energtique
910018 M. J. F. SACADURA
Tl 81.53 Fax 88.11
En gris : Les Ecoles doctorales et DEA dont lINSA est tablissement principal
Novembre 2003
INSTITUT NATIONAL DES SCIENCES APPLIQUEES DE LYON
Directeur : STORCK A.
Professeurs :
AMGHAR Y. LIRIS
AUDISIO S. PHYSICOCHIMIE INDUSTRIELLE
BABOT D. CONT. NON DESTR. PAR RAYONNEMENTS IONISANTS
BABOUX J.C. GEMPPM***
BALLAND B. PHYSIQUE DE LA MATIERE
BAPTISTE P. PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERS
BARBIER D. PHYSIQUE DE LA MATIERE
BASKURT A. LIRIS
BASTIDE J.P. LAEPSI****
BAYADA G. MECANIQUE DES CONTACTS
BENADDA B. LAEPSI****
BETEMPS M. AUTOMATIQUE INDUSTRIELLE
BIENNIER F. PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERS
BLANCHARD J.M. LAEPSI****
BOISSE P. LAMCOS
BOISSON C. VIBRATIONS-ACOUSTIQUE
BOIVIN M. (Prof. mrite) MECANIQUE DES SOLIDES
BOTTA H. UNITE DE RECHERCHE EN GENIE CIVIL - Dveloppement Urbain
BOTTA-ZIMMERMANN M. (Mme) UNITE DE RECHERCHE EN GENIE CIVIL - Dveloppement Urbain
BOULAYE G. (Prof. mrite) INFORMATIQUE
BOYER J.C. MECANIQUE DES SOLIDES
BRAU J. CENTRE DE THERMIQUE DE LYON - Thermique du btiment
BREMOND G. PHYSIQUE DE LA MATIERE
BRISSAUD M. GENIE ELECTRIQUE ET FERROELECTRICITE
BRUNET M. MECANIQUE DES SOLIDES
BRUNIE L. INGENIERIE DES SYSTEMES DINFORMATION
BUFFIERE J-Y. GEMPPM***
BUREAU J.C. CEGELY*
CAMPAGNE J-P. PRISMA
CAVAILLE J.Y. GEMPPM***
CHAMPAGNE J-Y. LMFA
CHANTE J.P. CEGELY*- Composants de puissance et applications
CHOCAT B. UNITE DE RECHERCHE EN GENIE CIVIL - Hydrologie urbaine
COMBESCURE A. MECANIQUE DES CONTACTS
COURBON GEMPPM
COUSIN M. UNITE DE RECHERCHE EN GENIE CIVIL - Structures
DAUMAS F. (Mme) CENTRE DE THERMIQUE DE LYON - Energtique et Thermique
DJERAN-MAIGRE I. UNITE DE RECHERCHE EN GENIE CIVIL
DOUTHEAU A. CHIMIE ORGANIQUE
DUBUY-MASSARD N. ESCHIL
DUFOUR R. MECANIQUE DES STRUCTURES
DUPUY J.C. PHYSIQUE DE LA MATIERE
EMPTOZ H. RECONNAISSANCE DE FORMES ET VISION
ESNOUF C. GEMPPM***
EYRAUD L. (Prof. mrite) GENIE ELECTRIQUE ET FERROELECTRICITE
FANTOZZI G. GEMPPM***
FAVREL J. PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERS
FAYARD J.M. BIOLOGIE FONCTIONNELLE, INSECTES ET INTERACTIONS
FAYET M. MECANIQUE DES SOLIDES
FAZEKAS A. GEMPPM
FERRARIS-BESSO G. MECANIQUE DES STRUCTURES
FLAMAND L. MECANIQUE DES CONTACTS
FLEURY E. CITI
FLORY A. INGENIERIE DES SYSTEMES DINFORMATIONS
FOUGERES R. GEMPPM***
FOUQUET F. GEMPPM***
FRECON L. REGROUPEMENT DES ENSEIGNANTS CHERCHEURS ISOLES
GERARD J.F. INGENIERIE DES MATERIAUX POLYMERES
GERMAIN P. LAEPSI****
GIMENEZ G. CREATIS**
GOBIN P.F. (Prof. mrite) GEMPPM***
GONNARD P. GENIE ELECTRIQUE ET FERROELECTRICITE
GONTRAND M. PHYSIQUE DE LA MATIERE
GOUTTE R. (Prof. mrite) CREATIS**
GOUJON L. GEMPPM***
GOURDON R. LAEPSI****.
GRANGE G. GENIE ELECTRIQUE ET FERROELECTRICITE
GUENIN G. GEMPPM***
GUICHARDANT M. BIOCHIMIE ET PHARMACOLOGIE
GUILLOT G. PHYSIQUE DE LA MATIERE
GUINET A. PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERS
GUYADER J.L. VIBRATIONS-ACOUSTIQUE
GUYOMAR D. GENIE ELECTRIQUE ET FERROELECTRICITE
HEIBIG A. MATHEMATIQUE APPLIQUEES DE LYON
JACQUET-RICHARDET G. MECANIQUE DES STRUCTURES
JAYET Y. GEMPPM***
JOLION J.M. RECONNAISSANCE DE FORMES ET VISION
Novembre 2003
JULLIEN J.F. UNITE DE RECHERCHE EN GENIE CIVIL - Structures
JUTARD A. (Prof. mrite) AUTOMATIQUE INDUSTRIELLE
KASTNER R. UNITE DE RECHERCHE EN GENIE CIVIL - Gotechnique
KOULOUMDJIAN J. INGENIERIE DES SYSTEMES DINFORMATION
LAGARDE M. BIOCHIMIE ET PHARMACOLOGIE
LALANNE M. (Prof. mrite) MECANIQUE DES STRUCTURES
LALLEMAND A. CENTRE DE THERMIQUE DE LYON - Energtique et thermique
LALLEMAND M. (Mme) CENTRE DE THERMIQUE DE LYON - Energtique et thermique
LAUGIER A. PHYSIQUE DE LA MATIERE
LAUGIER C. BIOCHIMIE ET PHARMACOLOGIE
LAURINI R. INFORMATIQUE EN IMAGE ET SYSTEMES DINFORMATION
LEJEUNE P. UNITE MICROBIOLOGIE ET GENETIQUE
LUBRECHT A. MECANIQUE DES CONTACTS
MASSARD N. INTERACTION COLLABORATIVE TELEFORMATION TELEACTIVITE
MAZILLE H. PHYSICOCHIMIE INDUSTRIELLE
MERLE P. GEMPPM***
MERLIN J. GEMPPM***
MIGNOTTE A. (Mle) INGENIERIE, INFORMATIQUE INDUSTRIELLE
MILLET J.P. PHYSICOCHIMIE INDUSTRIELLE
MIRAMOND M. UNITE DE RECHERCHE EN GENIE CIVIL - Hydrologie urbaine
MOREL R. MECANIQUE DES FLUIDES ET DACOUSTIQUES
MOSZKOWICZ P. LAEPSI****
NARDON P. (Prof. mrite) BIOLOGIE FONCTIONNELLE, INSECTES ET INTERACTIONS
NELIAS D. LAMCOS
NIEL E. AUTOMATIQUE INDUSTRIELLE
NORMAND B. GEMPPM
NORTIER P. DREP
ODET C. CREATIS**
OTTERBEIN M. (Prof. mrite) LAEPSI****
PARIZET E. VIBRATIONS-ACOUSTIQUE
PASCAULT J.P. INGENIERIE DES MATERIAUX POLYMERES
PAVIC G. VIBRATIONS-ACOUSTIQUE
PECORARO S. GEMPPM
PELLETIER J.M. GEMPPM***
PERA J. UNITE DE RECHERCHE EN GENIE CIVIL - Matriaux
PERRIAT P. GEMPPM***
PERRIN J. INTERACTION COLLABORATIVE TELEFORMATION TELEACTIVITE
PINARD P. (Prof. mrite) PHYSIQUE DE LA MATIERE
PINON J.M. INGENIERIE DES SYSTEMES DINFORMATION
PONCET A. PHYSIQUE DE LA MATIERE
POUSIN J. MODELISATION MATHEMATIQUE ET CALCUL SCIENTIFIQUE
PREVOT P. INTERACTION COLLABORATIVE TELEFORMATION TELEACTIVITE
PROST R. CREATIS**
RAYNAUD M. CENTRE DE THERMIQUE DE LYON - Transferts Interfaces et Matriaux
REDARCE H. AUTOMATIQUE INDUSTRIELLE
RETIF J-M. CEGELY*
REYNOUARD J.M. UNITE DE RECHERCHE EN GENIE CIVIL - Structures
RICHARD C. LGEF
RIGAL J.F. MECANIQUE DES SOLIDES
RIEUTORD E. (Prof. mrite) MECANIQUE DES FLUIDES
ROBERT-BAUDOUY J. (Mme) (Prof. mrite) GENETIQUE MOLECULAIRE DES MICROORGANISMES
ROUBY D. GEMPPM***
ROUX J.J. CENTRE DE THERMIQUE DE LYON Thermique de lHabitat
RUBEL P. INGENIERIE DES SYSTEMES DINFORMATION
SACADURA J.F. CENTRE DE THERMIQUE DE LYON - Transferts Interfaces et Matriaux
SAUTEREAU H. INGENIERIE DES MATERIAUX POLYMERES
SCAVARDA S. AUTOMATIQUE INDUSTRIELLE
SOUIFI A. PHYSIQUE DE LA MATIERE
SOUROUILLE J.L. INGENIERIE INFORMATIQUE INDUSTRIELLE
THOMASSET D. AUTOMATIQUE INDUSTRIELLE
THUDEROZ C. ESCHIL Equipe Sciences Humaines de lInsa de Lyon
UBEDA S. CENTRE DINNOV. EN TELECOM ET INTEGRATION DE SERVICES
VELEX P. MECANIQUE DES CONTACTS
VIGIER G. GEMPPM***
VINCENT A. GEMPPM***
VRAY D. CREATIS**
VUILLERMOZ P.L. (Prof. mrite) PHYSIQUE DE LA MATIERE
Directeurs de recherche C.N.R.S. :

BERTHIER Y. MECANIQUE DES CONTACTS
CONDEMINE G. UNITE MICROBIOLOGIE ET GENETIQUE
COTTE-PATAT N. (Mme) UNITE MICROBIOLOGIE ET GENETIQUE
ESCUDIE D. (Mme) CENTRE DE THERMIQUE DE LYON
FRANCIOSI P. GEMPPM***
MANDRAND M.A. (Mme) UNITE MICROBIOLOGIE ET GENETIQUE
POUSIN G. BIOLOGIE ET PHARMACOLOGIE
ROCHE A. INGENIERIE DES MATERIAUX POLYMERES
SEGUELA A. GEMPPM***
VERGNE P. LaMcos
Directeurs de recherche I.N.R.A. :

FEBVAY G. BIOLOGIE FONCTIONNELLE, INSECTES ET INTERACTIONS
GRENIER S. BIOLOGIE FONCTIONNELLE, INSECTES ET INTERACTIONS
RAHBE Y. BIOLOGIE FONCTIONNELLE, INSECTES ET INTERACTIONS
Directeurs de recherche I.N.S.E.R.M. :

KOBAYASHI T. PLM
PRIGENT A.F. (Mme) BIOLOGIE ET PHARMACOLOGIE
MAGNIN I. (Mme) CREATIS**
* CEGELY CENTRE DE GENIE ELECTRIQUE DE LYON

** CREATIS CENTRE DE RECHERCHE ET DAPPLICATIONS EN TRAITEMENT DE LIMAGE ET DU SIGNAL
***GEMPPM GROUPE D'ETUDE METALLURGIE PHYSIQUE ET PHYSIQUE DES MATERIAUX
****LAEPSI LABORATOIRE DANALYSE ENVIRONNEMENTALE DES PROCEDES ET SYSTEMES INDUSTRIELS
REMERCIEMENTS
C'est avec un grand plaisir que je remercie les personnes qui de prs ou de loin, ont
contribu la ralisation de cette thse.
Je remercie trs sincrement Monsieur Yannick Vimont, de m'avoir accueilli au sein

du centre de recherche LGI2P de l'Ecole des Mines d'Ales.
Je remercie les membres du jury de cette thse : Maurice Btemps, Professeur au LAI
de l'INSA de Lyon, Pierre Couturier, Matre assistant au LGI2P, Denis Floutier, Professeur
l'ESIA de Universit de Savoie, Nadine Le Fort-Piat, Professeur l'ENSMM de Besanon,
Pascal Poncelet, Professeur au LGI2P, et Claude Touzet, Matre de confrence et HDR au
LNIA de l'Universit de Provence et tout particulirement les rapporteurs Nadine Le Fort-Piat
et Claude Touzet qui ont accept d'examiner cette thse.
Ce travail est le fruit du soutien et des remarques d'amiti de mon codirecteur de

thse, Monsieur Pierre Couturier, Matre assistant l'Ecole des Mines d'Als. Sa prsence et
ses conseils aux moments importants ont t comme la lune dans une soire noire. Je le
remercie trs sincrement de m'avoir propos de prparer un doctorat, de m'avoir dirig et
accompagn pendant ces annes de thse. Je suis particulirement reconnaissant Pierre, pour
la lecture trs attentive de ce document.
Je tiens remercier galement et au mme niveau mon directeur de thse, Monsieur

Maurice Btemps, Professeur au laboratoire LAI de l'INSA de Lyon, d'avoir accept de
diriger ma thse, et de m'avoir conseill pendant la thse. J'ai eu beaucoup de plaisir
travailler avec lui, et Pierre Couturier. Nous avons pass ensemble de nombreuses heures de
discussion trs intressante lors des prsentations.
Je tiens remercier l'ensemble du personnel du LGI2P pour l'accueil, la bonne

ambiance inoubliable et l'esprit de collectivit et d'amiti. Je voudrais aussi remercier les
secrtaires et particulirement Sylvie Cruvellier qui a fait preuve de patience et de
disponibilit pendant ces annes.
Je remercie mes parents, ma femme, mes surs et mes frres qui m'ont soutenu tout au
long de ma thse, sans oublier mes deux oncles Ali et Hocine et leurs familles.
Enfin, je voudrais remercier les personnes que j'ai ctoyes de prs : Selim, Kamel,
Mohamed, Mourad, Abdenour, Abdelghani, Djamal, Nawel, Rachid, Monika, Ursula, Djamel,
Abdellah, Jihad, Christophe, Michael, Herve, Kristophe, Himanshu, Manoj, Alain, et
l'ensemble des thsards du LGI2P.
RSUM
Les techniques d'apprentissage par renforcement sont particulirement utiles dans le

domaine de l'intelligence artificielle lorsqu'il est difficile de planifier les bonnes dcisions
prendre. En effet, elles permettent un agent d'acqurir un comportement dsir en exploitant
un simple signal de renforcement pnalisant ou rcompensant les actions de l'agent dans son
environnement. Par ce processus essai/erreur, l'agent amliore progressivement son
comportement pour maximiser ses gains (la somme des rcompenses venir).
Lhypothse forte sur laquelle repose ce travail est quun centre unique de dcision
central n'est pas ncessaire pour commander les mouvements de locomotion. Plus
gnralement nous tudions comment plusieurs entits ou agents (acteurs) indpendants
peuvent contribuer un objectif global alors quils acquirent par apprentissage un
comportement pour satisfaire leur propre objectif local.
Une tude bibliographique prsente une synthse de travaux portant sur les lois de la
marche des insectes, sur les modles de robots hexapodes et sur les diffrentes mthodes
dapprentissage par renforcement dans le cas mono-acteur ou multi-acteurs. Cette tude a
permis de dfinir un modle gomtrique de simulation intgrant le contrle de la posture du
robot. Elle a aussi permis de concevoir la fonction critique associe chaque contrleur de
mouvement considr comme agent dot d'une certaine autonomie.
Une approche distribue de l'apprentissage par renforcement de type Q-learning a t

retenue dans laquelle les agents contribuant une mme tche mnent leur propre
apprentissage. Les approches centralises et distribues sont compares. Des principes de
l'apprentissage dans les systmes multi-acteurs sont considrs pour que chaque acteur puisse
prendre en compte les dcisions des autres acteurs contribuant la mme tche.
Diffrentes simulations et tests on t mens avec pour objectifs la gnration de

marches priodiques stables, et ltude de l'influence des paramtres d'apprentissage. La
marche apparat comme un phnomne mergeant des mouvements individuels des pattes.
Certaines des marches obtenues sont observes chez les insectes. Il est mis en vidence que
les cycles de marche sont des cycles attracteurs du processus dynamique non linaire
dapprentissage. Sont aussi traits des problmes de tolrances aux fautes et de manque
d'information sur l'tat des diffrentes pattes. Enfin les algorithmes dvelopps montrent que
le robot apprend en simulation changer de trajectoire tout en contrlant sa posture.
Mots Cls : Robot hexapode, Apprentissage par renforcement, Q-learning, Systmes

distribus.
SUMMARY
The goal of this thesis is to study and to develop reinforcement learning techniques in
order a hexapod robot to learn to walk. The main assumption on which this work is based is
that effective gaits can be obtained as the control of the movements is distributed among the
legs rather than centralised in a single decision center.
A state of the art study presents a synthesis of research work related to: the walk of the
insects, the mechanical, geometrical and dynamical models of hexapod robots and various
reinforcement learning methods and algorithms in the case of single agent or many agents.
This study made it possible to define a geometrical model of simulation, integrating

the control of the posture of the robot. It also made it possible to conceive the critic function
associated with each controller participating in the hexapod movements. A distributed
approach of the Q-learning technique is adopted in which the agents contributing to the same
global objective perform their own learning process taking into account or not the other
agents.
The centralized and distributed approaches are compared. Different simulations and
tests are carried out so as to generate stable periodic gaits. The influence of the learning
parameters on the quality of the gaits are studied. The walk appears as an emerging
phenomenon from the individual movements of the legs. Problems of fault tolerance and lack
of state information are investigated. Finally it is verified that with the developed algorithm
the simulated robot learns how to reach a desired trajectory while controlling its posture.
Key words: Hexapod Robot, Reinforcement learning, Q-learning, Distributed

systems.
Table des matires
INTRODUCTION________________________________________________________ 12
1. PROBLMATIQUE__________________________________________________ 13
2. LE BUT DE LA THSE_______________________________________________ 13
3. SYNTHSE DE LA DMARCHE PROPOSE ___________________________ 14
4. PLAN DE LA THSE_________________________________________________ 14
5. LA CONTRIBUTION DE CETTE THSE _______________________________ 16
CHAPITRE 1
1.1 INTRODUCTION____________________________________________________ 17
1.2 DFINITIONS GNRALES__________________________________________ 17

1.2.1. Les insectes_______________________________________________________ 17
1.2.2. Le mouvement ____________________________________________________ 19
1.2.3. Le maintien _______________________________________________________ 20
1.2.4. La stabilit _______________________________________________________ 20
1.2.5. La posture ________________________________________________________ 20
1.2.6. La marche ________________________________________________________ 21
1.2.7. La Locomotion ____________________________________________________ 22
1.2.8. Evitement des obstacles et orientation __________________________________ 22
1.2.9. Marche arrire_____________________________________________________ 23
1.2.10. Changement de vitesse ______________________________________________ 23
1.2.11. Navigation _______________________________________________________ 23
1.3 LES MCANISMES DE LA MARCHE DES INSECTES___________________ 24
1.3.1. Les diffrentes marches des insectes ___________________________________ 24
1.3.2. Modles de coordination ____________________________________________ 25
1.4 TABLEAU RCAPITULATIF _________________________________________ 28
1.5 CONCLUSION ______________________________________________________ 30
CHAPITRE 2
2.1 INTRODUCTION____________________________________________________ 31
2.2 DIFFRENTES RALISATIONS DE ROBOTS HEXAPODES _____________ 31
2.3 MODLES MATHMATIQUES DU ROBOT HEXAPODE ________________ 36
1
2.3.1. Modles logiques __________________________________________________ 36
2.3.2. Modles gomtriques ______________________________________________ 37
2.3.3. Les modles dynamiques des robots hexapodes___________________________ 40
2.3.4. Conclusion sur les modles de robots hexapode __________________________ 47
2.4 LES SYSTMES DE CONTRLE COMMANDE_________________________ 47
2.4.1. Architecture des systmes de commande ________________________________ 47
2.5 TABLEAU RCAPITULATIF _________________________________________ 52
2.6 CONCLUSION ______________________________________________________ 53
CHAPITRE 3
3.1 INTRODUCTION ____________________________________________________ 54
3.2 APPRENTISSAGE PAR RENFORCEMENT ____________________________ 55
3.3 MODLE DE LAPPRENTISSAGE PAR RENFORCEMENT ______________ 55

3.3.1. Principe__________________________________________________________ 55
3.3.2. Facteurs d'influence ________________________________________________ 57
3.3.3. Processus de Dcision Markoviens ____________________________________ 59
3.3.3.1. Les variantes de PDM _____________________________________________________ 60
3.3.3.2. Principe de Bellman et PDM ________________________________________________ 60
3.4 MTHODE DE LA PROGRAMMATION DYNAMIQUE (DP) _______________ 63
3.5 MTHODE DE MONTE CARLO (MC) __________________________________ 63
3.6 LES MTHODES DIFFRENCES TEMPORELLES (TD) _________________ 64

3.6.1. Mthode drive de la mthode TD ____________________________________ 65
3.7 Q-LEARNING _______________________________________________________ 68
3.7.1. Dfinition ________________________________________________________ 68
3.7.2. Dilemme exploration / exploitation ____________________________________ 68
3.7.3. Q-learning et POMDP ______________________________________________ 70
3.7.4. Implantations neuronales du Q-learning_________________________________ 70
3.7.4.1. Emploi des rseaux multicouches ___________________________________________ 70
3.7.4.2. Q-learning rcurrent _______________________________________________________ 71
3.7.5. Q-Kohonen _______________________________________________________ 71
3.7.6. Quelques mthodes d'apprentissage drives du Q-learning _________________ 72
3.8 APPLICATIONS DE L'APPRENTISSAGE PAR RENFORCEMENT AUX
ROBOTS HEXAPODES ___________________________________________________ 72
3.8.1. Algorithme Arp et le robot hexapode ___________________________________ 72
3.8.2. Algorithme -learning et comparaison avec Q-learning ____________________ 75
3.8.3. Apprentissage par renforcement des rgles de dcision _____________________ 76
3.8.4. Q-learning hirarchique (HQL) _______________________________________ 77
3.9 TABLEAUX RCAPITULATIFS _______________________________________ 77
3.10 CONCLUSION ______________________________________________________ 81
2
CHAPITRE 4
4.1 INTRODUCTION_____________________________________________________ 83
4.2 DIFFRENTES ARCHITECTURES DE COORDINATION _________________ 84
4.3 ARCHITECTURES CENTRALISES ___________________________________ 84
4.4 ARCHITECTURES NON CENTRALISES ______________________________ 85

4.4.1. Architectures hirarchiques___________________________________________ 85
4.4.2. Architectures htrarchiques __________________________________________ 87
4.4.3. Architectures hybrides_______________________________________________ 88
4.5 APPROCHE CENTRALISE DE LAPPRENTISSAGE PAR RENFORCEMENT
89
4.6 APPROCHE DISTRIBUE DE LAPPRENTISSAGE PAR RENFORCEMENT 91
4.7 ACTIONS COLLECTIVES DANS LES SYSTMES DISTRIBUS___________ 92

4.7.1. Des agents ractifs associs la mme tche _____________________________ 92
4.7.2. Q-learning et systmes multi-acteurs ___________________________________ 93
4.7.2.1. Jeux de Markov ___________________________________________________________ 93
4.7.2.2. Jeux 2 joueurs somme nulle _______________________________________________ 94
4.7.2.3. Jeux 2 joueurs somme quelconque __________________________________________ 95
4.8 TABLEAUX RCAPITULATIFS _______________________________________ 96
4.9 CONCLUSION _______________________________________________________ 98
CHAPITRE 5
5.1 INTRODUCTION____________________________________________________ 99
5.2 ROBOT HEXAPODE________________________________________________ 100

5.2.1. Description physique ______________________________________________ 100
5.2.2. Modle logique de lhexapode _______________________________________ 102
5.3 PROBLMATIQUE_________________________________________________ 102
5.4 APPROCHE DISTRIBUE DE COMMANDE ET DAPPRENTISSAGE ____ 104

5.4.1. Choix dune architecture de commande ________________________________ 104
5.4.2. Choix du mode dapprentissage ______________________________________ 104
5.4.3. Apprentissage par renforcement distribu ______________________________ 106
5.5 GNRATION MARCHES PRIODIQUES ____________________________ 107
5.6 SIMULATION : GNRATION DE MARCHES SELON LAPPROCHE

DISTRIBUE ___________________________________________________________ 110
5.6.1. Choix dun critique________________________________________________ 110
3
5.6.2. Gnration de diffrents types de marche ______________________________ 110
5.6.2.1. Obtention de marches priodiques ____________________________________________ 111
5.6.2.2. Influence de la fonction critique supplmentaire _________________________________ 114
5.6.2.3. Influence de la fonction symtrie _____________________________________________ 116
5.6.2.4. Les cycles attracteurs ______________________________________________________ 118
5.6.3. Influence du facteur doubli et du pas du gradient ______________________ 119
5.6.4. Evolution des Fonctions valeurs______________________________________ 124
5.6.5. Influence du choix des entres _______________________________________ 126
5.6.6. Tolrance aux fautes _______________________________________________ 130
5.7 COMPARAISON ENTRE LAPPROCHE CENTRALISE ET LAPPROCHE
DISTRIBUE ___________________________________________________________ 131
5.7.1. Influence de limplmentation de la fonction Q__________________________ 131
5.7.2. Influence du facteur coefficient de pondration et du pas dapprentissage __ 133
5.8 RSUM __________________________________________________________ 138
5.9 LIMITATION DE LAPPRENTISSAGE PAR RENFORCEMENT CLASSIQUE

DE TYPE Q-LEARNING__________________________________________________ 139
5.10 MODIFICATIONS APPORTES L'ALGORITHME Q-LEARNING _____ 140

5.10.1. Stratgies individuelle ou collective___________________________________ 140
5.10.2. Comportement collectif ____________________________________________ 142
5.11 RSULTATS DE SIMULATIONS DE CHANGEMENT DE TRAJECTOIRE
AVEC CONTRLE DE LA POSTURE. _____________________________________ 146
5.11.1. Le contrle de la posture ___________________________________________ 146
5.11.2. Changement de trajectoire avec contrle de la posture : Rsultats ___________ 151
5.12 CONCLUSION _____________________________________________________ 154
CONCLUSION GNRALE ET PERSPECTIVES

CONCLUSION GNRALE ______________________________________________ 155
ET PERSPECTIVES _____________________________________________________ 155
1. SYNTHSE__________________________________________________________ 155
1.1 Ce travail de recherche a t organis autour, des trois activits suivantes : ___ 155
1.2 Les principales contributions de ce travail de recherche sont : ______________ 157
2. PRINCIPAUX RSULTATS ___________________________________________ 157
3. PERSPECTIVES _____________________________________________________ 158
BIBLIOGRAPHIE
BIBLIOGRAPHIE _______________________________________________________ 160
4
Liste des Figures
CHAPITRE 1
Fig. 1. 1 Anatomie externe de linsecte Phasme [Mic 04]. ...................................................... 18

Fig. 1. 2 Diffrentes articulation dune patte[Sim 04]. ............................................................ 19
Fig. 1. 3 Cycle locomoteur. ...................................................................................................... 22
Fig. 1. 4 Quelques marches observes sur les insectes par Wilson 1966, repris par M.J.
Randall [Ran 99] .............................................................................................................. 24
Fig. 1. 5 Modle du contrle d'une patte propos par Pearson, repris par C. Ferrell [Fer 93]. 26
Fig. 1. 6 Les diffrentes marches associes aux changements de frquence des oscillateurs
locaux des pattes, proposes par Pearson, repris par C. Ferrell [Fer 93]........................... 26
Fig. 1. 7 Modle dinhibition mutuelle des pattes adjacentes de Pearson et repris par M.J.
Randall [Ran 99]................................................................................................................ 27
Fig. 1. 8 Circuit de contrle d'une patte propos par Cruse, repris par C. Ferrell [Fer 93]...... 27
Fig. 1. 9 Diagramme de coordination entre les pattes, propos par H. Cruse et repris par C.
Ferrell [Fer 93]................................................................................................................... 28
CHAPITRE 2
Fig. 2. 1 Robot hexapode Sir Arthur [Kir 98]. ......................................................................... 32

Fig. 2. 2 Robot 'Hannibal' avec un modle de la patte et les capteurs [Fer 93] ....................... 32
Fig. 2. 3 Robot hexapode R-I. [Bee 93]. .................................................................................. 33
Fig. 2. 4 Robot hexapode R-II [Esp 96]. .................................................................................. 33
Fig. 2. 5 Robot hexapode R-III [Nel 97]. ................................................................................. 34
Fig. 2. 6 Prototype d'une patte d'avant du robot R-III [Nel 97]. .............................................. 34
Fig. 2. 7 Modle du robot R-IV [Qui 01]................................................................................. 35
Fig. 2. 8 Modle d'une patte de l'avant du robot R-V [Kin 03]................................................ 35
Fig. 2. 9 Modle gomtrique dune patte.. ............................................................................. 37
Fig. 2. 10 Modle gomtrique du robot hexapode.................................................................. 37
Fig. 2. 11 Modle gomtrique d'une patte.. ............................................................................ 38
Fig. 2. 12 Posture de rfrence [Por 98].................................................................................. 39
Fig. 2. 13 Contrle de la posture en utilisant lanalogie des ressorts....................................... 39
Fig. 2. 14 Mouvement d'une patte. ........................................................................................... 41
Fig. 2. 15 Contrle du pied (mouvement de translation d'une patte) [Kod 98]........................ 42
Fig. 2. 16 Les mouvements du corps du robot hexapode......................................................... 42
Fig. 2. 17 Modle gomtrique du robot hexapode.................................................................. 44
Fig. 2. 18 Analyse d'une patte dans le plan dfini par une patte et l'axe z du repre ............ 45
Fig. 2. 19 Architecture de commande dun robot hexapode selon C. Ferrell [Fer 93]. ........... 48
Fig. 2. 20 Rseau basique de contrle de locomotion pour un robot hexapode propos par
Brooks [Fer 93].................................................................................................................. 49
Fig. 2. 21 Les cinq degrs du mouvement du corps du robot hexapode.. ................................ 50
Fig. 2. 22 Structure de contrle. Dcomposition des taches pour le contrle de la marche d'un
robot hexapode sur un terrain non rgulier, d'aprs E. Celaya et J. Porta [Cel 96]........... 51
5
CHAPITRE 3
Fig. 3. 1 Apprentissage par renforcement : diagramme d'interaction agent / environnement. 56

Fig. 3. 2 Relation tats, actions. ............................................................................................... 57
Fig. 3. 3 Structure des Processus stochastique. ........................................................................ 59
Fig. 3. 4 Diagramme de diagramme de propagation de V et Q [Sut 98]................................. 61
Fig. 3. 5 Diagramme de diagramme de propagation de V* et Q* [Sut 98]............................. 62
Fig. 3. 6 Principe de l'Itration de Stratgie Gnralise (ISG) [Sut 98]. ................................ 62
Fig. 3. 7 Mthodes drive de la mthode TD. ........................................................................ 65
Fig. 3. 8 Architecture de AHC-learning. .................................................................................. 66
Fig. 3. 9 Diagramme de fonctionnement de l'algorithme Critique /Acteur.............................. 66
Fig. 3. 10 Distribution de probabilit de Boltzman.................................................................. 69
Fig. 3. 11 Architecture de Q-rcurrent [Lin 92]. ...................................................................... 71
Fig. 3. 12 Diffrentes implmentations de Q-learning............................................................. 72
Fig. 3. 13 Architecture de commande base de rseaux de neurones et lapprentissage par
renforcement (Algorithme Arp)......................................................................................... 74
CHAPITRE 4
Fig. 4. 1 Diffrentes architectures des systmes. ..................................................................... 84

Fig. 4. 2 Architecture centralise. ............................................................................................ 85
Fig. 4. 3 Architecture hirarchise. .......................................................................................... 86
Fig. 4. 4 Architecture hirarchise modifie. ........................................................................... 87
Fig. 4. 5 Architecture htrarchique......................................................................................... 87
Fig. 4. 6 Architecture hybride. ................................................................................................. 89
Fig. 4. 7 Architecture centralise de lapprentissage par renforcement. .................................. 90
Fig. 4. 8 Exemple darchitecture hirarchise de lapprentissage par renforcement. .............. 90
Fig. 4. 9 Approche distribue de lapprentissage par renforcement......................................... 91
Fig. 4. 10 Les matrices Q gres par chaque agent dans les situations s et s......................... 96
CHAPITRE 5
Fig. 5. 1 Une patte du robot hexapode. .................................................................................. 101

Fig. 5. 2 Robot Hexapode....................................................................................................... 101
Fig. 5. 3 Codage des configurations de lhexapode. .............................................................. 102
Fig. 5. 4 Les dix-huit tats stables possibles parmi les 64 tats. ........................................... 103
Fig. 5. 5 Contrle niveaux d'un robot hexapode.................................................................. 104
Fig. 5. 6 Architecture distribue de lapprentissage par renforcement .................................. 106
Fig. 5. 7 Par symtrie, les pattes G en configuration 1 agissent comme................................ 109
Fig. 5. 8 Chronogramme de la marche tripode (21 42).. ....................................................... 111
Fig. 5. 9 Chronogramme de la marche 4 T (47-27-61-54).. ................................................ 112
Fig. 5. 10 Chronogramme dune marhe a six temps (47 59 31 61 55 62).............................. 113
6
Fig. 5. 11 Marche 54 63 45 27 avec un enchanement incorrect des mouvements de
proaction.. ........................................................................................................................ 115
Fig. 5. 12 Chronogramme de la marche quatre temps (54 61 47 27). ................................ 115
Fig. 5. 13 Chronogramme de la marche a six temps (63 59 31 61 55 62).. .......................... 117
Fig. 5. 14 Chronogramme de la marche a six temps (47 23 31 61 55 62). ........................... 118
Fig. 5. 15 Exemples de cycles attracteurs. ............................................................................. 119
Fig. 5. 16 Nombre moyen dpisodes sans marche en fonction de . .................................... 120
Fig. 5. 17 Dure moyenne des pisodes qui se terminent par une marche en fonction de . . 120
Fig. 5. 18 Variation du nombre moyen des chutes sur les pisodes qui se terminent par une
marche en fonction de . .................................................................................................. 121
Fig. 5. 19 Influence du pas de gradient sur : le nombre moyen de chutes pour les pisodes
qui se terminent par une marche, la dure moyenne des pisodes qui se terminent par une
marche, le nombre moyen des pisodes sans chute et le nombre moyen de marches
diffrentes trouves.......................................................................................................... 122
Fig. 5. 20 Influence de pas de gradient sur la priode des marches trouves. .................... 123
Fig. 5. 21 Influence de pas de gradient sur la priode des marches trouves.. ................... 123
Fig. 5. 22 Evolution des 6 courbes Q pour ltat 53 en fonction du temps dans le cas
caractristique o une marche ttrapode.. ....................................................................... 125
caractristique o une marche ttrapode.. ....................................................................... 125
Fig. 5. 24 A : Srie de signaux de renforcement (pnalits et rcompenses) reus en fin
dpisodes par les agents.. ............................................................................................... 126
Fig. 5. 25 Changement dinformation dtats entre les pattes................................................ 127
Fig. 5. 29 Influence du facteur doubli sur le nombre des pisodes sans marche.. ........... 134
Fig. 5. 30 Influence du facteur doubli sur la dure moyenne des pisodes qui se termine
par une marche................................................................................................................. 134
Fig. 5. 31 Influence du facteur doubli sur le nombre moyen des chutes sur les pisodes qui
se termine par une marche.. ............................................................................................. 135
Fig. 5. 32 Influence du pas de gradient sur le nombre moyen de chutes pour les pisodes qui
se terminent par une marche, la dure moyenne des pisodes qui se terminent par une
marche, le nombre moyen des pisodes sans chutes et le nombre moyen de marches
diffrentes trouves.......................................................................................................... 136
Fig. 5. 33 Influence du pas de gradient sur la priode des marches trouves. Laxe
horizontal (T): priode des marches.. .............................................................................. 137
horizontal (T): priode des marches.. .............................................................................. 138
Fig. 5. 35 Limitations de lalgorithme Q-learning classique.................................................. 140
Fig. 5. 36 Matrice des valeurs de Q pour chaque agent. ........................................................ 141
Fig. 5. 37 Tableau des valeurs tat -action tenant compte du choix des actions des autres
agents. .............................................................................................................................. 142
Fig. 5. 38 Polygone de configuration de rfrence. ............................................................... 146
Fig. 5. 39 Contrle de la posture en utilisant lanalogie des ressorts .................................... 147
Fig. 5. 40 Contrle de changement de trajectoire. ................................................................. 149
Fig. 5. 41 Codage des espaces d' tat et d'action.................................................................... 150
Fig. 5. 42 Les diffrentes positions initiales de test. .............................................................. 151
Fig. 5. 43 Trajectoire du robot hexapode dans le plan x,y. .................................................... 152
Fig. 5. 44 Variation de langle de rotation G autour de Gz................................................... 152
7
Fig. 5. 45 Trajectoire du robot hexapode, position du centre de gravit dans le plan x,y...... 153
Fig. 5. 46 Variation de langle de rotation G autour de Gz................................................... 153
8
Liste des Tableaux
CHAPITRE 1
Tableau. 1. 1 Mesures de PAE et PPE en mm, effectue sur une population minimale de 63
sujets de la mme espce [Cru 76a],[Cru 76b]. ________________________________ 25
Tableau. 1. 2 Diffrents travaux sur la marche des insectes. _________________________ 29
CHAPITRE 2
Tableau. 2. 1 Diffrentes modles logiques de robot hexapode._______________________ 36

Tableau. 2. 2 Diffrents modles des robots hexapodes. ____________________________ 52
CHAPITRE 3
Tableau. 3. 1 Diffrents mthodes d'apprentissage par renforcement...................................... 78

Tableau. 3. 2 Diffrents algorithmes d'apprentissage par renforcement. ................................. 81
CHAPITRE 4
Tableau. 4. 1 Diffrents architectures des systmes................................................................. 97

Tableau. 4. 2 Diffrents architectures des systmes d'apprentissage par renforcement........... 98
CHAPITRE 5
Tableau. 5. 1 Paramtres de simulation.................................................................................. 110

Tableau. 5. 2 Signal de renforcement pour chaque patte[Zen 03c]........................................ 111
Tableau. 5. 4 La marche tripode deux temps est trouve. ................................................... 112
Tableau. 5. 5 Les marches trouves quatre temps. .............................................................. 113
Tableau. 5. 6 Les marches trouves. ...................................................................................... 113
Tableau. 5. 10 Les marches trouves. .................................................................................... 116
Tableau. 5. 11 Paramtres de simulation................................................................................ 117
9
Tableau. 5. 16 Paramtres de simulation pour ltude de linfluence de ............................. 120
Tableau. 5. 18 Paramtres de simulations. ............................................................................. 129
Tableau. 5. 19 Les marches trouves, cas 1 : ......................................................................... 129
Tableau. 5. 20 Les marches trouves, cas 2 : chaque patte ne connat que l'tat des pattes
situes du mme ct. ...................................................................................................... 129
Tableau. 5. 21 Les marches trouves, cas 3 : ......................................................................... 130
Tableau. 5. 22 Les marches trouves dans le cas 4 : ............................................................ 130
Tableau. 5. 23 Les marches trouves ( =0.9, D_max_ret=3, D_min_ret=D_max_ret, ....... 131
Tableau. 5. 24 Les marches trouves avec un apprentissage par renforcement centralis, un
seul tableau (64*64) de valeurs Q pour lensemble des agents et un signal de
renforcement global. ........................................................................................................ 133
Tableau. 5. 25 Les marches trouves avec une architecture hirarchise (slection daction en
local), un tableau (64*2) de valeurs Q pour chacun des 6 agents et un signal de
renforcement global. ........................................................................................................ 133
Tableau. 5. 26 Les marches trouves avec un apprentissage par renforcement distribu, un
tableau (64*2) de valeurs Q pour chacun des 6 agents recevant son propre signal de
renforcement. ................................................................................................................... 133
Tableau. 5. 27 Paramtres de simulation pour ltude de linfluence de ............................. 134
Tableau. 5. 28 Comparaison entre lapproche distribue et hirarchise par rapport.............. 136
10
Liste des Algorithmes
CHAPITRE 3
Algorithme. 3. 1 Algorithme de prdiction TD........................................................................ 65

Algorithme. 3. 2 Algorithme de Q-learning [Seh 96]. ............................................................. 70
CHAPITRE 4
Algorithme.4. 1. Algorithme Q-Multi-agent pour deux agents [HU 98]................................. 95
CHAPITRE 5
Algorithme.5. 1. Algorithme Q-learning et robot hexapode................................................. 108

Algorithme.5. 2. Algorithme Q-multiagents........................................................................... 144
Algorithme.5. 3. Algorithme Qlearning et la carte de Kohonen............................................ 146
Algorithme.5. 4. Procdure de la simulation......................................................................... 151
11
INTRODUCTION
Les robots de diffrents types (robots manipulateurs, robots nageurs, robots roues,
robots marcheurs) et la Robotique en gnral jouent un rle trs important dans le secteur
industriel et aussi de plus en plus dans les secteurs de services comme l'entretien,
l'exploration, la mdecine. Les structures, formes et fonctionnalits de ces robots doivent tre
adaptes lenvironnement avec lequel ils interagissent.
Les robots manipulateurs peuvent tre utiliss pour des tches de tri, dassemblage
(notamment dans le secteur automobile) ou plus rcemment pour dautres oprations
exigeant de la prcision par exemple en chirurgie [Lai 04]. Les robots nageurs sont utiliss
pour explorer et filmer la vie sous-marine, travailler sur les fonds marins, rechercher ou
rcuprer des objets trs importants comme la boite noire dun avion qui est tomb dans la
mer ou des vestiges historiques comme l'pave du "Titanique" ou celles de navires antiques.
Les robots rouleurs, peuvent avoir un nombre variable de roues (2, 4, 6 et mme 8)
selon la charge transporter et aussi selon lapplication. Ces robots sont utiliss dans
lindustrie pour leur capacit se dplacer avec une vitesse importante. Cependant ils sont
mal adapts aux terrains accidents ou aux environnements mal connus. Des modles de
conception gomtrique, mcanique ou lectronique doivent alors tre tudis
spcifiquement comme c'est le cas des robots envoys par la NASA pour lexploration de la
Lune et de la plante Mars, (ex. Robot RWC, utilis pour ports des charges).
Les robots marcheurs, peuvent tre trs diffrents par leur forme et par leur nombre
de pattes. Il existe des robots deux pattes (robot bipde BIP 2000 [Aze 00]), quatre pattes
(robot quadripode de Sony imitant un chien) et des robots six pattes (le robot R-III [Nel
97], [Qui 01] ou le robot R-V [Kin 03]) et des robots huit pattes (robot scorpion de
Klaassen Bernhard et Frank Kirchner [ Ber 02] dont l'objectif est de faire traverser au robot
40 kilomtres du dsert Mojave de Californie jusqu' un point dtermin, puis de revenir
son point de dpart), etc.
Les robots marcheurs six pattes (robots hexapodes) prsentent en gnral des
similitudes avec des insectes capables de se dplacer dans des terrains naturels, ils peuvent
emprunter par exemple leurs principes de marche. Ils prsentent un bon compromis entre
complexit de conception, stabilit et mobilit. Ils peuvent tre utiles pour accder des
zones dangereuses pour lHomme comme les sites nuclaires ou lespace. La ncessit de
matriser les interactions du robot avec son environnement, de coordonner les mouvements
pendant la marche, de contrler l'quilibre et la posture rend ces systmes difficiles
commander surtout lorsque ces robots hexapodes possdent un grand nombre de degrs de
libert (le robot R-V |Kin 03] possde 24 degrs de libert).
Nous dgageons dans le paragraphe suivant plusieurs problmes lis la conception des
robots hexapodes.
12
1. Problmatique
Les questions suivantes se posent pour concevoir un robot hexapode pouvant voluer
dans un environnement inconnu :
Quel modle mcanique de robot hexapode doit-on adopter : nombre de

degrs de libert, forme du corps et des pattes pour voluer dans des terrains
varis ?
Parmi les principes de marches observs chez les insectes, quel sont ceux qui
peuvent tre utilement appliqus aux robots hexapodes ?
Comment traiter simultanment les problmes de dplacement, de maintien

de lquilibre et de la posture, de lvitement dobstacles, de la navigation ?
Quelle stratgie de commande est adapte pour satisfaire ces objectifs qui
peuvent tre contradictoires ?
Comment dcomposer un systme grand nombre de degrs de libert tel

quun robot hexapode en plusieurs sous-systmes plus simples a
commander ?
Comment un robot hexapode voluant en environnement inconnu peut

sadapter et apprendre en interagissant avec lenvironnement ?
Ainsi l'quipe de Brooks du MIT a men plusieurs projets de construction de robots

hexapodes comme le robot Hannibal. Ces travaux comportent des tudes sur des principes de
la marche (inspirs de la marche des insectes), des modles dynamiques, des architectures de
commande et la ralisation de robots rels, capables d'voluer dans des terrains proches des
terrains naturels [Fer 93].
2. Le but de la thse
Le but de la thse est dtudier des techniques dapprentissage par renforcement pour
lapprentissage de la marche dun robot hexapode pouvant voluer dans un environnement
inconnu. Lhypothse forte sur laquelle repose ce travail est quun unique centre de dcision
central n'est pas ncessaire pour commander les mouvements de locomotion. Plus
gnralement nous tudions comment plusieurs entits ou agents indpendants peuvent
contribuer un objectif global alors quils acquirent par apprentissage un comportement
pour satisfaire leur propre objectif local.
13
3. Synthse de la dmarche propose
Dans le domaine biologique, plusieurs chercheurs ont tudi la marche des insectes.
Wilson [Wil 66], a ainsi propos des rgles qui dcrivent lenchanement des mouvements de
marche. Nous nous sommes inspirs de ces rgles pour valuer la qualit des mouvements de
marche.
Ce travail sinscrit dans le prolongement des travaux de C. Touzet et A. Johannet

chercheurs lEERIE et lEMA sur lapprentissage de la marche dun robot hexapode dont
un exemplaire physique a t ralis en 1995. Ces travaux sont bass sur un modle statique
simple de lhexapode et un algorithme dapprentissage par renforcement de type ARP [Barto
85] pour calculer des rseaux de neurones capables de coordonner des mouvements de
marche ou dviter des obstacles.
Pour traiter des actions autres que binaires, nous avons opt pour un apprentissage par
renforcement de type Q-learning (Watkins 1989). Pour simplifier la tche de commande, elle
est distribue sur lensemble des pattes (Q-learning distribu), chaque patte recevant son
propre signal de renforcement. Cette approche est pousse jusqu considrer chaque patte
comme un agent autonome, et nous nous sommes intresss lapprentissage dans le cas de
systmes multi-acteurs.
Par une discrtisation des espaces dtat et daction la mthode d'apprentissage Q-

learning est adapte au cas o l'tat ou les actions sont des grandeurs continues. Le modle
de simulation du robot a t enrichi en introduisant un modle du contrle de la posture
inspir des travaux de J.M.Porta et E.Celaya [Cel 98] .Les algorithmes proposs sont tests
lors de simulations.
.
4. Plan de la thse
Ce manuscrit est structur autour des chapitres suivants :
Chapitre 1 :
Dans le chapitre un, sont prsentes des notions de base sur les insectes marcheurs,
leurs structures biologiques, leurs modes et rgles de marche dans la nature. Quelques
notions et dfinitions sur le maintien, l'quilibre, la posture, le mouvement, la marche, la
locomotion, la navigation sont donnes.
Chapitre 2 :
Le deuxime chapitre, permet une transition de la biologie la robotique. Quelques

ralisations connues de robots hexapodes sont prsentes et diffrents modles de ce type de
robot marcheur sont dcrits (modles statiques, gomtriques et dynamiques).
14
Chapitre 3 :
Dans le troisime chapitre, est prsent un tat de lart sur lapprentissage par
renforcement avec les diffrentes mthodes et algorithmes dapprentissage (Programmation
dynamique, mthode de Monte Carlo, mthodes de diffrence temporelle). Nous insistons sur
des mthodes d'apprentissage bases sur les diffrences temporelles comme le Q-learning et
certaines de ses variantes. Nous dcrivons des applications de lapprentissage par
renforcement pour le contrle de la marche d'un robot hexapode et analysons leurs limites.
Chapitre 4 :
Dans le quatrime chapitre, est abord lapprentissage par renforcement dans les
systmes non centraliss. Aprs avoir identifi les limites du Q-learning mono-agent, sont
prsentes les approches thoriques et les algorithmes proposs pour tendre le Q-learning
dans le cas des systmes multi-acteurs.
Chapitre 5 :
Le cinquime chapitre est consacr une application de lapproche distribue du Q-

learning pour la gnration de marches rectilignes et priodiques. Les rsultats obtenus avec
une approche centralise et l'approche distribue propose sont compars. Sont tudis
notamment la tolrance aux pannes, linfluence du choix des entres dtat et leffet des
variations de paramtres dapprentissage sur la facilit trouver des marches priodiques.
La marche apparat comme un phnomne mergeant des mouvements individuels

des pattes. Il est mis en vidence que les cycles de marche sont des cycles attracteurs du
processus dynamique non linaire dapprentissage.
Considrant chaque patte du robot comme un agent, nous distinguons le cas o les six
agents signorent de celui o ils prennent leurs dcisions en tenant compte des actions
excutes par les autres. Pour ce dernier cas, une version particulire dalgorithme Q-learning
est propose dans le cadre des systmes multi-acteurs. Puis, est abord le problme despace
daction et dtat continus.
Lapproche distribue de lapprentissage par renforcement avec discrtisation des

espaces continus est mise en oeuvre pour traiter lapprentissage du changement de trajectoire
avec contrle de la posture.
Conclusion Gnrale et perspectives :
Enfin nous rcapitulons les rsultats obtenus et ouvrons des perspectives pour de
futurs travaux.
15
5. La contribution de cette thse
La contribution de ce travail de recherche concerne principalement les points
suivants :
Ltude dune architecture distribue de lapprentissage par renforcement avec

renforcement individualis pour acqurir un comportement global satisfaisant.
Une version simplifie du Q-multiagent o chaque agent, plutt que dignorer

les autres agents, tient compte dans son apprentissage de lexistence dautres
agents constituant un groupe et contribuant la mme tche commune.
Lutilisation des approches prcdentes pour rsoudre, en simulation, le

problme de lapprentissage de la marche, du changement dallure et du
changement de trajectoires avec contrle de la posture pour un robot
hexapode. Les espaces d'tat ou d'action tant dans ce cas continus, il est
procd une discrtisation des espaces avec possibilit d'ajuster les valeurs
d'actions pendant l'apprentissage.
16
Chapitre 1
La marche des insectes
"Ce qui se conoit bien, s'nonce clairement et les mots pour le dire viennent aisment "
"Boileau"
1.1 Introduction
Nous introduisons dans ce chapitre des dfinitions et notions relatives la marche.
Nous prsentons certains rsultats d'tudes biologiques qui ont pour but de comprendre les
principes utiliss par les insectes pour marcher dans diffrents environnements. Ainsi sont
prsentes les rgles que semblent suivre les insectes pour coordonner les pattes, maintenir
lquilibre, et s'adapter au terrain. Diffrents termes tels que le mouvement, le maintien, la
stabilit, la posture, sont utiliss pour dfinir et caractriser la marche dun insecte ou dun
robot hexapode. Nous prcisons ces dfinitions et introduisons la terminologie que nous
emploierons dans la suite de notre travail.
1.2 Dfinitions gnrales
1.2.1. Les insectes
Les insectes appartiennent au groupe des arthropodes et sont dots de trois paires de
pattes. Les insectes sont de taille variable : les plus petits mesurent moins de 0,25 cm. Les
plus grands atteignent la taille de petits mammifres. Par exemple, certains phasmes mesurent
30 cm de long ; une espce de scarabe, le dynaste, dpasse 16 cm et certains papillons
peuvent atteindre 30 cm denvergure.
17
Chapitre 1 : La marche des insectes
Le corps des insectes, de mme que celui des autres arthropodes, est form par un
certain nombre dlments appels segments (ou mtamres) disposs la suite les uns des
autres. Chez tous les insectes, le thorax est form de trois segments distincts. Chaque segment
porte une paire de pattes. La forme des pattes varie en fonction de lutilisation qui en est faite.
Elles peuvent en effet servir la marche, comme chez le hanneton, au saut, comme chez la
sauterelle, la nage, ce qui est le cas du dytique, ou encore au fouissage dans le sol
(courtilire ou taupe-grillon). Elles peuvent galement servir des activits beaucoup plus
spcialises, comme chez labeille, pour la rcolte et le transport du pollen.
Dans tous les cas, la patte est constitue par cinq pices appeles segments. Ces
segments, articuls entre eux, ont reu les noms de hanche (ou coxa), trochanter, fmur,
tibia et tarse (la tarse et les griffes ou parfois les coussinets ne faisant quun). La hanche
assure larticulation de la patte sur le thorax. Chez les insectes de type marcheur les hanches
sont de taille importante dcuplant ainsi la force des pattes. On notera encore que chez
certaines espces le tibia et le tarse peuvent tre souds donnant naissance au tibiotarse ou que
les pattes vont mme jusqu tre atrophies.
Linsecte"phasme", dont le nom provient du grec phasma signifiant "apparition" ou

"fantme", est caractris par sa capacit se confondre avec son milieu (mimtisme par
homotypie). Communment appels "bton du diable" cet insecte vit principalement dans les
rgions chaudes et humides, quatoriales et tropicales.
Les diffrentes parties du phasme

Antennes
Hanche
Thorax
Trochanter
Fmur
Fmur
Patte
Tibia
avant
Tibia
Tarse
Hanche
Patte
Tarse Mdiane
Double
Double griffe griffe
Patte
Les diffrentes parties dune patte arrire
dun insecte Abdomen
Fig. 1. 1 Anatomie externe de linsecte Phasme [Mic 04].
18
Les diffrentes articulations dune patte sont mises en vidence sur la figure 1.2 suivante :
Fig. 1. 2 Diffrentes articulation dune patte[Sim 04].
Aprs avoir prsent quelques notions sur les insectes et leurs anatomies, nous
dfinissons dans la suite la marche qui est un de leurs modes de locomotion.
1.2.2. Le mouvement
Daprs J. Massion [Mas 97], le mouvement est une source de dsquilibre qui change
la gomtrie du corps, et modifie la position de son centre de gravit. Le corps est compos de
segments comme, la tte, le tronc, les membres, ces derniers tant eux mmes composs de
plusieurs segments reliant les articulations. Pour stabiliser le centre de gravit lors du
dplacement dun segment, il faut que dautres segments participent au mouvement.
Le mouvement dun segment perturbe ainsi la position des autres segments. On

distingue deux origines du mouvement : Un mouvement passif ou impos qui est produit par
une force externe (pousse, charge additionnelle) et un mouvement actif qui est associ une
commande exerce par le systme nerveux.
Parmi les mouvements actifs on discerne les mouvements volontaires, les mouvements
rflexes et les mouvements automatiques :
Les mouvements volontaires sont des mouvements qui apparaissent sans stimulus
extrieur apparent, sur la base dune consigne interne.
Les mouvements rflexes caractrisent une raction motrice reproductible, dclenche

par un ou plusieurs stimuli sensoriels bien identifis. Ils sont excuts par l'intermdiaire de
circuits nerveux prdtermins gntiquement. Les mouvements rflexes sont des
mouvements actifs, qui peuvent tre prrgls sous leffet de la commande nerveuse
centrale lors du mouvement volontaire.
Les mouvements automatiques : le terme de mouvement automatique comme celui de

rflexe, nest pas toujours bien dfini. Le mouvement automatique est un mouvement dont le
droulement est strotyp et reproductible, et qui est gnr par un rseau nerveux de faon
inne ou suite un apprentissage.
19
1.2.3. Le maintien
Le maintien de la position d'un segment traduit la stabilisation de ce segment une

valeur de rfrence qui est souvent dfinie comme une position relative par rapport un autre
segment corporel.
1.2.4. La stabilit
En ngligeant tout phnomne d'adhsion ou d'accrochage entre les pieds et le sol, la

stabilit dpend de la position relative du centre de gravit par rapport aux points de contact
avec le sol qui dfinissent le polygone de sustentation. La stabilit est obtenue si la verticale
passant par le centre de gravit du corps traverse le polygone de sustentation. Nous pouvons
distinguer trois types de stabilit [Hug 99].
La stabilit quasi-statique : dans ce cas la verticale passant par le centre de gravit

passe l'intrieur du polygone de sustentation.
La stabilit quasi-dynamique : elle est caractrise par des phases o la verticale
passant par le centre de gravit se trouve la limite du polygone de sustentation.
La stabilit dynamique : elle est caractrise par des phases o il ny a plus que deux
contacts avec le sol, on ne peut plus former de polygone de sustentation.
1.2.5. La posture
La posture est dfinie par la position des diffrents segments un moment donn dans
lenvironnement. La posture assure essentiellement deux fonctions [Mas 97]:
Une fonction antigravitaire : elle consiste s'opposer la force de pesanteur par la

disposition des segments.
Une fonction d'interface avec le monde extrieur pour la perception et l'action.
J.Porta, propose un modle de la posture des robots marcheurs tels que des hexapodes
[Cel 98a]. Ce modle sappuie sur la notion de polygone de configuration :
Le polygone de configuration est le polygone dont les sommets correspondent aux

extrmits qui ont pour rle de supporter le corps (les pieds, ou tarses chez les insectes). Ce
nest pas ncessairement un polygone plan car le sol peut tre irrgulier. Le polygone de
configuration diffre du polygone de sustentation qui relie les pieds supportant effectivement
la structure. La posture est lensemble des positions des pieds par rapport au corps. Une
posture est donc dfinie par la forme du polygone de configuration et la position de celui-ci
par rapport au corps. Un mme polygone de configuration peut-tre dplac relativement au
corps dfinissant ainsi une nouvelle posture. Deux postures sont compatibles si elles
admettent le mme polygone de configuration.
Le contrle de la posture consiste alors dplacer le corps par rapport aux points de
contact au sol de faon amliorer la stabilit et la mobilit du robot marcheur [Cel 98a].
20
La posture joue un rle primordial dans lorganisation des mouvements; Les

ajustements posturaux prsentent trois finalits :
La minimisation des perturbations de la posture et de lquilibre lies au mouvement.
La prparation posturale au mouvement.

Lassistance au mouvement en terme de force ou de vitesse. Le concept de capacit
posturo-cintique traduit la capacit qu'offre le systme postural d'assister le
mouvement en terme de vitesse ou de force [Mas 97].
L'quilibre postural implique defficaces stratgies de coordination sensori-motrice

selon les nombreux degrs de libert pour stabiliser le centre de la masse pendant les
perturbations inattendues ou volontaires de la stabilit.
1.2.6. La marche
La marche est lun des principaux moyens utiliss pour assurer le dplacement de
lensemble du corps vers un point prcis de lespace, la marche doit rpondre simultanment
plusieurs exigences.
Elle doit, en premier lieu propulser le corps selon un axe principal, c'est dire vers
l'avant ou vers l'arrire. Cette propulsion doit pouvoir tre module en vitesse, de
manire rpondre aux exigences lies la motivation et l'environnement.
Le dplacement du corps au cours de la marche doit pouvoir tre orient vers un but (il
faut pouvoir incurver la trajectoire droite ou gauche pour se diriger vers ce but).
Enfin, au cours de la marche, d'autres fonctions motrices doivent tre assumes

simultanment comme le maintien de l'quilibre, et le maintien de l'orientation de
certains segments comme la tte le tronc ou les mouvements des membres.
Le cycle de marche (dune jambe ou dune patte) dfinit lensemble des vnements
articulaires et musculaires qui se produisent entre deux appuis successifs au sol. Ce cycle
comprend deux phases, la phase de balancement et la phase dappui. Lors dun
dplacement vers lavant la phase de balancement ou "proaction" (return stroke) est la
phase pendant laquelle le membre se dplace dans lair vers l'avant du corps et la phase
dappui ou "retraction" (power stroke) correspond la phase pendant laquelle le membre
est en contact avec le sol puis se dplace vers l'arrire du corps, cette phase se dcompose en
deux temps (un temps de contact avec le sol et le temps de pousse, c'est--dire la propulsion
du corps vers lavant).
Les points de transition dune phase lautre sappellent PAE et PPE.
PAE (Position Antrieur Extrme) : est la position limite vers lavant, partir de
laquelle la patte commence la phase de rtraction.
PPE (Position Postrieur Extrme) : est la position limite vers larrire, o la patte
commence la phase de proaction.
21
Appui (rtraction)
A0
Balancement
(proaction)
B0
Fig. 1. 3 Cycle locomoteur. A0 (PAE) : valeur initiale de lappui. B0 (PPE) : valeur initiale
de balancement
Le temps total de la proaction et de la rtraction, calcul a partir du dbut de proaction,

Bssler 1983, repris par M.J. Randall [Ran 99] s'appelle dure du cycle ou dure dun pas.
Un retard peut tre dfinit entre nimporte qu'elles pattes. Ce retard est le temps qui spare le
dbut de proaction dune patte du dbut de proaction de la patte pour laquelle le retard est
dfini [Ran 99]. La phase entre deux pattes est le retard entre deux pattes, divis par la dure
du pas de la premire patte. Lamplitude dun pas dune patte est la distance entre PAE et PPE
mesure paralllement laxe longitudinale du corps.
1.2.7. La Locomotion
La locomotion dsigne lactivit de dplacement de lensemble du corps vers un point

prcis de lespace. Chez les insectes on distingue plusieurs types de locomotion : la marche, le
saut, le vol et ventuellement la nage. On confond gnralement lactivit locomotrice, avec
celle de la marche lorsquil ny a pas ambigut sur le mode de locomotion utilis. La
locomotion sur un substrat solide doit prendre en compte la gravit. Linsecte doit soutenir
son corps par un nombre variable de points dappui et utiliser ces appuis pour exercer une
force sur le substrat, qui est lorigine du dplacement (contrle de posture). Donc il y a trois
paramtres fondamentaux dans la locomotion sur une surface rigide :
la gravit
la pousse ralise par linsecte.
le frottement qui dtermine si linsecte glisse ou possde un point dappui.
1.2.8. Evitement des obstacles et orientation
Face un obstacle, il y a trois comportements possibles : le premier est de monter sur

l'obstacle, le deuxime est de faire marche arrire et le troisime est de le contourner. Pour
changer dorientation cinq mcanismes sont utiliss par les insectes [Ran 99] :
Le premier mcanisme est de faire varier la frquence des pas situes droite et
gauche, tandis que le maintien de la coordination est assur.
Dans le deuxime mcanisme les pattes situes dun ct de l'insecte avancent tandis
que simultanment les pattes situes de lautre ct reculent. Ce mouvement provoque
une rotation sur place.
22
Troisime mcanisme : certains insectes utilisent une des pattes du milieu pour
pousser sur le substrat dans des directions diffrentes (spcialement les cafards qui
peuvent changer ainsi rapidement dorientation pendant une fuite) [Cam 88], [Bee91].
Quatrime mcanisme : les pattes situes des deux ctes de l'insecte sont dcouples,
les pattes situes l'extrieur de la courbe marchant avec un frquence plus leve.
Cinquime mcanisme : alors que la coordination entre les pattes situes de part et
dautre de linsecte est maintenue, lamplitude des pas des pattes qui se trouvent
l'extrieur de la courbe est augmente tandis que lamplitude des pas des pattes se
trouvant l'intrieur de la courbe est diminue provoquant ainsi une marche incurve
[Cru 90], [Cru 90] [Cym 98].
Les mcanismes un et quatre sont observs chez les insectes phasmes D. Graham, [Gra
85]. D'aprs U. Bssler [Bs 85], la rotation ce fait gnralement par le changement
d'amplitude des pas, plutt que par le changement de frquence des pas, et d'aprs J.P. Jander
[Jan 85], le comportement de rotation dpend des efforts exercs sur les pattes.
1.2.9. Marche arrire
D. Graham [Gra 85] a tudi la marche en arrire de l'insecte phasme, et il a remarqu

que la marche en arrire peut tre provoque lorsque l'antenne heurte un obstacle ; pendant la
marche arrire la synchronisation des pattes postrieures et antrieures est inverse et la
marche n'est pas aussi bien coordonne. De telles marches peuvent tre relativement durables
et rgulires. Pendant la phase de pousse , la patte se dplace de l'arrire vers l'avant et
vice versa pour la phase de balancement, bien que les pas ne soient pas aussi rguliers que
pour la marche vers l'avant. Il est clair d'aprs les expriences excutes sur la marche en
arrire des insectes, que la commande neuronale de la marche vers l'avant ou vers l'arrire de
l'insecte phasme n'est pas entirement symtrique.
1.2.10. Changement de vitesse
La vitesse de la locomotion est directement lie la force produite par la rtraction

[Gra 85] et la vitesse moyenne de la rtraction d'une patte est gale la vitesse vers l'avant de
la locomotion. D'aprs H. Cruse [Cru 90] et D. Graham [Gra 85], la vitesse est assez constante
pendant toute la proaction.
1.2.11. Navigation
La navigation de l'insecte est base sur un procd d'intgration de chemin, par lequel
les informations sur l'environnement et sur la distance de dplacement sont combines pour
calculer la position. L'intgration de chemin a t postule pour tre le mcanisme principal
qui permet aux insectes de retrouver leur chemin vers le nid [Lab 02]. Pour employer ce
mcanisme de navigation, les deux informations de distance et des information directionnelles
doivent tre disponibles [Lab 02]. Pour mesurer et intgrer les composants angulaires et
linaires des mouvements l'insecte se base sur la position du soleil et la lumire polarise du
23
ciel [Lam 00]. Par exemple, les abeilles se basent sur le flux optique reu pendant le vol [Lab
02]. L'intgration de chemin exige une mmoire, qui permet l'insecte de mmoriser pendant
la navigation une valuation courante de la direction et de la distance par rapport au nid. Une
telle mmoire est normalement de courte dure, d au processus de mise jour, mais elle peut
persister pendant plusieurs heures si l'insecte est confin [Lam 00] .
Les fourmis emploient des marqueurs chimiques pour crer des chemins, mais
lapprentissage de routes familires constitue galement une stratgie efficace : la fourmi
'Gigantiops destructor' fourrage en solitaire et emploie de telles routes lors des sorties hors du
nid [Mac 04]. Le dveloppement des yeux chez cette espce lui permet d'utiliser des repres
visuels dans le milieu naturel pour le guidage le long des routes familires La forme dune
route familire est influence par la position des objets dans lenvironnement et par la rponse
de linsecte ces objets [Mac 04].
1.3 Les mcanismes de la marche des insectes
1.3.1. Les diffrentes marches des insectes
Nous prsentons en figure 1.4, quelques chronogrammes des marches observes par
Wilson chez les insectes, repris par C. Ferrell [Fer 93], et M.J. Randall [Ran 99]. Dans la
marche tripode il y a toujours trois pattes en contact avec le sol, cette marche est utilise dans
le cas o linsecte veut marcher vite et avec peu de charge. Dans la marche ttrapode, il y a
toujours quatre pattes en contact avec le sol et cette marche est utilise dans le cas o linsecte
veut marcher lentement avec une charge importante.
D3
D2
Marche longue D1
G3
G2
G1
D3
Marche D2 G3 D1
Ttrapode D1
G3
G2 G2 D2
G1
G1 D3
D3
D2
Marche D1
Tripode G3
G2
G1
Proaction Rtraction
Fig. 1. 4 Quelques marches observes sur les insectes par Wilson 1966, repris par M.J.
Randall [Ran 99] .
24
Wilson 1966, repris par M.J. Randall [Ran 99] a tabli plusieurs rgles qui permettent
de caractriser les marches gnralement observes chez les insectes sur une surface plane :
Les proactions se propagent de larrire vers lavant. Aucune patte ne commence une
phase de proaction avant que les pattes voisines soient en phase dappui de la
rtraction .
Les pattes opposes par rapport laxe longitudinal (pattes controlatrales) bougent en
phase alterne (il ny a pas de proactions simultanes)
La dure de la proaction peut tre considre comme constante.
Pour augmenter la vitesse de dplacement la dure de la rtraction diminue, et donc la

frquence de pas augmente.
Lintervalle de temps qui spare un pas de la patte postrieure et un pas de la patte du

milieu est gal lintervalle de temps qui spare un pas de la patte du milieu et un pas
de la patte antrieure. Tandis que lintervalle entre un pas de la patte antrieur et un
pas de la patte postrieure varie en inverse par rapport la frquence.
Cruse a montr que les variations de la valeur de la position antrieur extrme (PAE)
et la position postrieure extrme (PPE) change en fonction du chemin et du plan sur le quel
l'insecte marche. Les valeurs de PPE et PAE peuvent changer d'un pas l'autre [Gra 85]. La
valeur typique de PAE et PPE en fonction du terrain pour diffrentes sujets sont ports dans le
tableau 1.1 [Ran 99] :
Marche le long dun Marche dans Marche avec Marches le long

chemin rectiligne un plan recherche dun chemin
horizontal horizontal dappui rectiligne vertical
Patte PAE 11(3) 17(4) 14(3) 18(9)
antrieure PPE -7(4) 2(8) -5(3) -7(5)
Patte PAE -17(2) -16(4) -11(4) -11(6)
moyenne PPE -35(4) -34(4) -31(4) -33(12)
patte de PAE -40(3) -39(3) -34(4) -34(12)
derrire PPE -58(4) -58(4) -52(5) -56(15)
Tableau. 1. 1 Mesures de PAE et PPE en mm, effectue sur une population minimale de 63
sujets de la mme espce [Cru 76a],[Cru 76b]. Les valeurs de PAE et de PPE sont variables
en fonction du type de patte et de l'environnement.
1.3.2. Modles de coordination
Plusieurs chercheurs biologistes ont remarqu que le contrle de la marche de linsecte

phasme nest pas centralis, mais se dcompose en plusieurs sous systmes indpendants et
connects entre eux (pour chaque patte il y a un rseau de neurones), [Cru 76a], [Cru 76b],
[Cam 88], [Bee 91], [Dea 91], [Ran 99].
25
Ainsi K. Pearson en 1976, repris par C. Ferrell [Fer 93], et ses collaborateurs ont
tudi les systmes neuronaux qui commandent la marche des insectes, et ils ont dvelopp
des modles pour expliquer la commande individuelle d'une patte ainsi que la coordination
entre les pattes. Les marches trouves sont conformes au modle descriptif de Wilson. Nous
prsentons sur la figure 1.5 le modle de la commande individuelle d'une patte et la figure 1.6
reprsente diffrentes marches associes aux changements de frquence entre les oscillateurs
locaux des pattes.
Signal de retardement du
Signal charg dajuster la
balancement
force de la pousse
3
Excitation Pousse Balancement

rgulire 2
1
Inhibition
Excitation Moto neurones Moto neurones

extenseurs flchisseurs
Fig. 1. 5 Modle du contrle d'une patte propos par Pearson, repris par C. Ferrell [Fer 93].
1 : inhibition de la rtraction, 2 : excitation de la proaction, 3 : point de dclanchement. Un
oscillateur fournit le rythme de progression qui dclenche une commande de balancement
prs de la crte de son cycle et inhibe la commande de pousse. Une entre d'excitation
rgulire maintient le circuit de pousse actif toutes les fois qu'elle n'est pas empche par la
commande d'oscillation.
Diffrence de phase = (retard / priode) x 360
Avant
Milieu
Arrire
Marche longue Marche Ttrapode Marche tripode

Diffrence de phase = 60 Diffrence de phase = 120 Diffrence de phase = 180
Fig. 1. 6 Les diffrentes marches associes aux changements de frquence des oscillateurs
locaux des pattes, proposes par Pearson, repris par C. Ferrell [Fer 93].
26
Pour expliquer les diffrentes marches obtenues, Pearson dcrit trois mcanismes de
coordination entres les pattes :
1- Accouplement central direct des gnrateurs de rythme dans chaque patte par le
systme nerveux.
2- Accouplement indirect des gnrateurs de rythme : les mouvements de n'importe
quelle patte modifient linfluence des capteurs sensoriels sur les gnrateurs de rythme des
autres pattes.
3- Influences directes des capteurs sensoriels d'une patte sur les gnrateurs de rythme
des autres pattes.
Pearson propose alors un modle dinhibition des mouvements des pattes (proaction
ou rtraction), si ce mouvement provoque une collision entre les pattes ou linstabilit du
robot. Cette inhibition se fait dune faon mutuelle entre les pattes adjacentes comme
reprsent par la figure 1.7 suivante [Ran 99] :
G3 D3
G2 D2
G1 D1
Centre d'excitation
Fig. 1. 7 Modle dinhibition mutuelle des pattes adjacentes de Pearson et repris par M.J.
Randall [Ran 99].
H. Cruse et d'autres chercheurs [Cru 76a, 79, 80b, 81, 90a], [Ran 99], [Fer 93] ont
tudi la locomotion. H. Cruse a tudi la locomotion de plusieurs insectes et a dvelopp
deux modles de la locomotion de la marche du phasme. Le premier est un modle de
commande d'une patte individuelle (Figure 1.8) mettant en vidence plusieurs boucles de
contre raction imbriques (de vitesse, de charge, de position) ; le deuxime est un modle de
coordination entre les pattes. Les rsultats obtenus sont conformes aux observations de
Wilson.
PAE + + + Muscles
PEP -
- -
vitesse
charge
Position
Fig. 1. 8 Circuit de contrle d'une patte propos par Cruse, repris par C. Ferrell [Fer 93].
27
Daprs H. Cruse la coordination des mouvements des pattes [Cru 80a], rsulte des
interactions locales de leurs systmes de commande, l'interaction implique que les positions
extrmes de la patte dpendent des positions du point distal (cest--dire le point de contact
avec le sol) et des tats d'autres pattes qui sont les "voisins" proches. Ainsi, une patte peut
seulement tre influence par la patte antrieure ou postrieure ipsilaterale (i.e. du mme ct)
si ces pattes existent et par la patte controlatrale symtrique (i.e. oppos par rapport laxe
longitudinal) ; le mouvement de chaque patte peut ainsi tre influenc par deux ou trois pattes.
Le diagramme de la figure 1.9, prcise les influences mutuelles entre pattes.
2,3,5
G1 D1
1,2,5 3,4 1,2,5 3,4

5,6 5,6
2,5
G2 D2
1,2,5 3,4 1,2,5 3,4

5,6 5,6
2,3
G3 D3
Fig. 1. 9 Diagramme de coordination entre les pattes, propos par H. Cruse et repris par C.
Ferrell [Fer 93].
H. Cruse a propos six rgles qui rgissent les effets dinhibition ou dexcitation dune
patte sur une autre :
1- La proaction dune patte inhibe la proaction
2- Le dbut de rtraction dune patte excite le dbut de la proaction
3- La position caudale dune patte, excite le dbut de la proaction
4- La position dune patte influence la position atteinte en fin de la proaction
5a- La rsistance rencontre augmente leffort dvelopp ( coactivation )
5b- Une augmentation de charge prolonge la rtraction
6- Action rflexe provoque lorsque deux pieds (tarses pour les insectes) rentrent en contact.
1.4 Tableau rcapitulatif

Nous avons dress un tableau rcapitulatif des travaux mens sur la marche des insectes
(tableau.1.2) et considrs dans ce chapitre.
28
Chercheurs Travaux effectus sur la marche des insectes

Wilson Proposition d'un modle de la marche de l'insecte, et de rgles gnrales sur
[ Wil 66] la coordination entre les pattes de l'insecte.
Delcomyn et al. Etude des mouvements des segments d'une patte d'insecte (ex. cafard)
[Del 71], [Del 96]
Mise en vidence de l'importance des informations sensorielles pendant une
marche rapide (par rapport une marche lente).
K. Pearson Etude de la locomotion chez les cafards
[Pea 76]
Proposition de modles de contrleurs neuronaux : un contrleur individuel
pour commander chaque patte et un contrleur pour la coordination entre les
pattes.
La commande est base sur les rgles dveloppes par Wilson
H. Cruse Etude de la locomotion par exemple de l'insecte phasme.
[Cru 76], [Cru 98]
Proposition de deux modles de commande de la marche (un pour le contrle
individuel, l'autre pour la coordination entre les pattes).
Description de six mcanismes de coordination des pattes de l'insecte
phasme.
Etude de la variation de PPE et PAE sur des supports diffrentes (plan
horizontal, plan vertical, ligne verticale, ligne horizontale).
Application des diffrents mcanismes sur des robots hexapodes o les pattes
ont la forme des pattes de l'insecte phasme.
La commande est base sur les rgles dveloppes par Wilson
D. Graham Etude de la marche des insectes et diverses observations comme par exemple
[Gra 77], [Gra 85] : lorsque l'insecte perd une ou deux pattes il y a adaptation des autres pattes a
la nouvelle configuration; la position de la patte influence la transition entre
phases de proaction et de rtraction chez l'insecte phasme.
U. Bssler Etude des mouvements des segments d'une patte d'insecte. Il conclut que le
[Bs 83], [Bs 98] Carausius (cafard) est idal pour tudi la marche.
J.A. Dean Simulation de quatre des mcanismes parmi les six, dvelopps par H.Cruse.
[Dea 85], [Dea 92] avec un modle cinmatique d'une patte.
Mise en vidence que ces mcanismes expliquent les marches chez l'insecte
phasme.
Mis en vidence que les informations sensorielles peuvent influencer le
mouvement et la position de la patte pendant la marche.
R.D. Beer Application de trois mcanismes parmi les six (H. Cruse), sur un robot
[Bee 91], [Bee 93] hexapode o chaque patte a deux degrs de libert pour reproduire des
marches observes chez l'insecte phasme.
Etude de la marche d'un robot hexapode.
Etude de la marche et de la structure de l'insecte cafard, dveloppement d'un
simulateur de la marche de l'insecte avec des contrleur neuronaux.
C. Ferrell Reprise des travaux sur les insectes et en particulier ceux de H.Cruse et
[Fer 93] application aux robots hexapodes.
M.J. Randall Reprise des travaux sur les insectes pour construire un robot hexapode
[Ran 99]
Etude des composantes de la marche (posture, proaction, rtraction,..) et
tude des paramtres de commande pour assurer un mouvement correct
d'une patte (PPE, PEA, la vitesse de rtraction ..) et la coordination entre
pattes (retard entre deux pattes...)
V. Hug Travail sur la commande de la marche des robots quadripodes et hexapodes,
[Hug 99] dfinitions gnrales sur diffrents types de stabilit : stabilit statique, quasi-
statique, dynamique.
Tableau. 1. 2 Diffrents travaux sur la marche des insectes.
29
1.5 Conclusion
Nous avons prsent dans ce chapitre des rsultats importants obtenus par des tudes
effectues sur la marche des insectes. Nous avons donn diffrentes dfinitions relatives la
locomotion, le mouvement, la posture, la stabilit, la marche, et la navigation.
Nous remarquons que la marche dun insecte peut-tre trs complique, car elle met en
jeu des fonctions de locomotion, de contrle de la posture, de maintien de lquilibre et
dpend de facteurs tels que la charge transporte ou la nature du terrain.
Afin de construire un systme de commande de la marche dun robot hexapode, des

questions se posent:
1. Quelle doit tre la complexit du modle mcanique de chaque patte ?
2. Est-il possible de sparer les diffrentes fonctions (maintien de lquilibre, contrle de la

posture, commande du cycle locomoteur, navigation ) et comment ?
3. Pour chaque fonction quelle architecture de commande retenir ?
4. Quels types de couplage doivent tre tablis entre ces fonctions ?
A partir des rsultats connus sur les insectes, des quipes de recherches ont investigu
plusieurs voies pour rpondre aux questions prcdentes. Chaque quipe a bas ses travaux
sur un modle spcifique de robot hexapode (en particulier modle mcanique) mais tous ces
modles tirent leur inspiration des principes de la marche des insectes.
Par exemple, dans la rapport de C. Ferrell [Fer 93], nous trouvons une tude sur
l'implmentation d'une locomotion robuste, flexible sur un robot hexapode, sur la base des
observations de la locomotion et des stratgies utilises par les insectes pour la navigation sur
un terrain naturel.
Nous dcrivons dans le chapitre suivant, diffrents modles de robot hexapode et

certaines architectures de commande.
30
Chapitre 2
Diffrents modles de robots

marcheurs six pattes
" Si vous cherchez la source du fleuve Yosthino, vous la trouverez dans les gouttes d'eau sur
la mousse. " Proverbe Japonais
2.1 Introduction
Aprs avoir prsent les principes de la marche des insectes, nous abordons dans ce
chapitre le passage de la biologie (insecte) la robotique, c'est--dire la conception des robots
marcheurs six pattes [Cla 01]. Plusieurs voies de recherche ont t explores, selon le choix
de la structure mcanique du robot et la nature des modles utiliss pour la commande. Aprs
une prsentation de ralisations connues dans le monde des robots hexapodes, nous dcrivons
quelques modles de simulation logiques, gomtriques, cinmatiques et dynamiques avec
une analyse des avantages et des limites des diffrents modles.
2.2 Diffrentes ralisations de robots hexapodes

Il existe dans des laboratoires diverses ralisations de robots hexapodes construits pour
des applications ou des objectifs propres chaque quipe. Nous en prsentons quelques
exemples connus pour illustrer la varit des approches.
Le robot hexapode Sir Arthur propos par F. Kirchner [Kir 98] est compos de trois
segments, avec deux pattes pour chaque segment. Les articulations des segments entre eux
prsentent deux degrs de libert.
31
Chapitre 2 : Diffrents modles de robots marcheurs six pattes
Les deux degrs peuvent tre commands pour lever ou faire pivoter le segment avant
et le segment arrire du robot. Les pattes sont pilotes par deux servomoteurs, les axes des
moteurs formant un angle de 90. Chaque patte peut faire quatre mouvements (vers : le haut,
le bas, l avant, et larrire). La combinaison de ses quatre mouvements donne les deux
mouvements principaux la proaction et la rtraction de la patte. Une vue du robot est fournie
par la figure 2.1.
Segments
X X X
X X X
Fig. 2. 1 Robot hexapode Sir Arthur [Kir 98].
Dans les travaux de Cynthia Ferrell [Fer 93], nous trouvons un robot hexapode
'Hannibal', pour lequel chaque patte possde trois degrs de libert (figure 2.2).
Position et vitessese Position et vitesse de

de balancement propagation
P1, V1 P3, V3
Force horizontale
Force verticale
F2
F1
Position et Vitesse
de pousser
P2, V2
Axe de pousser
Axe de
propagation
Axe de
balancement
Fig. 2. 2 Robot 'Hannibal' avec un modle de la patte et les capteurs [Fer 93]. F1 : capteur
de la force verticale externe applique sur la patte, F2 : capteur de la force horizontale
externe applique sur la patte. P1, V1 : capteur de position et de vitesse du mouvement de
rotation autour de l'articulation 1 (degr de libert 1). P2, V2 : capteur de position et de
vitesse du mouvement de rotation autour de l'articulation 2(degr de libert 2). P3, V3 :
capteur de position et de vitesse du mouvement autour de l'articulation 3 (degr de libert 3).
32
Lquipe de recherche du laboratoire Biologically inspired, robotic laboratory de

la Case Western Reserve University aux Etats Unis et dont le directeur est le professeur
R.D. Quinn travaille en collaboration avec des biologistes comme R.D. Beer, H.J. Chiel, et
R.E. Ritzmann. Cette quipe a dvelopp plusieurs types de robot hexapode se diffrenciant
soit par la forme soit par le nombre de degrs de libert soit par la technologie mcanique
utilise. Le premier robot hexapode R-I, a t fabriqu pour tudier le contrle de la
locomotion base de rseaux de neurones [Bee 93]. Chaque patte de ce robot a deux degrs
de libert. La marche de ce robot est inspire de la marche des insectes, et applique les lois
tablies par Wilson en 1966, repris par M.J. Randall [Ran 99], et R.D. Quinn [Qui 98], [Qui
01], [Qui 03], pour voluer sur une surface plane. Ce robot est reprsent en figure 2.3.
Fig. 2. 3 Robot hexapode R-I. [Bee 93].
Le deuxime robot hexapode est R-II. Ce robot a une structure similaire l'insecte
phasme. Chaque patte de ce robot a trois degrs de liberts. La stratgie et les lois de la
marche sont aussi inspires de la marche de l'insecte comme le robot R-I. Le robot R-II a, en
plus de R-I, la facult de marcher en arrire, de tourner sur place, de se dplacer latralement
et dvoluer sur une surface non plane [Esp 93], [Esp 96], [Nel 97].
Le robot R-II est reprsent par la figure 2.4 suivante :
Fig. 2. 4 Robot hexapode R-II [Esp 96].
33
Le troisime robot, R-III, a la forme d'un cafard. Ce robot a 36 degrs de libert, 5

degrs pour chaque patte constitue de trois segments (coxa, fmur, tibia) et six degrs pour le
corps. Les pattes du milieu portent le corps lorsque le robot veut escalader un obstacle. Une
version simplifie du robot prsentant seulement 24 degrs de libert, est reprsente en
figure 2.5.
Fig. 2. 5 Robot hexapode R-III [Nel 97].
A cause de diffrences fonctionnelles, les pattes avant ont 5 degrs de libert, les
pattes des milieux 4, et les pattes arrire 3. Lallure d'une patte avant et reprsente par la
figure 2.6 suivante :
Fig. 2. 6 Prototype d'une patte d'avant du robot R-III [Nel 97].
Les pattes du robot sont fabriques base de vrins pneumatiques. Le prototype a t

construit pour faire des simulations de stabilit, de dplacement et d'adaptation aux
changements de l'environnement.
Le quatrime robot R-IV, a t conu pour que la locomotion du robot se fasse en

conomisant lnergie. La cinmatique de ses pattes est identique celle du robot R-III, et les
pattes de ce robot ont des articulations prsentant une rigidit passive qui peut tre rgle pour
34
profiter du stockage d'nergie gagn pendant un cycle de mouvement des pattes [Qui 01]. Le
robot R-IV est reprsent par la figure 2.7 suivante :
Fig. 2. 7 Modle du robot R-IV [Qui 01].
D.A. Kingsley [Kin 03] a conu un robot hexapode, inspir de linsecte (cafard)
comme le robot R-III et R-IV. Il porte le nom R-V (ou Ajax). Ce robot a 24 degrs de
liberts, 5 degrs de libert pour les deux pattes avant, 4 degrs de libert pour les pattes du
milieu et trois degrs de libert pour les pattes de derrire. Les actionneurs sont des muscles
artificiels. En figure 2.8, est reprsente une patte avant du robot R-V:
Corps
Coxa
Joint entre
coxa-
fmur
Fmur
Joint entre
Fmur-
Tibia Tibia
Fig. 2. 8 Modle d'une patte de l'avant du robot R-V [Kin 03].
Les pattes avant sont relativement petites et peu puissantes, mais trs adroites, elles
peuvent manipuler efficacement des objets ou voluer dans des terrains difficiles. Les pattes
du milieu sont plus grandes et elles jouent un rle trs important dappui et de leve du corps
pour les manoeuvres de rotation et de franchissement dobstacles. Comme le cafard, le robot
R-V utilise principalement ses pattes arrires (les plus puissantes), pour la locomotion. Les
travaux de R. Altendorfer et al., sont bass aussi sur une inspiration biologique du modle du
robot hexapode [Alt 01a], [Alt 01b], avec une tude dynamique du mouvement du robot.
Certains travaux de recherche rcents ont pour but de construire des robots hexapodes
de la taille d'un insecte. Par exemple les travaux mens au laboratoire d'automatique de
35
Besanon ont pour but d'intgrer dans un volume de 2 3 cm3 non seulement les fonctions
locomotrices mais aussi les microcapteurs et la connectique ncessaire la transmission de
l'information [Lab 04].
2.3 Modles mathmatiques du robot hexapode

Parmi les robots marcheurs, les robots hexapodes sont les plus tudis et les plus
expriments par les chercheurs parce que la structure du robot hexapode ralise un
compromis intressant entre cot de ralisation, complexit de commande (en particulier du
point de vue de la stabilit), et adaptation aux terrains difficiles.
Dans la nature, les insectes existent sous plusieurs formes, qui ont donn des ides
pour construire des robots hexapodes. Ceux-ci se distinguent par leur conception mcanique
(nombre de degrs de libert, formes des pattes et du corps, types dactionneurs et
caractristiques dimensionnelles) et aussi par leurs systmes de perception de l'environnement
et de commande. En fonction des applications vises, des modles plus ou moins compliqus
de robots hexapodes ont t dvelopps, parmi lesquels nous trouvons des modles logiques
[Tou 92], [Joh 95], et des modles gomtriques [Sar 99], [Nel 98], [Por 98], [Ran 99].
2.3.1. Modles logiques

Les modles logiques sont construits en considrant des espaces d'tat et d'action
discrets. Les diffrents tats codent les positions des segments des pattes et les actions
correspondent aux mouvements effectus pour passer d'un tat un autre. Diffrents modles
logiques dhexapode sont runis dans le tableau 2.1.
Ces modles sont utiliss pour tudier les mcanismes de coordination entre les pattes
pour apprendre soit marcher [Tou 92], [Joh 94], [Joh 95], [Por 98], soit viter des
obstacles [Joh 95], soit atteindre un but fix dans lenvironnement [Svi 01].
Mais lutilisation de ces modles logiques sont limits ltude de la marche sur un
sol plan, et ne tiennent pas compte des irrgularits du terrain. Dautre part, le nombre dtats
et dactions augmente rapidement lorsque, comme dans le modle de Kirchner, la
quantification de lespace devient plus fine.
Modles Hexapode Etats dune patte Action s dune patte

Nb Nb Nb Nature Nb Type
tats actions
C. Touzet [Tou 92] 4096 4096 4 en haut, en bas, 4 monter, descendre
en avant, en arrire avancer, reculer
A. Johannet [Joh 95] 64 64 2 contact au sol ou non 2 proaction
(tat capteur) rtraction
Porta [Por 98] 4096 64 4 en haut, en bas, 2 proaction
en avant, en arrire rtraction
F. Kirchner [Kir 97] 1012 4096 100 10 positions par 4 monter, descendre
segment avancer, reculer
Tableau. 2. 1 Diffrentes modles logiques de robot hexapode.
36
2.3.2. Modles gomtriques

Dans le robot propos par A.L. Torres [Tor 96], [Pra 96], chaque patte a trois degrs
de liberts, l'angle de genou k , les angles de rotation de hanche h1, h2.. Nous remarquons
que les trois degrs de libert de chaque patte ouvrent des possibilits de mouvements
supplmentaires par rapport, par exemple, au robot Sir Arthur (figure 2.1). Le modle est
reprsent par la figure 2.9 suivante :
z
y
o
x
P
h2 L
h1
z k
y
x A
Fig. 2. 9 Modle gomtrique dune patte. Chaque patte trois degr de liberts; k l'angle
de genou, h1, h2. angle de rotation de hanche. L : longueur d'une patte.
M.J. Randall [Ran 99], a propos le modle gomtrique dun robot hexapode
reprsent par la figure 2.10 suivante :
z2
Repre fixe z Centre
de gravit
x2 O2
R Arrire
y2
y
G6 G D1
z1
r (s) x1
G5
D2
x y1
G4 (s) Point s D3
Avant
Repre larticulation entre le

corps et la -patte
Fig. 2. 10 Modle gomtrique du robot hexapode. R : position de centre de gravit par

rapport au repre fixe (O2,x2,y2,z2). r(s) : position del'paule de la patte s dans le
repre(G,x,y,z). (s) : position du point de contact avec le sol de la patte s dans le
repre(O1,x1,y1,z1).
37
Les mouvements possibles pour une patte de ce robot sont reprsents sur la figure 2.11.

Z Fmur
l2

Coxa l3
z1
x1
y1 O1
Tibia
l1
Fig. 2. 11 Modle gomtrique d'une patte. Les angles de rotations autour des axes des
articulations sont respectivement (, , ). Les angles qui dcrivent l'orientation d'une
patte par rapport au repre(O1,x1,y1,z1) li au corps sont respectivement (, ).
Chaque patte a trois degrs de libert (, , ). L'orientation de la patte par rapport au

corps est spcifi par les deux angles (, ), qui sont fixes. Les limitations des angles de
rotation (, , ), sont :
: limite entre 75 ; : limite entre 75 : : limite 135.
Le corps de ce robot a six degrs de libert trois de translation (gauche droit, avant et
arrire, en haut et en bas) et trois de rotation par rapport au repre O2 (Rx2, Ry2, Rz2). Chaque
patte a trois degrs de libert. Donc le robot a globalement 24 degrs de libert.
Les coordonnes du Point s dans le repre (O1,x1,y1,z1) sont donnes par :
Px = (cos( ) cos( ) cos( ) sin ( ) sin ( )) [l 2 cos( ) + l 3 cos( + ) + l1 ] + sin ( ) sin ( ) [l 2 sin ( ) + l 3 sin ( + )]
3. 1
Py = (sin ( ) cos( ) + cos( ) cos( ) sin ( )) [l2 cos( ) + l3 cos( + ) + l1 ] sin ( ) cos( ) [l2 sin ( ) + l3 sin ( + )]
3. 2
Pz = sin() sin( ) [l2 cos() + l3 cos( + ) + l1] + cos() [l2 sin() + l3 sin( + )] 3. 3
- Le modle du contrle de la posture de J. Porta
Parmi les modles gomtriques, nous prsentons le modle propos par J. Porta [Por
98]. Ce modle permet de dcrire la posture et la locomotion du robot hexapode dans des
terrains difficiles. La mobilit du robot est amliore en levant le corps du robot par rapport
au sol et en loignant les pieds des limites de leur espace de travail afin de permettre une
grande varit de mouvements dans toutes les directions. La posture dun robot est lensemble
des positions des pieds par rapport au corps. La posture de rfrence est celle qui, dans des
38
conditions gnrales, offre le meilleur compromis entre stabilit et mobilit. Nous avons en
figure 2.12 une configuration de rfrence.
Ly
z RG
G
y
x
Lz
Lx
Lx
2Ly
Fig. 2. 12 Posture de rfrence [Por 98].
Afin de formaliser le problme du contrle de la posture du robot, les dfinitions

suivantes sont introduites [Cel 98a] :
Le polygone de configuration du robot, est le polygone non ncessairement plan, dont

les sommets correspondent aux extrmits des pattes (les pieds). Une posture est alors dfinie
par la forme du polygone de configuration et sa position par rapport au corps. La posture
optimale pour un polygone de configuration donn est celle qui minimise la distance la
posture de rfrence en laissant la forme du polygone inchange. Les effets du contrle de la
posture peuvent tre illustrs par lanalogie suivante : en supposant que les pieds soient
solidement arrims dans lenvironnement, que le polygone de configuration correspondant
la posture de rfrence soit fix rigidement au corps, et que chaque pied soit reli au sommet
correspondant du polygone de rfrence par un ressort, alors le corps se dplace pour
minimiser lnergie de telle sorte que les sommes des forces et couples exerces sur le corps
sannulent. La position finale des pieds par rapport au corps correspond alors la posture
optimale pour le polygone de configuration donn [Fig.2.13].
Position optimale
Posture initiale
Ressorts Posture finale
Fig. 2. 13 Contrle de la posture en utilisant lanalogie des ressorts. Le corps de dplace afin
de rduire au minimum lnergie potentielle stocke dans les ressorts.
39
Ce modle permet de dcrire la progression du robot sur un terrain quelconque selon

des trajectoires rectilignes ou courbes. Il rend compte aussi de la position relative du corps par
rapport au sol. L'adaptation au terrain consiste alors positionner les pattes et le corps en
tenant compte de la topographie et ragir d'ventuelles collisions avec des obstacles.
2.3.3. Les modles dynamiques des robots hexapodes

Les modles dynamiques sont bass sur des quations mathmatiques qui dcrivent
lvolution du robot au cours du temps [Bue 00], [Rei 00], en considrant les forces
appliques et leurs effets. Ils sont troitement lis au modle mcanique du robot (type
d'actionneurs, forme du corps et des pattes).
- Modle simplifi du robot dans son environnement

Il est possible de construire un modle de simulation simplifi dcrivant la position
(x,y) du centre de gravit du robot dans un repre plan li au sol et son orientation par
rapport un axe vertical passant par son centre de gravit [Svi 01].
Ce modle considre les effets de pousse ou de rsistance des pattes au sol. Une patte
dj pose au sol exerce une force de frottement sec. De plus, au moment o une patte entre
en contact avec le sol, elle exerce une force dirige selon laxe longitudinal dans le sens de la
marche avant ou de la marche arrire du robot (selon le mouvement davant en arrire ou
darrire en avant de cette patte). Pour chaque ct de lhexapode est valu le sens et
lamplitude de la force motrice (Fg pour le ct gauche, Fd pour le ct droit) selon le calcul
suivant : on calcule la rsultante des contributions motrices de chaque patte entrant en contact
avec le sol. Si cette rsultante est suprieure en valeur absolue au cumul des forces de
frottement dues aux pattes restes au sol alors la force motrice pour ce ct a mme sens que
la rsultante et son amplitude est celle de la rsultante diminue des forces de frottement,
sinon la force motrice est nulle.
La force de pousse exerce sur le robot est alors F = Fg + Fd

Le couple de rotation est : M = Fg - Fd
Les quations du mouvement deviennent alors :
x(t + 1) = x(t ) + v sin (t ) 3. 4
y(t +1)= y(t )+vcos(t ) 3. 5
(t + 1) = (t ) + 3. 6
Avec = C M et v = C v F o C. et Cv dsignent des coefficients de compliance. Ce
modle simplifi se limite dcrire le dplacement dans le plan du robot et ne rend pas
compte des effets dynamiques dus aux inerties des masses en translation ou en rotation.
- Le modle de simulation SWAN

Parmi les modles dynamiques nous prsentons ici un modle d'un simulateur
dynamique de la marche d'un animat (robot hexapode) SWAN (Simulated Walking ANimat)
qui a t utilis par M.J. Kodjabachian [Kod 98]. Ce simulateur dynamique t employ dans
des simulations dvolution artificielle gourmandes en temps de calcul.
40
Il y a deux versions de ce modle de simulateur. Dans la premire version du

simulateur appel SWAN-1D, le robot hexapode se dplace selon une seule direction [Mey
98a], [Mey 98b], [Kod 98], chaque patte a deux degrs de libert : une translation dans la
direction de laxe (Ax) et une rotation autour de laxe (Ay) (figure 2.14). Pour chaque patte, il
y a un jeu de commandes qui permet de jouer sur la hauteur du pied et la position angulaire de
la patte. Le but de ce modle est de tester des contrleurs qui produisent diffrents rythmes de
marche dont le rythme tripode.
A
A xY
xo
Fig. 2. 14 Mouvement d'une patte. Translation selon l'axe A X, rotation autour de l'axe AY
et autour de AZ.
La seconde version du simulateur appel SWAN-2D, a t exploite dans [Kod 98].

Dans ce deuxime modle (SWAN-2D), les pattes ont trois degrs de libert. Elles peuvent en
plus de la rotation et translation prcdente, sincliner latralement (figure 2.14). Avec ces
trois degrs de libert le robot hexapode peut faire des dplacements selon deux dimensions.
Ces modles prsentent une analogie biologique, c'est dire que chaque patte est
contrle par deux paires de muscles antagonistes. Ces muscles sont modliss par des
ressorts dont la longueur au repos peut tre module [Kod 98], la patte est reprsente par la
figure 2.15.
Dans les deux modles, ltat du robot est dfini par la position du corps et par la
position des pattes. Une patte est dite pose si sa longueur dpasse un seuil donn sinon elle
est rentre et ne supporte donc pas de poids.
Le robot est repr par trois variables (xG, yG et G) : xG,yG reprsente la position du
centre de gravit du robot dans un plan li l'environnement et G lorientation du robot
autour de laxe vertical passant par G comme l'indique la figure 2.16
41
X
RS
Y
lR Muscle 1 PS Ax
l0
B d P
Muscle 2
Fig. 2. 15 Contrle du pied (mouvement de translation d'une patte) [Kod 98]. lR et l0 longueur
au repos des ressorts travaillant en translation PS et PR longueur au repos des ressorts
travaillant en torsion.
YG
o XG
Fig. 2. 16 Les mouvements du corps du robot hexapode.
Dans SWAN-1D, les pattes du robot sont dcrites par deux variables p et Xp qui
correspondent respectivement langle de la patte avec la verticale (figure 2.14) et la
hauteur du pied par rapport au corps (figure 2.15). Dans SWAN-2D et une variable
supplmentaire, p (figure 2.16), reprsente langle que fait le plan de rotation de la patte avec
un plan vertical parallle au corps.
Hypothse 1 : le corps du robot est toujours horizontal.

Hypothse 2 : les ressorts considrs n'exercent de force que dans un sens, lorsque leur
longueur est suprieure la longueur au repos.
42
En translation, les deux muscles sont modliss par deux ressorts antagonistes de
mme raideur, un des ressorts a une longueur au repos fixe l0 (Muscle1 en figure 2.15), alors
que la longueur au repos des autres (Muscle2 en figure 2.15) est variable et dpend d'une
variable de commande u. La longueur de la patte se dduit de la solution de lquation de la
dynamique :
d2X p
m = Fp 3. 7
dt 2
o
Fp dsigne la somme : des forces de traction des ressorts, du poids et des forces de
frottement visqueux exerces sur la patte p.
m : la masse de la fraction du corps supporte si la patte est pose, et la masse de la patte
sinon.
En rotation les deux muscles antagonistes sont modliss par deux ressorts de
torsion qui permettent lanimat de moduler la position angulaire dune patte (figure 2.15).
Les deux muscles sont disposs de manire symtrique et sont caractriss par une mme
constante de torsion et un angle au repos modulable.
En position rentre, la somme des moments des forces appliques une patte autour
de laxe (Ay) est MpA et prend en compte les couples de torsion exercs par les muscles
ainsi que des couples de frottement visqueux.
Dans le cas o la patte est en contact avec le sol, la somme des moments des forces
appliques cette patte autour de laxe (By) parallle (Ay) et qui passe par le point B de
contact avec le sol, est MpB et prend en compte le poids, des couples de torsion exercs par
les muscles et un couple de frottement visqueux. La patte exerce alors une pousse Fpx sur le
corps de lanimat, dans la direction de laxe du corps et dintensit proportionnelle
M p cos( p ) [Kod 98].
B
De plus dans SWAN-2D les pattes pouvant sincliner latralement, un couple de

torsion sexerce en raction et dtermine l'cart p la verticale. Lorsque la patte est pose au
sol elle imprime alors une pousse latrale Fpy.
Les forces agissant sur la position du corps dpendent du modle. Dans le modle
SWAN-1D, les seules forces qu'il faut prendre en considration sont les forces de pousse Fpx
produites par les pattes poses sur le sol, parce que le mouvement du robot se produit dans
une seule dimension.
Dans le cas du modle SWAN-2D, les forces de pousse latrale Fpy sont galement
considres, ainsi que les moments que les forces Fpx et Fpy exercent autour de laxe vertical
Gz passant par le centre de masse G de lanimat [Kod 98].
Les forces et les moments appliques au corps sont donns par les formules suivantes :
d 2 yG d 2 G
m
d 2 xG
2 = F x m 2 = F p
y
JG 2 = M FGx , y 3. 8
dt p
p dt p
dt p
p
43
Ce modle dynamique ne permet cependant pas de contrler la posture du robot.
- Le modle de U. Saranli
Un autre modle du robot hexapode, reprsent figure 2.17, t propos dans les
travaux de U. Saranli [Sar 99]. Le corps du robot a six degrs de libert. Deux repres et
sont dfinis, le premier () est attachs au corps du robot hexapode et l'autre () au monde
extrieur.
i
z y
x

ai
Li
Ai
rb
Li
i

i fi
zi
xi
yi
Fig. 2. 17 Modle gomtrique du robot hexapode.
: repre du monde
: repre du corps
rb : vecteur de position du corps dans le repre
Li : longueur de la patte i
Ai : point d'attachement de la patte i dfini par le vecteur ai dans le repre .
fi : vecteur de position du pied dans le repre
i , i : angle de rotation (coordonnes sphriques)
Les pattes sont relies au corps rigide, aux points d'attache Ai. Chaque patte prsente
un mouvement sphrique et est considre de masse ngligeable sauf dans la proaction, o sa
masse du pied (ngligeable par rapport celle du corps) est prise en compte. A chaque patte
sont associs un ressort radial, un ressort de torsion (travaillant selon ), et un couple moteur
agissant selon le degr de libert .
La distribution des forces et moments est reprsente par la figure 2.18 suivante :
44
F5 C2
F6
F4
C1
C3
i
Li
F1
F3
F2
Fig. 2. 18 Analyse d'une patte dans le plan dfini par une patte et l'axe z du repre . F1
F6, C1, C2, C3 les forces et les moment appliqus sur la patte. Li longueur de la patte.
Tels que :
F1 = F4 = Fri o Fri dsigne la force exerce par le ressort radial 3. 9
C I
F2 = F5 = o Ci dsigne le couple de torsion selon i 3. 10
Li
Ci
F3 = F4 = o Ci dsigne le couple moteur exerc selon i 3. 11
Li cos( i )
C1 = Ci C 2 = Ci tan ( i ) C 3 = C i 3. 12
Le corps rigide du robot hexapode est soumis des forces et des moments opposs par
rapport la patte au point dattachement. Ces forces et moments dans le repre sont dcrits
par les quations suivantes :

sin ( i ) cos ( i ) 0 F r

i

F = cos ( i ) sin ( i ) sin ( i ) sin ( i )
c
cos ( i )
C i
i Li 3. 13
cos ( i ) cos ( i ) sin ( i ) cos ( i )
sin ( i ) C
i
(Li cos ( i ))
J i

C i = J i tan ( i ) sin ( i ) + J i cos ( i ) + a i Fi c
c
3. 14
J tan ( i ) cos ( i ) + J sin ( i )
i i
Les rsultantes FT des forces et CT des couples appliqus sur le corps du robot
exprimes dans le repre scrivent :
45
0 6
F T = 0 + Rb pattei F i
c
3. 15
i =1
mb g
6
C T = Rb pattei C i
c
3. 16
i =1
tels que :
mb masse du corps
pattei = 0 si la patte est en proaction et pattei=1 si la patte est en rtraction
Lorsque une patte proacte, la position du pied est calcule par rsolution des quations
dynamiques appliques cette seule patte. En rtraction, un modle simple de frottement de
Coulomb est introduit. Dans cette phase, le vecteur de force exerc sur le pied est projet sur
le plan tangent au terrain au point de contact au sol. Un modle simple de glissement du pied
est intgr.
La dynamique du corps rigide est dcrite par les quations des forces et des moments
suivantes :
.. FT
rb = 3. 17
mb
..
o r b est l'acclration de translation du corps de robot
mb : la masse du corps
FT : la somme de toutes les forces applique sur le corps du robot
CT : La somme de tous les moments applique sur le corps du robot
.
.
M b = J ( b ) M b + C T 3. 18
. .
R b = J ( b ) R b 3. 19
0 z y
Avec J x ([ y z ]
T
)
:= z 0

x 3. 20
y x 0

M : matrice des inerties du corps dans le repre

b : la vitesse angulaire du corps du robot dans le repre
Rb : Orientation du robot dans le repre
Ce modle a t utilis pour mener des simulations de la marche d'un robot hexapode
sur un terrain plat ou en pente [Sar 00], [Sar 02], [Sar 03]. Nous remarquons que la structure
mcanique est trs diffrente par rapport au modle prcdent. En fait il ny a pas, pour les
robots hexapodes, de structure universelle et les structures tudies peuvent s'loigner de
celles dun insecte.
46
2.3.4. Conclusion sur les modles de robots hexapode

D'aprs les modles prsents nous remarquons quil n'existe pas de modle unique
gomtrique, dynamique ou mcanique pour les robots hexapodes.
Chaque quipe de recherche son propre modle et ses propres objectifs par rapport
l'utilisation du robot dans son environnement. Des proccupations communes peuvent tre
dgages :
- Assurer l'quilibre du robot

- Matriser la coordination entre les pattes pendant le dplacement
- S'adapter aux changements de l'environnement
2.4 Les systmes de contrle commande

Les mthodes et moyens utiliss pour obtenir des informations sur l'environnement et
sur ltat des composants internes du robot sont varis.
Parmi les capteurs extroceptifs on trouve par exemple :

- des camras
- des capteurs de contact avec le sol ou avec un obstacle (moustaches tactiles)
- des radars ultrasons
- des tlmtres
Parmi les capteurs proprioceptifs ont trouve :

- des capteurs d'efforts
- des capteurs de position
- des capteurs de vitesse
- des inclinomtres
- des acclromtres
A partir de ces informations le robot hexapode doit dterminer les actions ncessaires
pour atteindre ses objectifs (dplacement du corps, maintien de lquilibre, contrle du
mouvement ) dans un environnement qui peut tre inconnu. Dans ces systmes comportant
des degrs de libert redondants, il ny a pas en gnral de solution de commande unique.
Quel type de structure de commande faut-il alors choisir pour obtenir de bonnes
capacits dadaptation ?
2.4.1. Architecture des systmes de commande

Le contrle de la locomotion d'un robot hexapode est complexe, et pour rpondre la
question de la sparation possible les diffrentes tches de maintien de lquilibre, du contrle
de la posture, de la gnration des mouvements de marche, nous nous sommes intresss la
solution propose par R.A. Brooks [Bro 86], [Bro 89]. Elle est base sur larchitecture de
subsomption.
47
Cette approche construit progressivement la solution de contrle / commande en

ajoutant successivement des niveaux ou couches fonctionnelles, les couches infrieures tant
consacres aux tches les plus lmentaires, les niveaux suprieurs ralisant les
fonctionnalits plus complexes.
L'architecture de subsomption, est une approche alternative aux approches classiques

de commande en robotique bases sur une dcomposition de tches complexes en phases
successives de planification des tches, de gnration de trajectoires, et de suivi de
trajectoires.
Un aspect important de l'architecture de subsomption est qu'elle favorise un couplage

troit entre les capteurs et les actionneurs favorisant des comportements ractifs, plutt que
des comportements bass sur des capacits cognitives telles que l'exige par exemple la
planification.
Les niveaux les plus bas peuvent fonctionner indpendamment des niveaux les plus
hauts, et les niveaux suprieurs sappuient sur les comptences dveloppes aux niveaux
infrieurs pour ajouter de nouvelles comptences.
Ainsi, larchitecture de commande du robot Hannibal est compose de trois niveaux.

Le niveau le plus bas assure le couplage basique entre les capteurs et les actionneurs, le
niveau du milieu est en charge de la locomotion sur terrain plat et le niveau le plus haut assure
la tche de locomotion sur un terrain irrgulier [Fer 93]. Cette architecture est reprsente par
la figure 2.19 suivante.
Message de commande
Message d'information
Niveau 3 : Locomotion sur terrain irrgulier
Niveau 2 : Locomotion sur terrain plat
Niveau 1 : Couplage actionneurs / capteurs
action
Capteurs
Fig. 2. 19 Architecture de commande dun robot hexapode selon C. Ferrell [Fer 93].
Pour simplifier la tche de pilotage du robot, il ne suffit pas seulement de dcomposer

les tches selon leur complexit croissante mais aussi le systme en sous systmes dots dune
certaine indpendance (ex, les pattes et le corps pour un robot marcheur).
Cependant ces sous systmes sont coupls car ils sont lis physiquement entre eux et
interagissent avec le mme environnement, les actions des uns influenant les actions des
autres.
48
Donc pour assurer le fonctionnement correct du systme global (robot) il faut que les
sous systmes et les niveaux cooprent entre eux. Pour cooprer, ces sous systmes et niveaux
doivent communiquer, soit directement par l'change de messages soit indirectement par
modification de ltat du robot dans son environnement.
R.A. Brooks [Bro 89] a propos un rseau de base pour contrler la locomotion sur un
terrain plat dun robot hexapode (nomm Genghis) chaque patte du robot admet deux degrs
de libert : avance ou recul () et leve ou baisse () par patte.
Deux modules centraux ont pour rle respectivement de dclencher les mouvements
de leve et de pousse des pattes en fonction des informations dtat reues de chacune
delles. Les autres mouvements sont dcids au niveau local. Ce rseau est reprsent par la
figure 2.20.
Marche Lever
Position Avancer
Baisser S
Boucle 1
i =1..6 Pour chaque patte
S Position
Un module par robot Pousser
Commande de moteurs
Boucle 2
S Nud de filtrage de sortie
Fig. 2. 20 Rseau basique de contrle de locomotion pour un robot hexapode propos par
Brooks [Fer 93]. La boucle 1 assure le contrle de avec le choix du mouvement de la patte
(en haut ou en bas). La boucle 2 assure le contrle de avec le choix entre le deuxime
mouvement possible (avancer ou pousser).
E. Celaya et J. Porta [Cel 96], [Cel 95], [Por 00a], on propos une structure de contrle
de la marche dun robot hexapode (nomme Genghis II) sur un terrain non rgulier et
prsentant des obstacles. Cette structure est base sur la dcomposition des tches selon
l'architecture de subsomption, dans laquelle les niveaux sont indpendants mais peuvent
changer des donnes et des informations entres eux.
Le robot hexapode (Genghis II) a deux degrs de libert. Chaque patte a deux
mouvements possibles, un mouvement de proaction et un mouvement de rtraction
commands par deux moteurs La structure de commande propose par E. Celaya [Cel 96],
est compose de six niveaux. Chaque niveau reprsente une comptence rsultant dun ou de
plusieurs comportements. Les diffrents niveaux sont dcrits comme suit :
49
- Niveaux 1 (niveau du maintien) :
Le premier niveau pilote directement les moteurs pour assurer le maintien de chaque
patte du robot dans la dernire position demande. Par dfaut cette position est une position
de rfrence offrant une bonne stabilit et le choix important de possibilits de mobilit. Par
ordre dun niveau suprieur, les segments peuvent bouger, la dernire consigne de position
tant communique en retour tous les niveaux suprieurs.
- Niveaux 2 (niveau de contrle de la posture) :
Ce niveau assure une position correcte du corps du robot par rapport aux pieds
(contrle de la posture). Ce niveau est compos de cinq comportements appels
compensations. Chaque compensation se traduit soit par une translation, soit par une
rotation du corps. Ces diffrents comportements sont reprsents en figure 2.21.
Y
Z
X
Rotation autour Translation autour Y

Translation autour
de laxe Gx de laxe Gz de laxe Gz Rotation autour
de laxe Gy
X
Rotation autour de laxe X
Fig. 2. 21 Les cinq degrs du mouvement du corps du robot hexapode. Contrl par
le niveau 2 [Cel 98].
- Niveau 3 (niveau dadaptation lenvironnement) :
Le but de ce niveau est de modifier les consignes de posture gres par le niveau 2
pour sadapter aux conditions du terrain telles quelles sont perues par les capteurs. Ainsi,
selon les besoins le corps peut tre avanc ou recul par rapports aux positions des pieds en
contact avec le sol, il peut tre lev ou abaiss, ou il peut subir une rotation autour de lun
des axes Gx, Gy, Gz de la figure 2.21. Par exemple, lorsquun obstacle est dtect du ct
avant gauche, le robot opre une rotation droite.
- Niveau 4 (niveau des forces de compliance):
A ce niveau le robot adapte la position de chaque pied laltitude du sol. A cet effet
leffort support par chaque patte est valu et sil est infrieur un certain seuil, le pied est
abaiss. Ainsi, en cas de surcharge sur une des pattes, les pattes qui se trouvent en sous charge
50
ont tendance descendre pour diminuer cette surcharge. Cette stratgie combine aux effets
de contrle de posture, constitue une forme de compliance active.
- Niveau 5 (niveau de la marche):
A ce niveau le robot est capable de marcher sur un terrain irrgulier, essayant

systmatiquement de passer par dessus les obstacles. Pour chaque patte il y a un
comportement davance et de repli.
Le comportement davance dclenche une proaction ds que les deux pattes voisines
ont mis un message comme quoi elles sont bien en contact avec le sol. Puis, le niveau de
contrle de posture agit pour ramener les pattes exerant un effet de traction laplomb du
corps (ce qui provoque lavance du corps par rapport aux points de contacts avec le sol). Sur
un terrain irrgulier, lattente entre deux pas peut varier et la marche est imprvisible, alors
que sur un terrain plat la marche est rgulire et gnralement de type tripode.
Le comportement de repli se produit lorsque, la patte rencontre un obstacle au cours

du mouvement de proaction. Alors, elle revient lgrement en arrire et se lve avant de
reprendre le mouvement de proaction.
- Niveau 6 (niveau de navigation) :
Ce niveau implmente un comportement dvitement lmentaire en loignant le robot

des obstacles dtects par les capteurs tactiles de types moustaches. Le changement de
trajectoire est obtenu par rotation du corps, les mouvements des pattes tant de sens oppos
de chaque ct du corps.
Les six niveaux prcdemment dcrits sont reprsents sur la figure 2.22 suivante :
Niveaux 6 : Navigation
Niveaux 5 : Marche
Capteurs Niveaux 4 : Compliance Moteurs
Niveaux 3 : Adaptation
Niveaux 2 : Contrle de la posture
Niveaux 1 : Maintien
Fig. 2. 22 Structure de contrle. Dcomposition des taches pour le contrle de la marche d'un
robot hexapode sur un terrain non rgulier, d'aprs E. Celaya et J. Porta [Cel 96].
51
2.5 Tableau rcapitulatif

Le tableau 2.2 rcapitule les travaux considrs dans ce chapitre sur la modlisation des
robots hexapodes.
Quelques travaux effectus sur les modles des robots hexapodes

Modles mcaniques
R.D. Beer Robot deux degrs de libert (rotation ) pour chaque patte
Robot hexapode "R-I".
Marche sur une surface plane avec un contrleur base de rseaux de
[Bee 93]
neurones bas sur des rgles inspires de la marche des insectes.
C. Ferrell Modle mcanique du robot, trois degrs de libert pour chaque patte. Le
robot hexapode 'Hannibal' corps a un degr de libert ( rotation ).
[Fer 93]
K.S.Espenschied Robot inspir de l'insecte phasme : trois degrs de libert (rotation ). Pour
Robot hexapode "R-II" chaque patte. Diffrentes marches possibles (marche arrire, rotation sur
[Kin 96] place, dplacement latral, marche sur une surface non plane)
G.M. Nelson Robot inspir de l'insecte cafard : cinq degrs de libert pour les pattes
Robot hexapode "R-III" avant, quatre degrs pour les pattes du milieu, trois degrs pour les pattes
[Nel 97] arrire. Diffrentes marches possibles (marche arrire, rotation sur place,
dplacement latral, marche sur une surface non plane)
F. Kirchner Robot deux degrs de libert (rotation ) pour chaque patte, avec un
Robot hexapode Sir "Arthur" angle de 90 entre les deux segments de la patte.
[Kir 98]
R. D. Quinn Robot de structure similaire au robot R-III
Robot hexapode "R-IV"
Les pattes de ce robot ont des articulations prsentant une rigidit passive
[Qui 01]
qui peut tre rgle pour profiter du stockage d'nergie gagn pendant un
cycle de mouvement des pattes.
D.A. Kingsley Robot hexapode de structure similaire au robot R-III
Robot hexapode "R-V".
Les actionneurs sont des muscles artificiels.
[Kin 03]
Modles gomtriques
A.L. Torres Modle gomtrique du robot, chaque patte a trois degrs de libert,
[Tor 96] l'angle du genou et deux angles de rotation de hanche.
E. Celaya et J.M. Porta Modle gomtrique du robot, chaque patte a trois degrs de libert (
[Cel 98] rotations ).
Utilis pour dcrire la posture et la locomotion du robot dans des terrains
difficiles.
M.J. Randall Modle gomtrique du robot, chaque patte a trois degrs de libert.
[Ran 99] L'orientation de la patte par rapport au corps est spcifie par deux angles
fixes.
Modles dynamiques
M.J. Kodjabachian Modle dynamique du robot "SWAN-1D", chaque patte a deux degrs de
Robot hexapode "SWAN-1D", libert (translation et rotation). Le robot se dplace selon une seule
"SWAN-2D". direction.
[Kod 98]
Robot "SWAN-2D". Chaque patte a trois degrs de libert (translation et
deux rotations).
U. Saranli Modle dynamique du robot, chaque patte a trois degrs de libert, (deux
Robot hexapode "Rhex". rotation et une translation).
[Sar 99]
Ce modle a t utilis pour mener des simulations de la marche d'un
robot hexapode sur un terrain plat ou en pente
Tableau. 2. 2 Diffrents modles des robots hexapodes.
52
2.6 Conclusion
Nous avons prsent dans cette partie diffrents modles de robots hexapodes en
particulier les modles logiques utiliss pour tudier les rythmes de marche sur terrain plat,
les modles gomtriques (avec leurs variantes selon le nombre de degrs de libert et la
forme du robot,) qui permettent de rendre compte de lvolution dans le plan ou dans
lespace, et des modles dynamiques qui considrent des forces de traction et des couples de
torsion exercs sur les pattes ou sur le corps pour dcrire notamment des phnomnes de
compliance ncessaires ladaptation des terrains irrguliers.
Ces modles sont utiliss pour grer, selon des stratgies varies, diffrents types de
marche, le changement d'allure ou de trajectoire, lvitement dobstacle, ladaptation des
terrains irrguliers. Les stratgies dveloppes pour le contrle de la locomotion d'un robot
hexapode sont cependant souvent inspires de lobservation de la locomotion des insectes.
Il semble alors utile de dcomposer le problme du pilotage du robot marcheur en

fonctions de complexit croissante sappuyant sur des fonctions plus simples dj acquises.
Ainsi les fonctions lmentaires de maintien en position des segments reoivent leurs
consignes dun niveau suprieur responsable du contrle de la posture, lui mme obissant
aux ordres du niveau en charge de la marche, lui mme influenc par la tche de navigation,
elle mme rpondant aux ordres de dplacement correspondant un besoin tel que par
exemple la recherche de ressource en nergie.
Cette approche diffre de celle plus classique base sur la planification des tches, la
gnration des trajectoires et lexcution de ces trajectoires. En effet, dans un environnement
perturb et inconnu, la planification des tches est difficile, voire impossible. De plus dans le
cas o le systme est distribu, les plans doivent tre labors en tenant compte des multiples
interactions possibles entre les diffrents lments du systme.
Une stratgie base sur la planification suppose alors le recours un systme central
capable de collecter, dintgrer, danalyser et dexploiter les informations utiles pour prdire
les diffrents scnarios possibles et calculer les plans associs.
Une approche base sur lacquisition ou ladaptation de comportements de complexit

croissante sappuyant sur ceux dj acquis est une alternative qui permet de construire
progressivement une solution satisfaisante pour le pilotage de robots marcheurs.
Puisque les solutions ne sont pas connues par avance, ces comportements doivent tre
acquis par apprentissage selon un processus dessais et erreurs. Cest pourquoi nous nous
intressons dans le chapitre suivant aux processus d'apprentissage par renforcement
(apprentissage par essai et erreur).
53
Chapitre 3
Apprentissage par renforcement

et robot hexapode
" Les rivires ne se prcipitent pas plus vite dans la mer que les hommes dans l'erreur. "
Voltaire
3.1 Introduction
Nous avons vu au chapitre prcdent que certains travaux de recherche sur les robots
hexapodes ont pour but lamlioration des capacits mcaniques (gomtrie des pattes et du
corps, nombre de degrs de libert), dautres l'amlioration de la perception de
l'environnement (par exemple ajout de capteurs trs efficaces), d'autres lamlioration du
modle de contrle et de la commande du robot. Nos travaux sont orients sur ce dernier axe
de recherche concernant la commande de la marche du robot hexapode dans un
environnement qui peut tre inconnu. Dans ce cadre les techniques d'apprentissage prennent
tout leur sens. On trouve par exemple dans la littrature des modles de commande bass sur
les rseaux de neurones volutionnistes, sur l'apprentissage par renforcement ou sur des
algorithmes gntiques. Nous avons privilgi lapprentissage par renforcement (par essais et
erreurs), parce qu'il permet au robot d'apprendre marcher dune faon autonome dans
l'environnement. Des questions de fond se posent pour sa mise en oeuvre :
Quelle mthode dapprentissage par renforcement faut-il utiliser ?

Quelles sont les limites des applications prcdentes de lapprentissage par
renforcement de la marche de robots hexapodes ?
Nous rpondons ces questions dans ce chapitre en rappelant les principes de

l'apprentissage par renforcement puis en analysant les principaux travaux investiguant ce type
de techniques.
54
Chapitre 3 : Apprentissage par renforcement et robot hexapode
3.2 Apprentissage par renforcement

Nous n'allons pas prsenter en dtail l'apprentissage par renforcement (des ouvrages
trs complets l'ont dj fait, par exemple celui de R.S. Sutton [Sut 88], R.S. Sutton et A.G.
Barto [Sut 98]) mais nous rappelons les grands principes qui ont guid notre dmarche. Nous
commenons par dfinir la notion d'apprentissage pour un systme artificiel avant d'aborder
lapprentissage par renforcement en particulier.
3.2.1. L'apprentissage pour un systme artificiel

Un systme artificiel est un ensemble de constituants matriels ou logiciels formant un
tout, cr par l'homme pour atteindre un objectif. La problmatique de lapprentissage d'un
systme artificiel, est de faire acqurir ce systme par l'exemple ou par l'exprience, un
comportement pour atteindre un objectif. Dans le cadre de nos travaux, le systme objet de
l'apprentissage, le robot hexapode, est capable d'agir sur l'environnement, de percevoir sa
situation dans l'environnement, de modifier et de mmoriser ses actions en fonction d'un but.
Ces proprits sont celles attendues d'un agent artificiel comme le dfinit J. Ferber [Ferb 95].
Nous dsignons alors par agent le systme apprenant.
Un modle lmentaire utilis pour dcrire un tel agent considre dune part les tats
atteignables par l'agent dans son environnement, et dautre part les actions qui lui permettent
de passer d'un tat un autre. Dans un environnement incertain, on utilise un modle
stochastique pour dcrire les transitions entre tats. Lorsque les actions excuter pour
atteindre un but sont connues, l'agent peut apprendre de faon supervise reproduire et
gnraliser ces actions. Dans le cas o ces actions ne sont pas connues, il n'est pas possible de
planifier lavance le comportement de lagent, et il faut apprendre par essai- erreur ce
comportement. Cest ainsi que lon est amen introduire lapprentissage par renforcement.
3.3 Modle de lapprentissage par renforcement

3.3.1. Principe
D'aprs la dfinition du S. Sutto et G. Barto [Sut 98], et J.Baxter [Bax 99],
l'apprentissage par renforcement dfinit un type d'interaction entre l'agent et l'environnement.
Depuis une situation relle s dans l'environnement, l'agent choisit et excute une action
a qui provoque une transition vers l'tat s' . Il reoit en retour un signal de
renforcement r ngatif de type pnalit si laction conduit un chec ou positif de type
rcompense s'il laction est bnfique ; un signal nul signifie une incapacit attribuer une
pnalit ou une rcompense.
L'agent utilise alors ce signal pour amliorer sa stratgie, c'est dire la squence de ses
actions, afin de maximiser le cumul de ses rcompenses futures. Dans ce but, il doit trouver
un quilibre entre exploration et exploitation. L'exploration consiste tester de nouvelles
actions, pouvant conduire des gains suprieurs, mais avec le risque qu'ils soient infrieurs
tandis que l'exploitation consiste appliquer la meilleure stratgie acquise jusqu'alors (celle-ci
pouvant ne pas tre optimale).
55
L'interaction entre l'agent et l'environnement est reprsente par le diagramme de la

figure 3.1:
Renforcement
Fonction de
Q(s,a) renforcement
Action a
Situation ou tat s
Environnement
Fig. 3. 1 Apprentissage par renforcement : diagramme d'interaction agent / environnement .
Le double objectif de l'apprentissage par renforcement est donc de conduire de

manire optimale un systme au cours du temps tout en apprenant cette conduite optimale
travers des expriences [Gar 97]. Si le premier point a t trait dans plusieurs travaux de
l'Automatique notamment ceux consacrs la commande optimale, le deuxime point a fait
l'objet de nombreux travaux au cours de ces vingt dernires annes et reste un domaine de
recherche largement ouvert. Lapprentissage par renforcement pose en effet les questions
fondamentales suivantes [Buf 00], [Buf 03a] :
Faut-il apprendre directement un comportement sans connatre de modle de

lenvironnement ou linverse apprendre un modle et en dduire le meilleur
comportement possible ?
Sachant quil y a un gain maximiser, comment trouver un quilibre entre
lexploitation et lexploration ?
En fonction des systmes traits, est-il prfrable de privilgier les gains court ou
long terme ?
Sans pouvoir apporter de rponse gnrale ces questions il est cependant possible de
raisonner sur les cas extrmes pour lesquels les choix sont plus faciles :
Dans un environnement aux dimensions limites, prvisible ou facilement accessible

par l'exploration et stationnaire, il est envisageable d'tablir un modle fiable des transitions
d'tat en fonction des actions possibles. Ce modle peut alors tre exploit pour planifier une
commande optimale maximisant les gains de l'agent sur l'horizon dsir. L'exploration n'est
utile que pendant la phase de construction du modle qui contient toute l'information
exploitable pour l'accomplissement des tches mmes diffrentes. Dans un environnement
vaste, incertain et imprvisible, il est illusoire de construire un modle rendant compte de
toutes les situations et transitions possibles. La stratgie consistera alors rechercher d'une
faon directe un comportement maximisant des gains sur le court terme.
56
3.3.2. Facteurs d'influence

Les lments prendre en compte dans l'apprentissage par renforcement sont
multiples [Buf 00], [Buf 03b]:
- Le temps
L'espace de temps a des formes diffrentes, il peut tre :
- Discret ou continu.
- Fini ou infini.
- Dtermin ou alatoire.
La plupart des tudes sur l'apprentissage par renforcement utilisent un espace de temps
discret.
- Les tats
Les tats caractrisent les situations d'un agent et de l'environnement chaque instant,
ils peuvent se dcomposer en trois formes :
- Une situation relationnelle de agent par rapport l'environnement (position, etc.).

- Une situation propre l'environnement (modifications du milieu).
- Une situation interne l'agent (sa mmoire, ses capteurs, etc.).
Les trois formes d'tat peuvent tre prsentes en mme temps en fonction du problme
trait.
- Les actions
Un agent choisit une action parmi les actions possibles chaque instant t, cette action
peut tre instantane ou durer jusqu'au prochain instant. A chaque tat de l'espace d'tat est
associ un ensemble d'actions possibles de l'espace d'action, cette relation est reprsente par
la figure 3.2 suivante :
Ensemble d'actions possible
a1
x1 a1
X : espace d'tat x2 aa2
2
A : espace d'actions
xi ai
Fig. 3. 2 Relation tats, actions.
- Le signal de renforcement
A chaque instant, linteraction produit une valeur de renforcement rt, valeur numrique
borne, qui mesure la justesse de raction de lagent. Le but de lagent est de maximiser le
cumul de ces renforcements dans le temps. Pour prendre en compte l'horizon de temps, il
suffit de considrer la somme des valeurs de renforcement quil recevra dans le futur :
57
Rt = rt +1 + rt + 2 + ... + rT 3. 1
O T est un instant terminal qui met fin linteraction. Dans bien des cas cependant,
linteraction na pas de limite (T = ). Pour viter que le critre ci-dessus ne diverge, on
retient la somme pondre sur le long terme :

Rt = rt +1 + rt + 2 + 2 rt + 3 + ... = k rt + k +1 3. 2
k =0
O [0 1[, est un facteur de pondration.

Rt = rt +1 + Rt +1 + (1 ).0 3. 3
Ce facteur de pondration dtermine la valeur prsente dune rcompense future : une

rcompense reue dans k pas de temps vaut k fois ce quelle vaudrait si elle tait reue
immdiatement. Ce critre prsente un intrt fonctionnel : il incite maximiser les
rcompenses tout en diminuant le temps pour les obtenir. Linfluence du temps est dautant
moins ngligeable que est proche de 1.
A contrario, si vaut 0, on dit que lagent est glouton : son but revient alors, chaque
instant, maximiser sa rcompense immdiate sans se proccuper de celles qui suivent.
Lutilisation dun signal de rcompense (local dans le temps) pour dfinir une tche peut
paratre a priori limitant par rapport un critre global calcul sur toute la trajectoire des tats.
De nombreuses applications dans la littrature ont nanmoins montr que cette approche tait
pratique et flexible.
Le choix des rgles de dlivrance de ce signal conditionne largement le succs de

l'apprentissage et le comportement final de l'agent [Tou 93]. Pour sen convaincre, voquons
quelques exemples. Pour faire se diriger un robot vers un but, on peut donner chaque instant
une rcompense qui est inversement proportionnelle sa distance au but ou qui est fonction
du rsultat final.
Par exemple, pour construire un agent dont le but est de sortir dun labyrinthe, on peut
donner une rcompense nulle la plupart du temps et +1 ds que lagent atteint la sortie [Kae
96]. Pour viter quun tel agent ne se cogne contre les murs, on peut le sanctionner chaque
fois quil touche un mur en lui attribuant une pnalit [Buf 00], [Buf 03a] .
- L'environnement
Les principaux qualificatifs qui caractrisent lenvironnement et linteraction agent /

environnement [Buf 00], et qui sont utiles pour choisir une mthode d'apprentissage sont les
suivants:
Accessible / inaccessible : Lagent a-t-il accs ltat complet de lenvironnement,
ou certaines informations restent-elles non ou mal connues ?
Dterministe / non-dterministe : Le prochain tat de lenvironnement est-il
compltement dtermin par son tat courant et laction slectionne par lagent ?
Remarque : un environnement dterministe peut ne pas ltre du point de vue de
lagent, du fait dune connaissance insuffisante de ltat de lenvironnement.
58
Episodique / non-pisodique : On parle d'exprience pisodique si les interactions

de lagent avec l'environnement peuvent tre divises en pisodes . Chaque
pisode consiste en une succession dtapes de perception / action, le rsultat de
laction ne dpendant que de l'pisode courant.
Statique / Dynamique : Un environnement est dit dynamique si son tat peut
changer en fonction du temps pendant la prise de dcision de lagent. Il est dit
statique dans le cas contraire.
Discret /Continu : Sil existe un nombre limit de perceptions et dactions possibles,
on parle denvironnement discret
Le cadre mathmatique adapt pour la description de l'apprentissage par renforcement
dans le cas dterministe est le modle de processus de Markov.
3.3.3. Processus de Dcision Markoviens

Un outil utile pour dcrire certains comportements dynamiques d'un agent est le
processus de dcision markovien (MDP) et ses drivs. Il sagit l dune classe de modles de
Markov, eux- mmes appartenant aux processus stochastiques.
Processus de Processus
Modles de
dcision de stochastiques
Markov
Markov
Fig. 3. 3 Structure des Processus stochastique.

Considrons une famille Xk de variables alatoires, k tant un entier, dans un
processus stochastique, la probabilit de la squence X0=x0, X1=x1, ... XT=xT s'crit :
Pr ( X 0 = x 0 , X 1 = x1 ,...., X T = xT ) = Pr ( X 0 = x 0 ) Pr ( X 1 = x1 X 0 = x 0 ).
3. 4
Pr ( X K = x K X 0 = x 0 ,...., X K 1 = x K 1 ) Pr ( X T = xT X 0 = x 0 ,...., X T 1 = xT 1 )
Dans un modle de Markov, Xk ne dpend que des n tats prcdents :
Pr ( X K = x K X 0 = x 0 ,...., X K 1 = x K 1 ) = Pr ( X k = x k X k n = x k n ,...., X k 1 = x k 1 ) 3. 5
l'ordre un on a :
Pr ( X K = x K X 0 = x 0 ,...., X K 1 = x K 1 ) = Pr ( X k = x k X k 1 = x k 1 ) 3. 6
Le modle de Markov est dit stationnaire si la probabilit de transition entre deux tats
ne varie pas avec le temps. Un processus de dcision markovien (MDP) est un modle de
Markov d'ordre 1 constitu de :
- Un ensemble dtats S,
- Un ensemble dactions A,
59
- Une fonction de gain/rcompense R : S*S*A , o Rsa, s ' est l esprance du gain

lorsquon passe de ltat s ltat s en appliquant laction a .
- Une fonction de transition dtat P : S*A *S [0 1], o Psa, s ' est la probabilit de la
transition de ltat s ltat s en utilisant laction a .
La plupart des rsultats thoriques sur l'apprentissage par renforcement concernent des
systmes dont le comportement peut-tre dcrit par un processus de dcision markovien. Dans
un MDP, lagent connat les tats et actions du systme, mais il ne connat pas ncessairement
le fonctionnement de lenvironnement (P) ni les situations provoquant des rcompenses (R).
On distingue en gnral deux situations dapprentissage [Kae 96] :
- Avec modle : lagent connat P et R, ou les estime, et lapprentissage utilise ces

modles.
- Sans modle : Lagent cherche apprendre directement une politique, sans utiliser P et
R. Il ny a pas alors connaissance explicites des modles dcrits dans le formalisme
MDP.
Dans le second cas, il faut ncessairement que lagent exprimente, quil apprenne par
essais-erreurs. Nos travaux ne supposeront pas la connaissance explicite dun modle
(fonction de transition P et fonction de gain/ rcompense R non connues). Cest donc des
algorithmes qui rpondent cette situation que nous mettrons en oeuvre.
3.3.3.1. Les variantes de PDM
Voici quelques modles markoviens drivs [Buf 03b] :
- MMDP (MDP Multiples) : un MMDP est une variante de MDP adapte au cas des
systmes multi-agents, de mme que les DEC-MDP (MDP dcentraliss) et les jeux
de Markov.
- SMDP : le modle, dit semi-Markovien, a pour but damliorer la gestion du temps,
considrant que le passage dans un tat peut tre de dure variable (selon des lois
stochastiques).
- POMDP : MDP partiellement observable, un POMDP ajoute lide quun agent na
de son environnement quune perception partielle, donc quil ne connat quune
observation et non un tat complet.
3.3.3.2. Principe de Bellman et PDM
Nous ne considrons que les processus de dcision de type Markovien. Dans un

processus de dcision de Markov, ltat suivant dpend uniquement de ltat s et de la
dcision a l'instant considr. Ce processus de dcision de Markov est dfini par la donne
des fonctions (P) et (R) suivantes :
{
Pssa' = Pr S t +1 = s ' / st = s, at = a } 3. 7
La probabilit de passer de l tat s a ltat s en appliquant laction a .
{
Rssa ' = E rt +1 / st = s, at = a, st +1 = s ' } 3. 8
60
Lesprance du gain lorsque on passe de ltat s a ltat s en appliquant

laction a . Les algorithmes dapprentissage par renforcement sont bass sur le calcul de
l'une des deux fonctions suivantes:
- Fonction valeur tat V (s)
Cest la somme des rcompenses futures partir de ltat (s) en appliquant la politique
. A linstant t :

V (s ) = E {Rt / st = s} = E k rt + k +1 / st = s , 0 < < 1 3. 9
k =0
[
V ( s ) = ( s, a). Psa, s ' Rsa, s ' + .V ( s ' ) ] 3. 10
a s'
o ( s, a) dsigne la probabilit de choisir laction a depuis ltat s.
- Fonction valeur tat_action Q(s,a)
Cest la somme des rcompenses futures partir de (s) en choisissant laction (a)
selon la politique . A linstant t :

Q ( s, a ) = E {Rt / st = s, at = a} = E k rt + k +1 st = s, at = a 3. 11
k =0
[
Q ( s, a ) = Psa, s ' Rsa, s ' + .V ( s ' ) ] 3. 12
s'
Le diagramme de propagation de V et Q est donn en figure 3.4 :
s
V(s) Q(s, a)
s, a
(s,a)
Pas s, Ra s s
a s'
Pas s, Ra s s (s', a')
s (s', a')
Fig. 3. 4 Diagramme de diagramme de propagation de V et Q [Sut 98].
Un principe souvent utilis pour la rsolution de problmes doptimisation plusieurs

tapes de dcision est celui nonc par Bellman en 1957 repris par R. Sutton [Sut 98] : une
suite optimale de commandes a la proprit que, quelle que soit ltape, les commandes
suivantes doivent constituer une suite optimale de dcisions pour la suite du problme. Les
deux formules doptimisation de Bellman de la fonction valeur tat et la fonction valeur tat -
action sont :
61
Si V * ( s ) = max (V ( s )) alors V *
(s ) = max
a
[
P ssa ' R ssa ' + V *
(s ' )] 3. 13
s'
Si Q * ( s ) = max (Q ( s, a )) alors Q ( s, a ) =
*
P s'
a
ss ' [
Rssa ' + max Q* (s ' , a ')
a'
] 3. 14
Le principe du calcul de ces deux fonctions est reprsent par le diagramme de la figure 3.5:
V* s
Q*
(s, a)
r
Max (a)
a s'
Max (a)
r
s s', a'
Fig. 3. 5 Diagramme de diagramme de propagation de V* et Q* [Sut 98].
La recherche de la politique optimale suppose priori deux phases : une phase

destimation de la politique courante et une phase damlioration de cette politique. Il est
nanmoins possible dentre mler ces deux phases selon le principe de l'itration de stratgie
gnralise (ISG) qui est prsent par le schma de la figure 3.6. LISG consiste faire en
mme temps l'valuation de la fonction valeur et l'amlioration de la stratgie en utilisant une
politique avide (choix des actions pour augmenter les gains).
valuation de
V,Q
Amlioration de
* V*
Fig. 3. 6 Principe de l'Itration de Stratgie Gnralise (ISG) [Sut 98].
Il existe trois familles de mthodes diffrentes pour estimer les fonctions V ou Q :

- Mthodes de Programmation Dynamique (PD)
- Mthodes des Monte-Carlo (MC)
62
- Mthodes des Diffrences Temporelles (TD)
3.4 Mthode de la Programmation Dynamique (DP)

La DP utilise lquation suivante comme rgle dactualisation de la fonction valeur V :
[ ]
Vt+1 (s ) = ( s, a) Psa, s ' Rsa, s ' + .Vt ( s ' ) , 0 < <1 3. 15
a s'
Une fois la politique estime suite la convergence de lexpression prcdente [Jaa

93b], lamlioration de cette politique consiste choisir les actions qui privilgient les
transitions vers les tats valeur associe maximale. Il est possible damliorer la politique
sans attendre la fin de lvaluation de la fonction V selon le principe ditration de startgie
gnralise. Il existe plusieurs mthode pour amliorer la politique comme la programmation
dynamique asynchrone [Bar 91].
La DP est dutilisation limite dans lapprentissage par renforcement par ce quelle

suppose connu un modle de lagent dans son environnement (connaissance de P et R) et elle
pose des problmes de temps de calcul. Mais cette mthode est toujours importante
thoriquement. On suppose cependant que lespace dtat S et lespace daction A sont finis
(PDMF : Processus de Dcision Markovien Fini). Pour le cas continu les solutions sont
approximatives: on quantifie lespace dtat et on applique la PDMF.
3.5 Mthode de Monte Carlo (MC)

Les mthodes de Monte-Carlo sont utilises pour lapprentissage des fonction V(s) et
Q(s,a) et la dcouverte de la politique optimale Les mthodes de Monte-Carlo utilisent
seulement les rsultats de linteraction relle ou simule avec un environnement. Supposons
que nous voulions valuer V(s), la valeur dun tat s selon la politique . Pour estimer la
fonction V(s) il existe deux mthodes:
- toute-visite : V(s) est la moyenne des renforcements aprs toutes les visites (s)
dans un ensemble dpisodes.
- premire visite : V(s) est la moyenne des renforcements aprs les premires
visites (s) dans un ensemble dpisodes.
Et daprs la mthode de Monte Carlo (MC) l'estimation de Rt est la moyenne des

gains obtenus aprs n visites :
1
V (s ) = Rtn
n n 3. 16
Rtn = r n t +1 + r n t + 2 + 2 r n t +3 + .... + T r n T
Au lieu de
V (s ) = E {Rt } 3. 17
63

V (s ) = E {Rt / st = s} = E k rt + k +1 / st = s 3. 18
k =0
Les mthodes de Monte-Carlo utilises pour lapprentissage par renforcement ont t

explicitement identifies rcemment dans les annes 90 [Eli 01]. Leurs proprits de
convergence ne sont pas encore claires et leur efficacit a en pratique t peu value [Sut
98]. La mthode de MC est en gnral limite au calcul des proprits statiques puisque le
temps nest pas une variable explicite. Les proprits dynamiques sont inaccessibles et
devront tre obtenues par une autre technique.
3.6 Les mthodes diffrences temporelles (TD)

Les mthodes TD ('Temporal Difference learning') sont des combinaisons des ides
des mthodes MC et DP et on t dveloppes par R. Sutton [Sut 98]. Les mthodes Monte-
Carlo, consistent (dans le cadre des PDMs) estimer les fonctions valeur sans s'appuyer sur
un modle mais sur une phase dexprimentation constitue d'un grand nombre d'pisodes.
De mme les mthodes TDs peuvent apprendre partir de l'exprience sans avoir
besoin d'un modle de l'environnement mais sans attendre la fin de chaque pisode. Comme la
mthode DP, la mthode TD calcule pendant l'pisode les nouvelles valuations partir des
valuations prcdentes. Soit s un tat non terminal visit linstant t, la mise jour de la
fonction V est mene sur la base de ce qui arrive aprs cette visite.
[ ]
Vt+1 (s ) Vt (s ) + rt +1 + Vt (s ') Vt (s ) 3. 19
ainsi l'erreur de prdiction du gain estim est

rt +1 + .V ( s ' ) V ( s ) 3. 20
L'algorithme de prdiction des mthodes TD est le suivant :
Initialiser arbitrairement V(s), la stratgie valuer

Rpter (pour chaque pisode):
Initialiser s
Rpter pour chaque itration de d'pisode :
aaction donne par pour s
excuter laction a; observer la rcompense r ,
et ltat s
V (s ) V (s ) + [r + V (s ' ) V (s )]
s s
jusqu ltat s terminal
Algorithme. 3. 1 Algorithme de prdiction TD.
Dans les mthodes TD, l'valuation est faite un pas de temps et il n'est pas besoin
d'un modle. La mthode TD a conduit plusieurs algorithmes par exemple : SARSA, AHC-
learning, Q-learning, R-learning, critique- acteur, TD(), SARSA(), Q-learning(). Les
64
approches correspondantes se distinguent par le type de fonction valeur estime, et par les
techniques d'valuation et d'amlioration des stratgies. On distingue notamment :
- Les mthodes on-policy : elles valuent et amliorent la stratgie utilise pour

prendre des dcisions.
- Les mthodes off-policy : la stratgie utilise pour prendre des dcisions peut tre
sans rapport avec la stratgie qui est value et amliore. Lavantage de cette
sparation est que la stratgie amliore peut tre, par exemple (avide), tandis que la
stratgie applique pendant l'apprentissage peut continuer lchantillonner toutes les
actions possibles.
3.6.1. Mthode drive de la mthode TD
Apprentissage par renforcement
PD MC TD
Calcul avec modle Calcul sans modle Calcul sans modle

Calcul sur un Calcul sur des Calcul sur un horizon
horizon limit pisodes complets de temps limit
B-Learning Critique /acteur SARSA

SARSA ( )
R-Learning AHC-learning Q-Learning

R-Learning( ) Q-Learning()
Fig. 3. 7 Mthodes drive de la mthode TD.
SARSA :
SARSA est une mthode d'apprentissage par renforcement on-policy qui value et
amliore la stratgie utilise pour prendre les dcisions d'action. La mthode sarsa utilise
la fonction valeur-tat_action pour lapprentissage. Ici, une exprience consiste non seulement
au choix de l'action a depuis l'tat s, mais aussi au choix de laction a qui va tre choisie
65
depuis ltat s (en suivant la stratgie dexploration adopte). L'estimation des valeurs selon
la stratgie courante s'crit :
Qt +1 (s, a ) = Qt (s, a ) + [rt +1 + Qt (s ' , a ') Qt (s, a )] 3. 21
AHC-Learning (critique heuristique adaptative) :
Les algorithmes dapprentissage par renforcement de type AHC sont bass sur deux
fonctions adaptatives spares : une fonction dvaluation (ACE) et une fonction de contrle
(ASE) comme illustr par la figure 3.8. Le premier algorithme est d Barto, Anderson et
Sutton en 1983 repris par S. Sehad [Seh 96]. LACE est une fonction dvaluation du
systme, son but est destimer la somme des renforcements externes venir tant donn ltat
prsent. Laction est donne par lASE. Les fonctions ASE et ACE sont ractualises selon la
diffrence entre deux prdictions de renforcement successives. Cette mise jour tant faite
un pas de temps, l'algorithme AHC-learning est considr comme un algorithme de la
mthode TD.
r

ACE
s a
ASE
Fig. 3. 8 Architecture de AHC-learning.
Mthodes critique - acteur :
Les mthodes critique-acteur sont des mthodes TD qui ont une structure de mmoire
spare pour explicitement reprsenter la politique de choix d'action et la fonction valeur-
tat. Cet apprentissage est de type on-policy [Cri 95], [Sut 98]. Les mmoires peuvent tre
ractualises selon la mthode TD, comme il est prsent par la figure 3.9, suivante :
Acteur
Erreur de TD
Fonction
tat Valeur Action
Rcompense
Environnement
Fig. 3. 9 Diagramme de fonctionnement de l'algorithme Critique /Acteur.
66
Q-learning :
Le Q-learning se classe dans les mthodes dapprentissage de diffrences temporelles

(temporal difference (TD) learning). La mise jour de lvaluation de la fonction Q est
effectue chaque pas de temps. Cest une mthode off pollicy base sur lquation de
ractualisation suivante :
Qt +1 (s, a ) = Qt (s, a ) + [rt +1 + max a ' Qt (s ' , a') Qt (s, a )] 3. 22
Nous dtaillons cette mthode dans le paragraphe suivant.
R-learning :
Le R-learning propos par Schwartz en 1993 repris par [Sut 98], [Lan 93], est une
adaptation du Q-learning au critre de maximisation du revenu moyen. L'objectif est de
construire une politique dont le revenu moyen est le plus proche possible du revenu moyen
d'une politique gain optimal.
La mthode R-learning est de type Off-politicy . Elle est utilise lorsque on a un

espace dtat trs grand ou un pisode trs grand.
B-learning :
C'est un algorithme d'apprentissage par renforcement bas sur la mme architecture

que l'algorithme AHC-learning (fonction de mise jour et fonction de slection spares). Il a
t propos par T. Langlois en 1993 [Lan 93]. La modification porte sur la fonction de
slection dont le but est de tenir compte des avantages lis chaque action. L'avantage est
dfini comme la drive de la fonction valeur long terme en fonction de temps.
Le principal effet de cette modification est que la politique obtenue tient compte de la
stratgie dexploration suivie et est donc plus sre. En effet, si cette stratgie consiste en un
taux dactions au hasard, les autres actions suivant la politique dterministe dduite de Q
(stratgie -glouton), vont avoir tendance compenser par exemple les situations dangereuses
encourues du fait des actions alatoires (ne pas rester prs dun prcipice si il y a un risque
dy tomber).
TD(), SARSA(), Q-learning() :
Dans ces mthodes, leffet dune rcompense r nest pas limit ltat ou la paire
tat-action qui vient de passer, mais est transmise aux tats et actions prcdents (avec un taux
de diffusion ]0,1[). Cela permet dacclrer lapprentissage par rapport aux mthodes TD
simples qui ne permettent cette diffusion qu travers un nombre bien plus grand de passages
dans chaque tat, [Uri 99].
67
3.7 Q-learning
3.7.1. Dfinition
Le Q-learning a t propos par Watkins 1989, repris par S. Sehad [Seh 96] comme
mthode dapprentissage par renforcement dans le cas d'un MDP (processus de dcision
Markovien) quand le modle dvolution est inconnu. C'est une mthode de type
off_policy . Un modle du processus d'apprentissage Q-learning a t propos par S. Sehad
[Seh 96] et met en vidence les fonctions suivantes :
Une fonction de slection : partir de la situation actuelle telle quelle est perue par
le systme, une action est choisie et excute en se basant sur la connaissance
disponible au sein de la mmoire interne (cette connaissance est stocke sous forme de
valeur dutilit associe une paire (situation, action)).
Une fonction de renforcement : aprs lexcution de laction dans le monde rel, la

fonction de renforcement utilise la nouvelle situation pour gnrer la valeur de
renforcement. Ce renforcement prend en gnral une simple valeur +1,-1 ou 0.
Une fonction de mise jour : utilise la valeur de renforcement pour ajuster la valeur
associe la situation ou bien la paire situation, action qui vient dtre excute.
Le principe du Q-learning est destimer une fonction Q* dfinie par :
Q * (s , a ) = E [rt +1 + V * ( s ' ) ] = E [rt +1 + max a ' Q * ( s ' , a ' ) ] 3. 23
En utilisant une mise jour itrative asynchrone donne par :
[ (
Qt+1 (st , at ) = (1 t ).Qt (s, a ) + t rt +1 + max a Qt (s ' , a ) )] 3. 24
O rt+1 est le renforcement reu en ayant choisi laction a dans ltat s, ce qui a mis le
processus dans le nouvel tat s et t est un rel positif compris entre 0 et 1. En principe, il
faut explorer alatoirement lenvironnement pendant un grand nombre ditrations pour que
le Q-learning puisse converger vers la fonction Q optimale et seulement ensuite on peut
utiliser la politique optimale dfinie par :
* (s ) = arg max a A Q * (s , a ) 3. 25
3.7.2. Dilemme exploration / exploitation

Lexploration de lenvironnement peut se faire en choisissant alatoirement les actions
effectuer suivant une distribution de probabilit uniforme comme
1
P {a t = a } = 3. 26
A
68
On peut orienter lexploration pour la rendre plus efficace : choisir des actions qui
vont mieux renseigner que dautres sur les bonnes dcisions prendre. Lexploration peut par
exemple tre simplement amliore en se basant sur la comptabilisation des paires tat-action
dj rencontres, sur les variations de la fonction Q, ou sur une mmoire des essais les plus
rcents [Sut 90].
On peut aussi exploiter la connaissance apprise sur lenvironnement et la tche

accomplir pour dcider de la probabilit Pr(a|s) de la prochaine action. Pour ce faire, on peut
utiliser une distribution de probabilit de Boltzman [Buf 00], sur les actions de manire ce
que :
Q (s , a ) Q (s , a )
Pr( a s ) = e Tt

b A
e Tt
3. 27
La temprature Tt est prise assez leve au dbut, puis dcrot vers 0 au fur et mesure
que lapprentissage progresse.
T leve T0
Exploration Exploitation
Fig. 3. 10 Distribution de probabilit de Boltzman.
Do lalgorithme du Q-learning :
Initialiser Q(s,a) arbitrairement

Pour chaque pisode
Choisir un point de dpart s
Pour chaque itration dans lpisode
Choisir a en fonction de Q(s,a.) selon la stratgie dexploration
Excuter a
Observer s et r
[
Q (s , a ) = (1 t )Q (s , a ) + t r + max Q (s ' , a ' )
a A
]
ss
jusqu ltat s final
Algorithme. 3. 2 Algorithme de Q-learning [Seh 96].
Il a t prouv, par exemple dans [Jaa 94], que si les espaces dtats et dactions S et A
sont finis, si t est tel que :
69
t
t = et que
t
t
2
.
et si lon passe par chaque tat-action un nombre infini de fois, alors lalgorithme de Q-
learning converge vers Q*.
3.7.3. Q-learning et POMDP

D'aprs le formalisme mathmatique sur lequel sappuie des algorithmes comme le Q-
learning [Seh 96] ou TD() [Sut 98], pour quil y ait convergence le processus de dcision
doit tre markovien : chaque pas de temps, la connaissance de la totalit de ltat prsent est
ncessaire et suffisante pour choisir laction optimale.
Si cet tat nest que partiellement observ, on est dans le cas d'un processus de Markov
partiellement observ (POMDP) et les algorithmes classiques dapprentissage par
renforcement conduisent gnralement des solutions sous-optimales. En sappuyant sur les
remarques et les limitations du Q-learning classique utilis dans les POMDP, Jaakkola et al.
[Jaa 93b] proposent un algorithme de renforcement qui construit des politiques markoviennes
stochastiques.
Bien que les politiques ainsi dfinies soient sous-optimales, ces travaux, avec ceux de
S. Singh et al. [Sin 96] [Buf 00], sont parmi les premiers tudier le comportement des
algorithmes classiques quand les observations sont partielles. Dans certains cas, il peut tre
suffisant de trouver des politiques sous-optimales, et cela est mme ncessaire quand ce sont
les seules que lon peut obtenir en un temps de calcul limit. Si de nombreux travaux utilisent
des algorithmes de Q-learning classiques sur des environnements non markoviens et
obtiennent des rsultats intressants, dans le cas gnral, la convergence du Q-learning n'est
pas dmontre [Sin 96], [Buf 00].
3.7.4. Implantations neuronales du Q-learning

Les rseaux de neurones artificiels prsentent des capacits d'apprentissage,
d'approximation universelle et de gnralisation, [Bla 96], [Joh 00]. Cest pourquoi les
implantations neuronales de lapprentissage par renforcement sont apparues trs rapidement
notamment lorsque le nombre d'tats ou d'actions devenait important, [And 94], [Tou 95].
3.7.4.1. Emploi des rseaux multicouches
Ds 1992, soit 3 annes aprs la thse de Watkins et la publication du Q-learning, Lin

[Lin 92], propose une premire implantation neuronale du Q-learning utilisant des rseaux de
neurones multicouches une sortie. Dans ce cas, lalgorithme de mise jour est un
algorithme de descente de gradient derreur : la rtropropagation. Dans le modle Q-CON
propos par Lin, chaque action possible est associe un rseau perceptron multicouche.
Dans ce cas le problme de laugmentation de la taille mmoire avec le nombre dactions
nest pas rsolu.
Lin en 1992 [Lin 92], [Seh 96], [Tou 99a], ont proposs aussi une implmentation de
l'algorithme AHC-learning sur un rseau de neurones multicouche AHCON .
70
3.7.4.2. Q-learning rcurrent
Lide principale des travaux de Lin [Lin92], et C. Touzet [Tou 94a], est dutiliser un
rseau de neurones pour calculer une approximation de la fonction dutilit du processus.
Pour utiliser linformation contenue dans le pass du processus, il utilise des rseaux
rcurrents comme ceux proposs par Elman [Elm 90]. Larchitecture de Q-rcurrent est
reprsent par le schma suivant [Lin 92] :
Utilit (Q(s,a)
Histoire mmorise
Mmoire
interne
Q-Rseaux
Situation Action
Fig. 3. 11 Architecture de Q-rcurrent [Lin 92].
Ces architectures lui permettent de stocker dans les couches internes des rseaux
rcurrents des informations pertinentes sur le pass du processus. Ces informations dtat sont
ensuite utilises dans une architecture dapprentissage par renforcement neuronale plus
classique. Lapprentissage de rseaux rcurrents posent des problmes thoriques et pratiques
pour lesquelles des solutions performantes ont t proposes [Gui 00], et [Cou 97].
3.7.5. Q-Kohonen
Dans les travaux de S. Sehad [Seh 96] et de C. Touzet [Tou 98b], [Tou 99a], une carte
auto-organisatrice de Kohonen est utilise pour stocker les valeurs dutilit Q. La phase
dapprentissage associe chaque neurone de la carte une paire de situation- action et sa valeur
Q. Cest une mthode de regroupement qui implique des critres de similarit et de localit.
Le nombre de paires mmorises est gal au nombre de neurones.
La structure de voisinage de la carte de Kohonen permet de gnraliser entre paires de

situation-action similaires, [Fis 02]. A la diffrence de limplantation sur perceptron
multicouche, linterprtation des poids est ici possible. De plus, si un comportement correct
est synthtis (i.e. seuls des renforcement positifs ou nuls sont reus), alors tous les neurones
codent des valeurs Q positives ou nulles.
La carte auto-organisatrice est utilise de la manire suivante : la meilleure action

excuter dans une situation donne est fournie par le neurone qui montre la distance la plus
courte avec la situation dentre et une valeur dutilit Q maximale. Le neurone slectionn
correspond un triplet (situation, action, valeur Q). Cest cette action particulire qui devrait
offrir la meilleure rcompense dans la situation actuelle.
Lalgorithme dapprentissage met jour le poids correspondant la valeur Q et aussi

les poids relatifs la situation et laction. Cest le neurone reprsentant la situation et
71
laction effectivement ralises qui est slectionn. La valeur dutilit est actualise en
utilisant lquation de mise jour courante du Q-learning.
Le maximum de la valeur dutilit que lon peut esprer depuis la situation atteinte est
obtenu en utilisant la mmoire associative (carte auto-organisatrice) de manire presque
identique lutilisation prcdente : la situation est la situation atteinte lissue du
mouvement prcdent et cest la valeur dutilit Q (et non pas laction) quil nous intresse de
connatre. En mme temps que le neurone slectionn, ses voisins sont aussi remis jour.
Durant lapprentissage, linfluence sur les voisins dcrot proportionnellement linverse du
nombre ditrations (cest- - dire de mouvements).
3.7.6. Quelques mthodes d'apprentissage drives du Q-learning

Les diffrentes implmentations de Q-learning sont reprsentes par la figure 3.12,
suivante :
Q-Learning
QCON Q-Rcurrent Q-RBF Q-Kohon CMAC-Q Dyna-Q
HQL
Implmentations neuronales
Implmentations non neuronales
Fig. 3. 12 Diffrentes implmentations de Q-learning.
L'algorithme Q-learning est trs utilis dans l'apprentissage par renforcement pour ses
performances de convergence et de reprsentation claire de lvolution de lapprentissage
partir de ltat et laction et aussi pour la simplicit de mise en uvre. Il est limit par lespace
de mmorisation de la fonction valeur des couples (tat, action) mais pour cela il y a t
dvelopp des implmentations neuronales.
3.8 Applications de l'apprentissage par renforcement aux

robots hexapodes
3.8.1. Algorithme Arp et le robot hexapode
Parmi les applications de l'apprentissage par renforcement sur un robot hexapode se
trouvent les travaux de C. Touzet et O. Sarzeaud [Tou 92] [Sarz 91]. S'inspirant des
mcanismes biologiques, les travaux utilisent des rseaux de neurones artificiels pour leur
72
facult d'adaptation et d'apprentissage. Les objectifs atteindre sont premirement de

concevoir une mthode simple de coordination des mouvements des pattes, deuximement
d'valuer l'efficacit d'un algorithme d'apprentissage par renforcement de type Arp pour
calculer les rseaux de neurones [Tou 92], troisimement de gnrer des formes locomotrices
hexapodes similaires celles observes chez les insectes, quatrimement de mener
l'apprentissage sur une structure compose de plusieurs rseaux de neurones interconnects.
Sur la base d'tudes biologiques, ces travaux reposent sur l'hypothse forte selon
laquelle chaque patte d'un insecte est dote de son propre gnrateur de mouvement, les
gnrateurs tant relis par des connexions intra et inter segments inhibitrices [Fer93]. Ainsi
contrairement Pearson en 1976 repris par M.J. Randall [Ran 99] qui a mis l'hypothse de
l'existence d'un gnrateur central de formes locomotrices, il est montr dans ce modle qu'un
gnrateur central des mouvements du robot hexapode n'est pas ncessaire. La structure de
commande des mouvements des pattes est ainsi compose de six circuits neuronaux connects
entre eux sans superviseur. Afin de simplifier le problme du contrle de la locomotion,
seules les positions statiques des pattes et non la dynamique de leurs mouvements sont prises
en compte.
Chaque patte a la possibilit d'avancer, de reculer ou de rester immobile (deux

mouvements possibles pour chaque segment composant les pattes). Seule l'action de recul
avec contact au sol, c'est dire de pousse est motrice. L'algorithme d'apprentissage utilis est
l'algorithme Arp propos par Barto en 1985 cit par C. Touzet [Tou 92], [Joh 94], [Joh 96].
Le neurone de sortie de chaque contrleur est un neurone stochastique qui calcule une
probabilit daction. Les douze entres de chaque contrleur neuronal codent les positions
des segments des pattes. Dans son environnement, le robot a trois comportements possibles :
l'avance, la chute ou l'immobilisme. Chaque rseau de neurones reoit le mme renforcement:
une pnalit en cas de chute, une rcompense en cas d'avance.
Plusieurs marches diffrentes dont la marche tripode sont ainsi apprises par le robot.
Les rsultats obtenus, prouvent que la matrise de la marche ne ncessite pas de gnrateur
central et qu'elle peut tre obtenue par un contrle individuel de chaque patte condition que
leurs mouvements se coordonnent. A. Johannet [Joh 95] poursuit les travaux de C. Touzet
[Tou 92]. Elle utilise la mme architecture de commande en apportant des amliorations pour
atteindre les objectifs suivants : l'vitement d'obstacles et la gnration de marche dgrades
en cas de dfaillance dune des pattes.
D'autre part un robot hexapode est conu et ralis, l'architecture de commande

neuronale est implmente sur le robot, pour gnrer et tester des marches dans un
environnement rel [Joh 95], [Joh 96]. Le modle dvelopp code les mouvements globaux
des pattes (proaction ou rtraction) plutt que les mouvements de chaque segment ce qui
permet de rduire la dimension de l'espace d'tat 26 contre 212 dans le cas du modle
propos par C. Touzet.
Chaque rseau est constitu d'un seul neurone stochastique calculant la probabilit
d'effectuer une proaction ou une rtraction. Le critique retourne le signal de renforcement r(t)
suivant : une rcompense +1 en cas d'avance, une pnalit -1 si le robot chute ou s'il reste
immobile. Deux architectures de commande sont envisages, l'une exploite le renforcement
immdiat, l'autre une prdiction de la somme des renforcements futurs : les deux approches
peuvent tre synthtises par le schma suivant de la figure 3.13.
73
s(t)
si(t)
Interactions robot
environnement
r(t)
Fonction de
renforcement
Re(t)
Fig. 3. 13 Architecture de commande base de rseaux de neurones et lapprentissage par

renforcement (Algorithme Arp).
Rt = r (t ) + r (t + 1) + 2 r (t + 2) + .... + N r (t + N ) 3. 28
Avec N grand.
L'esprance des gains futurs Re(t) peut-tre estime par un rseau neurones N tel que :
Re (t + 1) = N {s (t + 1), s (t ), Re (t )} 3. 29
L'erreur de sortie Re (t ) est gale :
Re (t ) = [r (t ) + Re (t + 1) Re (t )] 3. 30
Lorsque seul le renforcement immdiat est utilis, on a :
Re (t ) = R(t ) = r (t ) 3. 31
Chacun des rseaux de commande calcule la probabilit de l'action : la sortie si du
rseau de commande de la patte i vaut +1 (proaction) avec la probabilit
P(+ 1) = 1
(1 + exp( 2 vi )) 3. 32
et -1 (rtraction) avec la probabilit

P ( 1) = 1
(1 exp(+ 2 vi )) 3. 33
O vi est le potentiel neuronal tel que :
vi = cij e j + bi 3. 34
ij
Avec bi un terme de bruit additionnel permettant l'exploration. L'actualisation d'un

coefficient synaptique cij reliant l'entre ej du neurone de commande de sortie si est telle que :
cij (t + 1) = cij (t ) + {E (si (t )) r (t ) si (t )} e j (t ) 3. 35
O E(si(t)) est la valeur moyenne de la sortie si un grand nombre d'essais taient

effectus partir du mme rseau et des mmes entres. On a alors :
E (si (t )) = (+ 1) P (+ 1) + ( 1) P ( 1) = th( vi ) 3. 36
74
Moyennant un choix correct des paramtres et l'algorithme converge, la

convergence tant obtenue en une centaine ditrations dans 70% des essais. La marche
tripode est la plus frquemment trouve. Ltude de linfluence des paramtres
d'apprentissage montre que les corrections synaptiques doivent tre beaucoup plus
importantes en cas de rcompense quen cas de pnalit car le nombre dchecs en dbut
dapprentissage est nettement plus leve que le nombre de succs. Par consquent le pas de
gradient doit tre plus petit en cas d'chec qu'en cas de succs.
Dautre part, le choix de la pente de la fonction dvaluation dun neurone de sortie

influe qualitativement sur lapprentissage. Si cette pente est trop faible, lapprentissage est
trs long et peut ne pas aboutir. Si la pente est trop raide, le rseau de neurones adopte un
comportement dterministe mais n'apprend pas.
Lvitement dobstacle est ralis par un deuxime rseau de neurones fonctionnant en

parallle avec le premier. Ce rseau est activ ds la dtection dun obstacle. Il garde seul le
contrle des mouvements tant que dix pas nont pas t effectus en absence dobstacle. Il
rend alors le contrle au rseau pilotant la marche en situation normale. Le critique pnalise la
chute, l'immobilisme, le maintient proximit de l'obstacle, le recul sans changement de
direction. La marche dgrade assure le dplacement sans chute du robot, malgr une panne.
Ce type de marche peut tre acquis par le robot lorsque une des entres des rseaux de
commande reste bloque (traduisant par exemple qu'une des pattes est bloque en position
basse) et ceci que la panne arrive en dbut d'apprentissage ou en cours d'apprentissage de la
marche.
Les travaux de C. Touzet et de A. Johannet n'exploitent qu'un modle statique du

robot, ce qui reste insuffisant pour dcrire une marche rapide. Les nombres d'tats et d'actions
considrs restent faibles et ne permettent pas de dcrire la diversit des mouvements et des
positions ncessaires une volution en terrain accident. En particulier l'algorithme Arp ne
permet pas d'envisager d'autres actions que binaires. On peut aussi reprocher ces approches
que lattribution des pnalits et rcompenses nest pas locale, cest dire que si une patte fait
une erreur la pnalit est applique toutes les autres, mme celles qui ont pris une dcision
correcte.
3.8.2. Algorithme -learning et comparaison avec Q-learning
Une autre application de l'apprentissage par renforcement au robot hexapode est

propose par J.M. Porta [Por 00c] qui constate quun robot dans un monde rel a besoin d'un
grand nombre de capteurs mais que tous ne fournissent pas des informations pertinentes pour
la tche effectuer. Ainsi, il introduit un nouvel algorithme d'apprentissage qu'il nomme -
learning dont l'objectif est de dcouvrir les sous-ensembles de capteurs qui donnent les
meilleures informations sur l'environnement pour que le robot choisisse les actions
maximisant les rcompenses.
Le -learning s'inspire du Q-learning mais plusieurs tables de fonction valeurs sont

mises jour, chacune tant lie un groupe de capteurs. Le principe de l'algorithme (-
learning) est le suivant :
Les capteurs sont rpartis en plusieurs groupes. La confiance que l'on peut accorder
un groupe de capteurs est inversement proportionnelle l'erreur de prdiction des gains futurs
calculs partir de ce groupe de capteur. L'action excuter est dtermine partir des
75
valeurs d'utilit Q(s, a) correspondant au groupe de capteurs en qui la confiance est la plus
grande. Aprs chaque nouvelle action, les tables de prdiction des gains futurs estims partir
de chacun des groupes de capteurs sont mis jour ainsi que l'erreur de prdiction des gains
futurs. Les capteurs les moins srs sont limins. La mthode a t value sur un simulateur
de robot hexapode de type Genhis II. Chaque patte a deux actions possibles (proaction ou
rtraction), donc il y a 26 actions possibles. L'tat du robot est caractris par la position des
pattes : une entre binaire traduit que la patte est en contact avec le sol ou non, une seconde
entre binaire repre si la patte est situe vers l'avant ou vers l'arrire de son espace de travail.
Si le robot tombe il reoit une pnalit, s'il avance il reoit une rcompense. L'exploration est
assure par le choix d'une action selon une distribution de probabilit de Boltzmann.
Les rsultats obtenus sont les suivants :
Bien que le -learning augmente le temps de calcul proportionnellement au nombre de

groupes de capteurs retenus, il utilise moins de mmoire que le Q-learning. Sur le simulateur
considr, l'apprentissage de la marche tripode demande moins d'expriences avec
l'algorithme -learning qu'avec l'algorithme Q-learning. Enfin en ajoutant seulement un ou
deux capteurs binaires valeurs alatoires, l'apprentissage avec le Q-learning est nettement
plus long qu'avec le -learning. Cette tude est trs intressante car elle ouvre des
perspectives pour la slection automatique d'informations pertinentes pour l'apprentissage.
Cependant d'aprs l'auteur lui mme, il reste prouver la convergence de l'algorithme et
l'amliorer en introduisant des mthodes de gnralisation (ce qui pourrait dcrotre le nombre
de groupes de capteur considrer).
3.8.3. Apprentissage par renforcement des rgles de dcision

Les travaux de M.M. Svinin [Svi 01], porte sur la commande du dplacement dun
robot marcheur selon une approche base de rgles et dapprentissage par renforcement. Ce
robot na pas de connaissance a priori sur lenvironnement, et cherche atteindre un point
particulier de lespace partir dune position et dune orientation initiales quelconques. Une
rgle associe un vecteur dentre (compos de valeurs particulires des capteurs du robot)
une action. Lapprentissage consiste slectionner les rgles les plus pertinentes pour
atteindre lobjectif. Le systme de dcision est conu selon les quatre processus suivants :
Choix des rgles en comptition
Dans un tat donn, on slectionne les rgles pour lesquelles la somme pondre des
carts quadratiques entre les composantes du vecteur dentre et les valeurs des capteurs sont
les plus petites. Le facteur de pondration pour chaque capteur varie ente 0 et 1 ce qui peut
permettre de tenir compte diffremment des informations dlivres par les capteurs.
Slection dune action
A chaque rgle est associe une utilit. La rgle la plus utile est applique selon une
distribution de probabilit de Boltzmann.
Calcul de lutilit dune rgle
Lutilit dune rgle augmente ou diminue selon que son application provoque une
rcompense ou une pnalit. Le renforcement est propag sur les rgles antcdentes avec un
76
facteur de pondration dcroissant lorsque on remonte dans le pass. La variation de lutilit

est affecte la rgle qui vient de recevoir un signal de renforcement et aussi la rgle
prcdemment applique. Lutilit des rgles est diminue lgrement chaque itration (ce
qui permet de supprimer linfluence des rgles inutiles).
Gnration dune nouvelle rgle
A chaque itration la rgle qui vient dtre applique donne naissance une nouvelle
rgle sauf si le robot a chut ou a fait un mouvement arrire. La nouvelle rgle cre admet
alors pour vecteur dentre ltat des capteurs au moment o lancienne rgle a t applique,
un nouveau jeu de coefficient de pondration et une valeur dutilit drivs de lancienne
rgle. Chaque patte du robot deux degrs de libert et peut effectuer quatre mouvements
(baisse et tourne vers lavant, baisse et tourne vers larrire, monte et tourne vers larrire,
monte et tourne vers lavant), les mouvements ayant des amplitudes fixes. Pendant
lapprentissage le systme sauto-organise selon la squence des pnalits (cas dune chute
ou dun retour en arrire) et des rcompenses (avance ou atteinte de lobjectif).
Il est montr en simulation que le robot apprend marcher en direction de lobjectif

sans tomber mais ne il ne suit pas forcment le chemin le plus court.
3.8.4. Q-learning hirarchique (HQL)

Parmi les applications de l'apprentissage par renforcement un robot hexapode nous
trouvons les travaux sur le Q-learning hirarchique (HQL) de F. Kirchner [Kir 95a], [Kir
95b], [Kir 97], ou de T.G. Dietterich [Die 00]. Remarquant que le temps allou la rsolution
d'une tche en robotique est rarement suffisant pour mener un apprentissage et que
l'exploration doit rester sous contrle pour limiter les risques de dtrioration, Kirchner
prconise une dcomposition pralable des tches en sous tches plus simples et leur
rsolution progressive. Il propose alors une architecture de commande dcompose en
niveaux et organise de faon hirarchique, les niveaux suprieurs commandant les niveaux
infrieurs. Les objectifs dfinis un niveau n sont atteints si les actions excutes au
niveau n-1 sont correctes. Ainsi les signaux de rcompense et de pnalits sont attribus
de niveau en niveau du haut vers le bas. Cette approche t value sur un simulateur de
robot hexapode (Sir Arthur). Ce robot est constitu de trois segments, chaque segment
possdant deux pattes, chaque patte ayant deux degrs de liberts et pouvant excuter quatre
mouvements vers le haut, vers le bas, vers l'avant, vers larrire. Le niveau le plus bas pilote
les mouvements de base des pattes : monter, descendre, orienter vers l'avant, orienter vers
l'arrire. Chaque patte peut prsenter 100 tats diffrents. Le niveau intermdiaire prend en
charge la marche et coordonne les mouvements de base en dfinissant d'une part quelles
pattes doivent tre couples (c'est dire effectuer simultanment les mmes mouvements de
base) et la squence des mouvements de base excuter. Le niveau suprieur prend en charge
la poursuite des objectifs atteindre dans l'environnement..
3.9 Tableaux rcapitulatifs

Nous avons dress les tableaux rcapitulatifs des mthodes d'apprentissage par
renforcement (tableau.3.1) et des algorithmes d'apprentissages par renforcement issus de ces
mthodes (tableau.3.2) considrs dans ce chapitre.
77
Mthodes DP Mthodes MC Mthodes TD(0)

Type de processus MDP pas seulement MDP MDP
recommands
Il faut connatre le Oui Non Non
modle du ((s, a), Pass' , Rass' )
processus connatre
Le calcul implique Oui Non Oui
une valeur estime
('Bootstrapping')
Profondeur de Scrute toutes les actions Droule un pisode complet Actualise partir de du
l'espace de possibles partir d'un tat et pour apprendre renforcement immdiat et de
recherche actualise partir des valeurs la valeur estime de l'tat
estimes des tats suivants suivant
Preuves de Oui (pour MDP) Oui pour valuation V Oui pour MDP et pas
convergence Convergence vers * non d'apprentissage
prouve suffisamment petit.
Complexit de Temps de calcul polynomial Estimation plus prcise si Calcul simple, sur tous les
calcul avec le nombre d'tats (qui grand nombre d'pisodes. tats un grand nombre de fois
crot de faon exponentielle
avec le nombre de variables)
Possibilit Oui, Partiellement Oui,
d'algorithme actualisation un pas de actualisation un pas de
incrmental temps temps
Avantages Thoriquement important Bas seulement sur les Apprentissage sans attendre
(optimisation, commande rsultats de l'interaction relle l'issue de l'pisode.
optimale) ou simule avec un Conduit a de nombreux
environnement. algorithmes d'apprentissages.
Pas besoin de scruter tous les
tats.
Inconvnients Limit des problmes de Efficacit en pratique peu Limitation d'implmentation
quelques millions d'tats. value. avec des variables continues.
Seulement pour des tches Problme de choix parmi les
pisodiques algorithmes d'apprentissage.
Tableau. 3. 1 Diffrents mthodes d'apprentissage par renforcement.
Algorithmes Caractristiques Limitations

Bas sur des fonctions d'valuation, et de Problme de conception des
Algorithme AHC- slection spares. deux fonctions.
Learning,
Proprits peu matrises
(convergence, sensibilit aux
R. Sutton en 1984.
paramtres)
Bas sur un modle de neurones Actions binaires
stochastiques calculant une probabilit Ne calcule pas de valeur
Algorithme Arp, d'excuter une action pour un tat donn. d'utilit
Ne calcule pas de valeur d'utilit
propos par A.G. Barto et
P. Anandan en 1985. Adaptable l'apprentissage de rseau de
neurones multicouche avec neurones de
sortie binaires et stochastiques
Convergence prouve pour une action
binaire et entres linairement
indpendantes.
Bas sur le calcul de la fonction valeur-tat- Taille de la mmoire Q(s,a)
action Q(s,a) augmente
Algorithme SARSA,
Algorithme de contrle de type "On-policy" proportionnellement |S|*|A|
(la politique d'exploration est la politique Problme de gnralisation
78
Sutton en 1998. optimise) Sensible la stratgie

Actualisationde Q lors du passage d'une d'exploration.
paire (s,a) vers un autre paire (s',a').
Convergence, non prouve en gnral,
dpend du choix de la stratgie
d'exploration
Bas sur le calcul de la fonction valeur-tat- Taille de la mmoire Q(s,a)
action Q(s,a) augmente
Algorithme de contrle de type "off-policy" proportionnellement |S|*|A|
Algorithme Q-Learning,
(politique d'exploration indpendante de la Problme de gnralisation
politique optimise)
propos par Watkins en
1989. Bas sur itration de politique gnralis
(GPI).
La fonction Q approche directement la
fonction optimale Q*.
Convergence prouve sous conditions.
Bass sur une structure de mmoire spare Modle de base important
Algorithmes Critique pour la reprsentation explicite de la conduisant des ralisations
/Acteur, politique de choix d'action ('acteur') et la diverses aux proprits
propos par A.G. Barto en fonction valeur-tat ('Critique'). encore mal connues.
1983.
Algorithme de contrle de type "On-policy"
Ractualisation selon la mthode TD.
Choix d'action ncessitant peu de calculs.
Apprentissage d'une politique stochastique
possible
Pour processus non pisodiques, sans Celles du Q-learning
pondration sur le renforcement. Suppose que tout tat est
Algorithme R-Learning,
Cherche maximiser l'esprance des gains atteignable selon la politique
sur un pas de temps. .
propos par Schwartz en
1993 Algorithme de contrle de type "off- Mthode encore peu
policy", variante du Q-learning. exprimente et aux
proprits mal connues.
Algorithme B-Learning, Architecture du AHC-learning. Celles du AHC learning
Prise en compte de la driv de la fonction
propos par T. Langlois en
valeur tat pour la slection d'action.
1993
Moyenne les estimations calcules avec les Celles des mthodes parentes
renforcements obtenus sur n pas (TD(0) (TD,SARSA...)
tient compte uniquement du renforcement Prcautions prendre pour
Algorithmes TD(),Q(), immdiat) l'actualisation pour les
SARSA(), critique- L'actualisation des fonctions valeurs est mthodes "off policy" (arrt
acteur( ), propages aux tats et action prcdents de propagation sur les tats
avec un taux de diffusion . avec exploration).
R. Sutton en 1998.
Permet d'acclrer l'apprentissage par
rapport au TD simple (TD(0)).
Mthodes plus gnrales et apprentissage
plus efficace.
Convergence du TD() prouve dans le cas
linaire par P. Dayan.
79
Algorithmes implments sur des rseaux Celles des mthodes parentes

Algorithmes QCON et neurones multicouches une sortie. (mais gnralisation amlior)
AHCON,
Traite le problme de la gnralisation sur Problme de taille de
les tats mmoire (pour chaque action
proposs par Lin en 1992
Chaque action possible est associe un possible il faut un rseau de
rseau de neurones multicouche. neurones).
Pas de gnralisation sur les
actions
Algorithme Q-learning implment sur des Celles du Q-learning (mais
Algorithme Q-rcurrent, rseaux neurones rcurrents.d'Elman. gnralisation amlior)
Permet de stocker dans les couches internes Apprentissage des rseaux
propos par Lin en 1992
des rseaux rcurrents des informations rcurrents matriser.
pertinentes sur le pass du processus.
Implmentation du Q-learning sur des Celles du Q-learning (mais
Algorithme Q-RBF, rseaux de neurones fonctions de base gnralisation amlior)
radiales (radial basis function (RBF)). Estimation du nombre et de
propos par Anderson en
Prropos pour rsoudre le problme de la la position des gaussiennes
1993
gnralisation. ncessaires pour couvrir
l'espace de situation.
Algorithme Q-learning avec carte auto- Deux techniques matriser
Algorithme Q-Kohonen, organisatrice de Kohonen. (apprentissage non supervis
Un mme noeud de la carte code, l'tat, (cartes de Kohonen), et
S.Sehad en l'action et la valeur Q(s,a) associe. apprentissage par
renforcement.
1996 Traite le problme de gnralisation
(espace d'tat et d'action) Une mme carte code les
espaces d'tat et d'action.
Bonnes performances (rapidit,
gnralisation)
Apprentissage des rgles les plus Peu expriment, proprits
Apprentissage par pertinentes pour atteindre un objectif. mal connues.
renforcement des rgles,
Le systme de dcision est conu selon :
- choix des rgles en comptition.
propos par M.M. Svinin
- slection d'une action
en 2001
- calcul de l'utilit d'une rgle
- gnration d'une nouvelle rgle.
Inspir du Q-learning, permet de Augmentation du temps de

slectionner automatiquement le groupe de calcul avec le nombre de
Algorithme -learning, capteurs fournissant les informations les groupes de capteurs retenus.
plus pertinentes pour l'apprentissage Convergence de l'algorithme
propos par J.M. Porta en Q-learning avec plusieurs tables de fonction non prouve
2000 valeurs mises jour, chacune tant lie un Problme de gnralisation
groupe de capteurs non rsolu
L'apprentissage avec -learning est
plus rapide que Q-learning.
Dcompose lapprentissage dune tche en Celles du Q-learning
Algorithmes Q-learning plusieurs apprentissages de tches plus Dcomposition en sous
hirarchique (HQL), simples. tches pas vidente
Les objectifs dfinis un niveau n sont
propos par
atteints si les actions excutes au niveau
F. Kirchner en 1995
n-1 sont correctes.
Les renforcements sont attribus de niveau
en niveau du haut vers le bas.
Tableau. 3. 2 Diffrents algorithmes d'apprentissage par renforcement.
80
3.10 Conclusion
Au cours de ce chapitre, nous avons prsent les bases de l'apprentissage par
renforcement (AR) et des formalismes aidant les dcrire tels que les processus de dcision
de Markov (PDM). Nous avons prsent brivement quelques mthodes AR comme les
mthodes de programmation dynamique (DP), qui ncessitent un modle de l'environnement
souvent difficile obtenir. Ces mthodes consomment un temps de calcul important lorsque
les nombres d'tat et d'action sont grands.
A l'encontre des mthodes DP, les mthodes de Monte Carlo (MC) ne supposent pas
connu un modle de l'environnement mais pour apprendre, un grand nombre d'pisodes
doivent tre drouls. Puis nous nous sommes focaliss sur les mthodes de diffrences
temporelles (TD), qui ne ncessitent pour apprendre ni modle de l'environnement ni
ralisation d'pisodes complets.
Parmi le grand nombre d'algorithmes issus des mthodes TD, nous avons dcrit
brivement les plus connus et nous avons insist sur l'algorithme Q-learning qui est le plus
utilis.
Parmi les solutions proposes pour rsoudre les problmes de l'AR classique comme la
limitation de la mmoire et la gnralisation, nous avons prsent des solutions bases sur
l'approximation base de mthodes neuronales. Nous avons trait aussi le problme du
dilemme Exploration\ Exploitation particulirement sensible pour les systmes de grandes
dimensions et avons cit quelques mthodes d'exploration comme la mthode de softmax
qui est base sur la distribution de probabilit de Boltzmann. Enfin, nous avons dcrit
quelques applications de l'apprentissage par renforcement au robot hexapode. Les rsultats
obtenus sont rsums par les points suivants :
La gnration locomotrice d'un robot hexapode ne ncessite pas de contrleur central

(C. Touzet).
L'AR base de rseaux de neurones est efficace pour la gnration locomotrice d'un
robot hexapode et est intressant pour ses capacits de mmoire et de gnralisation
(C. Touzet).
L'vitement d'obstacle peut tre trait par un second rseau neuronal plac en parallle
au rseau charg de la marche normale (A. Johannet).
La mthode -Learning inspire du Q-learning permet de slectionner

automatiquement le groupe de capteurs fournissant les informations les plus
pertinentes pour l'apprentissage (J.M. Porta).
Il peut tre intressant de dcomposer lapprentissage dune tche complique en

plusieurs apprentissages de tches plus simples, comme le propose F. Krichner avec le
Q-learning hirarchique.
Cependant on remarque que la fonction critique reste centralise, les signaux de

renforcement tant les mmes pour tous les agents (ici les systmes de commande des pattes)
ce qui peut conduire pnaliser un agent ayant excut une action correcte. D'autre part les
dcisions prisent au niveau de chaque agent influencent l'apprentissage des autres agents. Les
81
travaux cits prcdemment ne tiennent pas compte de cette dpendance et considre que
chaque circuit de commande peut tre calcul comme s'il tait seul. Ces rsultats et remarques
nous amnent poser les questions suivantes :
1. Comment dcomposer la tche globale de locomotion en tches locales contribuant

un objectif commun ?
2. Comment coordonner les agents pour atteindre l'objectif global ?
3. Comment dcentraliser et distribuer la fonction critique ?
4. Comment utiliser l'exprience acquise sur des tches simples pour traiter des tches
plus complexes ?
5. Comment partager les connaissances entre plusieurs agents ?
Pour rpondre ces questions, nous prsentons dans le chapitre suivant les
architectures de commandes non centralises et les systmes multi-acteurs.
82
Chapitre 4
Apprentissage par renforcement et

systmes non centraliss
" L'esprit est clips par l'esprit, comme un diamant par un autre diamant. "
W. Congreve
4.1 Introduction
Nous avons prsent dans le chapitre prcdent des applications de lapprentissage par
renforcement pour la commande de robots hexapodes. Nous avons mis en vidence, comme
voie damlioration, lintrt de dlocaliser les centres dapprentissage et de dcision vers
chaque entit oprationnelle. Nous posons ici le problme de lapprentissage dune tche
devant tre ralise collectivement par plusieurs entits distantes les unes des autres.
Afin de dgager des solutions pour mener cet apprentissage nous comparons dans ce
chapitre les architectures de pilotage centralises et non centralises et des modes
apprentissage par renforcement correspondant.
Nous posons une problmatique d'actions collectives dans un environnement distribu,

dans lequel un ensemble d'acteurs (agents ractifs) apprennent en dveloppant un certain
niveau de coopration.
Nous prsentons dans ce cadre des algorithmes de Q-learning existant comme le

Qminmax-learning et le Q-multiagents.
83
Chapitre 4 : Apprentissage par renforcement et systmes non centraliss
4.2 Diffrentes architectures de coordination

La figure 4.1 dcrit diffrents types darchitectures de coordination des
systmes. Nous prsentons chaque architecture avec leurs avantages et leurs inconvnients.
Architectures des systmes
Architecture Architecture
centralise Non-centralise
Architectures Architectures
hirarchiques htrarchiques
Architectures Architectures
hirarchises hirarchises
modifies
Architecture hybride
Architecture
distribue
Fig. 4. 1 Diffrentes architectures des systmes.
4.3 Architectures centralises

L'architecture centralise a un seul agent qui planifie, prend les dcisions, pilote tous
les mcanismes de coordination et maintient l'information globale sur l'ensemble des autres
agents [Rea 03]. Cette architecture est reprsente par le schma suivant :
84
1 Agent
central
Ordres
Informations
2
Agents
Fig. 4. 2 Architecture centralise.
Les avantages de cette architecture sont les suivants [Rea 03] :
- L'agent central dispose dune vue globale sur le systme complet.

- Les communications entre agents sont rduites.
- Le nombre dunits de contrle, de moyens de traitement et de gestion de
linformation est limit
- Il est possible doptimiser de faon globale la gestion de l'information.
Mais cette architecture prsente les dfauts suivants [Rea 03] :
- La vitesse de rponse dpend de la dimension du systme (c'est dire lorsque le

nombre d'agents augmente la vitesse des communications dcrot).
- Le systme est peu robuste, car il est sensible aux fautes du dcideur central.
- Il faut que l'agent central dispose des informations globales chaque instant, ce qui
n'est pas toujours raliste.
- Il est difficile de faire voluer le systme cause de la non modularit.
Pour viter ces inconvnients, les recherches se sont alors portes sur des architectures
non centralises.
4.4 Architectures non centralises

4.4.1. Architectures hirarchiques
L'architecture hirarchique est une architecture que nous pouvons observer dans la vie
sociale. Ce type d'architecture est compos de plusieurs niveaux de sous-systmes (ou de sous
contrleurs) avec au niveau suprieur une centralisation locale.
C'est dire que chaque niveau a un dcideur central qui contrle et coordonne les
autres agents du mme niveau. Les relations entre les agents du mme niveau sont
indpendantes des niveaux suprieurs. Mais il y a une relation de matre (niveau suprieur) et
esclave (niveau infrieur) entre les niveaux [Rea 03]
Dans cette architecture, chaque niveau dpend du niveau suprieur, et domine le

niveau infrieur [Puj 02], [Rea 03]. Cette architecture est reprsente par le schma suivant :
85
Agent
Niveau 1
central
Contrle
Niveau 2
Niveau 3
Fig. 4. 3 Architecture hirarchise.
Il existe une autre forme d'architecture hirarchique o les agents du mme niveau
peuvent se coordonner entre eux et communiquer. Ce type d'architecture est appel
architecture hirarchique modifie. Jai dvelopp une telle architecture dans mon stage de
D.E.A. [Zen 00] portant sur la commande dun bras de robot deux axes. La commande dun
tel systme est complique parce que le systme est non linaire.
Pour cela nous avons dcompos le systme non linaire en trois sous systmes
linaires (linarisation autour de trois points de fonctionnement) et nous avons utilis trois
contrleurs calculs autour de ces mmes points. Chaque contrleur est indpendant des
autres et a pour but dassurer un bon fonctionnement local, et lensemble doit assurer le bon
fonctionnement du systme non linaire. La commande du systme non linaire est gale la
somme pondre des trois commandes. Un niveau suprieur dcide de la pondration de
chaque contrleur.
Larchitecture hirarchique modifie est reprsente par le schma de la figure 5.4.

Parmi les avantages de cette architecture on peut relever les points positifs suivants [Rea 03] :
- Conformit par rapport la rsolution classique des problmes

- Rponses plus rapides grce au couplage matre/ esclave entre les agents
- Optimisation globale
- La robustesse est plus importante que dans le cas d'une architecture centralise
- L'architecture est plus flexible par rapport au nombre d'agents et adaptative par
rapport aux nouvelles situations des agents.
Et les inconvnients sont dus aux aspects suivants [Rea 03] :
- Problmes de transfert, de partage des informations et de coordination entre les

agents du mme niveau
- Problme dvolutivit : pour effectuer des modifications de structure il faut
refondre tout le systme et mettre jour les structures de plus haut niveau dans
larchitecture [Bru 98],
- Problme de conception de la structure : chaque agent "contrleur" doit considrer
toutes les situations possibles des composantes de niveaux infrieurs lui [Dil 91],
- Problme de perturbation imprvue, comme la panne dune ressource qui rend la
planification et lordonnancement pour le contrleur de niveau lev invalide [Duf
94],
86
- Problme de robustesse dans le cas o le contrleur central de haut niveau tombe en

panne. Cette situation exige l'arrt total du systme.
Agent
Niveau 1
centrale
Contrle
Niveau 2
Niveau 3
Coordination et communication
Fig. 4. 4 Architecture hirarchise modifie.
4.4.2. Architectures htrarchiques
L'architecture htrarchique, est une architecture l'oppos de l'architecture

hirarchique. Dans cette architecture il n'y a pas de relation matre / esclave. Les agents sont
considrs au mme niveau et ont tous les mmes possibilits de participer la prise de
dcision. Cette architecture renvoie l'ide d'agents diffrents qui assument en collgialit la
coordination d'une action collective donne et soppose par essence au terme hirarchie. Le
terme htrarchique est form partir de deux termes grecs : heteros (autre) et Arckhein
(commander), signifiant ainsi lorigine commandement par les autres [Rea 03].
Larchitecture htrarchique peut tre une architecture dcentralise ou une architecture
distribue. Cette architecture est reprsente par le schma de la figure 4.5 suivante :
Communication
Contrleurs
Actions
Fig. 4. 5 Architecture htrarchique.
87
Les agents dans cette architecture disposent des proprits suivantes [Rea 03] :
- Ils ont le mme droit d'accs aux ressources.

- La communication entre eux peut tre fortement dveloppe.
- Les agents sont indpendants pendant le fonctionnement.
- Pour atteindre l'objectif du systme global la collaboration et le travail collectif sont
ncessaires
- Les agents sont autonomes.
Cette architecture a t dploye en productique et dans la robotique. Par exemple dans

la productique, Lin et Solberg utilisent une architecture htrarchique pour le pilotage dun
atelier de production [Lin 92]. Le projet europen PABADIS Plant Automation Based on
Distributed System utilise une organisation dcentralise pour la reconfiguration
automatique et dynamique des chanes de production [Rea 03].
En robotique, nous avons par exemple les travaux de Full [Ful 93], o une architecture
htrarchique (distribue) a t utilise pour contrler la marche d'un robot hexapode.
Parmi les avantages de cette architecture nous avons [Rea 03] :
- L'amlioration de la flexibilit du systme (possibilit dajouter ou de retirer

facilement des agents)
- L'augmentation de la robustesse (tolrance aux fautes)
- L'amlioration de l'adaptation au changement des situations des agents ou de
l'environnement.
- Des agents autonomes et simples.
- Partage d'informations locales et globales
Mais, cette architecture prsente aussi quelques inconvnients. Nous pouvons souligner
que [Rea 03] :
- La communication peut devenir trs complexe

- La coordination entre les agents est trs importante et aussi complexe.
- La ralisation de l'objectif global est bas sur les objectifs locaux et est trs difficile
a assur [Duf 96], [Mas 01],
- Les performances globales du systme dpendent du choix des rgles locales et des
protocoles de ngociation entre les entits [Dil 91],
Dans notre travail on confond architecture dcentralise et architecture distribue, c'est

dire que dans ou les cas il y a une distribution de l'intelligence et de l'autonomie.
4.4.3. Architectures hybrides
L'architecture hybride a t propose pour rsoudre les problmes de l'architecture

hirarchique et de l'architecture htrarchique. Cette architecture est base sur les proprits
des deux architectures.
88
Dans la structure hybride, les agents de contrle de mme niveau hirarchique sont
interconnects via un mme moyen de contrle. Ils sont capables de communiquer et de
cooprer pour satisfaire leurs objectifs locaux. Lors de perturbations, lensemble des agents de
contrle peut demander de laide leur moyen de contrle pour rsoudre les problmes
dtects.
Cette architecture est reprsente par le schma de la figure 4.6 suivante :
Contrleurs
Niveau 1
Communication Contrleurs
et contrle Niveau 2
Communication
Actions
Fig. 4. 6 Architecture hybride.
Parmi les avantages et les inconvnients de cette architecture on a [Rea 03] :
- Les avantages des deux architectures (hirarchique et htrarchique)
- Problme de trouver le bon compromis entre la supervision au niveau hirarchique

et le degr dautonomie attribu aux niveaux htrarchiques. Ce compromis assure
la stabilit et ladaptation au changement de situation d'un environnement complexe
Pour les architectures prsentes, nous pouvons dvelopper plusieurs architectures

dapprentissage par renforcement. Nous nous sommes focaliss dans notre travail sur deux
architectures qui sont : larchitecture dapprentissage centralise et larchitecture
dapprentissage distribue.
4.5 Approche centralise de lapprentissage par

renforcement
Considrant un modle fonctionnel gnral de lapprentissage par renforcement
comportant les fonctions de mise jour (valuation des valeurs associes aux tats ou aux
couples tats actions) et de slection (choix de laction excuter), limplmentation
centralise de lapprentissage par renforcement est reprsente par le schma de la figure 4.7
suivante :
89
signal de
renforcement Fonction de mise jour
Evironnement unique actions des agents
Fonction de slection
Situations S unique
Agent 1 Agent k Agent M
Actions agent 1 Actions agent k Actions agent M
Fig. 4. 7 Architecture centralise de lapprentissage par renforcement.
Un agent unique centralise lensemble des informations de renforcement, dtat et

dactions, met jour la mmoire centrale et dcide la politique dactions de chacun.
Une premire tape de dcentralisation peut tre introduite en rendant indpendantes

les fonctions de slection de chaque agent. Les agents peuvent alors suivre des politiques
dexploration ou dexploitation diffrentes partir dune mmoire de valeurs dtat ou de
couple tat action unique. Ce choix diffrent de politique peut tre induit par des contraintes
locales. Certains agents doivent alors compenser les insuffisances dautres.
Nous avons rencontr une telle architecture (que nous considrons comme
hirachique) dans le chapitre prcdent propos des travaux de A. Johannet sur la commande
de la marche dun robot hexapode [Joh 95]. Chaque agent est un contrleur stochastique
indpendant commandant une patte du robot hexapode. Lagent central est un mcanisme de
mis jour des contrleurs selon un algorithme dapprentissage par renforcement Arp
dvelopp par Barto 1985. Cette application est reprsente par le schma de la figure 4.8.
signal de
Fonction de mise
renforcement actions des agents
jour
Environnement
Situations
S
Fonctions de
slection
indpendantes
Actions agent 1 Actions agent k Actions agent M
Fig. 4. 8 Exemple darchitecture hirarchise de lapprentissage par renforcement.
90
Nous avons aussi rencontr au chapitre prcdent une architecture hirarchique

plusieurs niveaux avec les travaux de F. Kirchner [Kir 97] qui propose une architecture dans
laquelle les niveaux suprieurs commandent les niveaux infrieurs. Les objectifs dfinis un
niveau n sont atteints si les actions excutes au niveau n-1 sont correctes. Ainsi les signaux
de rcompense et de pnalits sont attribus de niveau en niveau du haut vers le bas.
4.6 Approche distribue de lapprentissage par

renforcement
Le dveloppement darchitecture distribue pour des systmes ou pour lapprentissage
par renforcement apparat partir les annes 90, comme par exemple la dcomposition des
tches propose par R.A. Brooks [Bro 91]. Les systmes se complexifient. Pour simplifier le
pilotage de la tche globale et ne pas utiliser de contrleur central, lide est d'utiliser des
contrleurs plus simples de mme niveaux de dcision et ralisant des sous tches o le but
est de satisfaire l'objectif global.
Chaque agent peut avoir une perception locale ou partielle de l'environnement et son
propre signal de renforcement diffrent de celui des autres. Cette implmentation de
lapprentissage par renforcement sur des systmes distribus est reprsente par le schma
suivant :
Renforcement r0 Renforcement rk Renforcement rM

E
n
Fonction de Fonction de Fonction de v
mise jour mise jour mise jour i
Agent 1 r
Agent k Agent M
Situations Sk Situations SM o
Situations S1
n
n
e
Fonction de Fonction de Fonction de
m
slection slection slection
e
n
t
Action 1 Action k Action M
Fig. 4. 9 Approche distribue de lapprentissage par renforcement.
91
Dans le cas o les agents participent la mme tche se pose le problme de la

possibilit de coopration entre ces agents. Cette problmatique est pose dans le paragraphe
suivant.
4.7 Actions collectives dans les systmes distribus
4.7.1. Des agents ractifs associs la mme tche
Le fait de distribuer le problme et sa rsolution donne la possibilit davoir des

mcanismes de raisonnement plus simples situs un niveau local. Chaque agent contribue
la rsolution du problme commun en prenant en compte le contexte local quil peut
influencer par son comportement [Ado 03].
Lorsquil ny a pas de systme de contrle global, chaque agent prend ses propres
dcisions. Selon les facults de reprsentation du monde, de raisonnement et dinteraction
entre agents, on peut tablir plusieurs niveaux de coopration entre agents qui sont lis aux
quatre niveaux de :
Niveau 1 : lagent apprend partir de ses observations de lenvironnement sans

interactions directes avec dautres agents (par contre linteraction peut-tre indirecte,
chacun des agents modifiant lenvironnement par ses actions)
Niveau 2 : lapprentissage est influenc par lobservation du comportement dautres

agents. Le processus conduit llaboration de modles des autres agents.
Niveau 3 : les agents peuvent changer des requtes (la communication permet alors
dchanger et de partager des informations utiles la coordination)
Niveau 4 : les agents se rpartissent les tches (dlgation, division du travail), des
groupes dagent avec des donnes diffrentes participent au mme processus
dapprentissage global.
Dans le cadre de ce travail nous considrons un systme distribu constitu d'agents

qualifis de ractifs, car les actions de ceux-ci sont provoques (plus que choisies) par des
ractions rflexes sensibles aux changements de l'environnement.
Leur reprsentation du monde se limite des valeurs dutilits associes aux situations
et actions perues par lagent et ils ne sont pas capables de raisonner sur cette reprsentation.
Ils ne prsentent pas non plus de comportement opportuniste dans la mesure o ils prennent
des dcisions systmatiquement. Par contre ils mettent jour ces valeurs dutilit selon un
processus essai erreur comportant des phases dexploitation et dexploration.
Ces agents sont dots d'autonomie du fait que chacun deux :
- A le choix entre plusieurs actions

- Est rceptif aux stimuli venant de lextrieur (signaux de renforcement, signaux issus
de capteurs)
92
- Na pas de fonction de dcision requrant dtre compltement contrles depuis

lextrieur.
- Na pas besoin dtre programm aprs son dmarrage
Les niveaux de coopration envisageables entre ces agents ou acteurs sont donc limits
au niveau 1 et au niveau 2. Le niveau 1 ne suppose pas de modification des algorithmes
d'apprentissages individuels, l'interaction entre agents tant indirecte. Nous indiquons dans la
suite des algorithmes Q-learning correspondant au niveau 2. Leurs fondements thoriques
s'appuient sur la thorie des jeux.
4.7.2. Q-learning et systmes multi-acteurs
4.7.2.1. Jeux de Markov
La thorie des jeux est importante, lorsque les buts atteindre par un agent dpendent
des actions des autres agents, chacun d'eux pouvant suivre des stratgies diffrentes. Il faut
des rgles ou des mcanismes pour les aider cooprer quand cela est ncessaire.
Un jeu de Markov (appel aussi jeu stochastique) considre diffrents joueurs (agents)
qui peuvent tre en comptition ou en coopration. Les joueurs ne suivent pas ncessairement
un objectif commun.
Un jeu de Markov peut tre modlis par un MMDP (Processus de Dcision

Markovien Multiple).
Un jeu de Markov est dfini par le t-uplet {S,G,A, Tr, R}o :
- S : est un ensemble fini dtats

- G : est un ensemble fini dagents
- A = {Ai}i G : est l'ensemble fini des actions individuelles de lagent i.
- Tr : est une fonction de transition SxA1x.xAnxS [0,1] donnant la probabilit
d'une transition d'un tat s un tat s', tant donnes les actions a i excutes par les
agents.
- R= {Ri}i G : est l'ensemble des fonctions de gain, avec pour tout agent i Ri :
SxAR est la fonction de rcompense de l'agent i.
Par rapport un MDP classique les MMDPs prsentent les diffrences suivantes [Buf
03b]:
- Lapprentissage est non stationnaire pour un agent donn

- Les observations dun agent peuvent tre partielles
- On cherche des quilibres entre les stratgies
- Lexploration influence le rsultat de lapprentissage
L'analyse des jeux de Markov quelconques est complexe et il est utile d'tudier des cas
particuliers comme le jeu une tape (il n'y a qu'un seul tat et une seule tape dans le jeu),
93
les jeux d'quipe dans lesquels tous les joueurs reoivent la mme rcompense, les jeux
somme nulle dans lesquels la somme des gains des joueurs est nulle.
Les jeux somme gnrale sont les plus difficiles. Les joueurs cherchent maximiser le
cumul des gains futurs (pondrs par un coefficient d'escompte compris entre 0 et 1).

E j .r 4. 1
j =0
Daprs Owen 1982, repris par [Buf 03b], les jeux de Markov avec critre non pondr
nont pas de stratgie optimale.
Dans un jeu de Markov, une stratgie pure pour un joueur i est une fonction i : S
Ai. Un ensemble de stratgies pour tous les joueurs = {1,,n} est appel un vecteur de
stratgies (ou vecteur de politiques).
Dans un jeu stochastique, les comportements des joueurs peuvent tre non
dterministes, do la dfinition dune stratgie mixte qui pour un joueur i est une fonction pi :
S (Ai) (qui un tat associe une distribution de probabilit sur les coups possibles). Cette
dfinition stend comme prcdemment la notion de vecteur de stratgies mixtes.
Une stratgie est stationnaire si les rgles de dcisions sont les mmes pendant toute la
dure du jeu. Les joueurs se trouvent dans des situations dquilibre, lorsqu'ils ont adopt une
stratgie pour faire face aux jeux des autre joueurs.
Filar et Vrieze ont dmontr en 1964 que tout jeu stochastique somme gnrale avec
escompte possde au moins un point d'quilibre pour les stratgies stationnaires.
4.7.2.2. Jeux 2 joueurs somme nulle
On retrouve souvent dans les jeux de Markov le cas particulier des jeux deux joueurs
dans lesquels la somme des gains est connue. Lide est de trouver laction, dans ltat donn,
qui va maximiser le gain de l'un, sachant que ladversaire cherche simultanment minimiser
le sien
Littman 1994 [Lit 96], a prsent deux rgles d'actualisation quivalentes pour
apprendre par renforcement une stratgie mixte optimale :
Q(s,a 1,a2)(1)Q(s,a1,a2)+[r + max p1 mina2 Q(s', p1,a2)] 4. 2
Q(s,a1,a2)(1)Q(s,a1,a2)+[r + min p2 max a1Q(s',a1, p2)] 4. 3
O Q(s,a1,a2) reprsente la matrice des gains du joueur 1 (celui qui maximise les
gains), chaque joueur appliquant une stratgie mixte pi.
Avec pi : S (Ai) ( un tat on associe une distribution de probabilit sur les coups
possibles du joueur i sur l'ensemble des action Ai).
94
4.7.2.3. Jeux 2 joueurs somme quelconque
Lalgorithme Q-learning, a t dvelopp pour lapprentissage d'un agent unique.

L'adaptation du Q-learning au cas des systmes multi-agents est dsigne par la suite par le Q-
multiagent.
La fonction valeur Q dun agent dpend des actions des autres agents. Hu et Wellman
ont propos un algorithme Q-Multi-agent pour deux agents [HU 98]. Si on numrote 1 et 2
chacun des agents, lalgorithme suivi par lagent 1 est le suivant :
Initialiser :
t=0,
Pour tout s dans S, a1 dans A1, et a2 dans A2
initialiser s0
Boucle
choisir action a1 base sur 1(s), qui est une stratgie mixte, quilibre de Nash*
du jeu (Q1(s), Q2(s)).
Observer r1 ,r2 ,a2 , et s'
Mise jour de Q1, et Q2, selon
Q1(s,a1,a2)(1)Q1(s,a1,a2)+[r1 +Q1(s',1(s'), 2(s'))]

Q2(s,a1,a2)(1)Q2(s,a1,a2)+[r2 +Q2(s',1(s'), 2(s'))]
o ( (s'), 2(s')) sont des stratgies mixtes,quilibre de Nash du
1
jeu (Q1(s'), Q2(s'))

s<-s'
tant que Qi varie
Algorithme. 4. 1 Algorithme Q-Multi-agent (2 agents) pour lagent 1 [HU 98].
Une stratgie mixte 1(s),2(s) aboutit a un quilibre de Nash si une des deux
conditions suivantes est respecte :
1) l'quilibre est un optimum global
1t(s)Qi(s)2 (s) >= p1t(s)Qi(s)p2 (s) pour tout p1(s) et p2(s).
2) un agent reoit un gain suprieur si l'autre change de stratgie
1t(s)Q1(s)2 (s) <= 1t(s)Q1(s)p2 (s) pour tout p2(s).
1t(s)Q2(s)2 (s) <= p1t(s)Q2(s)2 (s) pour tout p1(s).
Nash a montr en 1951 qu'il existe une stratgie mixte, quilibre de Nash pour tout jeu
2 joueurs somme quelconque ('bimatrix game').
95
Le schma de la figure 4.10 reprsente les matrices Q gres par lagent 1 pour les
tats s et s. Pour chaque tat, il y a deux tableaux de |A1| lignes et |A2| colonnes contenant
les valeurs dutilit Q des 2 agents estimes par lagent 1.
Lagent 2 procde de manire semblable. Ainsi chaque agent rsout dans la situation s
un jeu une tape, lexcution conjointe de leurs actions les conduit dans une situation s et
un nouveau jeu une tape.
Selon cette reprsentation, la taille mmoire ncessaire pour mmoriser les fonctions
Q augmente de manire proportionnelle avec le nombre dtat et de manire exponentiel avec
le nombre d'agents.
Ainsi, en supposant N joueurs, |S| situations et un nombre dactions |A| identique pour
chaque joueur, le nombre de valeurs Q calculer est N*|S|*|A|N.
Q1(s) Q2(s) Q1(s') Q2(s')

a1 2 a2 2 a3 2 a1 2 a2 2 a3 2 a1 1 a2 2 a3 3 a1 2 a2 2 a3 2
1 1 1
a 1 a 1 a 1 a1 1
1(s), 2(s)
a2 1 a2 1 a2 1 a2 1
a3 1 a3 1 a3 1 a3 1
Fig. 4. 10 Les matrices Q gres par chaque agent dans les situations s et s.
4.8 Tableaux rcapitulatifs

Nous avons dress les tableaux rcapitulatifs des architectures des systmes
(tableau.4.1) et des architectures des systmes d'apprentissage par renforcement (tableau.4.2)
considres dans ce chapitre.
Architectures Limitations Avantages
Goulet de communications central Un agent central a une vue globale

limitant avec un nombre d'agents sur le systme complet.
trs grand. Rduction du nombre de
Limitation en robustesse (sensibilit communications entre les agents.
Architectures centralises
aux fautes de l'agent central). Optimisation possible de la gestion
Difficult de tenir jour sur un de l'information d'une faon
centre unique les informations issues globale.
des agents.
96
Problmes de transfert, de partage Communications plus rapides grce

des informations et de coordination aux couplages (matre, esclave)
entre les agents d'un mme niveau entre les niveaux.
Conception et volution difficiles de Amlioration de la robustesse par
la structure du systme. rapport l'architecture centralise.
Architectures
hirarchiques Vulnrabilit des systmes de Bonne flexibilit (par rapport au
(Architectures planifications aux perturbations dans nombre d'agents) et capacit
hirarchises) les niveaux infrieurs. d'adaptation (par rapport aux
Problme de robustesse dans le cas nouvelles situations des agents).
o l'agent central de haut niveau
tombe en panne.
Les mmes limitations que celles Par rapport l'architecture

Architectures des architectures hirarchises, sauf hirarchise, les agents de mme
hirarchiques pour les communications et la niveau peuvent se coordonner et
(Architectures coordination un mme niveau communiquer entre eux.
hirarchises
modifies )
Difficult de conception des Plus grande robustesse.

changes et partages d'informations Meilleure flexibilit(ajout ou retrait
entre agents. d'agent plus facile)
Architectures
Difficult de coordination des Plus grande capacit d'adaptation
htrarchiques
agents. au changement de situations des
(Architectures
distribues) Objectif global plus difficile agents et de l'environnement.
atteindre (parce que il est bas sur Partage des informations locales et
les objectifs locaux) globales.
Les performances globales du
systme dpendent du choix des
rgles locales dfinies.
Compromis difficile trouver entre Couplage entre les avantages des
le contrle impos par les niveaux deux architectures (hirarchique et
Architectures hybrides suprieurs et le degr d'autonomie htrarchique).
attribu aux niveaux htrarchiques.
Tableau. 4. 1 Diffrents architectures des systmes.
Architecture des
systmes d'apprentissage Limitations Avantages
Limitations des architectures Avantages des architectures
centralises. centralises
Approche centralise de
La taille mmoire pour stoker les Apprentissage men pour
lapprentissage par
valeurs tat ou action crot de faon satisfaire l'objectif global.
renforcement
exponentielle avec le nombre de Problmes de coordination rsolus
variables d'tat et d'actions (ce au niveau suprieur.
dernier augmente avec le nombre
d'agents).
Un seul signal de renforcement pour
l'ensemble des agents.
Difficult pour satisfaire des
contraintes locales
97

Approche hirarchise de hirarchises. hirarchises.
l'apprentissage par
Un seul signal de renforcement pour Apprentissage men pour
renforcement
l'ensemble des agents d'un mme satisfaire l'objectif global
niveau. dcompos en sous objectifs.
Slection d'actions au niveau local
(satisfaction de contraintes locales
possible).
distribues. distribues.
Approche distribue de
Le partage ou l'change La taille mmoire pour stocker les
lapprentissage par
d'information suppose d'tablir un valeurs tats et actions est
renforcement
systme de communication entre infrieure au cas centralis.
agents. Exploitation des interactions
Difficult d'tablir des critiques indirectes entre agents
locaux pour satisfaire l'objectif (modifications effectues sur
global. l'environnement par les agents).
Systme non stationnaire du point de Paralllisation possible des
vue d'un agent (subit les processus locaux d'apprentissage
consquences des actions des autres
agents).
Tableau. 4. 2 Diffrents architectures des systmes d'apprentissage par renforcement.
4.9 Conclusion
Nous avons prsent dans ce chapitre diffrentes architectures de pilotage des
systmes et des architectures d'apprentissage par renforcement correspondantes (architecture
centralise et architecture distribue). Ensuite nous avons pos une problmatique d'actions
collectives dans un environnement distribu pour des agents ractifs. Nous avons fait
rfrence des outils mathmatiques utiles comme la thorie des jeux et en particulier les jeux
de Markov pour dcrire des modles de dcision et d'apprentissage dans le cas o
lapprentissage est influenc par lobservation du comportement dautres agents. Nous avons
prsent dans ce contexte des versions de lapprentissage par renforcement comme par
exemple minmaxQ-learning et Q-multiagent. Dans la suite, nous cherchons clater un agent
complexe (tel qu'un robot hexapode) en plusieurs agents autonomes de structures plus simples
(les membres et leurs contrleurs), et plus faciles commander individuellement. Il reste
cependant rsoudre, dune faon pratique et thorique, les problmes :
de dtermination des relations entre agents,
de la dfinition des fonctions de renforcement individuelles pour qu'elles soient

compatibles avec l'objectif global,
du choix de la stratgie de coopration entre agents.
Nous traitons ces questions dans le chapitre suivant consacr lapplication de cette
approche (apprentissage par renforcement des systmes distribus) pour le pilotage d'un
robot hexapode.
98
Chapitre 5 : Exprimentation et rsultats d'application de l'AR sur l'apprentissage de la
marche d'un robot hexapode
CHAPITRE 5
Exprimentations et rsultats
dapplication de lapprentissage par
renforcement sur l'apprentissage de
la marche dun robot hexapode
"L'arbre de la russite consiste savoir s'entourer des meilleurs"

"J. Kennedy"
5.1 Introduction
Aprs une brve prsentation du robot hexapode ralis au laboratoire, nous
prsentons dans ce chapitre une application de l'apprentissage par renforcement un robot
hexapode considr comme un systme distribu constitu d'agents (les pattes) dotes d'une
certaine autonomie mais devant se coordonner pour assurer l'ensemble des fonctionnalits
de plus haut niveau qui sont la marche, le contrle de la posture et le suivi de trajectoire.
Dans ce but nous adoptons une approche distribue du Q-learning permettant

d'exploiter des signaux de renforcements individuels pour l'apprentissage de telles
fonctionnalits. Nous proposons un algorithme permettant aux agents appartenant un mme
groupe de tenir compte des dcisions des autres agents du groupe pour cooprer. Nous
abordons le problme pos par le Q-learning lorsque les variables d'actions ou les variables
d'tat sont continues.
99
Nous prsentons un certains nombre de rsultas de simulation montrant la faisabilit

de cette approche distribue de la commande et de son apprentissage; Cette approche s'avre
robuste et plus performante dans les tches considres qu'une approche centralise.
5.2 Robot hexapode
5.2.1. Description physique
Notre robot hexapode, t construit au centre de recherche 1LGI2P en 1995, pour

mettre en uvre les travaux sur la commande de la marche du robot base dapprentissage
par renforcement et de rseaux de neurones [Tou 92], [Joh 95]. Ce robot qui a 6 pattes est
compos principalement de :
- 36 capteurs
- 6 cartes moteurs avec chacun deux filtres numriques de type PID (LM628)
- 1 carte dentre/sortie (PIA 82C55)
- 1 carte liaison- srie (ACIA RC65C52)
Les capteurs sont :

- Douze capteurs de position incrmentaux (1 par moteur)
- Six capteurs Tout ou Rien de contact au sol des pattes
- Six capteurs TOR des positions des paules (pour reprer une position absolue)
- Quatre capteurs de collision (avant et arrire)
- Quatre capteurs latraux avant gauche
- Deux capteurs de chute avant (gauche et droit)
- Deux capteurs de chute arrire (gauche et droit)
Chaque patte possde deux moteurs, lun des moteurs permet davancer ou de reculer
(rotation autour de laxe z) et lautre permet de monter ou de descendre (rotation autour de
laxe x). Lamplitude de chacun des mouvements peut tre quelconque dans le dbattement
autoris, des vitesses angulaires maximales peuvent tre imposes. Du fait des rductions
mcaniques importantes, les mouvements des pattes sont assez lents (environ 3 s pour
effectuer un mouvement de balancement), et le robot tient en position mme lorsque les
moteurs ne sont pas aliments. Les caractristiques mcaniques du robot hexapode sont :
- Poids mcanique 2 kg
- Poids lectronique 1kg
- Dbattement dpaule = 30
- Dbattement coude = 45
- Puissance de chaque moteur 3,8 W
- Rduction paule 33
- Rduction coude 1090
Les caractristiques lectroniques du robot hexapode sont :

- Alimentation pour la commande 5V, 3A -- 15V, 1A
1
LGI2P : Laboratoire de Gnie Informatique et dIngnierie de Production
100
- Alimentation de puissance 12V, 4A

- Un Microprocesseur INTEL 80188
- Une mmoire RAM 128 Ko
- Une mmoire EPROM 128 Ko
- Deux liaisons srie
Pour une progression normale vers lavant chaque patte peut effectuer deux mouvements :
- Une proaction (mouvement de la patte de larrire vers lavant et en lair).
- Une rtraction (mouvement de pousse de lavant vers larrire).
L G
E
o
Y
X
Fig. 5. 1 Une patte du robot hexapode.
: Rotation autour de laxe Z.
: Rotation autour de laxe X.
Le robot hexapode rel est reprsent par la figure 5.2 suivante :
Capteur de chute
Moteur Dtection
dobstacle
Contact au sol
Fig. 5. 2 Robot Hexapode.
101
5.2.2. Modle logique de lhexapode
Nous pouvons donner un modle logique simple codant pour chaque patte ltat du
capteur de contact avec le sol : 0 si la patte est en lair, 1 si la patte est en contact. Une
configuration de l'hexapode est alors dcrite par une hexuplet dont chaque bit code la position
en lair ou au sol de chaque patte. Ainsi chacune des 64 configurations possibles de
lhexapode est associ un nombre dcimal dont le code binaire caractrise la position des
pattes. Un exemple est donn en figure 5.3.
1
6
2
5 1 0 1 0 1 0
6 5 4 3 2 1
3
4
42 Configuration n 42
Fig. 5. 3 Codage des configurations de lhexapode.
5.3 Problmatique
Lobjectif de notre travail est dtudier une mthode robuste dapprentissage pour que
le robot puisse marcher faibles allures en matrisant sa trajectoire dans un environnement
qui peut tre inconnu, et dans des conditions qui peuvent tre dgrades (cas de pannes de
moteurs ou de capteurs). Lhypothse dun dplacement faible allure est de la forte
rduction des motorisations et nous permet de ne pas prendre en compte les effets dynamiques
des masses en mouvement, mais le robot doit tre capable de changer de vitesse de
dplacement. Les fonctions assurer sont alors :
- Le maintien de lquilibre : En ngligeant les effets dynamiques, le maintien de

lquilibre se ramne la satisfaction de la stabilit statique : il faut vrifier que la
verticale passant par le centre de gravit reste strictement lintrieur du polygone de
sustentation.
Sur terrain plat, il y a dix-huit tats stables possibles (deux pattes conscutives ne
peuvent pas tre en lair simultanment) reprsents sur la figure 5.4 suivante :
102
63 62 61 59 58
46
55 54 53 47
45 43 42 29
31
27 21
23
Fig. 5. 4 Les dix-huit tats stables possibles parmi les 64 tats.
- Le contrle de la posture : il s'agit de maintenir la position relative du corps par

rapport aux pieds en contact avec le sol proche dune position de rfrence.
- La gnration de mouvements de marche : le cycle locomoteur dune patte dfinit
lensemble des vnements articulaires qui se produisent entre deux appuis successifs
au sol. Pour gnrer un mouvement de marche, il faut tablir et coordonner les cycles
des pattes en tat de fonctionner.
- Le changement lallure : cest la capacit de modifier la vitesse de dplacement du
robot. En supposant que le mouvement de balancement est de dure constante, la
vitesse du robot est directement inversement proportionnelle au temps moyen de
pousse ou de traction.
- La tolrance aux pannes : en cas de dysfonctionnement dactionneurs ou de capteurs
le robot doit tre capable dadopter une marche dgrade lui permettant davancer.
- Le changement de trajectoires : le robot doit tre capable de changer de position et
dorientation soit pour contourner un obstacle, soit pour se diriger vers un point
dintrt de son environnement.
- La robustesse : elle sentend ici comme la capacit dacqurir de nouvelles
comptences sans oublier ou dgrader celles dj prsentes, de compenser les
perturbations internes (dysfonctionnement dun lment oprationnel interne) ou
externe (modification de lenvironnement) sans quil soit ncessaire de re-concevoir
ou de transformer de lextrieur le systme de pilotage du robot.
103
Pour atteindre ses objectifs nous avons privilgi une approche distribue de la
commande et de lapprentissage par renforcement base sur larchitecture de subsomption
[Zen 02].
5.4 Approche distribue de commande et dapprentissage
5.4.1. Choix dune architecture de commande
Pour traiter le problme du pilotage du robot marcheur, nous nous sommes bass sur la
modlisation en plusieurs niveaux de commande propose par Brooks [Bro 86][Por 00a].
Chaque niveau de commande gre une partie du fonctionnement du robot. Chaque niveau
reprsent en figure 5.5 ajoute une fonctionnalit et l'ensemble permet le pilotage global du
robot.
3. Contrle de la navigation
2. Contrle la marche
Capteur Action
1. Maintien des segments en position
Fig. 5. 5 Contrle niveaux d'un robot hexapode.
Le niveau le plus bas, gre le changement et le maintien en position des segments.

Dans notre robot lasservissement en position de chaque segment est assur indpendamment
des autres par un circuit spcialis intgrant un filtre numrique de type PID, gnrant la
commande ncessaire la poursuite de consigne et la rgulation autour de ces points de
consigne. Le deuxime niveau, est celui du contrle de la marche qui suppose de gnrer les
consignes de positions ncessaires pour dplacer le corps dans lespace selon une trajectoire
matrise tout en assurant lquilibre et la posture du robot et en sadaptant un terrain qui
peut tre irrgulier ou qui peut prsenter des obstacles. Le niveau trois est consacr la
navigation qui comprend la perception et lanalyse de lenvironnement, le choix des objectifs
atteindre, et le choix de la stratgie dapproche [Por 00b]. Dans ce travail nous, tudions
plus particulirement le niveau 2 du contrle de la marche.
5.4.2. Choix du mode dapprentissage
Au chapitre 4 nous avons dcrit des travaux consacrs au processus d'apprentissage de

la marche et bass sur un modle simple de type logique du robot, les espaces d'tat et d'action
tant supposs finis et discrets [Joh 96] [Joh 94]. Dans ces travaux, le contrleur est bas sur
lapprentissage par renforcement de type 2Arp, dvelopp par Barto 1985 [Joh 96].
2
Arp : Algorithme (rcompense / pnalit)
104
Ces travaux ont montr quil tait possible de trouver des marches priodiques
rectilignes comme la marche tripode (trois pattes au sol en alternance). Mais cette approche
prsente plusieurs limitations :
Le nombre dactions possibles pour chaque segment est limit 2. En effet lalgorithme
Arp permet de calculer la probabilit deffectuer une action ou laction qui lui est oppose.
Cette probabilit peut tre augmente ou diminue selon que l'action conduit une
rcompense ou un chec. Pour tendre lapproche plus de 2 actions, il faudrait assurer
que la somme des probabilits associes chacune d'elles soit gale 1 ce qui suppose de
prvoir un mcanisme dajustement efficace pour augmenter les probabilits des actions
qui nont pas t pnalises et diminuer celles qui nont pas t rcompenses.
La stratgie est modifie pour maximiser la rcompense immdiate reue conscutivement

lexcution des 6 actions. Or une action peut avoir des consquences positives ou
ngatives plus long terme. Il est alors intressant de modifier la stratgie en apprciant
aussi les consquences sur le moyen ou le long terme.
Le signal de renforcement est identique pour chaque patte, or par exemple, une chute peut
tre provoque par la proaction simultane de deux pattes adjacentes. Il nest alors pas
ncessaire de pnaliser les autres pattes puisqu'elles ne sont pas en cause. De mme si on
introduit la notion de dure maximale de rtraction, si une patte reste trop longtemps au
sol, elle peut tre pnalise sans que les autres le soient. Il nest pas non plus vident que
chaque patte joue un rle identique (chez un insecte comme le cafard, les fonctions des
pattes du milieu sont diffrentes de celles des pattes arrires). Enfin les informations
sensorielles qui dterminent les mouvements ne sont pas ncessairement identiques pour
toutes les pattes (par exemple : cas d'une perturbation extrieure provoquant une raction
rflexe d'une des pattes). Certaines donnes locales (surcharge ou dficience ponctuelles)
peuvent contraindre localement certains mouvements. Les consquences sur les
mouvements des autres pattes sont alors indirectes.
Ces considrations tendent donc privilgier une approche distribue de la commande

ou un degr dautonomie serait attribu chaque patte (voire chaque segment) permettant
toute unit oprationnelle de rpondre des contraintes locales, les autres units devant alors
sadapter pour que lensemble des units continuent de satisfaire la fonctionnalit globale.
Nous avons choisi lapprentissage de type Q-learning dvelopp par Watkins 1989
[Seh 96], car :
Il permet destimer lutilit associe lexcution dune action partir dun tat donn. Il
nest pas possible dans le cas de lapprentissage de la marche de nvaluer que lutilit
associe aux tats. En effet, contrairement ce qui est habituellement pratiqu lorsque
seule lutilit de ltat est connue, les actions ne peuvent pas tre choisies pour permettre
une transition vers un tat dutilit plus grande, tant donn que dans un cycle (marche
priodique), le systme boucle sur les mmes tats. Sur un cycle priodique l'utilit ne
peut pas crotre. Ces tats doivent alors avoir la mme utilit.
Il permet de maximiser les gains attendus sur le long terme.
105
Il est possible de ladapter dans le cas ou les variables dactions ou dtats sont continues
[Seh 96]
Il peut tre tendu aux cas des systmes distribus, par exemple dans la version Q-
multiacteurs (voir chapitre 4).
Aussi nous proposons une implmentation distribue de lapprentissage par

renforcement de type Q-learning.
5.4.3. Apprentissage par renforcement distribu
Notre travail, est bas sur une approche distribue de lapprentissage par renforcement
schmatise par la figure 5.6. Chaque patte du robot hexapode est commande
indpendamment [Joh 96]. Chaque agent contrleur 'dcide' du mouvement suivant partir
de la connaissance de l'tat binaire (en l'air ou au sol) des autres pattes. Toutes les pattes ne
reoivent pas ncessairement la mme information d'tat ni le mme signal de renforcement,
et lapprentissage est local pour chacune delle [Zen 03b].
Renforcement r6
Q-learning 6
Action a6 Critique
Situation S6
Renforcement r1
Q-learning 1
Patte 6
Critique
Action a1
Situation S1
Environnement
Patte 1
Fig. 5. 6 Architecture distribue de lapprentissage par renforcement

pour le robot hexapode.
Comparativement une approche centralise dans laquelle les informations

convergent vers un seul centre qui dcide des actions de chacune des pattes, les avantages
attendus de cette approche distribue de la commande et de son apprentissage sont :
- Une plus grande flexibilit (facilit dadaptation aux modifications imprvues de

lenvironnement)
106
- Une plus grande fiabilit (lerreur individuelle est tolre).

- Une plus grande robustesse (la capacit de rsolution rsulte du collectif et non pas
dun individu).
Mais cette approche posent les problmes de :
- La dfinition dobjectifs locaux compatibles avec lobjectif global.

- Le choix des modes de coopration entre entits oprationnelles (agents) parmi :
La synchronisation (enchanement des actions dans le temps)
La collaboration (le partage des tches)
La coordination (la rsolution de conflits, l'augmentation des performances).
Nous avons dcrit larchitecture de commande adopte dans notre travail, nous
prsentons maintenant les rsultats obtenus en simulation en appliquant lapproche distribue
prconise pour la gnration de mouvements de marche. Nous confrontons les approches
centralises et distribues. Puis nous abordons le problme du contrle de la posture et du
changement de trajectoire. Dans ce cadre nous proposons une mthode dapprentissage dans
les systmes distribus qui permet de tenir compte au niveau de chaque agent des dcisions
prises par les autres agents. Cette mthode est tendue par la suite aux cas o les espaces
dactions et dtat sont continus et plus seulement discrets [Zen 04].
5.5 Gnration marches priodiques

Chaque patte est donc considre comme un agent disposant dune information dtat
sur le robot et devant excuter des mouvements permettant au robot de remplir sa mission.
Chaque agent possde son propre algorithme dapprentissage. Une nouvelle dcision est prise
chaque unit de temps. Dans nos premiers travaux consacrs la gnration de marches
priodiques (paragraphes 5.6 et 5.7). Le simulateur est construit autour du modle logique du
robot et les actions considres sont des actions de proaction ou de rtraction. L'unit de
temps est la dure de la proaction. La dure souhaite dune rtraction peut tre borne. Plus
la valeur maximale de rtraction est petite, plus le robot peut progresser rapidement. Plus la
valeur de minimale de rtraction est proche de la valeur maximale et moins le robot a le
choix parmi diffrentes dallures. La marche la plus rapide correspond alors une dure de
rtraction gale la dure de proaction : il s'agit de la marche tripode. A chaque chute, le
robot hexapode est rinitialis dans une configuration stable quelconque. L'actualisation
chaque instant t de la valeur Q(s, a) associe au couple (tat s, action a) s'crit :

Q i (s, a ) Q i (s, a ) + r + max a ' Q i (s ' , a') Q i (s, a ) 5. 1

O , rel positif est le pas d'apprentissage, et , rel compris entre 0 et 1, est le

facteur de pondration. Lalgorithme Q-learning pour chaque agent i est le suivant :
107
Initialiser arbitrairement Qi (s,a)

Rpter (pour chaque pisode): Nombre dtats= 64,
Initialiser s (configuration stable quelconque) dfinis par les positions des
Rpter (pour chaque pas): pattes
Prendre action a selon stratgie issue de Q.
Observer r, s Nombre dactions = 2
Actualiser Qi (s, a) - Proaction
- Rtraction
Si chute, rinitialiser s (configuration stable
quelconque)
sinon s s
Jusqu marche correcte ou fin de lpisode
Jusquau dernier pisode
Algorithme. 5. 1 Algorithme Q-learning et robot hexapode.
Sauf indication contraire (paragraphe 4.) chaque agent accs aux mmes
informations sur l'tat des capteurs de contact des pattes avec le sol. Chaque agent actualise
donc une table des valeurs associes au couple (tat, action) comportant 2^6=64 lignes (une
ligne par tat) et deux colonnes (une par action possible).
L'apprentissage par renforcement ncessite de trouver un compromis entre les phases

d'exploitation (l'agent choisit l'action devant maximiser ses gains futurs) et les phases
l'exploration (l'agent recherche des situations lui procurant de plus grands gains). Au
cours de la simulation nous avons constat que les agents pouvaient conserver un
comportement glouton (les agents cherchant toujours maximiser leur gains) car l'exploration
est obtenue d'une part par l'initialisation alatoire de la configuration du robot suite une
chute, et d'autre part par les influences mutuelles ente agents au cours de l'apprentissage, une
action excute dans une situation donne ne conduisant pas systmatiquement la mme
situation du fait des choix diffrents des autres agents.
Au cours de l'apprentissage, le nombre de chutes diminue et le nombre d'actions

conduisant des rcompenses augmente ce qui favorise l'exploitation au dtriment de
l'exploration. Ainsi il y a autorglage de la proportion exploration /exploitation.
Les paramtres dont l'influence sur les rsultats de la simulation a t tudie sont
rassembls dans le tableau 5.1 suivant :
108
Paramtres de simulation Commentaires Valeurs possibles

Facteur de pondration sur le cumul des gains R estimer t entre 0 et 1
: R(t)= r(t) + .r(t+1) + + k.r(t+k )+
Pas du gradient 0.001, ..., 0.5
D_max_ret Dure maximale de la rtraction 15
D_min_ret Dure minimale de la rtraction 1 D_max_ret
Considration sur la En marche rectiligne les pattes opposes agissent de faon Oui, Non
symtrie du robot (1) analogue
Rgle de propagation Les mouvements de proaction se propagent de l'arrire vers Oui, Non
des proactions (2) l'avant
Initialisation des tables Aprs chaque pisode la table des valeurs Q(s,a) est Oui, Non
chaque pisode (3) rinitialise
Tableau. 5. 1 Paramtres de simulation.
(1) : Dans lapplication de cette structure de commande, et pour tenir compte de la symtrie
du robot et du rle similaire que jouent les diffrents pattes lors d'une marche rectiligne sur
sol plan, il est envisag que les pattes controlatrales (en vis vis par rapport l'axe de
symtrie longitudinal) ragissent de faon analogue (c'est dire qu'elles puissent partager les
estimations des valeurs d'tat associes aux couples (tat, action).
Configuration 1 Configuration 2
G6
D1
G6
D1
D2
G5 D2
G5
D3 G4
G4 D3
Fig. 5. 7 Par symtrie, les pattes G en configuration 1 agissent comme

les pattes D de mme numro de la configuration 2 ( mmes valeurs Q (s, a) ).
(2) : en plus des fonctions critiques de base nonces plus haut, et dans le but de restreindre
le nombre de marches obtenues celles qui sont observes gnralement sur un insecte, une
fonction critique supplmentaire tient compte des mouvements de plusieurs pattes et adresse
une pnalit lorsqu'un mouvement de proaction s'effectue alors que la patte collatrale
antrieure vient d'effectuer une proaction (les mouvements de proaction devant se propager de
l'arrire vers l'avant; le cas de la marche tripode faisant exception). Comme nous le verrons
par la suite ces rgles sont ncessaires pour limiter le nombre de marches possibles.
(3) : Lorsquil ny a pas initialisation, le robot continue apprendre marcher partir de

nouvelles configurations stables sur la base de ses acquis prcdents.
109
5.6 Simulation : gnration de marches selon lapproche

distribue
5.6.1. Choix dun critique
Chaque agent cherche maximiser sa propre fonction objectif [San 98], [San 99], qui
consiste rpter un cycle locomoteur form d'une proaction suivi d'une rtraction. L'agent
est pnalis si une proaction dure plus d'une unit de temps. L'agent est pnalis si la dure de
la rtraction est trop courte ou trop longue. La consigne de dure de rtraction provient du
niveau de commande suprieur (niveau 3 de la figure 5.5) o est choisie l'allure. En cas de
chute, les seuls agents en cause sont pnaliss. Si deux pattes conscutives se lvent
simultanment, le robot bascule du ct de celles-ci provoquant l'enfoncement du contact de
dtection de chute correspondant et une pnalit locale aux pattes qui ont provoquer la chute.
Si toutes les pattes sont au sol, il s'agit d'une position de repos que nous avons choisi de
pnaliser ( un niveau local cette situation pourrait tre dtecte au niveau de chaque patte
par le biais d'un capteur d'effort, la charge alors supporte par chacune des pattes tant la plus
faible). Ainsi les rgles nonces traduisent seulement des comportements ou phnomnes
locaux pouvant tre perus par les agents et ne rsultent pas d'une analyse globale de
l'enchanement des mouvements ressemblant une marche. Nous supposons que la
maximisation des gains de chaque agent ralisant leurs propres objectifs est compatible avec
l'objectif global qui est que le robot marche. Les rgles d'attribution des pnalits et des
rcompenses pour chaque patte sont rsumes dans le tableau 5.2 suivant.
Pnalit : r = - 1 si Rcompense : r = +1 si
Suite une dcision de proaction Le mouvement de proaction se
le robot chute. passe normalement ( pas de
chute)
L'ordre de proaction est rpt Le mouvement de rtraction a
deux fois de suite. dpass la dure minimale.
Le mouvement de rtraction une
dure trop longue ou trop courte
Toutes les pattes sont au sol
Tableau. 5. 2 Signal de renforcement pour chaque patte[Zen 03c].

En italique les rgles correspondant l'objectif de chaque patte, les autres rgle (en police
droite) sont relatives linteraction de pattes voisines.
Ainsi toutes les pattes ne reoivent pas simultanment le mme signal de renforcement.
5.6.2. Gnration de diffrents types de marche
Nous observons si des squences priodiques correspondant celles observes lors de

la marche des insectes [Ran 99] peuvent tre obtenues lorsque chaque agent agit pour son
propre compte, indpendamment de considrations sur le choix des actions des autres.
110
5.6.2.1. Obtention de marches priodiques
Nous examinons les squences priodiques (elles ne sont retenues que si elles se
reproduisent 10 fois conscutivement) pour diffrentes consigne D_max_ret de dure de
rtraction, les autres paramtres tant fixs comme indiqu dans le tableau 5.3.
Paramtres de simulation Valeurs

0.95
0.01
Dure maximale de la rtraction D_max_ret 1..5
Dure minimale de la rtraction D_min_ret D_max_ret
Considration sur la symtrie du robot Oui
Rgle de propagation des proactions Oui
Initialisation des tables chaque pisode Oui

Pour D_max_ret =1, en 50 pisodes dune longueur maximale de 2000 units de temps,
nous avons obtenu chaque fois une marche deux temps correspondant la marche
tripode
Marches Nombre de fois

2 temps marche tripode (21 42) 50
Tableau. 5. 4 La marche tripode deux temps est trouve.

- Nombre moyen de chutes par pisode : 23.06
- Dure moyenne des pisodes : 56 units de temps
Le chronogramme de la marche tripode est reprsent par le schma suivant :
21 42 21 42 21 42 21 42 21 42 21 42 21 42
D3
D2
D1
G4
G5
G6
Fig. 5. 8 Chronogramme de la marche tripode (21 42). Une ligne verticale reprsente une
transition dun tat lautre, et les lignes horizontales reprsentent les pattes.
111
Pour D_max_ret =3, en 50 pisodes nous obtenons des marches 4 temps.

4 temps 55 43 29 62 1
47 27 61 54 16
47 27 53 62 17
Tableau. 5. 5 Les marches trouves quatre temps.
- Nombre moyen des chutes : 31.9

- Dure moyenne des pisodes : 297
Nous montrons ici comme exemple, le chronogramme dune marche trouve

reprsent par le schma suivant :
47 27 61 54 47 27 61 54 47 27 61 54 47 27 61 54
D3
D2
D1
G4
G5
G6
Fig. 5. 9 Chronogramme de la marche 4 T (47-27-61-54). Une ligne verticale reprsente

une transition dun tat lautre, et les lignes horizontales reprsentent les pattes.
Pour D_max_ret =5, en 50 pisodes il y a des marches ( 4 temps et 6 temps)

4 temps 47 23 61 58 1
61 23 47 58 1
59 29 55 54 6
6 temps 47 59 31 61 55 62 9
47 55 31 61 59 62 1
59 47 31 55 61 62 11
59 61 31 55 47 62 16
55 61 31 59 47 62 5
Tableau. 5. 6 Les marches trouves.
- Dure moyenne des pisodes : 444.6

- Nombre moyen des chutes : 33.1
112
Nous avons ici comme exemple, le chronogramme dune marche trouve reprsent
par le schma suivant :
47 59 31 61 55 62 47 59 31 61 55 62 47 59 31 61 55 62
D3
D2
D1
G4
G5
G6
Fig. 5. 10 Chronogramme dune marhe a six temps (47 59 31 61 55 62). Une ligne verticale
reprsente une transition dun tat lautre, et les lignes horizontales reprsentent les pattes.
Pour les valeurs de D_max_ret paires, nous observons en 50 pisodes des marches 3
temps (pour D_max-ret =2), la dure moyenne des pisodes tant de 164 units de temps
et des marches 5 temps et quelques marches 4 temps (pour D_max_ret = 4), la dure
moyennes des pisodes tant 580 units de temps.
Lorsque l'on fait varier D_min_ret, entre 1 et D_max_ret on autorise toutes les marches
priodiques depuis les marches (D_min_ret +1) temps jusqu'aux marches
(D_max_ret+1) temps comme le montre le rsultat de simulation suivant obtenu avec
D_max_ret = 5 et D_min_ret =1 :

2 temps 21 42 13
4 temps 23 45 63 42 6
61 54 23 42 6
5 temps 31 55 27 53 54 6
47 21 63 29 58 7
8 temps 27 53 47 29 46 43 61 54 6
- Dure moyenne des pisodes: 323.6

- Nombre moyen des chutes: 45.06
Conclusion :
En fixant la consigne de dure maximale de rtraction, on agit sur la priode des marches
trouves et donc sur la vitesse de dplacement.
En fixant la consigne de dure minimale de rtraction une unit de temps, le robot peut
adopter diffrentes marches de priodes deux temps la priode maximale autorise.
Trois des marches naturelles d'insecte (marche tripode, ttrapode et longue) sont obtenues.
113
Le nombre d'units de temps ncessaires l'obtention des marches priodiques est

infrieur 500 units de temps. La marche tripode est trouve en moyenne en seulement
60 units de temps.
5.6.2.2. Influence de la fonction critique supplmentaire
Afin de limiter le nombre de marches qui ne correspondent pas celles observes chez
les insectes, nous avons introduit une rgle supplmentaire qui impose qu'une patte ne peut
entreprendre de mouvement de proaction avant la patte ipsilatrale postrieure (si elle existe)
traduisant ainsi que les mouvements de proaction se propagent de l'arrire vers l'avant
(comme suggr par les observations de Wilson sur les insectes [Ran 99]).
Nous avons donc compars les rsultats obtenus sans ou avec cette rgle, les autres
paramtres tant fixs comme indiqus par le tableau 6.10 suivant :

0.1
0.01
D_max_ret 3
D_min_ret D_max_ret
Considration sur la symtrie du robot Non
Rgle de propagation des proactions Oui ou Non
- Simulation sans lutilisation de critique supplmentaire :

Sur 50 pisodes, nous obtenons chaque fois une marche priodique. La plupart ne sont
pas correctes car elle ne respecte pas la condition de propagation de proaction de l'arrire
vers l'avant comme l'illustre les figures 11 et 12.
Marches Nombre de fois Marche correcte

4 temps 45 54 59 31 1 Non
54 63 45 27 1 Non
54 61 47 27 1 Non
53 62 47 27 1 Oui
61 43 62 23 23 Non
53 42 63 31 23 Non
114
- Nombre moyen des chutes: 25, Dure moyenne des pisodes: 100
45 27
1
6
5 2
3
4
Fig. 5. 11 Marche 54 63 45 27 avec un enchanement incorrect des mouvements de

proaction : le passage de ltat 45 ver 27 nest pas correct.
D3 54 61 47 27 54 61 47 27 54 61 47 27 54 61 47 27
D2
D1
G4
G5
G6
Fig. 5. 12 Chronogramme de la marche quatre temps (54 61 47 27).

La propagation de proaction de D1 de ltat 54 vers D2 de ltat 61 est incorrecte.
Nous remarquons que cette marche contient les mmes tats que la marche ttrapode mais
dans un ordre diffrent. Ce changement dordre provoque une marche incorrecte.
- Simulation avec lutilisation de critique supplmentaire :
Avec la rgle qui pnalise toute patte qui proacte avant la patte ipsilatrale postrieure
(quand elle existe), sur 50 pisodes d'une longueur maximale de 2000 units de temps, nous
obtenons cette fois que 31 succs mais toutes les marches sont correctes.

4 temps 62 55 43 29 1 Oui
53 62 47 27 10 Oui
55 62 43 29 10 Oui
43 61 62 23 10 Oui
115
- Nombre dpisodes : 50
- Nombre moyen des chutes sur 50 pisodes : 37,3
- Dure moyenne des pisodes sur 50 pisodes : 450,8
Conclusion :
En introduisant une rgle supplmentaire qui ne prend en compte que des informations
locales en pnalisant toute patte qui proacte avant la patte ipsilatrale postrieure
(quand elle existe), nous liminons des marches trouves et qui ne correspondent pas
des marches observes chez les insectes.
5.6.2.3. Influence de la fonction symtrie
Pour tenir compte de la symtrie du robot et du rle similaire que jouent les diffrents
contrleurs lors d'une marche rectiligne sur sol plan, il est envisag que les pattes
controlatrales (en vis vis par rapport l'axe de symtrie longitudinal) agissent de faon
analogue.
Pour cela nous considrons qu'elles partagent les mmes estimations des valeurs d'tat
associes aux couples (tat, action) dans le cas de configurations similaires.
Nous illustrons ici les effets d'une telle hypothse dans le cas d'une simulation mene
avec les paramtres runis dans le tableau 5.11 :

0.95
0.01
D_max_ret 5
D_min_ret D_max_ret
Considration sur la symtrie du robot Oui ou Non
- Rsultats de simulation sans considration sur la symtrie
Sur 50 pisodes, d'au plus 2000 units de temps, 34 ont abouti sur des marches
priodiques prsentant des anomalies.

6 temps 47 27 61 55 63 62 1
63 59 31 61 55 62 16
63 55 47 27 61 62 16
47 31 59 63 61 46 1
116

En effet le, le chronogramme de la marche (63 59 31 61 55 62) reprsent par la

figure 5.13 montre qu'un patte ne proacte jamais. Nous reviendrons sur le fait qu'une marche
priodique peut tre obtenue alors qu'un des agents peut continuer recevoir des pnalits.
63 59 31 61 55 62 63 59 31 61 55 62 63 59 31 61 55 62
D3
D2
D1
G4
G5
G6
Fig. 5. 13 Chronogramme de la marche a six temps (63 59 31 61 55 62). Il ny a pas de

symtrie et la patte (G5) ne proacte jamais.
Il y a le mme problme avec la marche (47 31 59 63 61 46), o la patte G4 ne

proacte jamais aussi.
- Rsultats de simulation avec la fonction symtrie
Nous constatons que sur 50 pisodes, tous aboutissent une marche pour lesquelles
chaque patte effectue une proaction un mme nombre de fois au cours d'une priode.

4 temps 47 23 61 58 1 Oui
59 29 55 54 6 Oui
6 temps 47 59 31 61 55 62 9 Oui
47 23 31 61 55 62 15 Oui
59 61 31 55 47 62 16 Oui
55 61 31 59 47 62 5 Oui

Et nous avons comme exemple, le chronogramme de la marche (47 23 31 61 55 62)

est reprsent par la figure 5.14 suivante :
117
47 23 31 61 55 62 47 23 31 61 55 62 47 23 31 61 55 62
D3
D2
D1
G4
G5
G6
Fig. 5. 14 Chronogramme de la marche a six temps (47 23 31 61 55 62).
Conclusion :
La considration de la symtrie du robot permet d'liminer des marches dissymtriques et

de rpartir les efforts de faon identique pour chaque patte.
5.6.2.4. Les cycles attracteurs
Nous tudions comment le robot se comporte lorsqu'il est rinitialis dans une
configuration stable et qu'il continue son apprentissage alors qu'au moins une marche a dj
t dcouverte. Pour traiter ce cas, nous ne rinitialisons pas les fonctions valeurs Q(s, a)
aprs chaque pisode. Les autres paramtres sont donns par le tableau 5.14 suivant :

0.1
0.01
D_max_ret 3
D_min_ret 1
Rgle de propagationdes proactions Oui
Initialisation des tables chaque pisode Non
Dans ces conditions nous obtenons les rsultats suivants :

4 temps 59 53 46 31 47
62 55 43 29 3
- Nombre moyen de chutes : 1.1
- Dure moyenne des pisodes : 27.5
Si le tableau Q(s,a) n'est pas rinitialis aprs chaque pisode, le robot apprend
marcher de n'importe quelle configuration initiale stable. Des attracteurs dynamiques,
118
correspondant aux cycles priodiques de marche, peuvent tre prciss comme reprsent sur
1e schma 5.15 suivant :
59
54 55
27
47
53 61
31 43
62
46
29 21
Fig. 5. 15 Exemples de cycles attracteurs.
L'etat 63 correspond une configuration stable de repos dans laquelle aucune des
pattes ne bouge. Cest pour viter cet attracteur que nous avons introduit une rgle qui pnalise
les pattes lorsquelles forment une telle configuration.
Conclusion :
Les rsultats obtenus nous montrent que les marches apparaissent comme des cycles
stables attracteurs des autres configurations stables dans l'espace des configurations.
Ainsi dmarrant depuis une configuration stable, les premiers pas permettent d'atteindre
un cycle de marche, chacun de ces cycles prsentant son propre bassin d'attraction.
Il peut y avoir cependant des attracteurs parasites.
5.6.3. Influence du facteur doubli et du pas du gradient
Nous tudions maintenant linfluence du coefficient qui pondre les valeurs des
rcompenses attendues dans lestimation de la somme des gains futurs. Les autres
coefficients sont fixs comme indiqu dans le tableau 5.16 suivant :
Paramtres de simulation Valeurs possibles

0..1
0.05
D_max_ret 5
D_min_ret 1
Fonction symtrie Oui
Critique supplmentaire Oui
Initialisation des tables Oui
chaque pisode
Tableau. 5. 16 Paramtres de simulation pour ltude de linfluence de .
Pour prenant des valeurs entre 0 et 1 selon un pas 0.2, on fait la moyenne sur 5 tests
de 1000 pisodes de dure maximale 2000 units de temps, de la dure moyenne des pisodes
qui ont abouti ( une marche), du nombre moyen de chutes sur les pisodes qui ont abouti. On
119
relve aussi la moyenne sur les 5 essais du nombre des pisodes qui ne se sont pas termins
par une marche priodique.
Les rsultats sont donns sur les figures (5.16, 5.17, 5.18) suivantes :
Fig. 5. 16 Nombre moyen dpisodes sans marche en fonction de .
Nous remarquons que le nombre des pisodes sans marche diminue rapidement avec ,
c'est--dire quil est plus facile de trouver des marches avec proche de 1.
Fig. 5. 17 Dure moyenne des pisodes qui se terminent par une marche en fonction de .
120
Nous remarquons sur la figure 5.17, que lapprentissage est plus rapide lorsque est proche
de 1 (plus rapide avec =0.9) car la dure ncessaire pour trouver des marches diminue
progressivement avec laugmentation de .
Fig. 5. 18 Variation du nombre moyen des chutes sur les pisodes qui se terminent par une
marche en fonction de .
On constate que ce nombre diminue progressivement par des phases diffrentes jusqu
=0.9. Plus est grand, moins il y a de chutes pendant la recherche des marches priodiques.
Nous tudions pour = 0.9 linfluence de lvolution du pas dapprentissage sur : le

nombre de marches diffrentes trouves, le nombre moyen dpisodes qui nont pas abouti
une marche priodique, la dure moyenne des pisodes qui ont abouti une marche
priodique, le nombre moyen de chutes par pisodes qui ont abouti une marche priodique.
Les valeurs de sont (0.01, 0.05, 0.1, 0.5, 1, 2), =0.9, avec les mme valeurs de
D_max_ret. et D_min_ret. Les figures sont les suivantes :
121
Fig. 5. 19 Influence du pas de gradient sur : le nombre moyen de chutes pour les pisodes
qui se terminent par une marche, la dure moyenne des pisodes qui se terminent par une
marche, le nombre moyen des pisodes sans chute et le nombre moyen de marches diffrentes
trouves, avec =0,9 sur cinq tests de 1000 pisodes de dures maximale 2000 itrations.
Nous remarquons que :
Le nombre des marches diffrentes diminue lorsque le pas de gradient

augmente. Le plus grand nombre de marches diffrentes trouves est avec =0.05.
La dure moyenne des pisodes qui ont abouti des marches diminue
progressivement avec laugmentation de et lapprentissage devient plus rapide.
Le nombre des pisodes sans trouver des marches augmente avec laugmentation
de . Donc le robot apprend avec difficult lorsque est grand.
Le nombre moyens des chutes est en gnral petit quelque soit la valeur de , et la
valeur la plus petite du nombre moyen des chutes est avec =0.1.
Nous avons aussi analyser pour un essai de 1000 pisodes dau maximum 2000
itrations linfluence du pas de gradient sur la priode des marches trouves. Avec les
valeurs de (0.8, 0.9, 1) et de pas de gradient (0.01, 0.05, 0.1, 0.5, 1, 2). Les rsultats de
simulations avec =0.9 sont reprsents par les figures suivantes :
122
- Avec =0.9
Fig. 5. 20 Influence de pas de gradient sur la priode des marches trouves. Laxe
horizontal (T): priode des marches. Laxe vertical : Nombre des marches trouves pour
chaque priode
Fig. 5. 21 Influence de pas de gradient sur la priode des marches trouves. Laxe
horizontal (T): priode des marches. Laxe vertical : Nombre des marches trouves pour
chaque priode.
123
Nous remarquons que le nombre de marches avec diffrentes priodes est trs grand et
diminue avec laugmentation de pas de gradient (), jusqu il trouve une seule marche avec
une priode 2T. Nous remarquons aussi que le robot arrive a trouver souvent des marches 4
temps et 6 temps comme exig avec le choix des paramtres (D_max_ret =5, D_min_ret=1).
Nous remarquons aussi que le plus grand nombre de marches avec des priodes diffrentes est
obtenu avec =0.05.
5.6.4. Evolution des Fonctions valeurs
Nous analysons ici lvolution des fonctions Q au cours du temps dans le cas de la
recherche de marche 4 temps selon les conditions de simulation dcrites dans le tableau
5.17 suivant :

0.9
0.05
Dure maximale de la rtraction D_max_ret 3
Dure minimale de la rtraction D_min_ret D_max_ret
Nous traons en figure 5.23 lvolution des 6 courbes Q pour ltat 53 en fonction du
temps dans le cas caractristique dune marche 4 temps : 61, 53, 47, 29 est dcouverte.
Nous constatons que les fonctions Q convergent vers la valeur 10 ce qui correpond
bien la valeur r+/(1-) attendue lorsque que les agents ne reoivent plus que des
rcompenses r+ = 1. Nous vrifions bien que le meilleur choix daction depuis ltat 53
daprs les courbes Q correspond celui qui conduit ltat 47.
On constate aussi en figure 5.22 quil nest pas ncessaire dattendre la convergence
pour que le robot volue selon une marche priodique. En effet dj litration 60, le robot
reproduit toujours le mme cycle de marche. Cest pourquoi nous considrons que le robot a
dcouvert une marche non pas lorsque les courbes Q ont atteint leur valeur de convergence
(par exemple 95% prs), mais lorsque le robot a reproduit le mme motif priodique de
marche au moins M fois (M=10 dans les simulations).
124
12
10
8 Q6(53,1)
Q5(53,0)
6 Q4(53,1)
4 Q1(53,1)
Q2(53,1)
2 Q3(53,1)
0
1 501 1001 1501 2001 2501 3001 3501
-2
caractristique o une marche ttrapode : 61, 53, 47, 29 est dcouverte.
1,2
1,2
1
1
0,8
0,8
0,6 Q6(53,0) 0,6 Q1(53,0)

0,4 Q6(53,1) 0,4 Q1(53,1)
0,2 0,2
0
0
-0,2
-0,2
1 11 21 31 41 51 61 71 81 91
1 11 21 31 41 51 61 71 81 91
1,2 1,2
1 1
0,8 0,8
0,6 Q5(53,0) 0,6 Q2(53,0)
0,4 Q5(53,1) 0,4 Q2(53,1)
0,2 0,2
0 0
-0,2 -0,2
1 11 21 31 41 51 61 71 81 91 1 11 21 31 41 51 61 71 81 91
1,2 1,2
1 1
0,8 0,8
0,6 Q4(53,0) 0,6 Q3(53,0)
0,4 Q4(53,1) 0,4 Q3(53,1)
0,2 0,2
0 0
-0,2 -0,2
1 11 21 31 41 51 61 71 81 91 1 11 21 31 41 51 61 71 81 91
caractristique o une marche ttrapode : 61, 53, 47, 29 est dcouverte (dtail).
125
Nous avons aussi constat que les courbes Q peuvent converger sans que tous les
agents ne reoivent plus de pnalits. La figure 5.24 suivante reprsente le cas parasite
dune marche priodique 3 temps dcouverte (47, 58, 21) et reproduite par le robot sans que,
comme lindique les signaux de renforcement, les agents ne soient plus pnaliss. On observe
alors que les courbes Q convergent vers une valeur infrieure 1/(1-)= 10 [Zen 03].
Q6(47,0)
3,5
Q6(47,1)
1 3
Q5(47,0)
2,5 Q5(47,1)
0,5
2 Q4(47,0)
1,5 Q4(47,1)
0
1 Q1(47,0)
1 -0,5 Q1(47,1)
0,5
5 Q2(47,0)
-1 0
9 Q2(47,1)
S5
-0,5
S3
Q3(47,0)
A B
S1
1 101 201 301 401 501 601 701 801 901

Q3(47,1)
Fig. 5. 24 A : Srie de signaux de renforcement (pnalits et rcompenses) reus en fin

dpisodes par les agents. B : Les fonctions Q convergent alors vers une solution non
optimale, la marche priodique obtenue n'est pas une marche quatre temps.
Ceci peut sexpliquer par le fait que le terme derreur qui permet de corriger les
valeurs de Q et qui scrit selon lexpression suivante:
= r + max(Q(s ' , a')) Q(s, a ) 5. 2
a
Peut tre positif alors que r est ngatif. Ainsi lors du cycle de marche, si le rapport du
nombre de rcompenses sur le nombre de pnalits est suffisamment grand, les courbes Q
continues de crotre, mais natteignent pas la valeur maximum attendue. Nous avons aussi
constat lors des simulations que mme si le robot est initialis dans la mme configuration de
dpart, le temps ncessaire pour atteindre une marche priodique pouvait varier fortement
dun essai lautre. On peut alors observer sur les courbes Q que dans certains cas des
fonctions Q tendent rapidement vers une valeur de convergence positive alors que dautres
oscillent ou prennent des valeurs ngatives traduisant une impossibilit de dcision sur
laction excuter. Nous pensons que lanalyse de ces comportements particuliers permet de
dtecter des conflits de dcision (conflit dintrt pour un agent ou entre les agents). Nous
navons pas cependant trouver de mthode satisfaisante pour exploiter ces comprtement afin
de rsoudre efficacement de tels conflits et pour ainsi diminuer le temps moyen ncessaire
pour converger vers une marche priodique.
5.6.5. Influence du choix des entres
Nous tudions ici, comment une limitation des informations sur ltat du robot peut
influencer la marche. Dans ce but, nous considrons que chaque patte ne reoit que les tats
d'un nombre limit des autres pattes. Parmi les cas possibles, nous avons retenus les quatre
cas suivants dcrits par les figures 5.25 5.28 :
126
Cas 1 : chaque patte ne connat que l'tat de la patte oppose.
patte6 patte1
patte5 patte2
patte4 patte3
Fig. 5. 25 Changement dinformation dtats entre les pattes.
Cas 2 : chaque patte ne connat que l'tat des pattes situes du mme ct.
patte6 patte1
patte5 patte2
patte4 patte3
Cas 3 : chaque patte ne connat que l'tat des deux pattes voisines.
patte6 patte1
patte5 patte2
patte4 patte3

Cas 4 : chaque patte ne connat que son propre tat.
Patte 6 Patte 1
Patte 5 Patte 2
Patte 4 Patte 3
127
Pour mener cette simulation, nous avons utilis les paramtres suivants :
a 0,01
0.95
D_max_ret 1ou 3 ou 5
D_min_ret D_max_ret
Rgle de propagation des proactions oui
Initialisation des tables chaque pisode oui
Tableau. 5. 18 Paramtres de simulations.
Nous constatons quaucune marche 6 temps nest apprise par le robot (cas o
D_max_ret = 5). Les marches trouves dans les cas 1,2, 3 sont :
Cas1 avec D_max-ret = 3.
Marches Nombre de fois Remarques

61 23 47 58 3 Nombre moyen de chutes=125.58
47 23 61 58 12 Dure moyenne des pisodes=499.36 u.t.
53 31 43 62 3
59 29 55 54 3
21 42 23
53 31 42 2
43 31 53 62 2
61 27 47 46 2
Tableau. 5. 19 Les marches trouves, cas 1 :

chaque patte ne connat que l'tat de la patte controlatrale.
Cas2 avec D_max-ret = 3 :

59 47 29 46 3 Nombre moyen de chutes=34
43 61 31 46 2
27 53 47 62 7
43 31 53 62 9
47 27 61 46 13
31 59 53 54 6
59 29 55 54 3
53 31 43 62 6
Tableau. 5. 20 Les marches trouves, cas 2 : chaque patte ne connat que l'tat des pattes
situes du mme ct.
128
Cas3 avec D_max-ret = 3 :

61 23 47 58 26 Nombre moyen de chutes=39.44
59 29 55 54 6
47 27 61 46 16
Tableau. 5. 21 Les marches trouves, cas 3 :

chaque patte ne connat que l'tat des deux pattes voisines.
Cas 4 avec D_max-ret = 3 :
Paramtres Marches Remarques

Considration sur la symtrie Oui 50 fois: 21 42 Nombre moyen de chutes par pisode
Rgle sur les des proactions Oui 14.54
Oubli aprs pisode Oui Dure moyenne des pisodes : 45.3 u.t.
(,) 0.95, 0.01
D_max_ret 1
D_min_ret D_max_ret
Considration sur la symtrie Oui 50 fois: 21 42 Nombre moyen de chutes par pisode :
Rgle sur les des proactions Oui 100.76
(,) 0.95, 0.01
D_max_ret 3
D_min_ret D_max_ret

Considration sur la symtrie Oui 50 fois: 21 42 Nombre moyen de chutes : par pisode
Rgle sur les des proactions Oui 102
(,) 0.95, 0.01
D_max_ret 5
D_min_ret D_max_ret
Tableau. 5. 22 Les marches trouves dans le cas 4 :

chaque patte ne connat que son propre tat.
129
Conclusions :
Daprs les rsultats obtenus nous remarquons que :
Du fait du nombre limit d'informations sur l'tat des pattes, on ne peut pas obtenir de
marches 6 temps car il y a ambigut : un mme tat correspondrait 2 actions
diffrentes.
Lorsque lagent ne connat que son propre tat, seule la marche tripode est trouve. En
effet dans une marche tripode, chaque patte alterne successivement entre proaction et
rtraction. Les pattes apprennent se synchroniser de telle sorte que depuis toute
configuration stable, les premiers pas conduisent une des configurations de la marche
tripode (qui est le seul cycle attracteur possible pour la mme raison que prcdemment).
Lobtention des marches 4 temps sont facilites lorsque chaque agent ne connat que
ltat de ces deux voisins immdiats. Le temps moyen pour obtenir une marche est mme
diminu par rapport au cas ou ltat de toutes les pattes est connu par lagent. En effet les
informations dtat inutiles augmente la taille des tables de valeurs Q(s,a), ce qui
rallonge le temps ncessaire lapprentissage.
5.6.6. Tolrance aux fautes
Dans cette partie nous voulons observer si le robot peut trouver ou non des marches
lorsque une ou plusieurs pattes sont bloques : soit en position haute (patte manquante), soit
en position basse (patte tranante). Lorsque une patte est bloque en lair, nous nobtenons
pas de marche. Cela est d au fait quaucune des deux pattes voisines ne peut entreprendre de
proaction car alors le robot chute. Les pattes ainsi bloques au sol reoivent des pnalits car
la satisfaction de leur propre objectif impose de ne pas rester bloque en position basse. Il y a
donc contradiction et lalgorithme ne converge pas. Il faudrait relcher la contrainte qui
impose une patte dentreprendre un mouvement de proaction par cycle de marche. Par
contre pour une cinq patte bloques au sol, lalgorithme converge et des marches dgrades
sont obtenues comme lillustre le rsultat suivant :
- Exemple de rsultats de simulation de deux pattes bloque au sol (la patte 1 et 2) :
Marche Nombre de Temps de calcule

trouve fois
31 63 55 43 16 Nombre moyen de chutes: 28.96
55 47 63 27 1 Dure moyenne des pisodes:
47 23 63 59 2 143.22 pas
23 63 47 59 1
47 63 23 59 14
63 47 23 59 1
23 47 63 59 7
63 55 47 27 8
Tableau. 5. 23 Les marches trouves ( =0.9, D_max_ret=3, D_min_ret=D_max_ret,

fonction critique supplmentaire, dure maximum d'un pisode: 2000).
130
Nous avons vrifi que pour 1 4 pattes bloques au sol, des marches peuvent tre
trouves mais, pour une patte bloque en lair, des marches ne sont pas trouves.
Conclusion :
Il nest pas possible dobtenir une marche priodique lorsque une des pattes est manquante
car il y a contradiction entre les rgles du critique. Il est alors ncessaire de relcher une
contrainte (cest dire quil faut supprimer une rgle pour lever la contradiction).
Par contre des marches dgrades sont obtenues lorsque 1 4 pattes restent bloques au
sol.
5.7 Comparaison entre lapproche centralise et lapproche

distribue
Nous comparons ici la version distribue et la version centralise de lalgorithme Q-
learning. Dans le cas centralis, toutes les pattes reoivent le mme signal de renforcement
selon les rgles suivantes :
- Une pnalit est envoye chaque patte si une des rgles en vigueur du critique
fournit une pnalit.
- Une rcompense est envoye chaque patte si et seulement si, au moins une rgle du
critique fournit une rcompense alors que les autres signaux de renforcement sont
nuls.
5.7.1. Influence de limplmentation de la fonction Q
Nous avons compar trois implmentations diffrentes de la fonction Q :
Cas 1, approche centralise du Q-learning : Un seul tableau de valeurs de la

fonction Q de dimension 64* 64, correspondant aux 64 actions possibles pour
les 6 agents dans les 64 tats possibles. Un algorithme de Q-learning central
actualise les valeurs de Q sur la base dun signal de renforcement global
commun toutes les agents.
Cas 2, approche hirarchise du Q learning, avec slection daction en

local : Nous utilisons six tableaux de valeurs de la fonction Q de dimension
64*2 (1 par agent), correspondant 2 actions possibles dans chacun des 64
tats possibles. Chaque agent gre lactualisation des valeurs de Q sur la base
dun signal de renforcement global commun tous les agents.
Cas 3, approche distribue : Nous utilisons six tableaux de valeurs de la

fonction Q de dimension 64*2 (1 par agent), correspondant 2 actions
possibles dans chacun des 64 tats possibles. Chaque agent gre lactualisation
des valeurs de Q sur la base de son propre signal de renforcement.
131
Nous prsentons les rsultats de simulations suivant obtenu pour des valeurs
identiques de et .
Cas 1 :
D_Max_ret = 5 Marches trouves Nombre de fois sur 50 pisodes (5000 ut)

D_Min_ret = 1 3 13 16 5 17 25 fois
= 0.01 3 13 17 1 fois
= 0.95 4 10 24 fois
Nombre moyen des chutes: 579.52
Dure moyenne des pisodes: 1200.78
Tableau. 5. 24 Les marches trouves avec un apprentissage par renforcement centralis, un

seul tableau (64*64) de valeurs Q pour lensemble des agents et un signal de renforcement
global.
Cas 2 :

D_Min_ret = 1 3 5 9 17 14 fois
= 0.01 13 18 24 fois
= 0.95
Tableau. 5. 25 Les marches trouves avec une architecture hirarchise (slection daction
en local), un tableau (64*2) de valeurs Q pour chacun des 6 agents et un signal de
renforcement global.
Cas 3 :

D_Min_ret = 1. 1 11 1 fois
= 0.01 7 12 2 14 13 fois
= 0.95 4 6 13 14 2 18 12 fois
39 12 fois
4 6 15 12 fois
Tableau. 5. 26 Les marches trouves avec un apprentissage par renforcement distribu, un

tableau (64*2) de valeurs Q pour chacun des 6 agents recevant son propre signal de
renforcement.
132
Conclusions :
Dans le cas distribu (chaque agent gre sa propre table Q partir de son propre signal de
renforcement) :
- Lapprentissage est le plus rapide, le nombre de chutes est le plus faible

- Chacun des pisodes se termine par une marche
- Le nombre de marches diffrentes est le plus lev
Dans le cas centralis et hirarchis o le renforcement est unique pour lensemble des
pattes :
- Lapprentissage est plus facile (50 marches trouves) et plus rapide dans le cas
centralis o il existe quune table (64x64) que dans le cas hirarchis o chaque agent
gre sa propre table (64x2).
- Ce rsultat peut sinverser avec les valeurs des paramtres D_Max_ret et D_Min_ret
(par exemple dans le cas D_Max_ret=D_Min_ret=5, le deuxime cas est meilleur que
le premire cas).
La version distribue donne de meilleurs rsultats que la version centralise quelles

que soient les valeurs de D_Max_ret, D_Min_ret.
Pour comparer la version distribue (cas 3) et la version hirarchise (cas 2 : signal de

renforcement global, slection daction en local et 6 tables de valeurs Q diffrentes) nous
tudions linfluence du facteur doubli et du pas dapprentissage .
5.7.2. Influence du facteur coefficient de pondration et du pas

dapprentissage
Nous tudions linfluence du facteur et du pas dapprentissage sur le nombre

dpisodes sans marche, la dure moyenne des pisodes qui se termine par une marche, le
nombre moyen des chutes sur les pisodes qui se termine par une marche, dans le cas de
larchitecture hirachise dans laquelle chaque agent ractualise sa propre table Q partir
dun mme signal de renforcement global. Les paramtres de simulations sont fixs comme
indiqu dans le tableau 5.27 suivant :
Paramtres de simulation Valeurs possibles

0..1
0.05
D_max_ret 5
D_min_ret 1
Fonction symtrie Oui
Critique supplmentaire Oui
Initialisation des tables Oui
chaque pisode
Tableau. 5. 27 Paramtres de simulation pour ltude de linfluence de .
133
Les rsultats de la simulation obtenus en calculant la moyenne sur cinq tests de 1000
pisodes de dure maximale 2000 itrations sont illustres par les figures (5.29, 5.30, 5.31)
suivantes :
Influence du facteur doubli :
Fig. 5. 29 Influence du facteur doubli sur le nombre des pisodes sans marche. Rsultats
obtenus en calculant la moyenne sur cinq tests de 1000 pisodes de dures maximale 2000
itrations.
Fig. 5. 30 Influence du facteur doubli sur la dure moyenne des pisodes qui se termine
par une marche. Rsultats obtenus en calculant la moyenne sur cinq tests de 1000 pisodes
de dures maximale 2000 itrations.
134
Fig. 5. 31 Influence du facteur doubli sur le nombre moyen des chutes sur les pisodes qui
se termine par une marche. Rsultats obtenus en calculant la moyenne sur cinq tests de 1000
pisodes de dures maximale 2000 itrations.
Les figures (5.29, 5.30, 5.31) montrent que avec laugmentation du facteur doubli ,
la dure moyenne des pisodes qui se terminent par une marche diminue progressivement,
ainsi que le nombre moyen des chutes sur les pisodes avec marche. Le nombre des pisodes
sans marche augmente avec cette augmentation de . Donc, contrairement au cas distribu, le
robot trouve avec difficults des marches diffrentes lorsque est proche de 1. Cela peut
sexpliquer par le fait que dans le signal de renforcement global est souvent pnalisant (une
pnalit est envoye tous ds quun agent nagit pas correctement), il est plus difficile de
trouver une solution qui conduit des rcompenses sur le long terme. La comparaison de ces
rsultats avec larchitecture distribue est illustre dans le tableau suivant :
Influence du facteur doubli

Architecture distribue Architecture hirarchise
Une diminution avec laugmentation Une diminution rapide avec
Nb moyen des chutes de . La valeur la plus petite est laugmentation de . La valeur
avec gale 0.9. la plus petite est avec gale
1.
Une diminution trs lente avec Une diminution rapide avec
Dure moyenne des laugmentation de . La valeur la laugmentation de . La valeur
pisodes plus petite est obtenue avec la plus petite est avec gale
gale 0.9. 1.
Une diminution trs rapide avec Une augmentation trs rapide
Nb des pisodes sans laugmentation de . avec laugmentation de .
marche
Tableau. 5. 28 Comparaison entre lapproche distribue et hirarchise par rapport
linfluence du facteur doubli .
135
Influence du pas de gradient
Nous tudions maintenant linfluence du pas dapprentissage sur le nombre

moyen de chutes pour les pisodes qui se terminent par une marche, la dure moyenne des
pisodes qui se terminent par une marche, le nombre moyen des pisodes sans chutes et aussi
sur le nombre moyen de marches diffrentes trouves. Pour cela nous choisissons trois
valeurs du facteur ( ) o nous avons des bons rsultats par rapport au nombre moyen de
chutes, la dure moyenne des pisode et le nombre des pisodes sans chutes. Donc = (0.8,
0.9, et 1). Les valeurs de Alpha ( ) sont (0.01, 0.05, 0.1, 0.5, 1, 2) . Les rsultats obtenus
pour = 0.9 en calculant la moyenne sur cinq tests de 1000 pisodes de dure maximale
2000 itrations sont illustres par la figure 5.32 suivante :
Avec = 0.9 :
Fig. 5. 32 Influence du pas de gradient sur le nombre moyen de chutes pour les pisodes qui
se terminent par une marche, la dure moyenne des pisodes qui se terminent par une
marche, le nombre moyen des pisodes sans chutes et le nombre moyen de marches
diffrentes trouves, avec =0,9 sur cinq tests de 1000 pisodes de dures maximale 2000
itrations.
136
Les remarques sur linfluence de la variation de pas de gradient sont les suivantes :
Nous constatons quau del de =0.5 : le nombre moyen de chutes et la dure

moyenne des pisodes dans le cas o les pisodes se terminent par une marche
augmentent lorsque augmente (ce qui traduit une difficult apprendre une marche).
Le nombre de marches diffrentes trouves, et le nombre moyen dpisodes sans
marche diminuent lorsque augmente ce qui traduit le fait que le robot trouve plutt
le mme type de marche (ceci est confirm par la suite par lanalyse des marches
obtenues).
On trouve plus facilement des marches diffrentes lorsque est proche de 0.01, mais
il faut prendre voisin de 0.5 pour que la dure moyenne des itrations ncessaires
pour trouver une marche soit la plus faible. Nous suggrons que ceci traduit le fait que
pour petit, lalgorithme se trouve plus facilement pig dans une solution
(correspondant un minimum local de lobjectif ), une augmentation de
permettant datteindre plus facilement des solutions de bassin dattraction plus grand.
Nous avons trait linfluence du pas dapprentissage sur la priode des marches total
de marche trouves sur un essai de 1000 pisodes de dure maximale 2000 itrations. Avec la
valeur de = 0.9 et le pas dapprentissage prenant les valeurs 0.01, 0.05, 0.1, 0.5, 1, 2, 0. Les
rsultats de simulations sont illustrs dans les figures (5.33, 5.34) suivantes :
Avec =0.9
horizontal (T): priode des marches. Laxe vertical : nombre total de marches trouves pour
un essai de un essai de 1000 pisodes de dure maximale 2000 itrations.
137
horizontal (T): priode des marches. Laxe vertical : nombre total de marches trouves pour
un essai de un essai de 1000 pisodes de dure maximale 2000 itrations.
Nous remarquons que :
Daprs les figures 5.33 et 5.34 confirment le fait quune valeur petite permet de
dcouvrir davantage de marches diffrentes.
Le nombre de marches trouves est nettement plus faible que dans le cas distribu.
5.8 Rsum
A la fin de cette premire tape de la simulation portant sur la gnration des marches
priodiques en terrain plat, nous rcapitulons les rsultats obtenus avec l'approche distribue
en tudiant linfluence des paramtres de simulations et comparons lapproche centralise et
approche distribue :
Apprentissage de marches naturelles des insectes :
Nous observons que lalgorithme converge vers des marches stables parmi
lesquelles certaines sont observes chez les insectes. Ces marches sont des
cycles attracteurs pour les autres tats.
Comparaison approche centralise / dcentralise :
L'approche distribue de l'apprentissage est plus rapide que l'approche

centralise : en moyenne, un nombre infrieur de pas est ncessaire pour
trouver une marche et davantage de marches diffrentes sont dcouvertes.
138
Influence du critique :
On peut modifier la fonction critique pour liminer des marches non observes
sur les insectes.
Influence des paramtres dapprentissage :
La dure autorise de rtraction agit sur la priode T des marches trouves et

donc sur la vitesse de dplacement. La prise en compte de la symtrie permet
d'liminer des marches non rectilignes. petit (< 0.1) facilite la dcouverte de
nouvelles marches.
Influence du choix des entres dtat :
Lorsque on limite l'information sur l'tat des pattes, on ne peut pas obtenir de
marches 6 temps car il y a ambigut : un mme tat correspondrait 2
actions diffrentes.
Tolrance aux pannes :

Pour 1 4 pattes tranantes au sol, des marches sont trouves.
Pour une patte bloque en lair, des marches ne sont pas trouves
5.9 Limitation de lapprentissage par renforcement

classique de type Q-learning
Les rsultats de la premire partie de la simulation base sur lalgorithme Q-learning
classique mettent en vidence certaines limitations :
1. Dans lapproche centralise de l'apprentissage de plusieurs agents contribuant une mme

tche, il y a une difficult pour prendre en compte des signaux de renforcement diffrents
pour chaque agent. C'est pourquoi nous avons privilgi une approche distribue de
lapprentissage par renforcement (Q-learning distribu).
2. Dans le cas de plusieurs agents (dans notre application, il y a six agents), le rsultat de
laction dun agent dpend aussi des actions des autres agents. Il peut tre intressant pour
un agent de prendre en considration les actions des autres agents. Afin de permettre la
coordination entre ceux-ci, nous proposons un algorithme Q-Multiacteur.
3. Le nombre des valeurs tat-action calculer crot avec le nombre dactions possibles et le
nombre dtats visits. Dans le cas de variables d'action ou d'tat continues, l'algorithme
Q-learning ne peut pas tre appliqu dans sa version de base. Pour rsoudre ce problme
nous ralisons la discrtisation des espaces.
139
Limitations du
Q-learning classique
Critique Centralis Espace dtat et Prise en compte des autres

daction continus agents dans la mme tche
Q-learning distribu Discrtisation Q-multiacteur
Possibilit dapprendre des marches

priodiques et Contrler le changement
de trajectoire
Fig. 5. 35 Limitations de lalgorithme Q-learning classique.
Ces amliorations de lalgorithme Q-learning classique, nous permettent de traiter

dautres problmes plus complexes tels que le problme du changement de trajectoire avec
contrle de la posture.
5.10 Modifications apportes l'algorithme Q-learning
5.10.1. Stratgies individuelle ou collective
Dans le cas o plusieurs agents cooprent la mme tche les consquences de

laction dun agent dpendent des actions des autres agents. Donc le calcul de la fonction
valeur Q dun agent dpend des actions des autres agents. Les stratgies que peuvent suivre
les agents peuvent tre individuelles ou collectives :
- Stratgie individuelle :
Chaque agent mne son apprentissage en ignorant les autres acteurs. Cela revient
appliquer lalgorithme dapprentissage comme si chaque agent tait seul dans un
environnement non-stationnaire. En effet au cours de lapprentissage, une action "a" excute
140
depuis le mme tat "s" ne conduit pas toujours au mme tat "s" car ltat atteint s
dpend des actions de tous les agents.
- Stratgie collective :
Lagent va prendre en compte lexistence des autres mais peut adopter soit un
comportement goste (l'agent cherche maximiser ses propres gains) soit un comportement
altruiste (l'agent agit pour augmenter les gains du groupe). La stratgie conduisant un
quilibre de Nash est celle pour laquelle aucun des acteurs ne peut esprer un gain suprieur
compte tenu du choix des actions des autres.
Un quilibre de Nash nest pas forcment Pareto optimal, cest dire quil peut exister
un autre choix dactions conduisant des gains non infrieurs pour tous et suprieurs pour au
moins l'un dentre eux [Zen 04].
Lexemple de la figure 5.36 illustre des stratgies possibles dans le cas de deux
agents : chaque matrice reprsente les gains attendus par chacun d'eux en fonction des actions
choisies.
a21 a22 a23 a21 a22 a23
a11 3 0 -3 -2 0 9
a12 0 1 0 0 1 -1
a13 2 -2 2 3 -1 2
Q1(s,a) pour agent 1 Q2(s,a) pour agent 2
Fig. 5. 36 Matrice des valeurs de Q pour chaque agent.
Selon une stratgie individuelle, le meilleur choix de lagent 1 est a11 et son gain
est 3 tandis que le meilleur choix de lagent 2 est a23 et son gain est 9. Cependant en
excutant ces actions, le gain de lagent 1 est en fait -3, et la somme des gains des deux
agents est gale 6. Selon une stratgie collective, si lagent 1 choisit a12 et lagent 2
choisit a22 alors il y a quilibre de Nash (aucun des agents n'a intrt modifier
unilatralement son choix) et la somme des gains est gale 2. Avec le choix optimal (a13,
a21), tous deux gagnent et la somme des gains est 5. Notons que le choix qui maximise la
somme des gains est (a11 , a23) mais ce choix nest pas satisfaisant puisque lagent 1
connat une perte de 3.
Cet exemple montre que les agents peuvent avoir intrt cooprer plutt que de
s'ignorer. Cependant la stratgie de coopration est diffrente selon que le critre de
performance est de maximiser la somme des gains obtenus ou d'assurer des gains maxima
pour chacun des agents ou de satisfaire une condition d'quilibre de Nash.
141
Le raisonnement prcdent a t men en supposant que chaque agent possde une

connaissance globale de la situation, c'est dire qu'il a accs l'ensemble des tables des
valeurs de chacun des agents. Or, dans le cas d'un apprentissage par renforcement ces
conditions ne sont pas forcment remplies dans la mesure o :
Une table de valeur d'utilit n'est qu'une estimation de l'esprance du cumul des gains
attendus par un agent. Elle peut comporter des erreurs en dbut d'apprentissage et
volue au cours du temps vers une estimation correcte (s'il y a convergence de
l'algorithme d'apprentissage).
Un agent ne connat pas forcment les tables de valeurs d'utilit des autres agents.
Dans ce cas il doit non seulement calculer sa propre table mais aussi estimer celles des
autres. A cette fin il doit connatre les situations perues par chacun des autres agents,
les actions choisies par eux et les rcompenses ou pnalits obtenues.
Un agent ne connat pas forcment les stratgies suivies par les autres agents. Il lui est
alors ncessaire de l'observer en permanence pour adapter sa propre stratgie.
Il apparat donc que la mise en oeuvre d'un apprentissage par renforcement dans le cas
de systmes multiacteurs posent des problmes thoriques et pratiques importants. Nous
proposons dans le paragraphe suivant un algorithme d'apprentissage distribu qui prend en
compte les choix d'actions des autres agents sans toutefois mettre en oeuvre des procdures
d'estimation des tables des valeurs d'utilit des autres agents.
5.10.2. Comportement collectif
On suppose quau moment dagir les agents ne connaissent pas a priori les actions
choisies par les autres agents. Par contre on fait l'hypothse qu'ils connaissent a posteriori les
actions exerces par tous. Nous considrons une forme simple de comportement collectif qui
permet un groupe d'agents de tenir compte de lexistence des autres membres du groupe
sans pour autant aller jusqu' estimer les tables de valeurs d'utilit ni la stratgie des autres
agents. Soit trois agents i, j, k chacun deux nayant le choix quentre deux actions notes 0 et
1. Pour chaque tat s, les agents vont maintenir 4 tables de valeurs tat-action correspondant
aux quatre possibilits daction des deux autres agents :
aj = 0 ak= 0 aj = 0 ak = 1 aj = 1 ak = 0 aj = 1 ak = 1
ai = 1 3 -4 2 5
ai = 0 1 1 -5 -1
Pour chaque tat s
Fig. 5. 37 Tableau des valeurs tat -action tenant compte du choix des actions des autres
agents.
142
Lagent choisit l'action conduisant une esprance de gain maximum, c'est dire celle
qui, pour un tat s donn, correspond la ligne comportant la valeur de gain la plus grande (le
gain 5 dans la figure 5.37) sans se soucier si les autres agents choisiront effectivement les
actions correspondant la colonne comportant cette valeur. Par contre suite au signal de
renforcement reu, lagent met jour la case de la colonne correspondant aux choix des autres
agents (par exemple, d'aprs la figure 5.37, si aj =0 et ak = 1, la case contenant -4 est
modifie). Ainsi lestimation du gain est actualise en tenant compte des choix des autres
agents contrairement une stratgie individuelle, pour laquelle les quatre tables sont
confondues en une.
Ainsi tout se passe comme si les actions que peuvent excuter les autres agents du
groupe taient de nouvelles variables d'tat dont les valeurs ne peuvent seulement tre
observe qu'une fois la dcision est prise. Si les membres du groupe partagent la mme
information d'tat et reoivent le mme signal de renforcement, le groupe peut tre considr
comme un seul agent dont les actions excutables sont les combinaisons de celles de chaque
membre dans le groupe.
Sinon, chaque membre du groupe agit indpendamment et met jour sa propre table
de valeur Q, la diffrence avec la stratgie individuelle rside dans le fait que des valeurs de Q
sont indexes par les actions des membres. Ainsi la valeur de Q qui est actualise chaque
itration est celle qui correspond aux actions rellement excutes. Selon cette approche, pour
chaque membre d'un groupe dtermin d'agents, l'algorithme Q-learning devient :
Initialiser Q(s,ai, a1,..,a i-1, a i+1, ... aN) 0

Pour tout pisode
Pour tout tape de lpisode
Pour tout acteur i
Choisir ai daprs Q ( -avide) sans tenir compte des autres actions que ai ,
Observer a1,..,a i-1, a i+1, ... aN et ri
Ractualiser
Q(s,ai, a1,..,a i-1, a i+1, ... aN) Q(s,ai, a1,..,a i-1, a i+1, ... aN) +
a.[r+.maxaiQ(s,ai, _, _)- Q(s,ai, a1,..,a i-1, a i+1, ... aN)]
s s
Algorithme. 5. 2 Algorithme Q-multiacteur.
Si chaque groupe ne contient qu'un agent (N=1), l'algorithme est quivalent celui
correspondant une stratgie individuelle. Quand un groupe contient tous les agents,
lapprentissage peut tre considr quivalent un processus Q-learning unique (centralis)
sous les conditions que :
les tats et les signaux de renforcement soient les mmes pour tous les membres du
groupe
en cas de choix parmi des actions quivalentes, une rgle soit convenue pour que les
agents effectuent le mme choix.
143
la stratgie d'exploration soit identique pour tous les agents
L'augmentation du nombre de groupes rduit le nombre de valeurs de Q actualiser.

Par exemple, si S est le nombre d'tats, A le nombre d'actions que chaque agent peut
excuter, M le nombre de groupes et N le nombre de membres dans chaque groupe, le
nombre de valeurs de Q est M*S*AN. Dans le cas que o tous les agents agissent
individuellement, le nombre de valeurs de Q est N*M*S*A. Le prix payer pour cette
rduction du nombre de valeurs de Q est l'absence de coordination entre les groupes.
5.10.3. Discrtisation des espaces continus
Avec la motivation de traiter des tches plus complexes (changements de trajectoire,

rotation ou franchissement dobstacles), nous avons besoin dun modle du robot plus riche
avec des actions pouvant prendre un plus grand nombre de valeurs discrtes, voire mme
pouvant varier de manire continue.
Cependant, lorsque la fonction valeur Q est implmente comme une table, le cot en
temps de calcul explose rapidement avec la rduction de la granularit des reprsentations des
grandeurs dtat et daction, rendant le Q-learning inadapt dans sa version de base au cas o
espace dtat ou lespace daction est continu.
Pour dpasser cette limitation, plusieurs approches ont t proposes sappuyant soit
sur un codage manuel des espaces continus soit sur des techniques de quantification
vectorielle bases sur les cartes auto-organisatrices de Kohonen (Self Organisation Maps)
[Seh 96], [Smi 02] ou bien encore sur des mthodes dapproximation de fonctions base de
rseaux de neurones multicouches.
Dautres techniques de quantification et dinterpolation pourraient tre utilises

comme celles suggres par les travaux mens par Michael Aupetit [Aup 99]. Dans les essais
que nous avons men, nous avons adopt une quantification manuelle des espaces d'action et
d'tat et nous avons introduit la possibilit d'ajuster les valeurs d'action pendant
l'apprentissage par ajout de bruit sur ces valeurs pendant l'exploration.
On note s et a les vecteurs dtat et daction. On note "sn" et "an" les valeurs
codant les espaces d'tat et d'action. Ainsi le code de "s" (respectivement de "a") est la valeur
"sn" (respectivement "an") la plus proche au sens de la distance euclidienne.
L'algorithme Q-learning devient alors :
144
Initialiser Q(sn,an) 0
Pour tout pisode
Pour toute tape dans lpisode
Rechercher le neurone sn le plus proche de s codant lespace dtat
Choisir le neurone an daprs Q selon un comportement -avide,
Explorer (2) les valeurs continues autour des actions a codes par an : a = a +a
Observer s et r
1
Rechercher le neurone a n le plus proche de a sur la carte codant lespace des actions
Rechercher le neurone sn le plus proche de s sur la carte codant lespace dtat
Ractualiser
Q(sn , a1n) Q(sn , a1n )+ .[r+.maxanQ(sn,an) - Q(sn , a1n )]
Si [r+.maxanQ(sn,an) - Q(sn , a1n )]>0, ajuster (1),(3) les valeurs d'action en
rapprochant a1n de a
s s
Algorithme. 5. 3 Algorithme Qlearning......
(1) : soit w0 le vecteur des composantes du reprsentant xn se situant le plus prs de la donne
x, alors la phase dactualisation consiste rapprocher le reprsentant w0 du vecteur x
selon lexpression suivante :
w 0(t+1) = w 0 (t) + ( t)*(x(t)- w 0 (t))
o ( t) est un pas dapprentissage dcroissant au court du temps.
(2) : il y a deux niveaux dexploration :

- le premier consiste slectionner une action an diffrente de celle estime
procurer le gain maximal (compte tenu de la connaissance sur les valeurs de
Q).
- le second consiste ajouter au vecteur a cod par an un vecteur a (de norme
petite par rapport la norme de a et choisi alatoirement). Ce second niveau
permet d'explorer la rgion de lespace continu autour de an.
(3) : on ractualise la position de an de faon le rapprocher de laction a, seulement dans le

cas o laction a augmente lesprance des gains futurs par rapport laction code
pralablement par an.
Nous mettons en uvre par la suite les algorithmes proposs, en simulation, pour que
le robot apprenne changer de trajectoire tout en contrlant sa posture.
145
5.11 Rsultats de simulations de changement de trajectoire

avec contrle de la posture.
5.11.1. Le contrle de la posture
La posture est dfinie par la position et lorientation relatives du corps par rapport aux
pieds. Le contrle de la posture consiste alors dplacer le corps relativement aux pieds, afin
par exemple damliorer la stabilit et la mobilit du robot. Ainsi une posture de rfrence est
dfinie comme celle qui assure un bon compromis entre stabilit et possibilit de mobilit. La
figure 5.38 dfinit une telle posture de rfrence.
Avec lutilisation des dfinitions de la posture du chapitre 1 et 2, la stabilit du robot

est amliore en augmentant la distance entre les pieds supportant le robot et en approchant le
centre de gravit du robot du barycentre de la position de ces pieds, et la mobilit du robot est
amliore en levant le corps du robot par rapport au sol et en loignant les pieds des limites
de leur espace de travail afin de permettre une grande varit de mouvements dans toutes les
directions.
En reliant la position des pieds on dfinit un polygone appel, polygone de

configuration qui nest pas ncessairement plan. Dans le modle de Porta, le polygone de
configuration est dfini par rapport aux six pieds [Cel 98].
RG Ly
z
G
y
x
Lz=0.5 dm
Lx=1dm
Lx=1 dm
2.Ly=0.4 dm
Fig. 5. 38 Polygone de configuration de rfrence.
Deux postures sont compatibles si elles admettent le mme polygone de configuration.

Considrons nimporte quel polygone de configuration, la posture optimale pour ce polygone
de configuration est la posture qui lui est compatible et qui minimise la distance entre ce
polygone de configuration et le polygone dfini par la posture de rfrence. Ainsi la position
du corps dans la posture optimale est la position du corps qui rduit au minimum les distances
entre les sommets du polygone de configuration donn et ceux du polygone de configuration
dans la posture de rfrence.
146
Dans notre modle, le polygone de configuration est dfini par les seuls pieds qui sont
en contact avec le sol, cest dire que nous admettons que les pattes qui sont en lair nont pas
dinfluence sur la recherche dune posture optimale.
Le contrle de la posture consiste chercher atteindre la posture optimale en utilisant

des mouvements coordonns des pattes de sorte que le polygone de configuration reste
inchang (mouvements conservatifs). Les effets du contrle de la posture peuvent tre
illustrs par lanalogie suivante [Cel 98] : On suppose que les pieds en contact avec le sol sont
solidement arrims et que le polygone de configuration correspondant la posture de
rfrence est fix rigidement au corps (figure 5.39).
Si chaque pied de la configuration courante est reli au sommet correspondant du

polygone de rfrence par un ressort, alors le corps se dplace pour rduire au minimum
lnergie potentielle de telle sorte que les sommes des forces et couples exerces sur le corps
sannulent. La position finale du corps par rapport aux pieds correspond alors la posture
optimale pour le polygone de configuration donn.
Position optimale
Posture initiale Posture finale

Ressorts
Fig. 5. 39 Contrle de la posture en utilisant lanalogie des ressorts . Dans ce cas particulier,
le polygone de configuration est un triangle. La position et lorientation du corps changent
afin de rduire au minimum lnergie potentielle stocke dans les ressorts virtuels reliant les
pieds en contact avec le sol et les pieds correspondant au polygone de configuration dfini
par la posture de rfrence.
Le modle de la posture est identique celui propos par Porta [Por 98] mais nous ne
prenons en considration que les pieds en contact avec le sol. Ce modle est dcrit par les
expressions suivantes :
Soit le repre RG dorigine le centre de gravit et li une posture de rfrence du

robot comme indiqu en figure 5.38. Les positions pi des pieds dans une posture P se
dduisent des positions qi dune posture compatible Q par la transformation T() avec = [x
y z ], o x,y,z sont des translations selon les axes du repre RG et , , sont des
rotations autour des axes Gx,Gy et Gz. Nous avons alors la relation :
147
q xi cos( ) sin( ) 0 x cos( ) 0 sin( ) 0 1 0 0 0 p xi

i
q y = sin( ) cos( ) 0 y 0 1 0
0 0 cos( ) sin( ) 0 p iy
q zi 0 0 1 z sin( ) 0 cos( ) 0 0 sin( ) cos( ) 0 p zi

1 0 0 0 1 0 0 0 1 0 0 0 1 1
5. 3
La distance DQ , R () entre la posture Q et la posture de rfrence R est :
n 2 n
DQ , R () = q i r i = (q x rx ) 2 +(q y ry ) 2 + (q z rz ) 2
i i i i i i
5. 4
i =1 i =1
DQ , R
On en dduit le gradient par rapport de la distance dans la posture Q :

DQ , R n DQ , R n
= 2. ( p xi rxi ) = 2. (ryi p zi rzi p iy )
x =0 i =1 =0 i =1
DQ , R n DQ , R n
= 2. ( p iy ryi ) = 2. (rzi p xi rxi p zi ) 5. 5
y =0 i =1 =0 i =1
DQ , R n DQ , R n
= 2. ( p zi rzi ) = 2. (rxi p iy ryi p xi )
z =0 i =1 =0 i =1
Pour excuter un mouvement conservatif de la posture P vers la posture Q, les

trajectoires des pieds doivent tre coordonnes de telle sorte que le polygone de configuration
ne soit pas dform pendant le processus. Celaya et Porta propose dimplmenter le
mcanisme de contrle de la posture selon six processus d'ajustement spars appels
balance, chacun dentre eux correspondant un degr de libert. Ainsi lorsque une
DQ , R
composante du gradient est diffrente de zro, l'ajustement correspondant est

charg de raliser un petit dplacement de tous les pieds selon le degr de libert
correspondant pour diminuer la distance DQ,R. Puisque les ajustements procdent par
succession de petits dplacements, il est possible de les assimiler des mouvements effectus
en ligne droite dans les directions donnes par le vecteur des drives partielles de qi par
rapport aux six paramtres. Ces vecteurs sexpriment par :
148
1 1
q i q i
= 0 = p zi
x
=0 0
=0 p iy

0 p zi
q i q i
= 1 = 0 5. 6
y
=0
0 =0 p xi

0 p y
i
q i
= 0 q i
= p xi

z
=0
1 =0 0

Notons que ce modle suppose que chaque patte possde trois degrs de libert ce qui
nest pas le de notre robot hexapode, pour lequel chaque patte seulement deux degrs de
libert (par conception, un dbattement de lpaule autour dun axe parallle au grand axe du
robot existe mais il nest pas motoris). Ainsi chaque ajustement ou balance excute des
petits dplacements de tous les pieds du polygone de configuration correspondant la posture
de rfrence dans la direction correspondant ces vecteurs et ralise ainsi une descente de
gradient selon un degr de libert donn. Lorsque le gradient est nul, le corps se trouve dans la
posture optimale, et il a donc chang de position et dorientation par rapport au repre RG et
aussi par rapport un repre absolu li lenvironnement. Ce changement dorientation et de
position est li lamplitude et au sens des mouvements de pousses succdant aux phases de
balancement des pattes. Description du changement de trajectoire avec contrle de la posture.
Nous utilisons dans notre travail ce modle de posture pour conduire des simulations
sur lapprentissage des mouvements permettant un changement de trajectoire de faon ce
que partant dune position et orientation initiale quelconque, le robot rattrape une trajectoire
proche et parallle laxe Ox du repre li au terrain et telle que laxe principal du robot soit
pratiquement parallle laxe Ox. Cette trajectoire atteindre est donc dfinie par lcart
maximal tolr yf avec laxe x et la rotation maximale f tolre autour de laxe Gz (figure
5.40).
y Ymax
2 f 2y f
x
Fig. 5. 40 Contrle de changement de trajectoire.
Nous supposons dans la simulation que le robot volue selon une marche tripode, et
que chaque patte peut pousser vers lavant ou vers larrire indpendamment des autres avec
diffrentes amplitudes. Ainsi, le robot peut marcher en avant comme en arrire (l'analogie
149
avec des marches naturelles n'est plus valide puisque les insectes marchent en arrire moins
facilement quen avant). Dans cet exemple particulier nous avons choisi de coder
manuellement les informations discrtes d'tat et d'action. Comme reprsent sur le schma
(Fig.5.41), quatre zones parallles laxe Oy et six secteurs autour de laxe e Gz ont t
dfinis. Ainsi le nombre d'tats possibles est S= 24.
+m
my
s
Gz sy
- sy x
-s
- my
-m
Fig. 5. 41 Codage des espaces d' tat et d'action.
Les actions sont dcrites par l'amplitude algbrique des mouvements de balancement
des pattes entre la position de posture de rfrence et la prochaine position de contact au sol.
L'amplitude de tels mouvements peut prendre des valeurs continues dans l'intervalle [- avx,
+avx] (avx tant la plus grande amplitude possible de mouvement). Cet intervalle est dcoup
au dpart en A-1 sous-intervalles damplitudes gales.
Chacune des A bornes initialise une valeur discrte d'action l'amplitude du mouvement
pouvant tre ajust lors de la phase d'exploration comme dcrit dans le paragraphe prcdent.
Dans les simulations nous avons runis les deux algorithmes 5.3 et 5.2. Les pattes ont
t divises en deux groupes, chacun des groupes tant constitu par les trois pattes qui
soutiennent alternativement le robot pendant la marche tripode. Chaque agent (un par patte)
actualise sa propre table de valeur de Q de dimension S*A3.
Le signal de renforcement est calcul selon le critique suivant :
- Une rcompense est attribue au groupe dont les pattes sont au sol si la valeur absolue
de la rotation autour de laxe vertical Gz est plus petite que s = teta f et si la
distance de G l'axe Ox est plus petite que sy = yf.
- Une pnalit si la valeur absolue de la rotation autour de laxe vertical Gz est plus
grande que m' ou si la distance de laxe x est plus grande que 'my'.
- Un signal de renforcement nul dans les autres cas.
Le processus de simulation est men selon l'algorithme suivant :
150
Initialisez les tables de valeur Q 0
Debut : Rpter jusqu' ce que le test (1) soit russi
Choisir la position initiale du centre de gravit (xG, yG, zG) et l'orientation autour de
laxe Gz ( thetaG) du robot :
xG=0, zG =zref, yG valeur alatoire entre - ymax + ymax,
thetaG valeur alatoire entre et .
Choisir les actions a et actualiser les tables Q.
Si des rcompenses en nombre suffisant sont reues ou si le nombre de pas est plus
grand qu'une limite prdfinie, allez Dbut
Algorithme. 5. 4 Procdure de la simulation.
(1) : Le test consiste atteindre et suivre suffisamment longtemps la trajectoire fixe comme
objectif partir de Nt positions et orientations diffrentes.
5.11.2. Changement de trajectoire avec contrle de la posture :

Rsultats
Les positions initiales des tests sont les suivantes :
Yg =0.75 g =/4
g =0 Yg =0.5 g =/2
Yg =0
g =3./4 Yg =0.5
1 2 3 4
g =-3./4 Yg =0.5
g =0
Yg =0 Yg =0.5 g =-/2
Yg =0.75 g =-/4
5 6
7 8
Fig. 5. 42 Les diffrentes positions initiales de test.
Nous prsentons ci-aprs les rsultats de simulation en test, reprsents par les
comportements acquis pour changer de trajectoire et rejoindre l'objectif fix.
151
Les figures prsentes concernent les tests suivants :
coordonnes du centre de gravit au position initiale : xG=0, yG=0.5, G=3/4,

avx=0.25, A=2 (l'unit de distance est 1, la longueur du robot)
coordonnes du centre de gravit au position initiale : xG=0, yG=0.5, G=3/4,
avx=0.35, A=2 (l'unit de distance est 1, la longueur du robot)
1. Coordonnes du centre de gravit au position initiale : xG=0,yG=0.5, (l'unit de distance

est 1, la longueur du robot) thetaG=3/4, avx=0.25, A=2 , =0.9, =0.01, (0) = 0.05 :
Fig. 5. 43 Trajectoire du robot hexapode dans le plan x,y.
La trajectoire dsire est atteinte en environ deux cents pas. La longueur de la

trajectoire, de la position initiale la position finale est de l'ordre de 20 fois la longueur du
robot.
Fig. 5. 44 Variation de langle de rotation G autour de Gz.
152
2. Coordonnes du centre de gravit en position initiale : xG=0,yG=0 , (l'unit de distance

est 1, la longueur du robot), et lorientation initiale thetaG= , avx=0.25, A=2, =0.9,
=0.01, (0) = 0.05 :
Fig. 5. 45 Trajectoire du robot hexapode, position du centre de gravit dans le plan x,y.
Fig. 5. 46 Variation de langle de rotation G autour de Gz.
Nous pouvons observer sur les figures 5.45 et 5.46 que le robot progresse un temps
assez long (900 pas) dans la direction oppose celle souhaite avant de changer
dfinitivement dorientation. Ce comportement peut tre amlior en prolongeant
lapprentissage.
153
Ainsi le robot russit apprendre contrler sa trajectoire. Il faut environ 6000

pisodes dapprentissage partir des positions et orientions initiales alatoires pour converger
vers une solution satisfaisant toutes les conditions de tests (le demi tour est le plus long
apprendre).
5.12 Conclusion
Nous avons prsent dans ce chapitre le robot hexapode du LGI2P ainsi que la
problmatique de lapprentissage de la marche du robot hexapode et du changement de
trajectoire avec contrle de la posture.
Nous avant prsent une approche distribue de lapprentissage par renforcement de

type Q-learning applique au robot hexapode. Nous avons illustr les rsultats obtenus pour
gnrer des cycles de marche priodiques, avons tudi linfluence des paramtres
dapprentissage et avons compar les architectures centralises et distribues.
Nous avons constat, que larchitecture distribue donne de meilleurs rsultats pour la
gnration des marches priodiques rectilignes par rapport aux critres concernant le temps
ncessaire pour lapprentissage et le nombre de marches trouves.
Dans la deuxime partie du travail, nous avons prsent les limitations du Q-learning
classique : augmentation inacceptable du temps de calcul et de lespace mmoire lorsque les
espaces daction et dtat sont continus, besoin de coordination lorsque plusieurs agents
doivent apprendre rsoudre une mme tche.
Nous avons alors propos un algorithme Q-multiacteur pour que les agents tiennent
compte pendant lapprentissage de lexistence des autres agents contribuant la mme tche
et avons trait le problme despace continu (tat et action) par le recours une discrtisation
des espaces.
Nous avons combin ces algorithmes pour que le robot apprenne changer de
trajectoire avec contrle de la posture. Daprs les rsultats obtenus en simulation, nous
observons des trajectoires correctes, lapprentissage du demi-tour tant le plus difficile.
Ces rsultats nous permettent denvisager pour des travaux futurs dtudier
lapprentissage de la marche en terrain non plat, lvitement des obstacles et la navigation.
154
CONCLUSION GNRALE
ET PERSPECTIVES
1. Synthse
Dans ce travail de recherche qui s'inscrit dans le prolongement des travaux sur le
robot hexapode mens par C.Touzet, et A.Johannet, nous nous sommes intresss
dvelopper une approche distribue de la commande du robot et de lapprentissage de la
marche dans un environnement qui peut tre inconnu. Nous nous sommes aussi intresss
dvelopper des techniques de contrle de la posture du robot et de changement de sa
trajectoire.
Les travaux prcdents [Tou 93] [ Joh 95] utilisaient une architecture base de
rseaux de neurones calculs selon un algorithme dapprentissage par renforcement de type
1
Arp [Bar 85]. Cette architecture a donn de bons rsultats en ce qui concerne la gnration
de marches rectilignes stables, parmi lesquelles certaines ont t observes chez les
insectes (marche tripode). Cependant l'approche prsente des limitations : le nombre
possible dactions est rduit deux par segment, la fonction critique utilise attribue le
mme renforcement (pnalit ou rcompense) pour lensemble des pattes, mme lorsque
seulement quelques pattes parmi les six sont responsables du bon ou du mauvais
comportement du robot, enfin il nest pas possible de traiter le cas o l'espace daction est
continu.
Dans nos travaux, l'effort a port sur llaboration de techniques dapprentissage

plus gnrales et mieux adaptes des modles plus complexes du robot hexapode. Une
approche distribue du Q-learning t privilgie. Elle se caractrise par une plus grande
autonomie confre aux agents contrleurs devant optimiser un comportement individuel
compatible avec l'objectif global fix au robot : la marche avec contrle de la posture et de
la trajectoire. Avec cette approche nous avons obtenu de nombreuses solutions de marche
avec la possibilit de prendre en compte des espaces dtat et daction continus.
Lefficacit et lefficience de l'approche ont t vrifies au travers de nombreuses
simulations, et cest en ce sens que nous dirons que les objectifs du travail ont t atteints.
1.1 Ce travail de recherche a t organis autour des trois

activits suivantes :
1. Revue dtaille et tat de lart :
Cette tude bibliographique porte sur les lois de la marche des insectes, les modles
de robots hexapodes et diffrentes approches et mthodes dapprentissage par
155
renforcement dans le cas monoagent ou multiagent. Cette tude nous a permis de faire
voluer notre modle gomtrique de simulation notamment pour prendre en compte le
contrle de la posture. Elle nous a permis de concevoir la fonction critique associe
chaque contrleur de mouvement considr comme agent dot d'une certaine autonomie.
2. Approche conceptuelle :
Chaque contrleur de mouvement (un par patte) est un agent dou d'autonomie et
menant son propre apprentissage avec son propre signal de renforcement pour optimiser
une fonction de gain locale compatible avec l'objectif global fix au robot. Les approches
centralises et distribues de l'apprentissage par renforcement de type Q-learning ont t
compares.
Dans le cas de plusieurs agents contribuant la mme tche, des techniques
d'apprentissage sont tudies pour que chaque agent puisse prendre en compte les dcisions
des autres agents.
Les problmes de contrle de posture et de changement de trajectoire sont traits. La
rsolution de ces problmes supposent de discrtiser les espaces daction et dtat continus.
3. Simulations
Diffrentes simulations et tests on t mens avec pour objectifs :
La gnration de marches rectilignes priodiques stables bases sur une approche

distribue de lapprentissage par renforcement, avec tude de l'influence des
paramtres d'apprentissage.
Une amlioration du critique pour liminer des marches non naturelles
L'analyse de lvolution de la fonction valeur tat-action Q(s,a).
Linfluence du choix des entres sur lapprentissage.
L'valuation des proprits de tolrance aux fautes, cest--dire lorsque certaines

pattes sont en panne
La comparaison entre approche centralise de lapprentissage par renforcement de

type Q-learning et approche distribue (Q-distribu),
Le traitement du changement de trajectoire et le contrle de la posture avec une

approche base sur le Q-multiacteur avec discrtisation des espaces d'tat et d'action
continus.
156
1.2 Les principales contributions de ce travail de recherche

sont :
Une approche distribue de lapprentissage par renforcement de type Q-learning

avec signal de renforcement individuel pour gnrer des marches priodiques.
Comparativement l'approche centralise, la dure dapprentissage est plus courte
et lespace de mmoire ncessaire pour lapprentissage est plus petit.
L'adoption d'une vision multiacteur, chaque patte tant considre comme un agent
situ dot d'une certaine autonomie et pouvant se coordonner avec les autres agents.
Une version Q-multiacteur a t propose o chaque agent, plutt que dignorer les
autres agents, tient compte dans son apprentissage de lexistence dautres agents
constituant un groupe et contribuant la mme tche commune.
L'utilisation d'un modle qui a t propos par E.Celaya et J.M.Porta [Cel 98] avec
des modifications (prise en compte seulement des pattes en contact avec le sol)
pour le contrle de la posture du robot. La version Q-multiacteur propose et le
modle de contrle de la posture ont t mis en oeuvre en simulation pour
contrler le changement de trajectoire du robot. Les espaces d'tat ou d'action tant
dans ce cas continus, il est procd une discrtisation des espaces avec possibilit
d'ajuster les valeurs d'actions pendant l'apprentissage.
2. Principaux rsultats
Dans les rsultats obtenus dans le cas de lapproche distribue de l'apprentissage
des marches priodiques en terrain plat, nous avons tudi linfluence du rglage des
paramtres de simulation sur les rsultats et avons compar lapproche centralise et
lapproche distribue. Les principales conclusions sont les suivantes :
Apprentissage de marches naturelles des insectes selon une approche distribue :
Nous observons que lalgorithme converge vers des marches stables parmi lesquelles
certaines sont observes sur des insectes. Ces marches sont des cycles attracteurs pour les
autres tats.
Influence du critique:
L'laboration de la fonction critique est trs importante. Les principes de marche des
insectes tablis par les biologistes permettent de guider cette laboration. En particulier, on
peut modifier la fonction critique pour liminer des marches non observes sur les insectes.
Influence des paramtres dapprentissage:
Certains paramtres d'apprentissage (pas de gradient, facteur de pondration ) influent

sur le nombre et la facilit de dcouverte de nouvelles marches. La dure autorise de
157
rtraction agit sur la priode des marches trouves et donc sur la vitesse dplacement.
Influence du choix des entres dtat:
Lorsque on limite l'information sur l'tat des pattes, certaines marches ne peuvent plus
tre obtenues mais celles qui sont apprises le sont plus facilement (en moins
d'itrations).
Tolrance aux pannes
L'approche retenue a montr des proprits de tolrance aux pannes puisque des
marches priodiques peuvent tre obtenues mme lorsque certaines pattes sont bloques
en position d'appui.
Evolution de la fonction Q
Il nest pas ncessaire dattendre la convergence de la fonction Q pour que le robot

volue selon une marche priodique. Mais nous avons aussi constat que les courbes Q
peuvent converger sans que tous les agents ne reoivent plus de pnalits. On observe
alors que les courbes Q convergent vers une valeur infrieure la valeur optimale.
Comparaison approche centralise/ dcentralise:
L'approche distribue de l'apprentissage est plus rapide que l'approche centralise : en

moyenne, un nombre infrieur de pas est ncessaire pour trouver une marche et
davantage de marches diffrentes sont dcouvertes.
Changement de trajectoire avec contrle de la posture
En appliquant les algorithmes dvelopps dans ce travail, le robot apprend rejoindre

la trajectoire dsire depuis diffrentes positions et orientations initiales (il apprend
mme faire demi-tour) tout en contrlant sa posture.
3. Perspectives
Les perspectives envisages pour poursuivre ce travail de recherche peuvent tre
rparties selon les diffrentes orientations suivantes :
1. Continuer de travailler avec les mmes approches pour traiter la marche sur un terrain
irrgulier ou inclin.
2. Traiter les problmes d'vitement d'obstacles avec les mmes approches, en exploitant
des informations rcupres par les capteurs tactiles du robot pour dtecter la prsence
d'obstacles. Etudier l'apprentissage de techniques de navigation (apprendre atteindre
158
un but en respectant un critre comme par exemples : longueur de parcours minimal,

loignement de zones dangereuses).
3. Implmentation de la premire partie (gnration des marches priodiques) sur le robot

rel pour comparer les rsultats avec les rsultats de la simulation.
4. Le modle mcanique du robot de notre laboratoire ne permet pas de traiter les points 1,
2, car chaque patte ne possde que deux degrs de libert. Il faudrait donc amliorer le
robot actuel ou en concevoir un second.
5. Travailler les mthodes de coordination entre les agents pour viter les conflits ou
rendre le travail collectif plus efficace. On pourra pour cela s'appuyer sur la thorie des
jeux, ou dvelopper des mthodes de communication entre les agents ou aussi introduire
des mcanismes dinhibition ou dexcitation.
6. Passer un modle dynamique du robot hexapode pour tre plus proche de la ralit du
systme physique du robot (prise en compte des frottements et des forces d'inerties en
cas de dplacements rapides).
7. Traiter le cas o lenvironnement est partiellement observable par chaque agent : dans
ce cas il faut se baser sur les POMDP (Processus de Dcision Markovien Partiellement
Observable).
8. Etudier lapplication de ces approches dans d'autres domaines tels que la Mcatronique
et la Productique. Comme exemple d'application, nous pouvons citer le travail de
J.Reaidhy [Rea 03]. L'objectif de son travail tait ltude et la conduite de systmes de
production dcentraliss dans un environnement dynamique situ : Les machines d'un
atelier de production sont considres comme des agents mettant disposition des
capacits et des disponibilits de production. A chaque ordre de fabrication est aussi
associ un agent dont le but est de faire effectuer par les machines appropries le travail
dsir. Il se pose alors des problmes de prise de dcision et de coordination entre les
composantes autonomes du systme.
Les approches dveloppes dans notre travail pourraient permettre aux agents
d'apprendre maximiser leurs gains (par exemple inversement proportionnel au temps
ncessaire pour effectuer un travail).
Toutes ces propositions sont tudier de manire approfondie et constituent donc

des thmes de recherche porteurs pour des tudes venir.
159
BIBLIOGRAPHIE
BIBLIOGRAPHIE
[Ado 03] Adouane L., Le Fort-Piat N. Bio-inspired behaviours of a group of microrobots for
cooperative box-pushing task. Proceedings of 6th Japan-France Congress on Mechatronics
and 4th Asia-Europe Congress on Mechatronics, Japon, 2003, pp.483-488.
[Alt 01a] Altendorfer R., Moore N., Komsuoglu H., and al. RHex: A Biologically Inspired
Hexapod Runner. Autonomous Robots , 2001 , pp.207-213.
[Alt 01b] Altendorfer R., Saranli U., Komsuoglu H., and al. Dynamic Evidence for Spring
Loaded Inverted Pendulum Running in a Hexapod Robot. In Experimental Robotics VII,
Springer Verlag, 2001, pp. 291-302.
[And 94] Anderson C.W., and Crawford-Hines S.G. Multigrid Q-Learning . Technical
Report, Colorado State University, Fort Collins, CO 80523, 1994, pp.94-121.
[And 94] Anderson C.W., and Hong Z. Reinforcement Learning with Modular Neural
Networks for Control. Proceedings of NNACIP'94, the IEEE International Workshop on
Neural Networks Applied to Control and Image Processing, 1994, 4 p.
[Aup 01] Aupetit M. Approximation de varits par rseaux de neurones auto-organiss.

Thse gnie industrielle. Grenoble : INPG-Grenoble, 2001, 239 p.
[Bai 95] Bairo L. Residual Algorithms: reinforcement learning with function approximation.
In Proceedings of the Twelfth International Conference on Machine Learning, San Francisco
1995, pp.30-77.
[Bar 91] Barto A.G., Bradtke S.J., and Singh S.P. Real-time learning and control using
asynchronous dynamic programming. Technical report, Computer science department,
University of Massachusetts, 1991, pp.57-91.
[Barf 00] Barfoot T.D., Earon E.J.P., and D'Eleuterio G.M.T. A step in the right direction :
learning hexapod gaits through reinforcement . Presented at the international symposium on
robotics, Canada, 2000, pp.14-17.
[Bs 85] Bssler U. Proprioceptive control of stick insects walking. In B.M.H.Bush and
F.Clarac, (Eds.), Coordination of motor behaviour, society for experimental biology, seminar
series, Cambridge University press, vol. 24, 1985, pp.271-281.
[Bax 99] Baxter J., and Bartlett P. Direct Gradient-Based Reinforcement Learning: I. Gradient
Estimation Algorithms. Technical report, Research School of Information Sciences and
Engineering, Australian National University, 1999, 24 p.
[Bee 93] Beer R.D., and Chiel H. Simulation of cockroach locomotion and escape. In
biological neural networks in invertebrate neuroethology and robotics, Academic press, Inc.,
Boston, 1993, pp.267-286.
160
BIBLIOGRAPHIE
[Bee 91] Beer R.D., Kacmarcik G.J., Ritzmann R.E., and al. A model of distributed
sensorimotor control in the cockroach escape turn. In R.P.Lippmann , J.E.Moody, and
D.S.Touretzky (Eds.), Neural information processing systems, vol.3, Morgan Kaufmann,
1991, pp.436-442.
[Bla 96] Blayo F., and Verleysen M. Les rseaux de neurones artificiels Que Sais-je?. Presses
Universitaires de France, 1996, 128 p. ISBN: 2-13-047355-5.
[Bro 89] Brooks R.A. A robot that walks; emergent behaviors from a carefully evolved
network. In Neural computation vol., 1989, pp.365-382.
[Bro 86] Brooks R.A. A robust layered control system for a mobile robot. In IEEE journal of
robotics and Automation, vol. 2, n. 1, 1986, pp.14-23.
[Bru 98] Brussel H.V., Wyns J., Valckenaers P., and al. Reference architecture for holonic
manufacturing systems: PROSA . Computers in Industry (Elsevier), vol. 37, 1998, pp.255-
274.
[Bue 00] Buehler M., Saranli U., Papadopoulos D., and al. Dynamic locomotion with four and
six-legged robots. International Symposium on Adaptive Motion of Animals and Machines,
Montreal, Canada, August 8-12, 2000, 6 p.
[Buf 03a Buffet O. Dutech, A., and Charpillet, F. Apprentissage par renforcement pour la
conception de systmes multi-Agents ractifs . In Journes Francophones sur les Systmes
Multi-Agents, JFSMA'03, Hammamet, Tunis, 2003, pp.219-231.
[Buf 03b] Buffet O. Une double approche modulaire de lapprentissage par renforcement pour
des agents intelligents adaptatifs. Thse UFR STEMIA. Nancy : Universit Henri Poincar-
Nancy1, 2003, 215 p.
[Buf 01] Buffet O. Dutech,A., and Charpillet, F., Incremental Reinforcement Learning for
designing Multi-Agent Systems. In the proceedings of the fifth International Conference on
Autonomous Agents, Montreal, Canada, 2001, pp.31-32.
[Buf 00] Buffet O. Apprentissage par renforcement dans un systme multi-agents : rapport de
stage de DEA. DEA Informatique. Nancy : UFR STEMIA, Universit Henri Poincar-
Nancy1, 2000, 40 p.
[Cam 88] Camhi J.M. Escape behavior in the cockroach: distributed neural processing.
Expericatia, vol.44,1988, pp.401-408.
[Cel 99] Celaya E., and Porta J.M. Navigation of Walking a robot in Natural Environments.
Second International Conference on Climbing and Walking Robots, Portsmouth, 1999, 10 p.
[Cel 98a] Celaya E., and Porta J.M. A Control Structure for the locomotion of a legged Robot
on difficult Terrain. IEEE Robotics and Automation Magazine, vol. 5, n. 2, 1998, pp.43-51.
[Cel 98b] Celaya E., Porta J. M., and Ruiz de Angulo V. Reactive Gait Generation for
Varying Speed and Direction. First International Symposium on Climbing and Walking
Robots, Brussels, 1998, 6 p.
161
BIBLIOGRAPHIE
[Cel 96] Celaya E., and Porta J.M. Control of a Six-Legged Robot Walking on Abrupt
Terrain. IEEE International Conference on Robotics and Automation, Minneapolis, 1996, 6 p.
[Cel 95] Celaya E., and Porta J. M. Force-Based Control of a Six-legged Robot on Abrupt
Terrain Using the Subsumption Architecture. 7th International Conference on Advanced
Robotics, Sant Feliu de Guxols, Spain, 1995, 10p.
[Cla 01] Clark J.E., Cham J.G., Bailey S.A., and al. Biomimetic design and fabrication of a
hexapedal running robot. IEEE International conference on robotics and automation, 2001, pp
7.
[Cou 97] Couturier P. Commande par rseaux de neurones : application au contrle d'un
prhenseur lectropneumatique. Thse Automatique Industrielle. Lyon : INSA de Lyon, 1997,
167 p.
[Cri 95] Crites R.H., and Barto A.G. An Actor / Critic Algorithm that is equivalent to Q-
learning. In Tesauro G., Touretzky D., and Leen T. (Eds). Advances in Neural Information
Processing Systems, vol. 7, Publisher The MIT Press, 1995, pp.401--408.
[Cru 91] Cruse H. Coordination of leg movement in walking animals. In J.A. Meyer, S.
Wilson (Eds.). Simulation of adaptive behavior. From animals to animats. A Bradford Book
MIT Press, Cambridge, Massachusetts, London, England, 1991, pp.105-119.
[Cru 90] Cruse H. What mechanisms coordinate leg movement in walking arthropods?.
Trends in neurosciences, vol.13, 1990, pp.15-21.
[Cru 81] Cruse H. Is the position of the Femur-Tibia joint under feedback control in the
walking stick insect? I. Force Measurements. Journal of experimental biology, vol. 92,1981,
pp.87-95.
[Cru 80b] Cruse H. A quantitative model of walking incorporating central and peripheral
influences: I. The control of the individual leg, Biological cyberntics, vol. 37, 1980, pp.131-
136.
[Cru 80a] Cruse H. A quantitative model of walking incorporating central and peripheral
influences : II. The connections between the different legs. Biological cyberntics, vol. 37,
1980, pp.137-144.
[Cru 79] Cruse H. A new model describing the coordination pattern of the legs of a walking
stick insect. Biological cybernetics, vol. 32, 1979, pp.107-113.
[Cru 76a] Cruse H. The control of body position in the stick insect (carausius morosus), when
walking over uneven terrain. Biological cybernetics, vol. 24, 1976, pp.25-33.
[Cru 76b] Cruse H. The function of the legs in the free walking stick insect, carausius
morosus. Journal of comparative physiology, vol.112, 1976, pp.235-262.
[Cym 98] Cymbalyuk G.S., Borisyuk R.M., Mueller-Wilm U., and al. Oscillatory network
controlling six-legged locomotion optimization of model parameters. Neural Networks,
vol.11, 1998, pp.1449-1460.
162
BIBLIOGRAPHIE
[Dea 91] Dean J. A model of leg coordination in the stick insect, carausius morosus : I.A
geometrical consideration of contralateral and ipsilateral coordination mechanisms between
two adjacent legs. Biological cybernetics, vol. 64, 1991, pp.393-402.
[Die 00] Dietterich T.G. An Overview of MAXQ Hierarchical Reinforcement Learning.

Proceedings of the Symposium on Abstraction, Reformulation and Approximation
(SARS'00), Lecture Notes in Artificial Intelligence. Springer Verlag, in B. Y. Choueiry and T.
Walsh (Eds.), New York, 2000, pp.26-44.
[Dil 91] Dilts D.M., Boyd N.P., et Whorms H.H. The evolution of control architectures for
automated manufacturing systems. J. Mfg. Sys., vol. 10, n. 1, 1991, pp.79-93.
[Duf 96] Duffie N.A., et Prabhu V.V. Heterarchical control of highly distributed
manufacturing systems. International Journal of Computer Integrated Manufacturing, vol. 9,
n. 4, 1996, pp.270-281.
[Duf 94] Duffie, N.A., et Prabhu V.V. Real-time distributed scheduling of heterarchical
manufacturing systems. Journal of Manufacturing Systems, vol. 13, n. 2, 1994, pp.94-107.
[Esp 96] Espenschied K. S., Quinn R. D., Chiel H. J., and al. Biologically-based distributed
control and local reflexs improve rough terrain locomotion in a hexapod robot. Robotics and
Autonomous Systems, 1996, vol. 18, pp.59-64.
[Esp 93] Espenschied K.S., Quinn R.D., Chiel H.J., and al. Leg coordination mechanisms in
stick insect applied to hexapod robot. Adaptive Behavior, vol. 1, n. 4, 1993, pp.455-468.
[Eli 01] Elie L., and Lapeyre B. Introduction aux mthodes de Monte-Carlo. Cours, Paris,
CERMICS, ENPC, 2001, 39 p.
[Elm 90] Elman J.L. Finding qtructure in time. Journal Cognitive science, vol. 14, 1990, pp.
179-211.
[Ferb 95] Ferber J. Les systmes multiagents vers une intelligence collective. Inter-Edition,
Paris, France, 1995, 522 p. ISBN 2-7296-0665-3.
[Fer 95a] Ferrell C. A comparison of three of Insect-Inspired locomotion controllers. Robotics

and Autonomous Systems, vol. 16, 1995, pp.135-159.
[Fer 95b] Ferrell C. Global behavior via cooperative local control. Autonomous Robots, vol.
2, n. 2, 1995, pp.105-125.
[Fer 93] Ferrell C. Robust agent control of an autonomous robot with many sensors and
actuators. Technical Report , MIT Artificial Intelligence Lab, vol. 1443, 1993, 165 p.
[Fis 02] Fischer J., Breithaupt R., Bode M., and al. DIVA: A self organizing adaptive world
model for reinforcement learning. Proceedings of the first international NAISO Congress on
Autonomous Intelligent Systems, ICAIS'02, Geelong, Australia, 2002, 6 p.
163
BIBLIOGRAPHIE
[Ful 93] Full R. Integration of individual leg dynamics with whole body movement in
arthropod locomotion. In biological neural networks in invertebrate neuroethology and
robotics, Academic press, Inc., Boston, 1993, pp.267-286.
[Gra 85] Graham D. Pattern and control of walking in insects. Advances in insect physiology,
vol.18, 1985, pp.31-140.
[Gar 97] Garcia F., and Ndiaye S.M. Apprentissage par renforcement en horizon fini I :
comparaison du Q-learning et du R-learning. Revue READ, vol.1, 1997, 15 p.
[Gui 00] Guillot A., and Meyer J.A. From SAB94 to SAB2000: What's New, Animat ?.
Proceedings of the Sixth International Conference on Simulation of Adaptive Behavior. The
MIT Press., 2000, 10 p.
[Hu 98] Hu J., and Wellman M.P. Multiagent Reinforcement Learning: Theoretical
Framework and an Algorithm. 15th International Conference on Machine Learning, in
Madison, Wisconsin, USA, 1998, pp.242-250.
[Hug 99] Hugel V. Contribution la commande de robots hexapode et quadrupde. Thse,

Uni-Paris VI-Pierre et Marie Curie, U.F.R de mcanique, 1999, 183 p.
[Jaa 93a] Jaakkola J., Jordan M.I., and Singh S.P. On the convergence of stochastic iterative
dynamic programming algorithms. Technical report, MIT Computational Cognitive Science,
n 9307, July 20, 1993, 18 p.
[Jaa 93b] Jaakkola J., Jordan M.I., and Singh S.P. Renforcement learning algorithm for
partially observable markov decision problems. In G.Tesauro, Eds, advances in neural
information processing systems, 1994, vol. 7, pp.345-352.
[Jan 85] Jander J.P. Mechanical stability in stick insects when walking straight and around
curves. In M.Gewecke and G.Wendler (Eds.), Insect locomotion, Paul Parey, 1985, pp.33-42.
[Joh 00] Johannet A. Les rseaux de neurones formels. Cours, cole des Mines d'Als, 2000,
82 p.
[Joh 96] Johannet A., and Sarda I., Couturier P. Apprentissage de Comportement par un
Robot Hexapode : de l'Apprentissage de la Marche l'vitement d'obstacle. NSI 96, Marly-le
Roi, 1996, pp.45-48.
[Joh 95] Johannet A., and Sarda I. Behaviour learning by a reward-penalty algorithm : from
gait learning to obstacle avoidance by neural networks. Proceedings of international
conference artificial neural netsard genetic algorithms, France, 1995, pp.465-467.
[Joh 94] Johannet A., and Sarda I. Gait learning of hexapod robot with neural networks : from
simulation to realization. 2me congrs Franco-Japonais de takamatsu, 1994, 4 p.
[Kae 96] Kaelbling L.P., Littman M.L., and Moore A.W. Reinforcement learning: A survey.
Journal of artificial intelligence research , vol. 4, 1996, pp.237-285.
164
BIBLIOGRAPHIE
[Kin 03] Kingsley D. A., Quinn R. D., and Ritzmann R. E. A cockroach inspired robot with
artificial muscles. International Symposium on Adaptive Motion of Animals and Machines ,
Kyoto, Japan, 2003, 7 p.
[Kir 98] Kirchner F. Q-learning of complex behaviours on a six-legged walking machine. In

robotics and autonomous systems, 1998, pp.253-262.
[Kir 97] Kirchner F. Q-Learning of Complex Behaviors on a Six-Legged Walking Machine.

In Proceedings of the second Euromicro Workshop on Advanced Mobile Robots,
EUROBOT-97, Brescia, Italy, 1997, pp.51-59.
[Kir 95a] Kirchner F. Learning to solve Markovian Decision Tasks in a Hierarchy of Learning
Agents. In Proceedings of the 10th bienanial Conference on AI and Cognitive Science, T.
Prescott, and J. Hallam (Eds.), Society for the Study of Artificial Intelligence and Simulation
of Behaviour, Sheffield, England, 1995, pp.43-49.
[Kir 95b] Kirchner F. Automatic Decomposition of Reinforcement Learning Tasks. In

proceedings of the AAAI 95 Fall Symposium Series on Active Learning, Massachusetts
Institute of Technology (MIT), D. Cohn, and D. Lewis (Eds.), AAAI Press. USA, 1995, pp.
56-59.
[Kod 98] Kodjabachian J., and Meyer J.A. Evolution and Development of Neural Controllers
for Locomotion, Gradient-Following, and Obstacle-Avoidance in Artificial Insects. IEEE
Transactions on Neural Networks.,1998, pp.796-812.
[Lab 02] Labhart T., and Meyer E.P. Neural mechanisms in insect navigation : polarization
compass and odometer. In Current opinion in Neurobiology, Elsevier Science, vol. 12, 2002,
pp.707-714.
[Lab 04] Microrobotique & Mcanique, (en ligne). Disponible sur :

http://www.lab.cnrs.fr/micro/, site web consult en Avril 2004.
[Lai 04] LAI - Thme de recherche : Robotique, (en ligne). Disponible sur : http://www.insa-
lyon.fr/pg/index.php?Rub=344&cd_act=7, site web consult en Avril 2004.
[Lam 00] Lambrinos D., Mller R., Labhart T., and al. A mobile robot employing insect
strategies for navigation. In Robotics and Autonomous Systems, vol. 30, 2000, pp.39-64.
[Lan 92] Langlois T., and Canu S. B-Learning: A Reinforcement Learning Algorithm,
Comparison with Dynamic Programming. International Work-Conference on Artificial and
Natural Neural Networks, Spain, 1993, pp.261-266.
[Lin 92] Lin L.J., and Mitchell T.M. Memory to reinforcement learning in non-markovian
domains. Technical report, Carnegie Mellon University, 1992, pp.92-138.
[Lin 91] Lin L.J. Programming robots using reinforcement learning and teaching. In
proceedings of Conference AAAI, 1991, pp.781-786.
[Lit 96] Littman M.L., and Kaelbling L.P. Reinforcement Learning : Asurvey. Computer
science department, Box1910, Brown university Providence, USA, 1996, pp.19-13.
165
BIBLIOGRAPHIE
[Mac 04] Macquart D., et Beugnon G. L'apprentissage de routes familires chez la fourmi
notropicale : Gigantiops destructor. Union Internationale pour l'tude des insectes sociaux,
colloque annuel de la section Franaise, Bruxelles, vol. 16, 2004.
[Mas 01] Massotte P., Liu Y., Reaidy J. DAPS : Dynamic adaptation of complex production
systems ESS'01 - 13th european simulation symposium in simulation industry, France, 2001, 6 p.
[Mas 97] Massion J. Cerveau et motricit :fonctions sensori-motrices. Imprimerie des Presses
Universitaires de France, 1997, 187 p. ISBN 2-13-047591-4.
[Mey 03 ] Meyer J.-A., and Filliat, D. Map-based navigation in mobile robots - II. A review
of map-learning and path-planning strategies. Journal of Cognitive Systems Research. 2003,
vol. 4, pp.283-317.
[Mey 98a] Meyer J.-A. Evolutionary approaches to neural control in mobile robots.
Proceedings of the IEEE International Conference on Systems, Man and Cybernetics, San
Diego, 1998, 6 p.
[Mey 98b] Meyer J.-A. Evolutionary approaches to walking and higher-level behaviors in 6-
legged animats. In Gomi (Ed.). Evolutionary Robotics. Vol II. From Intelligent Robots to
Artificial Life (ER'98). AAAI Books, 1998, 32 p.
[Mic 04] Micropolis-cite-des-insectes, (en ligne). Disponible sur : http://www.micropolis-cite-

des-insectes.tm.fr/, Site Web consult en Mars 2004.
[Nel 98] Nelson G.M., and Quinn R.D. Posture Control of a Cockroach-like Robot. IEEE
Internationnal Conference on Robotics and Automation, Belgium,1998, 12 p.
[Nel 97] Nelson G.M., Quinn R.D., Bachmann R.J., and al. Design and simulation of a
cockroach-like hexapod robot, contained in proceedings IEEE international conference on
robotics and automation albuquerque, New Mexico, 1997, 6 p.
[Por 00a] Porta J.M., and Celaya E. Body and leg coordination for omnidirectional walking in
rough terrain. Third International Conference on Climbing and Walking Robots, Madrid,
Spain, 2000, 8 p.
[Por 00b] Porta J.M. The Legged Robot 3d Simulator: Description and Programming Guide.
IRI-DT-2000/4, Barcelona, Spain, 2000, 72 p.
[Por 00c] Porta J.M. -Learning : A robotics oriented reinforcement learning algorithm.
Institut de robotica i informtica industrial ( UPC-CSIC ) , Barcelona, Spain , 2000, 12 p.
[Por 98] Porta J.M., and Celaya E. Gait analysis for six-legged robots. Document Tcnic de
lInstitut de Robtica i Informtica Industrial, IRI-DT-9805, Barcelona, 1998, 10 p.
[Pra 96] Pratt J., Torres A., Dilworth P., and al. Virtual actuator control. In proceeding
international conference on intelligent robots and systems, IROS, Osaka, Japan, 1996, 8 p.
[Puj 02] Pujo P., et Kieffer J.-P. Concepts fondamentaux du pilotage des systmes de
production , dans Fondements du pilotage des systmes de production. Hermes, Lavosier
(Eds), 2002, 204 p. ISBN : 2-7462-0513-0.
166
BIBLIOGRAPHIE
[Que 01] Query S., and Sekkay F. Auto-organisation des systmes de production distribus.
Rapport Etude de cas option automatique. Nmes : Site-EERIE_EMA, , 2001, 360 p.
[Qui 98] Quinn R.D., and Ritzmann R.E. Construction of a hexapod robot with cockroach
kinematics benefits both robotics and biology. Connection science, vol. 10, 1998, pp.239-254.
[Qui 03] Quinn R. D., Nelson G.M., Bachmann R.J., and al. Parallel strategies for
implementing biological principles into mobile robots. In Journal of Robotics Research, Sage
publications, vol. 22, n. 3, 2003, pp. 169-186.
[Qui 01] Quinn R. D., Nelson G.M., Bachmann R.J., and al. Insect designs for improved robot
mobility. In Proc. of 4th Int. Conf. On Climbing and Walking Robots Conference , Berns and
Dillmann (Eds), 2001, pp.69-76.
[Ran 99] Randall M.J. Stable adaptive neural control of systems with closed kinematic chains
applied to biologically-inspired walking robots. These in philosophy. Bristol : Faculty of
engineering, University of the West of England, Bristol, 1999, 322 p.
[Rea 03] Reaidy J. Etude et mise en uvre dune Architecture dAgents en Rseau dans les
Systmes Dynamiques Situs : Pilotage des Systmes de Production Complexes. Thse gnie
industrielle. Nmes : LGI2P-site-EERIE_EMA, 2003, 181 p.
[Rei 00] Reichler J.A., and Delcomyn F. Dynamics Siumulation and Controller Interfacing for
Legged Robots. The Intenational Journal of Robotics Research, vol. 19, n. 1, 2000, pp. 49-
58.
[San 99] Santos J.M., and Touzet C. Exploration tuned reinforcement function.
Neurocomputing, 1999, pp.93-105.
[San 98] Santos J.M., and Touzet C. Automatic tuning of the reinforcement function.
NEURAP'98, 11-13 March, Marseilles, France, 1998, pp.103-110.
[Sar 03] Saranli U., and Koditschek D.E. Template Based Control of Hexapedal Running.
Proceedings of the IEEE International Conference On Robotics and Automation, vol. 4391,
Septembre, 2003, 6 p.
[Sar 02] Saranli U. Dynamic locomotion with a hexapod robot. PhD. thesis. The University of
Michigan, 2002, 205 p.
[Sar 00] Saranli U., Buehler M., and Koditschek D.E. Design, Modeling and Preliminary
Control of a Compliant Hexapod Robot. In IEEE Int. Conf. on Robotics and Automation, San
Francisco, CA, 2000, 8 p.
[Sar 99] Saranli U., and Buehler M. Modeling and Analysis of a Spatial Compliant Hexapod.
Technical papers, Department of Electrical Engineering and Computer Science, McGill
University, Montreal, Canada, 1999, 18 p.
[Sarz 91] Sarzeaud O., Stephan Y., et Touzet C. Finite element meshing using kohonens self-
organizing maps. International Conference on Artificial Neural Networks, Helsinki, Finland,
1991, 5 p.
167
BIBLIOGRAPHIE
[Sch 03] Scherrer B. Parallel asynchronous distributed computations of optimal control in

large state space Markov Decision Processes. In European Symposium on Artificial Neural
Networks, Bruges, Belgique, 2003, 6 p.
[Seh 96] Sehad S. Contribution l'tude et au dveloppement de modles connexionnistes a

apprentissage par renforcement : application a d'acquisition de comportements adaptatifs.
Thse gnie informatique et traitement du signal. Montpellier : Universit de Montpellier II,
1996, 112 p.
[Seh 94] Sehad S., and Touzet C. Reinforcement learning and neural reinforcement learning.
ESANN'94, Bruxelles, Belgique, 1994, 6 p.
[Sim 04] Simulium, (en ligne). Disponible sur : http://simulium.bio.uottawa.ca/, Site Web
consult en Mars 2004
[Sin 96] Singh S., Norrig P., and Cohn D. How to make seftware Agents do the right thing an
introduction to reinforcement learning. Adaptive systems group, harlequin, INC., 1996, pp.
12.
[Smi 02] Smith A.J. Applications of the self-organising map to reinforcement learning. Neural
Networks, vol. 15, Special Issue, 2002, pp.1107-1124.
[Sut 98] Sutton R.S., and Barto A.G. Reinforcement Learning. Mit press, Cambridge,
Bradford book, 1998, 322 p. ISBN 0-262-19398-1.
[Sut 88] Sutton R.S. Learning to predict by the methods of temporal differences. In Machine
learning, vol. 3, 1988, pp.9-44.
[Svi 01] Svinin M.M., Yamada K., and Ueda K. Emergent synthesis of motion patterns for
locomotion robots. Artificiel intelligence in engineering, 2001, pp.353-363.
[Tor 96] Torres A.L. Virtual model control of a hexapod walking robot. S.B. Thesis,
Department of Mechanical Engineering, Massachusetts Institute of Technology, Cambridge,
Massachusetts, June, 1996, 55 p.
[Tou 99a] Touzet C. Programming robots with associative memories. IJCNN'99, USA, 1999,
4 p.
[Tou 99b] Touzet C., and Cloete I. Applications of Artificial Neural Networks. Special Issue
of Neurocomputing (Elsevier), guests editors, vol. 28, No. 1/3, 1999.
[Tou 98a] Touzet C. L'apprentissage par renforcement. CESAR-ORNL, USA, Janvier 1998,
28 p.
[Tou 98b] Touzet, C. Des rseaux de neurones artificiels a la robotique cooprative. Mmoire
pour l'habilitation diriger de recherches, soutenue 28 septembre, Facult des Sciences et
Techniques de Saint-Jrme, Universit d'Aix-Marseille III, 1998, 81 p.
[Tou 96] Touzet C. Neural reinforcement learning for behavior synthesis. Computational
Engineering in Sytems Applications, France, 1996, 6 p.
168
BIBLIOGRAPHIE
[Tou 94a] Touzet C. Extending immediate reinforcement learning on neural networks to

multiple actions. European symposium artificial neural networks, Bruxelles, 1994, 7 p.
[Tou 93] Touzet C. Apprentissage par renforcement neuronal dun comportement dobstacles
pour le mini-robot Khepera. Second European congress on systems sciences, Prague, 1993,
pp.5-8.
[Tou 92] Touzet C., et Sarzeaud O. Application d'un algorithme d'apprentissage par pnalit
/rcompense a la gneration des formes locomotrices hexapodes. Journes de rochebrune,
AFCET IA. Et cognition, 1992, 5 p.
[Uri 99] Uribe A.P., and Sanchez E. A comparison of reinforcement learning with Eligibility
traces and integrated learning, planning and reacting. Concurrent systems engineering series,
vol. 54, Ios press, Amsterdam, 1999, pp.154-159.
[Zen 04] Zennir Y., and Couturier P. Control of the trajectory of a hexapod robot based on
distributed Q-learning. IEEE International Symposium on Industrial Electronics (ISIE'04),
Palais des Congres Expositions, Ajaccio, France, 2004, pp.277-282. ISBN : 0-7803-8305-
2(CD-ROM).
[Zen 03a] Zennir Y., Couturier P., and Btemps M. Apprentissage de la marche d'un robot
hexapode selon une approche distribue du Q-learning. Confrence International en sciences
Electroniques, Technologies de l'Information et de Tlcommunications, Bouhlel, M.S.,
Solaiman, B., and Kamoun, L., (Eds.), Sousse, Tunisie, 17-21 Mars, 2003, 8 p. ISBN 9973-
41-685-6(CD-ROM).
[Zen 03b] Zennir Y., Couturier P., and Btemps M. Emergence of the gaits of a hexapod
robot using distributed reinforcement learning. Proceeding of The IASTED International
conference on Intelligent systems&control, Salzburg, Austria, 2003, pp.106-111.
[Zen 03c] Zennir Y., Couturier P., and Btemps M. Distributed reinforcement learning of a
six-legged robot to walk. Proceeding of 4th International conference on control and
automation, IEEE Control chapter, Singapore, Montreal section, Montral, Canada, 2003, pp.
896-900. ISBN / 0-7803-7777-X(CD-ROM).
[Zen 02] Zennir Y., Couturier P., and Btemps M. Approche distribue de l'apprentissage par
renforcement : application la marche d'un robot hexapode. XIime journes Neurosciences
et science pour l'ingnieur, La Londe Les Maures, Var, France, 15-18 Septembre, 2002, 4 p.
[Zen 00] Zennir Y. Commande mulit-contrleurs d'un bras de robot un axe : Evalution et
comparaison de deux approches de la commutation. rapport de stage de DEA. DEA
Automatique industrielle. Annecy : ESIA-Universit de Savoie, 2000, 39 p.
169
FOLIO ADMINISTRATIF
THESE SOUTENUE DEVANT L'INSTITUT NATIONAL DES SCIENCES APPLIQUEES DE LYON
NOM : ZENNIR DATE de SOUTENANCE : 05-07-2004

(avec prcision du nom de jeune fille, le cas chant)
Prnoms : YOUCEF
TITRE : Apprentissage par renforcement et systmes distribus : Application l'apprentissage de la marche d'un robot hexapode.
NATURE : Doctorat Numro d'ordre : 04 ISAL0034
Ecole doctorale : E.E.A
Spcialit : Automatique Industrielle
Cote B.I.U. - Lyon : T 50/210/19 / et bis CLASSE :
RESUME :
Le but de cette thse est dtudier et de proposer des techniques dapprentissage par renforcement pour lapprentissage de la
marche dun robot marcheur hexapode. Lhypothse sur laquelle repose ce travail est que des marches peuvent tre obtenues lorsque la
commande des mouvements est distribue au niveau de chaque patte plutt que d'tre centralise. Une approche distribue de l'apprentissage
par renforcement de type Q-learning a t retenue dans laquelle les agents (les contrleurs de mouvement) contribuant une mme tche
mnent leur propre apprentissage en tenant compte ou non de l'existence des autres agents. Diffrentes simulations et tests on t mens
avec pour objectif la gnration de marches priodiques stables. La marche apparat comme un phnomne mergeant des mouvements
individuels des pattes. L'influence des paramtres d'apprentissage sur les marches obtenues est tudie. Sont aussi traits des problmes de
tolrances aux fautes et de manque d'information sur l'tat du robot. Enfin il est vrifi en simulation que, avec les algorithmes dvelopps,
le robot apprend rattraper une trajectoire prdfinie tout en contrlant sa posture.
Mots Cls : Robot hexapode, Apprentissage par renforcement, Q-learning, Systmes distribus.
Laboratoire (s) de recherches :

LGI2P-Site EERIE, EMA
LAI-INSA de Lyon
Directeur de thse: Maurice Btemps
Prsident de jury : Denis Floutier
Composition du jury :
M. Btemps Directeur de Thse Professeur L.A.I.-I.N.S.A. de Lyon.

P. Couturier Codirecteur de Thse Matre assistant L.G.I.2.P-Ecole des Mines d'Als.
D. Floutier Examinateur Professeur ESIA-Universit de Savoie.
N. Le Fort-Piat Rapporteur Professeur E.N.S.M.M.-de Besanson.
P. Poncelet Examinateur Professeur L.G.I.2.P.- Ecole des Mines d'Als.
C. Touzet Rapporteur M.C et HDR L.N.I.A.-Universit de Provence.

These

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

These

Uploaded by

Copyright:

Available Formats

N dordre 04ISAL0034 Anne 2004

INSTITUT NATIONAL DES SCIENCES APPLIQUES DE LYON

COLE DOCTORALE DES SCIENCES POUR LINGNIEUR

APPRENTISSAGE PAR RENFORCEMENT

Soutenue le 05 Juillet 2004 devant la Commission dexamen

M. Btemps Directeur de Thse Professeur L.A.I.-I.N.S.A. de Lyon.

mes surs et mes frres

mes surs et mes frres

Ecoles Doctorales et Diplmes dEtudes Approfondies

habilits pour la priode 1999-2003

ECOLES DOCTORALES RESPONSABLE CORRESPONDANT DEA INSA RESPONSABLE

Villes et Socits Mme M. ZIMMERMANN

Automatique Industrielle M. M. BETEMPS

Images et Systmes Mme I. MAGNIN

Documents Multimdia, Images et Systmes M. A. FLORY

Gnie des Matriaux : Microstructure, Comportement M. J.M.PELLETIER

Analyse Numrique, Equations aux drives partielles M. G. BAYADA

INSTITUT NATIONAL DES SCIENCES APPLIQUEES DE LYON

Directeurs de recherche C.N.R.S. :

Directeurs de recherche I.N.R.A. :

Directeurs de recherche I.N.S.E.R.M. :

* CEGELY CENTRE DE GENIE ELECTRIQUE DE LYON

Je remercie trs sincrement Monsieur Yannick Vimont, de m'avoir accueilli au sein

Ce travail est le fruit du soutien et des remarques d'amiti de mon codirecteur de

Je tiens remercier galement et au mme niveau mon directeur de thse, Monsieur

Je tiens remercier l'ensemble du personnel du LGI2P pour l'accueil, la bonne

Les techniques d'apprentissage par renforcement sont particulirement utiles dans le

Une approche distribue de l'apprentissage par renforcement de type Q-learning a t

Diffrentes simulations et tests on t mens avec pour objectifs la gnration de

Mots Cls : Robot hexapode, Apprentissage par renforcement, Q-learning, Systmes

This study made it possible to define a geometrical model of simulation, integrating

Key words: Hexapod Robot, Reinforcement learning, Q-learning, Distributed

3. SYNTHSE DE LA DMARCHE PROPOSE ___________________________ 14

5. LA CONTRIBUTION DE CETTE THSE _______________________________ 16

1.2 DFINITIONS GNRALES__________________________________________ 17

1.5 CONCLUSION ______________________________________________________ 30

2.2 DIFFRENTES RALISATIONS DE ROBOTS HEXAPODES _____________ 31

2.3 MODLES MATHMATIQUES DU ROBOT HEXAPODE ________________ 36

2.6 CONCLUSION ______________________________________________________ 53

3.1 INTRODUCTION ____________________________________________________ 54

3.2 APPRENTISSAGE PAR RENFORCEMENT ____________________________ 55

3.3 MODLE DE LAPPRENTISSAGE PAR RENFORCEMENT ______________ 55

3.5 MTHODE DE MONTE CARLO (MC) __________________________________ 63

3.6 LES MTHODES DIFFRENCES TEMPORELLES (TD) _________________ 64

3.10 CONCLUSION ______________________________________________________ 81

4.2 DIFFRENTES ARCHITECTURES DE COORDINATION _________________ 84

4.3 ARCHITECTURES CENTRALISES ___________________________________ 84

4.4 ARCHITECTURES NON CENTRALISES ______________________________ 85

4.6 APPROCHE DISTRIBUE DE LAPPRENTISSAGE PAR RENFORCEMENT 91

4.7 ACTIONS COLLECTIVES DANS LES SYSTMES DISTRIBUS___________ 92

4.9 CONCLUSION _______________________________________________________ 98

5.2 ROBOT HEXAPODE________________________________________________ 100

5.4 APPROCHE DISTRIBUE DE COMMANDE ET DAPPRENTISSAGE ____ 104

5.6 SIMULATION : GNRATION DE MARCHES SELON LAPPROCHE

5.9 LIMITATION DE LAPPRENTISSAGE PAR RENFORCEMENT CLASSIQUE

5.10 MODIFICATIONS APPORTES L'ALGORITHME Q-LEARNING _____ 140

CONCLUSION GNRALE ET PERSPECTIVES

ET PERSPECTIVES _____________________________________________________ 155

3. PERSPECTIVES _____________________________________________________ 158

Fig. 1. 1 Anatomie externe de linsecte Phasme [Mic 04]. ...................................................... 18

Fig. 2. 1 Robot hexapode Sir Arthur [Kir 98]. ......................................................................... 32

Fig. 3. 1 Apprentissage par renforcement : diagramme d'interaction agent / environnement. 56

Fig. 4. 1 Diffrentes architectures des systmes. ..................................................................... 84

Fig. 5. 1 Une patte du robot hexapode. .................................................................................. 101