Professional Documents
Culture Documents
1.
Introduction
Le travail prsent sinscrit dans un projet2 qui vise la constitution et lexploitation de ressources linguistiques pour la didactique du franais, destination dun public de franais langue trangre (niveau intermdiaire avanc) et dun public de franais langue maternelle (collge et lyce). Les ressources, textuelles, sont traites laide doutils de traitement automatique des langues (TAL), et servent lenseignement et lapprentissage de phnomnes nonciatifs, lis lexpression du point de vue et de la subjectivit dans les textes. Nous nous centrerons ici sur le travail pralable lexploitation pdagogique, et relatif au lexique des affects : le ressenti ou lattitude du narrateur et/ou de ses personnages sont caractriss lexicalement, comme relevant de la joie , de la tristesse , etc. Le projet runit des linguistes, des spcialistes du TAL et des didacticiens, et prend comme point de dpart lide quune approche en corpus de ces phnomnes doit favoriser leur enseignement/apprentissage. Il sagit de recourir des donnes langagires attestes, qui permettent aux apprenants de reprer, danalyser et de manipuler ces phnomnes, leurs cooccurrences et leurs effets en termes dexpression de la subjectivit. Une telle approche en corpus doit ainsi favoriser la rflexion mtalinguistique des apprenants, dans une perspective en particulier de rinvestissement des apprentissages lexicaux dans la production de textes. Cet objectif requiert dune part une modlisation informatique des ressources textuelles : il sagit de faire en sorte quelles soient utilisables en tant que ressources pdagogiques, que ce soit comme rservoir dexemples pour lenseignant, qui doit pouvoir formuler des requtes dans le corpus, ou comme rservoir dexercices pour lapprenant. Dautre part, une description linguistique du lexique des affects doit tre faite de manire en faciliter lenseignement et lapprentissage. Elle doit permettre dannoter le phnomne dans les textes du corpus, ainsi enrichi dinformations smantiques qui sont exploites automatiquement pour la formulation de requtes dans le corpus et la gnration dexercices.
1 2
Natural Language Processing Plan pluri-formation pilot par le Lidilem (Universit Stendhal Grenoble 3).
408
Ce sont ces deux aspects, la modlisation informatique des ressources et la description du lexique des affects des fins dannotation smantique que nous prsentons ici. Le corpus utilis reprsente 850.000 mots. Il comprend des textes littraires principalement, en raison du public vis ainsi que des contraintes imposes par la diffusion des textes. Lintrt quil y aurait disposer dautres types de textes, notamment des textes journalistiques et des textes en usage sur Internet se heurte des problmes de droit. On peut galement se demander dans quelle mesure le contenu du web peut servir de corpus, a fortiori des fins dexploitation pdagogique.
2.
La mise disposition pour des enseignants de franais de ressources pdagogiques numriques fait intervenir diverses comptences : didactiques (exploitation des ressources constitues), linguistiques (description des phnomnes linguistiques) et informatiques (numrisation et mise disposition des ressources). Tous les aspects de ce projet sont interdpendants. La description des phnomnes linguistiques ncessite davoir des informations dordre didactique (comment les enseignants voudront-ils exploiter les informations linguistiques mises leur disposition, pour quel type dactivit ?) et relevant du TAL3 (dans quelle mesure lannotation des phnomnes pourra-t-elle tre automatise ?). De leur ct, les didacticiens ne peuvent prparer lexploitation pdagogique sans une connaissance pralable approfondie des ressources linguistiques disponibles (quelles informations seront disponibles dans les ressources et comment elles seront prsentes ?). Dun point de vue informatique, le processus de constitution du corpus est lui aussi tributaire des choix de modlisation linguistique des phnomnes et sera dtaill dans la partie suivante travers lexemple du lexique des affects. De la mme manire, la cration du systme via lequel les utilisateurs exploiteront les ressources doit prendre en compte leurs attentes et dpend des informations contenues dans ces ressources. Toutes ces contraintes ncessitent un dveloppement incrmental pour chaque notion incluse dans les ressources dveloppes. Ce type de fonctionnement requiert une architecture globale du systme la plus gnrique possible. Nous utilisons donc larchitecture de la plateforme dapprentissage des langues MIRTO4, dveloppe luniversit Stendhal. La modularit de la plateforme provient de la dissociation des donnes (corpus) et des traitements (Antoniadis et al., 2004a) et permet ainsi dviter les principaux dfauts des logiciels dapprentissage des langues : la pauvret des informations de sens associes aux donnes langagires (Antoniadis et al., 2004b) et le manque de diversit des exemples disponibles. Dans cette architecture (cf. Figure 1), un script (Si) est un programme informatique qui cre une activit partir dun texte donn. Cette activit peut aussi bien tre un exercice lacunaire gr entirement par lordinateur (ex : exercice lacunaire sur les noms daffect) que la prsentation de certaines facettes du texte pour un travail dirig par lenseignant en prsentiel. On peut, par exemple imaginer un script qui, dans un texte donn, mettrait en vidence toutes les occurrences des noms daffect de la mme manire afin de gnrer, aprs un travail dexploration, une discussion aboutissant la description des diffrentes catgories de noms daffect. Dans la premire phase du travail, les apprenants surligneraient dune manire diffrente chacun des noms daffect en fonction des types quils remarquent, avant de confronter, dans une seconde phase, la typologie ainsi cre avec la typologie existante. Pour un tel script, les diffrentes phases du travail seraient configurables par lenseignant, qui fournirait ainsi le contexte didactique de lapplication du script :
3 4
Traitement Automatique des Langues Multi-apprentissages Interactifs par des Recherches sur des Textes et lOral
Constitution de ressources pdagogiques numriques : le lexique des affects & & & & &
409
choix du (ou des) texte(s) au(x)quel(s) appliquer le script choix des phnomnes mettre en valeur (noms daffect dans lexemple ci-dessus) avec quelle prcision (domaine, sous-domaine ou distinction plus fine encore, cf. partie 3) interaction avec lutilisateur (visualisation, regroupement en catgories) et enfin la proposition ou non dune correction (comparaison de la catgorisation produite par lapprenant avec celle effectue au pralable dans le corpus).
La cration de scripts demandant des comptences pointues en informatique est rserve un concepteur de scripts, qui proposera, comme nous lavons vu travers lexemple ci-dessus, la possibilit lenseignant de dfinir le contexte didactique de son activit.
Via linterface MIRTO, le concepteur de scripts a accs un ensemble de traitements de bas niveaux (fonctions numrotes dans la Figure 2). Ces fonctions peuvent relever du TAL (ex : analyse morphologique) ou non (ex : parser XML). Le concepteur est alors libre de combiner ces diverses fonctions pour crer des scripts qui seront ensuite accessibles aux enseignants. Un script de cration dexercices lacunaires portant sur le lexique des affects fera donc intervenir : & une fonction permettant dinterprter du XML (parser XML), & une fonction permettant de slectionner les lments baliss comme faisant partie du lexique des affects en fonction de paramtres donns par lutilisateur enseignant (ex : la catgorie syntaxique des mots, le type, le domaine, cf. partie 3), & une fonction permettant de crer les trous, qui pourra elle mme faire appel & une fonction de lemmatisation, selon que lenseignant (utilisateur du script) voudra ou non afficher les lemmes correspondants aux mots escamots (en fonction du
410
niveau des apprenants, lenseignant choisira entre un exercice lacunaire sans indication ou en affichant sous lnonc la liste des formes lemmatises ou encore la liste des mots tels quils apparaissent dans le texte), & et enfin une fonction de correction automatique des exercices. A partir dun tel script, lenseignant pourra crer autant dexercices quil y aura de textes dans le corpus, palliant ainsi le manque de diversit des exemples disponibles, rcurrent dans les plateformes denseignement des langues. Les outils TAL prsents sous forme de fonction dans les scripts, ainsi que les annotations pralables du texte enrichissent le sens associ au texte dans le cadre de son utilisation pour lenseignement du franais. En effet, dans le cadre de ce projet, il ne sagit pas de travailler avec du texte tout venant mais avec le texte issu du corpus, dont nous allons prsenter lannotation travers lexemple du lexique des affects.
3.
411
au nombre de 27, diviss pour certains en sous-domaines. Il sagit dtiquettes conventionnelles regroupant une mme famille smantique de noms daffect. Par exemple, le domaine joie se divise en 4 sous-domaines :
bonheur-satisfaction Bonheur, batitude, contentement, flicit, ivresse Domaine joie Joie enthousiasmejoie-gaiet entrain Alacrit, Euphorie, liesse, enthousiasme, enchantement, joie, optimisme, entrain gaiet plaisir-jouissance Got, plaisir, jubilation, volupt, jouissance
Un certain nombre de noms se trouvent dans plusieurs domaines ou sous-domaines, du fait de la polysmie propre chaque nom. Horreur, par exemple, se trouve la fois dans le domaine peur et dans le domaine dgot . Mais ce nest pas le seul type de phnomnes polysmiques auquel donnent lieu les noms daffect et que nous ayons dcrit dans ce projet.
412
Parfois, ces noms nexpriment pas un affect mais une autre acception, drive par une relation rgulire. Par exemple dans : sous sa rude moustache, effroi des chiens et des traneurs de bancs, se cachait un bon sourire attendri (Daudet, Les contes du lundi) effroi ne renvoie pas vritablement un affect mais plus prcisment ce qui cause cet affect, en loccurrence la moustache. Cest galement le cas pour peine et embarras dans : je suis une peine et un embarras ma famille (Sand, La petite Fadette) Pour donner un autre exemple de ces acceptions polysmiques rgulires, le nom peut exprimer une qualit dune personne. Cest le cas bien entendu de noms comme orgueil, bont ou tendresse que nous avons voqus prcdemment et qui sapparentent habituellement des qualits, mais galement de noms qui dsignent gnralement des affects comme passion dans : il est impossible de parler des Corses sans attaquer ou sans justifier leur passion proverbiale ( Mrime, Colomba). Enfin, dans certains cas, ces noms nexpriment ni un affect ni une acception polysmique rgulire, comme par exemple blessure dans : La blessure la tempe est grave, nest-ce pas ? (Leroux, Le mystre de la chambre jaune) ou encore bonheur dans : Elle cherchait le trfle quatre feuilles, qui se trouve bien rarement et qui porte bonheur ceux qui peuvent mettre la main dessus (Sand, La petite Fadette). Ces diffrents cas de figure ainsi que les domaines et/ou sous-domaines sont dtermins et annots en contexte pour chaque nom, de mme quun certain nombre dautres traits que nous allons maintenant prsenter.
chose). Le choix des diffrents attributs annots pour le lexique des affects et leur description a t dtermin par la perspective de lexploitation pdagogique du corpus. Certains sont communs toutes les catgories syntaxiques comme le domaine, le niveau de langue (courant, littraire, etc.), lintensit (haut ou moyen) et la polarit (ngatif, positif ou neutre), alors que dautres sont spcifiques une catgorie comme le figement pour les noms, le type agentif ou causatif pour les verbes.
413
En ce qui concerne les noms, nous avons tout dabord un attribut TYPE, qui correspond au traitement de la polysmie que nous avons abord prcdemment. Quatre configurations sont possibles : affect, affect coupl une dimension smantique particulire (affect+manif_attitude, etc.), non affect mais acception polysmique rgulire (non affect+cause_objet, non affect+qualit, etc.), ou non affect. Lattribut DOMAINE comprend le domaine du nom ou le sous-domaine lorsquil y en a un, tels qutablis dans notre typologie. Dans le cas de contraintes syntaxiques propres certaines constructions (comme par exemple ctait piti de, faire peine, de peur de, etc.), nous annotons cet emploi discursif particulier laide de lattribut FIGEMENT, qui comporte deux valeurs : fig ou non. Cette description sera par la suite affine par des marqueurs de niveau de figement (collocations, expressions figes, etc. cf. Tutin et Grossmann, 2003). Enfin, nous annotons galement lemploi stylistique des noms daffect par lattribut FIGURE_STYLE avec la dsignation du type de procd employ (mtaphore, mtonymie, personnification, etc.). Les verbes, adjectifs et adverbes daffect ont t annots selon la mme mthode. De mme, le corpus contient des annotations pour dautres phnomnes (discours rapport, modalisation, etc.) et ce sont ces informations qui sont ensuite interprtes par les scripts de la plateforme MIRTO.
4.
Conclusion
Il reste pour finir dire quelques mots de lexploitation didactique des annotations faites dans le corpus. La perspective didactique dtermine dabord comme nous lavons vu le choix des annotations. Des entres notionnelles ont t privilgies, pour dcrire le lexique des affects partir de domaines tels que la joie, la tristesse, etc., et il faut grer un quilibre entre la finesse de la description et la ncessit que les annotations fassent sens pour les enseignants. Un des enjeux de lannotation a par ailleurs consist mettre laccent sur le problme de la polysmie : le but nest pas de proposer une interprtation univoque des phnomnes, mais au contraire de dfendre lide que la polysmie peut et doit faire lobjet dun traitement en classe de langue. Outre leur utilisation via les scripts (voque dans la partie 2), les annotations sont exploites dans les requtes que pourra formuler lenseignant, pour tirer des exemples du corpus, ou mme les apprenants, dans le cadre dune activit dexploration du corpus encadre par lenseignant pour examiner les phnomnes qui constitueront lobjet du cours. Un script pourra sappliquer ensuite aux textes choisis. Dautre part ces annotations permettent aux apprenants de bnficier dexercices gnrables automatiquement. Dans les deux cas, il sagit de privilgier une analyse et une manipulation du phnomne en contexte, et de sensibiliser les apprenants aux associations lexicales privilgies (par ex. rouge de colre, etc.). Les ressources doivent permettre un travail sur les effets de sens induits par le contexte, leur diversit et les ventuelles formes dambigut et de polysmie. Le rle de lenseignant apparat alors comme central dans le droulement des sances : les outils proposs ne sont pas une fin en soi, mais peuvent par contre tre le moteur de nouvelles activits non automatisables, et en premier lieu les changes au sein de la classe que lobservation de ces phnomnes linguistiques doit susciter. Une premire exprimentation (Cavalla et Tutin, 2006) a t mene dans un cours de FLE de niveau intermdiaire avanc ; elle valide lintrt dun travail danalyse en corpus et de mmorisation par des exercices pour lacquisition des collocations verbe+nom et leur remploi dans une activit de production de textes.
414
Rfrences
Rfrences bibliographiques
ANTONIADIS, Georges, ECHINARD, Sandra, KRAIF, Olivier, LEBARBE, Thomas, LOISEAU, Mathieu & PONTON, Claude (2004a). NLP-based scripting for CALL activities, Actes du workshop de Coling '04 sur eLearning for Computational Linguistics and Computational Linguistics for eLearning, Genve, Suisse, aot 2004. ANTONIADIS, Georges, ECHINARD, Sandra, KRAIF, Olivier, LEBARBE, Thomas, LOISEAU, Mathieu & PONTON, Claude (2004b). CALL: from current problems to NLP solutions, Actes de EUROCALL, Vienne, Autriche, 1-4 septembre 2004. BALIBAR-MRABTI, Antoinette (Ed) (2005). Grammaire des sentiments, Langue Franaise, 105. BOCH, Franoise, CAVALLA, Cristelle & GROSSMANN, Francis (2005). Apprendre intgrer le lexique des sentiments au cours de lcriture de textes narratifs, Colloque international Lexique et production verbale : vers une meilleure intgration des apprentissages lexicaux, 9-10 mars 2005, Lyon, France : Institut National de Recherche Pdagogique. CAVALLA, Cristelle & TUTIN, Agns (2006). Lexique de l'motion en classe de FLE : une exprimentation base sur corpus, 7eConfrence Teaching and Language Corpora : TaLC2006, 1-4 juillet 2006, Paris 7, France. CRUSE, D. Alan (1986). Lexical Semantics. Cambridge : University Press. GOOSSENS, Vannina (2005). Les noms de sentiment : esquisse de typologie smantique fonde sur les collocations verbales, Lidil, 32:103-121. GROSSMANN, Francis & BOCH, Franoise (2003). Production de textes et apprentissage lexical : lexemple du lexique de lmotion et des sentiments, Repres, 28 : 117-135. GROSSMANN, Francis & TUTIN, Agns (Eds) (2005). Smantique des noms et adjectifs dmotion, Lidil, 32. MATHIEU, Yvette Yannick (2000). Les verbes de sentiment : de lanalyse linguistique au traitement automatique. Paris : CNRS. NUNBERG, Geoffrey & ZAENEN, Annie (1997). La polysmie systmatique dans la description lexicale, Langue Franaise, 113: 12-23. PUSTEJOVSKY, James (1991). The Generative Lexicon, Computationnal Linguistics, 17, 4: 409-441. PUSTEJOVSKY, James (1995). The Generative Lexicon. Cambridge : MIT Press. TUTIN, Agns & GROSSMANN, Francis (Eds) (2003). Les collocations, analyses et traitement. Amsterdam : De Werelt. TUTIN, Agns, NOVAKOVA, Iva, GROSSMANN, Francis & CAVALLA, Cristelle (2006). Esquisse de typologie des noms daffect partir de leurs proprits combinatoires, Langue Franaise, 150: 32-49.