Professional Documents
Culture Documents
D UPRESSOIR
NSL
2005-2006
LIRMM
UMR 5506
161, rue Ada
34394 Montpellier Cedex 5
R APPORT DE S TAGE
Exploitation de la construction syntaxique des verbes pour lvaluation
automatique de linfluence smantique de leurs complments.
LIRMM
UMR 5506
161, rue Ada
34394 Montpellier Cedex 5
F RANOIS
D UPRESSOIR
NSL
2005-2006
'
R SUM :
Une tche importante dans le cadre dun travail de contraction
de phrase, ou de rsum automatique en gnral, est le reprage
des lments syntaxiques obligatoires, mais aussi des lments
smantiques importants.
Aprs une courte prsentation du laboratoire, de lquipe, et des
logiciels utiliss par celle-ci, je prsenterai dans un premier temps
les concepts grammaticaux et linguistiques utiles la comprhension et la rsolution du problme, puis la solution envisage pour le rsoudre, en commenant par la constitution dune
ressource lexicale complte et en terminant par une utilisation
possible dune telle ressource dans le cadre du laboratoire par la
constitution dune grammaire.
&
'
M OTS - CLEFS :
contraction de phrases, traitement automatique des langues,
langues naturelles, circonstants, sous-catgorisation, grammaires
dunification
&
Remerciements
Merci Mehdi Y OUSFI -M ONOD, Violaine P RINCE et Jacques C HAUCH pour leur
soutien en ce qui concerne lutilisation de SYGMART et SYGFRAN et pour la patience
et la comprhension dont ils ont fait preuve lorsque je me suis retrouv face aux problmes lis la complexit de la langue. Un grand merci Augusta M ELA pour ses
lumires et ses rfrences autant en grammaire quen linguistique, et en particulier en
TALN.
Merci Caroline D AVID, qui ma confirm, si besoin tait, que la linguistique tait
une discipline formidable mais "un peu complique".
Merci Virginie Q UESNAY pour la classe rapportiup, utilise pour mettre en
forme ce rapport.
Merci Judicalle pour le reste, et pour a aussi.
Remerciements
ii
Prsentation
1
Prsentation du LIRMM . . . . . . . . . . . . . . . . . . . . . . . .
1.1
Prsentation Gnrale . . . . . . . . . . . . . . . . . . . . .
1.2
Le dpartement Informatique . . . . . . . . . . . . . . . . .
2
Prsentation de lquipe de Traitement Automatique des Langues
1
Contexte Scientifique
1.1 Analyse morpho-syntaxique . . . .
1.1.1 Le systme SYGMART . . . .
1.1.2 Les rgles SYGFRAN . . . .
1.1.3 Rsultats . . . . . . . . . . .
1.2 Rsum automatique . . . . . . . .
1.2.1 Lextraction de phrases . . .
1.2.2 Lextraction de constituants
1.3 Contraction de phrase . . . . . . .
1.3.1 Prsentation du systme . .
1.3.2 Rsultats . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
1
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
. 5
. 5
. 6
. 6
. 8
. 8
. 8
. 9
. 9
. 10
Problmatique
11
Considrations Grammaticales
2.1 Grammaires traditionnelles . . . . . .
2.2 Grammaires dunification . . . . . . .
2.2.1 Lexical functional grammar (LFG)
2.2.2 Le Lexique-Grammaire . . . .
.
.
.
.
.
.
.
.
.
.
.
.
13
13
14
14
15
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
19
19
22
23
23
23
24
25
25
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
iii
3.3
Conclusion
29
Annexes
31
Bibliographie
37
iv
SYGFRAN fonctionne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Analyse SYGFRAN partielle . . . . . . . . . . . . . . . . . . . . . . . . . . .
Analyse dune phrase ambigu . . . . . . . . . . . . . . . . . . . . . . . .
2.1
2.2
2.3
Structures c . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Structures f . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Exemple dunification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1
3.2
3.3
Extrait du lexique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Rgle : propagation des formes impersonnelles infinitives . . . . . . . . . 24
Rgle : traitement des verbes supports . . . . . . . . . . . . . . . . . . . . 26
6
7
7
vi
Prsentation
1
1.1
Prsentation du LIRMM
Prsentation Gnrale
Le Laboratoire dInformatique, de Robotique et de Microlectronique de Montpellier - LIRMM - est une unit mixte de recherche, dpendant conjointement de lUniversit Montpellier II et du Centre National de la Recherche Scientifique. Les recherches
actuelles et en mergence au LIRMM couvrent un large spectre de linformatique et
de ses applications :
linformatique fondamentale,
linteraction entre les systmes informatiques et les utilisateurs,
le dveloppement de machines communicantes dintervention, de production
ou de service,
le dveloppement des composants matriels et logiciels des systmes informatiques et de communication.
Treize ans aprs sa cration en 1992, les interactions entre chercheurs de cultures initiales diffrentes ont conduit de nouveaux thmes de recherche dans lesquels les
aspects logiciels et matriels sont abords conjointement. Les recherches du LIRMM
trouvent gnralement une finalisation dans des domaines applicatifs aussi divers que
la biologie, la chimie, les tlcommunications, le secteur mdical, la documentation...et
dans les domaines propres du laboratoire : linformatique, llectronique et lautomatique. Le laboratoire regroupe 292 personnes (dont 152 permanents) :
95 enseignants-chercheurs et 29 chercheurs CNRS (et galement INRIA,...)
28 ingnieurs, techniciens ou administratifs (+6 contractuels)
134 doctorants
3 chercheurs contractuels (hors doctorants).
Le LIRMM pilote deux formations doctorales, lune en Informatique, lautre en Systmes automatiques et microlectroniques. En moyenne, la production scientifique
annuelle du LIRMM est de 350 publications, dont 25 thses de doctorat et 170 publications dans des revues ou des congrs daudience internationale. Aux soutiens
du CNRS et de lUniversit Montpellier II, sajoutent ceux dune quinzaine de programmes de recherche nationaux et dune dizaine de programmes de recherche europens auxquels le LIRMM participe.
1.2
Le dpartement Informatique
Prsentation
Algorithmique :
bioinformatique, cryptographie, graphes, rseaux,
Bases de Donnes et Systmes dInformation :
intgration de donnes, fouille de donnes, maintien de la cohrence,
Gnie Logiciel :
langages de programmation, objets, composants, modles,
Intelligence Artificielle :
apprentissage, contraintes, reprsentation des connaissances, systmes multiagents,
Interaction Homme-Machine :
hypermedia, langage naturel, visualisation, web smantique et e-learning.
Cest dans ce contexte trs riche que travaille lquipe TAL, dont lobjectif est de
concevoir et de raliser un artefact qui soit en mesure daccepter des productions langagires, et de les interprter en vue de la ralisation de tches prcises : traduction,
recherche dinformation, classification de documents, dialogues, commandes de robots,etc. Lquipe se compose de :
Jacques C HAUCH (chercheur)
Mathieu L AFOURCADE (chercheur)
Violaine P RINCE (chercheuse)
Mathieu R OCHE (chercheur)
Anne P RELLER (chercheuse)
Alain J OUBERT (chercheur)
Sylvain D EGEILH (doctorant)
Mehdi Y OUSFI -M ONOD (doctorant)
Alexandre L ABADI (doctorant)
Lquipe travaille essentiellement sur le Franais, mais avec des incursions dans dautres
langues (Anglais, Allemand), essentiellement dans le cadre de la traduction automatique. Le thme de recherche peut se dcomposer en trois axes principaux :
La Syntaxe
qui se dfinit travers deux impratifs :
Apprhension : dfinir le passage dune structure S1 dans un modle M1 vers
une structure S2 dun modle M2. Par exemple, le passage dune production
en langue naturelle vers une expression logique.
Comprhension : dfinir, partir de toutes les structures dun modle M1,
les structures correspondantes qui doivent tre obtenues par apprhension. Il
sagit dune application.
La Traduction ou Transformation, qui dfinit le passage dune structure S1 dans
un modle M vers une structure S2 du mme modle M. Par exemple, la transformation dune structure syntaxique arborescente dune phrase dans une langue
L1 vers une structure syntaxique arborescente dans une langue L2.
La Smantique ou Corrlation : Les structures dun modle M1 sont plonges
dans un modle M2 tel que lon puisse dfinir des normes et des distances. Des
calculs de "proximit" de structures permettent de traduire les relations smantiques de la linguistique.
Prsentation
Les recherches sur ces trois axes donnent lieu diverses applications :
recherche dinformations laide du langage naturel (C HAUCH , L AFOURCADE ,
P RINCE , R OCHE , L ABADI)
classification de documents par lanalyse de contenu (C HAUCH , P RINCE , R OCHE)
segmentation thmatique de textes (C HAUCH , P RINCE , R OCHE , L ABADI)
cration et amlioration de ressources lexicales (L AFOURCADE , P RINCE)
amlioration de ressources multilingues (L AFOURCADE)
traduction automatique fonde sur lanalyse (C HAUCH , P RINCE)
vrification grammaticale (P RELLER , P RINCE , D EGEILH)
contraction automatique de textes (P RINCE , Y OUSFI -M ONOD)
Cest plus particulirement sur cette dernire application que jai travaill, sous la direction de Mehdi Y OUSFI -M ONOD et Augusta M ELA, chercheuse associe lquipe.
Mais avant de prsenter mon travail, voici tout dabord une prsentation plus prcise
du contexte scientifique dans lequel sinscrit le travail effectu lors du stage.
Prsentation
Chapitre 1
Contexte Scientifique
1.1
Analyse morpho-syntaxique
Lanalyse morpho-syntaxique consiste donner sur les lments dun texte des
informations morphologiques (temps, genre, nombre...) et syntaxiques (nature, fonction...). Cette analyse est la base de toute application en traitement automatique des
langues, naturelles ou non. Il existe plusieurs moyens de leffectuer, mais je nentrerai
pas dans les dtails, mon travail ne porte pas sur cette partie du traitement, mais un
lien troit existe entre lanalyse syntaxique et lanalyse smantique. Je prsenterai donc
sommairement le systme SYGMART, ainsi que lensemble de rgles SYGFRAN utiliss
au cours du stage sans passer en revue les diffrentes approches existantes pour lanalyse.
1.1.1
Le systme SYGMART
SYGMART ,
Contexte Scientifique
PH
qMVMVMVMVVV
q
q
MMMVVVVVV
q
q
V
qq
GN
GV
SYGFRAN
fonctionne
1.1.2
1.1.3
Rsultats
SYGFRAN
AGATE choisie. Voici une prsentation succinte de quelques possibilits de SYGFRAN sous
forme darbre syntaxique. Les tiquettes reprsentes ici sont incompltes et les lments rellement manipuls par les systme portent bien plus dinformations, au
cours du traitement comme dans le rsultat final.
Lorsque SYGFRAN fonctionne, il renvoie le rsultat sous la forme choisie2 . La figure
1.1 montre un exemple (trs) simple danalyse russie.
En cas dchec de lanalyse, SYGFRAN renvoie une analyse partielle (figure 1.2) qui
peut tre utilise dans une application.
Enfin, lorsquil nest pas possible de lever totalement les ambiguts de lanalyse, SYG FRAN ddouble larbre (figure 1.3) pour rendre compte des diffrentes interprtatons
possibles de la phrase, laissant lutilisateur faire le choix, soit de manire manuelle, soit
en crivant des rgles tenant compte du contexte, du thme gnral, du type de texte
ou dautres facteurs permettant une dsambiguisation.
Ces deux dernires caractristiques de SYGFRAN (figures 1.2 et 1.3) font de lui un
1
Les rsultats de la campagne dvaluation EASY des analyseurs du franais sont significatifs, SYG donnant des rponses justes 70% pour les analyses en constituants contre 30% en moyenne pour
les autres valuateurs.
2
Suivant la grammaire AGATE slectionne.
FRAN
Contexte Scientifique
ULFRA
cehcehcehqcehqcehqVYVYVYVYVYVYVYYYY
c
c
c
e
c
e
c
e
c
h
e
c
VVVVYYYYYY
ccccceeee hh q
YYY
VV
ccccccceceeeee hhhhh qqq
GN PH GADV ULOCC ULOCC
PH
qMM
qqq MMMMM
q
q
q
Il
GV aussi vite
que
court
GN
GV
il
peut
PHAMB
Y
eeeeee YYYYYYYYYYY
YYYYYY
eeeeee
e
e
e
e
e
Y
ee
PH
M
hhhh MMMM
h
h
h
h
h
MM
h
hhh
PH
M
hhhh MMMM
h
h
h
h
h
MM
h
hhh
GN
qqMMMMM
q
q
MM
q
qq
la
GV
M
GN
qqMMMMM
q
q
MM
q
qq
MMM
MMM
qM
qqq MMMMM
q
q
q
la
glace
la
GV
M
MMM
MMM
Contexte Scientifique
analyseur syntaxique robuste, qui peut servir des applications alors mme que lanalyse quil fait de la phrase nest pas complte ou reste ambigu.
Cest donc sur ce systme robuste et performant que sont effectus la plupart des
travaux de lquipe TAL du LIRMM, et en particulier le travail de rsum automatique. Je vais tout dabord prsenter le travail de rsum de manire plus gnrale
avant de prsenter plus particulirement lapproche choisie dans lquipe.
1.2
Rsum automatique
Parmi toutes les tches du traitement automatique des langues, le rsum automatique est lune des plus compliques. En effet, elle fait intervenir des considrations
aussi bien syntaxiques et lexicales que smantiques et, par sa nature de rduction dinformation, pose de gros problmes conceptuels quant la mesure de "limportance"
dun lment ou de sa ncessit. De plus, ses applications en font un noeud important
parmi les nombreux problmes lis au TAL.
Plusieurs approches sont envisages pour rsumer un texte de manire automatique.
Toutes possdent leurs avantages et leurs inconvnients, et la meilleure des solutions
serait sans aucun doute de les appliquer toutes ou presque un texte pour obtenir
une bonne contraction. Voici une description de ces approches, passes en revue dans
[YMP06].
1.2.1
Lextraction de phrases
Ici encore, il sagit dextraire des lments saillants du texte, mais ce sont des
phrases compltes qui sont extraites, et non des syntagmes. Elles sont ensuite regroupes en un texte rsum de type extract. Lanalyse smantique na pas ici besoin dtre
particulirement prcise et fine et le risque de perte dinformation majeure3 est rduit. Cependant, il se peut quune phrase extrmement longue contenant un lment
saillant parmi de nombreux lments "inutiles" soit conserve dans le texte contract.
Par exemple, lextraction de phrase applique au court texte (1), dans un contexte o
llment saillant serait lautoroute conserverait la premire phrase en ngligeant la
seconde.
1. La longue file ininterrompue de voitures se tortillait lentement le long de lautoroute
surcharge. Personne navanait.
1.2.2
Lextraction de constituants
La phrase rsum
Cette mthode consiste extraire dun texte les lments smantiques saillants et
les regrouper et structurer en une phrase qui, on lespre sera reprsentative du
texte. Une analyse smantique fine du texte est donc ncessaire, ainsi quun moyen
de synthtiser la phrase rsum. Aucune perte majeure dinformation nest exclure.
Cependant, le taux de contraction est, bien entendu, trs lev.
3
Contexte Scientifique
La contraction de phrase
Cette mthode, sur laquelle jai travaill pendant un mois et demi, permet de
travailler, comme la prcdente, au niveau du syntagme, mais en le plaant dans la
phrase au lieu de le considrer comme un lment du texte. Le principe de cette approche est de supprimer, dans chaque phrase du texte, les lments qui ne sont pas
syntaxiquement ncessaires (i.e. les complments circonstanciels). Ainsi, le travail est
principalement syntaxique et ne ncessite que des informations que la plupart des
analyseurs syntaxiques fournissent. De plus, les considrations smantiques qui y apparaissent sont minimales et servent uniquement lever des ambiguts. tudions
plus en profondeur cette approche du rsum, et en particulier la manire dont elle a
t dveloppe laide de SYGMART ([YMP05]).
1.3
Contraction de phrase
1.3.1
Prsentation du systme
Cet exemple (2) serait contract, dans une premire approche en : Il leva les yeux. Celle-ci lui sourit.
Contexte Scientifique
[YMP05, YMP06] et dont une version en ligne est disponible ladresse suivante :
http://www.lirmm.fr/~yousfi/compression.html
1.3.2
Rsultats
Limportance des lments facultatifs nest, dans ce cas, que purement descriptive et ils napportent
souvent que peu dinformations utiles la comprhension. Dans un article scientifique, par contre, les
adjectifs pithtes ne pourront que rarement tre supprims (Une application surjective).
6
Ici, une "information majeure" est une information qui, si elle est supprime change radicalement le
sens de la phrase ou fait perdre sa cohrence au texte.
10
Problmatique du stage
Le but de mon travail au cours de ce stage est donc de trouver une mthode permettant, partir dune ressource lexicale dfinir (existante ou constituer), de dterminer quels lments sont essentiels la compltude syntaxique, puis smantique,
de la phrase et de les marquer comme tels. Ce marquage pourra se faire en amont
dun traitement plus gnral concernant la contraction et ses rsultats doivent tre utilisables aisment dans un tel contexte. Un autre objectif est deffectuer ce travail en
utilisant le minimum dinformations smantiques et en se contentant dinformations
morpho-syntaxiques afin de pouvoir lutiliser avec un systme tel que SYGFRAN. Bien
entendu, toute autre approche est possible. La recherche dun lexique appropri, ou sa
constitution, ncessitera dtudier les thories grammaticales et linguistiques rcentes,
afin de dterminer les informations quil faudra y intgrer pour pouvoir effectuer le
marquage des complments essentiels. Enfin, il sera peut-tre utile deffectuer un relev des diffrents cas dambiguts pouvant se prsenter et qui ne seraient pas traits
(cas marginaux, cas trs difficiles, voire impossibles sans informations smantiques...)
et de proposer des solutions, si possible, aux problmes qui pourraient se poser.
11
Contexte Scientifique
12
Chapitre 2
Considrations Grammaticales
Afin de pouvoir rsoudre ce problme, il est ncessaire de sintresser de plus prs
ce que linguistes et grammairiens pensent des complments, quils soient dobjets ou
circonstanciels, puisque ceux-ci sont au centre de nos proccupations. Nous verrons
dabord, pour nous rafrachir la mmoire, ce que disent les grammaires dites traditionnelles, souvent plus intuitives, puis nous nous intresserons un type de grammaires
apparues plus rcemment : les grammaires dunification, plus formelles, qui sont apparues avec les exigences lies au traitement automatique des langues naturelles.
2.1
Grammaires traditionnelles
Ici, la grammaticalit est conserve, mais une nuance importante est perdue
Sauf dans un nombre restreint de cas, notamment les circonstants de lieu (11)
13
Considrations Grammaticales
De plus, cette approche propose des mthodes pour diffrencier aisment les divers
type de complments du verbe. En particulier, il peut tre intressant de savoir identifier les complments dobjet (4) et les attributs du sujet (12), qui sont souvent obligatoires et ne permettent en gnral de ne supprimer que quelques mots.
12. Jrmy est maladroit.
Linconvnient majeur dune telle approche dans le contexte qui nous intresse est la
difficult de lautomatiser. En effet, comment tester de manire algorithmique des notions de bonne formation smantique ? Il faut donc, pour pouvoir analyser, et rsumer,
un texte de manire automatique, mettre au point une nouvelle approche de la syntaxe. Cest ce qui a t fait par les linguistes avec le dveloppement des grammaires
dunification.
2.2
Grammaires dunification
LFG est, dans le pire cas, quivalent une grammaire contextuelle, contrairement aux grammaires
gnratives la Chomsky
4
Un ensemble dquations dcrivant la structure fonctionnelle normalement associe larbre de drivation.
14
Considrations Grammaticales
P
qMMMM
q
q
MMM
q
qqq
P
qVVVVVV
q
q
VVVV
q
VVV
qqq
SN
Peter
SN
SV
qMM
qqq MMMMM
q
q
q
SN
admires
Mary
SN
Petrus puellam
amat
Pred = admire
Pred = amare
2.2.2
Le Lexique-Grammaire
tablir la sous-catgorisation de tous les verbes dune langue naturelle, dans tous
leurs emplois et toutes leurs acceptions est un travail de titan. Cependant, Maurice
G ROSS et son quipe ont commenc, dans [Gro75], crire des tables reprsentant la
sous-catgorisation des verbes courants du franais, regroups par type de construction.
De nombreux travaux en TAL, notamment les travaux de la communaut I NTEX, sappuient sur les rsultats de G ROSS, qui est srement la base de donnes lexicale la plus
exhaustive ce jour en ce qui concerne les traits de sous-catgorisation.
Cette ressource pourra donc tre utilise par la suite pour la constitution dune res-
15
Considrations Grammaticales
P
V
SN
SN
(Suj)=
dort
(Num) = sing
(Mode) = indicatif
(Pers) = 3
(Pred) = dormir<Suj>
Jean
(Num) = sing
(Num) = masc
(Num) = Jean
V
=
qMM
qqq MMMMM
q
q
q
(Suj)=
SN
=
V
Pred = Jean
Suj = Genre = masc
Num = sing
Pred = dormir<Suj>
Mode = indicatif
Num = sing
Pers = 3
Jean
dort
structure c
structure f
16
Considrations Grammaticales
source lexicale, mais est aussi intressante dun point de vue plus thorique pour
mieux comprendre le fonctionnement global des grammaires dunification et avoir
un aperu plus complet du problme.
17
Considrations Grammaticales
18
Chapitre 3
La ralisation dun systme rpondant au problme pos passe, comme nous lavons
indiqu plus haut par lutilisation ou la construction dune ressource lexicale adapte
lapproche choisie. Nous verrons dabord ce qui a orient ce choix, puis comment ce
choix a lui-mme influenc la cration du lexique.
3.1.1
Jai tout dabord approch le travail effectuer dun point de vue trs gnral, en
envisageant de crer un systme capable, partir dune ressource lexicale, de produire automatiquement un ensemble de rgles TELESI correspondant aux informations contenues dans le lexique. Jai beaucoup avanc dans cette direction, en tentant
de structurer les diffrentes constructions lexico-syntaxiques et dtablir un ordre partiel sur lensemble les contenant. Il suffirait alors, lorsquun verbe est rencontr, de
remplacer la construction C o il apparat par une construction C 0 minimale vis--vis
de lordre impos telle que C 0 est plus petite que C dans ce mme ordre.
Cest en changeant propos des diffrentes dfinitions possibles dune telle relation
dordre avec Augusta M ELA quil est apparu quune telle opration, mene de manire
statique, sapprochait, sans atteindre leur efficacit, des diffrentes mthodes affrentes aux grammaires dunification. Le principal inconvnient de cette mthode tait
son aspect de compilation statique dune ressource lexicale, qui empchait dinclure
au traitement des informations smantiques qui pourraient tre extraites de manire
dynamique. De plus, il est trs difficile dcrire (en particulier de manire automatique) des rgles TELESI cohrentes. Au fil des diffrentes runions qui ont suivi, mon
travail sest donc orient plus particulirement vers ltude des grammaires dunification et vers leurs possibilits dutilisation dans le contexte du stage. Il ma donc fallu
tudier un corpus (compos du conte polynsien prsent en annexe A.1 et des deux
premiers chapitres de [dSE43]) afin de dterminer quelles informations sur les verbes
taient ncessaires pour distinguer les complments essentiels des complments facultatifs.
3.1.2
Constitution du lexique
Voici une description de ce que devra contenir la ressource lexicale qui sera finalement utilise, la lumire des considrations grammaticales du chapitre 2.
Pour dcrire le contenu de cette ressource, la figure 3.1 reprsente quelques entres
du lexique "idal", crites dans un langage non-spcifique, qui se veut le plus explicite
19
possible. La ressource elle-mme devra bien entendu tenir compte des formats dentre attendus par le systme utilis pour effectuer lanalyse, ainsi que de celui utilis
pour effectuer le marquage, qui pourraient ventuellement tre tous deux diffrents
de SYGMART.
Lgende et explication de la figure 3.1
Le champ L EMME contient le lemme verbal, sa racine infinitive. Il est utile, de manire
vidente, de connatre le verbe auxquelles sappliquent les informations donnes dans
la suite du tableau.
Le champ F ORME donne des informations prcises sur la forme verbale, qui peut fortement influencer limportance des diffrents lments de la phrase1 . En particulier,
il indique les formes passives, impersonnelles, et rflchies. Il sera donc aussi ncessaire de dtecter, dans certains cas o SYGFRAN nest pas efficace, ces diffrentes
voix/constructions.
13. Jean a lav le sol. <Suj :SN ;Obj :SN,SCOMP>
14. Jean sest lav (/le corps/les mains). <Suj :SN ;(Obj :SN[partie du corps])>
Il peut prendre trois valeurs ou toute combinaison de ces trois valeurs : Pas pour les
voix passives, Imp pour les constructions impersonnelles, et Ref pour les constructions
rflexives.
Le champ A UXILIAIRE contient lauxiliaire avec lequel se construisent les temps composs du verbe. En effet, celui peut varier suivant la voix, lacception ou dautres facteurs (comme illustr dans les phrases (15) et (16)). A priori, cette information nest que
peu utile, mais elle peut peut-tre mener une diminution du nombre de cas dambiguts suivant le corpus. Ce champ na que deux valeurs possibles : tre ou avoir. Il
est envisageable, mais je ne lai pas recontr dans le corpus, quun verbe puisse tre
construit avec les deux auxiliaires indiffremment.
15. Il sest chang trois fois aujourdhui.
16. Il a beaucoup chang ces derniers temps.
Pour comprendre les deux champs suivants, il nous faut savoir ce quest un verbe
support. Dans [RPR04, VII-1.4.8, p. 232], les verbes supports sont des verbes qui,
ct de leurs emplois ordinaires, peuvent se combiner avec un nom, un adjectif ou un
groupe prpositionnel pour construire une forme complexe fonctionnellement quivalente un verbe. De plus, cette forme complexe a ses propres caractristiques, ainsi
quun sens diffrent, ce qui justifie une entre spare dans le lexique.
Ltude du corpus nous montre quil est ncessaire, pour analyser et traiter correctement les verbes supports, de connatre la fois la catgorie grammaticale de llment
support (C AT S UP), et, bien entendu, son lemme(L EM S UP). En effet, le lemme est ncessaire, mais quelques exemples ((17) et (18), par exemple), rares, mais importants
car ils ont dautres consquences, rendent ncessaire la connaissance de la catgorie.
17. "Faire le beau", C AT S UP=N, L EM S UP="beau", S UB C AT=<Suj :SN>
18. "Faire beau", F ORME=Imp, C AT S UP=Adj, L EM S UP="beau", S UB C AT=<Suj :Il>
1
Les phrases (13) et (14) montrent limportance, par exemple, de dtecter une forme rflchie qui
modifie la sous-catgorisation du verbe laver.
20
L EMME
partir
tre
manger
faire
faire
faire
faire
faire
gronder
protester
moquer
mettre
pousser
F ORME
Impersonnel
Rflexif
A UXILIAIRE
tre
avoir
avoir
avoir
avoir
avoir
avoir
avoir
avoir
avoir
tre
tre
avoir
C AT S UP
Prep()
N
N
N
L EM S UP
recherche
attention
exprience
connaissance
S OUS - CATGORISATION (S UB C AT )
<Suj :SN,SINF,SCOMP ;Obj :de-SN>
<Suj :SN,SINF,SCOMP ;AttSuj :SN,Adj>
<Suj :SN ;(Obj :SN,SCOMP)>
<Suj :SN,SINF,SCOMP ;Obj :SN>
<Suj :"Il" ;Obj :SN-mto,Adj-mto>
<Suj :SN,SINF,SCOMP ;(Obj :-SN,-SINF)>
<Suj :SN,SINF,SCOMP ;(Obj1 :de-SN ;Obj2 :sur-SN)>
<Suj :SN ;Obj :de-SN>
<Suj :SN ;Obj :SN-humain>
<Suj :SN,SCOMP>
<Suj :SN,SCOMP ;Obj :de-SN>
<Suj :SN,SCOMP ;Obj :-SINF>
<Suj :SN ;Obj1 :SN ;Obj2 :-SINF>
P ROPRITS
C TRL S UJ
C TRL O BJ
21
3.2
Ralisation du marquage
Le contrle de linfinitif est llment qui sert de sujet la proposition. Ce contrle peut-tre le sujet
de la phrase principale (ex. (19)), ou son complment dobjet ((20)).
3
la principale consquence est une ambigut qui apparat la lecture du dictionnaire, puisque celle-ci
peut renvoyer plusieurs entres si la slection ne seffectue que sur le lemme
22
des dterminants...). Plusieurs approches taient possibles, ici encore. Jai choisi ici un
approche en couches successives permettant encore un raffinement des critres de slection et de traitement diffrents niveaux.
La premire couche (3.2.1) se chargerait de "corriger" lanalyse SYGFRAN en remarquant bien les constructions particulires (formes impersonnelles, formes rflchies et
voix passives), ce qui, en plus de rendre lanalyse plus pertinente, peut permettre de
rduire fortement le nombre dentres considrer dans le dictionnaire en affinant le
filtrage.
Une deuxime couche (3.2.2) se chargerait de rpertorier, pour toutes les formes verbales, lensemble des syntagmes potentiellement sous-catgoriss (tous les groupes
syntaxiques qui pourraient tre complments de ce verbe).
La troisime couche (3.2.3) effectuerait alors le traitement proprement dit, considrant
chaque complment potentiel et vrifiant sa prsence dans les entres du lexique correspondantes. Si le groupe est prsent dans toutes les entres avec la mme fonction,
on lui affecte cette fonction. Sinon, sil existe une entre o ce groupe est prsent, on
divise larbre comme sur lexemple danalyse ambigu 1.3 et on continue lanalyse.
Dans le cas o aucune des entres lexicales ne sous-catgorise un lment de la nature
souhaite, alors ce groupe est un complment de phrase ou dpend dun autre verbe
dans la phrase.
Enfin, une quatrime couche permettrait de remettre en forme larbre danalyse syntaxique en plaant les complments du verbe sous le groupe verbal.
3.2.1
Formes rflchies
Pour ce point, au moins dans les cas gnraux, SYGFRAN dtecte bien les emplois rflchis des verbes. Le groupe verbal possde alors ltiquette VOIX=(PRONOM).
Dans le cas o lexprience mettrait en vidence une dfaillance de SYGFRAN pour
mettre en vidence les emplois rflexifs, il est possible dcrire un ensemble de rgles
simples analysant la personne et le nombre du sujet et vrifiant quil saccorde avec le
pronom aprs avoir vrifi que celui-ci est sous une forme rflchie (me, se, nous, vous).
Si lexprience montre nouveau que cela ne suffit pas encore, on pourra marquer
comme "potentiellement rflchi" tout emploi dun verbe avec un pronom sous forme
rflchie et lui appliquer la fois les rgles des formes rflexives et celles des formes
classiques lors du traitement.
Formes impersonnelles
En dehors des cas o le verbe est purement impersonnel (verbes mtorologiques,
de survenance ou modalisateurs, par exemple (22), (23) et (24)), la dtection des formes
impersonnelles nest pas aise si on ne considre que des informations lexico-syntaxiques.
En effet, la prsence du pronom il en tant que sujet ne suffit pas, heureusement pour
la communication et malheureusement pour lanalyse, donner un sens impersonnel
au verbe ((25) et (26)).
22. Il pleut.
23. Quoi quil advienne.
24. Il faut manger tes pinards.
23
1
qMMMM
q
q
MMM
q
qqq
2
qMM
qqq MMMMM
q
q
q
K(3)=GV, CAT(4)=V,
PROP(4)3TRSF_IMP,
K(5)=PHINF, TYP(5)3IL,
LEMME(2)="il"
+3
1
qMMMM
q
q
MMM
q
qqq
2
qMM
qqq MMMMM
q
q
q
TYP(4)IL
TYP(3)IL
24
(29), analys comme lauxiliaire tre suivi de son attribut du sujet) pour avoir une analyse plus complte.
Lexemple (29) illustre trs bien le propos car, suivant la manire dont on analyse la
forme verbale sont nourries, le complment au grain est essentiel6 (auxiliaire + attribut
du sujet) ou facultatif (passif, au grain peut mme tre considr comme lagent tout
en restant facultatif).
29. Ces poules sont nourries au grain.
On pourrait inclure dans ce pr-traitement la dtection des verbes supports, mais encore une fois, le but ici est de dduire autant dinformations que possible de lanalyse
elle-mme sans se servir de la ressource lexicale. Cette dtection pourra donc se faire
au cours de la troisime tape, o la ressource lexicale sera utilise.
3.2.2
Dans cette tape, il sagit de faire linventaire de tous les groupes syntaxiques potentiellement rattachs un mme verbe. Ces groupes seront ensuite analyss la
lumire du lexique et retenus, ou non, en tant que complments du verbe en question.
Nous ne prendrons ici que les noeuds frres du groupe verbal tudi (pour retenir les
sujets et les complments essentiels qui seraient analyss par SYGFRAN comme des
complments circonstanciels), et ses descendants (pour retenir tous les groupes initialement analyss comme des complments dobjet, complments dagent, attributs du
sujet, attributs de lobjet...). On peut ensuite placer chacun des lments retenus, sans
plus de slection, dans une tiquette du nud correspondant au verbe. On pourra utiliser pour les identifier les numros de nud renvoys par SYGFRAN lors de lanalyse.
Une difficult supplmentaire, due limperfection de lanalyse SYGFRAN peut apparatre si le verbe considr fait partie dune subordonne compltive dont les complments sont mal analyss. Je nai ce jour pas de solution proposer, ces cas tant
relativement rares dans les textes considrs. Une solution, trop coteuse pour tre
envisageable serait de considrer tous les syntagmes de la phrase, mais je prfre me
reposer sur lhypothse dune analyse correcte et complte, quil est toujours possible
denvisager, quitte rajouter un pr-traitement supplmentaire.
la fin de cette tape, chaque verbe de la phrase dispose donc de la liste des syntagmes susceptibles dtre gouverns par lui. Il "suffit" maintenant de parcourir cette
liste en liminant les syntagmes qui ne sont clairement pas complments du verbe et
en marquant ceux qui, aprs comparaison avec les entres du lexique, pourraient en
tre.
3.2.3
La premire chose faire au cours du traitement proprement dit est de reprer les
constructions grammaticales les plus courantes qui nont pas t reconnues la premire tape (c.f. 3.2.1). Parmi ces constructions, les constructions verbes supports ont
une importance particulire puisque, comme nous lavons vu, leur prsence entrane
dimportantes modifications de la sous-catgorisation du verbe et de ses caractristiques.
6
dun point de vue smantique, la syntaxe se fichant pas mal du droit des animaux
25
1
qMMMM
q
q
MMM
q
qqq
2
1
+3
2
6
qqMMMMM
q
q
MM
qqq
4
K(2)=GV, K(3)=GN,
CAT(4)=V,
L E X S U P (DICT(4))=LEMME(5),
C A T S U P (DICT(4))=CAT(5)
K(6)=VSupp,
LEMME(6)LEMME(4),
LEXSUP(6)LEMME(5),
CATSUP(6)CAT(5)
26
en reste plusieurs, on peut procder de mme, soit une division de larbre, soit une
slection grce des heuristiques approches. La premire solution reste privilgier
dans ce cas, puisque rien nassure quun des syntagmes choisis nest pas en ralit
complment dun autre verbe. Ddoubler larbre danalyse permettrait alors deffectuer un traitement plus exhaustif, autorisant les impasses, qui seront lagues par la
suite.
Cest au cours de cette tape, plus particulirement, que pourront tre utilises les mthodes issues des grammaires dunification. En effet, si on associe la sous-catgorisation
des quations fonctionnelles, comme dans LFG (c.f. 2.2), la slection des complments
se fait de manire beaucoup plus fine (en particulier en rendant leur importance aux
informations morphologiques de genre et de nombre), laissant la place moins dambiguts.
3.3
27
28
Conclusion
Les travaux que jai effectus durant ce court stage, mme sils nont pas men
des rsultats directement utilisables, auront permis, je pense, aux membres de lquipe
TAL de revoir SYGMART, non comme un systme exprimental sur lequel fournir un
travail pratique permettant den prouver lefficacit, mais aussi comme un systme
suffisamment proche des nouvelles thories de la grammaire pour quelles puissent y
tre adaptes efficacement.
Le travail fourni au cours de ce mois et demi mrite dtre approfondi, non seulement
pour son intrt pratique et ses applications, mais aussi pour les questions thoriques
quil suscite, en particulier sur la compatibilit du systme de transformations que reprsente SYGMART avec les grammaires dunification (LFG ou une autre). Pour rendre
utilisables et testables les ides qui ont merg de mon travail, une formalisation des
rgles et leur criture au format TELESI, ainsi que la constitution dun lexique plus
complet grce ltude dun corpus plus tendu seront ncessaires.
Jespre pouvoir, pour ma part, travailler nouveau, si ce nest sur SYGMART mme,
dans un domaine proche du TAL, car ces premiers pas dans le monde de la recherche,
et dans un domaine aussi complexe que le traitement des langues naturelles, mont
persuad du travail phnomnal quil reste accomplir dans ces domaines nouveaux,
aux frontires de plusieurs disciplines.
29
Conclusion
30
31
32
Annexe A
Texte Initial
Maui part la recherche de ses parents.
33
34
tout blanc et le oa tout brun, jusqu ce quil ait pris lapparence de tous les
oiseaux du monde, tour tour. Enfin il se changea en pigeon vert.
Extrait de La Lgende de Maui. [Dod92]
A.2
Rsultat de la compression
Maui part la recherche de ses parents.
35
vous avez t nourris. Mais moi, mes frres, je nai jamais son sein tt, ni
rien mang. Et pourtant je laime, et cest parce que je laime que je souffre
de ne pas savoir o elle se trouve ."
Ses frres se sentirent surpris et charms. ils lapprouvrent et lencouragrent tenter de trouver leur pre et leur mre.
Maui ne se tint plus de joie. Il se mit tout de suite faire la magie. Il
allait devoir voyager vite et il dcida de se changer.
Il ne savait pas quel oiseau choisir. Il pensa bien sr au noha mais il le jugea
trop gros. Il se fit maho mais ses frres pensrent quil tait trop petit et pas
joli. Puis il devint otaha mais ils trouvrent cette crature aux ailes plus
longues que leurs bras effrayante. Alors il essaya un oiseau aprs lautre.
Enfin il se changea.
36
Bibliographie
[Abe93] Anne A BEILL : Les nouvelles syntaxes : grammaires dunification et analyse du
franais. Armand Colin, premire dition, 1993.
[Bre82]
[GT04]
[RPR04] Martin R IEGEL, Jean-Christophe P ELLAT et Ren R IOUL : Grammaire mthodique du franais. PUF, troisime dition, fvrier 2004. Deuxime tirage (juin
2005).
[Tom01] Roberte T OMASSONE : propos des complments circonstanciels . Les
revues pdagogiques de la Mission laque franaise Connaissance du franais, 43:
5964, novembre 2001.
[YMP05] Mehdi Y OUSFI -M ONOD et Violaine P RINCE : Utilisation de la structure
morpho-syntaxique des phrases dans le rsum automatique - compression
de phrases narratives. In TALN05 : 12me Confrence Internationale sur le Traitement Automatique du Langage Naturel, pages 193202, 2005.
[YMP06] Mehdi Y OUSFI -M ONOD et Violaine P RINCE : Compression de phrases par
lagage de leur arbre morpho-syntaxique. Technique et Science Informatiques,
25:437468, 2006.
37