Professional Documents
Culture Documents
Abstract
We intend to develop a large-coverage morphological and syntactic lexicon for French which can be
directly used in Natural Langage Processing (NLP) applications, in particular in those involving deep
parsing, regardless of the underlying grammatical framework. This lexicon, named Lefff (Lexique des
Formes Flchies du Franais Lexicon of French inFlected Forms), has been under development
since 2004. At the beginning, this lexicon contained only verbal morphological information, mostly
automatically induced from corpora. It now covers all parts of speech, and is progressively enriched
with syntactic information. In this paper, we show how we used the lexicon-grammar tables, whose
development has been initiated by M. Gross, to enrich the Lefff. These tables are a valuable starting
point. However, it is necessary to achieve both a linguistic and formal modeling work, in order to
exploit their content in a NLP lexicon such as the Lefff. We illustrate this approach on one kind of
non-standard verbal and adjectival entries : impersonal structures.
Keywords : Lexicon-grammar, Lefff, impersonal constructions
Rsum
Nous avons le projet de dvelopper un lexique morphologique et syntaxique du franais large
couverture qui soit directement utilisable dans des applications de Traitement Automatique du
Langage (TAL), en particulier celles ncessitant une analyse syntaxique profonde, et ce, quel que soit
le cadre thorique utilis. Ce lexique, baptis Lefff (Lexique des Formes Flchies du Franais), est en
cours de dveloppement depuis 2004. Au dpart, ce lexique ne comportait que des informations
morphologiques verbales, principalement induites automatiquement partir de corpus. Il couvre
maintenant toutes les catgories, et est progressivement enrichi dinformations syntaxiques. Nous
montrons ici comment nous lavons enrichi partir des tables du lexique-grammaire, initialement
dveloppes autour de M. Gross. Celles-ci constituent un point de dpart dune valeur inestimable. Il
est nanmoins ncessaire de procder un double travail de linguistique et de modlisation, afin
dexploiter leur contenu dans un lexique TAL tel que le Lefff. Nous illustrons cette approche sur un
type particulier dentres verbales et adjectivales non standard : les constructions impersonnelles.
Mots-cls : Lexique-grammaire, Lefff, constructions impersonnelles
1
2
B. SAGOT, L. DANLOS
1. Introduction
Lanalyse syntaxique profonde ne peut se faire qu la condition de disposer
dinformations lexicales riches qui forment un lexique morphologique et syntaxique
large couverture. De plus, un tel lexique doit reprsenter ces informations dune faon
adapte lutilisation dans les systmes de traitement automatique. Une telle ressource
nest pas disponible pour le franais, malgr de nombreuses initiatives indpendantes,
qui ont atteint des degrs davancement divers et qui ont privilgi des aspects
diffrents. Deux dentre elles ont donn naissance des ressources large couverture
que tout spare :
Les tables du lexique-grammaire, dont le dveloppement a t initi par Maurice
Gross au LADL (Gross 1975) et se poursuit lIGM autour dric Laporte,
Le Lefff (Lexique des Formes Flchies du Franais), lexique morphologique et
syntaxique du franais large couverture (520 000 entres) initi par Lionel
Clment, dvelopp par lun des auteurs et utilis dans divers systmes de TAL
(Sagot et al. 2006).
Il existe, entre autres, une troisime ressource lexicale pour le franais, qui ne couvre
que les verbes simples, mais dont les fondements linguistiques sont solides. Il sagit du
lexique DICOVALENCE, successeur du dictionnaire PROTON, dvelopp par Karel van
den Eynde et Piet Mertens (van den Eynde et Mertens 2006) dans le cadre de
lapproche pronominale initie par Claire Blanche-Benvniste et Karel van den Eynde
(van den Eynde et Blanche-Benvniste 1978), et mise la disposition de la
communaut. Nous en reparlons plus bas.
Lintrt principal des tables du lexique-grammaire rside dans leur qualit : elles sont
le rsultat de travaux minutieux et prcis dinvestigation linguistique mens depuis les
annes 1970 dans le cadre d'une quipe CNRS, le LADL. Cependant, les tables ne sont
pas directement exploitables dans des systmes danalyse, une partie importante des
informations ntant comprhensible que moyennant de nombreuses connaissances
implicites. linverse, lintrt principal du Lefff est que sa structure et son format
sont spcifiquement adapts une utilisation dans des systmes de TAL. Mais la
qualit, la richesse et la couverture du Lefff natteignent pas, loin sen faut, celles des
tables du lexique-grammaire.
Nous avons donc tudi le moyen de profiter simultanment de la couverture et de la
prcision des tables du lexique-grammaire et de ladquation du Lefff aux traitements
automatiques. Paralllement dautres travaux complmentaires, qui cherchent
comparer le Lefff un lexique au mme format gnr automatiquement partir des
tables du lexique-grammaire (Sagot et Gardent, en cours), nous avons travaill et
travaillons lutilisation manuelle des tables du lexique-grammaire pour valider,
invalider, ou complter certaines informations du Lefff. Ici, nous nous concentrons sur
les informations concernant les constructions impersonnelles.
Aprs une description des tables du lexique-grammaire et des donnes que nous en
avons extraites concernant les constructions impersonnelles, nous prsenterons le Lefff
plus en dtails et la modlisation qui y est faite des constructions impersonnelles.
B. SAGOT, L. DANLOS
37M6) regroupent les procs dajout (Luc a muni la porte dun verrou signifie que Luc
a mis un verrou sur la porte). Les tables 37Mi se distinguent par des proprits trs
diverses (morphologiques, smantiques ou autres) qui ne relvent pas du cadre de
sous-catgorisation et qui auraient pu/d figurer en colonne dans une unique table
37M. La raison de ce dcoupage est principalement numrique : la table 37M aurait
regroup 890 verbes, et il a t considr que la consultation manuelle dune matrice
de 890 lignes tait difficile, do sa division en six sous-tables.
Les tables se prsentent donc sous forme de matrice de + et o les colonnes
indiquent les proprits qui varient dun lment lautre. Ainsi, dans la Table 9, une
colonne intitule de V2 W permet de coder si un verbe appartenant cette table
autorise que son complment direct (de position 1) soit une infinitive introduite par le
complmentiseur de et contrle par N2 (Luc a ordonn/dit Zo de chanter, versus
*Luc a dissimul Zo de chanter). Une autre colonne intitule Aux V0 W permet
de coder si un verbe appartenant la Table 9 autorise que son complment direct soit
une infinitive directe un temps compos et contrle par N04 (Luc a dit/dissimul
Zo avoir chant, versus *Luc a ordonn Zo avoir chant). En fait, la situation est
plus complique car il peut y avoir une structure hirarchique entre colonnes. Ainsi la
colonne de V2 W dpend dune colonne qui indique que la compltive est au
subjonctif (Luc a dit/ordonn La que Zo parte demain) tandis que la colonne
Aux V0 W dpend dune colonne qui indique que la compltive est lindicatif
(Luc a dit/dissimul La que Zo part demain). De ce fait, pour convertir en un
format tel que celui du Lefff les informations codes dans la Table 9, il faut
comprendre que cette table regroupe (au moins) deux ensembles de verbes : lun
compos de verbes, comme ordonner, dont la compltive est au subjonctif et qui
permettent une infinitive en de V2 W, lautre, comme dissimuler, compos de verbes
dont la compltive est l'indicatif5 et qui permettent une infinitive en Aux V0 W. Le
verbe dire appartient ces deux ensembles.
Ces dpendances complexes entre colonnes, cest--dire entre proprits syntaxiques,
ont dailleurs t modlises (manuellement) pour certaines tables par
(Gardent et al. 2006), sous forme de graphes. Ces graphes, qui modlisent galement
les nombreuses informations implicites dans les tables, sont destines lextraction
automatique dun lexique TAL, nomm SynLex, partir des tables traites6.
Nous terminons cette section sur les colonnes en indiquant que diverses colonnes
permettent dindiquer les proprits de pronominalisation et de cliticisation des
diffrents complments. Rappelons que ces proprits peuvent tre considres
comme des proprits dfinitoires dans le lexique DICOVALENCE (van den Eynde et
Mertens 2006). On se reportera (Danlos et Sagot 2007) pour une comparaison entre
le Lexique-Grammaire et DICOVALENCE.
4
Une autre colonne intitule V0 W permet de coder des phrases comme Luc dit/prtend tre le
Messie qui sont plus naturelles sans complment de type N2.
5
Sans parler de l'induction du subjonctif en mode non-assertif.
6
On pourra se reporter la page Internet du projet : http://libresource.inria.fr//projects/SynLex
Il existe d'autres outils permettant de reprrer les pronoms impersonnels, en particulier des travaux sur le
pronom anglais it. Ces outils, qui n'atteignent pas le taux de prcision dILIMP, utilisent gnralement des
techniques d'apprentissage, cf. (Boyd et al. 2006). Pour le franais en tout cas, les techniques par apprentissage
semblent inadquates dans la mesure o l'ensemble des constructions impersonnelles est stable d'un
domaine/genre l'autre et ne relve pas d'un phnomne productif. Par exemple, on ne va pas observer de
nouvelles constructions impersonnelles parce que l'on passe du genre journalistique au domaine aronautique.
On peut donc esprer obtenir une liste complte des constructions impersonnelles, ce qui a t presque ralis
dans ILIMP.
9
UNITEX est un logiciel sous licence GPL, dont l'anctre est INTEX. La documentation et le
tlchargement de UNITEX se trouvent sur le site http://ladl.univ-mlv.fr.
B. SAGOT, L. DANLOS
La balise [IMP] vient dcorer les occurrences de il qui apparaissent dans les phrases
correspondant au patron de (2). Cette balise vient donc dcorer il dans (1c). La balise
[ANA] est la balise par dfaut : elle vient dcorer les occurrences de il qui n'ont pas t
balises par [IMP]. Cette balise vient dcorer il dans (1d). Nanmoins, la situation est un
peu plus complexe, car il existe une troisime balise [AMB] abrviation de
ambigu qui sera explique ci-dessous.
2.2.2. Aspects linguistiques : les difffrentes constructions impersonnelles
Pour l'aspect linguistique, ILIMP repose sur le lexique-grammaire. Plus prcisment,
nous avons extrait manuellement du lexique-grammaire tous les items lexicaux qui
peuvent ancrer une phrase impersonnelle avec leur complmentation syntaxique. On
peut distinguer les constructions intrinsquement impersonnelles, qui ne peuvent avoir
comme sujet que il, des constructions avec un sujet profond extrapos .
Parmi les premires, on trouve 45 verbes mtorologiques de la table 31I de
(Boons et al., 1976a) (Il pleut, Il vente), 21 verbes de la table 17 de (Gross, 1975) (Il
faut du pain /que Fred vienne) et 38 expressions figes de (Gross, 1993) (Il tait une
fois, quoi qu'il en soit.).
Pour les constructions impersonnelles sujet profond extrapos, on peut distinguer
celles sujet phrastique de celles sujet uniquement nominal. Parmi les premires, on
trouve 682 adjectifs10 (Il est probable que Fred viendra), 88 expressions tre Prp X
des Tables Z5P et Z5D de (Danlos 1980) (Il est de rgle de porter un chapeau), 21
verbes de la Table 5 de (Gross 1975) (Il plat Zo que Luc vienne), 140 verbes de la
Table 6 et 92 verbes de la Table 9 de (Gross 1975) construits au passif ou au se-moyen
(Il a t dit/se raconte que Fred viendra), et enfin plus quelques verbes des tables 7 et
8 (voir ci-dessous).
Les constructions impersonnelles sujet extrapos nominal ont pour tte lexicale des
verbes qui sont disperss dans les tables labores par (Boons et al. 1976a, 1976b)11.
On peut distinguer d'un ct des verbes comme manquer ou rester dont l'emploi en
10
Le lexique-grammaire des adjectifs n'est pas complet, loin s'en faut. Nous avons extrait manuellement les
adjectifs construction impersonnelle des tables de (Picabia, 1978) et (Meunier, 1981) et complt ces donnes
au fur et mesure de la ralisation d'ILIMP, sans toutefois atteindre une couverture exhaustive de ces adjectifs.
11
Dans ces tables, la possibilit d'une construction impersonnelle n'est pas code.
Dans un trs petit nombre de cas (une dizaine), un item lexical peut ancrer une
construction impersonnelle ou personnelle avec le mme cadre de souscatgorisation. C'est le cas pour l'adjectif certain construit avec un complment
phrastique, comme illustr dans la phrase en (5a). Comme les deux lectures de (5a)
semblent galement frquentes, il dans le patron (5b) reoit la balise [AMB].
(5)a Il est certain que Fred viendra (Jean/Cela est certain que Fred viendra)
b Il [AMB] est certain que P
Soulignons bien que l'extraction des constructions impersonnelles partir du lexiquegrammaire a t manuelle, et non automatique comme dans le travail prsent dans
(Gardent et al. 2006). Cette diffrence est de taille, comme illustr dans l'exemple qui
suit : le cas des verbes sujet phrastique extraposable qui proviennent des tables de
(Gross 1975). Une extraction automatique consisterait prendre :
toutes les entrs de la table 5, dont la proprit dfinitoire est justement l'existence
de la construction (Que P)0 V Prp N1 associe la construction impersonnelle Il
V Prp N1 Que P (voir Que Luc parte plat Zo versus Il plat Zo que Luc
parte),
toutes les entres de la table 17, dont la proprit dfinitoire est Il V (Prp ce)
Que P Prp N2 (voir Il semble Luc que Zo est partie),
les quelques entres des Tables 7 (N0 V ce que P) et 8 (N0 V de ce que P) o
il existe une colonne intitule [extrap] (dpendant de la colonne intitul Sujet) qui
code la possibilit d'extraposer un sujet phrastique (voir Que Zo soit partie
dcoule de ce que Luc est arriv versus Il dcoule de ce que Luc est arriv que Zo
soit partie).
Une telle extraction automatique aurait induit du bruit et du silence. Commenons par
le bruit. La table 5 contient un verbe comme galoper dont l'entre dans la Table 5 est
justifie par l'exemple en (6) (avec Prp = Loc).
(6) Il a galop dans lesprit de Luc que Zo devait tondre
B. SAGOT, L. DANLOS
L'exemple (6) est clairement mtaphorique. De ce fait, nous ne voulons pas compter
galoper comme tte lexicale dune possible construction impersonnelle. La raison est
que nous ne voulons pas multiplier inutilement l'ambigut dans les traitements
automatiques. Que ce soit dans ILIMP ou dans les analyseurs syntaxiques qui reposent
sur le Lefff, considrer galoper comme tte lexicale d'une possible construction
impersonnelle amnerait considrer (6) et (7) ci-dessous comme ambigus entre une
lecture impersonnelle et personnelle, alors quelles ne le sont nullement. Dans la
lecture impersonnelle de (6) ou (7), l'objet direct de tondre n'est pas ralis. Dans la
lecture personnelle, il est ralis sous forme de pronom relatif (que), la phrase ayant la
structure N0 galoper Loc N1 (Table 35L).
(7) Il a galop dans le champ de Luc que Zo devait tondre [il = le cheval]
Certes, on peut arguer que les exemples (6) et (7) se diffrencient par les noms esprit
et champ, l'un caractre abstrait (esprit) l'autre caractre concret (champ), et que
cette diffrence peut permettre de dsambiguser ces phrases. Nanmoins, il est bien
connu que ces traits smantiques sont difficilement codables. Aussi, nous pensons que
nous ne pourrons pas dsambiguser (6) ou (7) par manque dinformations
smantiques, et nous prenons le parti de ne pas considrer que galoper a une entre
dans la Table 5, entre qui serait la fois rare et mtaphorique. Ceci pour ne pas
ajouter une ambigut artificielle dans les analyseurs, qui doivent dj faire le dpart
entre un nombre danalyses exponentiel en la longueur de la phrase.
Passons au silence. La possibilit d'avoir un sujet phrastique extraposable dans une
construction passive ou pronominale n'est pas code dans les tables compltive.
Pourtant, elle varie d'un verbe l'autre, y compris dans la mme table. A titre
d'illustration, considrons la table 6 de proprit dfinitoire NO V (Que P)1, dont font
partie les verbes spculer et sentir (Luc spcule/sent que Zo va partir). Le verbe
spculer autorise une construction impersonnelle passive, mais pas sentir, voir (8).
(8) a Il a t spcul que Zo partira
b *Il a t senti que Zo partira12
12
Lacceptabilit de cet exemple semble augmenter si lon rajoute un lment en par qui introduit
un syntagme nominal indfini ou collectif (il a t senti [par un grand nombre de personnes / par tout
lassistance / ??par Luc] que Marie partira).
3. Le Lefff
Le Lefff est un lexique lectronique de la langue franaise, librement disponible13. Il
associe chaque forme flchie des informations morphologiques (lemme, tiquette
morphologique) et syntaxiques (dont le cadre de sous-catgorisation). Il est destin
tre directement utilis dans des applications de TAL, en essayant toutefois dtre
indpendant des choix thoriques de ses utilisateurs, et en particulier des thories
syntaxiques. Ce lexique prsente la particularit de chercher un quilibre entre la
pertinence de la modlisation linguistique et ladquation aux besoins oprationnels.
Ceci se traduit dans la faon dont linformation linguistique est reprsente, mais
galement dans la faon dont elle est ajoute au Lefff. En effet, en plus de mthodes
manuelles, des techniques dacquisition automatique dinformation ont t utilises
pour complter et corriger le Lefff. Cependant, ces techniques sont toujours suivies
dtapes de validation manuelle, pour permettre la prservation dun niveau
satisfaisant de qualit.
Le Lefff est une ressource large couverture : il rassemble plus de 110 000 lemmes,
auxquels correspondent plus de 520 000 entres14. Parmi ces entres, les formes
verbales, un certain nombre de formes nominales et adjectivales (mais pas toutes),
ainsi que les prpositions et dautres types dentres (y compris des constructions
verbe support) sont associes des cadres de sous-catgorisation spcifiques15, ainsi
qu des informations syntaxiques complmentaires (contrle, attributif,).
3.1. Le dveloppement du Lefff : historique et architecture
Le dveloppement du Lefff a commenc en 2003, partir du constat suivant : cette
poque, il nexistait pas de lexique syntaxique pour le franais librement utilisable et
couverture importante. Le dveloppement dun tel lexique a donc t lanc, avec le
double objectif quil soit adapt au TAL tout en restant linguistiquement pertinent.
La premire tape dans le dveloppement dun lexique syntaxique est celui du lexique
morphologique sous-jacent. Dans (Clment, Sagot et Lang, 2004), les auteurs
dcrivent la premire version dune technique dacquisition automatique de lexique
morphologique, partir dun corpus brut et dune description morphologique de la
langue tudie. Cette technique, dont une version plus aboutie est prsente dans
(Sagot, 2005), repose sur la variabilit morphologique. Pour cette raison, elle na t
applique pour le franais que pour lacquisition dun lexique verbal. Cest ainsi qua
t mis disposition de la communaut le Lefff 1, lexique morphologique verbal du
franais, acquis automatiquement et valid manuellement.
13
10
B. SAGOT, L. DANLOS
Ainsi, Infinitif rend le sujet facultatif ; ou encore, ParticipePassPassif, comme nous le verrons
plus bas, applique au cadre de sous-catgorisation le changement de diathse. Cest ce mcanisme qui
permet de crer des entres spcifiques pour les diffrents types de constructions impersonnelles, dont
les structures syntaxiques sont obtenues l aussi par transformation des structures de base.
17
Avril 2007
11
Pour distinguer les homonymes, un double mcanisme a t mis en place : numrotation des
prdicats homonymes, et possibilit dattribuer un prdicat un identifiant explicite. Ainsi, on peut
distinguer quatre homonymes pour passer, mais galement deux pour voler (correspondant
respectivement aux verbes anglais steal et fly.). Dans les fichiers texte du Lefff extensionnel, ceci est
not de la faon suivante : lemme___(identifiant explicite)__identifiant numrique. Ainsi, on a
passer_____1 passer_____4, ainsi que voler___steal__1 et voler___fly__2. Dans les exemples, par
souci de lisibilit, nous avons remplac le quintuple symbole _ par une mise en indice.
19
Cette dernire est souvent identique la catgorie (syntaxique), mais pas toujours. Ainsi, le
prfixe ex- a une catgorie (syntaxique) adjPref, mais sa catgorie morphosyntaxique est cat=adj.
20
Cette tiquette, comme indiqu dans une note prcdente, est ici double disjonction (personne 1
et 3, temps P=prsent de lindicatif et S=prsent du subjonctif)
21
Le dcouplage entre fonctions syntaxiques et ralisations rsoud un grand nombre de difficults
thoriques et pratiques qui se posent dans un formalisme comme LFG. Ceci permet par exemple de
reprsenter correctement des cadres de sous-catgorisation o deux fonctions grammaticales LFG
identiques peuvent coexister, et en particulier deux complments indirects ou obliques introduits par la
mme prposition (cf. Le taux de chmage a t divis par deux par les dernires rformes).
22
Les rangs 1, 2, 3, 4 correspondent aux positions 0, 1, 2, 3 qui indicent les positions du sujet et des
complments dans les cadres syntaxiques dfinitoires des tables du lexique-grammaire (cf. section 2).
12
B. SAGOT, L. DANLOS
Suj : Fonction sujet. La forme clitique est celle dun clitique nominatif personnel.
lactif, elle est ralise canoniquement en position pr-verbale23 (avec accord). Elle
correspond au paradigme P0 du DICOVALENCE.
Obj : Fonction objet (direct). La forme clitique est celle dun clitique accusatif, ou
dun clitique gnitif sens partitif. Un verbe sous-catgorisant une fonction objet est
dit transitif (direct). Si le verbe est passivable24, cette fonction est translate, pour
devenir fonction sujet. Elle est proche du paradigme P1 du DICOVALENCE.
Obj : Fonction objet indirect introduit par , ou fonction -objet. Est substituable un
syntagme prpositionnel de la forme + pronom non-clitique25. La cliticisation est
possible laide du clitique datif (dans tous les cas, ou bien seulement dans le cas
humain), peut tre possible dans certains cas seulement (non humain) laide du
clitique locatif y, ou ne pas tre possible du tout. Elle se distingue de la fonction
locative par la non-substituabilit des pronoms l, ici, l-bas. Elle correspond au
paradigme P2 du DICOVALENCE.
Objde : Fonction objet indirect introduit par de, ou fonction de-objet. Est substituable
un syntagme prpositionnel de la forme de + pronom non-clitique. La cliticisation est
possible laide du clitique gnitif. Elle se distingue de la fonction dlocative Dloc par
la non-substituabilit avec les locutions pronominales de l, dici. Elle correspond au
paradigme P3 du DICOVALENCE.
Loc : Fonction locative. Les pronoms l, ici, l-bas sont substituables. La cliticisation,
si elle est possible, se fait laide du clitique locatif y. Elle correspond au paradigme
PL du DICOVALENCE.
Dloc : Fonction dlocative. Les locutions pronominales de l, dici sont substituables.
La cliticisation, si elle est possible, se fait laide du clitique gnitif en. Elle
correspond au paradigme PDL du DICOVALENCE.
Att : Fonction attributive. Cette fonction, dont les proprits de cliticisation sont
variables, regroupe les attributs du sujet ou dun des objets (objet, -objet). Les
situations couvertes sont varies : prendre Pierre [pour Adj / det N]Att, nommer Pierre
[prsident]Att, regarder Pierre [courir]Att, trouver Pierre [Adj]Att, voir Pierre
[(comme) (det) N / (comme) Adj]Att.
Obl et Obl2 : Fonctions obliques. Ces fonctions, quaucun critre ne distingue lune
de lautre26, abritent les complments obliques, jamais cliticisables, qui ne rentrent
dans aucune des autres fonctions (y compris le complment dagent de la
grammaire traditionnelle dans les constructions passives). Dans un avenir proche,
23
Ce nest cependant pas le cas en prsence dun il impersonnel avec sujet extrapos.
Ce qui nest pas automatique, mme en cas de transitivit : Ce problme regarde Marie / *Marie
est regarde par ce problme.
25
Pronom non-clitique est prendre ici au sens de (van den Eynde et Mertens 2006).
26
On nutilise Obl2 que lorsquil y a deux complments obliques.
24
DICOVALENCE
13
Comme dit plus haut, on attribue, dans un cadre de sous-catgorisation donn, une
disjonction de ralisations chaque fonction syntaxique prsente. Cette disjonction de
ralisations est donne entre parenthses si la ralisation de la fonction est facultative.
Les ralisations possibles sont de trois types :
Un pronom clitique : clitique nominatif (cln), clitique accusatif (cla), clitique
gnitif (en), clitique locatif (y). On notera que le se rflchi ou rciproque est
considr comme une ralisation de type cla ou cld selon les cas (Les poux se
disputent / Pierre se laisse cette possibilit)27 ;
Un syntagme direct : syntagme nominal (sn), syntagme adjectival (sa), syntagme
infinitif (sinf), syntagme phrastique fini (scompl), interrogative indirecte
(qcompl). Rien nexclue la possibilit dintroduire galement des syntagmes
adverbiaux (sadv) ;
Un syntagme prpositionnel : il sagit dun syntagme direct prcd dune
prposition, comme de-sn, -sinf ou pour-sa28. Enfin, les notations -scompl et
de-scompl reprsentent les ralisations en ce que P et de ce que P
respectivement.
titre dexemple, les formes du verbe ordonner, utilises dans une construction
personnelle active, seront du type :
ordonnt v
[pred='ordonner1<Suj:sn|cln,Obj:sn|cla|de-sinf|scompl,
Obj:(-sn|cld)>',cat=v,@T3s]
On notera que les fonctions syntaxiques dont il sagit ici sont des fonctions
syntaxiques de surface, au sens o un changement de diathse redistribue certaines
fonctions syntaxiques, ainsi que la faon dont elles sont ralises. En revanche, leur
rang dans le cadre de sous-catgorisation, qui nest pas modifi par la diathse, permet
de garder trace de lidentit du rle smantique sous-jacent. Ainsi, les deux participes
passs (actif et passif) de manger ont pour entres respectives :
mang
[pred='manger1<Suj:sn|cln,Obj:(sn|cla)>',cat=v,@active,@avoir,
@Kms]
mang
[pred='manger1<Obl:(par-sn),Suj:sn|cln>', cat=v,@passive,@Kms]
Comme on peut le voir, le sujet de la construction active, qui est de rang 1, correspond
au complment oblique en par-sn de la construction passive, galement de rang 1. De
27
Actuellement, toute fonction syntaxique Obj ou Obj ralisable de faon clitique est donc
considre comme pouvant tre ralise par le clitique se (rflexif ou rciproque). Ceci est une
approximation, que des travaux ultrieurs devront prciser plus avant.
28
On notera que nous ne distinguons pas les prpositions des complmentiseurs, cette distinction se
dduisant de la fonction syntaxique dont on parle. Un de-sinf ralisant une fonction objet met en
uvre le complmentiseur de (Jean ordonne Marie de partir) ; un de-sinf ralisant une fonction deobjet est prpositionnel (Jean rve de partir).
14
B. SAGOT, L. DANLOS
mme pour lobjet actif qui devient sujet passif. On notera que ces deux participes
passs, quoique nayant pas le mme cadre de sous-catgorisation, sont deux formes
issues de la mme entre lexicale au niveau intensionnel. En ralit, une mme entre
intensionnelle peut se voir associer une classe syntaxique qui dnote elle-mme une
disjonction de comportements. Cest ainsi quun adjectif comme envisageable, une
fois les constructions impersonnelles prises en compte (cf. section 4), naura quune
seule entre au niveau intensionnel, alors quau niveau extensionnel, chacune de ses
formes aura deux entres, lune pour la construction personnelle (ceci est
envisageable/une chose envisageable), et lautre pour la construction impersonnelle (il
est envisageable de Vinf /que P).
3.2.2. Autres proprits syntaxiques
Dautres proprits syntaxiques compltent le cadre de sous-catgorisation. Pour la
plupart des ralisations infinitives (directes ou non) dans les cadres de souscatgorisation verbaux, une information de contrle est donne : selon les cas, le sujet
de linfinitive est gal (en un sens qui dpend des thories syntaxiques) au sujet,
lobjet direct ou lobjet indirect (-objet) du verbe. On notera que certains verbes
sous-catgorisent des fonctions pouvant se raliser par une infinitive sans quil y ait
contrle : le travail consiste crer un lexique. De mme, toute fonction attributive
ralisation nominale ou adjectivale possible (directe ou prpositionnelle) est prcise
par une indication de la fonction laquelle lattribut sapplique (sujet, objet, -objet).
Une autre proprit (mal) renseigne dans le Lefff est relative aux contraintes sur le
mode des compltives, quelles ralisent des fonctions syntaxiques sous-catgorises
par des entres verbales, nominales, ou autres. Quatre grands cas de figure sont
rpertoris : le cas o les deux modes sont possibles, le mode indicatif obligatoire, le
mode subjonctif obligatoire, et le mode dit alternant (subjonctif en cas de nonassertion, indicatif sinon).
Ces proprits sont indiques, comme pour ltiquette morphosyntaxique, par des
macros (telles que @CtrlSuj pour le contrle sujet, @AttObj pour lattribut de lobjet,
@ObjSubj pour la compltive objet au subjonctif). Lide est que chaque utilisateur du
Lefff est amen donner ces macros la signification approprie, compte tenu du
formalisme ou du contexte dutilisation de cette information. Toutefois, nous
disposons dune dfinition de ces macros sous forme de structure de traits avec partage
possible, qui reprsente de faon transparente ce quelles veulent dire. Ainsi, on a la
dfinition suivante pour le contrle sujet :
@CtrlSuj := [ Suj=[]1, Obj =[ Suj = []1 ] ]
Ceci indique que le sujet de linfinitive objet est partag (par co-indiciation) avec le
sujet principal (le mcanisme qui napplique cette macro que lorsque la ralisation de
lobjet est effectivement infinitive nest pas indiqu) .
Enfin, si les fonctions syntaxiques correspondent des arguments syntaxicosmantiques du prdicat concern (verbal, adjectival, nominal, etc.), certaines entres
15
16
B. SAGOT, L. DANLOS
17
[pred='venter1',@impers,@PS3s]
[pred='falloir1<Obj:(sn|cla|sinf|scomp)>',@impers,@ObjSubj30,
@P3s]
[pred='y avoir<Obj:sn,Loc:(loc-sn)>',@impers,@pseudo-y,@P3s]31
[pred='s'agir1<Objde:de-sn|clg|scompl|de-sinf>',@pron,@impers,
@ObjdeSubj,@P3s]32
Pour simplifier la lecture, nous navons pas rpt linformation cat=v ou cat=adj dans la
structure syntaxique des exemples donns.
30
Rappelons que cette macro indique que si la fonction objet est ralise sous la forme dune
compltive, alors celle-ci doit tre au subjonctif.
31
Une autre entre couvre le cas (familier) il y a que je suis malade.
32
La ralisation de-scompl du Objde de agir est exclue : *Il sagit de ce que Paul parte.
18
B. SAGOT, L. DANLOS
impersonnelle de la forme ilimp est Adj Y (o Y dnote une compltive et/ou une
infinitive, suivant les cas). La construction impersonnelle, qui est alors possible, induit
une translation du sinf en de-sinf (dormir est impossible / il est impossible de dormir).
On peut regrouper les constructions sujet extrapos en diffrentes classes :
Un certain nombre de verbes admettant une construction impersonnelle en parallle de
la construction personnelle correspondante (toute la table 5, quelques entres des
tables 7 et 8) ;
plat
[pred='plaire1<Suj:sn|cln|sinf|scompl,Obj:(-sn|cld)>',@pers,@P3s]
plat
[pred='plaire1<Suj:de-sinf|scompl,Obj:(-sn|cld)>',@SujSubj,
@impers, @P3s]
dcoule
[pred='dcouler1<Suj:sn|cln|scompl,Objde:de-sn|clg|de-scompl>',
@SujSubj,@ObjdeInd,@pers,@PS13s]
dcoule
[pred='dcouler1<Suj:sn|scompl,Objde:de-sn|clg|de-scompl>',
@SujSubj,ObjdeInd,@impers,@PS13s]
[pred='raconter1<Suj:cln|sn,Obj:sn|cla|sinf|scompl,Obj:(-sn|cld)>',
@CtrlSuj,@ObjInd,@pers,@Kms]
- Participe pass passif en construction personnelle (Un conte a t racont par Pierre
Marie)
racont
[pred='raconter1<Obl:(par-sn),Suj:sn|scompl,Obj:(-sn|cld)>',
@passif, @pers, @Kms]
[pred='raconter1<Obl:(par-sn),Suj:sn|scompl,Obj:(-sn|cld)>',
@passif, @impers, @Kms]
- Participe pass moyen en construction personnelle (Un (tel) conte (ne) sest (pas)
racont (quelquun comme) Marie (depuis longtemps))
racont
[pred='raconter1<Suj:sn|scompl,Obj:(-sn|cld)>',
@Kms]
@pron,
@pers,
- Participe pass moyen en construction impersonnelle (Il (ne) sest (pas racont un
(tel) conte (quelquun comme) Marie (depuis longtemps))
racont
19
l'actif
4.3. Bilan
Nous avons donc extrait des diffrents graphes pertinents qui constituent ILIMP des
listes de verbes et dadjectifs associs chacun de ces cas. Puis nous avons cr de
nouvelles classes syntaxiques pour les constructions impersonnelles, ou modifi
certaines classes existantes, afin dajouter ou de modifier les entres du Lefff
extensionnel dune faon cohrente la fois avec lanalyse ci-dessus et les principes
de reprsentation prsents en section 3.
Conclusion
Le Lefff, lexique syntaxique du franais large couverture, a dsormais des
fondements linguistiques et formels qui permettent son utilisation dans des analyseurs
syntaxiques profonds grande chelle. Ces fondements nous on permis dexploiter la
source dinformations linguistique que sont les tables du lexique-grammaire, pour
modliser une familles de phnomnes syntaxiques non standard : les constructions
impersonnelles. Des travaux prliminaires ont galement eu lieu sur les expressions
verbales figes, il nous faudra les poursuivre. De plus, la mise disposition du lexique
DICOVALENCE nous permet de disposer dune autre source dinformations
linguistiques, ce qui sera particulirement utile, entre autres, pour modliser de faon
satisfaisante lensemble des constructions pronominales, aujourdhui ltat
dbauche dans le Lefff.
33
On notera que linformation sur le mode de la compltive nest actuellement pas disponible. Il en
est de mme ci-dessous pour les expressions en tre Prep X.
34
Anticipant ainsi certains problmes lis au figement, notons que ces entres ne couvrent pas le
cas son actif. Il est donc ncessaire dintroduire, indpendamment, un lemme son actif dont les
formes flchies ( mon actif, ton actif,) ne sous-catgorisent quun sujet.
20
B. SAGOT, L. DANLOS
Rfrences
BOONS J.-P., GUILLET A., LECLERE C. (1976a), La structure des phrases simples en franais,
Constructions intransitives, Droz, Genve.
BOONS J.-P., GUILLET A., LECLERE C. (1976b), La structure des phrases simples en franais,
Classes de constructions transitives, Rapport de recherches, LADL, CNRS, Univ. Paris 7.
BOULLIER P. et SAGOT B. (2005), Analyse syntaxique profonde grande chelle: SXLFG ,
in Traitement Automatique des Langues, n 46/2.
BOYD A, GEGG-HARRISON W. ET BYRON D. (2006), Identifying non-referential it. A machine
learning approach incorporating linguistically motivated patterns, revue TAL, vol. 46 n 1.
CANDITO M.-H. (1999), Reprsentation modulaire et paramtrable de grammaires
lectroniques lexicalises, Thse de doctorat, Universit Paris 7.
CLEMENT L., SAGOT B. et LANG B. (2004), Morphology based automatic acquisition of
large-coverage lexica , in Proceedings of LREC 2004, Lisbonne, Portugal.
DANLOS L. (1980), Reprsentation d'informations linguistiques: les constructions N tre Prp
X, Thse de troisime cycle, Universit Paris 7.
DANLOS L. (1992), Support Verb Constructions: linguistic properties, representation,
translation , in Journal of French Linguistic Studies, n 2/1, Cambridge University Press,
Cambridge.
DANLOS L. (2005), ILIMP : Outil pour reprer les occurences du pronom impersonnel il , in
Actes de TALN 2005, Dourdan, France.
DANLOS L. et SAGOT B. (2007), Comparaison du Lexique-grammaire et de DICOVALENCE :
vers une intgration dans le Lefff, in Actes de TALN 2007, Toulouse, France.
EYNDE K. et BLANCHE-BENVENISTE, C. (1978), Syntaxe et mcanismes
descriptifs : prsentation de l'approche pronominale , in Cahiers de Lexicologie n32 : 327.
VAN DEN
VAN DEN