You are on page 1of 20

Amliorer un lexique syntaxique

laide des tables du lexique-grammaire


Constructions impersonnelles

Benot Sagot1, Laurence Danlos2

INRIA Futurs (projet Signes), Universit Paris 7 (Lattice)

Abstract
We intend to develop a large-coverage morphological and syntactic lexicon for French which can be
directly used in Natural Langage Processing (NLP) applications, in particular in those involving deep
parsing, regardless of the underlying grammatical framework. This lexicon, named Lefff (Lexique des
Formes Flchies du Franais Lexicon of French inFlected Forms), has been under development
since 2004. At the beginning, this lexicon contained only verbal morphological information, mostly
automatically induced from corpora. It now covers all parts of speech, and is progressively enriched
with syntactic information. In this paper, we show how we used the lexicon-grammar tables, whose
development has been initiated by M. Gross, to enrich the Lefff. These tables are a valuable starting
point. However, it is necessary to achieve both a linguistic and formal modeling work, in order to
exploit their content in a NLP lexicon such as the Lefff. We illustrate this approach on one kind of
non-standard verbal and adjectival entries : impersonal structures.
Keywords : Lexicon-grammar, Lefff, impersonal constructions

Rsum
Nous avons le projet de dvelopper un lexique morphologique et syntaxique du franais large
couverture qui soit directement utilisable dans des applications de Traitement Automatique du
Langage (TAL), en particulier celles ncessitant une analyse syntaxique profonde, et ce, quel que soit
le cadre thorique utilis. Ce lexique, baptis Lefff (Lexique des Formes Flchies du Franais), est en
cours de dveloppement depuis 2004. Au dpart, ce lexique ne comportait que des informations
morphologiques verbales, principalement induites automatiquement partir de corpus. Il couvre
maintenant toutes les catgories, et est progressivement enrichi dinformations syntaxiques. Nous
montrons ici comment nous lavons enrichi partir des tables du lexique-grammaire, initialement
dveloppes autour de M. Gross. Celles-ci constituent un point de dpart dune valeur inestimable. Il
est nanmoins ncessaire de procder un double travail de linguistique et de modlisation, afin
dexploiter leur contenu dans un lexique TAL tel que le Lefff. Nous illustrons cette approche sur un
type particulier dentres verbales et adjectivales non standard : les constructions impersonnelles.
Mots-cls : Lexique-grammaire, Lefff, constructions impersonnelles
1
2

INRIA Futurs, projet Signes, benoit.sagot@inria.fr


Universit Paris 7, Institut Universitaire de France, Lattice, laurence.danlos@linguist.jussieu.fr

Cahiers du Cental, n x (anne), pages (CENTAL-Footer)

B. SAGOT, L. DANLOS

1. Introduction
Lanalyse syntaxique profonde ne peut se faire qu la condition de disposer
dinformations lexicales riches qui forment un lexique morphologique et syntaxique
large couverture. De plus, un tel lexique doit reprsenter ces informations dune faon
adapte lutilisation dans les systmes de traitement automatique. Une telle ressource
nest pas disponible pour le franais, malgr de nombreuses initiatives indpendantes,
qui ont atteint des degrs davancement divers et qui ont privilgi des aspects
diffrents. Deux dentre elles ont donn naissance des ressources large couverture
que tout spare :
Les tables du lexique-grammaire, dont le dveloppement a t initi par Maurice
Gross au LADL (Gross 1975) et se poursuit lIGM autour dric Laporte,
Le Lefff (Lexique des Formes Flchies du Franais), lexique morphologique et
syntaxique du franais large couverture (520 000 entres) initi par Lionel
Clment, dvelopp par lun des auteurs et utilis dans divers systmes de TAL
(Sagot et al. 2006).
Il existe, entre autres, une troisime ressource lexicale pour le franais, qui ne couvre
que les verbes simples, mais dont les fondements linguistiques sont solides. Il sagit du
lexique DICOVALENCE, successeur du dictionnaire PROTON, dvelopp par Karel van
den Eynde et Piet Mertens (van den Eynde et Mertens 2006) dans le cadre de
lapproche pronominale initie par Claire Blanche-Benvniste et Karel van den Eynde
(van den Eynde et Blanche-Benvniste 1978), et mise la disposition de la
communaut. Nous en reparlons plus bas.
Lintrt principal des tables du lexique-grammaire rside dans leur qualit : elles sont
le rsultat de travaux minutieux et prcis dinvestigation linguistique mens depuis les
annes 1970 dans le cadre d'une quipe CNRS, le LADL. Cependant, les tables ne sont
pas directement exploitables dans des systmes danalyse, une partie importante des
informations ntant comprhensible que moyennant de nombreuses connaissances
implicites. linverse, lintrt principal du Lefff est que sa structure et son format
sont spcifiquement adapts une utilisation dans des systmes de TAL. Mais la
qualit, la richesse et la couverture du Lefff natteignent pas, loin sen faut, celles des
tables du lexique-grammaire.
Nous avons donc tudi le moyen de profiter simultanment de la couverture et de la
prcision des tables du lexique-grammaire et de ladquation du Lefff aux traitements
automatiques. Paralllement dautres travaux complmentaires, qui cherchent
comparer le Lefff un lexique au mme format gnr automatiquement partir des
tables du lexique-grammaire (Sagot et Gardent, en cours), nous avons travaill et
travaillons lutilisation manuelle des tables du lexique-grammaire pour valider,
invalider, ou complter certaines informations du Lefff. Ici, nous nous concentrons sur
les informations concernant les constructions impersonnelles.

AMLIORER UN LEXIQUE SYNTAXIQUE L'AIDE DES TABLES DU LEXIQUE-GRAMMAIRE

Aprs une description des tables du lexique-grammaire et des donnes que nous en
avons extraites concernant les constructions impersonnelles, nous prsenterons le Lefff
plus en dtails et la modlisation qui y est faite des constructions impersonnelles.

2. Le lexique-grammaire : constructions impersonnelles


2.1. Brve introduction au lexique-grammaire des verbes standard
Le lexique-grammaire est compos dun ensemble de tables : 61 tables pour les verbes
(la catgorie la mieux dcrite), environ 30 tables pour les adjectifs (travail en cours
dachvement) et plusieurs tables pour les noms dits prdicatifs (noms avec
argument(s) qui sont tudis avec leur verbe support). Chaque table regroupe les
lments dune catgorie donne partageant une proprit dfinitoire . Une table se
prsente sous forme de matrice : en lignes, les lments lexicaux de la table ; en
colonnes, les proprits qui ne sont pas forcment respectes par tous les lments de
la table ; la croise dune ligne et dune colonne le signe + ou en suivant une
smantique vidente.
Les proprits dfinitoires relvent gnralement du cadre de sous-catgorisation.
Ainsi, les critres les plus communment utilises dans les proprits dfinitoires sont
le nombre de complments, la nature prpositionelle ou non des complments (pour
les complments prpositionnels, sont distingus ceux qui sont introduits par les
prposition , de, avec, Loc, et autres prpositions), la nature de la ralisation du sujet
et des complments (sont distingues les ralisations sous forme de compltive, note
Que P, dinfinitive, note V-inf, et de syntagme nominal, la valeur par dfaut,
note N). Par exemple, la propit dfinitoire de la Table 9 est N0 V (Que P)1 N2 :
cette table regroupe des verbes comme dire, dissimuler et ordonner, dont le cadre de
sous-catgorisation peut se caractriser par une compltive objet et un complment
nominal introduit par la prposition (Luc a dit/dissimul/ordonn Marie que Zo
chante)3.
Une proprit dfinitoire peut aussi indiquer quun lment de la table entre dans
deux constructions qui sont gnralement relies par un lien de paraphrase. Ainsi la
Table 35S regroupe les verbes intransitifs symtriques qui se caractrisent par deux
constructions, N0 V avec N1, et N0 et N1 V voir Luc flirte avec Zo et Luc et Zo
flirtent (ensemble). Enfin de nombreuses proprits dfinitoires incluent des
informations smantiques lmentaires. Par exemple, des informations sur les classes
des noms ttes des syntagmes nominaux (humain, concret, pluriel, etc.). Ou encore,
des informations sur la smantique des procs : ainsi les verbes entrant dans la
construction N0 V N1 de N2 ont t diviss en deux paquets : la Table 37E regroupe
les procs denlvement (Luc a dbarass le grenier de ses caisses signifie que Luc a
enlev les caisses du grenier), tandis que les tables 37M (tables 37M1, 37M2, ,
3

Dans la proprit dfinitoire de la Table 9, le complment indirect apparat aprs la compltive. Il


nempche que cet ordre peut tre invers dans une phrase respectant la proprit dfinitoire.

B. SAGOT, L. DANLOS

37M6) regroupent les procs dajout (Luc a muni la porte dun verrou signifie que Luc
a mis un verrou sur la porte). Les tables 37Mi se distinguent par des proprits trs
diverses (morphologiques, smantiques ou autres) qui ne relvent pas du cadre de
sous-catgorisation et qui auraient pu/d figurer en colonne dans une unique table
37M. La raison de ce dcoupage est principalement numrique : la table 37M aurait
regroup 890 verbes, et il a t considr que la consultation manuelle dune matrice
de 890 lignes tait difficile, do sa division en six sous-tables.
Les tables se prsentent donc sous forme de matrice de + et o les colonnes
indiquent les proprits qui varient dun lment lautre. Ainsi, dans la Table 9, une
colonne intitule de V2 W permet de coder si un verbe appartenant cette table
autorise que son complment direct (de position 1) soit une infinitive introduite par le
complmentiseur de et contrle par N2 (Luc a ordonn/dit Zo de chanter, versus
*Luc a dissimul Zo de chanter). Une autre colonne intitule Aux V0 W permet
de coder si un verbe appartenant la Table 9 autorise que son complment direct soit
une infinitive directe un temps compos et contrle par N04 (Luc a dit/dissimul
Zo avoir chant, versus *Luc a ordonn Zo avoir chant). En fait, la situation est
plus complique car il peut y avoir une structure hirarchique entre colonnes. Ainsi la
colonne de V2 W dpend dune colonne qui indique que la compltive est au
subjonctif (Luc a dit/ordonn La que Zo parte demain) tandis que la colonne
Aux V0 W dpend dune colonne qui indique que la compltive est lindicatif
(Luc a dit/dissimul La que Zo part demain). De ce fait, pour convertir en un
format tel que celui du Lefff les informations codes dans la Table 9, il faut
comprendre que cette table regroupe (au moins) deux ensembles de verbes : lun
compos de verbes, comme ordonner, dont la compltive est au subjonctif et qui
permettent une infinitive en de V2 W, lautre, comme dissimuler, compos de verbes
dont la compltive est l'indicatif5 et qui permettent une infinitive en Aux V0 W. Le
verbe dire appartient ces deux ensembles.
Ces dpendances complexes entre colonnes, cest--dire entre proprits syntaxiques,
ont dailleurs t modlises (manuellement) pour certaines tables par
(Gardent et al. 2006), sous forme de graphes. Ces graphes, qui modlisent galement
les nombreuses informations implicites dans les tables, sont destines lextraction
automatique dun lexique TAL, nomm SynLex, partir des tables traites6.
Nous terminons cette section sur les colonnes en indiquant que diverses colonnes
permettent dindiquer les proprits de pronominalisation et de cliticisation des
diffrents complments. Rappelons que ces proprits peuvent tre considres
comme des proprits dfinitoires dans le lexique DICOVALENCE (van den Eynde et
Mertens 2006). On se reportera (Danlos et Sagot 2007) pour une comparaison entre
le Lexique-Grammaire et DICOVALENCE.
4

Une autre colonne intitule V0 W permet de coder des phrases comme Luc dit/prtend tre le
Messie qui sont plus naturelles sans complment de type N2.
5
Sans parler de l'induction du subjonctif en mode non-assertif.
6
On pourra se reporter la page Internet du projet : http://libresource.inria.fr//projects/SynLex

AMLIORER UN LEXIQUE SYNTAXIQUE L'AIDE DES TABLES DU LEXIQUE-GRAMMAIRE

2.2. Les constructions impersonnelles et loutil ILIMP


Nous nous intressons ici aux phrases dont le sujet est le pronom impersonnel il (ce
pronom est aussi appel plonastique ou expltif). Comme la plupart des phnomnes
linguistiques, les constructions impersonnelles reposent sur des conditions tant
lexicales que syntaxiques. Par exemple, l'adjectif violet ne peut jamais tre la tte
lexicale d'une phrase impersonnelle, (1a), l'adjectif probable ancre une phrase
impersonnelle lorsqu'il est suivi d'un complment phrastique, (1b), l'adjectif difficile
ancre une phrase impersonnelle (resp. personnelle) lorsqu'il est suivi d'une infinitive
introduite par la prposition de (resp. ), (1c) et (1d).
(1)a Il est violet
b Il est probable que Fred viendra
c Il est difficile de rsoudre ce problme
d Il est difficile rsoudre [ce problme]7

De ce fait, le lexique-grammaire du franais est une ressource linguistique approprie


pour rpertorier l'ensemble des constructions impersonnelles. Ce travail a t effectu
lors de la ralisation d'ILIMP (Danlos 2005). ILIMP est un outil qui prend en entre un
texte brut (sans annotation linguistique) rdig en franais et qui fournit en sortie le
texte d'entre o chaque occurrence du pronom il est dcore de la balise [ANA] pour
anaphorique ou [IMP] pour impersonnel. Cet outil a t conu en vue de la rsolution
des anaphores : il permet de distinguer les occurrences anaphoriques du pronom il,
pour lesquelles un systme de rsolution des anaphores doit chercher un antcdent,
des occurrences o il est un pronom impersonnel pour lequel la recherche d'antcdent
ne fait pas sens. Il donne 97,5% de bons rsultats valus sur 10.000 occurrences de il
extraites du journal Le Monde8. Nous allons voir comment il peut tre utilis dans un
lexique syntaxique comme le Lefff. Auparavant, prsentons-le brivement.
2.2.1. ILIMP : aspects informatiques
Pour l'aspect informatique, ILIMP repose sur UNITEX9 qui est un logiciel permettant
d'crire des patrons linguistiques (expressions rgulires ou automates rcursifs) qui
sont localiss dans le texte d'entre, avec un ventuel ajout d'annotations lorsque les
automates sont en fait des transducteurs. Pour ILIMP, l'ide de base consiste crire
7

Un GN entre crochets indique un antcdent possible du sujet anaphorique il.

Il existe d'autres outils permettant de reprrer les pronoms impersonnels, en particulier des travaux sur le
pronom anglais it. Ces outils, qui n'atteignent pas le taux de prcision dILIMP, utilisent gnralement des
techniques d'apprentissage, cf. (Boyd et al. 2006). Pour le franais en tout cas, les techniques par apprentissage
semblent inadquates dans la mesure o l'ensemble des constructions impersonnelles est stable d'un
domaine/genre l'autre et ne relve pas d'un phnomne productif. Par exemple, on ne va pas observer de
nouvelles constructions impersonnelles parce que l'on passe du genre journalistique au domaine aronautique.
On peut donc esprer obtenir une liste complte des constructions impersonnelles, ce qui a t presque ralis
dans ILIMP.
9

UNITEX est un logiciel sous licence GPL, dont l'anctre est INTEX. La documentation et le
tlchargement de UNITEX se trouvent sur le site http://ladl.univ-mlv.fr.

B. SAGOT, L. DANLOS

(manuellement) un ensemble de transducteurs comme celui prsent en (2) sous une


forme linaire simplifie. La balise [IMP] est l'ajout d'information amene par l'aspect
transducteur de (2). Les lments entre chevrons de (2) se glosent de la faon
suivante : <tre.V:3s> correspond toutes les formes du verbe tre conjugu la
troisime personne du singulier, <Adj1:ms> correspond aux adjectifs masculins
singuliers de la classe Adj1 qui regroupe des adjectifs se comportant comme difficile,
<V:W> correspond aux verbes l'infinitif.
(2) Il [IMP] <tre.V:3s> <Adj1:ms> de <V:W>

La balise [IMP] vient dcorer les occurrences de il qui apparaissent dans les phrases
correspondant au patron de (2). Cette balise vient donc dcorer il dans (1c). La balise
[ANA] est la balise par dfaut : elle vient dcorer les occurrences de il qui n'ont pas t
balises par [IMP]. Cette balise vient dcorer il dans (1d). Nanmoins, la situation est un
peu plus complexe, car il existe une troisime balise [AMB] abrviation de
ambigu qui sera explique ci-dessous.
2.2.2. Aspects linguistiques : les difffrentes constructions impersonnelles
Pour l'aspect linguistique, ILIMP repose sur le lexique-grammaire. Plus prcisment,
nous avons extrait manuellement du lexique-grammaire tous les items lexicaux qui
peuvent ancrer une phrase impersonnelle avec leur complmentation syntaxique. On
peut distinguer les constructions intrinsquement impersonnelles, qui ne peuvent avoir
comme sujet que il, des constructions avec un sujet profond extrapos .
Parmi les premires, on trouve 45 verbes mtorologiques de la table 31I de
(Boons et al., 1976a) (Il pleut, Il vente), 21 verbes de la table 17 de (Gross, 1975) (Il
faut du pain /que Fred vienne) et 38 expressions figes de (Gross, 1993) (Il tait une
fois, quoi qu'il en soit.).
Pour les constructions impersonnelles sujet profond extrapos, on peut distinguer
celles sujet phrastique de celles sujet uniquement nominal. Parmi les premires, on
trouve 682 adjectifs10 (Il est probable que Fred viendra), 88 expressions tre Prp X
des Tables Z5P et Z5D de (Danlos 1980) (Il est de rgle de porter un chapeau), 21
verbes de la Table 5 de (Gross 1975) (Il plat Zo que Luc vienne), 140 verbes de la
Table 6 et 92 verbes de la Table 9 de (Gross 1975) construits au passif ou au se-moyen
(Il a t dit/se raconte que Fred viendra), et enfin plus quelques verbes des tables 7 et
8 (voir ci-dessous).
Les constructions impersonnelles sujet extrapos nominal ont pour tte lexicale des
verbes qui sont disperss dans les tables labores par (Boons et al. 1976a, 1976b)11.
On peut distinguer d'un ct des verbes comme manquer ou rester dont l'emploi en
10

Le lexique-grammaire des adjectifs n'est pas complet, loin s'en faut. Nous avons extrait manuellement les
adjectifs construction impersonnelle des tables de (Picabia, 1978) et (Meunier, 1981) et complt ces donnes
au fur et mesure de la ralisation d'ILIMP, sans toutefois atteindre une couverture exhaustive de ces adjectifs.
11

Dans ces tables, la possibilit d'une construction impersonnelle n'est pas code.

AMLIORER UN LEXIQUE SYNTAXIQUE L'AIDE DES TABLES DU LEXIQUE-GRAMMAIRE

construction impersonnelle est tout fait courant (Il manque/reste du pain), et de


l'autre ct des verbes inaccusatifs (Il est venu trois personnes) ou des verbes
construits au passif (Il a t mang trois gteaux), dont l'emploi dans une construction
impersonnelle relve d'un niveau de langue chti. Seuls les verbes du type manquer
ou rester ont t recenss. Pour ces verbes, le statut impersonnel on non du sujet
dpend du dterminant introduisant le GN sujet extrapos, voir la paire en (3), ou du
nom tte de ce GN, voir la paire en (4).
(3)a Il manque du poivre (dans cette maison)
b Il manque de poivre [ce rti]
(4)a Il reste la valise du chef (dans la voiture)
b Il reste la priorit du chef [le chmage]

Dans un trs petit nombre de cas (une dizaine), un item lexical peut ancrer une
construction impersonnelle ou personnelle avec le mme cadre de souscatgorisation. C'est le cas pour l'adjectif certain construit avec un complment
phrastique, comme illustr dans la phrase en (5a). Comme les deux lectures de (5a)
semblent galement frquentes, il dans le patron (5b) reoit la balise [AMB].
(5)a Il est certain que Fred viendra (Jean/Cela est certain que Fred viendra)
b Il [AMB] est certain que P

Soulignons bien que l'extraction des constructions impersonnelles partir du lexiquegrammaire a t manuelle, et non automatique comme dans le travail prsent dans
(Gardent et al. 2006). Cette diffrence est de taille, comme illustr dans l'exemple qui
suit : le cas des verbes sujet phrastique extraposable qui proviennent des tables de
(Gross 1975). Une extraction automatique consisterait prendre :
toutes les entrs de la table 5, dont la proprit dfinitoire est justement l'existence
de la construction (Que P)0 V Prp N1 associe la construction impersonnelle Il
V Prp N1 Que P (voir Que Luc parte plat Zo versus Il plat Zo que Luc
parte),
toutes les entres de la table 17, dont la proprit dfinitoire est Il V (Prp ce)
Que P Prp N2 (voir Il semble Luc que Zo est partie),
les quelques entres des Tables 7 (N0 V ce que P) et 8 (N0 V de ce que P) o
il existe une colonne intitule [extrap] (dpendant de la colonne intitul Sujet) qui
code la possibilit d'extraposer un sujet phrastique (voir Que Zo soit partie
dcoule de ce que Luc est arriv versus Il dcoule de ce que Luc est arriv que Zo
soit partie).
Une telle extraction automatique aurait induit du bruit et du silence. Commenons par
le bruit. La table 5 contient un verbe comme galoper dont l'entre dans la Table 5 est
justifie par l'exemple en (6) (avec Prp = Loc).
(6) Il a galop dans lesprit de Luc que Zo devait tondre

B. SAGOT, L. DANLOS

L'exemple (6) est clairement mtaphorique. De ce fait, nous ne voulons pas compter
galoper comme tte lexicale dune possible construction impersonnelle. La raison est
que nous ne voulons pas multiplier inutilement l'ambigut dans les traitements
automatiques. Que ce soit dans ILIMP ou dans les analyseurs syntaxiques qui reposent
sur le Lefff, considrer galoper comme tte lexicale d'une possible construction
impersonnelle amnerait considrer (6) et (7) ci-dessous comme ambigus entre une
lecture impersonnelle et personnelle, alors quelles ne le sont nullement. Dans la
lecture impersonnelle de (6) ou (7), l'objet direct de tondre n'est pas ralis. Dans la
lecture personnelle, il est ralis sous forme de pronom relatif (que), la phrase ayant la
structure N0 galoper Loc N1 (Table 35L).
(7) Il a galop dans le champ de Luc que Zo devait tondre [il = le cheval]

Certes, on peut arguer que les exemples (6) et (7) se diffrencient par les noms esprit
et champ, l'un caractre abstrait (esprit) l'autre caractre concret (champ), et que
cette diffrence peut permettre de dsambiguser ces phrases. Nanmoins, il est bien
connu que ces traits smantiques sont difficilement codables. Aussi, nous pensons que
nous ne pourrons pas dsambiguser (6) ou (7) par manque dinformations
smantiques, et nous prenons le parti de ne pas considrer que galoper a une entre
dans la Table 5, entre qui serait la fois rare et mtaphorique. Ceci pour ne pas
ajouter une ambigut artificielle dans les analyseurs, qui doivent dj faire le dpart
entre un nombre danalyses exponentiel en la longueur de la phrase.
Passons au silence. La possibilit d'avoir un sujet phrastique extraposable dans une
construction passive ou pronominale n'est pas code dans les tables compltive.
Pourtant, elle varie d'un verbe l'autre, y compris dans la mme table. A titre
d'illustration, considrons la table 6 de proprit dfinitoire NO V (Que P)1, dont font
partie les verbes spculer et sentir (Luc spcule/sent que Zo va partir). Le verbe
spculer autorise une construction impersonnelle passive, mais pas sentir, voir (8).
(8) a Il a t spcul que Zo partira
b *Il a t senti que Zo partira12

Une colonne intitule [extrap-passif] et une autre colonne [extrap-pronominale]


auraient donc dues tre inclues dans la table 6 et dans d'autres tables. En l'absence d'un
tel codage, seul un travail manuel de linguiste permet de rattraper des constructions
impersonnelles non codes dans le lexique-grammaire.
C'est donc bien partir des bases linguistiques de ILIMP (et non directement partir de
celles du lexique-grammaire) qu'ont t renseignes les constructions impersonnelles
dans le Lefff, en suivant la modlisation dcrite dans la Section 4. 1.

12

Lacceptabilit de cet exemple semble augmenter si lon rajoute un lment en par qui introduit
un syntagme nominal indfini ou collectif (il a t senti [par un grand nombre de personnes / par tout
lassistance / ??par Luc] que Marie partira).

AMLIORER UN LEXIQUE SYNTAXIQUE L'AIDE DES TABLES DU LEXIQUE-GRAMMAIRE

3. Le Lefff
Le Lefff est un lexique lectronique de la langue franaise, librement disponible13. Il
associe chaque forme flchie des informations morphologiques (lemme, tiquette
morphologique) et syntaxiques (dont le cadre de sous-catgorisation). Il est destin
tre directement utilis dans des applications de TAL, en essayant toutefois dtre
indpendant des choix thoriques de ses utilisateurs, et en particulier des thories
syntaxiques. Ce lexique prsente la particularit de chercher un quilibre entre la
pertinence de la modlisation linguistique et ladquation aux besoins oprationnels.
Ceci se traduit dans la faon dont linformation linguistique est reprsente, mais
galement dans la faon dont elle est ajoute au Lefff. En effet, en plus de mthodes
manuelles, des techniques dacquisition automatique dinformation ont t utilises
pour complter et corriger le Lefff. Cependant, ces techniques sont toujours suivies
dtapes de validation manuelle, pour permettre la prservation dun niveau
satisfaisant de qualit.
Le Lefff est une ressource large couverture : il rassemble plus de 110 000 lemmes,
auxquels correspondent plus de 520 000 entres14. Parmi ces entres, les formes
verbales, un certain nombre de formes nominales et adjectivales (mais pas toutes),
ainsi que les prpositions et dautres types dentres (y compris des constructions
verbe support) sont associes des cadres de sous-catgorisation spcifiques15, ainsi
qu des informations syntaxiques complmentaires (contrle, attributif,).
3.1. Le dveloppement du Lefff : historique et architecture
Le dveloppement du Lefff a commenc en 2003, partir du constat suivant : cette
poque, il nexistait pas de lexique syntaxique pour le franais librement utilisable et
couverture importante. Le dveloppement dun tel lexique a donc t lanc, avec le
double objectif quil soit adapt au TAL tout en restant linguistiquement pertinent.
La premire tape dans le dveloppement dun lexique syntaxique est celui du lexique
morphologique sous-jacent. Dans (Clment, Sagot et Lang, 2004), les auteurs
dcrivent la premire version dune technique dacquisition automatique de lexique
morphologique, partir dun corpus brut et dune description morphologique de la
langue tudie. Cette technique, dont une version plus aboutie est prsente dans
(Sagot, 2005), repose sur la variabilit morphologique. Pour cette raison, elle na t
applique pour le franais que pour lacquisition dun lexique verbal. Cest ainsi qua
t mis disposition de la communaut le Lefff 1, lexique morphologique verbal du
franais, acquis automatiquement et valid manuellement.
13

On se rfrera au site Internet du Lefff, l'adresse suivante : www.lefff.net


De plus, certaines de ces entres sont encore factorises : par exemple, pour un verbe du premier
groupe, les premire et troisime personne du singulier du prsent de lindicatif et du subjonctif sont
regroups en une seule entre factorise, avec une tiquette morphologique incluant deux disjonctions
15
Par opposition aux cadres de sous-catgorisation gnriques (et trs tolrants) attribus pour
linstant aux noms et aux adjectifs pour lesquels les informations manquent.
14

10

B. SAGOT, L. DANLOS

Par la suite, des cadres de sous-catgorisation ont t ajouts ce lexique de formes


verbales. Pour environ deux tiers des verbes, des premiers travaux non publis de
Lionel Clment constituaient dj un premier lexique syntaxique du franais,
dvelopp des fins danalyse syntaxique. Ces informations relativement
prliminaires ont servi de base la constitution dun graphe de classes syntaxiques,
dfinies par hritage de proprits syntaxique atomiques, proprits elles-mmes
dfinies de faon indpendante de la dfinition des classes. Ces classes permettent de
dfinir un lexique intensionnel form de triplets (lemme, classe morphologique,
classe syntaxique). La classe morphologique permet de flchir les lemmes et
dassocier aux formes obtenues, outre leur lemme et sa classe syntaxique de leur
lemme, leur tiquette morphologique et leur type morphosyntaxique (Defaut,
Infinitif, ParticipePassActif, ParticipePassPassif) qui spcifie pour chaque forme
des transformations ventuelles oprer sur la structure syntaxique de base (Defaut)16.
Une deuxime phase permet, partir de la classe syntaxique associ au lemme et de
cette proprit morphosyntaxique, de construire le lexique extensionnel complet, qui
associe chaque forme flchie une catgorie (ou partie du discours), ventuellement
un poids (calcul selon des heuristiques ou renseign manuellement), et une structure
syntaxique complte, y compris un cadre de sous-catgorisation.
Un lexique syntaxique extensionnel des formes verbales du franais a donc t
constitu et mis disposition de la communaut : il sagit du Lefff 2.0.
En parallle ces dveloppements, le dveloppement dun lexique syntaxique
couvrant toutes les catgories tait en cours. Alors que les catgories fermes ont t
renseignes principalement la main, les autres catgories ouvertes ont t constitues
par divers moyens complmentaires : acquisition automatique (avec validation
manuelle) laide de techniques dj cites (Clment, Sagot et Lang 2004, Sagot
2005) , acquisition automatique (avec validation manuelle) dinformations syntaxiques
atomiques (cf. Sagot 2006 : ch. 7), pour certains noms, adjectifs et adverbes,
exploitation du lexique morphologique Multext pour le franais (Vronis 1998), dont
la libre exploitation nous a t autorise explicitement par son principal auteur ,
corrections et ajouts manuels ou guids par des techniques automatiques, comme par
exemple la fouille derreurs dans les sorties danalyseurs syntaxiques (Sagot et de La
Clergerie 2006).
Cest donc aujourdhui un lexique syntaxique large couverture pour le franais, qui
ne se restreint ni aux seules formes verbales ni aux seules informations
morphologiques, qui est mis disposition. Le Lefff, actuellement17 en version 2.5, est
entirement tlchargeable sous une licence libre (LGPL-LR), sur www.lefff.net.
16

Ainsi, Infinitif rend le sujet facultatif ; ou encore, ParticipePassPassif, comme nous le verrons
plus bas, applique au cadre de sous-catgorisation le changement de diathse. Cest ce mcanisme qui
permet de crer des entres spcifiques pour les diffrents types de constructions impersonnelles, dont
les structures syntaxiques sont obtenues l aussi par transformation des structures de base.
17
Avril 2007

AMLIORER UN LEXIQUE SYNTAXIQUE L'AIDE DES TABLES DU LEXIQUE-GRAMMAIRE

11

3.2. Modlisation des informations syntaxiques


Une entre simple du Lefff ressemble ce qui suit :
mange

[pred=manger1<Suj:sn|cln,Obj:(sn|cla)>, cat=v, @PS13s]

On distingue bien la catgorie et la structure syntaxique, prsente entre crochets.


Cette dernire comporte un pred la LFG, compos dun identifiant smantique,
souvent identique au lemme18, et dun cadre de sous-catgorisation que nous tudions
en dtails ci-dessous. Ici, il sagit dun sujet nominal ou clitique obligatoire et dun
objet nominal ou clitique facultatif (comme indiqu par les parenthses). Enfin, la
catgorie morphosyntaxique est indique par lattribut cat19, ainsi quune macro
rsumant ltiquette morphologique20 (les macros sont introduites par @ ).
3.2.1. Le cadre de sous-catgorisation : les fonctions syntaxiques et leurs ralisations
Un cadre de sous-catgorisation est constitu dune liste (ventuellement vide, sinon
prsente entre chevrons) de fonctions syntaxiques, chacune dentre elle se voyant
attribuer un certain nombre de ralisations (de surface) possibles21. Ces ralisations
peuvent tre des clitiques ou des syntagmes (nominaux, adjectivaux, etc). Toutefois,
une fonction syntaxique peut ntre que facultativement ralise, ce qui est indiqu par
une mise entre parenthses. La position dune fonction dans la liste de fonctions que
constitue un cadre de sous-catgorisation est le rang de cette fonction dans ce cadre22.
Nous avons pris en compte les arguments et les conclusions de divers auteurs, et plus
particulirement les travaux de Karel van den Eynde et Piet Mertens pour le lexique de
valence Proton, aujourdhui DICOVALENCE, dvelopp dans lapproche pronominale
(van den Eynde et Mertens 2006). Ceci nous a conduit la liste de fonctions
syntaxiques ci-dessous, indiques avec leurs critres dfinitoires.
18

Pour distinguer les homonymes, un double mcanisme a t mis en place : numrotation des
prdicats homonymes, et possibilit dattribuer un prdicat un identifiant explicite. Ainsi, on peut
distinguer quatre homonymes pour passer, mais galement deux pour voler (correspondant
respectivement aux verbes anglais steal et fly.). Dans les fichiers texte du Lefff extensionnel, ceci est
not de la faon suivante : lemme___(identifiant explicite)__identifiant numrique. Ainsi, on a
passer_____1 passer_____4, ainsi que voler___steal__1 et voler___fly__2. Dans les exemples, par
souci de lisibilit, nous avons remplac le quintuple symbole _ par une mise en indice.
19
Cette dernire est souvent identique la catgorie (syntaxique), mais pas toujours. Ainsi, le
prfixe ex- a une catgorie (syntaxique) adjPref, mais sa catgorie morphosyntaxique est cat=adj.
20
Cette tiquette, comme indiqu dans une note prcdente, est ici double disjonction (personne 1
et 3, temps P=prsent de lindicatif et S=prsent du subjonctif)
21
Le dcouplage entre fonctions syntaxiques et ralisations rsoud un grand nombre de difficults
thoriques et pratiques qui se posent dans un formalisme comme LFG. Ceci permet par exemple de
reprsenter correctement des cadres de sous-catgorisation o deux fonctions grammaticales LFG
identiques peuvent coexister, et en particulier deux complments indirects ou obliques introduits par la
mme prposition (cf. Le taux de chmage a t divis par deux par les dernires rformes).
22
Les rangs 1, 2, 3, 4 correspondent aux positions 0, 1, 2, 3 qui indicent les positions du sujet et des
complments dans les cadres syntaxiques dfinitoires des tables du lexique-grammaire (cf. section 2).

12

B. SAGOT, L. DANLOS

Suj : Fonction sujet. La forme clitique est celle dun clitique nominatif personnel.
lactif, elle est ralise canoniquement en position pr-verbale23 (avec accord). Elle
correspond au paradigme P0 du DICOVALENCE.
Obj : Fonction objet (direct). La forme clitique est celle dun clitique accusatif, ou
dun clitique gnitif sens partitif. Un verbe sous-catgorisant une fonction objet est
dit transitif (direct). Si le verbe est passivable24, cette fonction est translate, pour
devenir fonction sujet. Elle est proche du paradigme P1 du DICOVALENCE.
Obj : Fonction objet indirect introduit par , ou fonction -objet. Est substituable un
syntagme prpositionnel de la forme + pronom non-clitique25. La cliticisation est
possible laide du clitique datif (dans tous les cas, ou bien seulement dans le cas
humain), peut tre possible dans certains cas seulement (non humain) laide du
clitique locatif y, ou ne pas tre possible du tout. Elle se distingue de la fonction
locative par la non-substituabilit des pronoms l, ici, l-bas. Elle correspond au
paradigme P2 du DICOVALENCE.
Objde : Fonction objet indirect introduit par de, ou fonction de-objet. Est substituable
un syntagme prpositionnel de la forme de + pronom non-clitique. La cliticisation est
possible laide du clitique gnitif. Elle se distingue de la fonction dlocative Dloc par
la non-substituabilit avec les locutions pronominales de l, dici. Elle correspond au
paradigme P3 du DICOVALENCE.
Loc : Fonction locative. Les pronoms l, ici, l-bas sont substituables. La cliticisation,
si elle est possible, se fait laide du clitique locatif y. Elle correspond au paradigme
PL du DICOVALENCE.
Dloc : Fonction dlocative. Les locutions pronominales de l, dici sont substituables.
La cliticisation, si elle est possible, se fait laide du clitique gnitif en. Elle
correspond au paradigme PDL du DICOVALENCE.
Att : Fonction attributive. Cette fonction, dont les proprits de cliticisation sont
variables, regroupe les attributs du sujet ou dun des objets (objet, -objet). Les
situations couvertes sont varies : prendre Pierre [pour Adj / det N]Att, nommer Pierre
[prsident]Att, regarder Pierre [courir]Att, trouver Pierre [Adj]Att, voir Pierre
[(comme) (det) N / (comme) Adj]Att.
Obl et Obl2 : Fonctions obliques. Ces fonctions, quaucun critre ne distingue lune
de lautre26, abritent les complments obliques, jamais cliticisables, qui ne rentrent
dans aucune des autres fonctions (y compris le complment dagent de la
grammaire traditionnelle dans les constructions passives). Dans un avenir proche,
23

Ce nest cependant pas le cas en prsence dun il impersonnel avec sujet extrapos.
Ce qui nest pas automatique, mme en cas de transitivit : Ce problme regarde Marie / *Marie
est regarde par ce problme.
25
Pronom non-clitique est prendre ici au sens de (van den Eynde et Mertens 2006).
26
On nutilise Obl2 que lorsquil y a deux complments obliques.
24

AMLIORER UN LEXIQUE SYNTAXIQUE L'AIDE DES TABLES DU LEXIQUE-GRAMMAIRE

grce la disponiblit du lexique


pourront tre mieux prcises.

DICOVALENCE

13

(ex-Proton), ces fonctions obliques

Comme dit plus haut, on attribue, dans un cadre de sous-catgorisation donn, une
disjonction de ralisations chaque fonction syntaxique prsente. Cette disjonction de
ralisations est donne entre parenthses si la ralisation de la fonction est facultative.
Les ralisations possibles sont de trois types :
Un pronom clitique : clitique nominatif (cln), clitique accusatif (cla), clitique
gnitif (en), clitique locatif (y). On notera que le se rflchi ou rciproque est
considr comme une ralisation de type cla ou cld selon les cas (Les poux se
disputent / Pierre se laisse cette possibilit)27 ;
Un syntagme direct : syntagme nominal (sn), syntagme adjectival (sa), syntagme
infinitif (sinf), syntagme phrastique fini (scompl), interrogative indirecte
(qcompl). Rien nexclue la possibilit dintroduire galement des syntagmes
adverbiaux (sadv) ;
Un syntagme prpositionnel : il sagit dun syntagme direct prcd dune
prposition, comme de-sn, -sinf ou pour-sa28. Enfin, les notations -scompl et
de-scompl reprsentent les ralisations en ce que P et de ce que P
respectivement.
titre dexemple, les formes du verbe ordonner, utilises dans une construction
personnelle active, seront du type :
ordonnt v

[pred='ordonner1<Suj:sn|cln,Obj:sn|cla|de-sinf|scompl,
Obj:(-sn|cld)>',cat=v,@T3s]

On notera que les fonctions syntaxiques dont il sagit ici sont des fonctions
syntaxiques de surface, au sens o un changement de diathse redistribue certaines
fonctions syntaxiques, ainsi que la faon dont elles sont ralises. En revanche, leur
rang dans le cadre de sous-catgorisation, qui nest pas modifi par la diathse, permet
de garder trace de lidentit du rle smantique sous-jacent. Ainsi, les deux participes
passs (actif et passif) de manger ont pour entres respectives :
mang

[pred='manger1<Suj:sn|cln,Obj:(sn|cla)>',cat=v,@active,@avoir,
@Kms]

mang

[pred='manger1<Obl:(par-sn),Suj:sn|cln>', cat=v,@passive,@Kms]

Comme on peut le voir, le sujet de la construction active, qui est de rang 1, correspond
au complment oblique en par-sn de la construction passive, galement de rang 1. De
27

Actuellement, toute fonction syntaxique Obj ou Obj ralisable de faon clitique est donc
considre comme pouvant tre ralise par le clitique se (rflexif ou rciproque). Ceci est une
approximation, que des travaux ultrieurs devront prciser plus avant.
28
On notera que nous ne distinguons pas les prpositions des complmentiseurs, cette distinction se
dduisant de la fonction syntaxique dont on parle. Un de-sinf ralisant une fonction objet met en
uvre le complmentiseur de (Jean ordonne Marie de partir) ; un de-sinf ralisant une fonction deobjet est prpositionnel (Jean rve de partir).

14

B. SAGOT, L. DANLOS

mme pour lobjet actif qui devient sujet passif. On notera que ces deux participes
passs, quoique nayant pas le mme cadre de sous-catgorisation, sont deux formes
issues de la mme entre lexicale au niveau intensionnel. En ralit, une mme entre
intensionnelle peut se voir associer une classe syntaxique qui dnote elle-mme une
disjonction de comportements. Cest ainsi quun adjectif comme envisageable, une
fois les constructions impersonnelles prises en compte (cf. section 4), naura quune
seule entre au niveau intensionnel, alors quau niveau extensionnel, chacune de ses
formes aura deux entres, lune pour la construction personnelle (ceci est
envisageable/une chose envisageable), et lautre pour la construction impersonnelle (il
est envisageable de Vinf /que P).
3.2.2. Autres proprits syntaxiques
Dautres proprits syntaxiques compltent le cadre de sous-catgorisation. Pour la
plupart des ralisations infinitives (directes ou non) dans les cadres de souscatgorisation verbaux, une information de contrle est donne : selon les cas, le sujet
de linfinitive est gal (en un sens qui dpend des thories syntaxiques) au sujet,
lobjet direct ou lobjet indirect (-objet) du verbe. On notera que certains verbes
sous-catgorisent des fonctions pouvant se raliser par une infinitive sans quil y ait
contrle : le travail consiste crer un lexique. De mme, toute fonction attributive
ralisation nominale ou adjectivale possible (directe ou prpositionnelle) est prcise
par une indication de la fonction laquelle lattribut sapplique (sujet, objet, -objet).
Une autre proprit (mal) renseigne dans le Lefff est relative aux contraintes sur le
mode des compltives, quelles ralisent des fonctions syntaxiques sous-catgorises
par des entres verbales, nominales, ou autres. Quatre grands cas de figure sont
rpertoris : le cas o les deux modes sont possibles, le mode indicatif obligatoire, le
mode subjonctif obligatoire, et le mode dit alternant (subjonctif en cas de nonassertion, indicatif sinon).
Ces proprits sont indiques, comme pour ltiquette morphosyntaxique, par des
macros (telles que @CtrlSuj pour le contrle sujet, @AttObj pour lattribut de lobjet,
@ObjSubj pour la compltive objet au subjonctif). Lide est que chaque utilisateur du
Lefff est amen donner ces macros la signification approprie, compte tenu du
formalisme ou du contexte dutilisation de cette information. Toutefois, nous
disposons dune dfinition de ces macros sous forme de structure de traits avec partage
possible, qui reprsente de faon transparente ce quelles veulent dire. Ainsi, on a la
dfinition suivante pour le contrle sujet :
@CtrlSuj := [ Suj=[]1, Obj =[ Suj = []1 ] ]

Ceci indique que le sujet de linfinitive objet est partag (par co-indiciation) avec le
sujet principal (le mcanisme qui napplique cette macro que lorsque la ralisation de
lobjet est effectivement infinitive nest pas indiqu) .
Enfin, si les fonctions syntaxiques correspondent des arguments syntaxicosmantiques du prdicat concern (verbal, adjectival, nominal, etc.), certaines entres

AMLIORER UN LEXIQUE SYNTAXIQUE L'AIDE DES TABLES DU LEXIQUE-GRAMMAIRE

15

saccompagnent de la prsence de clitiques qui ne correspondent aucun argument


syntaxico-smantique. Outre les pronoms impersonnels il et a, que nous traiterons
plus bas, cest le cas du clitique rflxif dans le cas des verbes dits essentiellement
pronominaux (svanouir), du clitique gnitif (en rfrer quelque chose, en tre
quelque part), du clitique locatif (y passer), voir de plusieurs dentre eux (sy
connatre, sen tirer). Ces clitiques sont requis laide de macros spcifiques dans la
structure syntaxique, dont certaines empruntent une terminologie issue de
DICOVALENCE (@pseudo-y, @pseudo-en, @ngatif, @pronominal).
3.3. Utilisation en TAL
Le Lefff est utilis par au moins deux systmes danalyse trs diffrents pour le
franais. Le premier dentre eux est FRMG (Thomasset et de La Clergerie 2005), un
analyseur TAG qui repose sur une mtagrammaire, laquelle gnre une TAG
factorise. Les entres du Lefff sont utilises comme hypertags pour ancrer les
quasi-arbres. Le second analyseur, est lanalyseur du franais construit laide de
SxLFG, constructeur danalyseurs LFG (Boullier et Sagot 2005). Il sagit dun
analyseur LFG efficace qui utilise les entres du Lefff comme entres lexicales LFG.
Ces deux systmes qui reposent sur le Lefff sont utiliss dans diffrentes expriences
grande chelle, telles que la campagne EASy dvaluation des analyseurs syntaxiques
(Boullier et al. 2005), lanalyse de corpus de plusieurs millions de phrases ou
lapprentissage dinformations (p.ex. dontologies) partir de corpus spcialiss.
Il est difficile de donner un aperu quantitatif de la couverture et de la prcision du
Lefff. Toutefois, nous avons dvelopp un chunker rgles et reposant sur le Lefff
qui segmente une phrase en syntagmes non-rcursifs (les constituants de la
campagne EASy), dont les rsultats taient dj trs satisfaisants avant
lenrichissement prsent dans cet article (Sagot 2006 : ch. 12). Nous nous attendons
ce quaprs enrichissement, les rsultats de ce chunker (mais galement des analyseurs
profonds cits ci-dessus) soient significativement meilleurs : ceci devrait nous
permettre dans un avenir proche dvaluer quantitativement limpact respectif de la
prise en compte des constructions impersonnelles.
Par ailleurs, des travaux sont en cours pour comparer le Lefff diffrentes autres
ressources, notamment Morphalou (pour le lexique morphologique sous-jacent), mais
surtout SynLex, lexique syntaxique cit plus haut, extrait partir de certaines tables du
lexique-grammaire (Gardent et al. 2006), et DICOVALENCE, anciennement PROTON
(van den Eynde et Mertens 2006).

4. Du lexique-grammaire au Lefff : constructions impersonnelles


L'extracion des informations du Lexique-Grammaire en vue de leur intgration dans le
Lefff est loin dtre triviale : diffrents types de travaux sont en effet indispensables
pour mener bien une telle entreprise :
Comprhension prcise des informations rpertories dans les tables

16

B. SAGOT, L. DANLOS

Filtrage des informations linguistiques intgrer au Lefff (filtrage des colonnes)


Filtrage des entres lexicales intgrer au Lefff (filtrage des lignes)
Dveloppement pour ces constructions dun modle compatible avec les principes
sur lesquels reposent le Lefff
Extraction effective des informations et des entres choisies au format Lefff, en
respectant le modle retenu
Si possible, valuation dans des analyseurs de limpact dun tel travail, au moins en
termes de taux de couverture.
Cest cette succession de tches que nous nous sommes attels pour les constructions
impersonnelles. Comme nous lavons vu dans la section 2.2, une partie du travail avait
dj t effectue au sujet des impersonnelles lors de la construction de loutil ILIMP
(Danlos 2005). En particulier, la comprhension fine des tables et le filtrage des
entres lexicales taient dj raliss.
Cependant, ILIMP se prsente sous forme de rseaux de transition rcursifs qui
reconnaissent des motifs dans un texte brut (i.e. sans annotation linguistique). Ce qui
est trs diffrent du point de vue adopt ici, qui est celui de la construction dun
lexique syntaxique, destin tre utilis dans un analyseur syntaxique profond. En un
sens, notre point de vue est moins complexe, puisque lon peut faire abstraction (par
exemple) de la variabilit du matriau quon peut insrer entre une tte verbale et un
complment (fig, par exemple), et de la complexit de sa dlimitation : cest en effet
aussi le travail de la grammaire, et non seulement du lexique. Mais la contrepartie de
cette relative simplification est une plus grande abstraction dans les descriptions. Il ne
sagit plus de dcrire des motifs appliquables des squences de formes tiquetes,
mais des cadres de sous-catgorisation et des contraintes syntaxiques. Cest la raison
pour laquelle nous avons construit un modle des constructions impersonnelles qui
nest pas la transcription directe des graphes dILIMP, mais dont le contenu
(associations entre lemmes et constructions) en est directement extrait.
La dichotomie entre constructions intrinsquement impersonnelles et constructions
sujet extrapos (cf. 2.2.2) reste naturellement fondamentale dans notre description.
Parmi ces dernires, et en raison de limportance donne au cadre de souscatgorisation fonctionnel, la distinction principale ne se fait pas entre verbes sujet
phrastique et verbes sujet nominal, mais entre constructions diathse active (le
sujet extrapos est un sujet profond, il ralise une fonction sujet) et constructions
diathse passive ou moyenne.
Dans tous les cas, une construction impersonnelle est caractrise par le fait que la
position syntaxique sujet, obligatoire en franais dans les propositions finies, est
occupe par un pronom impersonnel il ou a (mais nous navons pas encore trait ce
dernier cas). Reprenons successivement les deux classes de constructions
impersonneles identifies dans la section 2 : les constructions intrinsquement
impersonnelles et les constructions sujet extrapos.

AMLIORER UN LEXIQUE SYNTAXIQUE L'AIDE DES TABLES DU LEXIQUE-GRAMMAIRE

17

4.1. Les constructions intrinsquement impersonnelles


Les constructions intrinsquement impersonnelles sont modlises par labsence de
fonction sujet dans le cadre de sous-catgorisation. Par consquent, seule une
construction impersonnelle est possible : cest ce qui est requis par la macro @impers.
Ces constructions sont de trois types29 :
Les verbes avec cadre de sous-catgorisation vide (la plupart des verbes
mtorologiques de la table 31I, comme il vente) ;
vente

[pred='venter1',@impers,@PS3s]

Les verbes intrinsquement impersonnels sous-catgorisant une fonction objet, comme


les verbes de la table 17 (comme il faut N/Vinf/queP) ou la locution il y a N (Loc N) ;
faut

[pred='falloir1<Obj:(sn|cla|sinf|scomp)>',@impers,@ObjSubj30,
@P3s]

[pred='y avoir<Obj:sn,Loc:(loc-sn)>',@impers,@pseudo-y,@P3s]31

Les verbes intrinsquement impersonnels sous-catgorisant une autre fonction (comme


il sagit de N/Vinf) ;
agit

[pred='s'agir1<Objde:de-sn|clg|scompl|de-sinf>',@pron,@impers,
@ObjdeSubj,@P3s]32

4.2. Les constructions sujet extrapos


Ces constructions se rpartissent entre constructions prdicat verbal et constructions
prdicat adjectival. Au contraire des constructions intrinsquement impersonnelles,
les cadres de sous-catgorisation incluent une fonction sujet. Il y a donc possibilit
dalternance entre constructions impersonnelles et personnelles.
Comme nous lavons vu, la macro @impers impose une construction impersonnelle,
qui est ici avec sujet extrapos, puisque nous traitons dans cette section des entres
sous-catgorisant une fonction sujet. Les constructions personnelles parallles,
inexistantes pour les constructions intrinsquement impersonnelles, sont indiques par
la macro @pers. On notera que la duplication au niveau extensionnel des constructions
impersonnelles et personnelles nest pas la consquence dune duplication au niveau
intensionnel : chaque forme dune mme entre intensionnelle (du mme prdicat)
peut tre implique dans plusieurs constructions, certaines personnelles, dautres
impersonnelles. Comme nous lavons vu plus haut, cest dj le cas pour les verbes
personnels, dont le participe pass a deux entres, lune active, lautre passive.
Il en est de mme pour les adjectifs. Il semble que tout adjectif dont la fonction sujet
peut avoir une ralisation compltive ou infinitive admette une construction
29

Pour simplifier la lecture, nous navons pas rpt linformation cat=v ou cat=adj dans la
structure syntaxique des exemples donns.
30
Rappelons que cette macro indique que si la fonction objet est ralise sous la forme dune
compltive, alors celle-ci doit tre au subjonctif.
31
Une autre entre couvre le cas (familier) il y a que je suis malade.
32
La ralisation de-scompl du Objde de agir est exclue : *Il sagit de ce que Paul parte.

18

B. SAGOT, L. DANLOS

impersonnelle de la forme ilimp est Adj Y (o Y dnote une compltive et/ou une
infinitive, suivant les cas). La construction impersonnelle, qui est alors possible, induit
une translation du sinf en de-sinf (dormir est impossible / il est impossible de dormir).
On peut regrouper les constructions sujet extrapos en diffrentes classes :
Un certain nombre de verbes admettant une construction impersonnelle en parallle de
la construction personnelle correspondante (toute la table 5, quelques entres des
tables 7 et 8) ;
plat

[pred='plaire1<Suj:sn|cln|sinf|scompl,Obj:(-sn|cld)>',@pers,@P3s]

plat

[pred='plaire1<Suj:de-sinf|scompl,Obj:(-sn|cld)>',@SujSubj,
@impers, @P3s]

dcoule

[pred='dcouler1<Suj:sn|cln|scompl,Objde:de-sn|clg|de-scompl>',
@SujSubj,@ObjdeInd,@pers,@PS13s]

dcoule

[pred='dcouler1<Suj:sn|scompl,Objde:de-sn|clg|de-scompl>',
@SujSubj,ObjdeInd,@impers,@PS13s]

Les verbes non intrinsquement impersonnels pour lesquels une construction


impersonnelle passive ou moyenne existe, soit de faon exclusive, soit ct dune
construction personnelle (certains verbes, en particulier des tables 6 et 9). Lexemple
du participe pass racont permet dillustrer tous les cas :
- Participe pass actif (Pierre a racont un conte Marie)
racont

[pred='raconter1<Suj:cln|sn,Obj:sn|cla|sinf|scompl,Obj:(-sn|cld)>',
@CtrlSuj,@ObjInd,@pers,@Kms]

- Participe pass passif en construction personnelle (Un conte a t racont par Pierre
Marie)
racont

[pred='raconter1<Obl:(par-sn),Suj:sn|scompl,Obj:(-sn|cld)>',
@passif, @pers, @Kms]

- Participe pass passif en construction impersonnelle (Il a t racont un conte


Marie par Pierre)
racont

[pred='raconter1<Obl:(par-sn),Suj:sn|scompl,Obj:(-sn|cld)>',
@passif, @impers, @Kms]

- Participe pass moyen en construction personnelle (Un (tel) conte (ne) sest (pas)
racont (quelquun comme) Marie (depuis longtemps))
racont

[pred='raconter1<Suj:sn|scompl,Obj:(-sn|cld)>',
@Kms]

@pron,

@pers,

- Participe pass moyen en construction impersonnelle (Il (ne) sest (pas racont un
(tel) conte (quelquun comme) Marie (depuis longtemps))
racont

[pred='raconter1<Suj:sn|scompl,Obj:(-sn|cld)>', @pron, @impers,


@Kms]

AMLIORER UN LEXIQUE SYNTAXIQUE L'AIDE DES TABLES DU LEXIQUE-GRAMMAIRE

19

Un certain nombre dadjectifs admettant une construction impersonnelle de type ilimp


est Adj Y (il est envisageable de faire cela). On notera quun adjectif sous-catgorise
toujours une fonction sujet, et parfois dautres fonctions galement33 ;
envisageable adj [pred='envisageable1<Suj:(sn|sinf|scompl)>',@pers,@s]
envisageable adj [pred='envisageable1<Suj:(de-sinf|scompl)>',@impers,@s]

Un certain nombre dexpressions de type tre Prep X admettant une construction


impersonnelle de type ilimp est Prep X Y (il est de rgle de porter un chapeau). Elles
sont similaires des adjectifs, et catgorises comme telles.
de rgle adj [pred='de rgle1<Suj:(sn|sinf|scompl)>',@pers,@s]
de rgle adj [pred='de rgle1<Suj:(de-sinf|scompl)>',@impers,@s]
l'actif

adj [pred=' l'actif1<Suj:(sn|sinf|scompl),Objde:de-sn>', @pers,@s]34

l'actif

adj [pred=' l'actif1<Suj:(de-sinf|scompl),Objde:de-sn>',@impers,@s]

4.3. Bilan
Nous avons donc extrait des diffrents graphes pertinents qui constituent ILIMP des
listes de verbes et dadjectifs associs chacun de ces cas. Puis nous avons cr de
nouvelles classes syntaxiques pour les constructions impersonnelles, ou modifi
certaines classes existantes, afin dajouter ou de modifier les entres du Lefff
extensionnel dune faon cohrente la fois avec lanalyse ci-dessus et les principes
de reprsentation prsents en section 3.

Conclusion
Le Lefff, lexique syntaxique du franais large couverture, a dsormais des
fondements linguistiques et formels qui permettent son utilisation dans des analyseurs
syntaxiques profonds grande chelle. Ces fondements nous on permis dexploiter la
source dinformations linguistique que sont les tables du lexique-grammaire, pour
modliser une familles de phnomnes syntaxiques non standard : les constructions
impersonnelles. Des travaux prliminaires ont galement eu lieu sur les expressions
verbales figes, il nous faudra les poursuivre. De plus, la mise disposition du lexique
DICOVALENCE nous permet de disposer dune autre source dinformations
linguistiques, ce qui sera particulirement utile, entre autres, pour modliser de faon
satisfaisante lensemble des constructions pronominales, aujourdhui ltat
dbauche dans le Lefff.
33

On notera que linformation sur le mode de la compltive nest actuellement pas disponible. Il en
est de mme ci-dessous pour les expressions en tre Prep X.
34
Anticipant ainsi certains problmes lis au figement, notons que ces entres ne couvrent pas le
cas son actif. Il est donc ncessaire dintroduire, indpendamment, un lemme son actif dont les
formes flchies ( mon actif, ton actif,) ne sous-catgorisent quun sujet.

20

B. SAGOT, L. DANLOS

Rfrences
BOONS J.-P., GUILLET A., LECLERE C. (1976a), La structure des phrases simples en franais,
Constructions intransitives, Droz, Genve.
BOONS J.-P., GUILLET A., LECLERE C. (1976b), La structure des phrases simples en franais,
Classes de constructions transitives, Rapport de recherches, LADL, CNRS, Univ. Paris 7.
BOULLIER P. et SAGOT B. (2005), Analyse syntaxique profonde grande chelle: SXLFG ,
in Traitement Automatique des Langues, n 46/2.
BOYD A, GEGG-HARRISON W. ET BYRON D. (2006), Identifying non-referential it. A machine
learning approach incorporating linguistically motivated patterns, revue TAL, vol. 46 n 1.
CANDITO M.-H. (1999), Reprsentation modulaire et paramtrable de grammaires
lectroniques lexicalises, Thse de doctorat, Universit Paris 7.
CLEMENT L., SAGOT B. et LANG B. (2004), Morphology based automatic acquisition of
large-coverage lexica , in Proceedings of LREC 2004, Lisbonne, Portugal.
DANLOS L. (1980), Reprsentation d'informations linguistiques: les constructions N tre Prp
X, Thse de troisime cycle, Universit Paris 7.
DANLOS L. (1992), Support Verb Constructions: linguistic properties, representation,
translation , in Journal of French Linguistic Studies, n 2/1, Cambridge University Press,
Cambridge.
DANLOS L. (2005), ILIMP : Outil pour reprer les occurences du pronom impersonnel il , in
Actes de TALN 2005, Dourdan, France.
DANLOS L. et SAGOT B. (2007), Comparaison du Lexique-grammaire et de DICOVALENCE :
vers une intgration dans le Lefff, in Actes de TALN 2007, Toulouse, France.
EYNDE K. et BLANCHE-BENVENISTE, C. (1978), Syntaxe et mcanismes
descriptifs : prsentation de l'approche pronominale , in Cahiers de Lexicologie n32 : 327.

VAN DEN

EYNDE K. et MERTENS P. (2006), Le dictionnaire de valence DICOVALENCE : manuel


d'utilisation, paratre.

VAN DEN

GARDENT C., GUILLAUME B., PERRIER G. et FALK I. (2006), Extraction d'information de


sous-catgorisation partir des tables du LADL , in Actes de TALN 2006, Louvain,
Belgique.
GUILLET A. et LECLERE C. (1992), La structure des phrases simples en franais, Constructions
transitives locatives, Droz, Genve.
SAGOT B. (2005), Automatic acquisition of a Slovak Lexicon from a Raw Corpus , in
Proceedings of TSD 2005, Karlovy Vary, Tchquie (LNAI 3658, Springer-Verlag).
SAGOT B., CLEMENT L., DE LA CLERGERIE . et BOULLIER P. (2006), The Lefff 2 syntactic
lexicon for French: architecture, acquisition, use , in Actes de LREC 2006, Gnes, Italie.
SAGOT B. et DE LA CLERGERIE . (2006), Error mining in parsing results , in Proceedings
of ACL-CoLing 2006, Sydney, Australie.
SAGOT B. (2006), Analyse automatique du franais : lexiques, formalismes, analyseurs, Thse
de doctorat, Universit Paris 7.
VERONIS J. (1998), Multext-Lexicons, A set of Electronic Lexicons for European Languages.
THOMASSET F., DE LA CLERGERIE . (2005), Comment obtenir plus des mta-grammaires ,
in Actes de TALN 2005, Dourdan, Belgique.

You might also like