You are on page 1of 24

Les bases thoriques du groupe toulousain

Smantique et Corpus :
ancrages et perspectives
Anne Condamines*

Cet article prsente les principaux courants de recherche dans lesquels


sinscrivent les travaux de lopration Smantique et Corpus . Le rle des
corpus est examin selon quatre types dapproches : la smantique
essentiellement linguistique, la smantique anglo-saxonne, la
terminologie et linformatique (TAL et IA). La prsentation, bien que
clairement personnalise par la vision de lauteur, vise dgager les
principales questions qui fdrent les travaux de lopration.

This paper presents the most important research trends in which the studies
of the group Semantics and corpora are situated. The role of corpora is
examined from the point of view of four approaches : essentially
linguistic semantics, anglo-saxon semantics, terminology and data
processing (NLP and AI). The presentation, although personalized by the
view of the author, aims to bring out the main issues federating the work of
the group.

Equipe de Recherche en Syntaxe et Smantique (UMR 5610 CNRS).

Cahiers de Grammaire 25 (2000), Smantique et Corpus , pp. 5-28

Anne Condamines

1. Introduction
Avant dopter pour son nom actuel, Smantique et Corpus , en 1999, le
groupe toulousain constitu en 1993 autour dAndre Borillo et de moi-mme
a pris successivement les noms suivants : Langages spcialiss et
terminologie , Traitement automatique en langues de spcialit :
Terminologie et organisation conceptuelle , Traitement automatique des
langues : terminologie et organisation conceptuelle . Cette volution des
appellations est due une volution de la thmatique, en grande partie en lien
avec larrive de lun ou lautre membre, recrut ou mut comme chercheur
ou enseignant-chercheur. Aussi, si laxe majeur qui nous runit dans cette
opration semble maintenant peu prs stabilis, pour en faire comprendre
loriginalit, il ma sembl ncessaire de montrer comment il a pu se
constituer partir des apports historiques de chacun des membres. Cest par
la prsentation des principaux courants de recherche dont nous nous inspirons
et des questions qui se posent en relation avec ces travaux que slabore cette
prsentation. Cette prsentation nest pas neutre ; pour chacun des travaux
voqus, je montrerai ce qui me semble intressant retenir et ce qui pose
question pour exposer en conclusion les axes autour desquels sorganise notre
rflexion.
Quatre directions fondamentales, un peu htrognes, seront ainsi
examines : les corpus dans la perspective dune smantique
essentiellement linguistique (deux exemples franais, les travaux de G.
Kleiber et ceux de F. Rastier), les corpus dans les travaux anglo-saxons, qui
sinscrivent dans une smantique relie la sociologie ou la psychologie, les
corpus dans les tudes en terminologie, enfin, les corpus et le traitement
automatique. Jessayerai de montrer en quoi ces divers travaux, malgr leur
diversit et parfois leurs contradictions nous conduisent une rflexion
fructueuse et renouvele sur le rle des corpus dans ltude du sens en
linguistique.

2. Les corpus dans la perspective dune smantique essentiellement


linguistique : deux exemples de travaux franais
De manire gnrale, les travaux francophones en smantique se situent
surtout dans la perspective dune smantique essentiellement linguistique.
Consquence ou non de cette vision, les tudes sur lutilisation des corpus en
smantique sont rares dans cette communaut. Cependant, mme lorsquils
ne les utilisent pas, les smanticiens prennent souvent position par rapport au
rle quils attribuent au contexte dans le sens des mots. Les travaux de deux
smanticiens franais inspirent particulirement les rflexions de notre
opration : G. Kleiber et F. Rastier.

Cahiers de Grammaire 25 (2000)

Les bases thoriques du groupe Smantique et Corpus

2.1. La smantique rfrentielle de G. Kleiber


Les travaux de G. Kleiber sont trs souvent mentionns par les chercheurs de
lERSS (il tait dailleurs lun des membres du jury de ma thse en 1990). Il
est vrai que la production de cet auteur est importante et quelle sintresse
de nombreux phnomnes smantiques : la polysmie, la gnricit, les
relations smantiques Sa rdaction est toujours claire et les nombreux
exemples souvent convaincants : il joue ainsi un rle trs stimulant dans la
rflexion en smantique. Pourtant, cet auteur se situe nettement dans une
approche rfrentielle, cest--dire une approche qui revendique comme objet
dtude le lien entre la langue et lextra-linguistique, ( la smantique na
aucun sens si elle nest pas tourne vers (ce que nous croyons tre) la
ralit (Kleiber 1999, 11)). Il sagit, dans le cas de cet auteur dune ralit
exprience (ibidem, 21), ou modlise (ibidem, 22). Une smantique
ainsi conue est stable parce que la modlisation est intersubjectivement
partage , ce qui est un facteur de stabilisation et dobjectivation (p. 22).
Un article rdig en 1997 (Langages, n 127) et repris tout rcemment
(Kleiber 1999) montre quel point lauteur prouve le besoin de justifier son
approche tant elle lui parat menace par celles des constructivistes. Cet
article est tout fait intressant, dabord parce quil fait le point sur les
diffrentes approches existant en smantique, ensuite parce quil rappelle, de
faon opportune, que lun des objectifs de la linguistique est de reprer des
rgularits dans la langue. Il y a pourtant deux points au moins sur lesquels
lexprience des corpus ne semble pas (ou pas compltement) compatible
avec lapproche dfendue par G. Kleiber.
A) Dune part, lanalyse de corpus, particulirement de corpus spcialiss,
met souvent au jour des fonctionnements qui ne correspondent pas
lintuition que lon peut avoir, ou dautres qui, lorsquils sont dnombrs,
apparaissent comme secondaires par rapport lintuition premire ce qui peut
donner une analyse qui, sous couvert dobjectivit, ne rend pas compte du
dynamisme des fonctionnements. Deux exemples :
Dans un corpus fourni par le CNES, sur la base dune analyse de
contextes, nous avons pu mettre au jour quun mot comme satellite ne
renvoyait pas toujours un lment fixe et dfinissable a priori, qui
aurait pu correspondre une dfinition encyclopdique. Au contraire,
nous avons montr que ce mot avait six types de fonctionnements
syntaxico-smantiques, non prdictibles, ni par nous-mmes ni par les
experts du CNES. En revanche ces six types de fonctionnements ont pu
tre corrls avec des points de vue propres au CNES, en lien avec les
diffrentes fonctions assures par le satellite (le satellite comme corps

Cahiers de Grammaire 25 (2000)

Anne Condamines

artificiel, comme mobile, comme plate-forme, comme vhicule, comme


relais, comme hte)1.
Autre exemple, lorsquune de nos collgues de lopration
Smantique du temps et de lespace a voulu saider du corpus du
Monde Diplomatique pour rechercher des verbes de dplacement, elle
sest aperue que dans la majorit des cas, ces verbes taient utiliss de
manire mtaphorique (il sagissait de mouvements dargent, ce qui
nest pas tonnant, a posteriori, tant donn la nature du corpus). Cela
ninvalide pas la pertinence de la description mais ncessite quelle soit
replace dans la perspective dun usage rel de la langue.

B) Dautre part, il arrive souvent que les conclusions proposes par les
tenants de lapproche rfrentielle et constitus sur la base dexemples
forgs, soient revoir ds que lon examine des corpus dans lesquels
apparaissent des exemples correspondant des cas a priori considrs
comme non-valides. Prenons lexemple du dterminant chaque que lon
considre comme inapte exprimer la gnricit, (le test du dtachement et
de la reprise par cest ne semble pas fonctionner (*chaque N, cest). Il se
trouve que dans sa thse sur la dfinition (Forme et fonction de la dfinition
en discours, Thse de lUniversit Toulouse Le Mirail, 2000), J. Rebeyrolle
fait part dun exemple avec chaque qui exprime la gnricit : On appelle
terrassettes de petits gradins de quelques centimtres spars par des replats
dont la largeur est du mme ordre. Chaque gradin est un plan de cisaillement
entre deux paliers qui saffaissent.

Cest bien finalement lide de la totale fiabilit de lapproche


introspective qui est mettre en question. Mme si lon partage lide quil
existe, en smantique, des lments stables qui peuvent fonctionner de
manire rgulire en corpus (cest mon point de vue), le fait que cette
rgularit soit due notre commune nature dhomme (Kleiber 1981, 27),
est contestable parce quelle place la perception (mme modlise par la
langue) comme prioritaire par rapport la comptence linguistique acquise
lors dchanges langagiers contextualiss et sans cesse renouvels. Vue dans
son fonctionnement en contexte, la stabilit de la langue est toujours relative :
le travail en corpus, surtout en corpus spcialis, oblige accepter ce
phnomne. Ce qui alors peut guider la rflexion, cest que sil y a rgularit,
elle est observable au niveau dun corpus, et peut tre gnralisable
lensemble des corpus qui ont les mmes caractristiques (domaine,
genre, ).
Au bout du compte, les travaux de smantique introspective sont
souvent trs utiles : ils mettent sur la voie de phnomnes tout fait
intressants et les descriptions proposes sont souvent pertinentes (il ne sagit
1

Condamines A., Rebeyrolle J. : Point de vue en langue spcialise , META


n42-1, 1996.

Cahiers de Grammaire 25 (2000)

Les bases thoriques du groupe Smantique et Corpus

pas par exemple de refuser les descriptions qui ont t faites des dterminants
gnriques) condition que lon accepte de les rexaminer, la lumire de
lanalyse de corpus ; condition au fond daccepter quapparaissent des
phnomnes qua priori nous naurions pas cru ralisables et qui semblent
nanmoins intresser fondamentalement la question du sens, et pas seulement
des effets locaux .
2.2. La smantique interprtative de F. Rastier
Cest de manire beaucoup plus rcente que les travaux de F. Rastier sont
utiliss comme une des rfrences dans lquipe. Cela correspond larrive
de D. Bourigault puis de L. Tanguy dans lquipe, tous les deux fortement
nourris de la lecture des crits de Rastier. Ces travaux sinscrivent dans le
courant de la smiotique textuelle initi par Greimas (Greimas 1966) ; ils
revendiquent la fois une filiation avec Saussure, dont ils reprennent lide
de systme et de diffrences, et une vision nouvelle par le biais de la
smantique textuelle. Certaines des propositions de Rastier sont
sduisantes et beaucoup sont partages par les membres de lopration
Smantique et Corpus :
Lunit danalyse est le texte : Lessentiel demeure de pouvoir traiter
par une thorie unifie des paliers smantiques du morphme, de
lnonc, et du texte Dans la perspective choisie, le texte demeure
toutefois le palier primordial (Rastier 1987, 10).
La pratique de lanalyse de corpus fait en effet prendre conscience de
limportance de ce palier du texte et de la ncessit de prendre en
compte, un moment ou lautre de lanalyse smantique, ce qui fait
lhomognit et la cohrence dun texte.
Le contexte fait partie de la construction du sens, le contexte
linguistique et non linguistique est, en tant quinterprtant, constitutif
du message. On doit convenir du moins que, globalement comme
localement, le texte en reoit de multiples dterminations (Rastier
1991, 13). Dans cette perspective, il est pertinent didentifier des
corrlations entre des caractristiques extra linguistiques du texte et des
fonctionnements linguistiques (cf. travaux de Biber ci-dessous).
Dans un domaine plus spcialis, la construction dune terminologie
consiste en diffrentes oprations qui permettent de passer, partir dun
corpus, du mot au terme et du terme au concept (Rastier 1995).
Sans doute, une des principales qualits des travaux en smantique
interprtative est de proposer une vision unifie des recherches qui proposent
de prendre les corpus comme objet dtude et de situer ces travaux dans le
domaine de la smantique. En effet, ltude des corpus sert de base la
sociolinguistique, la dialectologie, lanalyse littraire, mais aussi une
grande partie des travaux en terminologie et il est tout fait pertinent de

Cahiers de Grammaire 25 (2000)

Anne Condamines

10

vouloir identifier les points communs entre ces diffrentes disciplines.


Sur certains points toutefois, les travaux de Rastier sont moins
convaincants (ou moins explicites) :
Le rle du contexte textuel ne semble pas trs constant. On ne mesure
pas toujours trs bien ce qui est considr comme stable, quasiment
inhrent au sens dun mot et ce qui, au contraire, va tre compltement
dpendant du contexte, comme le montre les deux extraits suivants
De la mme faon quon ne peut sempcher dentendre, on ne peut
sempcher de comprendre. Plus prcisment, rappelons Posner et alii,
un mot peut activer ses codages internes, visuel, phonologique, et
mme smantique2, sans que la personne ait y prter attention
(Rastier 1991, 213).
Aprs Schleiermacher on peut soutenir la thse que toute occurrence
smantique est un hapax, et la complter en affirmant que tout type
nest quune reconstruction (Rastier 1991, 114).
Un certain nombre de chercheurs se sont particulirement engags dans
lexploration de cette voie (toute occurrence est un hapax) et sur ce
point, il y a des divergences assez nettes dans lopration Smantique
et Corpus .
Le problme de la pluralit possible dinterprtations ne va pas sans
poser de questions. Mme si les diverses interprtations sont censes
tre guides par le concept disotopie ( linfini prtendu des lectures
possibles ne permet pas dadmettre quun texte comporte un nombre
infini disotopies (Rastier 1987, 106)), on na gure de prcisions sur
les lments qui vont pouvoir valider la pertinence des isotopies
construites. Ceci amne une autre rserve qui est celle de la mthode
danalyse.
Le point le plus dlicat de lapproche propose par la smantique
interprtative est certainement le problme de la mise en place dune
mthode danalyse. Si lempirisme revendiqu semble indissociable de
lanalyse de corpus, lutilisation de lintuition, galement revendique
( lintuition peut reflter une ralit objective (Rastier 1987, 107))
pose, elle, plus de questions. Non parce que lanalyse linguistique
devrait se passer dintuition, mais parce que, mon avis, une bonne
partie de la recherche en linguistique devrait avoir pour but dexpliquer
quelle intuition est mise en uvre pour parvenir telle ou telle
interprtation et galement, si elle pourrait tre mise en uvre de
manire plus systmatique. De fait, les livres et articles de Rastier
contiennent peu dexemples rels danalyse (contrairement ceux de
Kleiber, ce qui est pour le moins paradoxal) et, lorsquil y a des

Cest moi qui souligne.

Cahiers de Grammaire 25 (2000)

Les bases thoriques du groupe Smantique et Corpus

analyses, elles portent presque toujours sur des textes littraires qui,
sans doute, se prtent plus facilement des interprtations multiples.
En fait, peu de linguistes franais se situent clairement dans le champ
de la thorie en smantique textuelle et, il est un peu gnant que la thorie
rastierienne soit la seule occuper ce terrain. Cette thorie a sduit de
nombreux chercheurs en linguistique, et mme en IA, bien quelle ne soit pas
dun abord facile, la fois parce que lauteur, dans sa grande culture, fait
appel un grand nombre de rfrences, et parce que les notions en jeu ne se
laissent pas matriser aisment, y compris tant donn la manire dont elles
sont formules. Si bien que lon peut facilement se rclamer de la smantique
diffrentielle ou de la smantique interprtative sans tre trs sr de se situer
dans la thorie dcrite par Rastier. Aucun de nous, dans lopration, nutilise
de manire exhaustive lappareillage de la smantique interprtative. En
revanche, beaucoup des grands principes labors par elle sont considrs
comme pertinents et inspirent nos travaux.
3. Les corpus dans la perspective dune smantique relie la sociologie
ou le psychologie : le courant anglo-saxon
Une caractristique des travaux anglo-saxons qui ont les corpus pour base
dtude est quils font appel, pour tablir les bases de leurs analyses
linguistiques, des concepts qui proviennent de disciplines connexes des
sciences humaines. Ainsi, si pour les linguistes post-saussuriens, mme pour
ceux qui sintressent lanalyse de textes comme Greimas, la langue est un
objet dtude part entire, les anglo-saxons font trs tt appel la sociologie
((Bloomfield 1935), (Firth 1969)) ou la psychologie ((Harris 1951),
(Chomsky 1971)) pour ancrer leurs hypothses. Les deux courants qui sont
les plus nettement prsents dans lopration sont dune part la thorie des
sous-langages et dautre part les analyses de corpus pratiques par Biber.
3.1. Le distributionnalisme de Z. Harris
Les premiers travaux faisant appel la thorie harrisienne dans lERSS sont
ceux dA. Borillo dans les annes 70.
Ds le milieu du XXme sicle, le principal apport de Harris est davoir
systmatis lanalyse des distributions des lments afin de dgager la
grammaire luvre dans un corpus. Un grand nombre doprations, de
rgularits, probablement mises en uvre de manire intuitive par les
comparatistes du XIXme sicle ont ainsi t mises au jour et explicites.
Lobjectif tait, par lapplication systmatique dun ensemble doprations,
sur la base de similitudes de distributions, aux niveaux phonologique et
morphologique, de constituer des classes de fonctionnement qui permettaient
de construire le noyau dur de la grammaire.
Lapport de Harris la linguistique est double :

Cahiers de Grammaire 25 (2000)

11

Anne Condamines

12

dune part, il fut un des premiers prendre en compte de manire


systmatique lanalyse de corpus,
dautre part, il a thoris la rflexion sur le rle des distributions dun
mot.
De nombreux smanticiens se sont levs contre la thorie harrissienne,
en tout cas, contre le postulat sur lequel elle est construite (pour nen citer
que quelques uns : (Benveniste 1966), (Lyons 1980), (Rastier 1991) ). En
effet, la vision de Harris est clairement behavioriste.
It is emprirically discoverable that in all languages which have been
described we can find some part of one utterance which will be similar
to a part of some utterance. Similar here means not physically
identical but substituable without obtaining a change in response from
native speakers who hear the utterance before and after the
substitution In accepting this criterion of hearers response, we
approach the reliance on meaning usually required by linguists
(Harris 1966, 20).
Ainsi, comme le remarque Dachelet, Harris ne traite pas le sens mais
linformation :
comme on le voit, le concept de smantique, de sens svanouit
dans la conception harrissienne au profit du concept minimaliste - mais
crucial - dinformation. (Dachelet 1994, 251).
Dans une telle perspective, sont considres comme quivalentes une
phrase lactif et au passif ou encore une phrase avec topicalisation ou
non, ce qui bien sr nest pas recevable pour un smanticien. On peut peuttre penser aussi que, comme le note Dachelet, lhypothse harrissienne
conduit une vision positiviste de la langue, qui tablit un lien direct entre
les mots et les choses tout particulirement dans des sous-langages de
domaine o cette quivalence est tentante (elle est dailleurs frquemment
tablie dans les travaux en terminologie). Linterprtation des classes
labores par lanalyse distributionnelle est ainsi faite sur la similitude de
rle informationnel auquel on attribue un statut smantique partir dune
interprtation.
Cette vision behavioriste du sens est sans doute llment qui donne le
plus de prise la critique de la thorie harrissienne. Dans une moindre
mesure, de nombreuses questions sont poses par le distributionnalisme la
Harris :
La notion des sous-langages suppose un dcoupage dtermin a priori,
lintrieur duquel un corpus est slectionn, qui permet didentifier
lensemble des phrases possibles de la grammaire de ce sous-langage.
Le corpus a ainsi un rle reprsentatif extrmement important et, par
principe, il ny a pas de possibilit de cration en dehors de la
grammaire labore. Notons que cette question de la clture du corpus
et de son ventuel rle reprsentatif se pose tout linguiste qui prend

Cahiers de Grammaire 25 (2000)

Les bases thoriques du groupe Smantique et Corpus

pour matriau un corpus. Il sagit de savoir si les rsultats seront


valables seulement pour ce corpus ou bien sils seront gnralisables
un ensemble de corpus. Cest la deuxime option qua choisie Harris,
sans donner beaucoup de pistes sur la faon de construire un corpus
reprsentatif : seule la notion de domaine est mentionne sans tre
discute.
Lanalyse se limite, au moins dans les premiers travaux de Harris, la
prise en compte du contexte immdiat, la phrase tant considre
comme lunit danalyse. Or, ce choix a au moins deux limites. Dune
part, linterprtation dun mot peut ncessiter le recours des lments
situs bien avant (voire bien aprs) dans le texte. Dautre part, le fait de
considrer sur le mme plan toutes les distributions dun mot entrane
quon ne tient pas compte de la position de chacun des contextes dans le
texte. Or, il nest pas indiffrent que tel contexte apparaisse par
exemple dans une introduction et tel autre dans en conclusion. Les
spcialistes de lanalyse littraire savent bien aussi combien les phrases
qui dbutent et qui closent un roman sont importantes

Le mme lment qui a entran les critiques de la part des


smanticiens, le recours la seule forme, a nettement inspir les
informaticiens pour traiter automatiquement la langue. En effet, lide
propose par Harris de partir de distributions de formes pour construire une
grammaire avait de quoi sduire les informaticiens-linguistes,
particulirement dans le cadre dune grammaire tats finis : elle a t par
exemple reprise par les travaux du LADL sur le lexique-grammaire. Mme
dans des projets qui visent moins une construction totale du sens sur la seule
base de ltude des combinaisons de formes, on retrouve le rle important
attribu aux distributions. Cest le cas des travaux qui visent construire des
cliques lexicales : lments rassembls dans des classes censes tre
smantiquement homognes, sur la base de parents distributionnelles (citons
par exemple (Habert et al 1996)). En linguistique, mme si peu de chercheurs
se rclament encore de la thorie harrisienne, lanalyse distributionnelle, plus
ou moins directement inspire par les travaux de Harris, reste la base de
lanalyse de corpus. On voit mal en effet quelle autre approche pourrait tre
mise en uvre dans cet objectif. Cependant, il reste sinterroger sur les
rapports entre le sens tel que le conoivent les smanticiens et linformation
qui correspond plus lapport de la thorie des sous-langages. Ce
questionnement doit se faire tout particulirement dans le cas des corpus
fournis par des entreprises. La demande sociale en effet semble plutt relever
du traitement de linformation (par exemple : indexation, recherche
dinformation) que du traitement du sens Et on peut se demander si, au
fond, la recherche du contenu informationnel, en lien avec une tche
particulire, ne correspond pas une des interprtations smantiques
possibles pour un texte (interprtation certes importante mais pas unique).

Cahiers de Grammaire 25 (2000)

13

Anne Condamines

Cest peut-tre avec cette hypothse que peut senvisager de la manire la


plus fructueuse une collaboration avec nos collgues informaticiens (voir cidessous).
3.2. Lanalyse de corpus selon Biber
Lanalyse de corpus selon Biber sinscrit dans les travaux danglo-saxons
qui, depuis bien plus longtemps quen France, ont considr les corpus
comme des objets dtude part entire, en particulier pour lanalyse
lexicale. A son arrive dans lquipe, M.-P. Pry Woodley a introduit ces
travaux, et tout particulirement ceux de Biber.
Lanalyse que propose Biber prend en compte des paramtres
sociolinguistiques. Toutefois, et cest ce qui le dmarque dune vision
compltement sociologique de la langue comme celle de Firth (pour qui la
langue est un fait sociologique comme un autre), lambition de Biber consiste
constituer une linguistique de lusage et pour cela, de considrer les
corrlations qui peuvent exister entre le genre du corpus (tabli partir
dlments extra-linguistiques) et le type du texte (tabli partir dlments
linguistiques).
I use the term genre to refer to text categorizations made on the
basis of external criteria relating to author/speaker purpose (Biber
1988, 68).
I use the term text type on the other hand, to refer to groupings of
texts that are similar with respect to their linguistic form, irrespective of
genre categories (Biber 1988, 70).

14

Des rapprochements de textes se font ainsi sur la base de corrlations de


traits linguistiques (par exemple pass + 3e personne + aspect accompli)
qui conduisent la mise en vidence de six dimensions qui font clater les
genres initialement identifis ; en effet, les textes sont nouveau classs
(rapprochs ou loigns) en fonction de leur coordonnes sur ces dimensions.
Des rapprochements inattendus se font jour, ainsi que des loignements ;
ainsi, si lon tient compte de certains fonctionnements linguistiques, les textes
oraux et crits napparaissent pas aussi aisment distinguables quon aurait
pu le supposer a priori. Lapport de ce type de travaux est double. Dune
part, il sagit sans doute dune des premires entreprises visant considrer
systmatiquement les corpus comme des usages de la langue en lien avec des
lments sociologiques . Bien plus que chez Harris, qui sen tenait la
notion de sous-langage de domaine, on trouve, chez Biber, la volont de
prendre en compte la ralit extra-linguistique des corpus en caractrisant de
faon prcise les corpus, avant toute analyse linguistique. Par rapport aux
travaux des sociolinguistes, pas trs loigns dans leur objectif, on trouve
chez Biber un travail sur des corrlations de phnomnes linguistiques,
labors en dimensions essentiellement lexico-syntaxiques alors que les

Cahiers de Grammaire 25 (2000)

Les bases thoriques du groupe Smantique et Corpus

sociolinguistes sintressent majoritairement des lments phonologiques,


et constatent parfois lchec de lapproche sociolinguistique pour des
phnomnes syntaxiques (cf : On dira sans doute que cette reconnaissance
[envers Labov] devrait sarrter aux tudes de syntaxe, pour lesquelles il
semble bien aujourdhui que les pistes ouvertes par Labov conduisent des
impasses (Deulofeu 1992, 66))3, examins sur une seule dimension (par
exemple, la variation entre [ ]et [t] New York).
Dautre part, les travaux de Biber mettent laccent sur une approche
statistique multidimensionnelle des phnomnes. En effet, il est plutt rare de
pouvoir dire que dans tel corpus on ne trouve jamais tel phnomne
linguistique. En revanche, on peut dire que ce mme phnomne apparat
plus souvent dans tel corpus que dans tel autre. La notion de dimension est
claire sur ce sujet : il sagit de situer des textes sur un axe. Dans une
perspective strictement linguistique, mais aussi pour les traitements en TAL
et, de manire gnrale pour les traitements en ingnierie linguistique o
lefficacit prime, ce genre de constatations est trs important. Comme je lai
dj soulign, cest sans doute le principal dfaut que lon peut reprocher
une approche purement introspective : elle ne permet pas (ou trs peu) de
rendre compte de la rpartition des fonctionnements : toutes les intuitions que
lon peut avoir sont considres comme quivalentes.
La question la plus fondamentale que pose lapproche biberienne est
celle de la porte des rsultats et de leur gnralisation. Mme sil sen
dfend certains moments, la tentation est forte chez Biber de gnraliser la
porte de ces rsultats la langue et de considrer que, par son approche, il a
dcrit lensemble du systme :
Although this study began as an investigation of speech and writing,
the final analysis presents an overall description of the relations
among texts in English4, and, it can therefore be used as a basis for the
investigation of several related issues. (Biber 1988, 200).
Une telle gnralisation ne serait possible quavec la certitude que tous
les critres de constitution de genre ont t pris en considration et cest une
ide sous-jacente dans le travail de Biber. Or, la pratique de lanalyse de
corpus nous conduit penser que la dfinition exhaustive de ces critres peut
tre problmatique tant ils peuvent varier en fonction du type dtude que
3

Remarquons que llment majeur sur lequel butent les sociolinguistes pour
utiliser la thse variationiste de Labov en syntaxe est le fait quelle suppose que
les variations constituent different ways of saying the same thing , cest-dire quelles font intervenir des quivalences smantiques. Or, si ces
quivalences sont facilement acceptables en phonologie, elles le sont beaucoup
moins si on se place du point de vue de la syntaxe. On retrouve une question
que jvoque plusieurs fois au cours de cet article : peut-on accepter quil y ait
changement de forme sans changement de sens ?
Cest moi qui souligne.

Cahiers de Grammaire 25 (2000)

15

Anne Condamines

lon veut faire et il parat trs difficile de dresser un inventaire complet de ces
critres, en tout cas pour le moment. Il est vrai aussi que, dans la plupart des
projets dans lesquels nous sommes impliqus, nous travaillons sur des corpus
beaucoup moins volumineux que ceux de Biber (qui a men son tude sur un
corpus constitu de 481 textes reprsentant 23 genres), il faut donc
caractriser beaucoup plus finement les sous-corpus ventuels pour faire
merger des distinctions. En revanche, et cest ce qui peut tre conserv de
lanalyse la Biber , il est vident que le premier travail faire est celui
dune caractrisation du corpus tudier, a priori, visant prendre en
considration le maximum dinformation sur lobjectif de sa rdaction, le
statut des rdacteurs, des destinataires
Finalement, l o on croyait tenir un lment stable (les critres extralinguistiques de constitution des corpus), il savre quil faut aussi envisager
la variabilit qui intervient surtout en fonction du rle que lon veut faire
tenir au corpus.
4. Les corpus dans une discipline longtemps considre comme
marginale pour la smantique : la terminologie

16

Cest par le biais de travaux que nous avons mens sur la terminologie
(lors de notre participation au projet europen Eurolang), dans le cadre du
laboratoire ARAMIIHS (1991-1993), que la problmatique de lanalyse de
corpus a merg dans lERSS, ce qui a conduit la cration dune opration
sur cette thmatique.
Le constat que jai pu faire ce moment-l, sur les travaux en
terminologie tait assez inquitant : la plupart dentre eux avaient une vise
strictement applicative, le plus souvent dans la perspective de la traduction.
Aujourdhui encore, la plupart des enseignements en terminologie se font
dans le cadre de dpartements de LEA (Langues Etrangres Appliques).
Quelques travaux plus linguistiques existaient, soit en lexicologie scientifique
et technique, soit sur les sous-langages. Mais, eux, en revanche, ne prenaient
pas toujours en compte la dimension applicative, pourtant quasiment
incontournable dans des travaux en terminologie. Dans leur majorit, les
travaux existants (et cest encore en partie vrai aujourdhui) faisaient preuve
dune grande ignorance (dlibre ou non) du fonctionnement linguistique5.
En effet, les langues spcialises taient considres comme ayant un
fonctionnement particulier, loign des pollutions prtendument propres la
langue gnrale (ambiguts, polysmies). Ces travaux sinscrivaient dans
la suite des travaux de celui qui est considr comme le fondateur de la
terminologie dans les annes 30 : Eugen Wuster, qui avait une vision trs
idalise des langues spcialises.
5

Quelques auteurs cependant se plaaient clairement dans une perspective


linguistique, comme P. Lerat ou J. Sager, mais le rle des corpus dans la
constitution de terminologie ntait pas problmatis.

Cahiers de Grammaire 25 (2000)

Les bases thoriques du groupe Smantique et Corpus

Dans ce type de travaux en effet, le sens est dangereux car on ne peut le


contrler : jusqu une date rcente, la linguistique na fait valoir que
lvolution libre, non dirige, de la langue. Cest lusage effectif de cette
dernire qui, dans la langue commune, sert de norme. On peut appeler cette
norme la norme descriptive. En revanche, en terminologie, fertile en notions
et en termes, cette volution libre de la langue mne une confusion
inacceptable (Wuster 1981, 65). Du coup, et cest encore vrai
aujourdhui, une grande partie de lnergie (et des capitaux) est employe
constituer des normes, tout particulirement dans les pays o une langue
semble menace par lhgmonie dune langue dominante (par exemple, au
Qubec (Montral) ou en Catalogne (Barcelone)). Beaucoup de travaux en
terminologie sont ainsi issus de la traduction. Notons cependant qu ct de
travaux normatifs, se dveloppent aussi dans ces pays des travaux plus
thoriques, qui bien souvent dsormais sancrent dans une rflexion
linguistique (voir dans ce numro les articles de J. Pearson et M.-C.
LHomme).
Les travaux se basant sur une approche la Wuster mettent la
priorit sur les domaines, dfinis a priori, et sur les concepts, galement
dfinis a priori et considrs comme stables. Dans les cas extrmes, les
termes ne sont plus que des tiquettes de concepts quasiment vids de leur
contenu smantique (exemple, cette dfinition de lOLF (Office de la Langue
Franaise) : Le terme se dfinit comme unit signifiante constitue dun
mot (terme isol) ou de plusieurs mots (termes complexes) qui dsigne un
concept, de faon univoque lintrieur dun domaine . Ds lors, ltude
de la terminologie sloigne trs nettement dune perspective linguistique qui
tient compte de la ralit des faits et non de postulats, et ltude des corpus
joue les trouble-fte. On prfre demander des experts de dvoiler les
concepts du domaine, quils sont censs matriser parfaitement.
Seules, quelques catgories de travaux ont pris en compte les corpus dans
ltude terminologique (par exemple ceux de Kocourek 1991). Je
mattarderai plus particulirement sur les travaux de R. Kittredge, sur les
sous-langages, ou ceux de L. Guespin puis de F. Gaudin (Rouen) en
socioterminologie. Ces travaux sont beaucoup plus proches de la ralit
linguistique du fonctionnement terminologique que ceux prcdemment
mentionns.
Les travaux en socioterminologie ont demble pris en compte la
dimension sociale de lanalyse terminologique et le ncessaire recours
ltude de corpus :
Ceci dbouche sur la ncessit dune analyse de discours
spcialiss vers laquelle doit sorienter la socioterminologie. Pour ce
faire, il importe dexploiter les acquis de la lexicologie structurale pour
mener des analyses fines sur des corpus spcialiss (Gaudin 1993,
180).

Cahiers de Grammaire 25 (2000)

17

Anne Condamines

18

Les travaux sur les sous-langages prsentent un intrt certain ; bien


quils ne soient pas particulirement orients vers lanalyse lexicale mais vers
la mise au jour de grammaires spcifiques ces sous-langages, ils peuvent
contribuer au reprage dlments lexicaux et de relations entre ces
lments :
The sublanguage grammar is more than just a linguistic
characterization of the texts. The lexical classes and the hierarchical
relations between the classes usually reflect the accepted taxonomy
which the specialized field of knowledge imposes on the objects of its
limited domain of discourse. (Kittredge 1982, 112).
Malheureusement, malgr leur qualit, et malgr les revendications de
leurs auteurs, ces travaux sont souvent considrs comme marginaux par les
smanticiens, au mieux comme relevant dune linguistique applique,
ncessairement moins noble quune linguistique thorique. Or, on peut
considrer que lanalyse de corpus spcialiss pour en identifier la
terminologie nest pas autre chose que de lanalyse de corpus, tout
particulirement examins dans leur dimension smantique. Corpus
spcialis ou non, le mme type de questions se pose :
critres de constitution du corpus,
objectif de ltude,
gnralisation des rsultats,
lien entre stabilit et variation.
Dans les travaux que nous menons Toulouse, la nature spcialise des
corpus nest quune des caractristiques, certes importante, des corpus. Mais
cest une caractristique qui interpelle la linguistique sur des questions
quelle a soigneusement vites comme la prise en compte de lobjectif de
ltude dans linterprtation smantique ou mme le rle social de la
linguistique. On retrouve peut-tre l le lien avec le rel que G. Kleiber
appelle de ses vux et pourtant, cette faon de voir le rel loigne encore un
peu plus dune vision stable du sens puisquelle suppose de prendre en
compte, pour linterprtation smantique, non seulement le co-texte et le
contexte du (des) rdacteur(s) et du (des) lecteur(s) mais aussi le contexte de
linterprtation (on retrouve cette ide dans Rastier (1994) : Linterprtation
elle-mme est situe. Elle prend galement place dans une pratique sociale, et
obit aux objectifs dfinis par cette pratique. Ils dfinissent leur tour les
lments retenus comme pertinents , p. 13).
Llment rcurrent dans les travaux en terminologie est la notion de
concept qui me semble poser des questions nouvelles la linguistique,
justement en lien avec la prise en compte du rel. On peut penser en effet
quon passe du sens au concept grce une interprtation qui prend en
compte lobjectif de ltude. Cet objectif est lui-mme pris en considration
au moment de la constitution du corpus. Ainsi lanalyse de corpus pour la
constitution de terminologies peut tre considre comme une analyse

Cahiers de Grammaire 25 (2000)

Les bases thoriques du groupe Smantique et Corpus

smantique qui vise mettre au jour les concepts, cest--dire de contenus


informationnels, en lien avec des applications, cest--dire de signifis
retenus pour leur pertinence par rapport lobjectif vis. La question est alors
de savoir si la diversit des applications est telle que chacune delles
ncessite que soit reconsidr le corpus et lanalyse refaite ou bien si lon
peut imaginer une stabilit dans les applications qui permette de faire un
travail de reprage maximal de termes (cest--dire dlments linguistiques
ayant un contenu informationnel) une fois pour toutes, quitte refaire un tri
ventuel pour des applications moins exigeantes. Nous retrouvons ici une
problmatique trs semblable celle de lIngnierie des Connaissances (cf.
5.2).
En dix ans, beaucoup de progrs ont t raliss sur lanalyse
linguistique de corpus spcialiss dans une perspective terminologique. De
nombreux travaux dsormais revendiquent une analyse de corpus
systmatique pour reprer la terminologie. Cependant, il reste beaucoup
faire car dun ct, la tradition positiviste en terminologie est encore trs
vivace, de lautre, lanalyse de corpus, tout particulirement lanalyse
smantique, commence seulement tre accepte comme posant des
questions la thorie linguistique alors quelle a t relgue pendant
longtemps du ct de la linguistique applique.
5. Smantique et informatique : les corpus et le traitement informatique
Les liens de lopration Smantique et Corpus avec linformatique sont
trs troits. Nous travaillons tous de manire suivie avec des informaticiens,
tout particulirement des informaticiens de lIrit (Institut de Recherche en
Informatique de Toulouse). Par ailleurs, plusieurs dentre nous ont soutenu
des thses en informatique (C. Fabre, N. Hathout, L. Tanguy). Nous sommes
galement trs actifs dans la communaut TAL et IA puisque nous
participons rgulirement des colloques de TAL ou dIngnierie des
Connaissances, des groupes de recherche et des revues dans ces mmes
domaines, soit comme intervenants soit comme responsables. Enfin, une
filire TAL, rattache au Dpartement de Sciences du Langage, sest mise en
place depuis 1999 lUniversit Toulouse-Le Mirail.
5.1. Corpus et TAL
Le matriau textuel constitue la matire premire du traitement automatique
de la langue. En effet, mme sils sont labors de manire introspective, les
modles et les formalismes proposs par le TAL ont pour vocation dtre
tests sur des donnes relles. Ce matriau textuel prend des formes
diffrentes selon les perspectives :
A) Pour lanalyse morphologique et syntaxique, la dimension textuelle
dune langue est souvent considre comme homogne ; aucune diffrence

Cahiers de Grammaire 25 (2000)

19

Anne Condamines

nest alors faite en lien avec la nature du corpus traiter. Les tudes pour la
construction du formalisme ou du modle sont le plus souvent ralises
dabord par introspection et parfois ajustes en fonction de fonctionnements
attests, lobjectif tant la plus grande efficacit. Dans cette perspective
defficacit dailleurs, les approches statistiques les plus rcentes tiennent
compte du fonctionnement en corpus en recourant un entranement sur une
partie du corpus analyser.

20

B) Pour lanalyse smantique, deux approches sopposent. Lune,


fonctionnant sur la mme ide dune homognit de la langue, essaie de
construire des systmes gnraux dinterprtation smantique. Les projets
visant construire des grands rseaux smantiques utilisables comme entre
pour des outils de TAL, comme Wordnet et maintenant Eurowordnet,
sinscrivent clairement dans cette perspective. Les outils construits ont alors
pour ambition de permettre linterprtation de nimporte quel corpus,
considr comme une instance du modle de la langue pr-construit (vision
descendante). Les rsultats sont la mesure de la vision uniforme des
problmes : souvent inadapts ou ne correspondant quen partie la
demande.
Ce point de vue trouve un soutien considrable dans la demande sociale
concernant la recherche dinformations sur internet. En effet, tant donn que
quasiment nimporte quel type de demande peut tre faite (dans nimporte
quel type de domaine, avec nimporte quel niveau de connaissances), il est
impossible de tenir compte de toutes les variations possibles. Dans ce type
dapproche, la solution qui semble la mieux adapte, en tout cas pour
linstant, est de proposer un systme homogne, suppos robuste car
adaptable quelle que soit la question.
Lautre approche, en lien avec la prise en compte de caractristiques
des corpus traiter, soppose cette vision globalisante du fonctionnement
smantique qui peut occulter le fonctionnement propre dun corpus. Comme
la caractrisation a priori de tous les genres de corpus nest pas possible, les
outils constitus dans ce courant visent faire merger des fonctionnements
propres au corpus ltude en laissant lutilisateur le soin den donner une
interprtation smantique. Les deux outils raliss dans lEquipe : Syntex, qui
repre les syntagmes nominaux et les syntagmes verbaux (voir larticle de
Didier Bourigault et Ccile Fabre dans ce numro), et Yakwa (Ludovic
Tanguy), qui permet de faire des interrogations sur corpus tiquet,
sinscrivent dans cette vision. Une cohrence se cre ainsi entre les travaux
des linguistes de lopration, qui partent du postulat dun fonctionnement
propre chaque corpus, et ces outils qui peuvent tre utiliss pour analyser ce
fonctionnement. Ce point de dpart de lanalyse smantique de corpus ne se
basant sur aucun prsuppos smantique nous permet dancrer nos approches
sur des observables, ce qui donne une assise solide nos conclusions. Nous
sommes bien conscients dans le mme temps des questions que soulve cette

Cahiers de Grammaire 25 (2000)

Les bases thoriques du groupe Smantique et Corpus

approche : sparation entre syntaxe et smantique, problme de la


gnralisation des rsultats.
La sparation entre syntaxe et smantique. Les deux outils construits
dans lquipe utilisent en entre un corpus tiquet avec un tiqueteur
gnral qui ne tient pas compte de la nature du corpus (mme si les
informaticiens de lquipe interviennent parfois pour forcer les analyses
de ltiqueteur afin de tenir compte des caractristiques du corpus). Une
contradiction apparat ainsi entre un fonctionnement smantique
considr comme dpendant du corpus et un fonctionnement syntaxique
considr comme indpendant, comme si syntaxe et smantique
pouvaient tre ce point dconnectes, comme si la stabilit tait toute
entire du ct de la syntaxe et la variation du ct de la smantique.
Or, nous savons bien que la variation smantique a une influence sur le
comportement syntaxique. Mthodologiquement, nous sommes obligs
de partir dune stabilit syntaxique, considre comme plus grande
quen smantique, pour nous appuyer sur elle et mettre au jour des
variations smantiques, variations qui, leur tour, sont tudies dans
leur dimension syntaxique. La mise au jour de variations smantiques
est un de nos principaux objectifs. Il ne sagit pas pour autant dcarter
toute rgularit smantique, dune part parce que nous visons souvent
dcrire tout le fonctionnement smantique dun corpus, dautre part
parce que nous nous appuyons sur cette rgularit dun corpus lautre,
pour mieux mettre en vidence les variations. La difficult vient de ce
que nous ne savons pas toujours a priori quels lments vont
fonctionner de manire rgulire et lesquels vont avoir un
fonctionnement inattendu. Ce constat est videmment frustrant pour le
linguiste qui cherche identifier des rgularits. Le problme de la
gnralisation des rsultats est ainsi crucial pour nous.
Le problme de la gnralisation. Pouvoir gnraliser un rsultat
suppose que les rsultats obtenus pour un corpus peuvent tre utiliss
en entre dune analyse dun corpus du mme type, voire, en entre
dun outil ayant pour objectif une analyse smantique. La difficult est
alors de sassurer de la similitude des corpus. En fait, la gnralisation
ne semble possible que lorsque ltude a t ralise sur un corpus
constitu spcifiquement pour cela : les tests sont faits sur des souscorpus constitus en faisant varier diffrents lments de domaine ou de
genre ; lobjectif est didentifier une corrlation entre tel
fonctionnement et tel(s) trait(s) du corpus.
Le traitement des corpus en TAL est un thme dactualit. En peu de
temps, (et on note une volution assez nette par rapport la description faite
dans leur livre par Habert/Nazarenko/Salem sur les linguistiques de corpus
(1997)), on ne compte plus, en France et ltranger, les publications ou les
colloques qui ont ce thme pour axe principal. Il est dailleurs assez tonnant

Cahiers de Grammaire 25 (2000)

21

Anne Condamines

22

que cette proccupation ne prenne son importance que depuis les annes 90
alors que la dimension textuelle pour le TAL est ce point incontournable. Il
est tonnant aussi que cet engouement saccompagne dun sentiment
dinnovation alors que les corpus sont utiliss en linguistique depuis bien
longtemps : au moins depuis le XIXme sicle pour ce qui est de la description
compare des langues et tout le moins depuis le dbut ou la moiti du
XXme sicle en dialectologie ou en sociolinguistique, disciplines qui, il est
vrai, ntaient pas considres comme les plus centrales de la linguistique6.
Ce qui est nouveau sans doute, cest que le travail sur corpus vient
maintenant interroger la linguistique (mais aussi le TAL) au cur mme de
sa problmatique : ltude smantique. Il y a ainsi une volution parallle
entre le TAL et la linguistique qui sintressent tous deux lanalyse de
corpus. Pour autant, il serait dangereux de penser quil ny a aucune
diffrence entre linguistique de corpus et TAL et corpus . La
problmatique de la linguistique de corpus est une problmatique avant tout
descriptive, qui sinterroge sur le rle des corpus. Dans cet objectif, et surtout
lorsqu'il s'agit de traiter des grands corpus, lutilisation doutils est
indispensable, elle permet dailleurs souvent de mettre en vidence
rapidement des phnomnes (rapprochements de distributions, par exemple)
qui seraient difficilement visibles lil nu . Pour le TAL, lutilisation
des corpus est demble associe, dune part une recherche defficacit
(parce que le postulat dun systme smantique gnral nest pas toujours
satisfaisant) et dautre part une application informatique. Or, mme dans un
contexte industriel, la demande ne concerne pas toujours la ralisation dun
outil ; elle concerne souvent lanalyse de corpus en tant que telle, pour
identifier des cas dambiguts, dincohrences ou pour faire des
comparaisons de corpus. Lanalyse effectuer se rapproche alors de ce quon
a pu appeler lergonomie linguistique (Rastier 1994) (et la linguistique de
corpus aurait sans doute intrt se situer aussi par rapport cette discipline lergonomie - qui a, depuis longtemps, lexprience du terrain). Les outils
ninterviennent alors que comme aides dans une analyse qui relve part
entire de lanalyse smantique.
Les deux types dapproches : linguistique de corpus et TAL et
corpus ne sont ainsi pas toujours compatibles dans leurs objectifs : un outil
peut bien fonctionner sans beaucoup de connaissances linguistiques ;
inversement, les outils sont parfois peu utiles pour des analyses smantiques
trs fines (voir larticle de M.-P. Jacques dans ce numro). Il est ncessaire
davoir conscience de ces limites ce qui permet de dfinir les points de
6

Il est probable que les travaux des gnrativistes, la suite de Chomsky qui
sopposait formellement la prise en compte des variations prfrant considrer
un locuteur idal, nont pas contribu la prise en compte de lanalyse de
corpus rels. Lvolution actuelle est due, en grande partie, lvolution des
moyens techniques (corpus disponibles en format lectronique et outils
danalyse), et la demande sociale danalyse de ces corpus.

Cahiers de Grammaire 25 (2000)

Les bases thoriques du groupe Smantique et Corpus

collaboration possibles et de ne pas introduire de confusion entre les


problmatiques du TAL et de la linguistique. Cest lobjectif que nous visons
dans lopration : arriver dfinir au plus juste ce que peut tre une
smantique de corpus et, dans le mme temps, circonscrire les champs de
collaboration possible avec le TAL (cf. article Tanguy/Rebeyrolle dans ce
numro).
5.2. Corpus et IA
En IA, les corpus, particulirement les corpus spcialiss, concernent les
chercheurs qui travaillent sur lacquisition de connaissances partir de textes
(voir larticle de N. Aussenac-Gilles et P. Sgula dans ce numro). Il sagit
pour eux de reprer la fois les concepts quils vont pouvoir retenir pour
modliser le domaine de connaissances sur lequel ils travaillent et les noms
quils pourraient utiliser comme tiquettes de ces concepts.
On retrouve pour lIA une volution assez comparable celle du TAL
dans la prise en compte des corpus. De nombreux chercheurs considrent
dsormais quil ne sagit plus de traiter le raisonnement dans son ensemble
mais didentifier des applications, que lon prend en compte trs tt dans le
processus de constitution de la base de connaissance (voir Charlet et al
2000). Si bien que lon ne parle plus prsent dIntelligence Artificielle mais
dIngnierie des Connaissances (IC). Il ne sagit plus de faire des systmes
gnraux de raisonnement mais, tant donn un besoin, de trouver les
moyens informatiques qui vont permettre daider la rsolution de ce besoin.
Dans cette volution, le rle des textes sest trouv renforc, tout
particulirement en France, sous limpulsion du groupe TIA (Terminologie et
Intelligence Artificielle)7, que D. Bourigault et moi-mme avons constitu en
1993, et dans lequel sest labore une rflexion conjointe sur le rle des
corpus pour acqurir de la connaissance en IC et sur le rle de lapplication
pour interprter un texte en linguistique.
En effet, ct dontologies gnrales, censes reprsenter le monde,
commun lensemble des humains supposs avoir le mme type de
perception et donc de reprsentation, la prise en compte des corpus et de leur
nature dans la recherche des concepts a conduit la notion dontologie
rgionale valable seulement localement, rgionalement, dans le cadre dun
domaine et dune tche (Bachimont 2000, 315).
Le paralllisme entre le TAL et lIngnierie des Connaissances partir
de textes est ainsi trs net et deux approches sopposent entre rseau
smantique gnral/ontologie gnrale dune part et rseau smantique
propre un corpus/ontologie rgionale dautre part (mme si les formalismes
mis en uvre dans lun et lautre cas ne sont pas les mmes : formalismes
syntaxiques pour le TAL (HPSG, LFG) et formalismes de reprsentation
7

http://www.biomath.jussieu.fr/TIA/

Cahiers de Grammaire 25 (2000)

23

Anne Condamines

24

des connaissances pour lIC (logiques de description, Graphes


conceptuels)). La question qui se pose la linguistique de corpus sous la
forme de la gnralisation des rsultats se pose pour le TAL et lIC en terme
de rutilisabilit. En revanche, la vision dichotomique propos du rle des
corpus, qui oppose assez nettement les chercheurs aussi bien en IA quen
TAL, ne me semble pas aussi nette en linguistique, peut-tre parce que la
question sy pose depuis bien plus longtemps quen informatique, en tout cas
de manire sous-jacente, travers le problme de la variation. Pour
emprunter la terminologie de Rcanati (Rcanati 1997), entre les fixistes
radicaux et les contextualistes tout aussi radicaux, finalement assez rares, un
large ventail de points de vue existe et chaque chercheur, en fonction de son
exprience et de sa rflexion se situe plutt dun ct ou de lautre, les
linguistes ayant une pratique des corpus se situant nettement du ct des
contextualistes. Pour linformatique, ce qui prime est lefficacit des
traitements, ce nest pas la qualit de la description linguistique qui est
recherche : une description linguistique trop fine peut mme tre un
handicap dans certains cas et des approches probabilistes, sans aucune
connaissance linguistique peuvent tre plus efficaces que des approches
utilisant les rsultats de la linguistique.
La difficult vient alors du problme de la validation dune description
linguistique. L o linformatique peut avoir pour validation un a
marche encourageant, y compris pour les linguistes qui ont particip la
conception de loutil, la validation en linguistique, tout particulirement en
smantique est bien plus difficile obtenir, ce qui rend sans doute cette
discipline plus austre et moins ostentatoire que linformatique. La
psycholinguistique est peut-tre une manire de validation, mais il peut y
avoir dans cette discipline une recherche de reconnaissance scientifique
qui peut biaiser les exprimentations8. Dautres moyens, sans doute moins
radicaux, me semblent retenir :
Le fait que des rsultats obtenus pour un corpus ayant telle
caractristique de domaine et de genre se retrouvent dans un corpus
ayant les mmes caractristiques.
Lorsque lanalyse a t faite en fonction dune demande prcise, le fait
que les rsultats obtenus sur un corpus satisfassent les demandeurs et
leur apportent un plus dans la comprhension de leurs problmes en lien
avec du matriau textuel.
Le fait quune communaut de linguistes, partageant une pratique et une
connaissance du matriau textuel accordent une pertinence relle aux
rsultats obtenus.

Au fond, on peut se demander si la recherche de validation scientifique est


compatible avec le travail en smantique tant le sens parat parfois loign de la
notion de vrit unique.

Cahiers de Grammaire 25 (2000)

Les bases thoriques du groupe Smantique et Corpus

Au fond, assez peu dlments qui garantissent la vrit des


rsultats mais beaucoup qui encouragent la modestie et surtout, la mise en
place de projets nouveaux qui permettent de dvelopper une approche qui
nen est qu ses balbutiements. En tout cas, beaucoup dlments qui
rappellent que la linguistique, tout particulirement examine du point de vue
de la smantique est avant tout une discipline qui relve des sciences
humaines et sociales.
6. Conclusion
Au terme de cette rflexion sur les travaux qui balisent le thme de recherche
de lopration Smantique et Corpus , il me semble que lon peut rsumer
ainsi les points qui nous fdrent :
Le corpus comme lieu dtude
Que ce soit pour la constitution de produits terminologiques, pour la
construction de logiciels, pour lanalyse de certains phnomnes smantiques
(nominalisation, polysmie, ellipses, reprage de relations conceptuelles),
notre matriau dtude est un corpus. Il ne sagit pas seulement de vrifier
des intuitions mais essentiellement de faire merger des rgularits partir du
matriau textuel. Dans cette perspective, la constitution du corpus est une
question part entire selon que lon vise une application particulire ou bien
une gnralisation des rsultats obtenus dautres corpus ayant les mmes
caractristiques extra-linguistiques.
Le problme de la gnralisation des rsultats
La possibilit de gnraliser les rsultats dautres corpus se fonde sur lide
que les rgularits observes sur un corpus se retrouvent aussi sur un autre
corpus du mme type. Cette possibilit permet une prdictibilit des
fonctionnements et rend possible le traitement automatique et lenseignement
de ces rgularits. Ce que lon ne sait pas bien pour linstant, cest si une telle
mthode ascendante a un sens pour dcrire le fonctionnement smantique
dune langue, mme si lon prend en compte des notions comme le domaine,
le genre Il semble quil existe un continuum entre fonctionnements
totalement imprdictibles et lis un corpus et/ou une application et
fonctionnements totalement prdictibles, indpendants de caractristiques
extra-linguistiques. On mesure mal actuellement la part de prdictible et
dimprdictible que lon va trouver dans un corpus. On peut esprer que les
travaux sur corpus se dveloppant, la part de prdictible augmentera mais il
est vraisemblable que la part dimprdictible ne disparatra jamais
compltement (ce qui ne veut pas dire que cette part-l sera inaccessible mais
quil faudra mettre en uvre des tudes chaque fois nouvelles pour y
accder ; en revanche la mise en uvre de ces tudes pourra, elle, tre
beaucoup plus systmatise).

Cahiers de Grammaire 25 (2000)

25

Anne Condamines

Le rle du contexte dans linterprtation smantique


Le problme de la constitution du corpus oblige sinterroger sur le statut
quon lui donne et par consquent sur lobjectif de ltude que lon va mener.
En effet, selon que lon rpond une demande dentreprise ou que lon
construit un corpus pour caractriser tel fonctionnement linguistique, les
possibilits et les contraintes (disponibilit des corpus par exemple) ne sont
pas les mmes. Dans tous les cas pourtant, on aborde des questions de
smantique, qui apparaissent comme indissociables du contexte (social,
scientifique) dans lequel et pour lequel les textes du corpus ont t
labors. Dans cette perspective, si un fonctionnement smantique peut
apparatre comme indpendant dun contexte, cest plutt parce que lon a
identifi une rgularit de fonctionnement dun corpus lautre, cest--dire
dun contexte lautre. On peut dailleurs penser que lorsquon essaie
didentifier le sens dun mot, dans labsolu, on essaie de classifier lensemble
des contextes o on la rencontr pour dcider en faveur dune ou plusieurs
classes de fonctionnements, cest--dire en fonction dun ou plusieurs sens.
Ainsi, dans le cas dun dictionnaire de langue gnrale, on suppose que tous
les locuteurs dune langue ont peu ou prou le mme type dexpriences
smantiques et donc quils neutralisent de la mme faon le rle du contexte.
Do un certain nombre dinadquations avec les fonctionnements rellement
constats lorsquon travaille sur des corpus, en particulier des corpus
spcialiss.

26

Les rapports entre information et sens


Lanalyse de corpus passe ncessairement un moment ou un autre par une
tude et mme un classement des contextes. En ce sens, on peut dire que
lanalyse de corpus est toujours de type distributionnel. Il est ncessaire alors
de rapprocher ou de distinguer des contextes afin didentifier des classes de
fonctionnements, soit sur des bases strictement formelles, comme le fait
lanalyse automatique, soit en faisant intervenir des connaissances
smantiques a priori pour reprer des similarits malgr des diffrences de
forme. Dans cette seconde optique, il est probable que la similarit concerne
plutt le contenu informationnel que le contenu smantique. Cest encore
plus net lorsquon travaille sur des corpus spcialiss, en lien avec des
applications. On gagne sans doute en efficacit mais on sloigne du sens qui,
au bout du compte, peut sembler totalement hors daccs (cest dailleurs
lhypothse que faisait Harris, en tout cas dans ses premiers travaux).
Le problme de la validation des rsultats
Comme je lai dit, on peut trouver dans la confrontation avec nos pairs
linguistes ou avec nos interlocuteurs sociaux une validation ou une
invalidation de nos rsultats. Reste savoir si nous validons alors des
rsultats de smantique. En tout cas, cette question de la validation,
problmatique sans doute pour toutes les disciplines humaines , qui

Cahiers de Grammaire 25 (2000)

Les bases thoriques du groupe Smantique et Corpus

aimeraient se voir accorder le statut de sciences, interpelle tout


particulirement la smantique, spcialement lorsquelle accepte de prendre
en compte la ralit des corpus9.
Nous avons bien conscience de possibilits dtudes nouvelles qui sont
offertes par la mise disposition de corpus et surtout doutils pour les tudier.
La smantique, dj la plus rcente des disciplines linguistiques, se trouve
ainsi interpelle sur des questions fondamentales. Nous avons la chance
Toulouse davoir pu constituer un groupe homogne, qui a maintenant une
exprience suffisamment longue danalyse de corpus pour avoir un peu de
recul sur ces questions. Laventure ne fait que commencer et elle est riche de
promesses.

Rfrences bibliographiques
Bachimont, B. (2000), Engagement smantique et engagement
ontologique : conception et ralisation dontologie en ingnierie des
connaissances , in J. Charlet, M. Zacklad, G. Kassel & D. Bourigault
(ds), Ingnierie des Connaissances, Evolutions rcentes et nouveaux
dfis, Paris, Eyrolles.
Benveniste, E (1966), Problmes de linguistique gnrale, 1, Paris,
Gallimard.
Biber, D. (1988), Variation across speech and writing, Cambridge University
Press.
Bloomfield, L. (1965), Language, Printed in Great britain By the Compton
Printig Works (first published in Great Britain, 1935).
Charlet, J., Zacklad, M., Kassel, G. & Bourigault, D. (2000), Ingnierie des
Connaissances, Evolutions rcentes et nouveaux dfis, Paris, Eyrolle et
France Tlcom.
Dachelet, R. (1994), Sur la notion de sous-langage, Thse en sciences du
langage de lUniversit Paris VIII.
Deulofeu, J. (1992), Variation syntaxique : Recherche dinvariants et tude
des attitudes des locuteurs devant la norme , in Langages 108,
Htrognit et variation : Labov, un bilan , pp. 66-78.
Firth, J.R. (1969), Papers in Linguistics 1934-1951, Oxford University Press,
(premire dition, 1957).
Gaudin, F. (1993), Pour une socioterminologie, Publications de lUniversit
de Rouen n182.
Greimas, A. (1966), Smantique structurale, Paris, Larousse.
9

Il se peut dailleurs que la crainte de sloigner dune vision considre comme


scientifique joue un rle de frein dans lutilisation des corpus en linguistique.
Chomsky avait clairement fait le choix dun locuteur idal pour garantir la
scientificit de lapproche linguistique.

Cahiers de Grammaire 25 (2000)

27

Anne Condamines

28

Habert, B., Naulleau, E., & Nazarenko, A. (1996), Symbolic Word


Clustering for Medium-Size Corpora , in Proceedings of the 16 th
International Conference on Computational Linguistics (Coling96),
Copenhague, vol. 1, pp. 490-495.
Habert, B., Nazarenko, A., & Salem, A. (1997), Les linguistiques de corpus,
Paris, Armand Colin.
Harris, Z. (1966), Structural linguistics, The University of Chicago Press,
seventh edition (first edition, 1951).
Kittredge, R. (1982), Variation and Homogeneity of Sublanguages , in R.
Kittredge & J. Lehrberger (eds), Sublanguage : Studies of language in
Restricted Semantics Domains, Berlin, New York, de Gruyter, pp. 107137.
Kleiber, G. (1981), Problmes de rfrence : Descriptions dfinies et noms
propres, Paris, Klincksieck.
Kleiber, G. (1999), Problmes de smantique, la polysmie en question,
Paris, Villeneuve dAsq, Presses Universitaires du Septentrion.
Kocourek, R. (1991), La langue franaise de la technique et de la science,
(2me dition, 1982), Wiesbaden, Brandestetter.
Lyons, J. (1980), Smantique linguistique, Paris, Larousse.
Rastier, F. (1987), Smantique interprtative, Paris, PUF.
Rastier, F. (1991), Smantique et recherches cognitives, Paris, PUF.
Rastier, F. (1995), Le terme : Entre ontologie et Linguistique , in La
Banque des mots 7, Numro spcial Terminologie et Intelligence
Artificielle , pp. 35-64.
Rastier, F., Cavazza, M., & Abeill, A. (1994), Smantique pour lanalyse,
De la linguistique linformatique, Paris , Masson.
Rcanati, F. (1997), La polysmie contre le fixisme , in Langue
Franaise, P. Cadiot, & B. Habert (ds), Aux sources de la polysmie
nominale , n 113, pp. 107-123.
Wuster, E. (1981), Ltude scientifique gnrale de la terminologie, zone
frontalire entre la linguistique, la logique, lontologie, linformatique
et les sciences des choses , in G. Rondeau & H. Felber (ds), Textes
choisis de terminologie, GIRSTERM, Universit de Laval, Qubec,
pp. 55-108.

Cahiers de Grammaire 25 (2000)

You might also like