Professional Documents
Culture Documents
Smantique et Corpus :
ancrages et perspectives
Anne Condamines*
This paper presents the most important research trends in which the studies
of the group Semantics and corpora are situated. The role of corpora is
examined from the point of view of four approaches : essentially
linguistic semantics, anglo-saxon semantics, terminology and data
processing (NLP and AI). The presentation, although personalized by the
view of the author, aims to bring out the main issues federating the work of
the group.
Anne Condamines
1. Introduction
Avant dopter pour son nom actuel, Smantique et Corpus , en 1999, le
groupe toulousain constitu en 1993 autour dAndre Borillo et de moi-mme
a pris successivement les noms suivants : Langages spcialiss et
terminologie , Traitement automatique en langues de spcialit :
Terminologie et organisation conceptuelle , Traitement automatique des
langues : terminologie et organisation conceptuelle . Cette volution des
appellations est due une volution de la thmatique, en grande partie en lien
avec larrive de lun ou lautre membre, recrut ou mut comme chercheur
ou enseignant-chercheur. Aussi, si laxe majeur qui nous runit dans cette
opration semble maintenant peu prs stabilis, pour en faire comprendre
loriginalit, il ma sembl ncessaire de montrer comment il a pu se
constituer partir des apports historiques de chacun des membres. Cest par
la prsentation des principaux courants de recherche dont nous nous inspirons
et des questions qui se posent en relation avec ces travaux que slabore cette
prsentation. Cette prsentation nest pas neutre ; pour chacun des travaux
voqus, je montrerai ce qui me semble intressant retenir et ce qui pose
question pour exposer en conclusion les axes autour desquels sorganise notre
rflexion.
Quatre directions fondamentales, un peu htrognes, seront ainsi
examines : les corpus dans la perspective dune smantique
essentiellement linguistique (deux exemples franais, les travaux de G.
Kleiber et ceux de F. Rastier), les corpus dans les travaux anglo-saxons, qui
sinscrivent dans une smantique relie la sociologie ou la psychologie, les
corpus dans les tudes en terminologie, enfin, les corpus et le traitement
automatique. Jessayerai de montrer en quoi ces divers travaux, malgr leur
diversit et parfois leurs contradictions nous conduisent une rflexion
fructueuse et renouvele sur le rle des corpus dans ltude du sens en
linguistique.
Anne Condamines
B) Dautre part, il arrive souvent que les conclusions proposes par les
tenants de lapproche rfrentielle et constitus sur la base dexemples
forgs, soient revoir ds que lon examine des corpus dans lesquels
apparaissent des exemples correspondant des cas a priori considrs
comme non-valides. Prenons lexemple du dterminant chaque que lon
considre comme inapte exprimer la gnricit, (le test du dtachement et
de la reprise par cest ne semble pas fonctionner (*chaque N, cest). Il se
trouve que dans sa thse sur la dfinition (Forme et fonction de la dfinition
en discours, Thse de lUniversit Toulouse Le Mirail, 2000), J. Rebeyrolle
fait part dun exemple avec chaque qui exprime la gnricit : On appelle
terrassettes de petits gradins de quelques centimtres spars par des replats
dont la largeur est du mme ordre. Chaque gradin est un plan de cisaillement
entre deux paliers qui saffaissent.
pas par exemple de refuser les descriptions qui ont t faites des dterminants
gnriques) condition que lon accepte de les rexaminer, la lumire de
lanalyse de corpus ; condition au fond daccepter quapparaissent des
phnomnes qua priori nous naurions pas cru ralisables et qui semblent
nanmoins intresser fondamentalement la question du sens, et pas seulement
des effets locaux .
2.2. La smantique interprtative de F. Rastier
Cest de manire beaucoup plus rcente que les travaux de F. Rastier sont
utiliss comme une des rfrences dans lquipe. Cela correspond larrive
de D. Bourigault puis de L. Tanguy dans lquipe, tous les deux fortement
nourris de la lecture des crits de Rastier. Ces travaux sinscrivent dans le
courant de la smiotique textuelle initi par Greimas (Greimas 1966) ; ils
revendiquent la fois une filiation avec Saussure, dont ils reprennent lide
de systme et de diffrences, et une vision nouvelle par le biais de la
smantique textuelle. Certaines des propositions de Rastier sont
sduisantes et beaucoup sont partages par les membres de lopration
Smantique et Corpus :
Lunit danalyse est le texte : Lessentiel demeure de pouvoir traiter
par une thorie unifie des paliers smantiques du morphme, de
lnonc, et du texte Dans la perspective choisie, le texte demeure
toutefois le palier primordial (Rastier 1987, 10).
La pratique de lanalyse de corpus fait en effet prendre conscience de
limportance de ce palier du texte et de la ncessit de prendre en
compte, un moment ou lautre de lanalyse smantique, ce qui fait
lhomognit et la cohrence dun texte.
Le contexte fait partie de la construction du sens, le contexte
linguistique et non linguistique est, en tant quinterprtant, constitutif
du message. On doit convenir du moins que, globalement comme
localement, le texte en reoit de multiples dterminations (Rastier
1991, 13). Dans cette perspective, il est pertinent didentifier des
corrlations entre des caractristiques extra linguistiques du texte et des
fonctionnements linguistiques (cf. travaux de Biber ci-dessous).
Dans un domaine plus spcialis, la construction dune terminologie
consiste en diffrentes oprations qui permettent de passer, partir dun
corpus, du mot au terme et du terme au concept (Rastier 1995).
Sans doute, une des principales qualits des travaux en smantique
interprtative est de proposer une vision unifie des recherches qui proposent
de prendre les corpus comme objet dtude et de situer ces travaux dans le
domaine de la smantique. En effet, ltude des corpus sert de base la
sociolinguistique, la dialectologie, lanalyse littraire, mais aussi une
grande partie des travaux en terminologie et il est tout fait pertinent de
Anne Condamines
10
analyses, elles portent presque toujours sur des textes littraires qui,
sans doute, se prtent plus facilement des interprtations multiples.
En fait, peu de linguistes franais se situent clairement dans le champ
de la thorie en smantique textuelle et, il est un peu gnant que la thorie
rastierienne soit la seule occuper ce terrain. Cette thorie a sduit de
nombreux chercheurs en linguistique, et mme en IA, bien quelle ne soit pas
dun abord facile, la fois parce que lauteur, dans sa grande culture, fait
appel un grand nombre de rfrences, et parce que les notions en jeu ne se
laissent pas matriser aisment, y compris tant donn la manire dont elles
sont formules. Si bien que lon peut facilement se rclamer de la smantique
diffrentielle ou de la smantique interprtative sans tre trs sr de se situer
dans la thorie dcrite par Rastier. Aucun de nous, dans lopration, nutilise
de manire exhaustive lappareillage de la smantique interprtative. En
revanche, beaucoup des grands principes labors par elle sont considrs
comme pertinents et inspirent nos travaux.
3. Les corpus dans la perspective dune smantique relie la sociologie
ou le psychologie : le courant anglo-saxon
Une caractristique des travaux anglo-saxons qui ont les corpus pour base
dtude est quils font appel, pour tablir les bases de leurs analyses
linguistiques, des concepts qui proviennent de disciplines connexes des
sciences humaines. Ainsi, si pour les linguistes post-saussuriens, mme pour
ceux qui sintressent lanalyse de textes comme Greimas, la langue est un
objet dtude part entire, les anglo-saxons font trs tt appel la sociologie
((Bloomfield 1935), (Firth 1969)) ou la psychologie ((Harris 1951),
(Chomsky 1971)) pour ancrer leurs hypothses. Les deux courants qui sont
les plus nettement prsents dans lopration sont dune part la thorie des
sous-langages et dautre part les analyses de corpus pratiques par Biber.
3.1. Le distributionnalisme de Z. Harris
Les premiers travaux faisant appel la thorie harrisienne dans lERSS sont
ceux dA. Borillo dans les annes 70.
Ds le milieu du XXme sicle, le principal apport de Harris est davoir
systmatis lanalyse des distributions des lments afin de dgager la
grammaire luvre dans un corpus. Un grand nombre doprations, de
rgularits, probablement mises en uvre de manire intuitive par les
comparatistes du XIXme sicle ont ainsi t mises au jour et explicites.
Lobjectif tait, par lapplication systmatique dun ensemble doprations,
sur la base de similitudes de distributions, aux niveaux phonologique et
morphologique, de constituer des classes de fonctionnement qui permettaient
de construire le noyau dur de la grammaire.
Lapport de Harris la linguistique est double :
11
Anne Condamines
12
13
Anne Condamines
14
Remarquons que llment majeur sur lequel butent les sociolinguistes pour
utiliser la thse variationiste de Labov en syntaxe est le fait quelle suppose que
les variations constituent different ways of saying the same thing , cest-dire quelles font intervenir des quivalences smantiques. Or, si ces
quivalences sont facilement acceptables en phonologie, elles le sont beaucoup
moins si on se place du point de vue de la syntaxe. On retrouve une question
que jvoque plusieurs fois au cours de cet article : peut-on accepter quil y ait
changement de forme sans changement de sens ?
Cest moi qui souligne.
15
Anne Condamines
lon veut faire et il parat trs difficile de dresser un inventaire complet de ces
critres, en tout cas pour le moment. Il est vrai aussi que, dans la plupart des
projets dans lesquels nous sommes impliqus, nous travaillons sur des corpus
beaucoup moins volumineux que ceux de Biber (qui a men son tude sur un
corpus constitu de 481 textes reprsentant 23 genres), il faut donc
caractriser beaucoup plus finement les sous-corpus ventuels pour faire
merger des distinctions. En revanche, et cest ce qui peut tre conserv de
lanalyse la Biber , il est vident que le premier travail faire est celui
dune caractrisation du corpus tudier, a priori, visant prendre en
considration le maximum dinformation sur lobjectif de sa rdaction, le
statut des rdacteurs, des destinataires
Finalement, l o on croyait tenir un lment stable (les critres extralinguistiques de constitution des corpus), il savre quil faut aussi envisager
la variabilit qui intervient surtout en fonction du rle que lon veut faire
tenir au corpus.
4. Les corpus dans une discipline longtemps considre comme
marginale pour la smantique : la terminologie
16
Cest par le biais de travaux que nous avons mens sur la terminologie
(lors de notre participation au projet europen Eurolang), dans le cadre du
laboratoire ARAMIIHS (1991-1993), que la problmatique de lanalyse de
corpus a merg dans lERSS, ce qui a conduit la cration dune opration
sur cette thmatique.
Le constat que jai pu faire ce moment-l, sur les travaux en
terminologie tait assez inquitant : la plupart dentre eux avaient une vise
strictement applicative, le plus souvent dans la perspective de la traduction.
Aujourdhui encore, la plupart des enseignements en terminologie se font
dans le cadre de dpartements de LEA (Langues Etrangres Appliques).
Quelques travaux plus linguistiques existaient, soit en lexicologie scientifique
et technique, soit sur les sous-langages. Mais, eux, en revanche, ne prenaient
pas toujours en compte la dimension applicative, pourtant quasiment
incontournable dans des travaux en terminologie. Dans leur majorit, les
travaux existants (et cest encore en partie vrai aujourdhui) faisaient preuve
dune grande ignorance (dlibre ou non) du fonctionnement linguistique5.
En effet, les langues spcialises taient considres comme ayant un
fonctionnement particulier, loign des pollutions prtendument propres la
langue gnrale (ambiguts, polysmies). Ces travaux sinscrivaient dans
la suite des travaux de celui qui est considr comme le fondateur de la
terminologie dans les annes 30 : Eugen Wuster, qui avait une vision trs
idalise des langues spcialises.
5
17
Anne Condamines
18
19
Anne Condamines
nest alors faite en lien avec la nature du corpus traiter. Les tudes pour la
construction du formalisme ou du modle sont le plus souvent ralises
dabord par introspection et parfois ajustes en fonction de fonctionnements
attests, lobjectif tant la plus grande efficacit. Dans cette perspective
defficacit dailleurs, les approches statistiques les plus rcentes tiennent
compte du fonctionnement en corpus en recourant un entranement sur une
partie du corpus analyser.
20
21
Anne Condamines
22
que cette proccupation ne prenne son importance que depuis les annes 90
alors que la dimension textuelle pour le TAL est ce point incontournable. Il
est tonnant aussi que cet engouement saccompagne dun sentiment
dinnovation alors que les corpus sont utiliss en linguistique depuis bien
longtemps : au moins depuis le XIXme sicle pour ce qui est de la description
compare des langues et tout le moins depuis le dbut ou la moiti du
XXme sicle en dialectologie ou en sociolinguistique, disciplines qui, il est
vrai, ntaient pas considres comme les plus centrales de la linguistique6.
Ce qui est nouveau sans doute, cest que le travail sur corpus vient
maintenant interroger la linguistique (mais aussi le TAL) au cur mme de
sa problmatique : ltude smantique. Il y a ainsi une volution parallle
entre le TAL et la linguistique qui sintressent tous deux lanalyse de
corpus. Pour autant, il serait dangereux de penser quil ny a aucune
diffrence entre linguistique de corpus et TAL et corpus . La
problmatique de la linguistique de corpus est une problmatique avant tout
descriptive, qui sinterroge sur le rle des corpus. Dans cet objectif, et surtout
lorsqu'il s'agit de traiter des grands corpus, lutilisation doutils est
indispensable, elle permet dailleurs souvent de mettre en vidence
rapidement des phnomnes (rapprochements de distributions, par exemple)
qui seraient difficilement visibles lil nu . Pour le TAL, lutilisation
des corpus est demble associe, dune part une recherche defficacit
(parce que le postulat dun systme smantique gnral nest pas toujours
satisfaisant) et dautre part une application informatique. Or, mme dans un
contexte industriel, la demande ne concerne pas toujours la ralisation dun
outil ; elle concerne souvent lanalyse de corpus en tant que telle, pour
identifier des cas dambiguts, dincohrences ou pour faire des
comparaisons de corpus. Lanalyse effectuer se rapproche alors de ce quon
a pu appeler lergonomie linguistique (Rastier 1994) (et la linguistique de
corpus aurait sans doute intrt se situer aussi par rapport cette discipline lergonomie - qui a, depuis longtemps, lexprience du terrain). Les outils
ninterviennent alors que comme aides dans une analyse qui relve part
entire de lanalyse smantique.
Les deux types dapproches : linguistique de corpus et TAL et
corpus ne sont ainsi pas toujours compatibles dans leurs objectifs : un outil
peut bien fonctionner sans beaucoup de connaissances linguistiques ;
inversement, les outils sont parfois peu utiles pour des analyses smantiques
trs fines (voir larticle de M.-P. Jacques dans ce numro). Il est ncessaire
davoir conscience de ces limites ce qui permet de dfinir les points de
6
Il est probable que les travaux des gnrativistes, la suite de Chomsky qui
sopposait formellement la prise en compte des variations prfrant considrer
un locuteur idal, nont pas contribu la prise en compte de lanalyse de
corpus rels. Lvolution actuelle est due, en grande partie, lvolution des
moyens techniques (corpus disponibles en format lectronique et outils
danalyse), et la demande sociale danalyse de ces corpus.
http://www.biomath.jussieu.fr/TIA/
23
Anne Condamines
24
25
Anne Condamines
26
Rfrences bibliographiques
Bachimont, B. (2000), Engagement smantique et engagement
ontologique : conception et ralisation dontologie en ingnierie des
connaissances , in J. Charlet, M. Zacklad, G. Kassel & D. Bourigault
(ds), Ingnierie des Connaissances, Evolutions rcentes et nouveaux
dfis, Paris, Eyrolles.
Benveniste, E (1966), Problmes de linguistique gnrale, 1, Paris,
Gallimard.
Biber, D. (1988), Variation across speech and writing, Cambridge University
Press.
Bloomfield, L. (1965), Language, Printed in Great britain By the Compton
Printig Works (first published in Great Britain, 1935).
Charlet, J., Zacklad, M., Kassel, G. & Bourigault, D. (2000), Ingnierie des
Connaissances, Evolutions rcentes et nouveaux dfis, Paris, Eyrolle et
France Tlcom.
Dachelet, R. (1994), Sur la notion de sous-langage, Thse en sciences du
langage de lUniversit Paris VIII.
Deulofeu, J. (1992), Variation syntaxique : Recherche dinvariants et tude
des attitudes des locuteurs devant la norme , in Langages 108,
Htrognit et variation : Labov, un bilan , pp. 66-78.
Firth, J.R. (1969), Papers in Linguistics 1934-1951, Oxford University Press,
(premire dition, 1957).
Gaudin, F. (1993), Pour une socioterminologie, Publications de lUniversit
de Rouen n182.
Greimas, A. (1966), Smantique structurale, Paris, Larousse.
9
27
Anne Condamines
28