You are on page 1of 14

Traitement automatique des langues

Introduction au TAL
Pierre Zweigenbaum
pz@limsi.fr

LIMSI, CNRS
 http://www.limsi.fr/~pz/
TIM, INALCO

1 / 14

Traitement automatique des langues

Grands domaines
du traitement automatique des langues
Pragmatique
Smantique
Syntaxe
Morphologie

2 / 14

Traitement automatique des langues

Plan
1 Morphologie et lexique
2 Syntaxe
3 Smantique
4 Pragmatique

3 / 14

Traitement automatique des langues


Morphologie et lexique

Units de base
partir d'une chane de caractres, reconnatre les units
linguistiques de base (les mots)...
Filtrer / convertir les caractres  incorrects 
^M, ^A, \212 ...

Encodage : jeux de caractres

Segmentation : o sont les mots ?


c'est--dire les pommes de terre des U.-S.-A.
/

4 / 14

Traitement automatique des langues


Morphologie et lexique

Lexique

... et associer aux mots des informations


Lexique = tableau [mot 7 informations ]
Exemples d'informations :
i

Forme, lemme
Proprits syntaxiques (N, V, A..., masculin, pluriel...
...

Ambigut
Homomorphes (montre, pu)
Polysmes (avocat, verre, livre)

Le lexique d'une langue est ouvert


rednationaliser, web, vidoprojecteur, SRAS
5 / 14

Traitement automatique des langues


Morphologie et lexique

Morphologie
Regrouper les direntes formes du mme mot
formes chies, forme canonique
abdominale, abdominales, abdominaux 7 abdominal

Relier les dirents mots d'une mme famille


mots drivs, mots composs ; radical, base
abdominal 7 abdomen

6 / 14

Traitement automatique des langues


Syntaxe

Syntaxe (1/4) : catgories


Quels mots fonctionnent ensemble dans une phrase ?
Catgorie syntaxique : classe de mots possdant un
fonctionnement associatif similaire (classes
distributionnelles)
N, V , A . . .

Ambigut catgorielle
La
coronarographie
est
normale
.
/DET,N,PRO
/N,V
/A,N,V
/A,N

7 / 14

Traitement automatique des langues


Syntaxe

Syntaxe (2/4) : structure


Structure syntaxique : relations hirarchiques
Arbre de constituants

(entre groupes de mots)


p
sn
sv
n
v
sa
det
la tension est a
normale

Arbre de dpendance
(entre mots)
est

tension

normale

la

8 / 14

Traitement automatique des langues


Syntaxe

Syntaxe (3/4) : ambigut structurale


p

je vois ... avec un


tlescope

un homme ... avec


un tlescope

sn
sv
pro v
sp
sn
prep
n
sn
je vois det
un homme avec det
n
un tlescope
p
sn
sv
pro v
sn
sp
je vois det n
un homme prep
sn
avec det
n
un tlescope
9 / 14

Traitement automatique des langues


Syntaxe

Syntaxe (4/4) : relations


Relations grammaticales
sujet-verbe ; nom-modieur ; pronom-antcdent...
sous-catgorisation (rection)
Il pleut.

pleuvoir()

Jean dort.

dormir(X)

Jean prend un livre.


Jean donne un livre Marie.
Jean interdit Mdor de sortir.
Jean promet Marie de venir.

prendre(X, Y)
donner(X, Y, Z)
interdire(X, Y, Z)
promettre(X, Y, Z)

10 / 14

Traitement automatique des langues


Smantique

Smantique : reprsenter le  sens  d'un nonc


Catgories smantiques : regrouper les sens de mots
Possibilit d'utilisation des catgories de haut niveau
d'un thsaurus (ex. : WordNet)
Ambigut smantique
{artre, avenue, boulevard} vs {artre, veine}

Relations smantiques
Dans le lexique : hyperonymie, mronymie, antonymie...
Dans un nonc : les rles thmatiques relient un
vnement ses actants
agent, thme, source, destination

Les restrictions de slection typent les actants :


donner(anim, objet, anim)
interdire(anim, anim, vnement)

11 / 14

Traitement automatique des langues


Smantique

Smantique : exemples de reprsentation


Fiche la MUC

John Simon, Chief Financial Ocer of Prime Corp. since 1986, saw
his pay jump 20%, to $1.3 million, as the 37-year-old also became
the nancial-services company's president.

<Template-93-1>
<In_And_Out-93-1> :=
Doc_Nr: "93" :=
<Person-93-1>
Content: <Succession_Event-93-1> Io_Person:
New_Status: IN
On_The_Job: YES
<Succession_Event-93-1> :=
<Organization-93-1>
Succession_Org: <Organization-93-1> Other_Org:
Rel_Other_Org: SAME_ORG
Post:
"president"
In_And_Out: <In_And_Out-93-1> <Organization-93-1> :=
Vacancy_Reason: OTH_UNK
Org_Name: "Prime Corp."
Org_Descriptor: "the nancial-services
<Person-93-1>
:=
company"
Per_Name: "John Simon"
Org_Type: COMPANY
12 / 14

Traitement automatique des langues


Smantique

Smantique : exemples de reprsentation


Reprsentation conceptuelle (MENELAS)

Patient g de 62 ans, hospitalis pour angor spontan rptition.

[Admission](past)
(pat)[HumanBeing]
(cultural_role)
[Patient:I63]
(attr)
[Age](val_qt)[QtVal:62](ref_unit)[YearDuration]%
(motivated_by)[AnginaSyndrome:I77]
(timed_during)[TemporalInterval](temp_role)
(temp_role)[Spontaneous]
[Recurrent]%%

13 / 14

Traitement automatique des langues


Pragmatique

Pragmatique ( analyse du discours )


Au-del de la phrase : l'interprtation d'un nonc dpend de
son contexte
co-texte : reste du texte
cohsion : continuit du texte (anaphore, ellipse, thme)
cohrence : intelligibilit (relations causales, temporelles)
contexte : conditions d'nonciation, connaissances partages
Appel des connaissances sur le monde (scnarios,
plans)
Identication de structures de texte (structure de
dialogue, structure argumentative)
14 / 14

You might also like