You are on page 1of 21

Thorie de l'information et codage

Master de cryptographie

Cours 1 : Thorie de l'information


5 et 8 janvier 2009

Universit Rennes 1
Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

1 / 21

Introduction (1)
Wikipdia
La thorie de l'information se proccupe des systmes d'information, des
systmes de communication et de leur ecacit.
Ce domaine trouve son origine scientique avec Claude Shannon qui en est
le pre fondateur en 1948.
Parmi les branches importantes, on peut citer :
le codage de l'information,
la mesure quantitative de redondance d'un texte,
la compression de donnes,
la correction d'erreurs,
la cryptographie.
Principes de base
L'information diminue l'incertitude
Moins un vnement est probable, plus il contient de l'information
Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

2 / 21

Intoduction (2)

Thorie de l'information = modle thorique pour la source et le canal


approximation du comportement rel

Modles
Source/canal discret ou continu avec ou sans mmoire
Canal bruit ou non bruit

Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

3 / 21

Codage des sources discrtes sans mmoire


La sortie de la source est une squence de lettres tires d'un alphabet ni
A = {a1 , , an }.
Chaque lettre ai de l'alphabet apparat avec une probabilit pi = p (ai )
Exemples d'alphabets
Binaire {0, 1}
Hexadcimal {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, a, b, c , d , e , f }
Franais {a, , z } avec p (a) 0.06, , p (z ) 0.0004

Le codage de source consiste reprsenter ces squences en binaire le plus


ecacement possible.
Exemple de codage du franais
Code ASCII : chaque lettre est code par 1 octet (8 bits)
Code Morse : chaque lettre est code par 1 4 bits

Un bon choix du code dpend de la loi de probabilit p .


Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

4 / 21

Exemple de codage de source


Codage 1
a1 00
Soit un alphabet A 4 lettres (a1 , a2 , a3 , a4 ) a2 01
a3 10
a4 11

Codage2
a1 0
a2 10
a3 110
a4 111

Si p est la loi uniforme


Le codage 1 ncessite en moyenne 2 bits par lettre.
Le codage 2 ncessite en moyenne 2.25 bits par lettre.

Le codage 1 est meilleur


Si p (a1 ) = 21 , p (a2 ) = 14 , p (a3 ) = p (a4 ) = 18
Le codage 1 ncessite toujours en moyenne 2 bits par lettre.
Le codage 2 ncessite en moyenne 1.75 bits par lettre.

Le codage 2 est meilleur


Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

5 / 21

Information et quantit d'information


Dnition
Une information dsigne un ou plusieurs vnements possibles parmi un
ensemble ni d'vnements.
Exemple : recherche d'un chier
Si on prcise le dossier, l'incertitude diminue.
De mme si on prcise le type du chier.

On veut mesurer la valeur priori d'une information.


Si on a 2 informations, la valeur n'est forcment pas la somme des 2.
Dnition
Soit p (a) la probabilit qu'un vnement a se produise. La quantit
d'information ou information propre de l'vnement a est alors

I (a) = log2 p(a).


Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

6 / 21

Pourquoi un logarithme ?
On veut une fonction qui soit
Dcroissante (plus la probabilit qu'un vnement se produise est
forte, moins on en tire d'information)
Additive (La quantit d'information apporte par 2 informations
indpendantes est gale la somme des quantits d'information)
Le log est naturel utiliser

On souhaite qu'un bit d'information soit gal la quantit


d'information fournie par le choix d'une alternative parmi 2
quiprobables
La base 2 est impose

Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

7 / 21

Entropie d'une source


Plus qu' la quantit d'information lie un vnement, on s'intresse
l'information fournie par une source donne, autrement dit la valeur
moyenne de l'information propre des informations fournies par la source.
Dnition
On appelle entropie d'une source A (ensemble des vnements possibles) et
on note H (A) la quantit

H (A) =

a A

p(a)I (a) =

aA

p(a) log2 p(a).

Thorme
Soit A un alphabet de cardinal n et p une loi de probabilit sur A. Alors
H (A) log2 n avec galit si et seulement si p est la loi uniforme.
Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

8 / 21

Codes
Notations
Soit un alphabet ni. On note l'ensemble des mots nis sur dont le
mot vide en gnral not .
La concatenation de 2 mots u et v est note uv .
La taille d'un mot u , note |u | est le nombre de lettres de u .
Dnitions
Un code C sur un alphabet est un sous ensemble de .
Un code C est dit dchirage unique ssi pour tous mots de C
u1 , , un et v1 , , vm ,

u1 un = v1 vm n = m et i , ui

= vi

Un code est dit prxe si aucun mot du code n'est le prxe (dbut)
d'un autre.
Un code est dit longueur xe si tous ses mots ont mme longueur
Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

9 / 21

Codages (binaires)
Dnition
Un codage d'un source discrte est une application injective qui associe
chaque squence nie de lettres de la source une squence binaire nie, i.e.
une application de A dans {0, 1} si A est l'alphabet de la source.
Un cas particulier important
On associe chaque lettre de A un mot de {0, 1} (c : A {0, 1} ).
le codage d'un mot u1 un de A est donne par c (u1 ) c (un ).

Si C , l'ensemble des codes possibles des lettres de A, est un code


dchirage unique et si c est injective sur A, alors on obtient bien un
codage.

Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

10 / 21

Ecacit du codage
Dnition
Sot m le nombre moyen de symboles binaires utiliss par lettre de la source

m=

a A

p(a)|c (a)|.

L'ecacit du code est dnie par E = Hm(A)


Code optimal
On cherche ce que l'ecacit soit la meilleure possible
Langage courant pas ecace
Reprsenter les 26 lettres avec 5 bits E 94%
Associer aux lettres les plus courantes des codes plus courts (Morse,
Human)
Peut on atteindre une ecacit de 1 ? Le veut on ?
Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

11 / 21

Codage avec un code de longueur xe


Proprit
Si une source a pour cardinal n, il est possible de la coder avec un code de
longueur xe m tel que

log2 n m 1 + log2 n

E
H (A) log2 n E

H ( A)
m

1 avec galit si et seulement si

Les lettres de la source sont quiprobables.


Le cardinal de la source est une puissance de 2.

Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

12 / 21

Exemple
A = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} avec la loi uniforme.
On code cette source avec un code de longueur 4
E

H (A)
4

log2 10
0.83
4

Si on code plutt les paires de chires, i.e.


A2 = {00, 01, 02, , 97, 98, 99}, on peut le faire avec un code de longueur
7 et on a alors
H (A2 ) log2 100
E=
=
0.95
7
7
Et pourquoi pas les triplets ?
L'ecacit croit mais le codage et le dcodage se complexient

Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

13 / 21

Premier cas particulier du premier thorme de Shannon

Proposition
Soit A une source de cardinal n. Soit Al la source de l -uplets de lettres de
A. Il existe un code de longueur xe ml pour Al tel que

log2 n

ml
l

<

+ log2 n.

H (A) quand l
L'ecacit de ce code vaut alors Hm(Al ) et converge vers log
2n
l
devient grand

Finalement, cela prouve que, pour une source munie d'une loi de probabilit
uniforme, l'ecacit du codage peut tre arbitrairement proche de 1.

Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

14 / 21

Le premier thorme de Shannon

Thorme
Pour toute source discrte sans mmoire, il existe un codage (injectif)
permettant de coder la source et dont l'ecacit est arbitrairement proche
de 1.

Remarques
L'ide de la preuve est de coder les l -uplets avec des codes de
longueur variable.
La preuve est eective.
Reste coder le canal (prsence de bruit).

Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

15 / 21

Codage de canal
On considre un canal discret sans mmoire
Entre : alphabet ni A = {a1 , , an }
Sortie : alphabet ni B = {b1 , , bm }
Un tel canal est dcrit par la donne des probabilits conditionnelle p (ai |bj ),
i.e. la probabilit que la lettre mise soit ai sachant qu'on a recu bj .
Exemple : canal binaire symtrique
A = B = {0, 1}. On note p la probabilit pour qu'un bit soit chang.

p(1|0) = p(0|1) = p et p(0|0) = p(1|1) = 1 p


Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

16 / 21

Quantit d'information perdue


Cas du canal binaire symtrique
Si une erreur se produit, la quantit d'information perdue est log2 p .
Sinon, la quantit d'information perdue est log2 (1 p ).

En moyenne on perd donc p log2 p (1 p ) log2 (1 p ).


Entropie conditionnelle

Elle vaut H (A/B ) =

a A ,b B

p(a, b) log2 p(a|b).

et reprsente la quantit d'information perdue

Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

17 / 21

Information mutuelle
Dnition
L'information mutuelle de a et b vaut

I (a ; b )

I (a) I (a|b) = log2

= log2

p (a , b )
p(a)p(b)

p(a|b)
p(a)

Le signe de I (a; b) dtermine si l'incertitude sur a augmente ou diminue.


Information mutuelle moyenne

I (A; B ) = H (A) H (A|B )


reprsente la quantit moyenne d'information transmise et est toujours
positive (ie l'incertitude sur A diminue toujours) ou nulle si A et B sont
indpendants.
Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

18 / 21

Capacit d'un canal


Vocabulaire
Un canal est dit sans pertes si H (A|B ) = 0 pour toute les distributions
d'entre. L'entre du canal est dtermine par sa sortie.
Un canal est dit dterministe si la sortie est dtermine par l'entre.
Un canal est dit sans bruit si il est dterministe et sans pertes.
Un canal est dit inutile si I (A, B ) = 0 pour toute les distributions
d'entre.
Dnition
La capacit d'un canal est la plus grand quantit d'information moyenne
qu'il peut fournir sur A.
C = max I (A; B )
pA

Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

19 / 21

Rendement d'un code


Exemple : canal binaire symtrique
On cherche diminuer la probabilit d'erreur.
On peut utiliser par exemple un code de rptition

1 111, 0 000
Rendement

1
3

Rendement d'un code


Soit C un code de longueur n et de cardinal M . Son rendement est

R=

log2 M

En diminuant le rendement, on peut diminuer la probabilit d'erreur autant


que l'on veut.
Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

20 / 21

Le second thorme de Shannon

Thorme
Soit C la capacit du canal de transmission et soient 2 rels > 0 et
c < C . Il existe un code de rendement suprieur c tel que la probabilit
d'erreur en sortie soit infrieure .
Rciproquement, pour tout code de rendement R > C , il existe une
constante KR ,C telle que la probabilit d'erreur en sortie soit suprieure
KR ,C .

Remarque : Ce thorme n'est pas eectif.


Consquence : On va tudier les codes correcteurs d'erreurs et c'est
toujours un sujet de recherche.

Master Crypto (2008-2009)

Thorie de l'information et codage

5 et 8 janvier 2009

21 / 21

You might also like