Cryptographie

Thorie de l'information et codage
Master de cryptographie
Cours 1 : Thorie de l'information

5 et 8 janvier 2009
Universit Rennes 1
Master Crypto (2008-2009)
5 et 8 janvier 2009
1 / 21
Introduction (1)
Wikipdia
La thorie de l'information se proccupe des systmes d'information, des
systmes de communication et de leur ecacit.
Ce domaine trouve son origine scientique avec Claude Shannon qui en est
le pre fondateur en 1948.
Parmi les branches importantes, on peut citer :
le codage de l'information,
la mesure quantitative de redondance d'un texte,
la compression de donnes,
la correction d'erreurs,
la cryptographie.
Principes de base
L'information diminue l'incertitude
Moins un vnement est probable, plus il contient de l'information
5 et 8 janvier 2009
2 / 21
Intoduction (2)
Thorie de l'information = modle thorique pour la source et le canal

approximation du comportement rel
Modles
Source/canal discret ou continu avec ou sans mmoire
Canal bruit ou non bruit
5 et 8 janvier 2009
3 / 21
Codage des sources discrtes sans mmoire

La sortie de la source est une squence de lettres tires d'un alphabet ni
A = {a1 , , an }.
Chaque lettre ai de l'alphabet apparat avec une probabilit pi = p (ai )
Exemples d'alphabets
Binaire {0, 1}
Hexadcimal {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, a, b, c , d , e , f }
Franais {a, , z } avec p (a) 0.06, , p (z ) 0.0004
Le codage de source consiste reprsenter ces squences en binaire le plus

ecacement possible.
Exemple de codage du franais
Code ASCII : chaque lettre est code par 1 octet (8 bits)
Code Morse : chaque lettre est code par 1 4 bits
Un bon choix du code dpend de la loi de probabilit p .

5 et 8 janvier 2009
4 / 21
Exemple de codage de source

Codage 1
a1 00
Soit un alphabet A 4 lettres (a1 , a2 , a3 , a4 ) a2 01
a3 10
a4 11
Codage2
a1 0
a2 10
a3 110
a4 111
Si p est la loi uniforme

Le codage 1 ncessite en moyenne 2 bits par lettre.
Le codage 2 ncessite en moyenne 2.25 bits par lettre.
Le codage 1 est meilleur

Si p (a1 ) = 21 , p (a2 ) = 14 , p (a3 ) = p (a4 ) = 18
Le codage 1 ncessite toujours en moyenne 2 bits par lettre.
Le codage 2 ncessite en moyenne 1.75 bits par lettre.
Le codage 2 est meilleur

5 et 8 janvier 2009
5 / 21
Information et quantit d'information

Dnition
Une information dsigne un ou plusieurs vnements possibles parmi un
ensemble ni d'vnements.
Exemple : recherche d'un chier
Si on prcise le dossier, l'incertitude diminue.
De mme si on prcise le type du chier.
On veut mesurer la valeur priori d'une information.

Si on a 2 informations, la valeur n'est forcment pas la somme des 2.
Dnition
Soit p (a) la probabilit qu'un vnement a se produise. La quantit
d'information ou information propre de l'vnement a est alors
I (a) = log2 p(a).

5 et 8 janvier 2009
6 / 21
Pourquoi un logarithme ?
On veut une fonction qui soit
Dcroissante (plus la probabilit qu'un vnement se produise est
forte, moins on en tire d'information)
Additive (La quantit d'information apporte par 2 informations
indpendantes est gale la somme des quantits d'information)
Le log est naturel utiliser
On souhaite qu'un bit d'information soit gal la quantit

d'information fournie par le choix d'une alternative parmi 2
quiprobables
La base 2 est impose
5 et 8 janvier 2009
7 / 21
Entropie d'une source

Plus qu' la quantit d'information lie un vnement, on s'intresse
l'information fournie par une source donne, autrement dit la valeur
moyenne de l'information propre des informations fournies par la source.
Dnition
On appelle entropie d'une source A (ensemble des vnements possibles) et
on note H (A) la quantit
H (A) =
a A
p(a)I (a) =
aA
p(a) log2 p(a).
Thorme
Soit A un alphabet de cardinal n et p une loi de probabilit sur A. Alors
H (A) log2 n avec galit si et seulement si p est la loi uniforme.
5 et 8 janvier 2009
8 / 21
Codes
Notations
Soit un alphabet ni. On note l'ensemble des mots nis sur dont le
mot vide en gnral not .
La concatenation de 2 mots u et v est note uv .
La taille d'un mot u , note |u | est le nombre de lettres de u .
Dnitions
Un code C sur un alphabet est un sous ensemble de .
Un code C est dit dchirage unique ssi pour tous mots de C
u1 , , un et v1 , , vm ,
u1 un = v1 vm n = m et i , ui
= vi
Un code est dit prxe si aucun mot du code n'est le prxe (dbut)
d'un autre.
Un code est dit longueur xe si tous ses mots ont mme longueur
5 et 8 janvier 2009
9 / 21
Codages (binaires)
Dnition
Un codage d'un source discrte est une application injective qui associe
chaque squence nie de lettres de la source une squence binaire nie, i.e.
une application de A dans {0, 1} si A est l'alphabet de la source.
Un cas particulier important
On associe chaque lettre de A un mot de {0, 1} (c : A {0, 1} ).
le codage d'un mot u1 un de A est donne par c (u1 ) c (un ).
Si C , l'ensemble des codes possibles des lettres de A, est un code

dchirage unique et si c est injective sur A, alors on obtient bien un
codage.
5 et 8 janvier 2009
10 / 21
Ecacit du codage
Dnition
Sot m le nombre moyen de symboles binaires utiliss par lettre de la source
m=
a A
p(a)|c (a)|.
L'ecacit du code est dnie par E = Hm(A)

Code optimal
On cherche ce que l'ecacit soit la meilleure possible
Langage courant pas ecace
Reprsenter les 26 lettres avec 5 bits E 94%
Associer aux lettres les plus courantes des codes plus courts (Morse,
Human)
Peut on atteindre une ecacit de 1 ? Le veut on ?
5 et 8 janvier 2009
11 / 21
Codage avec un code de longueur xe

Proprit
Si une source a pour cardinal n, il est possible de la coder avec un code de
longueur xe m tel que
log2 n m 1 + log2 n
E
H (A) log2 n E
H ( A)
m
1 avec galit si et seulement si
Les lettres de la source sont quiprobables.

Le cardinal de la source est une puissance de 2.
5 et 8 janvier 2009
12 / 21
Exemple
A = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} avec la loi uniforme.
On code cette source avec un code de longueur 4
E
H (A)
4
log2 10
0.83
4
Si on code plutt les paires de chires, i.e.

A2 = {00, 01, 02, , 97, 98, 99}, on peut le faire avec un code de longueur
7 et on a alors
H (A2 ) log2 100
E=
=
0.95
7
7
Et pourquoi pas les triplets ?
L'ecacit croit mais le codage et le dcodage se complexient
5 et 8 janvier 2009
13 / 21
Premier cas particulier du premier thorme de Shannon
Proposition
Soit A une source de cardinal n. Soit Al la source de l -uplets de lettres de
A. Il existe un code de longueur xe ml pour Al tel que
log2 n
ml
l
<
+ log2 n.
H (A) quand l
L'ecacit de ce code vaut alors Hm(Al ) et converge vers log
2n
l
devient grand
Finalement, cela prouve que, pour une source munie d'une loi de probabilit
uniforme, l'ecacit du codage peut tre arbitrairement proche de 1.
5 et 8 janvier 2009
14 / 21
Le premier thorme de Shannon
Thorme
Pour toute source discrte sans mmoire, il existe un codage (injectif)
permettant de coder la source et dont l'ecacit est arbitrairement proche
de 1.
Remarques
L'ide de la preuve est de coder les l -uplets avec des codes de
longueur variable.
La preuve est eective.
Reste coder le canal (prsence de bruit).
5 et 8 janvier 2009
15 / 21
Codage de canal
On considre un canal discret sans mmoire
Entre : alphabet ni A = {a1 , , an }
Sortie : alphabet ni B = {b1 , , bm }
Un tel canal est dcrit par la donne des probabilits conditionnelle p (ai |bj ),
i.e. la probabilit que la lettre mise soit ai sachant qu'on a recu bj .
Exemple : canal binaire symtrique
A = B = {0, 1}. On note p la probabilit pour qu'un bit soit chang.
p(1|0) = p(0|1) = p et p(0|0) = p(1|1) = 1 p

5 et 8 janvier 2009
16 / 21
Quantit d'information perdue

Cas du canal binaire symtrique
Si une erreur se produit, la quantit d'information perdue est log2 p .
Sinon, la quantit d'information perdue est log2 (1 p ).
En moyenne on perd donc p log2 p (1 p ) log2 (1 p ).

Entropie conditionnelle
Elle vaut H (A/B ) =
a A ,b B
p(a, b) log2 p(a|b).
et reprsente la quantit d'information perdue
5 et 8 janvier 2009
17 / 21
Information mutuelle
Dnition
L'information mutuelle de a et b vaut
I (a ; b )
I (a) I (a|b) = log2
= log2
p (a , b )
p(a)p(b)
p(a|b)
p(a)
Le signe de I (a; b) dtermine si l'incertitude sur a augmente ou diminue.

Information mutuelle moyenne
I (A; B ) = H (A) H (A|B )

reprsente la quantit moyenne d'information transmise et est toujours
positive (ie l'incertitude sur A diminue toujours) ou nulle si A et B sont
indpendants.
5 et 8 janvier 2009
18 / 21
Capacit d'un canal

Vocabulaire
Un canal est dit sans pertes si H (A|B ) = 0 pour toute les distributions
d'entre. L'entre du canal est dtermine par sa sortie.
Un canal est dit dterministe si la sortie est dtermine par l'entre.
Un canal est dit sans bruit si il est dterministe et sans pertes.
Un canal est dit inutile si I (A, B ) = 0 pour toute les distributions
d'entre.
Dnition
La capacit d'un canal est la plus grand quantit d'information moyenne
qu'il peut fournir sur A.
C = max I (A; B )
pA
5 et 8 janvier 2009
19 / 21
Rendement d'un code

Exemple : canal binaire symtrique
On cherche diminuer la probabilit d'erreur.
On peut utiliser par exemple un code de rptition
1 111, 0 000
Rendement
1
3
Rendement d'un code

Soit C un code de longueur n et de cardinal M . Son rendement est
R=
log2 M
En diminuant le rendement, on peut diminuer la probabilit d'erreur autant

que l'on veut.
5 et 8 janvier 2009
20 / 21
Le second thorme de Shannon
Thorme
Soit C la capacit du canal de transmission et soient 2 rels > 0 et
c < C . Il existe un code de rendement suprieur c tel que la probabilit
d'erreur en sortie soit infrieure .
Rciproquement, pour tout code de rendement R > C , il existe une
constante KR ,C telle que la probabilit d'erreur en sortie soit suprieure
KR ,C .
Remarque : Ce thorme n'est pas eectif.

Consquence : On va tudier les codes correcteurs d'erreurs et c'est
toujours un sujet de recherche.
5 et 8 janvier 2009
21 / 21

Cryptographie

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cryptographie

Uploaded by

Copyright:

Available Formats

Thorie de l'information et codage

Cours 1 : Thorie de l'information

Thorie de l'information et codage

Thorie de l'information et codage

Thorie de l'information = modle thorique pour la source et le canal

Master Crypto (2008-2009)

Thorie de l'information et codage

Codage des sources discrtes sans mmoire

Le codage de source consiste reprsenter ces squences en binaire le plus

Un bon choix du code dpend de la loi de probabilit p .

Thorie de l'information et codage

Exemple de codage de source

Si p est la loi uniforme

Le codage 1 est meilleur

Le codage 2 est meilleur

Thorie de l'information et codage

Information et quantit d'information

On veut mesurer la valeur priori d'une information.

I (a) = log2 p(a).

Thorie de l'information et codage

On souhaite qu'un bit d'information soit gal la quantit

Master Crypto (2008-2009)

Thorie de l'information et codage

Entropie d'une source

p(a) log2 p(a).

Thorie de l'information et codage

Thorie de l'information et codage

Si C , l'ensemble des codes possibles des lettres de A, est un code

Master Crypto (2008-2009)

Thorie de l'information et codage

L'ecacit du code est dnie par E = Hm(A)

Thorie de l'information et codage

Codage avec un code de longueur xe

1 avec galit si et seulement si

Les lettres de la source sont quiprobables.

Master Crypto (2008-2009)

Thorie de l'information et codage

Si on code plutt les paires de chires, i.e.

Master Crypto (2008-2009)

Thorie de l'information et codage

Premier cas particulier du premier thorme de Shannon

Master Crypto (2008-2009)

Thorie de l'information et codage

Le premier thorme de Shannon

Master Crypto (2008-2009)

Thorie de l'information et codage

p(1|0) = p(0|1) = p et p(0|0) = p(1|1) = 1 p

Thorie de l'information et codage

Quantit d'information perdue

En moyenne on perd donc p log2 p (1 p ) log2 (1 p ).

Elle vaut H (A/B ) =

p(a, b) log2 p(a|b).

et reprsente la quantit d'information perdue

Master Crypto (2008-2009)

Thorie de l'information et codage

I (a) I (a|b) = log2

Le signe de I (a; b) dtermine si l'incertitude sur a augmente ou diminue.

I (A; B ) = H (A) H (A|B )

Thorie de l'information et codage

Capacit d'un canal

Master Crypto (2008-2009)

Thorie de l'information et codage

Rendement d'un code

L'ecacit du code est dnie par E = Hm(A)

Codage avec un code de longueur xe

Si on code plutt les paires de chires, i.e.

Remarque : Ce thorme n'est pas eectif.