You are on page 1of 6

Teor�a de la informaci�n

Ir a la navegaci�n
Ir a la b�squeda

La teor�a de la informaci�n, tambi�n conocida como teor�a matem�tica de la


comunicaci�n (Ingl�s: mathematical theory of communication) o teor�a matem�tica de
la informaci�n, es una propuesta te�rica presentada por Claude E. Shannon y Warren
Weaver a finales de la d�cada de los a�os 1940. Esta teor�a est� relacionada con
las leyes matem�ticas que rigen la transmisi�n y el procesamiento de la informaci�n
y se ocupa de la medici�n de la informaci�n y de la representaci�n de la misma, as�
como tambi�n de la capacidad de los sistemas de comunicaci�n para transmitir y
procesar informaci�n.1? La teor�a de la informaci�n es una rama de la teor�a de la
probabilidad y de las ciencias de la computaci�n que estudia la informaci�n y todo
lo relacionado con ella: canales, compresi�n de datos y criptograf�a, entre otros.

�ndice
1
Historia
2
Desarrollo de la teor�a
3
Finalidad
4
Teor�a aplicada a la tecnolog�a
5
Elementos de la teor�a
5.1
Fuente
5.2
Tipos de fuente
5.3
Mensaje
5.4
C�digo
5.5
Informaci�n
6
Entrop�a e informaci�n
6.1
Entrop�a de una fuente
7
Otros aspectos de la teor�a
8
V�ase tambi�n
9
Referencias
Historia[editar]
La teor�a de la informaci�n surgi� a finales de la Segunda Guerra Mundial, en los
a�os cuarenta. Fue iniciada por Claude E. Shannon a trav�s de un art�culo publicado
en el Bell System Technical Journal en 1948, titulado Una teor�a matem�tica de la
comunicaci�n (texto completo en ingl�s). En esta �poca se buscaba utilizar de
manera m�s eficiente los canales de comunicaci�n, enviando una cantidad de
informaci�n por un determinado canal y midiendo su capacidad; se buscaba la
transmisi�n �ptima de los mensajes. Esta teor�a es el resultado de trabajos
comenzados en la d�cada 1910 por Andrei A. Markovi, a quien le sigui� Ralp V. L.
Hartley en 1927, quien fue el precursor del lenguaje binario. A su vez, Alan Turing
en 1936, realiz� el esquema de una m�quina capaz de tratar informaci�n con emisi�n
de s�mbolos, y finalmente Claude Elwood Shannon, matem�tico, ingeniero electr�nico
y cript�grafo estadounidense, conocido como "el padre de la teor�a de la
informaci�n�, junto a Warren Weaver, contribuy� en la culminaci�n y el asentamiento
de la Teor�a Matem�tica de la Comunicaci�n de 1949 �que hoy es mundialmente
conocida por todos como la Teor�a de la Informaci�n-. Weaver consigui� darle un
alcance superior al planteamiento inicial, creando un modelo simple y lineal:
Fuente/codificador/mensaje canal/decodificador/destino. La necesidad de una base
te�rica para la tecnolog�a de la comunicaci�n surgi� del aumento de la complejidad
y de la masificaci�n de las v�as de comunicaci�n, tales como el tel�fono, las redes
de teletipo y los sistemas de comunicaci�n por radio. La teor�a de la informaci�n
tambi�n abarca todas las restantes formas de transmisi�n y almacenamiento de
informaci�n, incluyendo la televisi�n y los impulsos el�ctricos que se transmiten
en las computadoras y en la grabaci�n �ptica de datos e im�genes. La idea es
garantizar que el transporte masivo de datos no sea en modo alguno una merma de la
calidad, incluso si los datos se comprimen de alguna manera. Idealmente, los datos
se pueden restaurar a su forma original al llegar a su destino. En algunos casos,
sin embargo, el objetivo es permitir que los datos de alguna forma se conviertan
para la transmisi�n en masa, se reciban en el punto de destino y sean convertidos
f�cilmente a su formato original, sin perder ninguna de la informaci�n
transmitida.2?
Desarrollo de la teor�a[editar]
El modelo propuesto por Shannon es un sistema general de la comunicaci�n que parte
de una fuente de informaci�n desde la cual, a trav�s de un transmisor, se emite una
se�al, la cual viaja por un canal, pero a lo largo de su viaje puede ser
interferida por alg�n ruido. La se�al sale del canal, llega a un receptor que
decodifica la informaci�n convirti�ndola posteriormente en mensaje que pasa a un
destinatario. Con el modelo de la teor�a de la informaci�n se trata de llegar a
determinar la forma m�s econ�mica, r�pida y segura de codificar un mensaje, sin que
la presencia de alg�n ruido complique su transmisi�n. Para esto, el destinatario
debe comprender la se�al correctamente; el problema es que aunque exista un mismo
c�digo de por medio, esto no significa que el destinatario va a captar el
significado que el emisor le quiso dar al mensaje. La codificaci�n puede referirse
tanto a la transformaci�n de voz o imagen en se�ales el�ctricas o
electromagn�ticas, como al cifrado de mensajes para asegurar su privacidad. Un
concepto fundamental en la teor�a de la informaci�n es que la cantidad de
informaci�n contenida en un mensaje es un valor matem�tico bien definido y medible.
El t�rmino cantidad no se refiere a la cuant�a de datos, sino a la probabilidad de
que un mensaje, dentro de un conjunto de mensajes posibles, sea recibido. En lo que
se refiere a la cantidad de informaci�n, el valor m�s alto se le asigna al mensaje
que menos probabilidades tiene de ser recibido. Si se sabe con certeza que un
mensaje va a ser recibido, su cantidad de informaci�n es cero.3?
Finalidad[editar]
Otro aspecto importante dentro de esta teor�a es la resistencia a la distorsi�n que
provoca el ruido, la facilidad de codificaci�n y descodificaci�n, as� como la
velocidad de transmisi�n. Es por esto que se dice que el mensaje tiene muchos
sentidos, y el destinatario extrae el sentido que debe atribuirle al mensaje,
siempre y cuando haya un mismo c�digo en com�n. La teor�a de la informaci�n tiene
ciertas limitaciones, como lo es la acepci�n del concepto del c�digo. El
significado que se quiere transmitir no cuenta tanto como el n�mero de alternativas
necesario para definir el hecho sin ambig�edad. Si la selecci�n del mensaje se
plantea �nicamente entre dos alternativas diferentes, la teor�a de Shannon postula
arbitrariamente que el valor de la informaci�n es uno. Esta unidad de informaci�n
recibe el nombre de bit. Para que el valor de la informaci�n sea un bit, todas las
alternativas deben ser igual de probables y estar disponibles. Es importante saber
si la fuente de informaci�n tiene el mismo grado de libertad para elegir cualquier
posibilidad o si se halla bajo alguna influencia que la induce a una cierta
elecci�n. La cantidad de informaci�n crece cuando todas las alternativas son igual
de probables o cuanto mayor sea el n�mero de alternativas. Pero en la pr�ctica
comunicativa real no todas las alternativas son igualmente probables, lo cual
constituye un tipo de proceso estoc�stico denominado M�rkov. El subtipo de M�rkov
dice que la cadena de s�mbolos est� configurada de manera que cualquier secuencia
de esa cadena es representativa de toda la cadena completa.
Teor�a aplicada a la tecnolog�a[editar]
La Teor�a de la Informaci�n se encuentra a�n hoy en d�a en relaci�n con una de las
tecnolog�as en boga, Internet. Desde el punto de vista social, Internet representa
unos significativos beneficios potenciales, ya que ofrece oportunidades sin
precedentes para dar poder a los individuos y conectarlos con fuentes cada vez m�s
ricas de informaci�n digital. Internet fue creado a partir de un proyecto del
departamento de defensa de los Estados Unidos llamado ARPANET (Advanced Research
Projects Agency Network) iniciado en 1969 y cuyo prop�sito principal era la
investigaci�n y desarrollo de protocolos de comunicaci�n para redes de �rea amplia
para ligar redes de transmisi�n de paquetes de diferentes tipos capaces de resistir
las condiciones de operaci�n m�s dif�ciles, y continuar funcionando a�n con la
p�rdida de una parte de la red (por ejemplo en caso de guerra). Estas
investigaciones dieron como resultado el protocolo TCP/IP (Transmission Control
Protocol/Internet Protocol), un sistema de comunicaciones muy s�lido y robusto bajo
el cual se integran todas las redes que conforman lo que se conoce actualmente como
Internet. El enorme crecimiento de Internet se debe en parte a que es una red
basada en fondos gubernamentales de cada pa�s que forma parte de Internet, lo que
proporciona un servicio pr�cticamente gratuito. A principios de 1994 comenz� a
darse un crecimiento explosivo de las compa��as con prop�sitos comerciales en
Internet, dando as� origen a una nueva etapa en el desarrollo de la red. Descrito a
grandes rasgos, TCP/IP mete en paquetes la informaci�n que se quiere enviar y la
saca de los paquetes para utilizarla cuando se recibe. Estos paquetes pueden
compararse con sobres de correo; TCP/IP guarda la informaci�n, cierra el sobre y en
la parte exterior pone la direcci�n a la cual va dirigida y la direcci�n de quien
la env�a. Mediante este sistema, los paquetes viajan a trav�s de la red hasta que
llegan al destino deseado; una vez ah�, la computadora de destino quita el sobre y
procesa la informaci�n; en caso de ser necesario env�a una respuesta a la
computadora de origen usando el mismo procedimiento. Cada m�quina que est�
conectada a Internet tiene una direcci�n �nica; esto hace que la informaci�n que se
env�a no equivoque el destino. Existen dos formas de dar direcciones, con letras o
con n�meros. Realmente, las computadoras utilizan las direcciones num�ricas para
mandar paquetes de informaci�n, pero las direcciones con letras fueron
implementadas para facilitar su manejo a los seres humanos. Una direcci�n num�rica
est� compuesta por cuatro partes. Cada una de estas partes est� dividida por
puntos.
Ejemplo: sedet.com.mx 107.248.185.1
Una de las aplicaciones de la teor�a de la informaci�n son los archivos ZIP,
documentos que se comprimen para su transmisi�n a trav�s de correo electr�nico o
como parte de los procedimientos de almacenamiento de datos. La compresi�n de los
datos hace posible completar la transmisi�n en menos tiempo. En el extremo
receptor, un software se utiliza para la liberaci�n o descompresi�n del archivo,
restaurando los documentos contenidos en el archivo ZIP a su formato original. La
teor�a de la informaci�n tambi�n entra en uso con otros tipos de archivo; por
ejemplo, los archivos de audio y v�deo que se reproducen en un reproductor de MP3 /
MP4 se comprimen para una f�cil descarga y almacenamiento en el dispositivo. Cuando
se accede a los archivos se descomprimen para que est�n inmediatamente disponibles
para su uso.4?
Elementos de la teor�a[editar]

Esquema de la comunicaci�n ideado por Claude E. Shannon.


Fuente[editar]
Una fuente es todo aquello que emite mensajes. Por ejemplo, una fuente puede ser
una computadora y mensajes sus archivos; una fuente puede ser un dispositivo de
transmisi�n de datos y mensajes los datos enviados, etc. Una fuente es en s� misma
un conjunto finito de mensajes: todos los posibles mensajes que puede emitir dicha
fuente. En compresi�n de datos se tomar� como fuente el archivo a comprimir y como
mensajes los caracteres que conforman dicho archivo.
Tipos de fuente[editar]
Por la naturaleza generativa de sus mensajes, una fuente puede ser aleatoria o
determinista. Por la relaci�n entre los mensajes emitidos, una fuente puede ser
estructurada o no estructurada (o ca�tica).
Existen varios tipos de fuente. Para la teor�a de la informaci�n interesan las
fuentes aleatorias y estructuradas. Una fuente es aleatoria cuando no es posible
predecir cu�l es el pr�ximo mensaje a emitir por la misma. Una fuente es
estructurada cuando posee un cierto nivel de redundancia; una fuente no
estructurada o de informaci�n pura es aquella en que todos los mensajes son
absolutamente aleatorios sin relaci�n alguna ni sentido aparente. Este tipo de
fuente emite mensajes que no se pueden comprimir; un mensaje, para poder ser
comprimido, debe poseer un cierto grado de redundancia; la informaci�n pura no
puede ser comprimida sin que haya una p�rdida de conocimiento sobre el mensaje.5?
Mensaje[editar]
Un mensaje es un conjunto de ceros y unos. Un archivo, un paquete de datos que
viaja por una red y cualquier cosa que tenga una representaci�n binaria puede
considerarse un mensaje. El concepto de mensaje se aplica tambi�n a alfabetos de
m�s de dos s�mbolos, pero debido a que tratamos con informaci�n digital nos
referiremos casi siempre a mensajes binarios.
C�digo[editar]
Un c�digo es un conjunto de unos y ceros que se usan para representar un cierto
mensaje de acuerdo a reglas o convenciones preestablecidas. Por ejemplo, al mensaje
0010 lo podemos representar con el c�digo 1101 usado para codificar la funci�n
(NOT). La forma en la cual codificamos es arbitraria. Un mensaje puede, en algunos
casos, representarse con un c�digo de menor longitud que el mensaje original.
Supongamos que a cualquier mensaje S lo codificamos usando un cierto algoritmo de
forma tal que cada S es codificado en L(S) bits; definimos entonces la informaci�n
contenida en el mensaje S como la cantidad m�nima de bits necesarios para codificar
un mensaje.
Informaci�n[editar]
La informaci�n contenida en un mensaje es proporcional a la cantidad de bits que se
requieren como m�nimo para representar al mensaje. El concepto de informaci�n puede
entenderse m�s f�cilmente si consideramos un ejemplo. Supongamos que estamos
leyendo un mensaje y hemos le�do "cadena de c"; la probabilidad de que el mensaje
contin�e con "caracteres" es muy alta. As�, cuando efectivamente recibimos a
continuaci�n "caracteres" la cantidad de informaci�n que nos lleg� es muy baja pues
est�bamos en condiciones de predecir qu� era lo que iba a ocurrir. La ocurrencia de
mensajes de alta probabilidad de aparici�n aporta menos informaci�n que la
ocurrencia de mensajes menos probables. Si luego de "cadena de c" leemos
"himichurri" la cantidad de informaci�n que estamos recibiendo es mucho mayor.
Entrop�a e informaci�n[editar]
La informaci�n es tratada como magnitud f�sica, caracterizando la informaci�n de
una secuencia de s�mbolos utilizando la entrop�a. Es parte de la idea de que los
canales no son ideales, aunque muchas veces se idealicen las no linealidades, para
estudiar diversos m�todos de env�o de informaci�n o la cantidad de informaci�n �til
que se pueda enviar a trav�s de un canal.
La informaci�n necesaria para especificar un sistema f�sico tiene que ver con su
entrop�a. En concreto, en ciertas �reas de la f�sica, extraer informaci�n del
estado actual de un sistema requiere reducir su entrop�a, de tal manera que la
entrop�a del sistema (
S {\displaystyle S}
) y la cantidad de informaci�n (
I {\displaystyle I}
) extra�ble est�n relacionadas por:
S = S - I = 0 {\displaystyle S\geq S-I\geq 0}

Entrop�a de una fuente[editar]


Art�culo principal: Entrop�a (informaci�n)
De acuerdo con la teor�a de la informaci�n, el nivel de informaci�n de una fuente
se puede medir seg�n la entrop�a de la misma. Los estudios sobre la entrop�a son de
suma importancia en la teor�a de la informaci�n y se deben principalmente a C. E.
Shannon. Existe, a su vez, un gran n�mero de propiedades respecto de la entrop�a de
variables aleatorias debidas a A. Kolmogorov. Dada una fuente F que emite mensajes,
resulta frecuente observar que los mensajes emitidos no resultan equiprobables sino
que tienen una cierta probabilidad de ocurrencia dependiendo del mensaje. Para
codificar los mensajes de una fuente intentaremos pues utilizar menor cantidad de
bits para los mensajes m�s probables y mayor cantidad de bits para los mensajes
menos probables, de forma tal que el promedio de bits utilizados para codificar los
mensajes sea menor que la cantidad de bits promedio de los mensajes originales.
Esta es la base de la compresi�n de datos. A este tipo de fuente se la denomina
fuente de orden-0, pues la probabilidad de ocurrencia de un mensaje no depende de
los mensajes anteriores. A las fuentes de orden superior se las puede representar
mediante una fuente de orden-0 utilizando t�cnicas de modelizaci�n apropiadas.
Definimos la probabilidad de ocurrencia de un mensaje en una fuente como la
cantidad de apariciones de dicho mensaje dividido entre el total de mensajes.
Supongamos que Pi es la probabilidad de ocurrencia del mensaje-i de una fuente, y
supongamos que Li es la longitud del c�digo utilizado para representar a dicho
mensaje. La longitud promedio de todos los mensajes codificados de la fuente se
puede obtener como:
H = ? i = 0 n P i L i {\displaystyle H=\sum _{i=0}^{n}P_{i}L_{i}}

Promedio ponderado de las longitudes de los c�digos de acuerdo con sus


probabilidades de ocurrencia, al n�mero H se lo denomina "Entrop�a de la fuente" y
tiene gran importancia. La entrop�a de la fuente determina el nivel de compresi�n
que podemos obtener como m�ximo para un conjunto de datos. Si consideramos como
fuente un archivo y obtenemos las probabilidades de ocurrencia de cada car�cter en
el archivo podremos calcular la longitud promedio del archivo comprimido. Se
demuestra que no es posible comprimir estad�sticamente un mensaje/archivo m�s all�
de su entrop�a, lo cual implica que considerando �nicamente la frecuencia de
aparici�n de cada car�cter la entrop�a de la fuente nos da el l�mite te�rico de
compresi�n. Mediante otras t�cnicas no-estad�sticas puede, tal vez, superarse este
l�mite.
El objetivo de la compresi�n de datos es encontrar los Li que minimizan a H; adem�s
los Li se deben determinar en funci�n de los Pi, pues la longitud de los c�digos
debe depender de la probabilidad de ocurrencia de los mismos (los m�s ocurrentes
queremos codificarlos en menos bits). Se plantea pues:
H = ? i = 0 n P i f ( P i ) {\displaystyle H=\sum _{i=0}^{n}P_{i}f(P_{i})}

A partir de aqu� y tras intrincados procedimientos matem�ticos que fueron


demostrados por Shannon oportunamente se llega a que H es m�nimo cuando f(Pi) =
log2 (1/Pi). Entonces:
H = ? i = 0 n P i ( - log 2 ? P i ) {\displaystyle H=\sum _{i=0}^{n}P_{i}(-\log
_{2}P_{i})}

La longitud m�nima con la cual puede codificarse un mensaje puede calcularse como
Li=log2(1/Pi) = -log2(Pi). Esto da una idea de la longitud a emplear en los c�digos
a usar para los caracteres de un archivo en funci�n de su probabilidad de
ocurrencia. Reemplazando Li podemos escribir H como:
H = ? i = 0 n - P i log 2 ? P i {\displaystyle H=\sum _{i=0}^{n}-P_{i}\log
_{2}P_{i}}

De aqu� se deduce que la entrop�a de la fuente depende �nicamente de la


probabilidad de ocurrencia de cada mensaje de la misma; por ello la importancia de
los compresores estad�sticos (aquellos que se basan en la probabilidad de
ocurrencia de cada car�cter). Shannon demostr�, oportunamente, que no es posible
comprimir una fuente estad�sticamente m�s all� del nivel indicado por su
entrop�a.6?7?

You might also like