You are on page 1of 10

CODIFICACION DE FUENTE Y DE CANAL 1. INTRODUCCIN i.

El sistema de comunicaciones El propsito de un sistema de comunicaciones es transmitir informacin desde un emis or hasta un receptor a travs de un canal. El esquema genrico de un sistema de comunicaciones es el siguiente: Figura No 1. El sistema de comunicaciones El emisor en una fuente discreta de informacin desde la que se emiten los d istintos smbolos del alfabeto fuente que se quieren transmitir. Los smbolos emitidos por la fuente llegan al codificador de la fuente donde son transformados en smbolos de un cdigo binario ms adecuado para ser transmitido a travs de un canal de comunicaciones. Opcionalmente estos smbolos codificados pueden ser comprimidos con el objet ivo de reducir su tamao para conseguir una transmisin ms rpida. Durante la transmisin de los smbolos a travs del canal pueden producirse alte raciones de los mismos debidas a la presencia de ruido en el canal. A estas alte raciones se las denomina errores. Por ello, antes de enviar los smbolos codificad os a travs del canal, se realiza una nueva codificacin orientada a que el receptor pueda detectar y corregir los errores producidos en el canal. En la recepcin se realiza un proceso inverso. Primeramente se realiza una d ecodificacin del canal para detectar y corregir los posibles errores que contenga n los smbolos recibidos a travs del canal. A continuacin se procede a una posible descompresin de los smbolos en el caso de haber sido comprimidos en la fuente. Por ltimo se realiza una decodificacin en la que los smbolos codificados se t ransforman en los smbolos originales que fueron transmitidos por el emisor. ii. 1. Conceptos generales Informacin y Entropa Podramos intentar dar una definicin amplia sobre el concepto de informacin, s egn la cul, la informacin es una disciplina matemtica que proporciona importantes co ntribuciones a diversas ciencias como la informtica, comunicaciones,....... Sin e mbargo, trataremos de dar una definicin ms intuitiva del concepto de informacin. La informacin que transmite un mensaje no est relacionada con su longitud. P odemos tener dos mensajes con distinta longitud y que transmitan la misma inform acin. El concepto de informacin est muy relacionado con el concepto de probabilida d. Cuanto ms probable es un mensaje menos informacin contiene. En nuestro caso contamos con los smbolos de un alfabeto fuente que son tran smitidos por el emisor. Cada uno de estos smbolos tiene asociada una probabilidad . El contenido en informacin de cada uno de los smbolos se define como: Las unidades son bits de informacin. Un concepto muy ligado al de cantidad de informacin es el concepto de entro pa. La entropa es una forma de evaluar la calidad del dispositivo codificador. Se define como el valor medio de la informacin por smbolo: Las unidades son bits/mensaje. 2. Codificacin

La codificacin consiste en establecer una correspondencia entre cada uno de los smbolos de un alfabeto fuente y una secuencia de smbolos de un alfabeto desti no. Al alfabeto destino se le denomina alfabeto cdigo y a cada una de las secuenc ias de smbolos de este alfabeto que se corresponda con un smbolo del alfabeto fuen te se denomina palabra de cdigo.

Figura No 2. Alfabeto fuente y alfabeto cdigo El alfabeto fuente contiene los smbolos originales que se quieren codificar . El alfabeto cdigo contiene las palabras de cdigo equivalentes en que se codifica rn los smbolos originales. Estas palabras de cdigo son aptas para ser transmitidas por un sistema de comunicaciones. Tendremos 3 tipos de codificacin: codificacin en la fuente, codificacin de co mpresin y codificacin del canal. 3. Clasificacin de los cdigos Cdigo bloque: es aquel cdigo en el que todas las palabras de cdigo correspo ndientes a cada smbolo del alfabeto fuente tienen la misma longitud. Dentro de es tos cdigos podemos distinguir: Cdigo singular: a cada smbolo del alfabeto fuente le corresponde una nica p alabra de cdigo. - Cdigo no singular: a cada smbolo del alfabeto fuente le corresponde dos o ms palabras de cdigo. Cdigo compacto o de longitud variable: se busca que a cada smbolo del alfa beto fuente le corresponda una palabra de cdigo de longitud mnima segn algn criterio de minimizacin dado. 4. Propiedades de los cdigos Longitud media: Cada palabra de cdigo asignada a cada smbolo del alfabeto fuente tiene una longitud lk. A partir de aqu se define la longitud media de un cd igo como: La longitud media representa el nmero medio de bits por smbolo del alfabeto fuente que se utilizan en el proceso de codificacin. - Eficiencia: A partir del concepto de longitud media la eficiencia de un cdigo se define como: Siendo:

Para calcular Lmin es necesario tener en cuenta el primer teorema de Shano n o teorema de la codificacin de la fuente: Dada una fuente discreta de entropa H, la longitud media de la palabra de cdigo est acotada inferiormente por H. Teniend o esto en cuenta Lmin se fija como el valor de la entropa con lo que la eficienci a puede escribirse como:

- Redundancia: Se denomina redundancia de un cdigo a la informacin superflua o innecesaria para interpretar el significado de los datos originales. Se defin e como:

2. a.

CODIFICACION DE FUENTE Codificacin en la fuente

Introduccin El objetivo de la codificacin es obtener una representacin eficiente de los smbolos del alfabeto fuente. Para que la codificacin sea eficiente es necesario tener un conocimiento de las probabilidades de cada uno de los smbolos del alfabeto fuent e. El dispositivo que realiza esta tarea es el codificador de la fuente. Este

codificador debe cumplir el requisito de que cada palabra de cdigo debe decodifi carse de forma nica, de forma que la secuencia original sea reconstruida perfecta mente a partir de la secuencia codificada. Cdigos de codificacin en la fuente Cdigo BCD Figura No 3. Tabla del cdigo BCD de intercambio normalizado 7 bits Uno de los primeros cdigos utilizados para representar datos en notacin binaria pa ra poder ser manejados por una computadora fue el cdigo BCD (Binary Coded Decimal ). Esta tcnica de codificacin permite que un conjunto de caracteres alfanumricos pu eda ser representado mediante 6 bits(Ver figura de tabla normalizada). Cdigo EBCDIC Este cdigo surge como una ampliacin del cdigo BCD. En las transmisiones de datos es necesario utilizar un gran nmero de caracteres de control para la manipulacin de los mensajes y realizacin de otras funciones. De ah que el cdigo BCD se extendiera a una representacin utilizando 8 bits dando origen al cdigo EBCDIC (Extended Binar y Coded Decimal Interchange Code). Figura No 4. Tabla del cdigo EBCDIC Figura No 5. Caracteres del Cdigo EBCDIC Cdigo FIELDATA Figura No 6. Tabla del cdigo Fieldata de 6 bits Es un cdigo utilizado en transmisiones de datos de algunos sistemas militares y est orientado al lenguaje mquina. Cdigo ASCII ASCII son las siglas de American Standar Code for Information Interchange. Su us o primordial es facilitar el intercambio de informacin entre sistemas de procesam iento de datos y equipos asociados y dentro de sistemas de comunicacin de datos. En un principio cada carcter se codificaba mediante 7 dgitos binarios y fue creado para el juego de caracteres ingleses ms corrientes, por lo que no comtempl aba ni caracteres especiales ni caracteres especficos de otras lenguas. Esto hizo que posteriormente se extendiera a 8 dgitos binarios Figura No 7. Tabla del cdigo ASCII 7 bits Figura No 8. Caracteres del cdigo ASCII

b. Tcnicas de comprensin i. Introduccin Se denomina compresin de datos al conjunto de tcnicas que permiten que un conjunto de datos de una determinada longitud pueda ser reducido en su tamao, sin alterar el significado de la informacin que contiene. Hay dos tipos de compresin: Lgica: se trata de reducir los datos desde el momento del diseo. Fsica: proceso de reduccin de la cantidad de datos antes de poner los datos en el medio de transmisin y deshacer el proceso en el receptor. Tiene en cuenta la frec uencia de ocurrencia de los caracteres.

La compresin modifica la velocidad de transferencia de informacin y adems red uce la probabilidad de que se produzcan errores durante la transmisin a travs de u n canal con ruido. La compresin se puede medir mediante el ndice de compresin: En ocasiones tambin se utiliza el factor de mrito, que es el inverso del ndic e de compresin:

Las tcnicas ms utilizadas para la compresin son: a. Tcnicas de compresin orientadas al carcter b. Tcnicas de compresin estadsticas c. Tcnicas de compresin basadas en diccionario ii. Cdigos de Compresin de la Informacin 1. Tcnicas de compresin orientadas al carcter Se basa en el uso de un carcter especial que indica que se ha realizado la compr esin. Estas tcnicas pueden utilizarse de forma aislada o combinadas entre s. A continuacin se expondrn los siguientes mtodos: Eliminacin de caracteres blancos Bit mapping Run length Half-byte Packing Codificacin dicotmica Eliminacin de caracteres blancos Se recorre la secuencia de datos para encontrar una secuencia repetida de carac teres blancos. Cuando se encuentra una secuencia de este tipo se sustituye por: - Un carcter especial que indica que se est comprimiendo. - Un nmero que indica la cantidad de blancos que se estn comprimiendo. Solo se aplica el mtodo cuando el nmero de blancos consecutivos es superior a 2. Ejemplo de compresin en el emisor La cadena de entrada es: kmq bgpswj Una vez realizada la compresin, la cadena resultante ser: kmqSc6bgpswSc4j Donde representa un carcter blanco y Sc es el carcter especial indicador de compresin. En el proceso de descompresin, el receptor recorre la cadena de datos que llega a travs del canal. Cuando encuentra un carcter especial que indique compresin sabr qu e en esa posicin se ha realizado una compresin y que el siguiente carcter indica el nmero de caracteres blancos que fueron comprimidos y de esta forma podr reconstru ir la cadena original. Ejemplo de descompresin en el receptor La cadena recibida a travs del canal es: mpgtSc6astSc4th Una vez realizada la descompresin obtenemos que la cadena original era: mpgt astth Donde representa un carcter blanco y Sc es el carcter especial indicador de compresin. Esta tcnica de compresin es til para la compresin de documentos que contienen muchas indentaciones. Bit mapping

Es una tcnica efectiva cuando en la secuencia a comprimir aparecen en gran propor cin datos de un determinado tipo: numricos o caracteres blancos, por ejemplo. Se utiliza un bit map para indicar: - la presencia o ausencia de caracteres de datos y/o - el hecho de que ciertos caracteres de datos se han encontrado ante riormente y deben ser tratados de nuevo para devolverles a su estado original. El bit map tendr tantos bits como el tamao del carcter (normalmente sern 8 bit s). Ejemplo de compresin en el emisor En este ejemplo se realizar la compresin de caracteres blancos. La cadena de entrada es: kmqbgp swj Dividimos la cadena de entrada en grupos de 8 caracteres (considerando que la representacin interna de cada carcter se realiza con 8 bits). kmq bgpsw j Para cada grupo de 8 caracteres se calcula su bit map. En cada posicin de u n bit map se aade: 0 si el carcter correspondiente es un blanco 1 se el carcter correspondiente no es un blanco Despus de cada bit map se aaden los caracteres distintos del carcter blanco c orrespondientes a ese bit map. De esta forma, la cadena resultante es: 11100000 kmq 01110011 bgpsw 00001000 j Si el ltimo grupo de caracteres es inferior a 8 caracteres se aaden blancos hasta completar 8 caracteres. En este ejemplo hemos reducido una cadena de 21 caracteres a una cadena de 12 caracteres. En el proceso de descompresin, el receptor toma el primer carcter de la cadena qu e llega a travs del canal y lo considera como un bit map. Al interpretar el bit m ap, por cada bit que es igual a 1 el receptor aade a la cadena resultante el sigu iente carcter de la cadena recibida, y por cada bit que es igual a 0, el receptor le aade un blanco a la cadena resultante. Una vez finalizada la interpretacin del bit map, el receptor toma el siguiente carcter de la cadena recibida interpretan dolo como un bit map y repitiendo el proceso. De esta forma se obtiene la cadena original a partir de la cadena recibida a travs del canal. Ejemplo de descompresin en el receptor La cadena recibida a travs del canal es la siguiente: 11001100 mpgt 00001110 ast 00011000 th

Realizando la descompresin, la cadena original obtenida a partir de la cade na recibida es: mpgtast th Run length Esta tcnica es una generalizacin del mtodo de eliminacin de blancos. Con esta tcnica se puede reducir cualquier secuencia de caracteres cuando el nivel del ocurrenci a es de tres o ms caracteres iguales consecutivos. Cuando se encuentran 3 o ms caracteres iguales consecutivos lo que se hace es sustituir esta secuencia por: - un carcter especial indicador de compresin - el carcter que se comprime - nmero que indica la cantidad de caracteres que se comprimen

Ejemplo de compresin en el emisor La cadena de entrada es: fghhhhjjer tttrrrrrywqad Una vez realizada la compresin, la cadena resultante ser: fgSch4jjerSc9Sct3Scr5ywqad Donde representa un carcter blanco y Sc es el carcter especial indicador de compresin. En el proceso de descompresin, el receptor recorre la cadena de datos que llega a travs del canal. Cuando encuentra un carcter especial que indique compresin sabr qu e en esa posicin se ha realizado una compresin y que el siguiente carcter indica el carcter que ha sido comprimido y a continuacin aparece el nmero que indica cuantos caracteres fueron comprimidos y de esta forma podr reconstruir la cadena origina l. Ejemplo de descompresin en el receptor La cadena recibida a travs del canal es la siguiente: gtScr5juliSc4jklScp3hj Una vez realizada la descompresin obtenemos que la cadena original era: gtrrrrrjuli jklppphj Half Byte Parking Esta tcnica de compresin puede ser considerada como una derivacin de la tcnica Bit mapping. Se aplica a smbolos codificados en ASCII o EBCDIC. Para su aplicacin se e scogen del conjunto de caracteres disponibles aquellos que tienen una parte igua l (normalmente los 4 primeros bits iguales). Esta tcnica solo se aplica cuando aparecen cuatro o ms caracteres consecutiv os susceptibles de ser comprimidos, es decir, que pertenecen al conjunto de smbol os seleccionados. Cuando se encuentran una secuencia de caracteres consecutivos susceptibles de ser comprimidos lo que se hace es sustituir esta secuencia por: - un carcter especial indicador de compresin - un contador que indica el nmero de caracteres que han sido comprim idos - de cada carcter comprimido se toman solo sus 4 bits menos signific ativos El nmero de caracteres consecutivos que pueden ser comprimidos depender del nmero de bits elegido para representar el contador. Si el contador se representa mediante 4 bits, se podrn comprimir hasta 15 caracteres consecutivos. Si el conta dor se representa mediante 8 bits se podrn comprimir hasta un mximo de 255 caracte res consecutivos. Con los grupos de 4 bits procedentes de los caracteres que son comprimidos se formarn nuevos caracteres de 8 bits que sern transmitidos a travs del canal. Ejemplo de compresin en el emisor En este ejemplo se comprimirn caracteres numricos pertenecientes al cdigo EBC DIC. La cadena de entrada es: 9001922 Que codificada en EBCDIC ser: 1111 1001 1111 0000 1111 0000 111 0010

1111 0001

1111 1001

1111 0010

Una vez realizada la compresin obtenemos: Sc 0111 1001 0000 0000 0001 1001 0010 0010

Donde Sc es el carcter especial indicador de compresin y el primer grupo de 4 bits es el contador que indica el nmero de caracteres que se han comprimido (en este caso es un 7). En el proceso de descompresin, el receptor recorre la cadena de datos que llega a travs del canal. Cuando encuentra un carcter especial que indique compresin sabr qu e en esa posicin se ha realizado una compresin. A continuacin lee el siguiente carct er de la cadena recibida, y dependiendo de la convencin utilizada para el tamao de l contador se dar una de estas dos situaciones: - Si el contador se representa con 4 bits, se divide el carcte r en 2 grupos de 4 bits. El primer grupo se interpreta como el contador y el segundo grup o se interpreta como los 4 bits menos significativos del primer carcter comprimido. - Si el contador se representa con 8 bits, el carcter se inter preta como el contador. A continuacin se irn leyendo los caracteres de la cadena recibida y cada uno se dividir en dos grupos de 4 bits que se interpretarn como los 4 bits menos sign ificativos de cada carcter comprimido, hasta haber obtenido un nmero de caracteres igual al indicado por el contador. De esta forma se obtiene la cadena original a partir de la cadena recibida a travs del canal. Ejemplo de descompresin en el receptor En este ejemplo se realizar la descompresin de una cadena que incluye caract eres numricos comprimidos pertenecientes al cdigo EBCDIC. La cadena recibida a travs del canal es la siguiente: 1001 0010 1010 0011 1001 0101 Sc 0111 1001 0000 0000 0010 0010 0110 1111 0001 1001

Consideramos que el contador est formado por 4 bits. En este caso el contad or es 0111 lo que implica que se han comprimido 7 caracteres numricos. Una vez realizada la descompresin obtenemos que la cadena original era: 1001 0010 1010 0011 1001 0101 1111 1001 1111 0000 1111 0000 1111 00 01 1111 1001 1111 0010 1111 0010 0110 1111 Que interpretado en cdigo EBCDIC es: ktn9001922? Codificacin dicotmica Esta tcnica de compresin consiste en sustituir cada par de caracteres por un carcte r especial. De esta forma teoricamente se podra reducir el nmero de caracteres tra nsmitidos a la mitad. Sin embargo el nmero de caracteres especiales que podemos u tilizar es limitado, con lo que no ser posible poder sustituir cualquier par de c aracteres por un carcter especial. Esto nos lleva a la conclusin de que para maximizar la compresin es necesari o utilizar los caracteres especiales para sustituir aquellos pares de caracteres que tienen una mayor frecuencia de aparicin. Por ello, antes de aplicar esta tcnica es necesario realizar un estudio pre vio del tipo de datos que se van a transmitir. En este estudio se obtendrn las fr ecuencias de aparicin de cada posible par de caracteres. Una vez obtenidas estas frecuencias se asignar un carcter de compresin a cada uno de los pares de caracteres que tengan una mayor frecuencia de aparicin. En el proceso de compresin, el emisor va comprobando los caracteres que for man la cadena que se quiere enviar, y cuando detecta un par de caracteres suscep tibles de ser comprimidos, transmitir el carcter especial asignado a ese par de ca

racteres. Ejemplo de compresin en el emisor La siguiente tabla muestra aquellos pares de caracteres que tendrn asociado s un carcter especial. par de caracteres carcter especial co Sc tr Sx ma Sy gs Sz La cadena de entrada es: hmtrctrbjmajopgscowmgsf Una vez realizada la combresin obtendremos: hm Sx c Sx bj Sy jop Sz Sc wm Sz f En el proceso de descompresin, el receptor va comprobando los caracteres de la c adena recibida a travs del canal y cuando encuentra un carcter especial lo sustitu ye por el par de caracteres correspondiente a ese carcter especial. De esta maner a se consigue obtener la cadena original a partir de la cadena que se recibe a t ravs del canal. Ejemplo de descompresin en el receptor Para este ejemplo se utilizar la misma tabla que se utiliz en el ejemplo cor respondiente a la compresin. La cadena recibida a travs del canal es la siguiente: hjnScmSxpyaqSybSylk SzSzxx Una vez realizada la descompresin obtenemos que la cadena original era: hjncomtrpyaqmabmalkgsgsxx 2. Tcnicas de compresin estadsticas La compresin estadstica no es una tcnica de compresin propiamente dicha. Se trata de una tcnica en la que se realiza la codificacin en la fuente y la compresin simul taneamente. De ah que esta tcnica sea tambin conocida con el nombre de codificacin e stadstica. Su objetivo consiste en realizar una codifiacin en la fuente para obtener cd igos tales que la longitud media de los datos codificados sea menor que la obten ida con cdigos de longitud fija. Por este motivo, para la construccin de estos cdig os es necesario tener un conocimiente previo de la frecuencia de ocurrencia de c ada uno de los caracteres del cdigo original. Se usarn codificaciones ms cortas par a representar los caracteres con mayor frecuencia de aparicin. Los principales cdigos estadsticos que se expondrn son: Cdigo de Huffman Cdigo de Shannon-Fano Cdigos Coma Codificacin aritmtica Compresin adaptativa La construccin de este tipo de cdigos se basa en la propiedad del prefijo, segn la cual, ninguna secuencia de bits que represente a un carcter del cdigo podr aparecer como subsecuencia inicial de otra secuencia de longitud mayor que represente a otro carcter del cdigo. Con esta propiedad se asegura que estos cdigos slo admiten una nica posibilid ad para ser desconfiados. Cdigo de Huffman Este cdigo es un cdigo ptimo dentro de los cdigos de codificacin estadstica, ya que e s el cdigo de menor longitud media. La construccin de este cdigo se fundamenta en asignar a cada smbolo del alfab eto fuente una secuencia de bits cuya longitud est relacionada de forma directa c on la probabilidad de aparicin de ese smbolo. De esta forma, a los smbolos con mayo

r frecuencia de aparicin se les asignarn las palabras de cdigo de menor longitud. En el proceso de construccin de este cdigo, lo primero que se hace es ordena r el conjunto de smbolos del alfabeto fuente en orden decreciente de probabilidad es de aparicin. A continuacin se juntan los dos smbolos con menor probabilidad de a paricin en un nico smbolo cuya probabilidad ser la suma de las probabilidades de los smbolos que dieron origen a este nuevo smbolo. Se repite este proceso hasta que slo tengamos dos smbolos. A continuacin se realiza el proceso de codificacin. Primeramente asignamos u n 1 a uno de los dos smbolos que tenemos y un 0 al otro. Posteriormente recorrere mos la estructura que hemos construido hacia atrs de forma que cuando dos smbolos hayan dado origen a un nuevo smbolo, estos dos smbolos "heredarn" la codificacin asi gnada a este nuevo smbolo y a continuacin se le aadir un 1 a la codificacin de uno de los smbolos y un 0 a la del otro smbolo.(interactuar con applet) Cdigo de Shannon-Fano Para la construccin de este cdigo, el primer paso consiste en ordenar el conjunto de smbolos del alfabeto fuente en orden decreciente de probabilidad de aparicin. A continuacin se divide el conjunto en dos subconjuntos de forma que la sum a de probabilidades de los smbolos de cada subconjunto sea igual o aproximadament e igual en cada subconjunto. A los smbolos del primer subconjunto se les asigna un 1 y a los del segundo un 0 (o al revs). En cada subconjunto se repite el proceso hasta que se obtienen subconjunto s de un solo smbolo. (interactuar con applet) Cdigos Coma Los cdigos de Huffman y de Shannon-Fano descritos anteriormente tienen el inconve niente de que si se pierde un bit o si se produce un error durante la transmisin se interpretarn de forma errnea todos los datos en el receptor. Los cdigos coma tratan de superar este inconveniente proporcionando una met odologa para que si se producen errores en la transmisin el receptor se recupere a ntes del error. Para ello, estos cdigos pretenden conseguir el efecto de introduc ir un smbolo de separacin entre dos caracteres consecutivos. En la construccin de este cdigo, lo primero que se hace es ordenar el conjun to de smbolos del alfabeto fuente en orden decreciente de probabilidad de aparicin . A continuacin se procede a la construccin del cdigo de la siguiente forma: - Al smbolo de mayor probabilidad de aparicin se le asigna un 1 (o un 0) - Al siguiente smbolo con mayor probabilidad de aparicin se le asigna la sec uencia 01 (o 10) - Al siguiente smbolo con mayor probabilidad de aparicin se le asigna la sec uencia 001 (o 110) De esta forma se consigue que el 1 (o el 0) sirva como smbolo separador ent re las codificaciones de dos smbolos. Ejemplo de construccin del cdigo Para este ejemplo usaremos el conjunto de smbolos que se muestra en la sigu iente tabla: smbolo probabilidad x1 0'1 x2 0'05 x3 0'2 x4 0'15 x5 0'15 x6 0'25 x7 0'1

Primeramente ordenamos los caracteres de mayor a menor probabilidad de apa ricin y a continuacin asignamos a cada uno su correspondiente codificacin siguiendo los pasos explicados anteriormente, con lo que obtenemos: probabilidad smbolo palabra de cdigo 0'25 x6 1 0'2 x3 01 0'15 x4 001 0'15 x5 0001 0'1 x1 00001 0'1 x7 000001 0'05 x2 0000001 Codificacin aritmtica Compresin adaptativa Tcnicas de compresin basadas en diccionario

3.

You might also like