You are on page 1of 18

BIOLOGA MOLECULAR DE LA CLULA

Guin de prcticas de Bioinformtica


Curso 2015-2016

Departamento de Biologa Molecular


Universidad de Cantabria

PRACTICA 1. INTRODUCCION A LA BIOINFORMATICA


Parte 1. Bases de Datos y Anlisis de secuencias
INTRODUCCION AL NCBI
Entender la naturaleza y lenguaje de las clulas es el reto de la moderna Biologa
Molecular. A partir de un alfabeto de solo cuatro letras (las subunidades qumicas del DNA)
se llega a una sintaxis de procesos vitales cuya expresin ms compleja es el ser humano.
Descifrar y usar este alfabeto para formar nuevas palabras y frases es un objetivo central
de la Biologa Molecular.
La enorme cantidad de datos moleculares existente as como la complejidad de sus
patrones hacen necesario la existencia de bases de datos computarizadas y herramientas de
anlisis.
El Centro Nacional para Informacin en Biotecnologa (NCBI) es un Centro creado en
1988 en EE.UU. que rene una gran cantidad de informacin sobre Biologa Molecular y
Biomedicina, de acceso pblico y desde cualquier lugar con acceso a Internet. Entre sus
objetivos se encuentran :
1) La creacin de sistemas automatizados para el almacenamiento y anlisis del conocimiento
sobre Biologa Molecular, Bioqumica y Gentica
2) Facilitar el uso de las bases de datos y programas a la comunidad mdica y cientfica
3) Coordinar esfuerzos para reunir la informacin biotecnolgica existente a escala
internacional.
4) Investigar en mtodos avanzados de informtica para el anlisis de la estructura y funcin de
molculas biolgicas importantes
Para todo estudiante y profesional de Biologa o Medicina es fundamental conocer y
utilizar algunos de sus numerosos recursos , programas y bases de datos disponibles.
En estas practicas aprenderemos a utilizar algunos de ellos as como su aplicacin a
problemas concretos.
GENE es un recurso relativo a secuencias genticas. GENE proporciona el siguiente tipo de
informacin:
Localizacin cromosmica, secuencia, expresin, estructura, as como datos sobre su funcin y
homologa. Cada ficha de GENE contiene toda esta informacin para cada gen que cuente
con un registro genmico (RefSeq).
En esta practica aprenderemos a obtener informacin sobre un gen humano del tipo
siguiente:
-

mRNA, secuencia de nucletidos y su traduccin en aminocidos.


informacin general sobre el gen y la protena.
existencia de genes homlogos de otros organismos.
SNPs conocidos y si estos SNPs en la regin codificante alteran la funcin de la
protena.
Fenotipos asociados con mutaciones.

Lo primero es entrar en pgina del NCBI (http://www.ncbi.nlm.nih.gov)

En esta pgina de bienvenida se muestran los recursos principales del NCBI. Dentro de
los mas populares aparece GENE que empezaremos a utilizar pinchando en l. En la casilla de
bsqueda de GENE podemos poner el nombre de un gen, una protena o una enfermedad, que
sea de nuestro inters. Empezaremos por estudiar el gen humano MYC.

Pinchando ahora en Search se abre una pgina de resultados. Esta contiene todos los
genes myc almacenados. El primero, en este caso, es el del gen humano cuyo nombre
completo es : v-myc (Homo sapiens). En una segunda columna aparece la localizacin
cromosmica, en otra columna los Alias etc. Asimismo se indica el nmero de registros
encontrados (6818, el 1 de febrero de 2016) y bajo cada registro un numero de identificacin
ID. Seleccionando la ficha deseada en la casilla adjunta y pinchando en el nombre podemos
acceder a ms informacin.

La nueva ventana constituye un registro completo del gen myc humano. En este
destacamos la informacin titulada Summary que entre otros datos contiene una descripcin
del gen, protena, actividades biolgicas de la protena, relacin con enfermedades causadas
por mutaciones, etc.

Otro apartado de la ficha es el Contexto genmico en el que se describe el cromosoma


en el que se localiza, la numeracin de las bases entre las que est contenido, as como
informacin grfica de otros genes situados en su proximidad, direccin de transcripcin, etc.
La seccin siguiente titulada Genomic regions, transcripts and products, muestra la estructura
del gen (intrones y exones, regiones no traducidas, etc). La seccin siguiente es una de
Bibliografa en la que aparece una pequea lista de referencias a artculos relativos al gen myc
o a la protena myc que es susceptible de ampliarse mucho ms en la base de datos PubMed.
La siguiente seccin es Fenotipos y en ella se muestran los principales fenotipos asociados con
este gen. Otras secciones son Variantes, Interacciones, etc.
A la derecha de esta ventana se encuentra una lista de recursos relacionados
directamente con el gen y/o proteina en estudio a los que podemos acceder pinchando en
ellos. Por ejemplo pinchando en la base de datos CCDS (Consensus CDS Protein Set) se
puede obtener informacin de calidad de la secuencia del gen y sus productos.

Nos fijaremos en la secuencia de nucletidos del mRNA codificante (1365 nt). El gen
myc tiene 3 exones, que aparecen alternando los colores negro/azul/negro. Solamente una
pequea regin del extremo 3 del primer exn es codificante. Pasando el cursor sobre la
secuencia de nucletidos observamos los tripletes y los aminocidos que codifican
iluminndose en amarillo. Pinchando en un triplete cualquiera de la secuencia de nucletidos
se puede colorear el aminocido codificado.

COPIAR LA SECUENCIA DE AMINOACIDOS (ctrl/c; ctrl/v) EN OTRO DOCUMENTO O ABRIR


OTRA VENTANA IGUAL PARA EL SIGUIENTE EJERCICIO
Pinchando en la entrada RefSeqRNAs aparecen los distintos mensajeros que se han
registrado, que pueden deberse a diferentes lugares de inicio de la transcripcin o la traduccin
o a las diferentes combinaciones de unin de los exones mediante corte y empalme.

BLAST: Similitud entre secuencias


El anlisis de la similitud con otras secuencias constituye muchas veces el primer paso
en la bsqueda de informacin sobre una secuencia de DNA o proteina. Una bsqueda de este
tipo permite obtener un primer dato acerca de la funcin de una secuencia al compararla con
otras parecidas. La herramienta BLAST del NCBI es el mtodo mas empleado para hacerlo.
BLAST (Basic Local Alignment Search Tool) lleva a cabo como su nombre indica alineamientos
locales. Muchas protenas son modulares y contienen dominios funcionales que pueden
aparecen en otras protenas y en otras especies. El algoritmo utilizado por BLAST permite
encontrar en estos dominios o en fragmentos de ellos similitud entre secuencias. El
alineamiento local permite comparar tambin secuencias de mRNA con secuencias de DNA
genmico, como se hace durante el ensamblaje de secuencias en la secuenciacin de un
genoma. Si en lugar de alineamientos de corta extensin se tratara de alinear dos o mas
secuencias en toda su longitud sera muy difcil encontrar pequeas similitudes en dominios o
fragmentos.
Como indica la pgina de entrada existen varios tipos de programas BLAST. Nosotros
emplearemos el programa blastp para comparar la secuencia de aminocidos de la protena
myc con otras protenas (pinchar en protein blast). Empezamos seleccionando y copiando la
secuencia de aminocidos en la ventana correspondiente.

Bajo la ventana de la secuencia de myc pegada aparece una seccin que dice Choose
Search Set y un desplegable que nos permite elegir la base de datos frente a la que vamos a
hacer la comparacin. La opcin por defecto Non-redundant protein sequences (nr) busca en
todas las bases de datos. Esta opcin es la que elegimos. Alternativamente la bsqueda se
puede restringir a organismos, grupos taxonmicos etc.
A continuacin pinchamos en BLAST y el programa comienza a realizar la bsqueda.
Al cabo de segundos o minutos aparecern los resultados en pantalla.
La primera parte de los resultados es una barra que representa toda la secuencia de la
proteina empleada para generar la bsqueda que en la terminologa del programa se identifica
como query.
Bajo la barra aparece informacin de su estructura de dominios as como de la familia
de protenas a la que pertenece.
En la parte baja veremos como lneas de color rojo los homlogos encontrados.

Si bajamos en la pgina encontraremos en Descriptions el listado de los primeros


homlogos encontrados. Hay un enlace a su nmero de acceso en GenBank. Cada homlogo
tiene asociado un Score que representa el resultado numrico. Cuanto mas alto es el Score
mayor es la homologa.

Ms abajo hay una ventana denominada Alignments donde se pueden ver los
alineamientos entre los aminocidos de la protena query y cada uno de los homlogos. Se
puede observar que al ir bajando aparecen ms diferencias (cambios) indicando que la similitud
entre las secuencias alineadas es menor.
HOMOLOGENE
Otra informacin de inters puede ser la existencia de genes y protenas homologas en
otros organismos eucariotas. Desde la pgina de nuestro gen de inters (Myc) podemos entrar
ahora en la Base de Datos de HOMOLOGENE.

Observamos dos columnas, una para genes y otra para protenas de cada organismo
que contiene dicho gen. Bajo la seccin Protein Alignments es posible hacer un BLAST para
dos de estas protenas directamente poniendo en la ventana correspondiente el nmero de
identificacin sin necesidad de copiar la secuencia en el programa como hicimos antes. Es
posible as calcular y visualizar la homologa existente en porcentaje as como de otras
maneras.

SNP
Otra Base de datos accesible es SNP (Single Nucleotide Polimorfisms). Un
polimorfismo de un solo nucletido es una variacin en la secuencia de ADN que afecta a una
sola base de la secuencia de un gen. Debe darse en un 1% de la poblacin para ser
considerado como SNP. Si no se llega al 1% se considera mutacin puntual y no SNP.
Pinchando en el enlace SNP nos abre una ventana con todos los polimorfismos
encontrados para este gen. En el caso del gen Myc aparecen 341.
Esta base informa del cambio y de su localizacin as como de si se trata de un cambio
no sinnimo (missense), en un intrn o en un exn, etc.

Desde la misma pgina se pude filtrar los resultados de los SNPs para ver cules de
ellos pueden tener significado clnico o patognico (en la columna de la izquierda pinchar en
pathogenic). Aparecen cuatro.

OMIM
Desde la ventana anterior se puede ahora acceder a OMIM (Online Mendelian
Inheritance in Man) una base de datos muy importante en Medicina que incluye informacin
completa y bibliografa sobre genes implicados en enfermedades.

10

EJERCICIOS
Ejercicio 1
-Recuperar las entradas humanas relativas a protena Prin en Gene.
-Identificar el gen para la proteina prion ( PRNP).
-Nombrar la localizacin gentica para este gen en el genoma humano.
-Cual es la funcin de esta protena?
-Cuales son los smbolos genticos alternativos?
-Nombrar los fenotipos asociados con mutaciones en este gen.
-Cuntos productos genticos producidos por splicing alternativo se han anotado para este
gen?
-Para obtener informacin sobre homlogos de otros organismos eucariticos pincha en el
enlace de Homologene.
-Qu porcentaje de identidad hay entre la proteina humana y la de ratn?. Observa el
alineamiento pinchando en el enlace BLAST.
- Identifica las variaciones de este gen asociadas con clnica pinchando en SNP. Selecciona
Clinical.
-Cuantos cambios son missense ( no sinnimos)?
- Para determinar si los SNPs conocidos (en la regin codificante) estn asociados con algn
fenotipo accede al registro en OMIM. Compara los cambios missense del registro SNP con las
variantes allicas en el registro OMIM.

Ejercicio 2
-Recuperar las entradas relacionadas con colon cncer en Gene.
-Identificar el gen MLH1.
-Nombrar la localizacin gentica de este gen en el genoma humano.
-Cul es la funcin de esta proteina?
-Cules son los smbolos genticos alternativos?
-Nombrar los fenotipos asociados con mutaciones en este gen.
- Cuantos productos de splicing alternativo han sido anotados?
- Cual es el % de identidad entre las protenas humana y de ratn?
-Identificar las variaciones anotadas. Cuantos son cambios missense (no sinnimos)?

11

Parte 2. Estructura de protenas


La determinacin de la estructura tridimensional de macromolculas es,
probablemente, la mejor manera de acercarnos al conocimiento del mecanismo
por el cual una molcula lleva a cabo una funcin biolgica particular.
Existen tres tcnicas experimentales que nos permiten obtener la estructura tridimensional
de macromolculas:
-

Difraccin de rayos X de cristales tridimensionales. Esta es la tcnica ms usada para


obtener informacin estructural a escala atmica (menor de 3 ). La principal dificultad de
esta tcnica es la obtencin de cristales tridimensionales.

Resonancia magntica nuclear (RMN). Esta tcnica tiene la ventaja de no necesitar


cristales. Sin embargo, la complejidad del anlisis de los espectros de resonancia hace
que esta tcnica sea prcticamente utilizada slo para molculas pequeas (menores de
30 kDa) y que no presenten estados oligomricos.

Difraccin electrnica. Esta tcnica se hace con un microscopio electrnico y se puede


aplicar sobre cristales bidimensionales (lminas) o sobre molculas dispersas. Los
electrones tienen carga y poseen una capacidad de penetracin muy baja pero se pueden
acelerar con longitudes de onda ms bajas. Los rayos X tienen una capacidad de
dispersin en cristales bidimensionales muy baja, por ello, las lentes de un microscopio
electrnico se pueden utilizar para enfocar el patrn de difraccin electrnico de una
muestra fina sobre una pantalla fluorescente y recoger el patrn de difraccin en un film o
en una cmara CCD. Aunque limitada en su uso esta tcnica ha permitido resolver
estructuras muy complejas que no pudieron resolverse mediante las tcnicas anteriores, el
ejemplo ms importante quizs lo represente la estructura del dmero de tubulina que
forma los microtbulos.

Existe una base de datos donde estn depositadas todas las estructuras obtenidas por
difraccin de rayos X o RMN que se resuelven. De hecho, esta prctica es obligada si esa
estructura va a ser publicada en una revista cientfica. Es la base de datos conocida como
Protein Data Bank (PDB).
(1) Lo primero que haremos ser entrar en la pgina de la base de datos del PDB en la
siguiente direccin http://www.rcsb.org/pdb/home/home.do o desde el enlace de la prctica del
aula virtual.
Podemos acceder a la estructura de cualquier molcula en el campo de bsqueda bien
mediante un identificador (PDB ID) o, si no lo sabemos, mediante una palabra clave. El
identificador PDB consta de un nmero seguido por 3 caracteres alfanumricos (generalmente

letras)

12

(2) El ejemplo que vamos a estudiar en esta prctica es el de la protena MYC y el complejo
que forma con otra protena conocida llamada MAX para poder interaccionar con el ADN. Para
acceder a esta estructura tecleamos MYC MAX o el que es el cdigo identificador de esta
estructura si lo sabemos, en este caso 1NKP, en la ventana indicada por la flecha roja y
pulsamos SEARCH.

A continuacin abrimos la pgina de la estructura 1NKP. En esta pgina existe mucha


informacin tcnica que en esta prctica vamos a obviar, pero que es muy importante para los
especialistas en el campo.
Nos vamos a centrar slo en la estructura que aparece en el margen izquierdo de esta
pgina. Esta estructura la podemos visualizar on-line con cualquiera de las opciones que
aparecen en Display Files.
Antes de empezar a visualizar la estructura con cualquiera de los programas es
importante que sepis que es lo vais a ver (no hay que adivinar!): Pinchando en sequence
encontraris toda la informacin de lo que vais a ver, cuantas cadenas polipeptdicas, a quien
corresponde cada una, el nmero de aminocidos de cada una, y su estructura secundaria
donde ya podis ver cuantas hlices, cadenas beta, etc. contiene cada una. Si os fijis dice que
esta estructura contiene ocho cadenas con tres entidades diferentes de secuencia nica, es
decir: dos molculas de DNA de cadena doble, y dos heterodmeros de Myc y Max.
(3) Ahora nos vamos a descargar el fichero de la estructura a nuestro ordenador para poder
trabajar con ella sin tener que depender de la accesibilidad de la red, adems de poder
manipularla con nuestros programas. Para bajarnos la estructura tridimensional al ordenador
pulsamos en Download files (flecha roja)
(4) Se abre una pequea ventana con varios formatos y pulsamos en PDB File (Text) y lo
guardamos en el escritorio. Este fichero contiene todas las coordenadas atmicas de la
estructura. Para visualizar esta estructura existen muchos programas diferentes (Rasmol, 3D
Molecule Viewer, Protein explorer, etc.) .
En esta prctica vamos a usar uno que se llama Pymol. Este es un programa muy
completo, pero en esta prctica slo veremos alguna de sus aplicaciones ms bsicas. El
programa est ya instalado en vuestros ordenadores.
(5) En el icono SOFTWARE DE VIRTUALIZACIN situado a la derecha en la parte inferior de
la pantalla seleccionar PYMOL v1.3R1 y activar. Aparecer el icono de Pymol en el escritorio
Si lo quieres descargar en tu ordenador de casa, la penltima versin del programa es
libre y es la instalada en los ordenadores de Prcticas. Para bajarse el programa ir a

13

http://pymol.org/educational/ Te registras como Student. Ocupa unos 90 Mb o o desde el


enlace de la prctica del aula virtual]
(6) Entonces se abren dos
ventanas: una es la ventana de
comandos donde pulsamos en
File,
seleccionamos
open
(flecha roja) buscamos en el
escritorio de nuestro ordenador el
fichero 1NKP.pdb y lo abrimos
Advertencia: Este programa no es user friendly, no se puede regresar con los trucos
tpicos de CTRL+Z o undo o similares, es decir, lo que vayis haciendo es muy importante
que lo vayis salvando en cada paso en el escritorio. Desde File, se puede salvar la sesin de
Pymol en cualquier momento, de modo que al abrir la estructura ya se abre en el estado en que
se ha guardado. Si se quiere se pueden ir salvando las diferentes modificaciones (con diferente
nombre para no borrar la original).
En la ventana de visualizacin aparecer la molcula con todos sus tomos:

A continuacin nos aparece en la otra ventana la estructura de Myc.


(7) Para ver mejor la estructura secundaria, en el margen derecho de esta ventana, en el
recuadro 1NKP seleccionamos H (de hide, esconder) (flecha blanca) y all seleccionamos
everything y desaparecer toda la molcula de la ventana.
(8) Ahora seleccionamos S (de show, mostrar) (flecha roja) y ah seleccionamos cartoon.
Ahora se ven bien cuatro cadenas de protena:
dos dmeros Myc-Max. Cada cadena tiene una
estructura hlice alfa-lazo-hlice alfa y cada
dmero est unido a una doble cadena de
ADN.
(9) Con el ratn (botn izquierdo) podemos
girar la molcula en la direccin que queramos
(10) Con el botn derecho pulsado podemos
hacer zoom sobre ella moviendo el ratn hacia
delante o hacia atrs.
(11) Ahora vamos a colorear las cadenas.

14

Seleccionamos el recuadro C (Figura de referencia flecha naranja) y vemos los diferentes


colores con los que podemos representar la molcula.
Por ejemplo, si seleccionamos colorear por cadena (by chain), aparecen de un color
diferente cada una de las 4 cadenas (A, B, C, D).
(12) En este punto salvar esta estructura con otro nombre. En cualquier momento se puede
salvar la sesin de Pymol, de modo que al abrir la estructura ya se abre en el estado en que se
ha guardado. Para ello en la ventana de comandos pulsamos en File y seleccionamos save
Session as. Y a continuacin guardamos esta imagen pulsando en la ventana de comandos
en File Save image Guardar en el escritorio (la guarda en formato PNG).
La estructura corresponde a un doble complejo de Myc unido a Max (a quien se une en
forma de dmero) y al ADN, por tanto ahora vamos a borrar uno de los dmeros Myc-Max y su
ADN de la estructura.
Para ocultar uno de los complejos Myc-Max-ADN, poner el cursor sobre cada una de
las cadenas a eliminar y pulsar el botn derecho. Entonces aparecer un recuadro, y arriba en
violeta, donde aparece el nombre de la cadena y el aminocido concreto donde hayamos
puesto el cursor, y un men debajo.
Por ej.: 1NKP/E/GLU248/CA si es la cadena E con el cursor en el aminocido glutmico (Glu)
de la posicin 248).

13) Eliminaremos entonces una a una las cadenas proteicas Myc (cadena D). Pulsamos el
botn derecho y pinchamos chain hide everything.
Veremos que desaparece toda esa cadena.
(14) Repetir con las cadena de Max (cadena E) y la doble
cadena de ADN (H y J). Nos ha de quedar una imagen como
esta:

15

(15) Ahora coloreamos la cadena A (Myc) de azul y la cadena B (Max)


de rojo.
Para ello ponemos el cursor sobre la cadena A, pulsamos botn
derecho chain color cyans cyan. Y lo mismo para
la otra.
(16) Para visualizar mejor el ADN, lo coloreamos de verde.
Para ello coloreamos las cadenas F y G de igual manera: chain
color greens green.
Para poder ver las bases del ADN: cursor sobre cadena F botn
derecho chain show sticks
(17) Por ltimo podemos cambiar el color de fondo. Para ello, en la
ventana de comandos seleccionamos Display (Figura de referencia,
flecha azul): Display background white. Queda la imagen
de la derecha.
(18) Se puede centrar la imagen, si hiciera falta, con el comando A
sobre (1NKP) center (comandos de arriba a la derecha en la Figura de referencia)
(19) A continuacin guardamos esta imagen pulsando en la ventana de comandos (Figura de
referencia flecha roja) en File Save image y Guardar en el escritorio (la guarda en
formato PNG).
Se podr abrir con el Visor de Windows y entonces salvarla como JPEG.
(20) Copiar y pegar en tu documento Word esta estructura y la salvada
anteriormente (punto 12).
(21) Ahora puedes girar la imagen para ver un corte transversal del ADN y
observar cmo las hlices-alfa de Myc y de Max abrazan el ADN como una
tijera.

(22) El formato de cartoon es muy til para ver la estructura secundaria de la


protena, pero da una imagen irreal de la misma. Para tener una idea de cmo es el
volumen o la superficie de nuestra protena en 3D pulsamos sobre la cadena A
(Myc, azul) con botn derecho chain show surface.
Luego hacemos lo mismo con las dos cadenas del ADN. Aparece la
estructura como la figura de la derecha.
(23) Ahora identificaremos los aminocidos responsables de la unin de Myc al
ADN. Para ello vamos a la ventana de comandos seleccionamos Display y luego
Sequence. Nos aparecer la secuencia de las cadenas de Myc y Max cada una
en su color, en la parte superior de la imagen de la estructura proteica (flecha roja), y el ADN
en verde. Aparece en el cdigo de una letra por aminocido (al final del documente tienes el
cdigo de aminocidos de una letra). Podemos movernos de derecha a izquierda a lo largo de
la secuencia desplazando la barra gris (flecha gris).
En la misma secuencia o en la propia estructura, pulsa con el ratn en el sitio de la
cadena azul de Myc donde t crees que empieza la interaccin protena-ADN (mirando la
figura) y se van marcando los aminocidos. Los dos aminocidos que selecciones en la
secuencia de arriba (flecha roja) aparecen automticamente en la secuencia como puntitos
rosas (flecha azul). Si marcamos todos los que estn prximos al ADN te saldr una secuencia
de unos 15-20 aminocidos (dependiendo de dnde hayas pulsado).
Dado que las regiones de unin a ADN de los factores de transcripcin suelen ser
ricas en aminocidos bsicos (recuerda que el ADN es un cido, cargado negativamente por
sus grupos fosfato), ahora busca aminocidos bsicos (Arginina = R, Lisina = K, Histidina = H)
en esta secuencia. Apunta en tu hoja del ejercicio cuntos aminocidos bsicos hay de los 1520 en el fragmento de secuencia que has seleccionado.

16

Por ltimo, vamos a dar un color diferente a los aminocidos bsicos que hemos
identificado en nuestra secuencia de unin a ADN para poder ver su situacin en la protena
Myc y en la estructura.
(24) Para ello, primero seleccionamos con el ratn las letras
R, K y H de los aminocidos sobre la secuencia de arriba
que has seleccionado como de interaccin a ADN (flechas
rojas).
Luego, pulsar sele en el men de arriba a la derecha
sele C (color) magentas magenta.
Debera de quedar parecida a la imagen de la figura.
Observa en la estructura las manchas magenta sobre la
protena azul: son los aminocidos que has marcado arriba
en la secuencia.
(25) Por ltimo, salva esta imagen y cpiala en tu hoja del
ejercicio.
(26) Finalizamos el ejercicio y las prcticas de
BIOINFORMATICA borrando todos nuestros ficheros del
escritorio (ATENCION: no borrar el icono del Pymol).

17

Nomenclatura de los aminocidos: cdigos de 1 y 3 letras

18

You might also like