Phân loại chuỗi theo biến cục bộ và biến toàn cục

Hi ngh ton quc v iu khin v T ng ho - VCCA-2011
Phn loi chui theo bin cc b v bin ton cc Global Sequence Alignment and Local Sequence Alignment
Phm Trung Dng Hc vin K thut Qun s Trn Hoi Linh i Hc Bch Khoa H Ni ng Thy Hng Hc vin K thut Qun s e-Mail: Hangdtys@gmail.com
Tm tt
D n v b gen ngi c thnh lp (1997), v qu trnh gii m trnh t tt c 24 cp nhim sc th ca b gen ngi cng hon thnh t cui nm 2000 khin lng thng tin sinh hc ngy cng tr nn phong ph v a dng. Chnh s hiu bit thng tin sinh hc ny ng gp vai tr to ln i vi lnh vc chm sc v bo v sc kho con ngi. Chng hn, vic chn on, d phng, tr liu, v.v...T , nng cao cht lng cuc sng v bo v mi trng thin nhin. Khi mt gene c pht hin, mt trong nhng yu cu quan trng l lm th no xc nh c chc nng ca gene [6]. Bi bo ny gii thiu mt phng php tip cn l nh gi s ging nhau (tng ng) ca chui nucleotide da trn vic nh gi chui amino acid tng ng.
chn lc t nhin ca cc chui trnh t, t cho php cc nh sinh hc a ra kt lun v ngun gc ca cc on gene, DNA, RNA, hay protein.
2. So snh trnh t chui

2.1. C s phng php so snh trnh t chui Cc d liu thng c em so snh v phn tch bao gm cc chui trnh t nhng nucleotide (DNA) v chui trnh t nhng amino acid (Protein) [1,2,7]. DNA (Deoxyribo Nucleic Acid) v RNA (Ribo Nucleic Acid) l hai i phn t (a phn t) sinh hc. Chng l cc nucleic acid vt cht mang thng tin di truyn t cc h thng sng. y, qu trnh so snh v tm kim ch quan tm nhiu ti mt mch n ca chui xon kp DNA. Mi mch n DNA l mt chui cc nucleotide sp xp k tip nhau. Nucleotide c 4 loi v c k hiu nh sau: A (Adenine), G (Guanine), C (Cytosine), T (Thymine). Ta c b k hiu cho cc nucleotide nh sau: Nuc = {A, C, G, T}.
Abstract
The human genome project was established (1997) as well as the sequenced of all the human genomes 24 pairs chromosomes in 2000 that the amount of biological information is becoming more rich and diverse. Understanding of biological information has contributed a large role for human health. For example, diagnosis, treatment, ect Since then, improving the quanlity of life and protect the natural environment. When a gene is discovered, one of the important requirements is how to determine gene function [6]. This paper present an approach to access the similarity of nucleotide sequences based on the evaluation of the corresponding amino acid sequence.
1. Gii thiu
Qu trnh tin ha ca loi ngi l mt qu trnh bin i a dng, t mt gene (chui DNA) t tin di tc ng ca qu trnh tin ha bin i to nn nhng khc bit so vi gene gc ban u. Do vic nhn nh s ging nhau ca cc on gene, trnh t gene l mt vn ln.Trong lnh vc nghin cu phn tch cu trc v chc nng ca gene v protein, vic phn tch trnh t (chui DNA, protein) ng vai tr quan trng. n gin cho vic nghin cu, trnh t DNA, protein s c tun t ha v nghin cu di dng chui cc k t [1]. Sau , chng ta s so snh, nh gi s ging nhau (tng ng) ca chui DNA, protein mi vi nhng chui DNA, protein bit, t c th a ra d on v chc nng cng nh cu trc ca nhng gene mi pht hin. Bi ton so snh 2 trnh t (Pairwise Sequence Alignment-PSA) c t ra gii quyt vn ny. Trn quan im sinh hc, php so snh trnh t th hin qu trnh bin i
Hnh 1. Cu trc phn t ca ADN Cc baz hai chui ghp cp vi nhau qua lin kt hir.
Trong khi , Protein l biu bin ca vt cht sng, n tham gia vo hu ht cc qu trnh sinh hc v l c s ca s a dng v cu trc v chc nng ca tt c cc sinh vt. Trong s sng, protein c to ra qua qu trnh dch m t on gen biu hin cha thng tin di truyn trong DNA. Protein l mt chui trnh t cc amino acid ni kt vi nhau bng cc lin kt to nn cu trc (c chia ra lm nhiu dng cu trc nh bc 1, bc 2 v cu trc khng gian bc 3, bc 4, bc 5).
VCCA-2011
749

Bi vy, khi chuyn sang vic so snh trong m hnh ton hc cn phi cho php c qung cch (gap - c k hiu bng du -) c th tm c cc phn trnh t ging nhau nht. Trong t nhin c bn kiu bin i ch yu l: thay th, chn, xa v o. Theo cc nghin cu, cc thay i dng chn v xo bt k t trong trnh t xut hin rt t so vi trng hp do t bin. Do , trong m hnh so snh cc trnh t khng quan tm ti vic chn hay xo thm cc k t m ch xt thm cc qung cch (gaps) trong vic so snh m bo phn nh chnh xc ca loi thay i ny. Qung cch c hiu n gin khi nhn trong trnh t l phn trng, khng c k t so snh vi k t ca chui khc. Khi tnh im so snh phi tnh thm im pht (gap panelty) do qung cch ny gy ra v cng nhiu qung cch, khong trng th cc trnh t em so snh cng t ging nhau. C hai cch tnh im pht do qung cch gy ra nh sau: Cch tnh tuyn tnh: (1) Tnh c s nh hng khc nhau gia khong trng u v khong trng m rng thm : (2) Trong g l s khong trng, d l im pht cho mt khong trng m u, e l im pht cho mi khong trng m rng thm trong mt qung cch. 2.2. So snh trnh t chui So snh trnh t (php ging hng, ging ct) l qu trnh nghin cu s ging nhau gia cc chui trnh t (sequence), o lng s ging nhau gia cc trnh t. y l cch thc so snh gia 2 hay nhiu trnh t da trn vic so snh mt chui cc thnh phn (k t) ca trnh t tm ra nhng im tng ng, ging nhau gia cc trnh t. Theo , gi S1 v S2 l 2 chui, mt s so snh trnh t A gia S1 v S2 s to ra 2 chui S1 v S2 bng cch thm vo cc k t - vo S1, S2 trong : |S1|=|S2| Nu loi b cc k t - khi S1 v S2 ta s c S1 v S2 Vi |S1|, |S2| ln lt l chiu di ca S1 v S2.
Hnh 2. Cu trc c bn ca amino acid
C 20 loi amino acid trong cc phn t protein sinh vt nhng ch c 4 loi baz nit nucleotide khc nhau trn phn t RNA. Do vy, trong t nhin khng th n gin s dng mt baz nit nucleotide m ho cho mi amino acid khi tng hp protein. Trong qu trnh dch m, cc baz ca mRNA c c theo nhm b ba, c bit n nh l m b ba (codon). Mi codon i din cho mt amino acid xc nh. Bi v c 4 baz nit nucleotide, nn s c th c 64 codon khc nhau. Tuy nhin, ch c 20 amino c k hiu tt bi cc ch ci. Mi Amino acid c m ho t b 3 nucleotide. B k hiu cho cc amino acid: AA = {A, C, D, E, F,G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}. C t nht hai loi khc c m ha bi DNA theo mt cch khc (khng chun): Selenocysteine kt hp vi mt vi protein UGA codon, thng gi l stop codon. Pyrrolysine c s dng bi mt vi methanogen trong cc enzyme m c dng sn xut ra methane. N c m ha ging vi ca selenocysteine nhng m bng codon UAG. Cc loi amino acid khc cha trong proteins thng c to thnh bi bng cch chnh sa sau khi dch m. Vic chnh sa ny thng rt cn thit cho chc nng ca protein.
Hnh 4. Cu trc mt php so snh hai trnh t
Hnh 3. Cc amino Acid v c tnh
Trong qu trnh tin ha ca sinh vt cc trnh t c th thm hoc bt i mt s phn t trong trnh t, cho nn cc sinh vt c h hng gn nhau c th cc trnh t khc nhau phn thm vo chen gia trnh t.
Trong qu trnh tm s tng ng, trng hp no thy tng ng nht (c im tnh cao nht) s c chn. Thng thng c hai cch so snh cc trnh t: - So snh tng ng ton cc: Thng c s dng khi cc trnh t so snh c kch thc gn tng ng v cc trnh t ny c tng ng, ging nhau cao. Trng hp ny xt tng ng trn ton chui tnh cho vic so snh nh sau (so snh 2 chui):
VCCA-2011
750

F (i 1, j 1) s( xi , yi ) (3) F (i, j ) max F (i 1, j ) d F (i, j 1) d - So snh tng ng cc b: Thng c s dng khi cc trnh t c chiu di ln, tng ng ging nhau khng cao, ch c mt s t cc gene ging nhau trn 2 trnh t, hoc khi 2 trnh t c kch thc khc bit ln. Ta tm phn ging nhau nht gia hai chui trnh t, cng thc tnh nh sau: 0 F (i 1, j 1) s ( x , y ) i i (4) F (i, j ) max F (i 1, j ) d F (i, j 1) d Vi F(i, j) l im s tng ng tch lu dn khi so snh hai chui trnh t ti v tr i ca chui 1 v j ca chui 2. V s l hm tnh ton s tng ng tng k hiu n ca hai chui da trn cc bng nh gi.
Ta s ct chui amino acid mu v chui so snh to thnh mt chui amino acid mi ch gm cc amino acid trong mt protein vi im khi u l Methionine amino acid v im kt thc l Stop codon. Thc hin vi chui amino acid mu ca ngi 'NM_000101' cha cytochrome b-245, alpha polypeptide LocusName: 'NM_000101' LocusSequenceLength: '743' LocusMoleculeType: 'mRNA' LocusGenBankDivision: 'PRI' LocusModificationDate: '26-JUN-2011' Definition: 'Homo sapiens cytochrome b245, alpha polypeptide (CYBA), mRNA.' Accession: 'NM_000101' Version: 'NM_000101.2' GI: '68509913' Source: 'Homo sapiens (human)' 'http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=n uccore&id=NM_000101' Chui amino acid ca mu NM_000101 nhn c: humanseq = RA*QCPSRVRVAMGQIEWAMWANEQALASGLI LITGGIVATAGRFTQWYFGAYSIVAGVFVCLLE YPRGKRKKGSTMERWGQKYMTAVVKLFGPFT RNYYVRAVLHLLLSVPAGFLLATILGTACLAIA SGIYLLAAVRGEQWTPIEPKPRERPQIGGTIKQP PSNPPPRPPAEARKKPSEEEAAVAAGGPPGGPQ VNPIPVTDEVV*PRPGPALPPGAPTCNKCSEAGK KKKKKKKKKKKKKKKKK humanProteinseq = MGQIEWAMWANEQALASGLILITGGIVATAGR FTQWYFGAYSIVAGVFVCLLEYPRGKRKKGST MERWGQKYMTAVVKLFGPFTRNYYVRAVLHL LLSVPAGFLLATILGTACLAIASGIYLLAAVRGE QWTPIEPKPRERPQIGGTIKQPPSNPPPRPPAEAR KKPSEEEAAVAAGGPPGGPQVNPIPVTDEVV* Nh vy thay v phi so snh chui humanseq ta s so snh tng ng ton cc chui humanProteinseq mang y thng tin ca mt protein m khng lm mt mt thng tin. 3.3. Kt qu
3. C s d liu v phng php thc nghim

3.1. C s d liu. Vi tc gia tng rt ln v s lng cc trnh t sinh hc c nghin cu nhm chia s thng tin chung trn ton th gii, d liu v cc trnh t sinh hc c ti National Center for Biotechnology Information (NCBI) ra i [3,4]. NCBI c xy dng trn nn tng nhiu database v journal, nucleotide, protein, structure ... lin kt vi nhau cht ch. D liu trong NCBI ca M l b c s d liu online c ng dng rng ri trong nhiu lnh vc khoa hc, t nhin NCBI c ti hn 120GB cha khong 9 Gbase (Gbase hay cn gi l Giga base pairs, base pairs l mt cp baz gm 2 nucleotid i ngc nhau trong chui xon kp). Bi bo tp trung vo d liu t bin xy ra cytochrome b-245, alpha polypeptide gy hi chng bnh polip tr cha thnh nin v hi chng gin mao mch xut huyt di truyn cng hexosaminidase A (alpha polypeptide) gy chng ngu n tr. 3.2. Phng php thc nghim Nh phn trn gii thiu c 20 loi amino acid trong cc phn t protein trong Methionine (M) l mt amino acid c bit, n l "start" amino acid trong qu trnh m ha tng hp protein v do n bt u mi chui protein n v Selenocysteine kt hp vi mt vi protein UGA codon, thng gi l stop codon (k hiu trong chui l *). Mu bnh ngi 'NM_000101' (743) Mu bnh chut di mu
Tng ng ton cc 54% 72% 63% 73% 14%
Tng ng cc b 60% 59% 59% 59% 20%
AK131580 AK171748 AK018713 BC026791 AK021200
725 722 639 724 742
Tng ng ton cc Proteinseq 61% 74% 66% 85% 29%
Hnh 5. Bng kt qu mu bnh hi chng bnh Polip theo hai loi bin
VCCA-2011
751

Mu bnh ngi NM_000520 (2437) Mu bnh chut di mu Tng ng ton cc Tng ng cc b Tng ng ton cc Proteinseq 84% 84% 84% 84% 54%
1839 60% 83% 1865 61% 83% 1824 20% 27% 1840 60% 83% 1922 41% 53% Hnh 6. Bng kt qu mu bnh hi chng gin mao mch xut huyt di truyn theo hai loi bin
AK080777 NM_010421 AK160112 AK159890.1 NM_010422
Qua bng kt qu c th nhn thy nu so vi php so snh ton cc v cc b th vi vic chn mt chui gm cc amino acid trong ch mt protein cho kt qu tng ng cao hn.
4. Kt lun
Bi bo ny gii thiu khi qut chung v so snh trnh t hai chui v a ra mt s kt qu so snh gia cc phng php nh gi da trn c s d liu bnh gy hi chng bnh polip tr cha thnh nin v hi chng gin mao mch xut huyt di truyn trong NBCI. So snh trnh t hai chui c ngha ln trong vic xc nh nhng c im phn bit gene ng thi a ra nhng gi thuyt v chc nng ca gene thng qua nhng gii thut nh gi s ging nhau, tng ng gia cc trnh t.
Ti liu tham kho

[1] H Hunh Thu Dng: Sinh hc phn t: khi nim, phng php, ng dng. Nxb Gio Dc, (2002). L c Trnh: Sinh hc phn t ca t bo. Nxb. Khoa Hc K Thut, (2001). Genbank homepage: http://www.ncbi.nlm.nih.gov/Genbank/. Entrez protein database homepage: http://www.ncbi.nlm.nih.gov/sites/entrez?db=pr otein. Zhengzheng Xing, Jian Pei, Eamonn Keogh: A Brief Survey on Sequence Classification, SIGKDD Explorations, Volume 12, Issue 1, pages 40-48. M. Deshpande and G. Karypis: Evaluation of tech-niques for classifying biological sequences. In PAKDD'02: Proceedings of the 6th PacificAsia Conference on Advances in Knowledge Discovery and Data Mining, pages 417- 431, 2002. Yong Yang: Comparative Analysis of Methods for Multiple Sequence Alignment. Stanford University, (2001)
[2] [3] [4]
[5]
[6]
[7]
VCCA-2011
752

Phân loại chuỗi theo biến cục bộ và biến toàn cục

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Phân loại chuỗi theo biến cục bộ và biến toàn cục

Uploaded by

Copyright:

Available Formats

Hi ngh ton quc v iu khin v T ng ho - VCCA-2011

2. So snh trnh t chui

Hi ngh ton quc v iu khin v T ng ho - VCCA-2011

Hnh 2. Cu trc c bn ca amino acid

Hnh 4. Cu trc mt php so snh hai trnh t

Hnh 3. Cc amino Acid v c tnh

Hi ngh ton quc v iu khin v T ng ho - VCCA-2011

3. C s d liu v phng php thc nghim

Tng ng ton cc 54% 72% 63% 73% 14%

Tng ng cc b 60% 59% 59% 59% 20%

AK131580 AK171748 AK018713 BC026791 AK021200

725 722 639 724 742

Tng ng ton cc Proteinseq 61% 74% 66% 85% 29%

Hi ngh ton quc v iu khin v T ng ho - VCCA-2011

AK080777 NM_010421 AK160112 AK159890.1 NM_010422

Ti liu tham kho

[2] [3] [4]

You might also like