You are on page 1of 6

Câu hỏi ôn tập môn:

Tin sinh học ứng dụng

I. Giải thích các thuật ngữ

1. Bioinformatics?
2. Genome? So sánh genome (Comparative genomics)?
3. Structural genomic?
4. Genome evolution?
5. Molecular evolution?
6. Proteome?
7. Metabolome?
8. Khung đọc mở (ORF)?
9. Thế nào là STS (sequence tag site)?
10. Thế nào là EST (expressed sequence tag) ?
11. Thế nào là SNP (single nucleotide polymorphism)?
12. Microarray là gì ? Ứng dụng của microarray ?
13. Gene ontology?
14. Similarity, homology, identity (identical)?
15. Homology relationship? Sequence similarity? Sequence identity?
16. Thế nào là đa hình (polymorphism)?
17. Phylogenetics
18. Phylogenomic là gì?
19. Insilico là gì ?
20. Ab initio, ab initio prediction?
21. Conservative mutation?
22. Trong nghiên cứu cấu trúc phân tử (molecular structure), khái niệm “modeling
structure” là gì?
23. Thế nào là restriction mapping?
24. Environmental sample? Environmental sequence?
25. Khái niệm “data mining” là gì? Ý nghĩa của data mining trong sinh học phân
tử.

II. Cơ sở dữ liệu

1. Cơ sở dữ liệu sinh học là gì ?


2. Thế nào là « non-redundant database » ?
3. Thế nào là CSDL sơ cấp (primary database), CSDL thứ cấp (secondary
database) ?
4. Để đăng ký trình tự vào các ngân hàng gene thế giới (nằm trong 3 trụ sở của
NCBI, EMBL-EBI, DDBJ) người ta dùng những cách/ công cụ nào?
5. Trong định dạng trình tự của GenBank ở NCBI thường chia thành 3 phần: Phần
đầu (heading), phần mô tả đặc điểm (features) và phần trình tự (sequence). Hãy
cho biết các phần này chứa những nội dung gì?
6. Thế nào là số gi (gi number_ genInfo identifier), PID (PID number_Protein
identifier)? thế nào là version? Số truy cập (accession number)? Gen ID? Locus
tag?
7. Có người nói rằng GenBank là một tập hợp toàn bộ của các dữ liệu trình tự
nucleotide đã được mô tả (annotated) của hầu hết các sinh vật. Nội dung bao gồm
các dữ liệu trình tự DNA, mRNA, cDNA, EST, các trình tự thô xuất phát từ các
chương trình xác định trình tự ở quy mô lớn và nhanh (high-throughput), các trình
tự đa hình (SNPs). Ngoài ra còn có CSDL GenPept chứa các trình tự protein mà
chủ yếu được dịch mã từ các trình tự DNA và một lượng nhỏ trình tự xuất phát từ
các kỹ thuật xác định trình tự protein. Cách hiểu như vậy đã bao quát được toàn
bộ GenBank chưa? Có gì cần phải bổ sung thêm?
8. Có người cho rằng NCBI và GenBank là như nhau, chẳng qua chỉ là sự khác nhau
về cách diễn đạt. Điều này có đúng hay không? Tại sao?
9. Trong cơ sở dữ liệu NCBI có một phần cơ sở dữ liệu gọi là PubMed. Vậy trong
cơ sở dữ liệu của EMBL-EBI và DDBJ có cơ sở dữ liệu nào tương tự như
PubMed không?
10. Để biết vị trí của một sinh vật trong hệ thống phân loại người ta có thể sử cơ sở
dữ liệu gì?
11. Cơ sở dữ liệu Pubmed ?
12. Cơ sở dữ liệu Swiss-Prot?
13. Cho biết mối quan hệ giữa SWISS-Prot và Protein Information Resources (PIR) ?
14. EST (Expression sequence tag) là gì? Cơ sở dữ liệu EST là gì? Ý nghĩa của CSDL
EST ?
15. SNP là gì ? cơ sở dữ liệu SNP (dbSNP)là gì ? Mối liên hệ giữa SNP và các bệnh
di truyền ở người ?
16. Có sự liên hệ gì giữa cơ sở dữ liệu EST và công cụ BLASTx và tBLASTx?
17. Cơ sở dữ liệu PDB (Protein Data Bank) là gì ? Đặc điểm chính của CSDL này
18. OMIM (Online Mendelian Inheritance in Man) là CSDL gì? Ý nghĩa của nó?
19. ExPASy là gì? Các công cụ của ExPASy tập trung vào những nhóm nào?
20. Cơ sở dữ liệu Microarray là gì? Ứng dụng của CSDL này?
21. Có thể coi ExPASy là tổ hợp của 2 CSDL: TrEMBL và Swiss-Prot có đúng
không?
22. Hiện nay người ta đang cố gắng sát nhập TrEMBL, Swiss-Prot và PIR (Protein
Information Resource) thành một CSDL protein chung gọi là UniProt. Thế nào là
UniProt?

III. Căn trình tự (sequence alignment)

1. Căn trình tự (sequence alignment) là gì?


2. Thế nào là local alignment, global alignment ? So sánh sự giống và khác nhau.
Khi nào sử dụng global, khi nào sử dụng local ?
3. Thế nào là dot matrix method hay dot plot method (phương pháp ma trận điểm)
trong căn trình tự ?

Tham khảo thêm các chương trình


Dotmatcher (bioweb.pasteur.fr/seqanal/interfaces/dotmatcher.html)
Dottup (bioweb.pasteur.fr/seqanal/interfaces/dottup.html)
Dothelix (www.genebee.msu.su/services/dhm/advanced.html)
MatrixPlot (www.cbs.dtu.dk/services/MatrixPlot/)

4. Thế nào là so sánh cặp trình tự (pairwise alignment)?


5. Nêu điểm giống và khác giữa việc căn nhiều trình tự (multiple sequence
alignment) và căn cặp trình tự (pairwise sequence alignment) ?
6. Thế nào mà mismatch khi căn trình tự?
7. Thế nào là gap (chỗ trống khi căn trình tự) ? Mục đích của việc đưa các gap để
làm gì ?
8. Thế nào là gap penalty và affine gap penalties ? Có mối liên hệ nào giữa các đột
biến mất nucleotide (deletion) thêm (insertion) và các gap?
9. Thế nào là ma trận điểm (scoring matrix) và ma trận thay thế (subtitution
matrix) ?
10. Thế nào là ma trận BLOSUM và PAM? Phân tích điểm mạnh, yếu của 2 ma trận
này.
11. Cho biết ý nghĩa của các giá trị n trong ma trận PAM n (chẳng hạn PAM1 (n=1),
PAM 30 (n=30), PAM 250 (n=250)) ?
12. Cho biết ý nghĩa của các giá trị n trong ma trận BLOSUM n (chẳng hạn
BLOSUM45 (n=45), BLOSUM62 (n=62)...) ?
13. Tại sao khi căn trình tự (sequence alignment) những yếu tố sau đây có ý nghĩa rất
quan trọng : đột biến (mutation), các trình tự bảo thủ, các vùng trình tự tương
đồng.
14. Hãy cho biết mục đích và ưu điểm khi căn nhiều trình tự DNA genome (multiple
sequence alignments of genomic DNA sequences) và căn nhiều trình tự amino
acid của một nhóm các protein tương đồng (multiple sequence alignment of a
group of homologous proteins) ? (các protein tương đồng đó do các DNA genome
tương ứng mã hóa).

Genomic DNA sequence Protein sequence

IV. Tìm kiếm các trình tự tương đồng

1. Thế nào là trình tự truy vấn (query sequence) ?


2. Thế nào là định dạng FASTA của một trình tự sinh học (protein, DNA)?
3. BLAST dùng để làm gì? Nguyên lý hoạt động của BLAST ?
4. Có bao nhiêu loại BLAST ? Mô tả các loại BLAST và cho biết ứng dụng của
chúng ?
5. Trong số các công cụ BLAST, công cụ nào cho nhiều thông tin nhất ? (Blastn,
Blastp, Blastx, tBlastx)
6. Thế nào là discontigous Mega Blast ? Công cụ này sử dụng trong trường hợp
nào ?
7. Megablast là gì ? Khi nào sử dụng Megablast ?
8. Thế nào là Blastn ? Khi nào dùng Blastn ?
9. So sánh sự giống nhau giữa Blastn, Mega Blast và Discontigous Meta Blast ?
10. Ý nghĩa của giá trị E (E value) trong kết quả tìm kiếm của BLAST? Kết quả đưa
ra các trình tự giống với trình tự querry là ngẫu nhiên hay có ý nghĩa thống kê?
11. RpsBLAST là gì?
12. So sánh PSI-BLAST và BLAST ?
13. So sánh PHI-BLAST và BLAST ?
14. Công cụ tìm kiếm FASTA dùng để làm gì? Sự khác nhau về nguyên lý hoạt động
của BLAST và FASTA ? Khi nào dùng BLAST và khi nào dùng FASTA ?
15. Giải thích chức năng của các công cụ: ENA, GGSEARCH , GLSEARCH,
SSEARCH trong nhóm công cụ phân tích trình tự giống nhau và tương đồng
(Similarity and Homology) của EMBL-EBI.
V. Đọc trình tự và lắp ráp trình tự

1. Thế nào là “shotgun DNA sequencing » ?


2. Thế nào là « pyrosequencing » ?
3. Cơ sở của việc lắp ráp trình tự ?
4. Trong kỹ thuật « shotgun DNA sequencing » người ta có phải lập bản đồ nhiễm
sắc thể trước khi tiến hành xác định trình tự không ? Tại sao ?
5. Trong quá trình lắp ráp trình tự, những yếu tố gì gây ra nhiễu hoặc lắp ráp không
chính xác ?
6. Thế nào là các đoạn contig (contigous) ?
7. Thế nào là Scaffolding ? Ý nghĩa của scaffolding trong lắp ráp trình tự ?

VI. Quan hệ di truyền tiến hóa phân tử (Molecular phylogenetics)

1. Cây phát sinh chủng loại là gì (phylogenetic tree)? Ý nghĩa của việc nghiên cứu
mối quan hệ di truyền giữa các sinh vật.
2. Để xây dựng cây phát sinh chủng loại người ta có thể sử dụng những loại dữ liệu
gì ?
3. Thế nào là cây phân loại không có gốc (un-rooted tree) ? Thế nào là cây phân loại
có gốc ? sự khác nhau giữa chúng ?
4. Bootstrap là gì? Ý nghĩa của giá trị bootstrap (bootstrap value) ?
5. Hãy cho biết nguyên lý của các nhóm phương pháp xây dựng cây phân loại dưới
đây :
Distance matrix
Maximum parsimony
Maximum likelihood
6. Neighbor-joining (N-J)thuộc vào nhóm nào trong các phương pháp xây dựng cây
phân loại dưới đây:
Distance matrix
Maximum parsimony
Maximum likelihood

VII. Gene, tổ chức gene và hoạt động của gene

1. Khung đọc mở (ORF_open reading frame) là gì ? Ý nghĩa của việc xác định
khung đọc mở?
2. Làm thế nào để biết một khung đọc mở nào đó có thể là CDS (coding sequence)
của một gene?
3. Có người cho rằng: Các EST có thể là các đoạn coding và non-coding của các
phân tử mRNA. Quan điểm đó có đúng không? Tại sao?
4. Ý nghĩa của cơ sở dữ liệu EST (dbEST) trong nghiên cứu gene?
5. Nêu mối liên hệ giữa : genomic, proteomic, metabolomic
6. Các công cụ bioinformatics hỗ trợ gì trong các nghiên cứu RNA interfere?
7. Bản đồ vật lý là gì ? Bản đồ di truyền là gì ? Mối liên hệ giữa bản đồ di truyền và
bản đồ vật lý ?
8. Để quan sát bản đồ gene trên các NST người ta sử dụng công cụ gì ?

VIII. Cấu trúc phân tử

1. Thế nào là motif? Domain? Pattern?


2. Protein docking?
3. Thế nào Zn-finger motif?
4. Làm thế nào để phát hiện được các domain, motif, conservative sequence của các
phân tử protein?
5. Giải thích các thuật ngữ xoắn alpha, phiến beta, turn, loop.
6. Cơ sở phân tử của xoắn alpha và phiến gấp nếp beta?
7. Ứng dụng kỹ thuật MALDI-TOF/MS trong nghiên cứu protein?
8. Các kỹ thuật nào thường được sử dụng để xác định cấu trúc phân tử? (X-ray
scattering, X-ray diffraction, NMR, Circular dichroism (CD) spectroscopy)
9. Các công cụ alignment (căn trình tự) có ý nghĩa gì trong việc xác định các vùng
domain, motif của phân tử protein?
10. Dựa vào cơ sở gì để người ta xây dựng cấu trúc 3 chiều của một phân tử protein?
11. Tin sinh học sử dụng hướng tiếp cận nào để xác định được cấu trúc 3 chiều của
các đại phân tử?
12. Giải thích ý nghĩa của các công cụ sau:
PROSITE (www.expasy.ch/prosite/)?
BLOCKS (http://blocks.fhcrc.org/blocks)?
Pfam (http://pfam.wustl.edu/hmmsearch.shtml)?
ProDom (http://prodes.toulouse.inra.fr/prodom/2002.1/html/form.php)?

You might also like