You are on page 1of 44

|

THƯ VIӊN SӔ

QUÁCH TUҨN NGӐC


ĐӚ QUANG VINH

HÀ NӜI - 2008

m
á Tính cҩp thiӃt
î World Wide Web đã xâm nhұp vào cuӝc sӕng
hàng ngày
î Giao diӋn cho Web tiӃn triӇn tӯ duyӋt đӃn tìm
kiӃm
î DL là mӝt trong nhӳng hưӟng nghiên cӭu
chính vӅ công nghӋ thông tin trên thӃ giӟi
á Tәng quan hoҥt đӝng nghiên cӭu DL
î Sӵ bùng nә vӅ nghiên cӭu DL, các dӵ án và
chương trình DL ӣ Mӻ và trên thӃ giӟi
î Trӑng tâm cӫa các dӵ án DL
VӅ công nghӋ: các phương pháp và công nghӋ
mӟi vӅ lưu trӳ và tìm kiӃm thông tin

`


§  : khҧo sát CSDL tài liӋu và các vҩn đӅ


xã hӝi liên quan tӟi DL
î Moҥt đӝng nghiên cӭu DL ӣ Mӻ
î Có nhiӅu hoҥt đӝng và chương trình nghiên
cӭu DL đang đưӧc tiӃn hành ӣ Mӻ và sӕ lưӧng
tăng nhanh
î 2 dӵ án DL đưӧc tài trӧ bӣi chính phӫ Mӻ là Dӵ
án thư viӋn sӕ - giai đoҥn 2 (DLI-2) và Dӵ án
thư viӋn sӕ quӕc tӃ
î Dӵ án thư viӋn sӕ DLI:
Dӵ án thư viӋn video sӕ Informedia cӫa Đҥi hӑc
Carnegie Mellon CMU

±

Dӵ án dӏch vө thông tin sӕ cӫa Đҥi hӑc
California ӣ Berkeley
Dӵ án Alexandria cӫa Đҥi hӑc California ӣ
Santa Barbara
Dӵ án Interspace cӫa Đҥi hӑc Illinois ӣ Urbana-
Champaign
Dӵ án UMDL cӫa Đҥi hӑc Michigan
Dӵ án InfoBus cӫa Đҥi hӑc Stanford
î Các dӵ án DL chӫ yӃu khác ӣ Mӻ:
Thư viӋn quӕc hӝi (Library of Congress)
Dӵ án công nghӋ thư viӋn sӕ DLT cӫa NASA
Dӵ án FedStats cӫa hơn 70 cơ quan chính phӫ
khác nhau cӫa Mӻ




Dӵ án thư viӋn sӕ cӫa IBM


Dӵ án thư viӋn sӕ California CDL
Chương trình thư viӋn sӕ D-Lib cӫa DARPA
(the Defence Advanced Researh Project
Agency)
Dӵ án MOA cӫa hai Đҥi hӑc Cornel và Michigan
Dӵ án Open Book cӫa Đҥi hӑc Yale
Dӵ án hӧp tác Red Sage cӫa Đҥi hӑc California
ӣ San Francisco, Công ty AT&T Laboratories và
Springer-Verlag
Dӵ án TULIP cӫa nhà xuҩt bҧn Elsevier Science
Publisher



î Moҥt đӝng DL ӣ các nưӟc khác:


Tұp trung vào các CSDL tài liӋu, nói riêng vào
nâng cao truy cұp tӟi các CSDL tài liӋu vӅ lӏch
sӱ, văn hoá và nghӋ thuұt:
Canada, Anh, Pháp, Đӭc, Nhұt, Màn quӕc,
Singapore, Trung quӕc, M ng Kông, Đài loan,
Australia, New Zealand

Ü


5 ViӋt Nam
î Nhu cҫu nghiên cӭu DL bҳt đҫu tӯ khi hoҥch
đӏnh chiӃn lưӧc phát triӇn thông tin - thư viӋn
cho đӃn năm 2010, 2020, trưӟc xu thӃ cӫa sӵ
chuyӇn hưӟng toàn cҫu sang xã hӝi thông tin
î Xây dӵng DL lý tưӣng, đӝc lұp, vӟi vӕn tư liӋu
hoàn toàn sӕ hoá, vӟi toàn bӝ dӏch vө chuyӇn
sang phương thӭc điӋn tӱ, là không khҧ thi
î Xu hưӟng sӁ xuҩt hiӋn nhiӅu thư viӋn điӋn tӱ là
kӃt quҧ cӫa quá trình tin hӑc hoá, là các cәng
vào thông tin và là mӝt bӝ phұn cӫa các thư
viӋn lӟn truyӅn thӕng ӣ ViӋt Nam

O

î Con đưӡng mà đҥi bӝ phұn thư viӋn sӁ đi là:
kӃt hӧp các ngu n tin truyӅn thӕng vӟi hiӋn
đҥi, bә sung thêm các tҥp chí điӋn tӱ toàn văn
trên CD-ROM, đһt mua các tҥp chí điӋn tӱ toàn
văn trên mҥng, sӕ hoá mӝt phҫn vӕn tư liӋu, tӵ
đӝng hoá các dӏch vө và tҥo điӅu kiӋn cho NSD
chӫ đӝng khai thác thông tin
î MiӋn nay, mӝt sӕ phҫn mӅm đưӧc cài đһt:
Giҧi pháp thư viӋn điӋn tӱ ILIB cӫa công ty
CMC ӣ Thư viӋn Quӕc gia ViӋt Nam
Giҧi pháp thư viӋn điӋn tӱ LIBOL cӫa công ty
Tinh vân ӣ Trung tâm Thông tin khoa hӑc và
công nghӋ Quӕc gia
MӋ phҫn mӅm thư viӋn sӕ Greenstone cӫa dӵ
án New Zealand Digital Library ӣ thư viӋn Đҥi
hӑc Khoa hӑc tӵ nhiên TP M Chí Minh
@
I. TӘNG QUAN Vӄ THƯ VIӊN SӔ
1. ĐӎNH NGHĨA
î à    Èa  .): DL là mӝt kho thông
tin có quҧn lý vӟi các dӏch vө liên kӃt, trong đó thông
tin đưӧc lưu trӳ ӣ dҥng sӕ và có thӇ truy cұp qua mӝt
mҥng.
î à    ÈV    a: DL là mӝt
thӵc thӇ liên quan tӟi sӵ tҥo ra các nguӗn tin và sӵ
hoҥt đӝng thông tin qua các mҥng toàn cҫu.
î à    È! !        DL
là các kho dӳ liӋu mҥng vӅ tài liӋu văn bҧn sӕ, ҧnh,
âm thanh, dӳ liӋu khoa hӑc và phҫn mӅm là lõi cӫa
Internet hiӋn nay và các kho dӳ liӋu sӕ có thӇ truy
cұp phә biӃn vӅ tҩt cҧ tri thӭc cӫa loài ngưӡi trong
tương lai.

|

î à   
ÈÊ
  |`: DL là sӵ
mӣ rӝng điӋn tӱ vӅ các chӭc năng điӇn hình NSD
thӵc hiӋn và các tài nguyên NSD truy cұp trong thư
viӋn truyӅn thӕng.
î à    È     .): DL là
các kho đӕi tưӧng sӕ, bao gӗm văn bҧn, video và
audio cùng vӟi các phương pháp truy cұp và tìm
kiӃm, lӵa chӑn, tә chӭc và bҧo trì
á Tóm lҥi, thư viӋn sӕ là mӝt kho thông tin sӕ khәng
lӗ có tә chӭc vӟi các dӏch vө liên kӃt qua mҥng.

á LÝ DO CHÍNH XÂY DӴNG DL


Thư viӋn sӕ phân phát thông tin tӕt hơn thư viӋn
truyӅn thӕng
||

á LӦI ÍCH CӪA DL
1. Thư viӋn sӕ mang thư viӋn đӃn ngưӡi sӱ dөng
2. Máy tính đưӧc sӱ dөng đӇ tìm kiӃm và duyӋt
3. Thông tin có thӇ đưӧc chia sҿ
4. Thông tin dӉ dàng cұp nhұt hơn
5. Thông tin luôn sҹn có
6. Các dҥng thông tin mӟi trӣ thành thӵc hiӋn
đưӧc
7. Giá cӫa DL
á 4 lĩnh vӵc kӻ thuұt nәi bұt đӕi vӟi DL
1. Lưu trӳ điӋn tӱ trӣ nên rҿ hơn giҩy
2. HiӇn thӏ máy tính cá nhân trӣ nên dùng thích
hӧp hơn
3. Mҥng tӕc đӝ cao trӣ nên phә biӃn
4. Máy tính trӣ nên di đӝng |m

á NGHIÊN CӬU TIN HӐC TRONG DL
1. Mô hình đӕi tưӧng
2. Giao diӋn NSD
3. ChӍ mөc và Tìm kiӃm thông tin
4. Quҧn trӏ và bҧo trì CSDL
5. Tính liên tác
î CHӌ MӨC & TÌM KIӂM THÔNG TIN
1. Siêu dӳ liӋu mô tҧ
2. ChӍ mөc tӵ đӝng
3. Xӱ lý ngôn ngӳ tӵ nhiên
4. Tài liӋu phi văn bҧn

|`

Hình - Máy tính trong thư viӋn sӕ a 



 


 

 
 






2. Mô hình hình thӭc cho DL


1. Cơ sӣ toán hӑc
2. Dòng
à   
: Mӝt  là mӝt dãy có miӅn giá
trӏ là mӝt tұp không rӛng.
3. Cҩu trúc
à  : Mӝt  là mӝt bӝ ÈG, L, F),
trong đó G = ÈV, E) là mӝt dӗ thӏ có hưӟng vӟi tұp
đӍnh V và tұp cҥnh E, L là mӝt tұp giá trӏ nhãn và
F là mӝt hàm gán nhãn F : ÈV ä E) L
4. Không gian
à  : Mӝt  là mӝt không
gian đo đưӧc, không gian đӝ đo, không gian xác
suҩt, không gian vector hoһc mӝt không gian topo
|

5. Kӏch bҧn
à : Mӝt   là mӝt dãy sӵ kiӋn
chuyӇn trҥng thái liên quan Èe1, e2, ... , en) trên
tұp trҥng thái S sao cho ek = Èsk, sk+1) đӕi vӟi 1 x k
xn
6. Cӝng đӗng
à : Mӝt  là mӝt bӝ ÈC, R),
trong đó:
C = {c1 , c2, ... , cn} là mӝt tұp cӫa các cӝng
đӗng khái niӋm, mӛi mӝt cӝng đӗng quy vӅ mӝt
tұp cá thӇ có cùng lӟp hoһc kiӇu;
R = {r1 , r2, ... , rn} là mӝt tұp quan hӋ, mӛi mӝt
quan hӋ là mӝt bӝ rj = Èej, ij) trong đó ej là mӝt
tích ĐӅ các ck1 x ck2 x ... x cknj , 1 x k1 < k2 < ... <
knj x n, đӏnh rõ các cӝng đӗng bӏ dính vào quan
hӋ và ij là mӝt hoҥt đӝng mô tҧ tương tác hoһc
truyӅn thông giӳa các cá thӇ
|



7. Đӏnh nghĩa hình thӭc thư viӋn sӕ


à   
: Mӝt  ! "# là mӝt bӝ bӕn
ÈR, MC, DV, XH)
trong đó:
R là mӝt kho;
MC là mӝt mөc lөc siêu dӳ liӋu;
DV là mӝt tұp dӏch vө chӭa tӕi thiӇu các dӏch
vө chӍ mөc, tìm kiӃm và duyӋt;
XH là mӝt cӝng dӗng NSD thư viӋn sӕ.


II. CHӌ MӨC TÀI LIӊU VĂN BҦN

2.1 MӢ ĐҪU
î à È$ đӇ nhұn dҥng đӕi vӟi chӍ mөc): là
mӝt dãy cӵc đҥi cӫa các ký tӵ chӳ và sӕ, nhưng giӟi
hҥn tӕi đa 256 ký tӵ và tӕi đa 4 ký tӵ sӕ
î  m|  VÊ  ! V
Sӕ tài liӋu N 741856
Sӕ thuұt ngӳ F 333338738
Sӕ thuұt ngӳ riêng biӋt n 535346
Sӕ con trӓ chӍ mөc f 134994414
Kích thưӟc tәng ÈMB) 2070.29

|O

2.2 CHӌ MӨC TӊP ĐҦO IFID
î à    Èà   ): V% &' là bҧng dӳ liӋu
hay cҩu trúc dӳ liӋu dùng đӇ xác đӏnh vӏ trí cӫa các dòng
trong tӋp theo điӅu kiӋn nào đó
î à    ÈÅ
   !  ): V%
&' là mӝt cách tìm kiӃm thông tin
î à   
: V% &' là mӝt cơ chӃ nhҵm đӏnh vӏ thuұt
ngӳ cho trưӟc trong văn bҧn
î à    ÈchӍ mөc tӋp đҧo IFID): Đӕi vӟi mӛi mӝt
thuұt ngӳ trong tӯ điӇn, mӝt IF chӭa mӝt danh sách đҧo
ÈIL) lưu trӳ mӝt danh sách con trӓ tӟi tҩt cҧ xuҩt hiӋn cӫa
thuұt ngӳ đó trong văn bҧn chính, trong đó mӛi mӝt con
trӓ trong thӵc tӃ là sӕ tài liӋu mà thuұt ngӳ đó xuҩt hiӋn.
IL đôi khi đưӧc coi là mӝt danh sách mөc lөc và các con
trӓ là mөc lөc
á Đây là phương pháp chӍ mөc tӵ nhiên nhҩt, gҫn tương
ӭng vӟi chӍ mөc cӫa mӝt cuӕn sách và vӟi cách dùng mөc
lөc truyӅn thӕng
|@



mm
 


 






TÀI LIӊU VĂN BҦN

1 Information retrieval is searching and indexing


2 Indexing is building an index
3 An inverted file is an index
4 Building an inverted file is indexing

m



m`
 Å






mm
Sӕ Thuұt ngӳ ILÈtài liӋu; vӏ trí)
1 an È2;4), È3;1), È3;5), È4;2)
2 and È1;5)
3 building È2;3), È4;1)
4 file È3;3), È4;4)
5 index È2;5), È3;6)
6 indexing È1;6), È2;1), È4;6)
7 information È1;1)
8 inverted È3;2), È4;3)
9 is È1;3), È2;2), È3;4), È4;5)
10 retrieval È1;2)
11 searching È1;4)

m|

î à   : à (   cӫa mӝt chӍ mөc
là tính chính xác đӇ nhұn dҥng vӏ trí cӫa thuұt ngӳ

m±
 Å








mm
Sӕ Thuұt ngӳ ÈTài liӋu; tӯ)
1 an <4; È2;4), È3;1), È3;5), È4;2)>
2 and <1; È1;5)>
3 building <2; È2;3), È4;1)>
4 file <2; È3;3), È4;4)>
5 index <2; È2;5), È3;6)>
6 indexing <3; È1;6), È2;1), È4;6)>
7 information <1; È1;1)>
8 inverted <2; È3;2), È4;3)>
9 is <4; È1;3), È2;2), È3;4), È4;5)>
10 retrieval <1; È1;2)>
11 searching <1; È1;4)>
mm

2.3 CHӌ MӨC TӊP KÝ SӔ SFID

m



 




m


ÊÅ
Thuұt ngӳ Ký sӕ thuұt ngӳ
indexing 0001 0000 1100 0100
is 0100 0100 0001 0000
building 0101 0011 0000 0000
an 0000 0100 0100 1100
index 1100 1000 0010 0000
Ký sӕ bloc 1101 1111 1111 1110
î TӋp ký sӕ SF: là mӝt phương pháp xác suҩt đӇ chӍ mөc
văn bҧn. Mӛi mӝt tài liӋu có mӝt ký sӕ liên kӃt, mӝt xâu
bit bҳt nӝi dung tài liӋu theo mӝt nghĩa nào đó
î TӋp ký sӕ bitslice Sӵ truy cұp SF có thӇ đưӧc tăng
nhanh hơn bҵng cách dùng kӻ thuұt "), tӭc là kӻ
thuұt chuyӇn vӏ ma trұn bit
m`

2.4 SO SÁNH CÁC PHƯƠNG PHÁP CHӌ MӨC
î Phương pháp chӍ mөc tӋp đҧo IFID và chӍ mөc tӋp ký sӕ
SFID là hai phương pháp chӍ mөc chính tài liӋu trong thư
viӋn sӕ.
î Y* )+ % &' , )! trong DL: Ӣ hҫu hӃt các ӭng dөng,
IF thӵc hiӋn tӕt hơn SF trong phҥm vi cӫa cҧ hai kích
thưӟc chӍ mөc và tӕc đӝ truy vҩn.
IF nén là phương pháp chӍ mөc hӳu ích nhҩt mӝt CSDL lӟn
các tài liӋu văn bҧn có đӝ dài có thӇ thay đәi.
2.5 CÁC MÔ HÌNH NÉN IFID
2.5.1 Đһt vҩn đӅ
Khҧo sát các mô hình và phương pháp mã hoá đӇ nén IFID
CSDL tài liӋu trong thư viӋn sӕ.
Chìa khoá cӫa bài toán nén là nhұn xét mӛi mӝt IL có thӇ
đưӧc lưu trӳ như mӝt dãy sӕ nguyên tăng dҫn.



2.5.2 Mô hình nén toàn cөc

î Mô hình không tham sӕ


î Mô hình Bernoulli toàn cөc

2.5.3 Các mô hình nén cөc bӝ

î Mô hình hyperbol cөc bӝ


î Mô hình Bernoulli cөc bӝ
î Mô hình Bernoulli lӋch
î Mô hình nén nӝi suy

m

2.5.4 HiӋu năng cӫa các mô hình nén chӍ mөc

m@
 




 


! V
Mô hình Sӕ bit/con trӓ
 - ., '
Đơn nguyên 1918
Nhӏ phân 20.00
Bernoulli 12.30
Ù 6.63
6.38
 - ' 
Hyperbol 5.89
Bernoulli 5.84
Bernoulli lӋch 5.44
Nӝi suy 5.18



á NHҰN XÉT: các mô hình cөc bӝ có xu hưӟng thӵc


hiӋn nén tӕt hơn mô hình toàn cөc và không hiӋu quҧ
hơn vӅ thӡi gian xӱ lý đòi hӓi trong khi giҧi mã, vì
chúng có xu hưӟng cài đһt phӭc tҥp hơn. Đӕi vӟi mөc
đích thӵc hành, mô hình nén chӍ mөc phù hӧp nhҩt là
phương pháp Bernoulli cөc bӝ, cài đһt dùng kӻ thuұt
mã hoá Golomb

2.6 CÁC HIӊU ӬNG


î Gӝp dҥng chӳ
î Truy gӕc tӯ
î Tӯ bӓ qua


III. TÌM KIӂM THÔNG TIN

3.1 MӢ ĐҪU
Khҧo sát hai kiӇu truy vҩn:
î Truy vҩn Boole BQ truyӅn thӕng
î Truy vҩn xӃp hҥng RQ
3.2 TRUY VҨN BOOLE BQ
3.2.1 Truy vҩn BQ hӝi
Dҥng t1 AND t2 AND ... AND tr

3.2.2 Truy vҩn BQ không hӝi


Dҥng phә biӃn khác là mӝt phép hӝi cӫa các phép tuyӇn:
Ètext OR data OR information) AND
Èsearch OR seek) AND
Èretrieval OR indexing)

mO

3.3 TRUY VҨN XӂP HҤNG RQ
3.3.1 So khӟp toҥ đӝ
ĐӃm sӕ thuұt ngӳ truy vҩn xuҩt hiӋn trong mӛi mӝt tài
liӋu
3.3.2 Tích trong đӝ tương tӵ
Quá trình đưӧc hình thӭc hoá bҵng mӝt tích trong cӫa
mӝt vectơ truy vҩn vӟi mӝt tұp vectơ tài liӋu
Đӝ tương tӵ cӫa truy vҩn Q vӟi tài liӋu Dd đưӧc biӇu diӉn
như sau:
Ê 




 `|
trong đó: phép toán . là phép tích trong
Tích trong cӫa hai n-vectơ X = <xi> và Y = <yi> đưӧc đӏnh
nghĩa:

 –    `m
 |

m@


Ví dө:
Ê À À 
|




|




 |
|
|
|





|

Cách tiӃp cұn so khӟp toҥ đӝ có 3 hҥn chӃ:


1. không tính đӃn tҫn suҩt thuұt ngӳ
2. không tính đӃn sӵ khó tìm thuұt ngӳ
3. các tài liӋu dài vӟi nhiӅu thuұt ngӳ

à /"0.,)! cӫa thuұt ngӳ 1d,t :


Sӕ đӃm chӍ thӏ sӕ lҫn thuұt ngӳ xuҩt hiӋn trong tài liӋu

Ví dө:
Tính đӝ tương tӵ đӕi vӟi truy vҩn mүu trӣ thành
Ê À 
À 
À 
|

|
|






 |
|
|
|





m

`

Tәng quát hơn, thuұt ngӳ t trong tài liӋu d có thӇ đưӧc
gán mӝt 2"#,)!3 +4, ký hiӋu là wd,t và
trӑng sӕ khác wq,t trong vectơ truy vҩn

SÈQ, Dd) = Q  Dd =–     ``
 |
Đӝ tương tӵ là tích trong cӫa hai trӑng sӕ

SÈQ, Dd) =  `±

NӃu hҥng đưӧc coi là mӝt đӝ đo tҫm quan trӑng thì trӑng
sӕ wt cӫa mӝt thuұt ngӳ t đưӧc tính như sau:

ð `
  
 |
trong đó: 1t là sӕ tài liӋu chӭa thuұt ngӳ t  

`|


Nhân tӱ 5.6 đӇ không kӇ đӃn phҫn đóng góp cӫa


các tài liӋu dài. Do đó, luұt tích trong đánh giá đӝ tương tӵ
bҵng
–       `|
Ê    

trong đó    –     là đӝ dài cӫa tài liӋu Dd

3.3.3 Mô hình không gian vectơ


Đӝ tương tӵ đӕi vӟi mӝt cһp vectơ là khoҧng cách Euclide:

`||
m
      – ð   ð 
 |

`m


M7 chӍ thӏ bӣi 2 vectơ




  –   
   | `|±
 
–   – 
m

m

 |  |

Công thӭc có 2 hàm ý:


1. Chӭng minh sӵ chuҭn hoá: Nhân tӱ chuҭn hoá là đӝ
dài Euclide cӫa tài liӋu
2. Cung cҩp mӝt sӵ trӵc quan rõ ràng cӫa luұt xӃp hҥng

``


‰+." đӕi vӟi xӃp hҥng:

 | 
    eð    ð  `|
    |

Đӝ tương tӵ:
| 
    – |
         |
 `|O
  
   
  




3.4 ĐÁNH GIÁ HIӊU SUҨT TÌM KIӂM


3.4.1 Đӝ chính xác và đӝ phөc hӗi
à896 P cӫa mӝt phương pháp xӃp hҥng đӕi vӟi
điӇm cҳt nào đó r là mӝt phҫn trong sӕ tài liӋu xӃp
hҥng cao nhҩt r có liên quan đӃn truy vҩn:

 





 
  `|@


 




à:' R cӫa mӝt phương pháp tҥi giá trӏ r nào


đó là tӹ lӋ cӫa tәng sӕ tài liӋu có liên quan đưӧc tìm
kiӃm trong r cao nhҩt:

 



 



! 


 



 
`m

`
`


3.4.2 Đưӡng cong đӝ phөc hӗi-đӝ chính xác



`|
 à 

!





`m

à  
  
  !
! 
  


 u
uu
u


u


u
u
u



 
 
 
  
  

m 

| 

  

| 


!
 
 



!
`


3.5 ĐӜ ĐO COSIN

3.5.1 Tҫn suҩt bên trong tài liӋu

3.5.2 Tính đӝ đo cosin


Xét lҥi công thӭc È3.18) đӕi vӟi đӝ đo cosin:

| 
      – |
 
    
 |

       




        


| à a 6 ! " a  "   # !
m à      "        
     
    $ 
      "    #  Å   
 à  6 | %    
 à #  Å 
 à           
&  a  a  
à a 6  
à a 6 a % !a"
& à a 6 a %   | %  ' 

`O

` à     a  a
à a 6 a  
#  a "       
± à  | x  x 
 $        a   !a"
    "    
           Ê 
 à a 6 a  !a"
  " `m         

Giҧi thuұt nêu lên 3 điӇm như sau:


1. Wq bӏ bӓ qua vì Wq là mӝt hҵng sӕ
2. lưӧng lӟn bӝ nhӟ đưӧc sӱ dөng
3. chӍ r << N tài liӋu có mһt

`@
KӂT LUҰN

1. Đưa ra mӝt mô hình hình thӭc cho thư viӋn sӕ dӵa


vào đҥi sӕ hiӋn đҥi: Mӝt thư viӋn sӕ là mӝt bӝ bӕn
ÈR, MC, DV, XH)
trong đó:
R là mӝt kho;
MC là mӝt mөc lөc siêu dӳ liӋu;
DV là mӝt tұp dӏch vө chӭa tӕi thiӇu
các dӏch vө chӍ mөc, tìm kiӃm và duyӋt;
XH là mӝt cӝng đӗng NSD thư viӋn sӕ.

±
KӂT LUҰN

2. Phân tích chi tiӃt các phương pháp chӍ mөc tài liӋu
văn bҧn trong DL: phương pháp chӍ mөc tӋp đҧo
IFID và phương pháp chӍ mөc ký sӕ SFID, so sánh
2 phương pháp chӍ mөc, rút ra quy luұt chӍ mөc tài
liӋu trong DL:Ӣ hҫu hӃt ӭng dөng, IF thӵc hiӋn tӕt
hơn SF trong phҥm vi cӫa cҧ hai kích thưӟc chӍ mөc
và tӕc đӝ truy vҩn. IF nén chҳc chҳn là phương pháp
chӍ mөc hӳu ích nhҩt mӝt CSDL lӟn các tài liӋu văn
bҧn có đӝ dài có thӇ thay đәi. Phân tích các mô hình
nén toàn cөc và mô hình nén cөc bӝ hyperbol, tӯ đó,
đӅ xuҩt mô hình nén cөc bӝ Bernoulli và nén nӝi suy
đӕi vӟi IFID dӵa vào các phương pháp xác suҩt và
thӕng kê toán hӑc, phương pháp mã hóa, phương
pháp nén dӳ liӋu.
±|
KӂT LUҰN
3. Phân tích chi tiӃt mô hình tìm kiӃm thông tin kinh
điӇn dӵa vào truy vҩn Boole BQ hiӋn đang đưӧc sӱ
dөng trong hҫu hӃt các hӋ thư viӋn, chӍ ra nhưӧc
điӇm cӫa truy vҩn BQ. Tӯ đó, luұn án đӅ xuҩt mӝt
mô hình tìm kiӃm văn bҧn dӵa vào truy vҩn xӃp
hҥng RQ có đánh giá hiӋu suҩt dӵa vào đӝ chính xác
P và đӝ phөc hӗi R.

4. Phân tích chi tiӃt các giҧi thuұt kinh điӇn: giҧi thuұt
đҧo danh sách móc nӕi và giҧi thuұt đҧo dӵa vào sҳp
xӃp, chӍ ra hҥn chӃ cӫa chúng là chӍ thích hӧp vӟi các
CSDL tài liӋu văn bҧn cӥ nhӓ và vӯa. Tӯ đó, luұn án
đӅ xuҩt hai giҧi thuұt trӝn nhiӅu đưӡng tҥi chӛ dӵa
vào sҳp xӃp và giҧi thuұt phân chia dӵa vào văn bҧn
phù hӧp vӟi CSDL tài liӋu văn bҧn cӥ lӟn trong DL.

±m
ĐӎNH HƯӞNG NGHIÊN CӬU TƯƠNG LAI

1. Nghiên cӭu các phương pháp chӍ mөc


và tìm kiӃm ҧnh;
2. Nghiên cӭu các phương pháp chӍ mөc
và tìm kiӃm video;
3. Nghiên cӭu các phương pháp chӍ mөc
và tìm kiӃm audio;
4. Nghiên cӭu bài toán tóm tҳt
và trích rút tài liӋu văn bҧn trong DL.

±`
KӂT THÚC

Chân thành cám ơn !

±±

You might also like