Professional Documents
Culture Documents
THƯ VIӊN SӔ
HÀ NӜI - 2008
m
á Tính cҩp thiӃt
î World Wide Web đã xâm nhұp vào cuӝc sӕng
hàng ngày
î Giao diӋn cho Web tiӃn triӇn tӯ duyӋt đӃn tìm
kiӃm
î DL là mӝt trong nhӳng hưӟng nghiên cӭu
chính vӅ công nghӋ thông tin trên thӃ giӟi
á Tәng quan hoҥt đӝng nghiên cӭu DL
î Sӵ bùng nә vӅ nghiên cӭu DL, các dӵ án và
chương trình DL ӣ Mӻ và trên thӃ giӟi
î Trӑng tâm cӫa các dӵ án DL
VӅ công nghӋ: các phương pháp và công nghӋ
mӟi vӅ lưu trӳ và tìm kiӃm thông tin
`
±
Dӵ án dӏch vө thông tin sӕ cӫa Đҥi hӑc
California ӣ Berkeley
Dӵ án Alexandria cӫa Đҥi hӑc California ӣ
Santa Barbara
Dӵ án Interspace cӫa Đҥi hӑc Illinois ӣ Urbana-
Champaign
Dӵ án UMDL cӫa Đҥi hӑc Michigan
Dӵ án InfoBus cӫa Đҥi hӑc Stanford
î Các dӵ án DL chӫ yӃu khác ӣ Mӻ:
Thư viӋn quӕc hӝi (Library of Congress)
Dӵ án công nghӋ thư viӋn sӕ DLT cӫa NASA
Dӵ án FedStats cӫa hơn 70 cơ quan chính phӫ
khác nhau cӫa Mӻ
Ü
5 ViӋt Nam
î Nhu cҫu nghiên cӭu DL bҳt đҫu tӯ khi hoҥch
đӏnh chiӃn lưӧc phát triӇn thông tin - thư viӋn
cho đӃn năm 2010, 2020, trưӟc xu thӃ cӫa sӵ
chuyӇn hưӟng toàn cҫu sang xã hӝi thông tin
î Xây dӵng DL lý tưӣng, đӝc lұp, vӟi vӕn tư liӋu
hoàn toàn sӕ hoá, vӟi toàn bӝ dӏch vө chuyӇn
sang phương thӭc điӋn tӱ, là không khҧ thi
î Xu hưӟng sӁ xuҩt hiӋn nhiӅu thư viӋn điӋn tӱ là
kӃt quҧ cӫa quá trình tin hӑc hoá, là các cәng
vào thông tin và là mӝt bӝ phұn cӫa các thư
viӋn lӟn truyӅn thӕng ӣ ViӋt Nam
O
î Con đưӡng mà đҥi bӝ phұn thư viӋn sӁ đi là:
kӃt hӧp các ngu n tin truyӅn thӕng vӟi hiӋn
đҥi, bә sung thêm các tҥp chí điӋn tӱ toàn văn
trên CD-ROM, đһt mua các tҥp chí điӋn tӱ toàn
văn trên mҥng, sӕ hoá mӝt phҫn vӕn tư liӋu, tӵ
đӝng hoá các dӏch vө và tҥo điӅu kiӋn cho NSD
chӫ đӝng khai thác thông tin
î MiӋn nay, mӝt sӕ phҫn mӅm đưӧc cài đһt:
Giҧi pháp thư viӋn điӋn tӱ ILIB cӫa công ty
CMC ӣ Thư viӋn Quӕc gia ViӋt Nam
Giҧi pháp thư viӋn điӋn tӱ LIBOL cӫa công ty
Tinh vân ӣ Trung tâm Thông tin khoa hӑc và
công nghӋ Quӕc gia
MӋ phҫn mӅm thư viӋn sӕ Greenstone cӫa dӵ
án New Zealand Digital Library ӣ thư viӋn Đҥi
hӑc Khoa hӑc tӵ nhiên TP M Chí Minh
@
I. TӘNG QUAN Vӄ THƯ VIӊN SӔ
1. ĐӎNH NGHĨA
î à Èa .): DL là mӝt kho thông
tin có quҧn lý vӟi các dӏch vө liên kӃt, trong đó thông
tin đưӧc lưu trӳ ӣ dҥng sӕ và có thӇ truy cұp qua mӝt
mҥng.
î à ÈV a: DL là mӝt
thӵc thӇ liên quan tӟi sӵ tҥo ra các nguӗn tin và sӵ
hoҥt đӝng thông tin qua các mҥng toàn cҫu.
î à È! !
DL
là các kho dӳ liӋu mҥng vӅ tài liӋu văn bҧn sӕ, ҧnh,
âm thanh, dӳ liӋu khoa hӑc và phҫn mӅm là lõi cӫa
Internet hiӋn nay và các kho dӳ liӋu sӕ có thӇ truy
cұp phә biӃn vӅ tҩt cҧ tri thӭc cӫa loài ngưӡi trong
tương lai.
|
î à
ÈÊ
|`: DL là sӵ
mӣ rӝng điӋn tӱ vӅ các chӭc năng điӇn hình NSD
thӵc hiӋn và các tài nguyên NSD truy cұp trong thư
viӋn truyӅn thӕng.
î à È
.): DL là
các kho đӕi tưӧng sӕ, bao gӗm văn bҧn, video và
audio cùng vӟi các phương pháp truy cұp và tìm
kiӃm, lӵa chӑn, tә chӭc và bҧo trì
á Tóm lҥi, thư viӋn sӕ là mӝt kho thông tin sӕ khәng
lӗ có tә chӭc vӟi các dӏch vө liên kӃt qua mҥng.
|`
Hình - Máy tính trong thư viӋn sӕ a
|±
|Ü
II. CHӌ MӨC TÀI LIӊU VĂN BҦN
2.1 MӢ ĐҪU
î à È$ đӇ nhұn dҥng đӕi vӟi chӍ mөc): là
mӝt dãy cӵc đҥi cӫa các ký tӵ chӳ và sӕ, nhưng giӟi
hҥn tӕi đa 256 ký tӵ và tӕi đa 4 ký tӵ sӕ
î
m| VÊ ! V
Sӕ tài liӋu N 741856
Sӕ thuұt ngӳ F 333338738
Sӕ thuұt ngӳ riêng biӋt n 535346
Sӕ con trӓ chӍ mөc f 134994414
Kích thưӟc tәng ÈMB) 2070.29
|O
2.2 CHӌ MӨC TӊP ĐҦO IFID
î à Èà
): V% &' là bҧng dӳ liӋu
hay cҩu trúc dӳ liӋu dùng đӇ xác đӏnh vӏ trí cӫa các dòng
trong tӋp theo điӅu kiӋn nào đó
î à ÈÅ
! ): V%
&' là mӝt cách tìm kiӃm thông tin
î à
: V% &' là mӝt cơ chӃ nhҵm đӏnh vӏ thuұt
ngӳ cho trưӟc trong văn bҧn
î à ÈchӍ mөc tӋp đҧo IFID): Đӕi vӟi mӛi mӝt
thuұt ngӳ trong tӯ điӇn, mӝt IF chӭa mӝt danh sách đҧo
ÈIL) lưu trӳ mӝt danh sách con trӓ tӟi tҩt cҧ xuҩt hiӋn cӫa
thuұt ngӳ đó trong văn bҧn chính, trong đó mӛi mӝt con
trӓ trong thӵc tӃ là sӕ tài liӋu mà thuұt ngӳ đó xuҩt hiӋn.
IL đôi khi đưӧc coi là mӝt danh sách mөc lөc và các con
trӓ là mөc lөc
á Đây là phương pháp chӍ mөc tӵ nhiên nhҩt, gҫn tương
ӭng vӟi chӍ mөc cӫa mӝt cuӕn sách và vӟi cách dùng mөc
lөc truyӅn thӕng
|@
mm
m
m`
Å
mm
Sӕ Thuұt ngӳ ILÈtài liӋu; vӏ trí)
1 an È2;4), È3;1), È3;5), È4;2)
2 and È1;5)
3 building È2;3), È4;1)
4 file È3;3), È4;4)
5 index È2;5), È3;6)
6 indexing È1;6), È2;1), È4;6)
7 information È1;1)
8 inverted È3;2), È4;3)
9 is È1;3), È2;2), È3;4), È4;5)
10 retrieval È1;2)
11 searching È1;4)
m|
î à : à (
cӫa mӝt chӍ mөc
là tính chính xác đӇ nhұn dҥng vӏ trí cӫa thuұt ngӳ
m±
Å
mm
Sӕ Thuұt ngӳ ÈTài liӋu; tӯ)
1 an <4; È2;4), È3;1), È3;5), È4;2)>
2 and <1; È1;5)>
3 building <2; È2;3), È4;1)>
4 file <2; È3;3), È4;4)>
5 index <2; È2;5), È3;6)>
6 indexing <3; È1;6), È2;1), È4;6)>
7 information <1; È1;1)>
8 inverted <2; È3;2), È4;3)>
9 is <4; È1;3), È2;2), È3;4), È4;5)>
10 retrieval <1; È1;2)>
11 searching <1; È1;4)>
mm
2.3 CHӌ MӨC TӊP KÝ SӔ SFID
m
m
ÊÅ
Thuұt ngӳ Ký sӕ thuұt ngӳ
indexing 0001 0000 1100 0100
is 0100 0100 0001 0000
building 0101 0011 0000 0000
an 0000 0100 0100 1100
index 1100 1000 0010 0000
Ký sӕ bloc 1101 1111 1111 1110
î TӋp ký sӕ SF: là mӝt phương pháp xác suҩt đӇ chӍ mөc
văn bҧn. Mӛi mӝt tài liӋu có mӝt ký sӕ liên kӃt, mӝt xâu
bit bҳt nӝi dung tài liӋu theo mӝt nghĩa nào đó
î TӋp ký sӕ bitslice Sӵ truy cұp SF có thӇ đưӧc tăng
nhanh hơn bҵng cách dùng kӻ thuұt "), tӭc là kӻ
thuұt chuyӇn vӏ ma trұn bit
m`
2.4 SO SÁNH CÁC PHƯƠNG PHÁP CHӌ MӨC
î Phương pháp chӍ mөc tӋp đҧo IFID và chӍ mөc tӋp ký sӕ
SFID là hai phương pháp chӍ mөc chính tài liӋu trong thư
viӋn sӕ.
î Y* )+ % &' , )! trong DL: Ӣ hҫu hӃt các ӭng dөng,
IF thӵc hiӋn tӕt hơn SF trong phҥm vi cӫa cҧ hai kích
thưӟc chӍ mөc và tӕc đӝ truy vҩn.
IF nén là phương pháp chӍ mөc hӳu ích nhҩt mӝt CSDL lӟn
các tài liӋu văn bҧn có đӝ dài có thӇ thay đәi.
2.5 CÁC MÔ HÌNH NÉN IFID
2.5.1 Đһt vҩn đӅ
Khҧo sát các mô hình và phương pháp mã hoá đӇ nén IFID
CSDL tài liӋu trong thư viӋn sӕ.
Chìa khoá cӫa bài toán nén là nhұn xét mӛi mӝt IL có thӇ
đưӧc lưu trӳ như mӝt dãy sӕ nguyên tăng dҫn.
m±
2.5.2 Mô hình nén toàn cөc
m
2.5.4 HiӋu năng cӫa các mô hình nén chӍ mөc
m@
Å
! V
Mô hình Sӕ bit/con trӓ
- ., '
Đơn nguyên 1918
Nhӏ phân 20.00
Bernoulli 12.30
Ù 6.63
6.38
- '
Hyperbol 5.89
Bernoulli 5.84
Bernoulli lӋch 5.44
Nӝi suy 5.18
mÜ
III. TÌM KIӂM THÔNG TIN
3.1 MӢ ĐҪU
Khҧo sát hai kiӇu truy vҩn:
î Truy vҩn Boole BQ truyӅn thӕng
î Truy vҩn xӃp hҥng RQ
3.2 TRUY VҨN BOOLE BQ
3.2.1 Truy vҩn BQ hӝi
Dҥng t1 AND t2 AND ... AND tr
mO
3.3 TRUY VҨN XӂP HҤNG RQ
3.3.1 So khӟp toҥ đӝ
ĐӃm sӕ thuұt ngӳ truy vҩn xuҩt hiӋn trong mӛi mӝt tài
liӋu
3.3.2 Tích trong đӝ tương tӵ
Quá trình đưӧc hình thӭc hoá bҵng mӝt tích trong cӫa
mӝt vectơ truy vҩn vӟi mӝt tұp vectơ tài liӋu
Đӝ tương tӵ cӫa truy vҩn Q vӟi tài liӋu Dd đưӧc biӇu diӉn
như sau:
Ê
`|
trong đó: phép toán . là phép tích trong
Tích trong cӫa hai n-vectơ X = <xi> và Y = <yi> đưӧc đӏnh
nghĩa:
`m
|
m@
Ví dө:
Ê À À
|
|
|
|
|
|
|
Ví dө:
Tính đӝ tương tӵ đӕi vӟi truy vҩn mүu trӣ thành
Ê À
À
À
|
|
|
|
|
|
|
m
`
Tәng quát hơn, thuұt ngӳ t trong tài liӋu d có thӇ đưӧc
gán mӝt 2"#,)!3 +4, ký hiӋu là wd,t và
trӑng sӕ khác wq,t trong vectơ truy vҩn
SÈQ, Dd) = Q Dd = ``
|
Đӝ tương tӵ là tích trong cӫa hai trӑng sӕ
NӃu hҥng đưӧc coi là mӝt đӝ đo tҫm quan trӑng thì trӑng
sӕ wt cӫa mӝt thuұt ngӳ t đưӧc tính như sau:
eð
ð `
|
trong đó: 1t là sӕ tài liӋu chӭa thuұt ngӳ t
`|
`m
| `|±
m
m
| |
``
|
eð ð `|
|
Đӝ tương tӵ:
|
|
|
`|O
`±
`
`
à
!
!
u
uu
u
u
u
u
u
m
|
|
!
!
`
3.5 ĐӜ ĐO COSIN
|
|
|
`Ü
`O
` à a a
à a 6 a
#
a "
± à | x x
$ a !a"
"
Ê
à a 6 a !a"
" `m
`@
KӂT LUҰN
±
KӂT LUҰN
2. Phân tích chi tiӃt các phương pháp chӍ mөc tài liӋu
văn bҧn trong DL: phương pháp chӍ mөc tӋp đҧo
IFID và phương pháp chӍ mөc ký sӕ SFID, so sánh
2 phương pháp chӍ mөc, rút ra quy luұt chӍ mөc tài
liӋu trong DL:Ӣ hҫu hӃt ӭng dөng, IF thӵc hiӋn tӕt
hơn SF trong phҥm vi cӫa cҧ hai kích thưӟc chӍ mөc
và tӕc đӝ truy vҩn. IF nén chҳc chҳn là phương pháp
chӍ mөc hӳu ích nhҩt mӝt CSDL lӟn các tài liӋu văn
bҧn có đӝ dài có thӇ thay đәi. Phân tích các mô hình
nén toàn cөc và mô hình nén cөc bӝ hyperbol, tӯ đó,
đӅ xuҩt mô hình nén cөc bӝ Bernoulli và nén nӝi suy
đӕi vӟi IFID dӵa vào các phương pháp xác suҩt và
thӕng kê toán hӑc, phương pháp mã hóa, phương
pháp nén dӳ liӋu.
±|
KӂT LUҰN
3. Phân tích chi tiӃt mô hình tìm kiӃm thông tin kinh
điӇn dӵa vào truy vҩn Boole BQ hiӋn đang đưӧc sӱ
dөng trong hҫu hӃt các hӋ thư viӋn, chӍ ra nhưӧc
điӇm cӫa truy vҩn BQ. Tӯ đó, luұn án đӅ xuҩt mӝt
mô hình tìm kiӃm văn bҧn dӵa vào truy vҩn xӃp
hҥng RQ có đánh giá hiӋu suҩt dӵa vào đӝ chính xác
P và đӝ phөc hӗi R.
4. Phân tích chi tiӃt các giҧi thuұt kinh điӇn: giҧi thuұt
đҧo danh sách móc nӕi và giҧi thuұt đҧo dӵa vào sҳp
xӃp, chӍ ra hҥn chӃ cӫa chúng là chӍ thích hӧp vӟi các
CSDL tài liӋu văn bҧn cӥ nhӓ và vӯa. Tӯ đó, luұn án
đӅ xuҩt hai giҧi thuұt trӝn nhiӅu đưӡng tҥi chӛ dӵa
vào sҳp xӃp và giҧi thuұt phân chia dӵa vào văn bҧn
phù hӧp vӟi CSDL tài liӋu văn bҧn cӥ lӟn trong DL.
±m
ĐӎNH HƯӞNG NGHIÊN CӬU TƯƠNG LAI
±`
KӂT THÚC
±±