You are on page 1of 166

KHAI PHÁ DӲ LIӊU

DATA MINING

TRӎNH THANH BÌNH

3/2/2011 1
CHƯƠNG 1 - TӘNG QUAN Vӄ KHÁI
PHÁ DӲ LIӊU

1.1. Khai phá dӳ liӋu


1.1.1.Mөc tiêu
‡ Lưӧng thông tin đưӧc lưu trӳ trên các
thiӃt bӏ điӋn tӱ không ngӯng tăng lên....
‡ ưӟc tính lưӧng TT có thӇ tăng gҩp đôi sau
khoҧng 2 năm

3/2/2011 2
1.1. Khai phá dӳ liӋu

1.1.1.Mөc tiêu (tiӃp)


‡ ³ chúng ta đang chìm ngh̵p trong dͷ li͏u nhưng
v̭n đói tri thͱc´. John Naisbett
‡ Lưӧng dӳ liӋu khәng lӗ này là mӝt nguӗn tài
nguyên rҩt có giá trӏ...
‡ KPDL ± khai thác nhӳng thông tin tiӅm ҭn mang
tính dӵ đoán tӯ nhӳng cơ sӣ dӳ liӋu lӟn (Databases
dataware houses)
‡ Sӵ phân tích dӳ liӋu mӝt cách tӵ đӝng mang tính
dӵ báo có ưu thӃ hơn hҷn so vӟi sӵ phân tích thông
thưӡng dӵa trên các sӵ kiӋn trong quá khӭ thông
3/2/2011 3
thưӡng như DSS(decision support system)
1.1. Khai phá dӳ liӋu

1.1.1.Mөc tiêu (tiӃp)


‡ Khai phá dӳ liӋu đã và dang trӣ thành mӝt trong
nhӳng lĩnh vӵc nghiên cӭu chính cӫa khoa hӑc máy
tính và công nghӋ tri thӭc
‡ Phҥm vi ӭng dөng ban đҫu cӫa KPDL là trong
thương mҥi và tài chính
‡ Ngày nay KPDL đã đưӧc ӭng dөng rӝng rãi như:
tin sinh, điӅu trӏ y hӑc, viӉn thông, giáo dөc...

3/2/2011 4
1.1.1.Mөc tiêu (tiӃp)

3/2/2011 5
1.1. Khai phá dӳ liӋu

1.1.2. Đӏnh nghĩa vӅ KPDL


‡ KPDL là quá trình tìm kiӃm thông tin (tri thӭc)
hӳu ích tiӅm ҭn và mang tính dӵ báo trong các tұp
dӳ liӋu lӟn
‡ KDD ~ KPDL
Đӏnh nghĩa 1(William J Frawley, Gregory Piatetsky-
Shapiro, v° Christopher J Matheus 1991 [43]):
m là quá trình không t̯m thưͥng nh̵n ra
nhͷng m̳u có giá tr͓, mͣi, hͷu ích ti͉m năng và
hi͋u đưͫc trong dͷ li͏uý
3/2/2011 6
Mӝt sӕ thuұt ngӳ trong đӏnh nghĩa

‡ Dӳ liӋu là mӝt tұp F các gӗm sӵ kiӋn, tương ӭng vӟi


tұp F, mӝt ngôn ngӳ L đưӧc sӱ dөng đӇ biӇu diӉn các
sӵ kiӋn trong tұp con cӫa F
‡ Mүu là mӝt biӇu thӭc E trong ngôn ngӳ L đưӧc dùng
đӇ biӇu diӉn các sӵ kiӋn trong mӝt tұp con cӫa FE cӫa F

3/2/2011 7
Mүu: Ví dө

3/2/2011 8
Mүu: Tính chҩt

‡Tính có giá trӏ cӫa mүu: Mүu đưӧc phát hiӋn cҫn
có giá trӏ đӕi vӟi DL mӟi đưӧc bә sung (VD
ngưӥng T dӏch sang phҧi)

3/2/2011 9
Mүu: Tính chҩt

‡ Tính mӟi cӫa mүu: có thӇ đo đưӧc khi lưu tâm


đӃn viӋc thay đәi trong dӳ liӋu (S.S Giá trӏ hiӋn tҥi
vӟi quá khӭ)
‡ Tính hӳu ích tiӅm năng cӫa mүu: cҫn có khҧ năng
chӍ dүn tӟi các tác đӝng hӳu dөng và đưӧc đo bӣi
hàm tiӋn ích
‡ Tính hiӇu đưӧc cӫa mүu: tҥo ra các mүu cho con
ngưӡi hiӇu dӉ dàng hơn so vӟi DL cơ sӣ.

3/2/2011 10
Mӝt sӕ đӏnh nghĩa khác

‡ Quá trình không tҫm thưӡng đӇ tӯ dӳ liӋu nhұn


biӃt đưӧc các mүu vӟi các tính chҩt có giá trӏ, mӟi,
hӳu dөng và hiӇu đưӧc (Fayyad)
‡ Quá trình trích lӑc các thông tin chưa biӃt trưӟc,
có thӇ nhұn thӭc đưӧc, có thӇ tác đӝng đưӧc tӯ
CSDL lӟn và sӱ dөng chúng đӇ tҥo ra quyӃt đӏnh
công tác (Ferruzza)
‡ Quá trình hӛ trӧ quyӃt đӏnh khi tìm kiӃm tӯ
CSDL lӟn nhӳng mүu thông tin chưa biӃt và hӳu
ích3/2/2011
(Parsaye). 11
1.1.3. Các bưӟc chính trong KPDL
‡ Trích chӑn dӳ liӋu (data selection): trích chӑn
nhӳng dӳ liӋu cҫn đưӧc khai phá tӯ nhӳng DL lӟn
theo mӝt sӕ tiêu chí nhҩt đӏnh.
‡ TiӅn xӱ lý dӳ liӋu (data preprocessing): làm sҥch
dӳ liӋu (xӱ lý dӳ liӋu không đҫy đӫ, không nhҩt
quán, dӳ liӋu nhiӉu).
‡ BiӃn đәi dӳ liӋu (data transformation): chuҭn hoá
và làm mӏn dӳ liӋu nhҵm đưa dӳ liӋu vӅ dҥng thuұn
tiӋn nhҩt cho các kӻ thuұt khai phá ӣ bưӟc sau.

3/2/2011 12
1.1.3. Các bưӟc chính trong KPDL
KPDL: áp dөng nhӳng kӻ thuұt khai phá đӇ trích
chӑn nhӳng mүu, nhӳng mӕi liên hӋ đһc biӋt trong
dӳ liӋu.
‡ BiӇu diӉn và đánh giá tri thӭc (knowledge
representation & evaluation): Nhӳng mүu thông tin
và mӕi liên hӋ trong dӳ liӋu đã đưӧc khai phá ӣ
bưӟc trên đưӧc chuyӇn dҥng và biӇu diӉn ӣ mӝt
dҥng gҫn gũi vӟi NSD như: Đӗ thӏ, luұt, bҧng,...
‡

3/2/2011 13
1.1. 3 Khai phá dӳ liӋu ± Các bưӟc chính

3/2/2011 14
1.2. Hưӟng tiӃp cұn và kӻ thuұt áp dөng

1.2.1. TiӃp cұn và kӻ thuұt trong KPDL


‡ Phân lӟp và dӵ đoán classification & prediction):
xӃp các đӕi tưӧng vào mӝt trong nhӳng lӟp đã đưӧc
biӃt trưӟc (vd: phân vùng đӏa lý theo dӳ liӋu thӡi
tiӃt). Áp dөng hӑc máy (cây quyӃt đӏnh, mҥng
nơron)
‡ Luұt kӃt hӧp association rules). VD ³ 60% nam
giӟi vào siêu thӏ mua bia thì sӁ có tӟi 80% trong sӕ
hӑ sӁ mua thӏt bò khôý.
‡ Khai phá theo chuӛi thӡi gian. Tương tӵ như luұt
kӃt hӧp, nhưng có thêm tính thӭ tӵ và thӡi gian.
3/2/2011 15
1.2. Hưӟng tiӃp cұn và kӻ thuұt áp dөng

1.2.1. TiӃp cұn và kӻ thuұt trong KPDL


‡ Phân cөm/ Phân đoҥn clustering/segmentation):
sҳp xӃp các đӕi tưӧng theo tӯng cөm.
‡ Mô tҧ khái niӋm (concept description &
summarization) thiên vӅ mô tҧ, tәng hӧp và tóm tҳt
khái niӋm (vd. tóm tҳt văn bҧn)
‡

3/2/2011 16
1.2. Hưӟng tiӃp cұn và kӻ thuұt áp dөng

1.2.2. Các dҥng dӳ liӋu có thӇ khai phá


‡ CSDL quan hӋ relational databases)
‡ CSDL đa chiӅu multidimensional structures, data
warehouses, data mart) là các kho dӳ liӋu đưӧc tәng
hӧp, chӑn lӑc tӯ nhiӅu nguӗn DL khác nhau có tính
lӏch sӱ.
‡ CSDL dҥng giao dӏch transactional databases):
các bҧn ghi thưӡng là các giao dӏch, phә biӃn trong
lĩnh vӵc ngân hàng
‡
3/2/2011 17
1.2. Hưӟng tiӃp cұn và kӻ thuұt áp dөng

1.2.2. Các dҥng dӳ liӋu có thӇ khai phá


‡ CSDL quan hӋ - hưӟng đӕi tưӧng
‡ Dӳ liӋu không gian và thӡi gian spatial,
temporal, and time-series data).
‡ CSDL đa phương tiӋn (multimedia databases)

3/2/2011 18
1.3. Ӭng dөng cӫa KPDL

‡ Phân tích dӳ liӋu và hӛ trӧ ra quyӃt đӏnh (data


analysis & decision support)
‡ ĐiӅu trӏ y hӑc (medical treatment)
‡ Text mining & Web mining: phân lӟp VB và các
trang web ҧ

‡ Tài chính và thӏ trưӡng chӭng khoán. Phân tích


tình hình tài chính và dӵ báo giá các loҥi cә phiӃu

3/2/2011 19
1.4. Phân loҥi các hӋ thӕng KPDL

‡ Phân loҥi dӵa trên DL đưӧc khai phá: CSDL quan


hӋ, kho DL, ...)
‡ Phân loҥi dӵa trên dҥng tri thӭc đưӧc khám phá:
tóm tҳt và mô tҧ, luұt kӃt hӧp, ...
ӑc
â m đưӧc áp dөng: OLTP,
‡ Phân loҥi dӵa trên kӻ thuұt
hӑc máy (cây Q.D, mҥng nơron, ...)
‡ Phân loҥi trên lĩnh vӵc áp dөng: kinh doanh, viӉn
thông, ...

3/2/2011 20
1.4. Phân loҥi các hӋ thӕng KPDL

‡ Phân loҥi dӵa trên DL đưӧc khai phá: CSDL quan


hӋ, kho DL, ...)
‡ Phân loҥi dӵa trên dҥng tri thӭc đưӧc khám phá:
tóm tҳt và mô tҧ, luұt kӃt hӧp, ...
ӑc
â m đưӧc áp dөng: OLTP,
‡ Phân loҥi dӵa trên kӻ thuұt
hӑc máy (cây Q.D, mҥng nơron, ...)
‡ Phân loҥi trên lĩnh vӵc áp dөng: kinh doanh, viӉn
thông, ...

3/2/2011 21
Chương 2 - Luұt kӃt hӧp

2.1. Ý nghĩa luұt kӃt hӧp


‡ Luұt kӃt hӧp là nhӳng luұt có dҥng:
‡ ³ 70 % khách hàng mua bia thì mua thêm th͓t bò khô,
20% giao d͓ch có mua c̫ bia l̳n th͓t bò khô´
‡ ³ 75% b͏nh nhân hút thu͙c lá và s͙ng ven vùng ô
nhi͍m thì b͓ ung thư ph͝i, trong đó 25% s͙ b͏nh nhân
vͳa hút thu͙c lá, s͙ng ͧ ven vùng b͓ ô nhi͍m vͳa ưng thư
ph͝i´
‡ ³ mua bia´, ³ hút thu͙c lá´ là v͉ trái cͯa lu̵t
‡ 20%, 25% là đ͡ h͟ trͫ cͯa lu̵t, 70%, 75% là đ͡ tin c̵y
cͯa lu̵t s͙ % giao d͓ch tho̫ mãn v͇ trái thì cũng tho̫
mãn v͇ ph̫i)
3/2/2011 22
2.1. Ý nghĩa luұt kӃt hӧp

3/2/2011 23
2.2 Bài toán khai phá luұt kӃt hӧp
‡ Cho i = {i1, i2,...in} là tұp mөc bao gӗm n
mөc (item ± dgl thuӝc tính)
‡ T = {t1, t2, ... tm} là tұp gӗm m giao dӏch.
Mӛi giao dӏch đưӧc đӏnh danh bӣi TID
(transaction iDentification)
‡ Cho q là mӝt quan hӋ nhӏ phân trên I và T.
NӃu mөc i xuҩt hiӋn trong giao dӏch t thì ta
viӃt (i,t) q

3/2/2011 24
2.2 Bài toán khai phá luұt kӃt hӧp
‡ Ví dө 1 vӅ CSDL dҥng giao dӏch I =
{A,C,D, T, W}, T = {1,2,3,4,5,6}vӟi thông
tin vӅ giao dӏch trong bҧng sau:

3/2/2011 25
2.2 Bài toán khai phá luұt kӃt hӧp
‡ Ký hiӋu X :  đưӧc gӑi là tұp mөc, đӝ hӛ
trӧ cӫa mӝt tұp mөc ký hiӋu là s(X) ± là %
sӕ giao dӏch trong CSDL chӭa X.
‡ Mӝt tұp mөc đưӧc gӑi là phә biӃn nӃu đӝ hӛ
trӧ > = minsup (ngưӥng) đưӧc xác đӏnh bӣi
NSD

3/2/2011 26
2.2 Bài toán khai phá luұt kӃt hӧp
‡ Bҧng sau liӋt kê tҩt cҧ các tұp mөc phә biӃn
trong CSDL VD1 vӟi minsup = 50%

3/2/2011 27
2.2 Bài toán khai phá luұt kӃt hӧp
‡ Luұt kӃt hӧp có dҥng Trong đó X, Y
là các tұp mөc thoҧ mãn điӅu kiӋn

‡ c là đӝ tin cұy cӫa luұt


‡ Mӝt luұt xem là tin cұy nӃu đӝ tin cұy >=
giá trӏ ngưӥng minconf nào đó do ngưӡi
dùng xác đӏnh.

3/2/2011 28
2.2 Bài toán khai phá luұt kӃt hӧp
‡ Cho mӝt CSDL đӝ hӛ trӧ tӕi thiӇu minsup, đӝ
tin cұy tӕi thiӇu minconf.
‡ Hy tìm kiӃm tҩt cҧ các luұt kӃt hӧp có dҥng
# ¢Y thoҧ mn đӝ hӛ trӧ s(#M )
_ minsup và đӝ tin cұy cӫa luұt c(# ¢ Y) =
s(#M ) / s(#) _ minconf .

3/2/2011 29
Thuұt toán ± 2 pha

3/2/2011 30
3/2/2011 31
2.3 Mӝt sӕ hưӟng tiӃp cұn chính
trong khai phá luұt kӃt hӧp
‡ Luұt kӃt hӧp nhӏ phân là hưӟng NC đҫu tiên cӫa
luұt kӃt hӧp. Trong dҥng luұt KH này các thuӝc
tính chӍ đưӧc quan tâm là có hay không xuҩt hiӋn
trong giao dӏch cӫa CSDL chӭ không quan tâm vӅ
mӭc đӝ xuҩt hiӋn (eg. Mua 20 chai bia và 1 chai là
giӕng nhau)
‡ VD ³mua bánh mì = µYes¶ AND mua đưӡng =
µYES¶ => mua sӳa =µYES¶ AND mua bơ =
µYES¶, vӟi đӝ hӛ trơ= 20%, tin cұy = 80%.
3/2/2011 32
2.3 Mӝt sӕ hưӟng tiӃp cұn chính
trong khai phá luұt kӃt hӧp
‡ Luұt kӃt hӧp có thuӝc tính sӕ và thuӝc tính
hҥng mөc. Các thuӝc tính cӫa CSDL thӵc tӃ
có kiӇu rҩt đa dҥng. ĐӇ phát hiӋn luұt kӃt
hӧp vӟi các thuӝc tính này: rӡi rҥc hoá
‡ VD ³Giӟi tính = µnam¶ and tuәi µ¶50..65¶
AND cân nһng µ¶60..80¶ AND lưӧng
đưӡng tron máu >= 120 mg => huyӃt áp =
µcao¶ vӟi đӝ hӛ trӧ 30%, tin cây 60%
3/2/2011 33
2.3 Mӝt sӕ hưӟng tiӃp cұn chính
trong khai phá luұt kӃt hӧp
‡ Luұt kӃt hӧp mӡ. ChuyӇn luұt vӅ mӝt dҥng
tӵ nhiên hơn, gҫn gũi hơn.
‡ VD ³ ho khan = µyes¶ AND sӕt cao AND
đau cơ = µyes¶ AND khó thӣ = µyes¶ => bӏ
nhiӋm SARS = µyes¶. vӟi đӝ hӛ trӧ 4% và
tin cұy 85 %

3/2/2011 34
Chương 3 Khai phá luұt kӃt hӧp mӡ
3.1 Luұt kӃt hӧp có thuӝc tính sӕ
‡ Luұt kӃt hӧp có thuӝc tính sӕ

3/2/2011 35
Luұt kӃt hӧp có thuӝc tính sӕ

‡ Trong CSDL trên tuәi, nhӏp tim cӵc đҥi,


lưӧng cholesterol là thuӝc tính sӕ, dҥng đau
ngӵc ,dҥng điӋn tâm đӗ là thuӝc tính hҥng
mөc, còn lҥi là thuӝc tính nhӏ phân.
‡

3/2/2011 36
Mӝt sӕ luұt kӃt hӧp rút đưӧc tӯ
CSDL

3/2/2011 37
3.2. Các phương pháp rӡi rҥc hoá

3/2/2011 38
Rӡi rҥc

3/2/2011 39
3.2. Các phương pháp rӡi rҥc hoá

3/2/2011 40
Rӡi rҥc

3/2/2011 41
3.2. Các phương pháp rӡi rҥc hoá
Nhұn xét
‡ VĐ vӅ ngӳ nghĩa VD 29 và 30 tuәi chӍ cách
nhau mӝt tuәi lҥi thuӝc vӅ 2 khoҧng khác
nhau.
‡ Khҳc phөc bҵng luұt kӃt hӧp mӡ

3/2/2011 42
3.2 Luұt kӃt hӧp mӡ
‡ Rӡi rҥc hoá thuӝc tính dӵa vào tұp mӡ
± Mӝt phҫn tӯ thuӝc tұp nào đó vӟi mӝt mӭc đӝ
phө thuӝc nҵm trong khoҧng [0,1]. Giá trӏ này
đưӧc xác đӏnh dӵa vào hàm phө thuӝc.
± Ví dө, cho x là thuӝc tính cùng vӟi miӅn xác
đӏnh Dx (tұp vũ trө) hàm thuӝc xác đӏnh mӭc đӝ
phө thuӝc đưӧc xác đӏnh:
‡ mfx(x): DxÚ[0,1]

3/2/2011 43
Ví dө: thuӝc tính tuәi xác đӏnh trong
khoҧng [0,120]. Đưӧc gҳn vӟi 3 tұp mӡ
tuәi trҿ, trung niên, già, đӗ thӏ như sau:

3/2/2011 44
Rӡi rҥc hoá tұp mӡ: Ưu điӇm
‡ Rӡi rҥc hoá bҵng phân khoҧng thuӡng tҥo ra sӕ khoҧng rҩt
lӟn. Khi sӱ dөng tұp mӡ thì sӕ lưӧng tұp mӡ gҳp vӟi thuӝc
tính là không đáng kӇ. Ví dө rӡi rҥc hoá lưӧng Cholesterol
mҩt 4 khoҧng, mӡ hoá mҩt 2 khoҧng: Cholesterol-Thҩp,
Cholesterol-cao
‡ Cho phép biӇu diӉn luұt kӃt hӧp dҥng tӵ nhiên hơn, gҫn gũi
vӟi NSD
‡ Giá trӏ thuӝc tính sau khi rӡi rҥc trong khoҧng [0,1] cho
biӃt mӭc đӝ phө thuӝc ít hay nhiӅu. So vӟi thuӝc tính nhӏ
phân chӍ có 2 giá trӏ

3/2/2011 45
3.4 Luұt kӃt hӧp mӡ
‡ Cho I ={i1, i2, ... in } là tұp n thuӝc tính iu là
thuӝc tính thӭ u trong I. T= {t1, t2,...tm}là
tұp m bҧn ghi. tv là bҧn ghi thӭ v trong T.
‡ tv[iu]: gía trӏ cӫa thuӝc tính iu tҥi bҧn
ghi tv

3/2/2011 46
3.4 Luұt kӃt hӧp mӡ

t5[i2]= t5[cholesterol] = 274mg/ml


3/2/2011 47
3.4 Luұt kӃt hӧp mӡ

Gҳn vӟi mӛi thuӝc tính iu mӝt tұp mӡ


như sau: Fiu = {f1u1, f2u2,... fnun }
3/2/2011 48
3.4 Luұt kӃt hӧp mӡ

3/2/2011 49
3.4 Luұt kӃt hӧp mӡ
‡ Luұt kӃt hӧp mӡ có dҥng:
X is A Ú Y is B
‡ Trong đó:

3/2/2011 50
3.4 Luұt kӃt hӧp mӡ

3/2/2011 51
3.4 Luұt kӃt hӧp mӡ

3/2/2011 52
3.4 Luұt kӃt hӧp mӡ

3/2/2011 53
3.4 Luұt kӃt hӧp mӡ

3/2/2011 54
3.4 Luұt kӃt hӧp mӡ

3/2/2011 55
3.4 Luұt kӃt hӧp mӡ

3/2/2011 56
3.4 Luұt kӃt hӧp mӡ

3/2/2011 57
3.4 Luұt kӃt hӧp mӡ

3/2/2011 58
3.4 Luұt kӃt hӧp mӡ

3/2/2011 59
3.5 Thuұt toán khai phá luұt kӃt hӧp mӡ

3/2/2011 60
3.5 Thuұt toán khai phá luұt kӃt hӧp mӡ

3/2/2011 61
3/2/2011 62
3/2/2011 63
3/2/2011 64
3/2/2011 65
Giá trӏ các thuӝc tính tҥi các bҧn
ghi đưӧc mӡ hoá

3/2/2011 66
3/2/2011 67
3/2/2011 68
3/2/2011 69
3/2/2011 70
O       
 O

 

3/2/2011 71
O       
 O

 
a  4 häc mét h m ¸nh x¹ (c¸c 4 cña
c¸c tªn gäi d· 4iÖu v o mét trong mét sè 4 ®·
biÕt tr-c (H     
   °
a  (p
     p 4 b i to¸n
m« t̻ chung trong ®ã nh»m v o viÖc nhËn
biÕt mét tË h·u h¹n c¸c 4o¹i hoÆc c¸c ®o¹n
®Ó m« t̻ d· 4iÖu (T  
   !   " °
3/2/2011 72
O       
 O

 
‡ Phân lӟp: Ví dө ‡ Phân cөm: Ví dө

á
á

Kh«ng cho
vay

Cho vay

hu nhËp
hu nhËp
3/2/2011 73
O       
 O

 

@ a 

O

   sö dông sù
h©n chia ®a d¹ng cã mét trình b 
®¬n gi̻n, t¹o ra c¸c m« hình háng ®o¸n
dÔ d ng 4iªn quan ti hiÓu biÕt cña
ng-êi sö dông°
3/2/2011 74
O       
 O

 

| @  a 

3/2/2011 75

    
mh

T #   




T

T

 p 

3/2/2011 76
§  $

  % &      "    
  p      °

     &
    $ 
 '        (    
)   %        *
 °

         +    
  $ ,      p    *
       *     "
        °
   p  *  p  !    
" '  (       %°77
3/2/2011
§  $

           
-  ( "*  '    
".  p        
 "  /   $  p   *°

     °

3/2/2011 78
 0 1 " 2  "
‡ Mô hình mӝt nơron  3 " 





n a
‹ Ÿ
‘ ‘
3
b
3

§"  §" ‘ a 4 Ÿ(I é b

3/2/2011 79
O  

n 4  é  é 5 é 33 é b 4 I é


b
a 4 Ÿ(n 4 Ÿ(I é b
"   6

3/2/2011 80
O     ,  7
T(  -
O  

hard4im  ?   8 ?
4   _ ?
     8 ?
4   _ ?
p  4

  4 ?   8 ?
 4   ?    
3/2/2011 81
4   9 
O     ,  7
-

T(  O  

p  ?   8 ?
4   _ ?
p  4      
 '
 4 ?    :  
3/2/2011 82
 # $ p
 p
+    # $ p
 " 
   p

$ ;   <
H  < p
 p = $ 
     , ° (? ? (?  ( ?
  , p ? $ (    , p


3/2/2011 83
%&    "        
 ‘  4  4  " 4    , > 
 ‘ >( 4  94? >( 4 ? %  °
' $ (? ?    4 ( ° ? é ° ?
0   4 ?
' $ (?     4 ( ° ? é °  
  4 ?
' $ ( ?    4 ( °  é ° ? 
  4 ?
' $ (     4 ( °  é °  
  4 
3/2/2011 84
V

x+y-1,5=0

3/2/2011 85
up 
1
 p   p   
2   ,     



‹ Ÿ
n a

 b
 
n2 a2
‘ ‘ ‹ Ÿ
3 b2

3 nS aS
‹ Ÿ
bS


§" 
3/2/2011 §" ‘  4 Ÿ(I é : 86
   4 ?n n 5n@T
: 4 ?b b 5b@T
 4 ?a a 5a@T
'    
a 4 Ÿ( 4 Ÿ(O T é b
  O 4 ?  5 3@T   O
    )  
3/2/2011 87
   A   
 4 Ÿ( Ÿ(I é :
  4 ?O O 5 O@T

3/2/2011 88
 # $ p
 p )   p

+  p
      "
    p°
  p  !    p 
khҧ năng        
 , p °

3/2/2011 89
' ‘ O  = $ (? ? (?  (
? (    = p
%&   p  !      ‘
  ‘  4   4 ? " 4 ? (
  ‘  4 ?°  4  " 4 ? 
H  , >   ‘ >( 4 
94? >( 4 ? %  

3/2/2011 90
3/2/2011 91
01 11

(2)

00 10
(1)

3/2/2011 92
  

‹ Ÿ  ‹ Ÿ  ‹ Ÿ 


   

‹ Ÿ ‹ Ÿ ‹ Ÿ

‘
‘   
3
‹ Ÿ ‹ Ÿ ‹ Ÿ

I I I
  

§"  O p B up  §" 

3/2/2011 93

$ ;   %)3‘
H  %)3  $ , " 
p
 p = $     
 ,
H $ (? ? (    , p ?
 $(?  ( ?   , Cp 

3/2/2011 94
V

3/2/2011 95
T  ' *‘  %)3 4     Ç
O  $    ‘  %)3 4 ( <
()T  )3 (()T  < 
   $   *  %)3  D

    !  " "
B    '    D   * 
p &p  < "  D   *
p &p  )3
3/2/2011 96
T" B    ' ‘
0   (p &p   < ()T  ‘
0   (p &p  ()T  <  ‘
T"         *
p &p  )3‘
H  , ) '    ,
  °

3/2/2011 97
T      * p &p
%)3   


? (

‹
 

  %)3

‹


 ? (
‹


? (

3/2/2011 98
 
 p
 p )  
%)3

1
0

0 1

3/2/2011 99
    , "
 ,  +
‹ Ÿ ‹ Ÿ 5 ‹ Ÿ


   

‹ Ÿ ‹ Ÿ 5 ‹ Ÿ

‘
‘   
3
‹ Ÿ ‹ Ÿ 5 ‹ Ÿ

I I I
  

§"  O p B up  §" 

3/2/2011 100
3/2/2011 101
A      ‘
 4 ?  °°°@T
 4 ?  °°° @T
        $   "
 )      ‘

3/2/2011 102
Cây quyӃt đӏnh
‡ Cây gán nhãn:
± Nút trong xác đӏnh tұp các giá trӏ có thӇ cӫa các thuӝc
tính, mӛi nhánh đi xuӕng tương ӭng vӟi mӝt giá trӏ có
thӇ
± Các nút lá  , E F F - p . Cp  G /
H F F -
0 I-
0 J I1 I K 2 3
 F  F C F
2  H K 4 2 F I5    H L F
- p . Cp M .
0 I- °

3/2/2011 103
Ví dө cây quyӃt đӏnh
r  #

.


§ B O  N

  6
O
  7

 é  é

3/2/2011 104
Ví dө cây quyӃt đӏnh
OF  L 
  IL P Q
R H F  L  M  E H
I5  H F 2 °
OF  F  , E F F - 
Q° (r   R F F -‘ 7
F °

3/2/2011 105
Ví dө cây quyӃt đӏnh
O.
0 I-  , E E S  / R 7
   H F  Q (   ‘
8
  47  E IL4R IL
P4 Q R4T 9‘   I  
J L  F K 3 I0 F  Q C
p p L M F  L  I5 ,  H
.  Q C  , M U  F p p
L   V °

3/2/2011 106
Cây quyӃt đӏnh
.
0 I- " 8 F 2 H F
 L  H 2 F H F F - p .
Cp  G / H F F -
0 I- °
OR  ,  , IW .
0 I-  H
T F  V "X F   F I1
I K 2 3   I0 F 2 F°

3/2/2011 107
Cây quyӃt đӏnh
O.
0 I- ", Y   L p p
 , M F ",  Q L  F
H " L 7 F F - M  L 
4 I. ",  Q IT F - I2   F
- p . Cp H I2(é°
  V  0   .
0 I- U
IY H / I5 F ",  Q °

3/2/2011 108
Xây dӵng cây quyӃt đӏnh ± ID3
O 0 5       Z K 7
 3 I, 6 0 7    M
U  F .
0 I- R  , R°
O. " I[ H . J H  V F
"7 I[ . S K 2 3  IR
 7 [ F 2   2 F   I
 3 F  F M . °

3/2/2011 109
Xây dӵng cây quyӃt đӏnh ± ID3
9 (Ep T\"  <" 
:[ H‘
0 Ep H Vp ] U  E
0 T\"  H F  L  R F - I5
IF  V 7 .
0 <" ‘ H  F U  F  L 
:[ ‘  Z .
0 I- I5   "4
Vp ]

3/2/2011 110
Xây dӵng cây quyӃt đӏnh ± ID3
TT L 2 3   .
0 H "L Ep IZ I2  Z 2
3 C   4é
0 H "L Ep IZ   Z 2 3
C   4
0 <"  H J T Z F - 2 3
C   H F -  L     U 
F F - M T\"   Vp
Ep

3/2/2011 111
Xây dӵng cây quyӃt đӏnh ± ID3
5 T
< ÈH  L  K  F <"  R
IL p . Cp 3  U
3È<
'C J F -  M <
T 7 F  F C 4 C 2 3 C
  <49
uU Vp  Ep K Vp ] I,  L
 <4
3/2/2011 112
Xây dӵng cây quyӃt đӏnh ± ID3
0 Ep H J
0 T 7 H F  F F 2 F C   H F -
   U M Vp  L  I 4  Vp
] °
5 T
0 T 7 H F  F F . 
9(Ep T\"  <" 
^<_
3  3
3/2/2011 113
`   
:L I Ep (IL J IL M  
°
0 O  Vp  8 F ]  (]
 V F - I2 H ] . (]  V
F -  IL I p M  H‘
Ep (4 p(é p(é p(p(
0 ` I. p(é H 3 F ]  p( H
3 F ] .°

3/2/2011 114
`   
:F F  L  H 3  U 
 H    IT I5
(inŸormation gain
HH I H   p p  F I- IL
p . "E M  L   
 
E 7 Vp ] °
:,  H IT I5     a
; IL I Ep (IL J IL M
  °

3/2/2011 115
`   
' ;‘
R  ]  H ] . 
W 3 = ]  R IL I‘
0 Ep (?é @4(b=(b=
( b=( b=4?°=?
Ep (4? 0 U  F ] 
L Cp°
Ep (4 0 3 ]  "X
3 ] .°

3/2/2011 116
`   
:3 C 1 5p W
F R  Cp H 3
5 ] M F Cp H p C 4   R‘
Ep (4§pp
H€m thông tin đ̹t đưͻc I5     ‘
N( <4 Ep ( §‡‡b‡‡ Ep (
 ' (<
' (< H Vp U  F F - R  , R
M  L  < H  H Vp  M Vp 
H R F - 4  L  < H °

3/2/2011 117
`   
N a  H Vp F ] U  E C 
] I2 H ] ° Q Rc H L
    L  M ] R  F -
H T c H 0 c  R h€m thông tin đ̹t
đưͻc H‘
R 4 0 Ú ?dé @
R4T Ú ?é @
N( R4Ep (§‡‡b‡‡ Ep ( (
(T 0 4Ep ((b= Ep (R4T 
4 ?°=?  (b=?°(db=°?? 4?°?=

3/2/2011 118
`   

T I5 H    IT I5   U 


F  L  I3 R Vp ] °  IR  /
I5  L  R F - M H   
IT I5   U  L  H H  L
 3  U°
T6 I5  L  3  U "X F  7
F    Z   F    Ie
"E °°°
Như vͅ thuͱc tnh tͩt nh̽t 4€ thuͱc tnh có
giá trͣ cͿa h€m thông tin đ̹t đưͻc 4n nh̽t.
3/2/2011 119
Ví dө - xây dӵng cây quyӃt đӏnh
N0 NSD Tҫng Khoa Cӥ Có điӅu
hoà?
208 CB 2 CN TB +
107 CB 1 KT L -
109 GV 1 KT N -
215 SV 2 KT L +
309 GV 3 CN TB -
317 CB 3 CN L +
116 SV 1 KT N +
220 GV
3/2/2011 2 CN TB - 120
Ví dө - xây dӵng cây quyӃt đӏnh
NSD Tҫng

CB 1 3
GV SV 2
1- 3- 2+ 2- 2+ 1-

2+ 1+ 1- 1+

Khoa

CN KT TB
N L
2- 2+
1+ 1+ 1-
2+ 2-
3/2/2011
2- 1- 2+ 121
Ví dө - xây dӵng cây quyӃt đӏnh
‡ Tính đӝ đo lӧi ích thông tin vӟi tҩt cҧ các
thuӝc tính
± Gain(D,NSD) = Entropy(D) ± 3/8Entropy(D(nsd)
= CB) ± 3/8Entropy(D(GV)) ± 2/8Entropy(D(SV))
= 0.66.
± Gain(D, tҫng) = 0.06
± Gain(D,khoa) = 0
± Gain(D,cӥ) = 0.06
==Ú Chӑn thuӝc tính NSD
3/2/2011 122
Ví dө - xây dӵng cây quyӃt đӏnh
NSD Khoa

CB CN KT
GV SV
2+ 1-
Tҫng 3- 2+

1 2 3 Tҫng

1- 1+ 1+ TB L
N

1+ 0 1+
1-
3/2/2011 123
Cây quyӃt đӏnh

NSD

CB
GV SV

Khoa - +

CN KT

+ -

3/2/2011 124
  
1  p Fp 6 0 7 Òhông gian gi̻ thi͗t
I, 6  U 2 .
0 I-   5p C
Vp  E U  E°
mhông gian gi̻ thi͗t H Vp U  F .
0
I- R  , R°
9 "7 I[ C . J H 6 0  
p  p Fp  I8 I K I  I0 p Q
Tp C F "C IF F  
 H I
   R I5°
1  p Fp H  L H Cp  0 5
    
    IR .
0 I-
6 I5 H . IM 3   < H . 3  U
I3 C Vp ] U  E°
3/2/2011 125
  
     0 M U  .

0 I- H    H  =
M U  F H 7
 I0 F
 L  R f°
'6 J H ; 7 R  , ", Y
"X L(H .
0 I- 9 F
   6 0 7     
IP IM°

3/2/2011 126
„ !  " #! $
:! %

& '
O  L Vp  E U  E R U  Z
.
0 I-   5p C Vp ]  
V °
HC
Tp H C
Tp M  V
F 9 a ; I, S  /  .
0
I-   5p  3 F .
0 I-
7°
1  p Fp  / . "X F a ;
p p F F 2 "X F  L  R F
- M H    R I5   U
3/2/2011 127
„ ! "#! $
:!%

&'
HC
Tp  p  p Fp /
"X .
0 I- H‘
O  c€ng ng͇n tͩt hơn các c  d€i
hơn. O  có thuͱc tnh có giá trͣ thông
tin có đưͻc cao nh̽t g̿n gͩc hơn thì tͩt
hơn c  Òhông có tnh ch̽t đó.

3/2/2011 128
O !(&#!
$:!%

&'
OF C  0  X F  
1 5p    p 
p Fp / "X .
0 I-  ‘
0 S
F    (> Q H
1 5p . / T 
F   
C Vp ] H    , W
F I5
0 T L    R F -
0 %a  F  L  R F - 7 ;°
3/2/2011 129
°)*  ! 
:-  >‘
O       0 H L 
 0 H I5 / H quá tương
thch C Vp ] U  E 0 8 T
L   0 c H I, R J   c
 Vp ] U  E   c 
J   H "L Vp ] °

3/2/2011 130
°)*  !  - giҧi
pháp
K p F , . C   R IT
I0 I, quá tương thch°
a ; F g  V =  F  X
 "C S
F    °
S =  F " 8
F 6 T "h
F 2 4 F .  T  F 2 F
H F F - M 2 F   F p .
Cp    U I3 C 2 IR°

3/2/2011 131
°)*  !  - tӍa
nhánh
‡ 32 / F J =  F ?r  (@ ‘
0 O. I5 p F ,   I0   R   5p 7
H "L  E Vp ] ° J L 2 M . i
I5   I, =  F ° OF 2 I5 T "h 0
0
 M .  S E 3  " I[ °
T= F  V?r  @
0 .
0 I- i I5 p F , I0    
5p C H "L  E Vp ] °
0 O. i I5  ,  H T  V J  V
I5 T  H "X L I1 I K 2 3 I0
2 F°
0 a ; E T "h F  V "X F   IL
  F M Vp F  V I3 C F  E 0p
3/2/2011 132
 
# 4 các thuͱc tnh có giá trͣ
4iên tͽc
:3 C F  L  R F - 7 ;  
 L   E IL  "H F S "F  1
0 °°°
T6 F 1 T F F  L  ° OF
 L  7 ; i I5 p .    H
F  ° ' ;    L  < R F -
R  , p .  H     1 L F -
ngư͹ng   I5 F - M  L  ".
1 H    H  h  °
3/2/2011 133
# 4 các thuͱc tnh có giá trͣ
4iên tͽc - Thuͅt toán
? J F - 7 ; M  L  <
7p 0p F ]   F F - M <
? J ep % %é   F 7p
0p
0 9> %?<@ H %é?<@ R F - I  F  
0 Ie F I,   %?<@é(%é?<@%?<@   H F
F - @
('C‘ %?<@ H F - M  L  <

3/2/2011 134
# 4 các thuͱc tnh có giá trͣ
4iên tͽc - Thuͅt toán
T R  ,    ;  I. ‘

Nhi͟t đͱ ‘ =? = d? ( ? ?
Ohơi tenis‘   6 6 6 
T F I- F @ H  E IL9 = H
 E IL9
 F F - M  E IL9 = H  E
IL9   I5 @ H I, =°
3/2/2011 135
. # 4 trư͵ng hͻ m̽t giá trͣ
ë 
 
NF F F - "- U "X F F -
p W "0  Vp ] U  E C
F 2 I5   7 .
0 I- °
NF F F - p W "0  Vp ]
4 2 H R S p . Cp 3  
] H R R F -   "0

3/2/2011 136
Phân lӟp: K ± láng giӅng gҫn
nhҩt
K-Nearest Neighbor

3/2/2011 Classifier 137


Phân lӟp: K-Nearest Neighbor
Hӑc tương tӵ:
Hãy nói cho tôi nhӳng ngưӡi bҥn cӫa bҥn, và
tôi sӁ cho bҥn biӃt hӑ là ai.
mӝt ví dө mӟi đưӧc gán vào mӝt lӟp chung
nhҩt theo (K) các ví dө là tương tӵ nhҩt vӟi
nó.

3/2/2011 138
K-Nearest Neighbor Algorithm
‡ ĐӇ phân lӟp mӝt ví dө E:
± Tính khoҧng cách giӳa E và tҩt cҧ các ví dө trong tұp ví
dө huҩn luyӋn
± Lӵa chӑn k ví dө gҫn nhҩt vӟi E trong tұp ví dө huҩn luyӋn
± Gán E vào lӟp chung nhҩt theo k láng giӅng gҫn nhҩt

i 
   

3/2/2011 O     139


i 
K-Nearest Neighbor Classifier
Khoҧng cách giӳa hai láng giӅng
‡ Mӛi ví dө đưӧc biӇu diӉn dưӟi dҥng mӝt tұp các thuӝc tính sӕ
$ i  



   
    
‡ Đӏnh nghĩa theo khoҧng cách ơclid giӳa hai ví dө
± Khoҧng cách ơclid X=(x1, x2, x3, xn) và Y =(y1,y2, y3, yn) đưӧc
đӏnh nghĩa:
n
2
D( X , Y ) ( x
§ i i y )
i 1

± Distance (John, Rachel)=sqrt [(35-41)2+(95K-215K)2 +(3-


2)2]
3/2/2011 140
K-Nearest Neighbor: hӑc dӵa trên ví

‡ Lưu trӳ tҩt cҧ các ví dө

i     

3/2/2011  i    141


i 
K-Nearest Neighbor Classifier

Ví dө : 3-Nearest Neighbors
Customer Age Income No. credit Response
cards
John 35 35K 3 No

Rachel 22 50K 2 Yes

Hannah 63 200K 1 No

Tom 59 170K 1 No

Nellie 25 40K 4 Yes

David 37 50K 2 ?
3/2/2011 142
K-Nearest Neighbor Classifier
ví dө
Customer Age Income No. Response Khoҧng cách tӯ David
(K) cards
John 35 35 3 No sqrt [(35-37)2+(35-50)2
+(3-2)2]=VV
Rachel 22 50 2 Yes sqrt [(22-37)2+(50-50)2
+(2-2)2]=V
Hannah 63 200 1 No sqrt [(63-37)2+(200-50)2
+(1-2)2]=V
Tom 59 170 1 No sqrt [(59-37)2+(170-50)2
+(1-2)2]=V
Nellie 25 40 4 Yes sqrt [(25-37)2+(40-50)2
+(4-2)2]=V
David 37 50 2 ]
3/2/2011 143
K-Nearest Neighbor Classifier
Phân tích
j  
‡ DӉ cài đһt và sӱ dөng
‡ DӉ giҧi thích, dӵ đoán
‡ Loҥi bӓ dӳ liӋu nhiӉu (noisy data) bӣi trung bình k ngưӡi láng
giӅng gҫn nhҩt.
‡ Có nhiӅu ӭng dөng
 
 
‡ Cҫn nhiӅu không gian lưu trӳ.
‡ Tӕn nhiӅu thӡi gian đӇ phân lӟp mӝt ví dө mӟi (cҫn tính toán
và so sánh khoҧng cách cӫa ví dө mӟi vӟi tҩt cҧ các ví dө
khác).
3/2/2011 144
K-Nearest Neighbor Classifier

"#$%#0&- '    (




 ! 

 
  
i 
!   i 
  
  

i 
!    
i  O  

i  
3/2/2011 i  145
Strengths and Weaknesses K-Nearest Neighbor Classifier

$
 
 




    
    

Distance (John, Rachel)=sqrt [(35-45)2é  ëV  +(3-2)2]


‡ khoҧng cách giӳa các láng giӅng có thӇ khӕng chӃ bҵng
các thuӝc tính vӟi giá trӏ nhӓ. (Ánh xҥ [0-1])
Exmaple: Income
Highest income = 500K
Ta có 95/500, tương tӵ 215/500

3/2/2011 146
Strengths and Weaknesses K-Nearest Neighbor Classifier
Chuҭn hoá các thuӝc tính
Customer Age Income No. Response
(K) cards

John 55/63= 35/200= ¾= No


0.55 0.175 0.75

Rachel 22/63=0 50/200= 2/4= Yes


.34 0.25 0.5

Hannah 63/63= 200/200= ¼= No


1 1 0.25

Tom 59/63= 170/200= ¼= No


0.93 0.85 0.25

Nellie 25/63= 40/200= 4/4= Yes


0.39 0.2 1

David 37/63= 50/200= 2/4=


0.58 0.25 0.5 ]
3/2/2011 147
Strengths and Weaknesses K-Nearest Neighbor Classifier
‡ Khoҧng cách tӵ nhiên giӳa các thuӝc tính
D(Rachel&Johm)= sqrt [(35-37)2+(35-50)2 +(3-2)2]=VV
NӃu tәng quát hoá các thuӝc tính?
Vía dө: married
Customer Married Income No. Response
(K) cards

John Yes 35 3 No
Rachel No 50 2 Yes
Hannah No 200 1 No
Tom Yes 170 1 No
Nellie No 40 4 Yes
David Yes 50 2
3/2/2011 148
Chương 4. Phân cөm - Thuұt toán
K _ mean, m-Medoid

3/2/2011 149
Phân cөm

‡ Phân cөm l€ g ?
‡ KiӇu dӳ liӋu trong phân cөm
‡ Cc thuұt ton phân cөm
± m-Mean
± m-Medoid

3/2/2011 150
Phân cөm l€ g ?
‡ Cөm: Tұp hӧp cc đӕi tưӧng
± Tương tӵ vӟi cc đӕi tưӧng khc trong cng
mӝt cөm
± Không tương tӵ vӟi cc đӕi tưӧng trong cc
cөm khc
‡ Phân cөm
± T m đӝ tương tӵ giӳa dӳ liӋu theo cc đһc trưng
t m thҩy trong dӳ liӋu v€ nhm cc đӕi tưӧng
giӕng nhau v€o mӝt cөm
Phân cөm
‡ KӃt quҧ phân cөm phө thuӝc v€o phương php
tnh đӝ tương tӵ.
‡ Phương php phân cөm còn phө thuӝc v€o khҧ
năng pht hiӋn cc mүu ҭn.

3/2/2011 152
Cc yêu cҫu trong phân cөm

‡ C khҧ năng thch hӧp vӟi cc kiӇu thuӝc


tnh khc nhau
‡ C khҧ năng xӱ lý dӳ liӋu đӝng
‡ Pht hiӋn cc cөm vӟi h nh dҥng tuǤ ý
‡ Khҧ năng xӱ lý dӳ liӋu nhiӉu
‡ Khҧ năng diӉn giҧi v€ sӱ dөng lҥi

3/2/2011 153
Các kiӇu dӳ liӋu chính
‡ Các biӃn khoҧng co giãn
‡ Các biӃn nhӏ phân
‡ Các biӃn đӏnh danh, sӕ, tӹ lӋ
‡ Các biӃn hӛn tҥp

3/2/2011 154
H€m tương tӵ v€ khc nhau
‡ Khoҧng cch thưӡng đưӧc sӱ dөng đӇ đo đӝ
tương tӵ hoһc khc nhau giӳa hai đӕi tưӧng dӳ
liӋu
‡ @inkowski distance:
d (i, y) q (| x  x |q  | x  x |q ... | x  x |q )
i1 y1 i2 y2 ip yp
trong đ i = (xi1, xi2, 4, xip) v€ y = (xj1, xj2, 4, xjp) hai
đӕi tưӧng dӳ liӋu p chiӅu, v€ q l€ sӕ nguyên dương
‡ nӃu q = 1, d l€ @anhattan distance
d(i, y) | x  x | | x  x | ...| x  x |
i1 y1 i2 y2 ip yp
3/2/2011 155
H€m tương tӵ v€ khc nhau
‡ n͇u q = 2, d l€ Euclidean distance:
d (i, y) (| x  x |2  | x  x |2 ... | x  x |2 )
i1 y1 i2 y2 ip yp
± Tnh chҩt
‡ di,y) _ 0
‡ di,i) = 0
‡ di,y) = dy,i)
‡ di,y)  di,k) + dk,y)

3/2/2011 156
Cc biӃn nhӏ phân
‡ Cho bҧng dӳ liӋu nhӏ phân ngүu nhiên
œ 

1 0 su
1 a b a b
œ 
ð 0 c h ch
su ac bh p

‡ NӃu biӃn nhӏ phân cân đӕi h (i, y ) bc


abch
‡ Không cân đӕi d (i, y ) bžc
ažbžc

3/2/2011 157
Đӝ khc nhau giӳa cc biên nhӏ
phân
‡ V dө
Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4
Jack M Y N P N N N
Mary F Y N P N P N
Jim M Y P N N N N

± gender l€ thuӝc tnh cân đӕi


± cc thuӝc tnh còn lҥi l€ không cân đӕi
± Giҧ sӱ gi trӏ Y v€ P = 1, N = 0
 V
   î   
   V
V  V
   ðî  
V  V  V
3/2/2011
V   158
 ðî  î   
V  V  
Cc đӝ đo cơ bҧn
‡ Cөm: Mӝt CSDL D = {t1, t2, .., tn}, đӏnh nghĩa đӝ đo
khoҧng cch dis(ti, tj) giӳa hai đӕi tưӧng bҩ kǤ ti v€ tj,
v€ mӝt sӕ nguyên k, b€i ton phân cөm l€ đӏnh nghĩa
mӝt nh xҥ f: D ¢ {1, 4, k} mӛi ti đưӧc phân v€o mӝt
cөm Kf, 1 ” f ” k, như vұy %tfp,tfq S Kf v€ ts j Kf,
dis(tfp,tfq) ” dis(tfp,ts)
‡ Trӑng tâm, bn knh, đưӡng knh
‡ cc phương php tnh khoҧng cch giӳa cc nhm
± Liên kӃt đơn, đҫy đӫ, trung b nh, trӑng tâm
3/2/2011 159
Trӑng tâm, bn knh v€ đưӡng knh
cӫa Cөm
‹ iá ( t ip )
‡ Trӑng tâm: điӇm giӳa cӫa cөm Cm á
1

‡ Bn knh:  á (t  c ) 2
 i 1 ip
á

‡ đưӡng knh:  á  á (t  t ) 2
i 1 i 1 ip iq
m
á ( á  1)

3/2/2011 160
Tnh khoҧng cch giӳa cc nhm
‡ Liên kӃt đơn: Khoҧng cch nhӓ nhҩt giӳa mӝt phҫn tӱ trong
nhm v€ mӝt phҫn tӱ trong nhm khc, VD dis(Ki, Kj) =
min(tip, tjq)

‡ Liên kӃt đҫy đӫ: Khoҧng cch lӟn nhҩt giӳa mӝt phҫn tӱ
trong nhm v€ mӝt phҫn tӱ trong nhm khc, VD dis(Ki, Kj) =
max(tip, tjq)

‡ Trung b nh: Khoҧng cch trung b nh nhӓ nhҩt giӳa mӝt phҫn
tӱ trong nhm v€ mӝt phҫn tӱ trong nhm khc, VD dis(Ki, Kj)
= avg(tip, tjq)

‡ Trӑng tâm: Khoҧng cch trӑng tâm giӳa 2 nhm, VD dis(Ki,


3/2/2011 161
Kj) = dis(Ci, Cj)
Mӝt sӕ tiӃp cұn chnh trong
phân cөm
‡ Cc thuұt ton phân hoҥch: xây dӵng cc phân hoҥch
khc nhau v€ đnh gi theo cc điӅu kiӋn n€o đ
‡ Cc thuұt ton phân cҩp: Tҥo mӝt phân cҩp trong tұp
dӳ liӋu (hoһc cc đӕi tưӧng ) sӱ dөng mӝt sӕ tiêu chuҭn
n€o đ
‡ Dӵa v€o mô h nh: mӝt mô h nh l€ mӝt giҧ thuyӃt cho
mӛi nhm v€ t m cc đӕi tưӧng ph hӧp vӟi n

3/2/2011 162
Thuұt ton m-@eans
‡ v€o k, k-means gӗm 4 bưӟc:
± Phân hoҥch cc đӕi tưӧng th€nh k tұp con không
rӛng
± Tnh cc điӇm trӑng tâm cӫa cӫa mӛi cөm hiӋn tҥi
± gn cc đӕi tưӧng v€o cөm vӟi điӇm trӑng tâm gҫn
nhҩt
± Quay lҥi bưӟc 2, Dӯng khi khӗn còn php gn n€o
nӳa.

3/2/2011 163
Thuұt ton m-@eans
‡ V dө
? ?
?
 

 

 

 

 

 


   *  


 
   

()  ?
%  ?
?
?         ? 
?         ?   ?         ?


        
? ?

   

 


(#   

 
()   

%     *  


  


% 
?
?         ?
  ?
?         ?

3/2/2011 164
Đnh gi Thuұt ton m-@eans

‡ Đӝ phӭc tҥp: O(tkn), trong đ n l€ sӕ cc đӕi


tưӧng, k l€ sӕ cөm, v€ t l€ sӕ lҫn lһp. Thông
thưӡng, k, t << n.
‡ Phân tch
± Cҫn cho biӃt trưӟc sӕ cөm k
± Không thӇ xӱ lý dӳ liӋu ӗn.

3/2/2011 165
hu̵t toþn m-Medoid

3/2/2011 166

You might also like