Professional Documents
Culture Documents
DATA MINING
3/2/2011 1
CHƯƠNG 1 - TӘNG QUAN Vӄ KHÁI
PHÁ DӲ LIӊU
3/2/2011 2
1.1. Khai phá dӳ liӋu
3/2/2011 4
1.1.1.Mөc tiêu (tiӃp)
3/2/2011 5
1.1. Khai phá dӳ liӋu
3/2/2011 7
Mүu: Ví dө
3/2/2011 8
Mүu: Tính chҩt
Tính có giá trӏ cӫa mүu: Mүu đưӧc phát hiӋn cҫn
có giá trӏ đӕi vӟi DL mӟi đưӧc bә sung (VD
ngưӥng T dӏch sang phҧi)
3/2/2011 9
Mүu: Tính chҩt
3/2/2011 10
Mӝt sӕ đӏnh nghĩa khác
3/2/2011 12
1.1.3. Các bưӟc chính trong KPDL
KPDL: áp dөng nhӳng kӻ thuұt khai phá đӇ trích
chӑn nhӳng mүu, nhӳng mӕi liên hӋ đһc biӋt trong
dӳ liӋu.
BiӇu diӉn và đánh giá tri thӭc (knowledge
representation & evaluation): Nhӳng mүu thông tin
và mӕi liên hӋ trong dӳ liӋu đã đưӧc khai phá ӣ
bưӟc trên đưӧc chuyӇn dҥng và biӇu diӉn ӣ mӝt
dҥng gҫn gũi vӟi NSD như: Đӗ thӏ, luұt, bҧng,...
3/2/2011 13
1.1. 3 Khai phá dӳ liӋu ± Các bưӟc chính
3/2/2011 14
1.2. Hưӟng tiӃp cұn và kӻ thuұt áp dөng
3/2/2011 16
1.2. Hưӟng tiӃp cұn và kӻ thuұt áp dөng
3/2/2011 18
1.3. Ӭng dөng cӫa KPDL
3/2/2011 19
1.4. Phân loҥi các hӋ thӕng KPDL
3/2/2011 20
1.4. Phân loҥi các hӋ thӕng KPDL
3/2/2011 21
Chương 2 - Luұt kӃt hӧp
3/2/2011 23
2.2 Bài toán khai phá luұt kӃt hӧp
Cho i = {i1, i2,...in} là tұp mөc bao gӗm n
mөc (item ± dgl thuӝc tính)
T = {t1, t2, ... tm} là tұp gӗm m giao dӏch.
Mӛi giao dӏch đưӧc đӏnh danh bӣi TID
(transaction iDentification)
Cho q là mӝt quan hӋ nhӏ phân trên I và T.
NӃu mөc i xuҩt hiӋn trong giao dӏch t thì ta
viӃt (i,t) q
3/2/2011 24
2.2 Bài toán khai phá luұt kӃt hӧp
Ví dө 1 vӅ CSDL dҥng giao dӏch I =
{A,C,D, T, W}, T = {1,2,3,4,5,6}vӟi thông
tin vӅ giao dӏch trong bҧng sau:
3/2/2011 25
2.2 Bài toán khai phá luұt kӃt hӧp
Ký hiӋu X : đưӧc gӑi là tұp mөc, đӝ hӛ
trӧ cӫa mӝt tұp mөc ký hiӋu là s(X) ± là %
sӕ giao dӏch trong CSDL chӭa X.
Mӝt tұp mөc đưӧc gӑi là phә biӃn nӃu đӝ hӛ
trӧ > = minsup (ngưӥng) đưӧc xác đӏnh bӣi
NSD
3/2/2011 26
2.2 Bài toán khai phá luұt kӃt hӧp
Bҧng sau liӋt kê tҩt cҧ các tұp mөc phә biӃn
trong CSDL VD1 vӟi minsup = 50%
3/2/2011 27
2.2 Bài toán khai phá luұt kӃt hӧp
Luұt kӃt hӧp có dҥng Trong đó X, Y
là các tұp mөc thoҧ mãn điӅu kiӋn
3/2/2011 28
2.2 Bài toán khai phá luұt kӃt hӧp
Cho mӝt CSDL đӝ hӛ trӧ tӕi thiӇu minsup, đӝ
tin cұy tӕi thiӇu minconf.
Hy tìm kiӃm tҩt cҧ các luұt kӃt hӧp có dҥng
# ¢Y thoҧ mn đӝ hӛ trӧ s(#M )
_ minsup và đӝ tin cұy cӫa luұt c(# ¢ Y) =
s(#M ) / s(#) _ minconf .
3/2/2011 29
Thuұt toán ± 2 pha
3/2/2011 30
3/2/2011 31
2.3 Mӝt sӕ hưӟng tiӃp cұn chính
trong khai phá luұt kӃt hӧp
Luұt kӃt hӧp nhӏ phân là hưӟng NC đҫu tiên cӫa
luұt kӃt hӧp. Trong dҥng luұt KH này các thuӝc
tính chӍ đưӧc quan tâm là có hay không xuҩt hiӋn
trong giao dӏch cӫa CSDL chӭ không quan tâm vӅ
mӭc đӝ xuҩt hiӋn (eg. Mua 20 chai bia và 1 chai là
giӕng nhau)
VD ³mua bánh mì = µYes¶ AND mua đưӡng =
µYES¶ => mua sӳa =µYES¶ AND mua bơ =
µYES¶, vӟi đӝ hӛ trơ= 20%, tin cұy = 80%.
3/2/2011 32
2.3 Mӝt sӕ hưӟng tiӃp cұn chính
trong khai phá luұt kӃt hӧp
Luұt kӃt hӧp có thuӝc tính sӕ và thuӝc tính
hҥng mөc. Các thuӝc tính cӫa CSDL thӵc tӃ
có kiӇu rҩt đa dҥng. ĐӇ phát hiӋn luұt kӃt
hӧp vӟi các thuӝc tính này: rӡi rҥc hoá
VD ³Giӟi tính = µnam¶ and tuәi µ¶50..65¶
AND cân nһng µ¶60..80¶ AND lưӧng
đưӡng tron máu >= 120 mg => huyӃt áp =
µcao¶ vӟi đӝ hӛ trӧ 30%, tin cây 60%
3/2/2011 33
2.3 Mӝt sӕ hưӟng tiӃp cұn chính
trong khai phá luұt kӃt hӧp
Luұt kӃt hӧp mӡ. ChuyӇn luұt vӅ mӝt dҥng
tӵ nhiên hơn, gҫn gũi hơn.
VD ³ ho khan = µyes¶ AND sӕt cao AND
đau cơ = µyes¶ AND khó thӣ = µyes¶ => bӏ
nhiӋm SARS = µyes¶. vӟi đӝ hӛ trӧ 4% và
tin cұy 85 %
3/2/2011 34
Chương 3 Khai phá luұt kӃt hӧp mӡ
3.1 Luұt kӃt hӧp có thuӝc tính sӕ
Luұt kӃt hӧp có thuӝc tính sӕ
3/2/2011 35
Luұt kӃt hӧp có thuӝc tính sӕ
3/2/2011 36
Mӝt sӕ luұt kӃt hӧp rút đưӧc tӯ
CSDL
3/2/2011 37
3.2. Các phương pháp rӡi rҥc hoá
3/2/2011 38
Rӡi rҥc
3/2/2011 39
3.2. Các phương pháp rӡi rҥc hoá
3/2/2011 40
Rӡi rҥc
3/2/2011 41
3.2. Các phương pháp rӡi rҥc hoá
Nhұn xét
VĐ vӅ ngӳ nghĩa VD 29 và 30 tuәi chӍ cách
nhau mӝt tuәi lҥi thuӝc vӅ 2 khoҧng khác
nhau.
Khҳc phөc bҵng luұt kӃt hӧp mӡ
3/2/2011 42
3.2 Luұt kӃt hӧp mӡ
Rӡi rҥc hoá thuӝc tính dӵa vào tұp mӡ
± Mӝt phҫn tӯ thuӝc tұp nào đó vӟi mӝt mӭc đӝ
phө thuӝc nҵm trong khoҧng [0,1]. Giá trӏ này
đưӧc xác đӏnh dӵa vào hàm phө thuӝc.
± Ví dө, cho x là thuӝc tính cùng vӟi miӅn xác
đӏnh Dx (tұp vũ trө) hàm thuӝc xác đӏnh mӭc đӝ
phө thuӝc đưӧc xác đӏnh:
mfx(x): DxÚ[0,1]
3/2/2011 43
Ví dө: thuӝc tính tuәi xác đӏnh trong
khoҧng [0,120]. Đưӧc gҳn vӟi 3 tұp mӡ
tuәi trҿ, trung niên, già, đӗ thӏ như sau:
3/2/2011 44
Rӡi rҥc hoá tұp mӡ: Ưu điӇm
Rӡi rҥc hoá bҵng phân khoҧng thuӡng tҥo ra sӕ khoҧng rҩt
lӟn. Khi sӱ dөng tұp mӡ thì sӕ lưӧng tұp mӡ gҳp vӟi thuӝc
tính là không đáng kӇ. Ví dө rӡi rҥc hoá lưӧng Cholesterol
mҩt 4 khoҧng, mӡ hoá mҩt 2 khoҧng: Cholesterol-Thҩp,
Cholesterol-cao
Cho phép biӇu diӉn luұt kӃt hӧp dҥng tӵ nhiên hơn, gҫn gũi
vӟi NSD
Giá trӏ thuӝc tính sau khi rӡi rҥc trong khoҧng [0,1] cho
biӃt mӭc đӝ phө thuӝc ít hay nhiӅu. So vӟi thuӝc tính nhӏ
phân chӍ có 2 giá trӏ
3/2/2011 45
3.4 Luұt kӃt hӧp mӡ
Cho I ={i1, i2, ... in } là tұp n thuӝc tính iu là
thuӝc tính thӭ u trong I. T= {t1, t2,...tm}là
tұp m bҧn ghi. tv là bҧn ghi thӭ v trong T.
tv[iu]: gía trӏ cӫa thuӝc tính iu tҥi bҧn
ghi tv
3/2/2011 46
3.4 Luұt kӃt hӧp mӡ
3/2/2011 49
3.4 Luұt kӃt hӧp mӡ
Luұt kӃt hӧp mӡ có dҥng:
X is A Ú Y is B
Trong đó:
3/2/2011 50
3.4 Luұt kӃt hӧp mӡ
3/2/2011 51
3.4 Luұt kӃt hӧp mӡ
3/2/2011 52
3.4 Luұt kӃt hӧp mӡ
3/2/2011 53
3.4 Luұt kӃt hӧp mӡ
3/2/2011 54
3.4 Luұt kӃt hӧp mӡ
3/2/2011 55
3.4 Luұt kӃt hӧp mӡ
3/2/2011 56
3.4 Luұt kӃt hӧp mӡ
3/2/2011 57
3.4 Luұt kӃt hӧp mӡ
3/2/2011 58
3.4 Luұt kӃt hӧp mӡ
3/2/2011 59
3.5 Thuұt toán khai phá luұt kӃt hӧp mӡ
3/2/2011 60
3.5 Thuұt toán khai phá luұt kӃt hӧp mӡ
3/2/2011 61
3/2/2011 62
3/2/2011 63
3/2/2011 64
3/2/2011 65
Giá trӏ các thuӝc tính tҥi các bҧn
ghi đưӧc mӡ hoá
3/2/2011 66
3/2/2011 67
3/2/2011 68
3/2/2011 69
3/2/2011 70
O
O
3/2/2011 71
O
O
a 4 häc mét h m ¸nh x¹ (c¸c 4 cña
c¸c tªn gäi d· 4iÖu v o mét trong mét sè 4 ®·
biÕt tr-c (H
°
a (p
p 4 b i to¸n
m« t̻ chung trong ®ã nh»m v o viÖc nhËn
biÕt mét tË h·u h¹n c¸c 4o¹i hoÆc c¸c ®o¹n
®Ó m« t̻ d· 4iÖu (T
! " °
3/2/2011 72
O
O
Phân lӟp: Ví dө Phân cөm: Ví dө
á
á
Kh«ng cho
vay
Cho vay
hu nhËp
hu nhËp
3/2/2011 73
O
O
@ a
O
sö dông sù
h©n chia ®a d¹ng cã mét trình b
®¬n gi̻n, t¹o ra c¸c m« hình háng ®o¸n
dÔ d ng 4iªn quan ti hiÓu biÕt cña
ng-êi sö dông°
3/2/2011 74
O
O
3/2/2011 75
mh
T #
T
T
p
3/2/2011 76
§ $
% & "
p °
&
$
' (
) % *
°
+
$ , p *
* "
°
p * p !
"
' ( %°77
3/2/2011
§ $
- ( "* '
". p
" / $ p *°
°
3/2/2011 78
0 1 " 2 "
Mô hình mӝt nơron 3 "
n a
3
b
3
3/2/2011 79
O
3/2/2011 80
O , 7
T( -
O
hard4im ? 8 ?
4 _ ?
8 ?
4 _ ?
p 4
4 ? 8 ?
4 ?
3/2/2011 81
4 9
O , 7
-
T( O
p ? 8 ?
4 _ ?
p 4
'
4 ? :
3/2/2011 82
# $ p
p
+ # $ p
"
p
$ ; <
H < p
p = $
,° (? ? (? ( ?
, p ? $ ( , p
3/2/2011 83
%& "
4 4 " 4 , >
>( 4 94? >( 4 ? % °
' $ (? ? 4 ( ° ? é ° ?
0 4 ?
' $ (? 4 ( ° ? é °
4 ?
' $ ( ? 4 ( ° é ° ?
4 ?
' $ ( 4 ( ° é °
4
3/2/2011 84
V
x+y-1,5=0
3/2/2011 85
up
1
p p
2 ,
n a
b
n2 a2
3 b2
3 nS aS
bS
§"
3/2/2011 §" 4 (I é : 86
4 ?n n 5n@T
: 4 ?b b 5b@T
4 ?a a 5a@T
'
a 4 ( 4 (O T é b
O 4 ? 5 3@T O
)
3/2/2011 87
A
4 ( (I é :
4 ?O O 5 O@T
3/2/2011 88
# $ p
p ) p
+ p
"
p°
p ! p
khҧ năng
, p °
3/2/2011 89
' O = $ (? ? (? (
? ( = p
%& p !
4 4 ? " 4 ? (
4 ?° 4 " 4 ?
H , > >( 4
94? >( 4 ? %
3/2/2011 90
3/2/2011 91
01 11
(2)
00 10
(1)
3/2/2011 92
3
I I I
3/2/2011 93
$ ; %)3
H %)3 $ , "
p
p = $
,
H $ (? ? ( , p ?
$(? ( ? , Cp
3/2/2011 94
V
3/2/2011 95
T ' * %)3 4 Ç
O $ %)3 4 ( <
()T )3 (()T <
$ * %)3 D
! " "
B ' D *
p &p < " D *
p &p )3
3/2/2011 96
T" B '
0 (p &p < ()T
0 (p &p ()T <
T" *
p &p )3
H , ) ' ,
°
3/2/2011 97
T * p &p
%)3
? (
%)3
? (
? (
3/2/2011 98
p
p )
%)3
1
0
0 1
3/2/2011 99
, "
, +
5
5
3
5
I I I
3/2/2011 100
3/2/2011 101
A
4 ? °°°@T
4 ? °°° @T
$ "
)
3/2/2011 102
Cây quyӃt đӏnh
Cây gán nhãn:
± Nút trong xác đӏnh tұp các giá trӏ có thӇ cӫa các thuӝc
tính, mӛi nhánh đi xuӕng tương ӭng vӟi mӝt giá trӏ có
thӇ
± Các nút lá , E F F - p . Cp G /
H F F -
0 I-
0 J I1 I K 2 3
F F C F
2 H K 4 2 F I5 H L F
- p . Cp M .
0 I- °
3/2/2011 103
Ví dө cây quyӃt đӏnh
r #
.
§ B O N
6
O
7
é é
3/2/2011 104
Ví dө cây quyӃt đӏnh
OF L
IL P Q
R H F L M E H
I5 H F 2 °
OF F , E F F -
Q° (r R F F - 7
F °
3/2/2011 105
Ví dө cây quyӃt đӏnh
O.
0 I- , E E S / R 7
H F Q (
8
47 E IL4R IL
P4 Q R4T 9 I
J L F K 3 I0 F Q C
p p L M F L I5 , H
. Q C , M U F p p
L V°
3/2/2011 106
Cây quyӃt đӏnh
.
0 I- " 8 F 2 H F
L H 2 F H F F - p .
Cp G / H F F -
0 I- °
OR , , IW .
0 I- H
T F V "X F F I1
I K 2 3 I0 F 2 F°
3/2/2011 107
Cây quyӃt đӏnh
O.
0 I- ", Y L p p
, M F ", Q L F
H "L 7 F F - M L
4 I. ", Q IT F - I2 F
- p . Cp H I2(é°
V 0 .
0 I- U
IY H / I5 F ", Q °
3/2/2011 108
Xây dӵng cây quyӃt đӏnh ± ID3
O 0 5 Z K 7
3 I, 6 0 7 M
U F .
0 I- R , R°
O. " I[ H . J H V F
"7 I[ . S K 2 3 IR
7 [ F 2 2 F I
3 F F M .°
3/2/2011 109
Xây dӵng cây quyӃt đӏnh ± ID3
9 (Ep T\" <"
:[ H
0 Ep H Vp ] U E
0 T\" H F L R F - I5
IF V 7 .
0 <" H F U F L
:[ Z .
0 I- I5 "4
Vp ]
3/2/2011 110
Xây dӵng cây quyӃt đӏnh ± ID3
TT L 2 3 .
0 H "L Ep IZ I2 Z 2
3 C 4é
0 H "L Ep IZ Z 2 3
C 4
0 <" H J T Z F - 2 3
C H F - L U
F F - M T\" Vp
Ep
3/2/2011 111
Xây dӵng cây quyӃt đӏnh ± ID3
5 T
< ÈH L K F <" R
IL p . Cp 3 U
3È<
'C J F - M <
T 7 F F C 4 C 2 3 C
<49
uU Vp Ep K Vp ] I, L
<4
3/2/2011 112
Xây dӵng cây quyӃt đӏnh ± ID3
0 Ep H J
0 T 7 H F F F 2 F C H F -
U M Vp L I 4 Vp
]°
5 T
0 T 7 H F F F .
9(Ep T\" <"
^<_
3 3
3/2/2011 113
`
:L I Ep (IL J IL M
°
0 O Vp 8 F ] (]
V F - I2 H ] . (] V
F - IL I p M H
Ep(4 p(é p(é p(p(
0 ` I. p(é H 3 F ] p( H
3 F ] .°
3/2/2011 114
`
:F F L H 3 U
H IT I5
(inormation gain
HH I H p p F I- IL
p . "E M L
E 7 Vp ]°
:, H IT I5 a
; IL I Ep (IL J IL M
°
3/2/2011 115
`
' ;
R ] H ] .
W 3 = ] R IL I
0 Ep(?é @4(b=(b=
( b=( b=4?°=?
Ep(4? 0 U F ]
L Cp°
Ep(4 0 3 ] "X
3 ] .°
3/2/2011 116
`
:3 C 1 5p W
F R Cp H 3
5 ] M F Cp H p C 4 R
Ep(4§pp
Hm thông tin đ̹t đưͻc I5
N( <4 Ep( §b Ep(
'(<
'(< H Vp U F F - R , R
M L < H H Vp M Vp
H R F - 4 L < H °
3/2/2011 117
`
N a H Vp F ] U E C
] I2 H ] ° Q Rc H L
L M ] R F -
H T c H 0c R hm thông tin đ̹t
đưͻc H
R 40 Ú ?dé @
R4T Ú ?é @
N( R4Ep(§b Ep( (
(T 04Ep((b= Ep(R4T
4 ?°=? (b=?°(db=°?? 4?°?=
3/2/2011 118
`
CB 1 3
GV SV 2
1- 3- 2+ 2- 2+ 1-
2+ 1+ 1- 1+
Khoa
Cӥ
CN KT TB
N L
2- 2+
1+ 1+ 1-
2+ 2-
3/2/2011
2- 1- 2+ 121
Ví dө - xây dӵng cây quyӃt đӏnh
Tính đӝ đo lӧi ích thông tin vӟi tҩt cҧ các
thuӝc tính
± Gain(D,NSD) = Entropy(D) ± 3/8Entropy(D(nsd)
= CB) ± 3/8Entropy(D(GV)) ± 2/8Entropy(D(SV))
= 0.66.
± Gain(D, tҫng) = 0.06
± Gain(D,khoa) = 0
± Gain(D,cӥ) = 0.06
==Ú Chӑn thuӝc tính NSD
3/2/2011 122
Ví dө - xây dӵng cây quyӃt đӏnh
NSD Khoa
CB CN KT
GV SV
2+ 1-
Tҫng 3- 2+
1 2 3 Tҫng
1- 1+ 1+ TB L
N
1+ 0 1+
1-
3/2/2011 123
Cây quyӃt đӏnh
NSD
CB
GV SV
Khoa - +
CN KT
+ -
3/2/2011 124
1 p Fp 6 0 7 Òhông gian gi̻ thi͗t
I, 6 U 2 .
0 I- 5p C
Vp E U E°
mhông gian gi̻ thi͗t H Vp U F .
0
I- R , R°
9 "7 I[ C . J H 6 0
p p Fp I8 I K I I0 p Q
Tp C F "C IF F
H I
R I5°
1 p Fp H L H Cp 0 5
IR .
0 I-
6 I5 H . IM 3 < H . 3 U
I3 C Vp ] U E°
3/2/2011 125
0 M U .
0 I- H H =
M U F H 7
I0 F
L R f°
'6 J H ; 7 R , ", Y
"X L(H .
0 I- 9 F
6 0 7
IP IM°
3/2/2011 126
! " #! $
:! %
& '
O L Vp E U E R U Z
.
0 I- 5p C Vp ]
V°
HC
Tp H C
Tp M V
F 9 a ; I, S / .
0
I- 5p 3 F .
0 I-
7°
1 p Fp / . "X F a ;
p p F F 2 "X F L R F
- M H R I5 U
3/2/2011 127
!"#! $
:!%
&'
HC
Tp p p Fp /
"X .
0 I- H
O cng ng͇n tͩt hơn các c di
hơn. O có thuͱc tnh có giá trͣ thông
tin có đưͻc cao nh̽t g̿n gͩc hơn thì tͩt
hơn c Òhông có tnh ch̽t đó.
3/2/2011 128
O !(&#!
$:!%
&'
OF C 0 X F
1 5p p
p Fp / "X .
0 I-
0 S
F (> Q H
1 5p . / T
F
C Vp ] H , W
F I5
0 T L R F -
0 %a F L R F - 7 ;°
3/2/2011 129
°)* !
:- >
O 0 H L
0 H I5 / H quá tương
thch C Vp ] U E 0 8 T
L 0 c H I, R J c
Vp ] U E c
J H "L Vp ]°
3/2/2011 130
°)* ! - giҧi
pháp
K p F , . C R IT
I0 I, quá tương thch°
a ; F g V = F X
"C S
F °
S = F " 8
F 6 T "h
F 2 4 F . T F 2 F
H F F - M 2 F F p .
Cp U I3 C 2 IR°
3/2/2011 131
°)* ! - tӍa
nhánh
32 / F J = F ?r (@
0 O. I5 p F , I0 R 5p 7
H "L E Vp ]° J L 2 M . i
I5 I, = F ° OF 2 I5 T "h 0
0
M . S E 3 " I[°
T= F V?r @
0 .
0 I- i I5 p F , I0
5p C H "L E Vp ]°
0 O. i I5 , H T V J V
I5 T H "X L I1 I K 2 3 I0
2 F°
0 a ; E T "h F V "X F IL
F M Vp F V I3 C F E 0p
3/2/2011 132
# 4 các thuͱc tnh có giá trͣ
4iên tͽc
:3 C F L R F - 7 ;
L E IL "H F S "F 1
0 °°°
T6 F 1 T F F L ° OF
L 7 ; i I5 p . H
F ° ' ; L < R F -
R , p . H 1 L F -
ngưng I5 F - M L ".
1 H H h °
3/2/2011 133
# 4 các thuͱc tnh có giá trͣ
4iên tͽc - Thuͅt toán
? J F - 7 ; M L <
7p 0p F ] F F - M <
? J ep % %é F 7p
0p
0 9> %?<@ H %é?<@ R F - I F
0 Ie F I, %?<@é(%é?<@%?<@ H F
F - @
('C %?<@ H F - M L <
3/2/2011 134
# 4 các thuͱc tnh có giá trͣ
4iên tͽc - Thuͅt toán
T R , ; I.
Nhi͟t đͱ =? = d? ( ? ?
Ohơi tenis 6 6 6
T F I- F @ H E IL9 = H
E IL9
F F - M E IL9 = H E
IL9 I5 @ H I, =°
3/2/2011 135
. # 4 trư͵ng hͻ m̽t giá trͣ
ë
NF F F - "- U "X F F -
p W "0 Vp ] U E C
F 2 I5 7 .
0 I- °
NF F F - p W "0 Vp ]
4 2 H R S p . Cp 3
] H R R F - "0
3/2/2011 136
Phân lӟp: K ± láng giӅng gҫn
nhҩt
K-Nearest Neighbor
3/2/2011 138
K-Nearest Neighbor Algorithm
ĐӇ phân lӟp mӝt ví dө E:
± Tính khoҧng cách giӳa E và tҩt cҧ các ví dө trong tұp ví
dө huҩn luyӋn
± Lӵa chӑn k ví dө gҫn nhҩt vӟi E trong tұp ví dө huҩn luyӋn
± Gán E vào lӟp chung nhҩt theo k láng giӅng gҫn nhҩt
i
Ví dө : 3-Nearest Neighbors
Customer Age Income No. credit Response
cards
John 35 35K 3 No
Hannah 63 200K 1 No
Tom 59 170K 1 No
David 37 50K 2 ?
3/2/2011 142
K-Nearest Neighbor Classifier
ví dө
Customer Age Income No. Response Khoҧng cách tӯ David
(K) cards
John 35 35 3 No sqrt [(35-37)2+(35-50)2
+(3-2)2]=VV
Rachel 22 50 2 Yes sqrt [(22-37)2+(50-50)2
+(2-2)2]=V
Hannah 63 200 1 No sqrt [(63-37)2+(200-50)2
+(1-2)2]=V
Tom 59 170 1 No sqrt [(59-37)2+(170-50)2
+(1-2)2]=V
Nellie 25 40 4 Yes sqrt [(25-37)2+(40-50)2
+(4-2)2]=V
David 37 50 2 ]
3/2/2011 143
K-Nearest Neighbor Classifier
Phân tích
j
DӉ cài đһt và sӱ dөng
DӉ giҧi thích, dӵ đoán
Loҥi bӓ dӳ liӋu nhiӉu (noisy data) bӣi trung bình k ngưӡi láng
giӅng gҫn nhҩt.
Có nhiӅu ӭng dөng
Cҫn nhiӅu không gian lưu trӳ.
Tӕn nhiӅu thӡi gian đӇ phân lӟp mӝt ví dө mӟi (cҫn tính toán
và so sánh khoҧng cách cӫa ví dө mӟi vӟi tҩt cҧ các ví dө
khác).
3/2/2011 144
K-Nearest Neighbor Classifier
!
i
! i
i
!
i O
i
3/2/2011 i 145
Strengths and Weaknesses K-Nearest Neighbor Classifier
$
3/2/2011 146
Strengths and Weaknesses K-Nearest Neighbor Classifier
Chuҭn hoá các thuӝc tính
Customer Age Income No. Response
(K) cards
John Yes 35 3 No
Rachel No 50 2 Yes
Hannah No 200 1 No
Tom Yes 170 1 No
Nellie No 40 4 Yes
David Yes 50 2
3/2/2011 148
Chương 4. Phân cөm - Thuұt toán
K _ mean, m-Medoid
3/2/2011 149
Phân cөm
Phân cөm l g ?
KiӇu dӳ liӋu trong phân cөm
Cc thuұt ton phân cөm
± m-Mean
± m-Medoid
3/2/2011 150
Phân cөm l g ?
Cөm: Tұp hӧp cc đӕi tưӧng
± Tương tӵ vӟi cc đӕi tưӧng khc trong cng
mӝt cөm
± Không tương tӵ vӟi cc đӕi tưӧng trong cc
cөm khc
Phân cөm
± T m đӝ tương tӵ giӳa dӳ liӋu theo cc đһc trưng
t m thҩy trong dӳ liӋu v nhm cc đӕi tưӧng
giӕng nhau vo mӝt cөm
Phân cөm
KӃt quҧ phân cөm phө thuӝc vo phương php
tnh đӝ tương tӵ.
Phương php phân cөm còn phө thuӝc vo khҧ
năng pht hiӋn cc mүu ҭn.
3/2/2011 152
Cc yêu cҫu trong phân cөm
3/2/2011 153
Các kiӇu dӳ liӋu chính
Các biӃn khoҧng co giãn
Các biӃn nhӏ phân
Các biӃn đӏnh danh, sӕ, tӹ lӋ
Các biӃn hӛn tҥp
3/2/2011 154
Hm tương tӵ v khc nhau
Khoҧng cch thưӡng đưӧc sӱ dөng đӇ đo đӝ
tương tӵ hoһc khc nhau giӳa hai đӕi tưӧng dӳ
liӋu
@inkowski distance:
d (i, y) q (| x x |q | x x |q ... | x x |q )
i1 y1 i2 y2 ip yp
trong đ i = (xi1, xi2, 4, xip) v y = (xj1, xj2, 4, xjp) hai
đӕi tưӧng dӳ liӋu p chiӅu, v q l sӕ nguyên dương
nӃu q = 1, d l @anhattan distance
d(i, y) | x x | | x x | ...| x x |
i1 y1 i2 y2 ip yp
3/2/2011 155
Hm tương tӵ v khc nhau
n͇u q = 2, d l Euclidean distance:
d (i, y) (| x x |2 | x x |2 ... | x x |2 )
i1 y1 i2 y2 ip yp
± Tnh chҩt
di,y) _ 0
di,i) = 0
di,y) = dy,i)
di,y) di,k) + dk,y)
3/2/2011 156
Cc biӃn nhӏ phân
Cho bҧng dӳ liӋu nhӏ phân ngүu nhiên
1 0 su
1 a b a b
ð 0 c h ch
su ac bh p
3/2/2011 157
Đӝ khc nhau giӳa cc biên nhӏ
phân
V dө
Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4
Jack M Y N P N N N
Mary F Y N P N P N
Jim M Y P N N N N
Bn knh: á (t c ) 2
i 1 ip
á
đưӡng knh: á á (t t ) 2
i 1 i 1 ip iq
m
á ( á 1)
3/2/2011 160
Tnh khoҧng cch giӳa cc nhm
Liên kӃt đơn: Khoҧng cch nhӓ nhҩt giӳa mӝt phҫn tӱ trong
nhm v mӝt phҫn tӱ trong nhm khc, VD dis(Ki, Kj) =
min(tip, tjq)
Liên kӃt đҫy đӫ: Khoҧng cch lӟn nhҩt giӳa mӝt phҫn tӱ
trong nhm v mӝt phҫn tӱ trong nhm khc, VD dis(Ki, Kj) =
max(tip, tjq)
Trung b nh: Khoҧng cch trung b nh nhӓ nhҩt giӳa mӝt phҫn
tӱ trong nhm v mӝt phҫn tӱ trong nhm khc, VD dis(Ki, Kj)
= avg(tip, tjq)
3/2/2011 162
Thuұt ton m-@eans
vo k, k-means gӗm 4 bưӟc:
± Phân hoҥch cc đӕi tưӧng thnh k tұp con không
rӛng
± Tnh cc điӇm trӑng tâm cӫa cӫa mӛi cөm hiӋn tҥi
± gn cc đӕi tưӧng vo cөm vӟi điӇm trӑng tâm gҫn
nhҩt
± Quay lҥi bưӟc 2, Dӯng khi khӗn còn php gn no
nӳa.
3/2/2011 163
Thuұt ton m-@eans
V dө
? ?
?
*
() ?
% ?
?
? ?
? ? ? ?
? ?
(#
()
%
?
? ?
?
? ?
3/2/2011 164
Đnh gi Thuұt ton m-@eans
3/2/2011 165
hu̵t toþn m-Medoid
3/2/2011 166