Professional Documents
Culture Documents
(2.1)
Entropy(S)=
(- P log
i
( Pi ))
(2.2)
i=1
1.2.) Information Gain (vit tt l Gain): Gain l i lng dng o tnh hiu qu ca
mt thuc tnh c la chn cho vic phn lp. i lng ny c tnh thng qua hai
gi tr Information v Entropy.
-
(2.3)
i=1
vvalue(A)
Sv
Entropy(Sv ) (2.4)
S
Trong :
S l tp hp ban u vi thuc tnh A. Cc gi tr ca v tng ng l cc gi
tr ca thuc tnh A.
Sv bng tp hp con ca tp S m c thuc tnh A mang gi tr v.
|Sv| l s phn t ca tp Sv.
|S| l s phn t ca tp S.
Trong qu trnh xy dng cy quyt nh theo thut ton ID3 ti mi bc
trin khai cy, thuc tnh c chn trin khai l thuc tnh c gi tr Gain ln
nht.
Hm xy dng cy quyt nh trong thut ton ID3 [2]
Function induce_tree(tp_v_d, tp_thuc_tnh)
begin
if mi v d trong tp_v_d u nm trong cng mt lp then
return mt nt l c gn nhn bi lp
else if tp_thuc_tnh l rng then
return nt l c gn nhn bi tuyn ca tt c cc lp trong
tp_v_d
else begin
chn mt thuc tnh P, ly n lm gc cho cy hin ti;
xa P ra khi tp_thuc_tnh;
vi mi gi tr V ca P
begin
to mt nhnh ca cy gn nhn V;
t vo phn_vng cc v d trong tp_v_d c gi tr V
V
ti thuc tnh P;
Gi induce_tree(phn_vng , tp_thuc_tnh), gn kt qu
V
vo nhnh V
end
end
end
V d minh ha
Quang
cnh
Nhit
Gi
Chi Tennis
Dl
Nng
Nng
Cao
Nh
Khng
D2
Nng
Nng
Cao
Mnh
Khng
D3
m u
Nng
Cao
Nh
D4
Ma
m p
Cao
Nh
D5
Ma
Mt
Trung bnh
Nh
D6
Ma
Mt
Trung bnh
Mnh
Khng
D7
m u
Mt
Trung bnh
Mnh
D8
Nng
m p
Cao
Nh
Khng
D9
Nng
Mt
Trung bnh
Nh
Dl0
Ma
m p
Trung bnh
Nh
Dl1
Nng
m p
Trung bnh
Mnh
Dl2
m u
m p
Cao
Mnh
Dl3
m u
Nng
Trung bnh
Nh
Dl4
Ma
m p
Cao
Mnh
Khng
| Sv |
Entropy( S v )
v{nang ,mu ,mua} | S |
| Sv |
Entropy ( S v )
|
S
|
v{ Nong , Amap, Mat}
= (2/4)log2(2/4) (2/4)log2(2/4)
= 0.5 + 0.5 = 1
Entropy(Sm p) = (4/6)log2(4/6) (2/6)log2(2/6)
= 0.3896 + 0.5282 = 0.9178
Entropy(SMt) = (3/4)log2(3/4) (1/4)log2(1/4)
= 0.3112781 + 0.5 = 0.81128
Suy ra:
| Sv |
Entropy ( S v )
v{Cao ,Trungbinh } | S |
| Sv |
Entropy ( S v )
v{ Nhe , Manh} | S |
Trong :
Entropy(S) = 0.940
Entropy(SNh) = (6/8)log2(6/8) (2/8)log2(2/8)
= 0.3112 + 0.5 = 0.8112
Entropy(SMnh) = (3/6)log2(3/6) (3/6)log2(3/6)
= 0.5 + 0.5 = 1
Suy ra:
Gain(S, Gi) = 0.940 (8/14)*0.811 (6/14)*1 = 0.048
Ta thu c kt qu:
Gain(S, Quang cnh) = 0.246
Gain(S, Nhit ) = 0.029
Gain(S, m) = 0.151
Gain(S, Gi) = 0.048
Ta thy gi tr Gain(S, Quang cnh) ln nht nn Quang cnh c chn lm
nt gc.
Quang cnh
Nng
m u
Ma
2+, 3-
2+, 3-
2+, 3-
[2+,3-]
[4+,0-]
tt1 ?
Yes
[3+,2-]
tt2 ?
Quang cnh
Nng
m u
Ma
2+, 3-
2+, 3-
2+, 3-
[2+,3-]
[4+,0-]
Yes
Cao
[3+,2-]
Gi
Nh
TB
{D9, D11}
2+, 3[2+,0-]
No
Yes
Mnh
{D6, D14}
2+, 3[0+,2-]
No
Vi vic tnh ton gi tr Gain la chn thuc tnh ti u cho vic trin
khai cy, thut ton ID3 c xem l mt ci tin ca thut ton CLS. Tuy nhin
thut ton ID3 khng c kh nng x l i vi nhng d liu c cha thuc tnh s thuc tnh lin tc (numeric attribute) v kh khn trong vic x l cc d liu thiu
(missing data)v d liu nhiu (noisy data). Vn ny s c gii quyt trong
thut ton C4.5 sau y.