Professional Documents
Culture Documents
1
quả Target. Kết quả này sẽ dùng dự ñoán giá trị Target khi nhập vào thuộc tính quan sát cho
các mẫu mới ví dụ:
# Outlook Temperature Hudmidity Wind Target
15 Sunny Mild Normal Strong ?
16 Rain Cool High Strong ?
Việc dự ñoán cho mẫu 15 có thể tương ñối dễ dàng, vì mẫu này có các giá trị quan sát
tương tự mẫu số 11 nên giá trị Target cũng tương tự là Yes (trường hợp học máy ñơn giản –
ghi nhớ). Tuy nhiên việc dự ñoán cho mẫu 16 sẽ khó khăn hơn vì mẫu này không giống bất
kỳ một trong những mẫu ñã biết. ðây là trường hợp tổng quát của học máy – gặp những
trường hợp chưa từng xuất hiện. Các phương pháp học máy ñưa ra nhằm giải quyết bài toán
trong trường hợp tổng quát.
Outlook
Rain Sunny
Overcast
Wind Yes Humidity
Yes No Yes No
Với cây quyết ñịnh, ta có thể dự ñoán giá trị kết quả cho những mẫu mới bằng cách duyệt
cây quyết ñịnh, bắt ñầu từ nút gốc. Với thuộc tính ghi trên nút gốc, ta kiểm tra giá trị tương
ứng trong mẫu dữ liệu và ñi theo nhánh tương ứng. Quá trình dự ñoán kết thúc ở nút lá hoặc
lặp lại bước tương tự tại các nút nhánh trên ñường ñi ñến nút lá. Ví dụ với mẫu số 16, giá trị
Target ñược tính theo các bước như sau:
- Kiểm tra Outlook, thấy Outlook = Rain
- Kiểm tra _______, thấy ______________. Vậy Target = ____________.
Một cây quyết ñịnh tốt cần thoả các tính chất:
ðầy ñủ: cây quyết ñịnh cần khớp với mọi trường hợp trong tập huấn luyện.
ðơn giản (nguyên tắc dao cạo Occam): cây càng ñơn giản thì càng tổng quát (không
quá khớp với dữ liệu huấn luyện).
2
2. Với bảng Yes: các giá trị sau không xuất hiện trong bảng No:
• Tổ hợp 1 thuộc tính:
o __________________, các mẫu: __________________
⇒ Luật L1: Nếu ___________________ thì Target = Yes (xoá các mẫu___________)
• Tổ hợp 2 thuộc tính:
⇒ Luật L2: Nếu ________________ thì Target = Yes (xoá các mẫu________)
còn lại
o _______________, mẫu: ________
o _______________, mẫu: ________
o _______________, mẫu: ________
o _______________, mẫu: ________
⇒ Luật L3: Nếu ________________ thì Target = Yes (xoá các mẫu________)
Với bảng No:
• Tổ hợp 1 thuộc tính: không có
• Tổ hợp 2 thuộc tính:
o O = S ∧ T= H, mẫu: 1, 2
o ______________, mẫu: ___________
o ______________, mẫu: ___________
o ______________, mẫu: ___________
⇒ Luật L4: Nếu ________________ thì Target = Yes (xoá các mẫu________)
còn lại
8
Outlook
Rain Sunny
Overcast
4 5 6 10 14
HRain = ____________________________________________________________
HOvercast = ____________________________________________________________
HSunny = ____________________________________________________________
AE (Outlook) = _________________________________________________________
Temperature
HMild = ____________________________________________________________
HCool = ____________________________________________________________
HHot = ____________________________________________________________
AE (Temperature) = ______________________________________________________
Humidity
H = ____________________________________________________________
H = ____________________________________________________________
AE (Humidity) = ________________________________________________________
Wind
H = ____________________________________________________________
H = ____________________________________________________________
AE (Wind) =____________________________________________________________
So sánh ta thấy thuộc tính ______________ có entropy trung bình thấp nhất nên chọn
thuộc tính này làm nút gốc.
4
• Lặp lần 2: xét nhánh ____________________
Thuộc tính _____________ có entropy trung bình thấp nhất nên chọn làm nút nhánh.
5
Thuộc tính _____________ có entropy trung bình thấp nhất nên chọn làm nút nhánh.
• Sau khi xây dựng cây, ta có thể rút ra các luật tương ứng bằng cách duyệt các ñường
ñi trên cây từ nút gốc ñến nút lá, mỗi ñường ñi ứng với một luật:
o L1:
o L2:
o L3:
o L4:
o L5:
Lưu ý: Một phiên bản khác của thuật toán ID3 sử dụng Informatic Gain thay cho
entropy ñể chọn thuộc tính quyết ñịnh. Công thức tính Informatic Gain như sau:
Gain(A) = Entropy(S) – Entropy(A)
Trong ñó: S là tập mẫu và A là một thuộc tính. Entropy(S): ñộ hỗn loạn của tập S.
Entropy(A): ñộ hỗn loạn trung bình của thuộc tính A (cách tính như trên)
Nguyên tắc thực hiện: tương tự trên ngoại trừ _______________________________
__________________________________________________________________________
7
2. Với bảng Yes: các giá trị sau không xuất hiện trong bảng No:
• Tổ hợp 1 thuộc tính:
o __________________, các mẫu: __________________
⇒ Luật L1: Nếu ___________________ thì Target = Yes (xoá các mẫu___________)
• Tổ hợp 2 thuộc tính:
⇒ Luật L2: Nếu ________________ thì Target = Yes (xoá các mẫu________)
còn lại
o _______________, mẫu: ________
o _______________, mẫu: ________
o _______________, mẫu: ________
o _______________, mẫu: ________
⇒ Luật L3: Nếu ________________ thì Target = Yes (xoá các mẫu________)
Với bảng No:
• Tổ hợp 1 thuộc tính: không có
• Tổ hợp 2 thuộc tính:
o O = S ∧ T= H, mẫu: 1, 2
o ______________, mẫu: ___________
o ______________, mẫu: ___________
o ______________, mẫu: ___________
⇒ Luật L4: Nếu ________________ thì Target = Yes (xoá các mẫu________)
còn lại
8
o ______________, mẫu: ___________
⇒ Luật L5: Nếu ________________ thì Target = Yes (xoá các mẫu________)
Giá trị P(x) là như nhau ñối với mọi phân lớp nên ta chỉ cần so sánh tử số của phân số trên.
Một lần nữa, giá trị P(x|y=yk) (gọi là phân bố của dữ liệu trong phân lớp) cũng khó tính toán.
Giả ñịnh ñộc lập có ñiều kiện giữa các thuộc tính (Naïve) cho phép ta tính phân bố xác suất
của mẫu dữ liệu thông qua phân bố xác suất của từng giá trị thuộc tính thành phần:
9
2. Sử dụng
Với mỗi mẫu mới x, tính khả năng x rơi vào các phân lớp yk
Các giá trị P và R sau khi sửa lỗi ñược sử dụng như bình thường.
Áp dụng thuật toán Naïve Bayes vào ví dụ tennis, ta thực hiện các bước sau:
# Outlook Temperature Hudmidity Wind Target
1 Sunny Hot High Weak No
2 Sunny Hot High Strong No
3 Overcast Hot High Weak Yes
4 Rain Mild High Weak Yes
5 Rain Cool Normal Weak Yes
6 Rain Cool Normal Strong No
7 Overcast Cool Normal Strong Yes
8 Sunny Mild High Weak No
9 Sunny Cool Normal Weak Yes
10 Rain Mild Normal Weak Yes
11 Sunny Mild Normal Strong Yes
12 Overcast Mild High Strong Yes
13 Overcast Hot Normal Weak Yes
14 Rain Mild High Strong No
• Huấn luyện:
P(Yes) = 9/14 sửa lỗi: P(Yes) = 10/16
P(No) = _____ sửa lỗi: P(No) = _____
ROverlook(Sunny, Yes) = 2/9, (sửa lỗi) = 2 + 1/9 + 3 = 3/12
ROverlook(Overcast, Yes) = ___, (sửa lỗi) = ____________ =____
10
ROverlook(Rain, Yes) = ____________=_____ (sửa lỗi)
ROverlook(Sunny, No) = ____________=_____ (sửa lỗi)
ROverlook(Overcast, No) = ____________=_____ (sửa lỗi)
ROverlook(Rain, No) = ____________=_____ (sửa lỗi)
No No No
S(Yes) = ________________________________________________________________
S(No) = ________________________________________________________________
11