Professional Documents
Culture Documents
• Tín dụng
• Tiếp thị
• Chẩn đoán y khoa
• Phân tích hiệu quả điều trị
• Phân lớp:
o dự đoán các nhãn phân lớp
o phân lớp dữ liệu dựa trên tập huấn luyện và các giá trị
trong một thuộc tính phân lớp và dùng nó để xác định
lớp cho dữ liệu mới
• Dự báo:
o xây dựng mô hình các hàm giá trị liên tục
o dự đoán những giá trị chưa biết
1. Bước 1:
Xây dựng mô hình từ tập huấn luyện
2. Bước 2:
Sử dụng mô hình - kiểm tra tính đúng
đắn của mô hình và dùng nó để phân
lớp dữ liệu mới
Khai phá dữ liệu 7
Xây dựng mô hình
• Mỗi bộ/mẫu dữ liệu được phân vào
một lớp được xác định trước
• Lớp của một bộ/mẫu dữ liệu được xác
Bước 1
định bởi thuộc tính gán nhãn lớp
• Tập các bộ/mẫu dữ liệu huấn luyện -
tập huấn luyện - được dùng để xây
dựng mô hình
• Mô hình được biểu diễn bởi các luật
phân lớp,
lớp các cây quyết định hoặc
các công thức toán học
Khai phá dữ liệu 8
Sử dụng mô hình
• Phân lớp cho những đối tượng mới hoặc
chưa được phân lớp
• Đánh giá độ chính xác của mô hình
Bước 2
o lớp biết trước của một mẫu/bộ dữ liệu
đem kiểm tra được so sánh với kết quả
thu được từ mô hình
o tỉ lệ chính xác = phần trăm các mẫu/bộ
dữ liệu được phân lớp đúng bởi mô hình
trong số các lần kiểm tra
Bộ phân lớp
(Jeff, Professor, 4)
NAME RANK YEARS TENURED
Tom Assistant Prof 2 no Tenured?
Lisa Associate Prof 7 no
Jack Professor 5 yes Yes
Ann Assistant Prof 7
Khai phá dữ liệu
yes 11
Chuẩn bị dữ liệu
• Độ chính xác
• Tốc độ
• Bền vững
• Co dãn (scalability)
• Có thể biểu diễn được
• Dễ làm
thời tiết
nắng mưa
u ám
đ ộ ẩm P gió
cao v ừa có không
N P N P
p p n n
I ( p, n) = − log 2 − log 2
p+n p+n p+n p+n
Gain ( A) = I ( p, n) − E ( A)
Khai phá dữ liệu 22
Độ lợi thông tin – Ví dụ (1)
Thừa nhận:
• Lớp P: plays_tennis = “yes”
• Lớp N: plays_tennis = “no”
• Thông tin cần thiết để phân
lớp một mẫu được cho là:
I ( p, n) = I (9,5) = 0.940
Ta có 4 5
E (thoitiet ) = I (2,3) + I (4,0) + I (3,2) = 0.694
14 14 14
Do đó Gain (thoitiet ) = I (9,5) − E (thoitiet ) = 0.246
Hai hướng:
• rút gọn trước: ngừng sớm
• rút gọn sau: loại bỏ bớt các nhánh
sau khi xây xong toàn bộ cây
• Bài toán phân lớp có thể hình thức hóa bằng xác suất
a-posteriori:
P(C|X
P( ) = xác suất mẫu
X=<x1,…,xk> thuộc về lớp C
• Ví dụ
P(class
P( =N | outlook=sunny,windy=true,…)
• Ý tưởng: gán cho mẫu X nhãn phân lớp là C sao cho
P(C|X
P( ) là lớn nhất
• Định lý Bayes:
Bayes
P(C|X
P( ) = P(X|C
P( )·P(C
)·P( ) / P(X
P( )
• P(X
P( ) là hằng số cho tất cả các lớp
• P(C
P( ) = tần số liên quan của các mẫu thuộc
lớp C
• C sao cho P(C|X)
P( lớn nhất =
C sap cho P(X|C
P( )·P(C
)·P( ) lớn nhất
• Vấn đề:
đề tính P(X|C
P( ) là không khả thi!
T hời tiết
P (nắn g | p ) = 2 /9 P (nắn g | n ) = 3 /5
P (u á m | p ) = 4 /9 P (u á m | n ) = 0 Độ ẩm
P (m ư a | p) = 3/9 P (m ư a | n) = 2 /5 P (c a o | p ) = 3 /9 P (c ao | n ) = 4/5
P (vừa | p ) = 6 /9 P (vừa | n) = 1 /5
N h ệi t độ
P (nó ng | p) = 2/9 P (nó n g | n) = 2 /5
G ió
P (ấm áp | p) = 4 /9 P (ấm á p | n ) = 2 /5
P (c ó | p) = 3/9 P (c ó | n ) = 3/5
P (m á t | p) = 3 /9 P (m á t | n ) = 1/5
P (kh ôn g | p) = 6 /9P (fkhô ng | n) = 2 /5
Các
• Mạng Neural
phương
• Phân lớp k láng giềng gần nhất
pháp
• Suy luận dựa vào trường hợp
khác
• Thuật toán di truyền
• Hướng tập thô
• Các hướng tập mờ