You are on page 1of 43

Seminar ngày 5/10/09

MÔ HÌNH HỒI QUI TUYẾN TÍNH

VÕ ĐÌNH BẢY
Hồi qui tuyến tính
Hồi qui tuyến tính

Mục tiêu của hồi qui là tiên đoán giá trị của
một hay nhiều biến (liên tục) mục tiêu t khi
cho trước giá trị của vector D-chiều x.
x
Đơn giản nhất là sử dụng công thức dạng
y = ax + b.
b
Công thức hồi qui đơn giản (1)
Công thức hồi qui đơn giản (1)

Công thức: y = ax + b. b
Khi ấy, với X = {x1, x2, …xN} và T = {t1, t2,
…, tN}.
} Ta có thể tìm công thức hồi qui như
sau: N N

Xét hà lỗi SE = ∑
Xé hàm i =1
(ti − yi ) = ∑ [ti − (axi + b)]
i =1
Cực tiểu hàm lỗi để nhận được các hệ số a, b.
Công thức hồi qui đơn giản (2)
Công thức hồi qui đơn giản (2)

Cực tiểu hàm lỗi để nhận được các hệ số a,


a b.
b
Ta có: ∂SE N
= −2∑ [ti − (axi + b)]xi
d
da i =1

∂SE N
= −2∑ [ti − (axi + b)]
db i =1
Công thức hồi qui đơn giản (3)
Công thức hồi qui đơn giản (3)

Giải hệ trên với biến là a,


a b:
⎧ N

⎪ ∑ ( xi − mean X )(ti − meanT )


⎧N ⎪ =
⎪⎪∑ [ti − (axi + b)]xi = 0
i =1
a
⎪⎪
N

⎨N
i =1
⇒⎨ ∑ ( x i − mean X ) 2

⎪∑ [ti − (axi + b)] = 0 ⎪ N


i =1
N
⎪⎩ i =1 ⎪ ∑ ti ∑ xi
⎪b = i =1 − a i =1 = mean − a * mean
⎪⎩ N N
T X

Trong đó meanX, meanT là giá trị trung bình


của X và T.
T
Công thức hồi qui đơn giản (4)
Công thức hồi qui đơn giản (4)
Ví dụ:
⎧ N

X T ⎪ ∑ ( xi − mean X )(ti − meanT )


0 0.3 ⎪a = i =1 = −0.295
⎪⎪
N

0.2 0.8 ⇒⎨ ∑
i =1
( x i − mean X ) 2

05
0.5 1 ⎪ N N

0.6 0.9
⎪ ∑ ti ∑ xi
⎪b = i =1 − a i =1 = mean − a * mean = 0.738
1 0 01
0.01 ⎪⎩ N N
T X

Hayy phương
p g trình là: y = -0.295x+0.738!
Công thức hồi qui đơn giản (4)
Công thức hồi qui đơn giản (4)

X T Hàm dự đoán: y = -0.295x+0.738


0 0.3 X T
T’ ⎧a = −0.295
0.2 0.8 0.1 0.71 ⇐⎨
⎩b = 0.738
0.5 1 0.8 0.5
0.6 0.9
1 0.01
Dạng đơn giản – Đa thức
Hồi qui tuyến tính cơ sở (1)
Hồi qui tuyến tính cơ

Một cách khác là sử dụng đường cong đa thức:

Tùy theo giá trị M, chúng ta có hàm xấp xỉ với


các ggiá trịị (x
( i, ti) được
ợ cho.
Hàm hồi qui tuyến tính cơ sở (2)
Hàm hồi qui tuyến tính cơ

Các điểm
Cá điể dữ
liệu (xi, ti)

Hàm cần dự
đoán ⇒ Cần
xác định w0,
…, wM.
Hàm lỗi (Sum
(Sum‐of‐Squares
of Squares Error Function)
Error Function)

t thực tế

Giá trị ước lượng

Lỗi: y(
y(x,w)
, )-t
Hàm lỗi (2)
Hàm lỗi (2)

Tìm w sao cho E(w) đạt min


⇒ Giải bài toán cực trị hàm nhiều biến
Hàm xấp xỉ với M 
Hàm xấp xỉ với M = 0
0
Hàm xấp xỉ với M 
Hàm xấp xỉ với M = 1
1
Hàm xấp xỉ với M 
Hàm xấp xỉ với M = 3
3
Hàm xấp xỉ với M 
Hàm xấp xỉ với M = 9
9
Over fitting
Over‐fitting

Root‐Mean‐Square (RMS) Error:
tương ứng với M
Các hệ số tương ứng với M   
Các hệ
Kích thước dữ liệu: 
Kích thước dữ liệu:
Hàm xấp xỉ với M = 9
Kích thước dữ liệu: 
Kích thước dữ liệu:
Hàm xấp xỉ với M = 9
Mở rộng công thức hàm lỗi
rộng công thức hàm lỗi

Thêm hàm phạt (theo λ và w)

Ngoài w, cần chọn λ phù hợp để lỗi đạt được là min.


Hệ số λ: 
λ:
Hệ số λ: 
λ:
Lỗi với hệ số λ:         với 
Lỗi với hệ λ: với
tương ứng với λ
Các hệ số tương ứng với λ
Các hệ
Mở rộng hàm
Hàm hồi qui tuyến tính cơ sở (1)
Hàm hồi qui tuyến tính cơ

Công thức tổng quát:

Trong đó φ j ( x) là các hàm cơ sở (basis functions).


w = (w0, w1, …, wM-1)T và φ = (φ0, φ1, …, φM-1)T.
Hàm hồi qui tuyến tính cơ sở (2)
Hàm hồi qui tuyến tính cơ
Hàm cơ sở dạng
ạ g đa thức:

≡ Hàm cơ bản dạng đa thức


Hàm hồi qui tuyến tính cơ sở (3)
Hàm hồi qui tuyến tính cơ
Hàm cơ sở dạng
ạ g Gaussian:

Trong đó μj được tính theo


công thức:

Hoặc:
với
Hàm hồi qui tuyến tính cơ sở (4)
Hàm hồi qui tuyến tính cơ
Hàm Sigmoid
g cơ sở:

T
Trong đó
đó:
Cực đại likelihood và bình phương tối thiểu (1)

Giả sử đã có hàm nhiễu Gaussian như sau:


trong đó

Hay có thể viết cách khác:

Cho các quan sát và hàm đích


, hàm likelihood:
Cực đại likelihood và bình phương tối thiểu(2)

Lấy ln 2 vế ta có:

Trong đó

là hàm tổng bình phương lỗi (sum-of-quares error).


Cực đại likelihood và bình phương tối thiểu(3)

Gradient của log có dạng:

= 0

Giải hệ = 0 với biến w ta được:


Moore‐Penrose 
pseudo‐inverse,       .
p ,

Trong đó:
Cực đại likelihood và bình phương tối thiểu (4)

Giả sử y(x,w) = ta có:

Cho ED(w) = 0 ta được:

Với:

Cực đại likelihood và bình phương tối thiểu(5)

Từ đó ta đạt được hàm cực đại láng giềng:


Bản chất hình học của bình phương tối thiểu

Xét côngg thức:

Trong đó: S là mặt phẳng được


xây
â dựng
dự từ
(M chiều)
T là không gian N chiều.
chiều
wML là khoảng cách nhỏ nhất từ
t với hình chiếu của nó trên S
(chính là y).
Sequential Learning (1)
Sequential Learning (1)

Xử lí theo lô như công thức


đòi hỏi phải đưa toàn bộ dữ liệu vào để xử lí
cùng lúc ⇒ chi phí xử lí lớn (hoặc không đủ bộ
nhớ để xử lí). Điều này có thể giải quyết được
bằng cách sử dụng các thuật toán tăng cường
(sequential hay online)!
Sequential Learning (2)
Sequential Learning (2)

Có thể sử dụng công thức:

Trong đó τ là bước lặp thứ τ. τ +1 biểu thị


bước lặp thứ τ +1.
Cách làm nàyy đượcợ gọ
gọi là least-mean-squares.
q
Giá trị η cần được chọn sao cho bảo đảm tính
hội tụ của thuật toán!
Regularized Least Squares (1)
Regularized Least Squares (1)
Xét hàm lỗi (được trình bày trrong chương 1):

Data term + Regularization term
g

Tổng bình phương hàm lỗi như sau:

Cực tiểu hóa ta được:


Regularized Least Squares (2)
Regularized Least Squares (2)
Tổng quát hơn, ta có công thức:

Lasso Quadratic
Regularized Least Squares (3)
Regularized Least Squares (3)

Với q = 2,
2 công thức đã cho trở thành công thức
thường dùng (có tên là Quadratic)

Với q = 1,
1 công thức được gọi là lasso.lasso Trong trường
hợp λ đủ lớn, sẽ có một số wj tiến về 0. Vì vậy, chúng
khôngg đóngg vai trò ggì trongg côngg thức!
Đa đầu ra (1)
Đa đầu ra (1)
Các phần trước xét các trường hợp biến đích t là biến
đơn (chỉ chứa 1 thuộc tính). Trong trường hợp T là
một ma trận có kích thước MxK, ta có công thức:

Cho quan sát và đích là


Ta có hàm log likelihood như sau:
Đa đầu ra (2)
Đa đầu ra (2)
Cực đại hàm trên theo biến W, ta có
(giống công thức của 1 target)
Xét 1 target đơn tk, ta thấy:

Với , kết quả trên hoàn toàn giống


với trường hợp 1 output.

You might also like