PHÂN TÍCH HỒI QUI TUYẾN TÍNH ĐA BIẾN

Mô hình hồi qui tuyến tính đơn biến dùng để xem xét mối quan hệ tuyến tính giữa
biến phụ thuộc y (biến kết cục) và biến độc lập x (biến dự đoán). Phương trình tuyến
tính (đường thẳng) đơn biến có dạng:

y=  + xi+i
Trong đó  là điểm cắt trên trục tung, β là độ dốc (trong thống kê gọi là hệ số hồi
qui) và  là phần dư. Ví dụ tìm sự liện hệ giữa lượng cholesterol máu ( x) và bề dày
lớp nội trung mạc (NTM) động mạch cảnh (y).
Tuy nhiên trong y sinh học, thường có rất nhiều yếu tố khác nhau dẫn đến một hiện
tượng. Ví dụ như hiện tượng dày lớp NTM động mạch cảnh không chỉ do lượng
cholesterol máu mà còn do nhiều yếu tố khác như di truyền, chủng tộc, mắc bịnh tim
mạch, tuổi, giới, BMI, tăng huyết áp, đái tháo đường....Vì vậy cần phải có mô hình
hồi qui tuyến tính đa biến. Trong ví dụ này ta không đề cập các yếu tố di truyền,
chủng tộc, giới, mắc bịnh tim mạch... mà chỉ lưu ý đến các biến số như: tuổi,
cholesterol, glucose, huyết áp tâm thu và BMI.
Ví dụ: dữ liệu đo bề dày lớp NTM động mạch cảnh trên siêu âm ở 100 bệnh nhân có
bệnh tim mạch như sau:
Dữ liệu này có 7 cột: ID bệnh nhân, tuổi (năm), BMI (kg/m2), huyết áp tâm thu
(mmHg), glucose máu (mmol/L), cholesterol (mmol/L), bề dày lớp NTM trên siêu âm
(mm). (Ghi chú: có thể copy dữ liệu này vào Excel, sau đó chuyển vào SPSS để
thực tập)
Bảng 1. Dữ liệu bề dày NTM của 100 bệnh nhân
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

TUOI
56
76
63
78
87
76
55
74
81
77
29
71
77
59
58
34
74
61
53
65
80
71
90

BMI
21
18
16
20
20
19
31
22
21
24
20
22
21
18
27
19
22
19
20
28
19
25
24

HA
160
150
160
100
110
150
160
100
120
160
120
160
160
150
130
130
100
170
130
140
160
160
160

GLUCOSE
14.0
12.0
4.4
4.0
4.6
4.6
5.5
6.8
5.8
5.4
3.8
3.3
5.1
6.0
6.9
4.5
10.6
18.0
25.0
6.5
4.8
6.2
4.7

CHOLESTEROL
6.00
4.97
6.39
7.00
4.10
2.74
4.60
5.04
4.75
6.94
4.84
6.63
4.93
4.55
6.70
3.20
4.30
6.80
5.50
6.80
5.74
6.90
7.00

BEDAYNTM
1.95
1.33
.83
2.00
1.30
1.16
1.00
1.00
.80
1.60
.65
1.00
.97
.73
1.10
1.10
1.10
.80
.99
1.00
1.13
1.00
1.70

30 6.88 4.4 11.2 5.0 5.80 1.3 7.9 6.00 7.00 5.75 5.0 3.5 6.9 26.89 .90 4.6 4.97 .56 .31 4.0 5.00 6.30 2.81 1.16 .6 4.60 1.1 9.78 5.4 12.10 .6 8.24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 44 91 75 60 51 91 45 62 65 70 56 51 75 58 61 72 82 95 56 36 67 64 81 46 56 60 35 55 70 64 64 58 73 41 74 21 67 57 69 53 58 54 49 59 65 42 75 72 82 70 42 32 61 60 76 78 71 49 36 74 53 56 60 83 68 69 31 34 41 72 54 54 55 76 70 85 24 27 22 24 22 29 24 24 19 22 27 19 18 32 19 18 25 24 21 28 18 22 22 22 22 24 19 21 20 23 19 27 23 24 23 23 25 23 21 34 23 29 17 22 23 22 24 21 24 18 24 19 21 26 19 27 26 24 23 21 21 19 20 21 23 19 21 21 20 22 22 28 24 15 25 21 120 150 160 140 150 120 170 140 150 160 150 120 140 160 160 120 90 120 160 130 100 130 140 160 150 140 120 160 150 130 160 160 140 110 100 160 150 140 120 140 160 130 130 140 150 150 100 140 190 160 160 140 140 130 160 120 150 140 140 140 140 140 160 120 130 100 120 140 120 160 170 150 160 140 180 160 6.16 .91 5.71 2.15 5.60 5.20 4.70 7.4 6.57 6.16 1.3 6.3 17.20 .06 4.7 4.13 1.90 .94 3.2 4.01 4.9 4.0 5.90 .2 5.30 4.10 3.70 3.00 1.70 1.4 4.70 2.89 .15 1.62 1.90 1.97 .80 .0 5.00 8.70 .18 8.8 4.3 4.00 4.01 1.6 5.73 4.20 3.97 .15 3.97 .2 4.00 6.50 4.92 1.89 1.2 8.7 4.1 4.97 .70 1.79 .71 5.10 .2 11.80 1.4 5.2 5.2 11.9 4.67 1.7 5.79 5.00 .47 6.70 .2 4.13 5.70 1.89 .80 .16 7.90 .06 1.5 5.3 4.73 3.3 5.89 .48 5.40 5.00 2.13 1.3 5.0 4.0 6.85 3.0 4.7 10.49 7.99 1.83 4.0 5.4 6.60 6.20 .0 3.9 7.1 6.1 4.0 5.20 5.39 6.61 4.4 6.80 .0 3.97 .00 .20 .00 2.70 .5 6.00 3.07 3.00 6.82 .92 6.84 6.0 6.88 .6 10.1 4.9 3.1 6.08 6.2 22.00 1.50 4.80 1.61 6.10 .89 .7 5.90 4.31 3.62 8.30 .91 5.97 .24 4.80 .00 5.50 .9 6.0 3.10 1.74 2.9 5.0 4.82 1.82 .1 4.0 3.81 .30 2.80 1.70 1.90 1.30 5.40 4.4 7.80 .25 5.15 .0 18.40 6.75 4.7 6.2 3.54 3.80 7.81 .60 5.1 7.88 5.93 7.00 .70 4.7 2.00 3.66 .20 .19 3.19 .1 7.

Bình phương của R (R square): yếu tố nào có R2 càng lớn thì mối quan hệ giữa yếu tố đó và biến y càng chặt chẽ..+  Trong phân tích hồi qui tuyến tính đa biến.. tuy nhiên các yếu tố có đơn vị khác nhau (tuổi.02) 4.20 2.0 5. cholesterol (0..100 87 22 130 9. Vào SPSS.+ kxki + i Với ví dụ trên ta có thể viết phương trình hồi qui tuyến tính đa biến với 5 yếu tố (x1=tuổi.+. Hệ số tương quan R (coefficient of correlation): yếu tố nào có R càng lớn thì ảnh hưởng càng nhiều 2. Nhắp chuyển BEDAYNTM vào ô Dependent (trục tung) và cholesterol vào ô Independent (trục hoành).. phân tích từng đơn biến để xem các trị số này: Phân tích hồi qui tuyến tính đơn biến trong SPSS. Trị số p (p value): càng nhỏ mức ảnh hưởng càng mạnh. 3. x2=cholesterol.14). mmHg.22).. ta tính được hệ số hồi qui chuẩn của tuổi (0... x4=huyết áp TT và x5= BMI) như sau: Bề dày NTM=  +  1(tuổi) +  2(cholesterol) +  3(glucose) +  4(huyết áp TT) +  5 (BMI) + ..30 Mô hình hồi qui tuyến tính đa biến có dạng: y=  +  1x1i+ 2x2i + 3x3i + . ta cần biết mức độ ảnh hưởng của từng yếu tố lên biến kết cục y (bề dày lớp NTM trong ví dụ này). Nếu muốn so sánh phải đổi các yếu tố có cùng đơn vị là độ lệch chuẩn..... Dựa vào công thức trên.. mmol/L. Muốn biết mức độ ảnh hưởng cần lưu ý đến các trị số sau: 1... lúc đó ta có hệ số hồi qui chuẩn hóa: S= . Hệ số hồi qui  (regression coefficient): yếu tố nào có  cao thì ảnh hưởng nhiều hơn. . x3=glucose..42). 𝑆𝑥 𝑆𝑦 ( Với Sx là độ lệch chuẩn của x tương ứng và Sy là độ lệch chuẩn của y). Vào Analyse> Regression > Linear Mở hộp thoại Linear Regression. huyết áp (0.) nên không thể so sánh mức ảnh hưởng giữa các yếu tố.. glucose (0.10) và BMI (0..

R squared change và Descriptives. Nhấn nút Continue. Model fit. sau đó nhấn OK Kết quả như sau: . đánh dấu nháy vào các ô: Estimates.Nhấn vào nút Statistics.

011 (tuổi) 3.048 0.748 + 0..771 0. Tổng hợp các trị số trong phân tích hồi qui tuyến tính đơn   R R2 p Tuổi 0. Bề dày NTM= 0. R: hệ số tương quan.166 0.020 0.062 (glucose) 4. p: ý nghĩa thống kê Ta có thể viết các phương trình tuyến tính đơn sau: 1. glucose.219 0.020 Glucose 0.011 0.406 0.011 0.771 + 0.107 0.002 0. Bề dày NTM= 0. Bề dày NTM= 0.748 0.001 0.002 (Huyết áp TT) .981 + 0.788 Các yếu tố : Hệ số hồi qui.408 0.000 Cholesterol 0.027 0. Bề dày NTM= 0.003 0.140 0.062 0.999 0...ta có thể tóm tắt các trị số trong bảng sau: Bảng 2.  :điểm cắt trên trục tung.013 0.290 BMI 0.981 0.Tương tự thay thế cholesterol bằng yếu tố khác: tuổi.165 HA tâm thu 0.406 + 0.062 (cholesterol) 2.

003 (BMI) Nhìn vào bảng phân tích đơn biến ta thấy hệ số tương quan R của tuổi cao nhất (0. Bề dày NTM= 0. Nếu nhìn trị số p ( p value) ta thấy chỉ có 2 yếu tố có ý nghĩa thống kê là tuổi và cholesterol.Trong thống kê hệ số hồi qui được diễn dịch như sau: Cứ tuổi tăng lên 1 đơn vị (1 tuổi) thì bề dày lớp NTM tăng lên 0.002 mm Cứ BMI tăng lên 1 đơn vị (kg/m2) thì bề dày lớp NTM tăng lên 0.011 mm Cứ cholesterol tăng lên 1 đơn vị (1mmol/L) thì bề dày lớp NTM tăng lên 0. Mở hộp thoại Linear Regession.013 mm Cứ HA tâm thu tăng lên 1 đơn vị (1 mmHg) thì bề dày lớp NTM tăng lên 0. HA tâm thu giải thích được 1.219)>Glucose (0. GLUCOSE. chủng tộc. Trong thống kê trị số R2 được diễn dịch như sau: Sự thay đổi của tuổi giải thích được 16. CHOLESTEROL. Nhắp chuyển tất cả 5 biến (TUOI.6% sự thay đổi bề dày của lớp NTM.107)>BMI (0.999 + 0.062 mm Cứ glucose tăng lên 1 đơn vị (1 mmol/L) thì bề dày lớp NTM tăng lên 0.1%. Hệ số hồi qui  (nếu +: tỉ lệ thuận và – tỉ lệ nghịch).003 mm.140) >HA tâm thu (0. Tóm lại nếu cộng lại tất cả các yếu tố trên chỉ giải thích được khoảng 24.408) rồi đến >cholesterol (0. giới tính hoặc mắc bệnh tim mạch (không thuộc phạm vi bài nghiên cứu này). Trị số R2 cũng tương tự như vậy.1% sự thay đổi lớp bề dày NTM. Tương tự glucose giải thích được 2%. HUYETAPTT. Như vậy có thể còn có nhiều yếu tố khác làm tăng bề dày lớp NTM như do di truyền.8% sự thay đổi của bề dày lớp NTM. Bây giờ nếu đưa tất cả các biến vào cùng lúc để phân tích đa biến. và BMI chỉ giải thích được 0.5. . BMI) vào ô Independent (s) và nhắp chuyển BEDAYNTM vào ô Dependent.027). Vào Analyse> Regression> Linear Regession.6% sự thay đổi của bề dày lớp NTM Sự thay đổi của cholesterol giải thích được 4. Như vậy tuổi và cholesterol là 2 yếu tố có ảnh hưởng nhiều nhất làm dày lớp NTM.

kết quả như sau: .Nhấn OK.

Thật vậy.com. Như vậy trong phân tích từng biến riêng lẻ (phân tích đơn biến) thì tuổi và cholesterol có ý nghĩa thống kê. huyết áp. 2.209) sự thay đổi của bề dày NTM. Blettner M.000.Lúc này phương trình hồi qui tuyến tính đa biến có thể viết như sau: Bề dày NTM= -0. BMI không có hoặc có rất ít ảnh hưởng trên bề dày lớp NTM.108 + 0.457 và tất cả 5 yếu tố này chỉ giải thích được gần 21% (R2=0.408) và giải thích 16.002 (huyết áp) ( Bỏ BMI vì hệ số hồi qui gần bằng 0) Hệ số tương quan chung là R=0. How to Deal with Continuous and Dichotomic Outcomes in Epidemiological Research: Linear and Logistic Regression Analyses. 2010 Nov. giữa tuổi và bề dày lớp NTM có tương quan cao nhất (R=0. Bốn yếu tố còn lại giải thích vào khoảng 5% sự tăng bề dày lớp NTM.vn Tài liệu tham khảo: 1. Phân tích dữ liệu nghiên cứu với SPSS. TS Nguyễn Ngọc Rạng.6% sự thay đổi của bề dày NTM. Zoccali C. Dekker FW. Tripepi G. 2011 Feb 23. Nhà xuất bản thống kê năm 2005 . Stel VS.01(tuổi) + 0.com Website:bvag. 3. email:rangbvag@yahoo. Trong phân tích đa biến chỉ còn tuổi là có ý nghĩa độc lập giải thích sự thay đổi bề dày lớp NTT. Hommel G. Hoàng Trọng và Chu Nguyễn Mộng Ngọc. Linear regression analysis: part 14 of a series on evaluation of scientific publications. các yếu tố khác như cholesterol. Nhìn vào trị số p (cột cuối cùng-Sig. Jager KJ.).038 (cholesterol) + 0.008 (glucose) + 0.107(44):776-82. Dtsch Arztebl Int. glucose. Schneider A. Kết luận: Chỉ có tuổi là yếu tố độc lập có ý nghĩa dự đoán bề dày lớp NTM động mạch cảnh.118(4):c399c406. chỉ có tuổi là có giá trị thống kê với p=0. Nephron Clin Pract.