You are on page 1of 84

CỤC Y TẾ DỰ PHÒNG VÀ MÔI TRƯỜNG

SPSS
TÀI LIỆU TẬP HUẤN THỐNG KÊ VÀ XỬ LÝ SỐ LIỆU
.

2009

HÀ NỘI
MỤC LỤC

STT trang
1 Quản lý số liệu - biến phân loại (biến định tính) 1
2 Quản lý số liệu - biến liên tục (biến định lượng) 15
3 Thống kê mô tả 27
4 Thống kê cho biến số định lượng – nghiên cứu cắt ngang (Bộ số liệu 42
IVF)
5 Thống kê phân tích – Biến phân loại 62
Quản lý số liệu - biến phân loại
(biến định tính)
Tài liệu giảng dạy: Giáo trình thống kê Y tế Công Cộng- phần 2, Phân tích
số liệu. Nhà xuất bản Y học xuất bản năm 2005 với bộ số liệu biostats2. sav
Tài liệu này được viết dựa trên sử dụng bộ số liệu Chilumba.sav. Cả hai bộ số
liệu này được đăng tải trên website của môn học

Quản lý số liệu là các thao tác được tiến hành trên số liệu trước khi tiến hành
phân tích số liệu và sau khi hoàn thành thu thập số liệu tại cộng đồng. Quá trình
quản lý số liệu bao gồm:
1. Mã hóa số liệu
2. Nhập số liệu
3. Kiểm tra và làm sạch số liệu.
Quản lý số liệu là một bước quan trọng trong quá trình phân tích số liệu và ảnh
hưởng đến kết quả nghiên cứu. Trước khi bước vào việc quản lý số liệu bạn
nên kiểm tra lại số liệu thô (số liệu trên phiếu) trước khi nhập vào máy tính.Bạn
phải đảm bảo rằng những điều tra viên đã điền đúng vào bảng hỏi của bạn (họ
có thể điền hai hoặc nhiều hơn hai lựa chọn cho một ý câu hỏi đơn lựa chọn).
Sau khi đã hoàn thành công đoạn làm sạch thô trên phiếu hỏi, bạn bắt đầu tiến
hành mã hóa số liệu.
I. Mã hóa số liệu là quá trình số hóa các giá trị hoặc mức của biến. Sau
đây là một vài quy tắc chúng ta nên tham khảo và cân nhắc khi tiến hành mã
hóa số liệu:
1. Tất cả số liệu nên để dạng số. Trên thực tế chúng ta có thể sử dụng chữ hoặc
câu (biến dạng ký tự) như là một dạng số liệu ký tự. Tuy nhiên trong SPSS
chúng ta không nên lạm dụng cách dùng này. Để tránh dùng các biến có dạng
ký tự chúng ta nên mã hóa nó dạng số. Ví dụ như biến Giới tính (gender), một
quan sát có thể là nam hoặc nữ. Vậy chúng ta có thể mã hóa lại như sau:
1 : Nam

1
2: Nữ.
Lưu ý rằng bạn phải nhất quán trong nghiên cứu cách mã hóa giống nhau và
chọn một cách mã hóa cho tất cả các đối tượng tham gia nghiên cứu. Hơn thế
nữa, sử dụng codebook cũng la fmột cách giúp cho nhà phân tích và những
người khác hiểu được số liệu ở đây được mã hóa như thế nào.
2. Các giá trị mã của một biến phải không trùng nhau: tức một biến của mỗi
quan sát chỉ nhận một giá trị hoặc một danh sách các giá trị. Trên thực tế, trong
bộ câu hỏi thường chia làm hai loại: câu hỏi một lựa chọn và câu hỏi nhiều lựa
chọn. Đối với câu hỏi một lựa chọn thì câu hỏi đó được thể hiện là một biến và
có giá trị là một trong những phương án trả lời. Còn đối với câu hỏi nhiều lựa
chọn thì mỗi phương án trả lời thành một biến và mỗi biến nhận giá trị có (nếu
trả lời phương án đó) và không (nếu không trả lời phương án đó).
Ví dụ:
- Đối với câu hỏi giới tính: Giới tính của người tham gia phỏng vấn
1: nam
2: nữ
thì chúng ta chỉ cần một biến gender, biến này có hai giá trị 1 và
2.
- Đối với câu hỏi : anh/chị đã nghe thông tin về phòng chống HIV ở đâu:
1. Từ phương tiện thông tin đại chúng (tivi, đài)
2. Từ sách báo tạp chí
3. Từ hệ thống phát thanh của phường
4. Từ cán bộ y tế/ cán bộ phụ nữ
5. Bạn bè/người thân
6. Khác (…)
Trong trường hợp này thì một người có thể nghe thông tin từ nhiều nguồn cho
nên là câu hỏi nhiều lựa chọn. Để thể hiện được thông tin của biến này thì khi
mã hóa để nhập số liệu chúng ta phải chia câu trả lời này thành 6 biến
(c41,c42,c43,c44,c45,c46) và mỗi biến tương ứng với mỗi nguồn thông tin.
Nếu người nào trả lời là từ phương tiện thông tin đại chúng thì C41 có giá trị là

2
1. Người nào vừa trả lời là vừa từ bạn bè người thân vừa từ tạp chí sách báo thì
C42 có giá trị là 1 và C45 cũng có giá trị bằng 1.
Mỗi biến nên được mã hóa sao cho tối đa hóa thông tin. Hãy cố gắng đừng gộp
các mục phân loại và các giá trị của các biến lại với nhau khi tiến hành mã hóa
số liệu. Nếu bạn thấy cần phải gộp thì hãy tiến hành gộp khi phân tích số liệu
bằng máy tính. Trong tường hợp lý tưởng thì thông tin nhập vào máy tính càng
chi tiết càng tốt. Các thông tin như tính chỉ số BIM hay là nhóm tuổi nên thực
hiện sau này. Nếu ngược lại, bạn nhóm các thông tin lại với nhau rồi nhập số
liệu, nếu khi bạn phân tích bạn thay đổi các nhóm hoặc cách tính thì bạn không
có thông tin và phải nhập lại toàn bộ số liệu.
3. Mỗi một biến của mỗi trường hợp/ quan sát phải nằm trên cùng một cột của
số liệu SPSS. Trong SPSS các thông tin của mỗi quan sát chỉ nằm trên một
dòng và mỗi cột chứa thông tin của một biến. Bạn nên đặt tên biến ngắn, dễ
nhớ và theo một quy tắc nhất định. Không nên đặt tên biến bằng tiếng Việt vì
máy tính không nhận được.
4. Mỗi biến của mỗi quan sát phải có mã hoặc giá trị biến. Các mã này phải
dạng số ngoại trừ những biến bị thiếu thông tin. Bạn nên để trống cho những
biến không có thông tin vì SPSS sẽ tự động nhận các giá trị trống là giá trị
missing (chỉ ra biến bị thiếu thông tin). Tuy nhiên thì nhiều khi chúng ta để
missing sẽ làm cho việc phân tích số liệu sau này khó hơn, đặc biệt là trong
những trường hợp missing là do không phù hợp thì bạn nên mã hóa 98 (không
phù hợp) hoặc 99 (missing) cho các trường không phải là giá trị của biến.
5. Áp dụng các quy tắc về thống nhất số liệu của tất cả các quan sát. Điều này
có có nghĩa là bạn thống nhất một mã cho tất cả các quan sát cùng trả lời một
câu hỏi, bỏ thiếu thông tin một câu hỏi. Lưu ý này rất quan trọng cho những
câu hỏi nhiều lựa chọn nếu bạn 1 là có, 0 là không cho lựa chọn đó thì phải
thống nhất trên toàn bộ số liệu hoặc trong câu hỏi đó.
6. Nên sử dụng các giá trị cao cho những câu trả lời có thứ tự. Bạn nên code
giá trị 1 cho không đồng ý và 5 cho rất đồng ý. Tuy nhiên bạn không sai nếu
mã hóa ngược lại nhưng nó có thể làm bạn nhầm lẫn khi đọc ý nghĩa.

3
1 Chi tiết cụ thể về phần mã hóa số liệu, hãy đọc phần 2.2.1 Xử lý và
nhập số liệu trong Giáo trình Thống kê Y tế Công cộng phần 2 (trang 12 -
17).

II. Nhập số liệu


Sau khi số liệu được mã hóa, chúng được nhập vào máy tính để chuẩn bị cho
quá trình phân tích số liệu. Hiện nay có nhiều phần mềm có thể hỗ trợ trong
quá trình nhập số liệu. Với những số liệu lớn chúng ta có thể sử dụng các phần
mềm quản lý số liệu chuyên nghiệp như Microsoft Access, Oracle,… .Với
những phần mềm nhỏ chúng ta có thể sử dụng Epidata, Epi Info là những phần
mềm miễn phí để nhập liệu.
Chất lượng của một bộ số liệu được quyết định bởicông tác thu thập số liệu và
nhập liệu. Các lỗi có thể mắc trong quá trình nhập liệu là nhập liệu sai hoặc đọc
nhầm. Để giảm các lỗi này trong quá trình nhập liệu thì chúng ta có thể chọn
một trong những chiến lược nhập số liệu sau đây:
- Hai người nhập số liệu và tiến hành so sánh. Nếu lượng thông tin sai
khác của hai người quá lớn thì tiến hành nhập lại
- Một người nhập số liệu rồi lấy ra ngẫu nhiên khoảng 20% phiếu để kiểm
tra. Nếu thấy sai khác quá nhiều cũng phải nhập lại
- Dùng các thiết bị hiện đại: Máy quýet tự động.

1 Đọc thêm phần 2.2.2 Nhập số liệu, Giáo trình Thống kê Y tế Công
cộng, phần 2 năm 2005 (trang 17 và 18)

III. Kiểm tra và làm sạch số liệu


SPSS có hai cửa sổ màn hình là Data view và Variable View bên cạnh các cửa
sổ khác như là Output, syntax. Cửa số Data view hiện thị số liệu trong bộ số
liệu mà bạn đang mở và Variable view hiện thị biến và những đặc tính của các
biến trong bộ số liệu đang mở.
Bộ số liệu Chilumba gồm các biến số có chi tiết như sau:
Id (tên biến) Identity number Mã số
Caco (bệnh) 1=case, 0=control 1=bệnh, 0=chứng

4
Agegrp (nhóm Age group: 1=1/14 2=15/24 3 Nhóm tuổi: 1=1/14 2=15/24 3 =
tuổi) = 25/34 4 = 35-44 5 = 45+ 25/34 4 = 35-44 5 = 45+
Sex (giới thiệu) 0=male, 1=female 0=nam, 1=nu
Bcgscar (chủng 0=no, 1=yes 0=không, 1=có
ngừa BCG)
School (học Duration of schooling: 1=none Học vấn : 1=không 2=1-3 năm
vấn) 2=1-3 year 3=4-6 year 4=7+ 3=4-6 năm 4=7+ năm
year
Mbcont (tiếp Contact with MB case Tiếp xúc với phong u (có nhiều
xúc phong u) vi khuẩn)
Pbcont (tiếp Contact with PB case Tiếp xúc với phong củ (có ít vi
xúc phong củ) khuẩn)

Sau khi số liệu được nhập vào SPSS bạn nên tiến hành kiểm tra số biến, nhãn
biến và loại biến. Khi bạn nhập ở một phần mềm khác rồi sau đó chuyển sang
SPSS thì tuỳ vào phần mềm mà loại biến nhãn biến có thể bị thay đổi. Bạn nên
thay đổi loại biến bằng cách mở cửa sổ Variable view. Sau đó cửa sổ màn hình
sau sẽ hiện thị ra. Bạn kiểm tra dạng biến ở cột type (vòng tròn màu đỏ).

Nếu bạn muốn chuyển kiểu biến hãy kích chuột vào dấu ba chấm tại biến mà
bạn muốn chuyển. Khi đó cửa sổ kiểu biến sẽ hiện ra như sau và bạn chọn loại
biến tương ứng.

5
Nếu bạn muốn chuyển kiểu đo lường của biến định lượng (có ba loại đo lường
chính scale – tỷ số; ordinal – thứ bậc, norminal – định danh) thì bạn kích vào
dấu “v” trong cột Measure của biến mà bạn muốn thay đổi (vòng tròn màu
xanh).

Khi đó cửa sổ sau sẽ hiện ra và bạn chọn lọai đo lường phù hợp với biến của
bạn.

2 Dựa vào mã của các giá trị bên cột mã biến: hãy chuyển kiểu đo lường
cho tất cả các biến trong bộ số liệu Chilumba. Sav thành dạng thích hợp

6
Sau khi hoàn thành phần kiểm tra loại biến và dạng đo lường của biến, chúng ta
chuyển sang phần dán nhãn cho biến. Ở đây chúng ta có hai loại nhãn: Nhãn
của biến và nhãn của giá trị. Nhãn của biến lược thể hiện ở cột label của biến
đó còn nhãn của giá thể hiện ở cột values tương ứng. Để thay đổi nhãn của
biến, bạn nháy đúp chuột vào cột label của biến đó và gõ vào. Để thay đổi/
thêm giá trị của nhãn giá trị của biến bạn kích vào nút của biến đó và cửa sổ
sau sẽ hiện ra:

Bạn nhập giá trị của biến vào rồi kích add vào cửa sổ. Bạn thao tác cho khi
hoàn thành hết các mã của biến đó.

2 Dựa vào mã của các giá trị bên cột mã biến: hãy dán nhãn cho tất cả
các biến trong bộ số liệu Chilumba. Sav

1 Chi tiết thông tin về phần này tham khảo phần xem bộ số liệu trong
SPSS, Giáo trình Thống kê y tế công cộng phần 2 (trang 18-20)

Sau đó bạn tiến hành các khai báo với các giá trị missing. Nếu trong số liệu bạn
sử dụng các mã 98 hay 99 để thể hiện quan sát bị missing thì bạn sẽ khai báo
cho SPSS có thể hiểu được. Ngược lại, nếu bạn không khai báo mà chỉ để None
trong cột missing của biến đó thì SPSS sẽ hiểu đó là giá trị của quan sát đó. Đế
khai báo missing bạn kích vào cột missing của ô đó:

7
Sau đó có một cửa sổ nhỏ Missing values hiện ra, bạn chọn Dicrete missing
value và nhập vào những giá trị mà bạn đã mã hóa là missing.
Ngòai ra, trong cửa sổ Variable view còn cho phép bạn thay đổi số ký tự sau
dấu phấy của biến có dạng thập phân (decimal) và các tính chất khác của biến.
Chi tiết phần này bạn có thể tham khảo Menu Help của SPSS.
Bây giờ bạn đã định nghĩa và dán nhãn cho biến xong, bạn có thể in ra một
codebook, đó như là một từ điển cho số liệu của bạn. Việc này rất hữu ích vì nó
giúp bạn lưu lại những gì bạn đã thực hiện.. Để có codebook bạn dùng File
→Display Data File Information→ Working File

8
Về cơ bản những thông tin trong codebook giống như là các thông tin được thể
hiện trong màn hình Variable view. Và kết quả được thể hiện như sau:
Variable Information

Measurement Column Print Write


Variable Position Label Level Width Alignment Format Format
id Identity
1 Scale 8 Right F9.2 F9.2
number
caco 1=case,
2 Unknown 8 Right F8 F8
0=control
agegrp 3 Age group Unknown 8 Right F8 F8
sex 0=male,
4 Unknown 8 Right F8 F8
1=female
bcgscar
5 0=no, 1=yes Unknown 8 Right F8 F8
school Duration of
6 Unknown 8 Right F8 F8
schooling
mbcont
Contact with
7 Unknown 8 Right F8 F8
MB case

pbcont
Contact with
8 Unknown 8 Right F8 F8
PB case

Variables in the working file

Variable Values

9
Value Label
caco 1 Case
2 Control
sex 0 Male
1 Female
bcgscar 0 No
1 Yes

’ Kết quả này trích từ SPSS 15.0. Nếu bạn dùng bản cao hoặc thấp hơn thì

kết quả có thể được trình bày hơi khác một chút nhưng lượng thông tin thì cũng
tương tự.

Làm sạch số liệu:


Mặc dù số liệu được kiểm sóat từ khi thu thập và nhập số liệu, nhưng số liệu có
thể còn nhiều sai sót nên vệc làm sạch bao giờ cũng là một khâu bắt buộc trước
khi phân tích số liệu. làm sạch số liệu gồm thực hiện các thao tác kiểm tra tính
phù hợp của số liệu, tính nhất quán và các giá trị bất thường trong bộ số liệu.
Đối với các biến định tính, để kiểm tra và làm sạch số liệu, chúng ta sử
dụng Bảng phân phối tần số - Lệnh Frequencies
Lệnh Frequencies kích vào menu Analyse/Descriptives statistics/frequencies
Lệnh này chủ yếu dùng cho các biến phân loại

10
Sau đó cửa sổ màn hình sau đây sẽ hiện ra:

Bạn chọn biến mà bạn cần phải kiểm tra kích chuyển sang ô Variable và
kích Ok
Kết quả của câu lệnh này là:

Statistics

1=case, 0=male,
0=control 1=female 0=no, 1=yes
N Valid 1260 1260 1260
Missing 0 0 0

11
Frequency Table

1=case, 0=control

Cumulative
Frequency Percent Valid Percent Percent
Valid 0 1008 80.0 80.0 80.0
case 252 20.0 20.0 100.0
Total 1260 100.0 100.0

0=male, 1=female

Cumulative
Frequency Percent Valid Percent Percent
Valid Male 571 45.3 45.3 45.3
Female 689 54.7 54.7 100.0
Total 1260 100.0 100.0

0=no, 1=yes

Cumulative
Frequency Percent Valid Percent Percent
Valid no 744 59.0 59.0 59.0
yes 516 41.0 41.0 100.0
Total 1260 100.0 100.0

Nhìn vào kết quả đầu ra ở đây bạn có thể tìm ra những giá trị không phù hợp
của bộ số liệu. Ví dụ như biến caco: biến ghi là 0: control 1: case (đã dán nhãn
phải như thế) nhưng đã dán nhãn nhầm là 1: case, 2 là control. Chúng ta phải
quay lại cửa sổ nhãn biến lúc đâu để chỉnh lại

12
Bạn thay số 2 ở Value và gõ vào số 0 rồi kích vào Change. Sau đó kích OK.
Ngòai ra câu lênh frequency cũng cho các bạn biến thông tin về giá trị missing
của các biến

Statistics

1=case, 0=male,
0=control 1=female 0=no, 1=yes
N Valid 1260 1260 1260
Missing 0 0 0

1 Phần này bạn đọc chi tiết phần Kiểm tra những mã không phù hợp
trong giáo trình Thống kê Y tế công cộng, phần 2, Nhà xuất bản y học năm
2005 (trang 27-30)

Ngoài ra, căn cứ vào bộ câu hỏi mà bạn phải kiểm tra tính nhất quán của bộ số
liệu (Phần này bạn hãy đọc kỹ phần Kiểm tra tính nhất quán (trang 37- 40)
Giáo trình thống kê Y tế Công cộng phần 2); kiểm tra sự giống nhau của các
mã cá nhân (trang 25,26); Kiểm tra ngày thông tin của biến ngày tháng (trang
35-37) trong giáo trình trên.
Tài liệu tham khảo

13
1. George A Morgan và các đồng nghiệp, SPSS for Introductory statistics,
Use and interpretation, xuất bản lần thứ 2, Nhà xuất bản Lawrence
Erlbaum năm 2004.
2. Website: http://www.ats.ucla.edu/stat/spss/topics/data_management.htm
(truy cập ngày 23/01/08).

14
Quản lý số liệu - biến liên tục
(biến định lượng)
I. Quản lý số liệu cho biến liên tục

1.1 Tìm hiểu số liệu

2 Tải và lưu tập tin số liệu ivf.sav từ trang web elearning của khóa học vào máy
tính của bạn.

Nhấp chuột vào bộ số liệu ivf vừa tải về máy để mở tập tin. Nếu trên cửa sổ SPSS Data
Editor không phải ở chế độ “Data view” nhấp vào tab Data View ở góc dưới trái của cửa
sổ để vào chế độ này.

6 Số liệu này bao gồm những biến số về những đứa trẻ sinh một của những bà mẹ
được thụ thai trong ống nghiệm (in-vitro fertilisation). Nghiên cứu này đã được báo
cáo trong tạp chí BMJ (1990;300:1229-1233). Tập tin này bao gồm 641 đứa trẻ. Bộ
số liệu này gồm có những biến số nào?

Hướng dẫn: Có nhiều cách để xác định này có bao nhiêu biến số. Nếu chúng ta ở trong
DataView, có thể tìm thấy tên biến ở hàng trên cùng của lưới số liệu tuy nhiên với cách
đó chúng ta không có chi biết về các biến số. Muốn biến về chi tiết của biến số chúng ta
có hai cách (a) sử dụng menu: Utilities/Variables để biết có bao nhiêu biến số, những
biến số đó là gì và có những tính chất gì hoặc (b) nhấp vào tab “Variable View”. Nếu
đang ở chế độ “Variable View” có thể chuyển qua chế độ “Data View” bằng cách nhấp
vào tab “Data View”.
Trả lời: Sau khi thực hiện những thao tác trên bạn có kết quả:
Số liệu này gồm 6 biến số có chi tiết như sau:

15
Stt Tên biến Nhãn biến Giải thích
1 Id identity number of mother and Mã số đối tượng
baby
2 Matage maternal age in years Tuổi của mẹ (năm tuổi)
3 Ht hypertension 1=yes, 2=no Cao huyết áp thai kì 1= có 2 = không
4 Gestwks Gestational age in weeks Tuổi thai (tính theo tuần)
5 Sex sex of baby 1=male, 2=female Giới tính của trẻ 1=trai 2=gái
6 Bweight birth weight in gms Trọng lượng sinh tính theo grams
Lưu ý: Id là mã số đối tượng, do đó không phân tích về sau

6 Tập tin này có bao nhiêu bản ghi?

Hướng dẫn: Để biết tập tin có bao nhiêu bản ghi, có thể lập bảng phân phối tần suất của
một biến số bất kì (thí dụ như biến sex) bằng cách nhấp vào Analyze/Descriptive
Statistics/Frequencies
Và bạn có kết quả :

Statistics

Sex of infant
N Valid 641
Missing 0

Trả lời: tập tin này có 641 bản ghi và không có quan sát nào ở biến giới tính bị thiếu
thông tin cả.

6 Các giá trị của biến id, ht, sex, matage, bweight, matagegp và gestcat có 2 số lẻ
thập phân không cần thiết nên chúng ta hãy loại bỏ các con số thập phân này.

Hướng dẫn: để tạo nhãn cho các biến số, chuyển sang chế độ “Variable View” bằng
cách nhấp vào tab Variable View ở góc trái dưới màn hình. Nhấp con trỏ vào ô của hàng
id và cột Decimal ta thấy hiện lên một nút có mũi tên lên xuống hiện lên ở góc phải.
Nhấp vào nút mũi tên xuống sao cho giá trị của ô này (ô Decimal) bằng 0.

16
2 Thực hiện tương tự với các biến ht, sex, matage, bweight, matagegp và gestcat. (Chỉ
trừ biến gestwks là cần phải làm số chữ số thập phân).

6 Hãy tạo nhãn cho các biến số ht, sex, matagegp và gestcat

Hướng dẫn: để tạo nhãn cho các biến số, chuyển sang chế độ “Variable View” bằng
cách nhấp vào tab Variable View ở góc trái dưới màn hình. Nhấp con trỏ vào ô của hàng
ht và cột value ta thấy hiện lên một nút lệnh với 3 dấu chấm hiện lên ở góc phải. (Nếu
chúng ta nhấp vào phía bên phải của ô này thì cửa sổ Value labels sẽ hiện lên). Nhấp vào
nút lệnh này để hiện ra cửa số Value labels. Gán giá trị 1 là “cao huyet ap”.

Nhấn nút Add và tiếp tục gán giá trị 2 là “khong cao huyet ap”. Nhấp nút lệnh Add lần
nữa.

Nhấp vào nút lệnh OK để hoàn tất.

17
Tương tự đối với biến sex ta gán giá trị 1=”nam” 2=”nu”; biến matagegrp ta gán
1=”<30” 2=”30-34” ; 3=”35-39” ; 4=”40+” và gestcat 1 = “sinh non” 2 = “sinh du
thang”
Sau đó nhấp vào tab “Data View” để xem các giá trị đã mã hoá. Nếu các giá trị đã mã
hoá chưa xuất hiện, hãy chọn menu View/Variable Value để làm hiển thị các giá trị đã
mã hoá.

6 Lưu lại tập tin.

Hướng dẫn: Để lưu lại tập tin chúng ta có thể sử dụng một trong 3 cách sau: a) Nhấp vào
hình chiếc đĩa mềm trên Data Editor Toolbar b) Nhấn Ctrl-S c) Sử dụng menu File –
Save. Nếu chúng ta không muốn làm thay đổi giá trị của số liệu nguồn hãy lưu tập tin với
tên khác bằng cách sử dụng menu File/Save As.
1.2 Làm sạch số liệu cho biến liên tục
Trong làm sạch số liệu, chúng ta kiểm tra các lỗi có thể gặp sau đây:
- Các giá trị bất thường
- Kiểm tra việc nhập liệu
- Kiểm tra tính đồng nhất

1 Kiểm tra giá trị bất thường


Để kiểm tra giá trị bất thường của các biến số định lượng, chúng ta sử dụng:
- Các thông số thống kê tóm tắt: giá trị nhỏ nhất, giá trị lớn nhất
- Biểu đồ: đa giác tần số (histogram)
Các số thống kê tóm tắt
Để xem giá trị nhỏ nhất, lớn nhất, trung bình…chúng ta dùng lệnh Frequencies
(Analysis /Descriptives Statistics/Frequencies) và có màn hình lệnh như sau:

18
Lưu ý: bạn nên tắt tùy chọn Display frequency tables để kết quả của chúng ta không
có bảng phân bố tần số của từng giá trị- vì nó quá dài và không có ích trong trường
hợp này.
Hãy chọn biến mà bạn muốn tính và chuyển sang cửa sổ Variable(s). Trong trường hợp

này chúng ta chọn biến bweight rồi kích vào dấu để chuyển sang. Sau đó bạn hãy
kích vào tùy chọn Options và bạn có cửa sổ như sau hiện lên:

Kết quả của lệnh như sau:

19
Descriptive Statistics

N Minimum Maximum Mean


Birthweight 641 630.00 4650.00 3129.5055
Valid N (listwise) 641

Dựa vào con số nhỏ nhất, lớn nhất, chúng ta xem xét có giá trị bất thường nào hay không,
ví dụ nếu cân nặng khi sinh bằng 0 hoặc >6000 gram chẳng hạn. Trong trường hợp này,
không có số bất thường nào cả.
Biểu đồ
Chúng ta dùng đa giác tần số để kiểm tra liệu biến “trọng lượng sơ sinh” có giá trị bất
thường nào không.
Để vẽ đa giác tần số của biến trọng lượng sơ sinh, chúng ta hãy sử dụng menu Graphs –
Histogram. Chọn biến số bweight vào hộp Variable. Nhấp nút lệnh OK để hoàn tất.

Biểu đồ đa giác tần số của trọng lượng sơ sinh được thể hiện trong cửa sổ Output và có
dạng như sau. Nếu bạn muốn thể hiện đường cong phân bố chuẩn thì các bạn hãy kích
vào tùy chọn Display normal curve trong cửa sổ lệnh trên.

20
Khi đó, chúng ta sẽ xem trên biểu đồ có số liệu nào lớn bất thường hoặc nhỏ bất thường
hay không (xem ở vòng tròn đỏ).

6 Hãy kiểm tra biến tuổi của mẹ những phụ nữ trong nghiên cứu này.

Hướng dẫn:
Bước 1: Dùng các số thống kê tóm tắt.
Để mô tả giá trị lớn nhất, nhỏ nhất, trung bình, và độ lệch chuẩn, trở lại các bước như mô
tả phần trên. Chọn Miximum (nhỏ nhất) và Maximum (lớn nhất), Mean (trung bình) và
Standard variable (độ lệch chuẩn), chúng ta có kết quả như sau:

21
Descriptive Statistics

N Minimum Maximum Mean Std. Deviation


Maternal age 641 23.00 43.00 33.9719 3.87046
Valid N (listwise) 641

Bảng này cũng cho thấy không có giá trị bất thường nào.

Bước 2: Hãy kiểm tra đa giác tần số của tuổi khi sinh của những bà mẹ trong nghiên cứu
theo các bước ở trên bạn sẽ có những kết quả sau

Đa giác tần số với đường cong phân bố chuẩn. Biểu đồ này cho thấy không có giá trị nhỏ
hoặc lớn bất thường nào.

6 Nếu có giá trị bất thường, chúng ta phải làm gì:

Khi phát hiện có giá trị bất thường, chúng ta phải:


- So sánh với bộ số liệu gốc, nếu đúng như bộ số liệu gốc và số liệu là chính xác,
giữ nguyên.

22
- Nếu so với bộ số liệu gốc và thấy không đúng với giá trị trong bộ số liệu gốc, sửa
theo giá trị trong bộ số liệu gốc.
- Nếu không có bộ số liệu gốc và số lượng giá trị bất thường không quá nhiều (<5%
bộ số liệu), không phân tích các số liệu này.
- Nếu không có bộ số liệu gốc và số lượng giá trị bất thường nhiều (<5% bộ số
liệu), có thể sử dụng phân tích các số liệu này.

1 Kiểm tra việc nhập liệu


Kiểm tra việc nhập liệu được thực hiện khi nhập liệu với mục đích là đảm bảo việc nhập
liệu đầy đủ và chính xác. Thông thường:
- Nhập bộ số liệu hai lần bởi hai người khác nhau, sau đó so sánh hai bộ số liệu.
Cách này khó thực hiện đối với các bộ số liệu lớn do tốn nguồn lực và thời gian
- Nhập toàn bộ số liệu 1 lần, sau đó lấy khoảng 10 – 15% bộ số liệu nhập riêng và
so sánh hai nhóm.

1 Kiểm tra tính đồng nhất


Ví dụ kiểm tra năm sinh để chắc rằng không có đối tượng nào có số tuổi âm.
1.3 Tạo biến số mới
Tạo biến số mới khi:
- Câu hỏi nghiên cứu không có biến sẵn có trong bộ số liệu, ví dụ câu hỏi nghiên
cứu “có bao nhiêu trẻ sinh đủ tháng và thiếu tháng?”, trong bộ số liệu, chúng ta chỉ
có biến tuổi thai tính theo tuần (biến định lượng) mà không có biến đủ tháng hay
thiếu tháng, do đó chúng ta phải tạo ra biến số này.

6 Hãy tạo ra các biến số mới theo yêu cầu sau:

Biến cần phải phân nhóm Tên biến Phân nhóm


Tuổi của mẹ phân nhóm matagegrp (1=<30; 2=30-34;3=35-39;4=40+)
Tuổi thai phân nhóm gestcat (1= <37 tuần; 2=37+tuần)

23
Hướng dẫn: Sử dụng Menu Transform/Recode/Into difference variables để mã hoá
biến matage thành biến matagegrp
Sau khi xuất hiện cửa sổ Recode into difference variables, chúng ta chọn biến matage
vào hộp Numeric variable và gõ tên matagegrp vào Output variable. Nhấn nút lệnh
Change. Sau đó nhấp vào nút lệnh Old and New Values để hiện ra cửa số: Recode into
difference variable: Old and New Values. Để mã hoá biến matage có giá trị từ tối thiểu
lên đến 29 thành biến matagegrp có giá trị là 1, chúng ta nhấp vào nút chọn Range
Lowest to và gõ vào hộp số Range Lowest to giá trị 29 và hộp Value (trong khung New
Value) giá trị 1 như trong hình sau.

Sau đó chúng ta nhấp vào nút lệnh Add và tiếp tục chọn nút chọn Range __ through __
với giá trị 1 là 30 và giá trị sau là 34. Hộp value ở khung New Value sẽ được nhận giá trị
2.

24
Nhấn nút lệnh Add. Thực hiện tương tự để mã hoá matage từ 35-39 là 3: tiếp tục nhấp
vào chọn nút chọn Range __ through __ với giá trị 1 là 35 và giá trị sau là 39. Hộp
value ở khung New Value sẽ được nhận giá trị 3. Nhấn nút lệnh Add.
Để mã hoá biến matage có giá trị từ 40 trở lên thành giá trị 4. Chọn nút chọn Range ___
through highest, và gõ giá trị 40 vào ô này. Hộp value ở khung New Value sẽ được
nhận giá trị 4. Nhấn nút lệnh Add. Khi đó chúng ta đã có đủ các yêu cầu mã hoá nằm
trong hộp Old->New.

Nhấp nút lệnh Continue để trở về cửa sổ Recode into Different Variable. Nhấp nút lệnh
OK để hoàn tất.

25
Lưu ý: Phải kiểm tra biến gốc trước khi tạo biến mới. Ví dụ:
Phải kiểm tra biến tuổi trước khi tạo biến nhóm tuổi. Nếu biến nhóm tuổi là tuổi chẵn
(tức là không có số thập phân sau dấu phẩy) như 30, 31, 32.. tuổi (không phải là 30.7
tuổi…), thì tạo biến mới như trên.
Nếu là tuổi lẻ (30,7 tuổi; 34,5 tuổi…) thì khi tạo biến mới như <30 tuổi, thì phải viết
“Lowest thru 29.99” như trên.

2 Tương tự, ta sử dụng Menu Transform - Recode – Into difference variables để mã


hoá biến gestwks thành biến gestcat.

26
Thống kê mô tả
1 Tìm hiểu số liệu

2 Tải và lưu tập tin số liệu So lieu NC THA.sav từ trang web elearning của khóa
học vào máy tính của bạn.

Số liệu này lấy từ nghiên cứu về tình trạng và các yếu tố nguy cơ của tăng huyết áp
ở người cao tuổi

Sinh viên thực hiện quá trình làm sạch số liệu để tìm hiểu và chuẩn bị số liệu cho phân
tích.
2 Thống kê mô tả

Thống kê mô tả nhằm mục đích mô tả đối tượng nghiên cứu và những yếu tố nguy cơ
liên quan đến vấn đề nghiên cứu. Việc mô tả một cách rõ ràng và chính xác thông tin
của đối tượng nghiên cứu giúp cho những người đọc báo cáo kết quả nghiên cứu hiểu rõ
hơn đặc điểm của nghiên cứu và dân số nghiên cứu. Các thông tin được chọn để đưa ra
trong thống kê mô tả liên quan chặt chẽ đến những thông tin trong thống kê suy luận. Vì
vậy trước khi bạn tiến hành phân tích thống kê mô tả thì bạn phải xác định rõ các biến mà
bạn cần phải miêu tả hay nói một cách khác bạn phải có một kế hoạch phân tích rõ ràng.

1 Để tìm hiểu rõ cách lập kế hoạch phân tích cho toàn bộ báo cáo bạn hãy đọc
phần 3.2 và 3.3 trong Cuốn giáo trình Thống kê y tế Công cộng: phần 2 Phân tích số
liệu (trang 48-51). Riêng phần lập kế hoạch cho phân tích mô tả bạn hãy đọc phần
3.4.1 trong tài liệu trên

2.1. Kế hoạch phân tích


Một cách tóm tắt, kế hoạch phân tích bao gồm các bước sau:
1. Xác định câu hỏi phân tích. Câu hỏi này dựa trên các nội dung mà mục tiêu nghiên
cứu yêu cầu. Đây là phần rất quan trọng để định hướng phân tích theo đúng mục
tiêu của nghiên cứu
Ví dụ:

27
Mục tiêu nghiên cứu là: Xác định yếu tố nguy cơ của lối sống liên quan đến bệnh tăng
huyết áp
Câu hỏi phân tích có thể là:
- Lối sống ít vận động có phải là yếu tố nguy cơ của bệnh tăng huyết áp hay không?
- Tỷ lệ tăng huyết áp ở người ít vận động có cao hơn người vận động nhiều hay
không?
- Có sự khác nhau về tỷ lệ mắc bệnh tăng huyết áp ở người có và ít vận động
không?
2. Xác định các giả thuyết trong phân tích (đối với các câu hỏi phân tích suy luận).
Điều này giúp cho việc xem xét kết quả phân tích và phiên giải sau này
Ví dụ:
Câu hỏi phân tích là:
- Có sự khác biệt huyết áp tâm thu trung bình giữa nam và nữ hay không?
Giả thuyết:
Ho: HATT trung bình của nam và nữ không khác nhau
Ha: HATT trung bình của nam và nữ khác nhau
Câu hỏi:
Mô tả HATT trung bình theo hai giới?
Câu hỏi này không cần và không có giả thuyết vì đây là câu hỏi yêu cầu thực hiện
thống kê mô tả đơn thuần.
3. Liệt kê các biến số và tính chất của biến số, mối liên qua giữa các biến số
Ví dụ:
a. Trong câu hỏi “Có sự khác biệt huyết áp tâm thu trung bình giữa nam và nữ hay
không?” có:
Biến số phụ thuộc: HATT, là biến định lượng
Biến số độc lập: giới tính, là biến nhị giá
b. Trong câu hỏi “Mô tả HATT trung bình theo hai giới?” có 2 biến số
Biến số HATT: biến định lượng
Biến số giới tính: biến nhị giá

28
4. Lựa chọn phương pháp trình bày số liệu và thống kê thích hợp
Ví dụ:
Đối với câu 3a: đây là so sánh trung bình giữa hai nhóm đối tượng độc lập chọn
kiểm định thống kê t-không ghép cặp
Đối với câu hỏi 3b: đây là mô tả mối liên quan giữa hai biến số, 1 biến định lượng, 1
biến định tính lựa chọn cách trình bày như sau:
- Dùng số thống kê mô tả: trung bình và độ lệch chuẩn của HATT theo 2 giới (nếu
HATT có phân phối chuẩn)
- Dùng đồ thị (biểu đồ): Box-and-Whisker
5. Phiên giải các kết quả: dựa trên các kết quả để trả lời mục tiêu nghiên cứu
Ngoài ra, cần lưu ý là mỗi loại nghiên cứu có những quy định riêng rẽ về cách trình bày
và mô tả số liệu. Nói chung, nghiên cứu cắt ngang (nghiên cứu mô tả) thì được mô tả mà
không có so sánh (kiểm định thống kê) còn nghiên cứu phân tích (thuần tập, bệnh chứng)
luôn có so sánh các yếu tố liên quan tương ứng ở từng nhóm. Ví dụ nghiên cứu thuần tập
thì phải so sánh các đặc tính, yếu tố nguy cơ khác giữa nhóm phơi nhiễm và nhóm không
phơi nhiễm với yếu tố mà nhà nghiên cứu muốn đánh giá; còn nghiên cứu bệnh chứng thì
phải tiến hành so sánh các đặc tính, yếu tố nguy cơ khác của những người bị bệnh và
không bị bệnh.
2.2. Lựa chọn đại lượng mô tả biến số
Như trong các ví dụ trên, việc chọn đại lượng mô tả cho biến liên tục phụ thuộc vào phân
bố của biến đó. Nếu biến có phân bố chuẩn, giá trị trung bình và độ lệch chuẩn được
dùng để mô tả đại lượng được thể hiện bởi biến đó. Nhưng nếu biến đó không có phân bố
chuẩn thì giá trị trung vị, khoảng (giá trị nhỏ nhất; giá trị lớn nhất) được dùng để mô tả
cho biến đó.

29
Bảng 1: Lựa chọn đại lượng mô tả 1 biến số
Biến số Định lượng Thứ bậc Danh định
Trình bày số liệu - Phân nhóm số - Bảng phân phối - Bảng phân phối
liệu tần suất (sắp xếp tần suất (sắp xếp
- Bảng phân phối theo thứ tự) theo tần suất)
tần suất - Có thể dùng % - Không dùng %
- Có thể dùng % tích luỹ tích luỹ
tích luỹ
Đồ thị, biểu đồ Histograms Biểu đồ cột rời Biểu đồ cột rời
Box-and-Whisker Biểu đồ bánh Biểu đồ bánh
Thống kê tóm tắt (phân Trung bình Không cần thiết
phối bình thường) Độ lệch chuẩn
Phân phối không bình Trung vị
thường Phạm vi (min, max,
phân vị)

Bảng 2: Lựa chọn đại lượng mô tả mối liên quan giữa hai biến số
Biến số Định lượng Phân loại
Định lượng - Phân tán đồ (biểu đồ - Boxplot
chấm điểm) - Case summaries
- Hệ số tương quan
Phân loại - Boxplot Bảng chéo (Crosstabs)
- Case summaries
Giả định Các quan sát là độc lập
Biến định lượng có phân phối chuẩn

3 Mô tả biến số định lượng


3.1. Mô tả 1 biến số:
Bài tập 1: Mô tả các đặc tính của dân số nghiên cứu như HATT, HATTr, chiều cao, cân
nặng, vòng ngực, vòng bụng, BMI
Ví dụ HATT
Bước 1: Kiểm tra tính chuẩn của biến số:
Vẽ histogram có kết quả như sau:

30
70

60

50

40

30

20

10 Std. Dev = 24.93


Mean = 137.3
0 N = 190.00
100.0 120.0 140.0 160.0 180.0 200.0 220.0

Huyet ap tam thu

Một cách khác để kiểm tra phân phối chuẩn là sử dụng sơ đồ P-P plot (Normal P-P plot)
với menu Graphs – P-P sau đó chọn biến cần kiểm định vào ô Variable và có kết quả như
sau:

Normal P-P Plot of Huyet ap tam thu


1.00

.75

.50
Expected Cum Prob

.25

0.00
0.00 .25 .50 .75 1.00

Observed Cum Prob

Đường Normal P-P plot càng nằm gần đường chéo của hình thì phân phối càng có tính
chuẩn.
Bước 2: Mô tả biến số

31
Huyết áp tâm thu có phân phối chuẩn nên các giá trị trung bình và độ lệch chuẩn được sử
dụng để mô tả tóm tắt biến số này.

Descriptive Statistics

N Minimum Maximum Mean Std. Deviation


Huyet ap tam thu 190 90 220 137.29 24.932
Valid N (listwise) 190

Nghiên cứu này có 190 đối tượng, huyết áp tâm thu trung bình của các đối tượng này là
khoảng 137 mmHg (độ lệch chuẩn là 24.9 mmHg). Huyết áp tâm thu thấp nhất là 90
mmHg, cao nhất là 220 mmHg. Các giá trị của HATT được mô tả như trong hình 1.

A
200
Huyet ap tam thu

150

100

(Cách vẽ: Graphs – Interrative – Boxplot)


Ngoài ra, chúng ta có thể mô tả theo cách phân nhóm giá trị của biến số để có thông tin
về tình trạng cao huyết áp vì thực tế, kết quả trên chưa thể hiện được mục đích chúng ta
mong muốn là thể hiện tình trạng THA của các đối tượng. Sau khi phân nhóm (xem lại
BT1) chúng ta có kết quả sau:

32
THATTHU

Cumulative
Frequency Percent Valid Percent Percent
Valid khong tha tthu 36 18.8 18.9 18.9
co tha tthu 154 80.6 81.1 100.0
Total 190 99.5 100.0
Missing System 1 .5
Total 191 100.0

Có 154 đối tượng có tăng huyết áp tâm thu (chiếm tỷ lệ 81.1%).


Hoặc chúng ta có thể thành nhiều mức độ như:
Mức độ THA HATThu HATTr
Không THA: HATThu < 120 và HATTr < 80
Tiền THA: 120-139 hoặc 80-89
THA độ 1: 140-159 hoặc 90-99
THA độ 2: ≥ 169 hoặc ≥ 100

Ta có kết quả:

THA

Cumulative
Frequency Percent Valid Percent Percent
Valid khong tha 30 15.7 15.7 15.7
tien tha 62 32.5 32.5 48.2
tha1 53 27.7 27.7 75.9
tha2 46 24.1 24.1 100.0
Total 191 100.0 100.0

(Sinh viên tự suy nghĩ để thực hiện được thao tác tạo biến để tính toán như bảng
trên)
Bài tập 2: Tiếp tục thực hiện với các biến số định lượng còn lại trong bộ số liệu
3.2. Mô tả mối liên quan giữa 2 biến số
a. Mối liên quan giữa 1 biến định lượng và 1 biến phân loại:
Bài tập 3: Mô tả cân nặng theo giới.

33
Theo bảng 2, chúng ta có thể sử dụng: Case summaries và Box plot. Tuy nhiên trước tiên
phải kiểm tra phân phối của biến cân nặng ở hai nhóm.

Nam Nu

40

30
Count

20

10

30.0 40.0 50.0 60.0 70.0 30.0 40.0 50.0 60.0 70.0

Can nang Can nang

(Thao tác: Graphs – Interrative – Histogram: lưu ý chọn mô hình vẽ theo count, đưa hai
biến vào vị trí, chọn histogram để chọn normal curve)
Theo biểu đồ trên, số lượng nam giới trong nghiên cứu này ít hơn nữ giới (điều này
chúng ta có thể kiểm tra khi mô tả giới tính trong nghiên cứu). Điều này một phần làm
cho phân phối của biến số cân nặng của nam giới không có phân phối chuẩn một cách rõ
ràng như nữ giới. Chúng ta có thể sử dụng cả trung bình, trung vị, độ lệch chuẩn để xem
xét thêm.
Mô tả hai biến số có kết quả như sau:
(Thao tác: Analyze – Reports – Case summaries: trong đó lưu ý chọn Statistics để lựa
chọn các con số thống kê cần báo cáo)

Case Summaries

Can nang
Gioi N Mean Median Minimum Maximum Std. Deviation
Nam 50 48.880 46.500 36.0 64.0 8.1432
Nu 137 43.938 43.500 29.0 72.0 7.5633
Total 187 45.259 45.000 29.0 72.0 8.0066

34
80

102
70

60

50

40
Can nang

30

20
N= 50 137

Nam Nu

Gioi

(Thao tác: Graphs – Boxplot – Simple - Define)


Rõ ràng kết quả cho thấy chỉ có 50 nam giới trong nghiên cứu này, cân nặng trung bình
của nam cao hơn nữ (46.5 kg so với 43.5 kg). Hình vẽ box plot minh hoạ trực quan sự
khác biệt này.
Bài tập 4: Mô tả theo tuổi các biến số sau: HATT, HATTr, Chiều cao, vòng bụng.
b. Mối liên quan giữa hai biến định lượng:
Bài tập 5: Mô tả sự thay đổi của HA tâm thu theo vòng bụng (hoặc: HA tâm thu thay đổi
như thế nào khi vòng bụng thay đổi)
Theo bảng 2, chúng ta có thể sử dụng phân tán đồ và hệ số tương quan. Nhưng trước hết
phải kiểm tra phân phối của hai biến này.

35
70

60

50

40

30

20

10 Std. Dev = 24.93


Mean = 137.3
0 N = 190.00
100.0 120.0 140.0 160.0 180.0 200.0 220.0

Huyet ap tam thu

60

50

40

30

20

10 Std. Dev = 7.43


Mean = 87.8
0 N = 186.00
65.0 70.0 75.0 80.0 85.0 90.0 95.0 100.0 105.0

Vong bung

Hai biến này đều có phân phối chuẩn. Tiếp tục thực hiện thao tác vẽ phân tán đồ (scatter)
và tính hệ số tương quan.

36
110

100

90

80
Vong bung

70

60
80 100 120 140 160 180 200 220 240

Huyet ap tam thu

Hình trên là scatter graph với đường fit line ước lượng mối liên hệ giữa HATT và cân
nặng. Theo hình trên thì dường như không có sự ảnh hưởng lên HATT của sự thay đổi
vòng bụng.
Thao tác: Graphs – Scatter – Simple – Define - chọn biến vào trục X và Y. Hình vẽ sau
khi hoàn thành các thao tác này không có đường fit line, để vẽ đường này, double click
vào hình vẽ, màn hình hiện lên như sau:

37
Khi đó chọn Chart, sau đó chọn Options, chọn Total trong ô Fit line. Như vậy hoàn tất
việc vẽ phân tán đồ.
Thao tác tính hệ số tương quan như sau: Analyze – Correlate – Bivariate: chọn 2 biến số
cần phân tích vào ô Variables. Kết quả như sau:

Correlations

Huyet ap
tam thu Vong bung
Huyet ap tam thu Pearson Correlation 1 .046
Sig. (2-tailed) . .536
N 185 185
Vong bung Pearson Correlation .046 1
Sig. (2-tailed) .536 .
N 185 186

Theo kết quả trên, hệ số tương quan giữa HATT và vòng bụng là 0.046, như vậy không
có mối tương quan giữa HATT và vòng bụng.
Nhắc lại lý thuyết:
- Hệ số tương quan R luôn luôn nằm trong đoạn [-1,1]
38
- Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến (nghĩa là khi biến số
này tăng lên thì giá trị của biến số liên quan cũng tăng lên); hệ số tương quan r âm
chứng tỏ hai biến số là nghịch biến (khi giá trị 1 biến tăng thì biến kia giảm).
- Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số.
- Nếu r=0 (hay r < 0,1) , không có mối liên hệ tuyến tính giữa hai biến số. Nếu r từ
0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình và trên 0,5 là quan hệ
mạnh.
- R2 nói lên tỉ lệ sự biến thiên của biến số phụ thuộc được giải thích bởi biến số độc
lập
Bài tập 6:
Mô tả sự liên quan giữa HATTr và cân nặng
Mô tả sự liên quan giữa cân nặng và vòng bụng
4 Mô tả biến số phân loại (định tính)
a. Mô tả 1 biến số phân loại:
Việc mô tả 1 biến số phân loại rất giống với thao tác trong quản lý số liệu và làm sạch số
liệu. Chúng ta dùng bảng phân phối tần số và các biểu đồ để minh hoạ.
Bài tập 7: Mô tả dân số nghiên cứu theo các đặc tính về tuổi, giới…

Tuoi

Cumulative
Frequency Percent Valid Percent Percent
Valid 60-69 tuoi 45 24.2 24.2 24.2
70-79 tuoi 99 53.2 53.2 77.4
80-89 tuoi 37 19.9 19.9 97.3
>= 90tuoi 5 2.7 2.7 100.0
Total 186 100.0 100.0

39
Tuoi
120

100

80

60

40
Frequency

20

0
60-69 tuoi 70-79 tuoi 80-89 tuoi >= 90tuoi

Tuoi

Như vậy, trong nghiên cứu này, lứa tuổi 70-79 tuổi có số lượng nhiều nhất với 99 người
(chiếm 53.2%), lứa tuổi trên 90 ít nhất.
b. Mô tả mối liên quan giữa hai biến số phân loại
Bài tập 8: Mô tả tỷ lệ có tiền căn bị THA ở nam và nữ.
Theo bảng 2, chúng ta sử dụng bảng chéo để mô tả các tỷ lệ này. Thao tác như sau:
Analyze – Descriptive Statistics – Crosstabs: chọn biến giới tính vào hàng (row), chọn
biến đã từng bị THA vào cột (column), chọn Cells để lấy phần trăm theo giới tính (theo
hàng). Kết quả như sau:

Gioi * Ban than da bi THA Crosstabulation

Ban than da bi THA


Khong biet/
Co Khong khong tra loi Total
Gioi Nam Count 13 32 6 51
% within Gioi 25.5% 62.7% 11.8% 100.0%
Nu Count 39 65 30 134
% within Gioi 29.1% 48.5% 22.4% 100.0%
Total Count 52 97 36 185
% within Gioi 28.1% 52.4% 19.5% 100.0%

Như vậy, tỷ lệ có tiền căn THA ở nam là 25.5%, thấp hơn tỷ lệ có tiền căn THA ở nữ
(29.1%). Tuy nhiên sự chênh lệch này là không nhiều.

40
Lưu ý: Điều quan trọng là phải chọn tỷ lệ cho đúng. Vì ở đây chúng ta muốn so sánh tỷ lệ
có THA ở nam và ở nữ, do đó mẫu số là tổng số nam và tổng số nữ. Vậy phải lấy phần
trăm theo biến giới tính.
Bài tập 9: Mô tả tỷ lệ bị tai biến mạch vành ở nam và nữ.
5. Trình bày kết quả
Việc trình bày kết quả không chỉ đơn thuần là trình bày các thao tác thực hiện. Điểm cần
trình bày là chúng ta phải phiên giải kết quả theo yêu cầu mục tiêu của nghiên cứu. Trong
khi báo trình bày nghiên cứu, có hai phần chính:
- Báo cáo phương pháp phân tích số liệu: Thông thường được ghi ngắn gọn làm hai
phần
o Phân tích mô tả
o Phân tích suy luận
- Báo cáo kết quả phân tích: báo cáo theo từng mục như:
o Mô tả dân số nghiên cứu và các yếu tố liên quan, bênh…
o Kết quả theo từng mục tiêu.
Ví dụ:
Phương pháp phân tích số liệu:
Phân tích mô tả: các giá trị tỷ lệ phần trăm được sử dụng để mô tả các biến số định tính,
giá trị trung bình, độ lệch chuẩn được sử dụng mô tả biến định lượng. Khi biến định
lượng không có phân phối chuẩn, giá trị trung vị và các giá trị lớn nhất nhỏ nhất được sử
dụng
Phân tích suy luận: Kiểm định t được sử dụng để so sánh trung bình cân nặng giữa hai
giới….
Kết quả: Bảng 1: Mô tả các đặc tính của đối tượng nghiên cứu
Các đặc tính N Trung bình (SD) Trung vị (Max- min)
HA tâm thu
HA tâm trương
Cân nặng

41
Thống kê cho biến số định lượng – nghiên cứu cắt ngang
(Bộ số liệu IVF)

2 Học viên tải tập tin ivf.sav trên E-learning và Save vào máy tính.

Mở tập tin số liệu ivf.sav.


Số liệu này được lấy từ nghiên cứu về những đứa trẻ sinh một của những bà mẹ
được thụ thai trong ống nghiệm (in-vitro fertilisation). Nghiên cứu này đã được báo
cáo trong tạp chí BMJ (1990;300:1229-1233). Nghiên cứu này bao gồm 641 đứa
trẻ.
Số liệu này gồm 6 biến số có chi tiết như sau:
STT Biến số Nhãn của biến Phiên giải biến số- mã hoá
1 Id identity number of Mã số nghiên cứu của bà mẹ
mother and baby và trẻ
2 Matage maternal age in years Tuổi của mẹ (năm tuổi)
3 Ht hypertension 1=yes, Cao huyết áp thai kì 1= có 2
2=no = không
4 Gestwks gestational age in weeks Tuổi thai (tính theo tuần)
5 Sex sex of baby 1=male, Giới tính của trẻ 1=trai 2=gái
2=female
6 Bweight birth weight in gms Trọng lượng sinh tính theo
grams

I. Chọn lựa kiểm định:


Bảng dưới đây mô tả nguyên tắc chọn lựa kiểm định phù hợp. Nguyên tắc bao gồm:
1. Dựa vào thang đo của biến số độc lập và biến số phụ thuộc
2. Dựa vào các giả định (các yêu cầu) của kiểm định: phân phối của biến số định
lượng, sự giống nhau của các phương sai trong các nhóm.

42
Thang đo Loại thiết kế nghiên cứu (loại biến số độc lập)
của biến số
phụ thuộc
Hai nhóm Ba hay Trước và ≥ 3 can Liên hệ giữa
đối tượng nhiều nhóm sau nghiên thiệp trên hai biến số
gồm các cá đối tượng cứu trên cùng các đối
nhân khác gồm các cá cùng các đối tượng
nhau nhân khác tượng
nhau
Liên tục t-test không Phân tích t-test ghép Phân tích Hồi qui
(phân phối ghép cặp phương sai cặp phương sai tuyến tính
chuẩn) đo lường lặp và tương
lại quan
pearson
Danh định χ2 bảng 2 x χ2 bảng 3 x test Cochrance Hệ số của
n n McNemar Q bảng n x m
(OR, RR…)
Thứ tự Kiểm định Kruskal- Kiểm định Friedman Hệ số tương
sắp hạng – Wallis sắp hạng có quan
tổng Mann- dấu Spearman
Whitney Wilcoxon

II. Thống kê phân tích - biến số định lượng

 Sơ lược lí thuyết về so sánh 2 trung bình

Kiểm định t dùng để so sánh 2 trung bình của của biến số định lương có phân phối
bình thường. Kiểm định t gồm có (a) Kiểm định t bắt cặp để so sánh trung bình
trước và sau khi can thiệp trên một nhóm và (b) kiểm định t không bắt cặp để so
sánh trung bình của 2 nhóm độc lập.
Có hai loại kiểm định t không bắt cặp (khi so sánh trung bình của 2 nhóm độc lập).
Kiểm định t có giả định 2 phương sai bằng nhau và kiểm định t không có giả định
phương sai bằng nhau. Hai loại kiểm định này có chung nguyên lí nhưng khác
nhau trong cách tính toán độ tự do (của kiểm định t) và cách tính sai số chuẩn.
Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau
Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung
bình của 2 nhóm độc lập và đòi hỏi 2 giả định.
- Các giá trị của biến số của cả 2 dân số có phân phối bình thường
- Ðộ lệch chuẩn ở 2 nhóm dân số là bằng nhau.
Nếu chúng ta kí hiệu:

43
x1 : giá trị trung bình ở nhóm 1
x2 : giá trị trung bình ở nhóm 2
n1 : cỡ mẫu của nhóm 1
n2 : cỡ mẫu của nhóm 2
s12 : phương sai ở nhóm 1
s22 : phương sai ở nhóm 2
Chúng ta có thể xác định độ tự do, sai số chuẩn và giá trị của thống kê t theo công
thức sau:
- Độ tự do của kiểm định t: df = n1 + n2 - 2

- Sai số chuẩn: se = s p 1/ n1 + 1 / n2 với

(n1 − 1) s12 + (n2 − 1) s 22


sp =
(n1 − 1) + (n2 − 1)

x1 − x2 x1 − x2
- Giá trị thống kê t: t = =
se s p 1 / n1 + 1 / n2

Sau khi tính được giá trị thống kê t, người ta tra bảng phân phối t với (n1 +n1 - 2)
độ tự do và tính được xác suất p. Thông thường nếu p <0,05 người ta bác bỏ giả
thuyết H0.
Kiểm định t không bắt cặp không có giả định 2 phương sai bằng nhau
Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung
bình của 2 nhóm độc lập và chỉ đòi hỏi 1 giả định.
- Các giá trị của biến số của cả 2 dân số có phân phối bình thường
Nếu chúng ta kí hiệu:
x1 : giá trị trung bình ở nhóm 1
x2 : giá trị trung bình ở nhóm 2
n1 : cỡ mẫu của nhóm 1
n2 : cỡ mẫu của nhóm 2
s12 : phương sai ở nhóm 1
s22 : phương sai ở nhóm 2
Chúng ta có thể xác định độ tự do, sai số chuẩn và giá trị của thống kê t theo công
thức sau:

44
  s12 s 22 
2

  +  
  n1 n 2  
- Độ tự do của kiểm định t: d . f . =  4 4  < n1 + n2 -2
 s1 s2 
+
 n12 (n1 − 1) n 22 (n 2 − 1) 
 

s12 s22
- Sai số chuẩn: se = +
n1 n2

x1 − x2 x −x
- Giá trị thống kê t: t = = 1 2
se s12 s 22
+
n1 n2
Sau khi tính được giá trị thống kê t, người ta tra bảng phân phối t với độ tự do phù
hợp (như tính toán ở trên) và tính được xác suất p. Thông thường nếu p <0,05
người ta bác bỏ giả thuyết H0.
Kiểm định phi tham số
Nếu phân phối không phải là bình thường (thí dụ như bị lệch dương), có thể sử
dụng phép biến đổi (thường là biến đổi log) để đưa phân phối về bình thường hoặc
dùng test phi tham số. Kiểm định phi tham số có ưu điểm là không đòi hỏi giả định
về phân phối của biến số định lượng nhưng có khuyết điểm là không thể ước lượng
được tham số, đó là như không thể ước lượng khoảng tin cậy 95% hiệu số của
trung bình giữa 2 nhóm.
1.1. So sánh trung bình mẫu với trung bình quần thể:
Bài tập 1: Cân nặng sơ sinh trong nghiên cứu này có khác cân nặng sơ sinh trung
bình của quần thể (là 3000 gr) hay không?
Kế hoạch phân tích:
- Đây là câu hỏi nghiên cứu phân tích: nhằm trả lời có hay không có sự khác biệt
có ý nghĩa giữa cân nặng sơ sinh trung bình của mẫu nghiên cứu và quần thể
- Giả thuyết:
o Ho: CNSS nghiên cứu = 3000 gr
o Ha: CNSS nghiên cứu ≠ 3000 gr
- Liệt kê các biến: chỉ có 1 biến số - đó là biến CNSS: đây là biến định lượng, có
phân phối chuẩn (sinh viên cần kiểm chứng lại phân phối của CNSS)
- Chọn kiểm định: kiểm định t so sánh trung bình mẫu và trung bình quần thể
- Thao tác và phiên giải:

45
Analyze Compare means One-sample t-test: chọn biến số và số trung bình
quần thể cần so sánh
Kết quả như sau:

One-Sample Statistics

Std. Error
N Mean Std. Deviation Mean
birth weight in gms 641 3123.2496 664.57546 26.24915

One-Sample Test

Test Value = 3000


95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
birth weight in gms 4.695 640 .000 123.2496 71.7047 174.7945

Kết quả trên cho thấy, cân nặng sơ sinh trung bình của 641 đứa trẻ trong nghiên
cứu này là 3123.25gr (độ lệch chuẩn là 664.6gr). Cân nặng sơ sinh trung bình của
trẻ em trong nghiên cứu này cao hơn cân nặng sơ sinh trung bình của quần thể là
123.25 gr (khoảng tin cậy 95% của sự khác biệt là 71.7-174.8gr). Sự khác biệt này
có ý nghĩa thống kê với p<0.001. Vậy, cân nặng sơ sinh trung bình của trẻ em
trong nghiên cứu lớn hơn trong quần thể.
(Với p<0.001 bác bỏ giả thuyết Ho. Vậy, cân nặng sơ sinh trung bình của trẻ
em trong nghiên cứu lớn hơn trong quần thể).
Bài tập 2: Sinh viên trả lời các câu hỏi sau:
- Tuổi thai trung bình trong nghiên cứu này có khác với tuổi thai trung bình của
quần thể (là 37 tuần tuổi) hay không?
- Tuổi trung bình cuả các bà mẹ trong nghiên cứu này có bằng với tuổi trung
bình các bà mẹ trong quần thể (là 28 tuổi) hay không?
1.2. So sánh 2 trung bình ở hai nhóm đối tượng gồm các cá nhân khác nhau:
Bài tập 3: Cân nặng sơ sinh trung bình của nam và nữ có khác nhau hay không?
Kế hoạch phân tích:
- Đây là câu hỏi nghiên cứu phân tích: nhằm trả lời có hay không có sự khác biệt
có ý nghĩa giữa cân nặng sơ sinh trung bình của trẻ nam và nữ
- Giả thuyết:
o Ho: CNSS nam = CNSS nữ
o Ha: CNSS nam ≠ CNSS nữ

46
- Liệt kê các biến:
o Biến độc lập: giới tính
o Biến phụ thuộc: cân nặng sơ sinh
- Chọn kiểm định: kiểm định t không ghép cặp
Thao tác và phiên giải:
Analyze – Compare Means – Independent Samples T test: hiện ra cửa sổ
Independent Samples T test.
Đưa biến số cần kiểm định, thí dụ như biến bweight, vào hộp Test Variable(s) và
đưa biến số phân nhóm vào hộp Group Variable.

Sau đó nhấp vào nút lệnh Define Groups để cho biết các giá trị phân nhóm cần so
sánh. Do ở đây chúng ta cần so sánh nhóm nam (có giá trị là 1) và nhóm nữ (có giá
trị là 2) nên chúng ta đưa 2 giá trị nào vào 2 ô của Use specified values.

Continue OK
Kết quả như sau:

Group Statistics

sex of baby Std. Error


1=male, 2=female N Mean Std. Deviation Mean
birth weight in gms 1.00 324 3208.6481 665.30226 36.96124
2.00 315 3032.1460 651.73730 36.72124

47
Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
birth weight in gms Equal variances
.695 .405 3.387 637 .001 176.5021 52.11679 74.16063 278.84361
assumed
Equal variances
3.388 636.963 .001 176.5021 52.10165 74.19035 278.81389
not assumed

Lưu ý: Trước khi phiên giải cần lưu ý rằng, kiểm định t không ghép cặp đòi hỏi 2
giả định (2 yêu cầu):
- Trọng lượng sơ sinh có phân phối bình thường (sinh viên kiểm tra băng
histogram)
- Hai phương sai trong hai nhóm bằng nhau (test Levene)
Kết quả:
Xem 2 bảng kết quả: Cân nặng trung bình của 324 trẻ trai trong nghiên cứu này là
3208.6 gram, của 315 trẻ gái là 3032.15 gram. Vì trọng lượng sơ sinh có phân phối
bình thường chúng ta có thể sử dụng t-test. Để biết chúng ta nên sử dụng t test giả
định phương sai bằng nhau (equal variances assumed) hay t test không giả định
phương sai bằng nhau (equal variances not assumed) chúng ta hãy xem kết quả của
test Levene (kiểm định sự bằng nhau của 2 phương sai). Do mức nghĩa của test
Levene = 0,405 nên có thể kết luận rằng 2 phương sai bằng nhau, do đó chúng ta
xem kết quả ở hàng trên (hàng có dòng chữ equal variances not assumed).
Giá trị thống kê t là 3,387 và mức ý nghĩa (Sig. hay còn gọi là p-value) là 0.001.
Do đó chúng ta bác bỏ giả thuyết Ho và kết luận có sự khác biệt về trọng lượng sơ
sinh giữa trẻ trai và trẻ gái (p=0.001).
Phiên giải:
Cân nặng trung bình của 324 trẻ trai trong nghiên cứu này là 3208.6 gram (độ lệch
chuẩn 665.3gr), của 315 trẻ gái là 3032.15 gram (độ lệch chuẩn 651.7gr). Vì kết
quả kiểm định của test Levene cho thấy hai phương sai trong hai nhóm bằng nhau
(p=0.405) nên kiểm định t không ghép cặp với giả định hai phương sai bằng nhau
được sử dụng. Kết quả cho thấy, cân nặng sơ sinh trung bình của trẻ nam cao hơn
trẻ nữ là 176.5 gr, sự khác biệt này có ý nghĩa thống kê với p=0.001.
Bài tập 4: Sinh viên trả lời các câu hỏi sau:

48
- Cân nặng sơ sinh trung bình có khác nhau giữa bà mẹ có và không có tăng
huyết áp hay không?
- Tuổi thai trung bình của bà mẹ có và không có tăng huyết áp có khác nhau hay
không?
1.3. So sánh nhiều hơn 2 trung bình:

 Sơ lược lí thuyết về so sánh các trung bình của 3 nhóm.

Khi chúng ta cần so sánh trung bình của nhiều nhóm, chúng ta không thể dùng
nhiều kiểm định t để so sánh từng cặp của nhóm vì như vậy chúng ta sẽ làm tăng
nguy cơ của sai lầm loại 1. Phương pháp thích hợp để được dùng cho trường hợp
này được gọi là test ANOVA. Test ANOVA (phân tích phương sai) được xem như
là sự tổng quát hóa của test t (test t dùng cho 2 nhóm và test ANOVA dùng cho 2
hay nhiều hơn các nhóm). Ðiều kiện để test ANOVA hợp lệ là các giá trị có phân
phối bình thường và phương sai của các nhóm xấp xỉ nhau.
Trong kết xuất của test ANOVA, chúng ta thấy có sự hiện diện của thống kê F
(thống kê Fisher). Trong trường hợp chỉ có 2 nhóm, thống kê F chính xác bằng
bình phương của thống kê t và 2 phương pháp cho ra cùng một mức ý nghĩa.
Bài tập 5: Hãy so sánh trọng lượng của trẻ sinh ra từ con của các bà mẹ thuộc các
nhóm tuổi khác nhau (≤ 30 tuổi, 31 đến 35 tuổi, ≥ 36 tuổi).
Kế hoạch phân tích:
- Đây là câu hỏi nghiên cứu phân tích: nhằm trả lời có hay không có sự khác biệt
có ý nghĩa giữa cân nặng sơ sinh trung bình con của các bà mẹ trong các nhóm
tuổi khác nhau
- Giả thuyết:
o Ho: CNSS của trẻ con các bà mẹ trong cả 3 nhóm tuổi là như nhau
o Ha: Có ít nhất 1 sự khác biệt về CNSS trung bình con của các bà mẹ
trong các nhóm tuổi
- Liệt kê các biến:
o Biến độc lập: nhóm tuổi mẹ
o Biến phụ thuộc: cân nặng sơ sinh
- Chọn kiểm định: kiểm định ANOVA (one-way anova)
- Thao tác và phiên giải:

49
Trước hết, sinh viên cần tạo ra biến mới là biến nhóm tuổi của mẹ (matagr) theo
yêu cầu trên.
Sau đó thao tác:
Analyze Compare Means One-way ANOVA để hiện ra cửa sổ One-way
ANOVA. Đưa biến cần so sánh (biến phụ thuộc) là bweight đặt trong hộp
Dependent list. Đưa biến số độc lập là matagr vào ô Factor.

Lưu ý: Kiểm định ANOVA cũng yêu cầu:


- Cân nặng sơ sinh có phân phối chuẩn
- Phương sai trong các nhóm là như nhau
Do đó, để có thể có con số thống kê mô tả và để kiểm định phương sai của các
nhóm là đồng nhất (điều kiện để kiểm định ANOVA có giá trị) chúng ta nhấp vào
ô Options. Khi đó cửa sổ One-way ANOVA:Options xuất hiện, đánh dấu vào hai
hộp kiểm Descriptive (mô tả) và Homogeneity of Variance (kiểm định phương
sai đồng nhất). Nhấp continue để trở về và nhấp OK để hoàn tất. Kết quả được
trình bày ở hình sau:

Descriptives

birth weight in gms


95% Confidence Interval for
Mean
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
duoi 30 tuoi 128 3055.1953 753.28563 66.58167 2923.4422 3186.9484 .00 4520.00
tu 30 den 35 tuoi 273 3127.4908 642.29678 38.87357 3050.9595 3204.0222 630.00 4550.00
tu 36 tuoi tro len 240 3154.7208 638.87403 41.23914 3073.4822 3235.9594 825.00 4650.00
Total 641 3123.2496 664.57546 26.24915 3071.7047 3174.7945 .00 4650.00

50
Test of Homogeneity of Variances

birth weight in gms


Levene
Statistic df1 df2 Sig.
1.093 2 638 .336

ANOVA

birth weight in gms


Sum of
Squares df Mean Square F Sig.
Between Groups 835433.4 2 417716.711 .946 .389
Within Groups 2.82E+08 638 441735.600
Total 2.83E+08 640

Trả lời: Con bà mẹ tuổi dưới 30 có trọng lượng trung bình là 3055.2 gram, của bà
mẹ 31-35 là 3127.5 gram, của bà mẹ trên 36 tuổi là 3154.7 gram
Để sử dụng được kết quả phân tích ANOVA, cần kiểm tra yêu cầu đã nêu ở phần
trên:
- biến số phụ thuộc có phân phối bình thường - điều này đã được xác nhận từ đồ
thị histogram của trọng lượng sơ sinh
- phương sai của biến phụ thuộc ở các nhóm bằng nhau - điều này cũng được
xác nhận qua thống kê Levene với mức ý nghĩa (Sig.) là 0.336.
Vì vậy trong trường hợp này kiểm định ANOVA là có giá trị sử dụng. Với giá trị F
= 0.946 và mức ý nghĩa (Sig. hay còn gọi là p-value) là 0.389 chúng ta kết luận
không có sự khác biệt về trọng lượng sơ sinh của các nhóm tuổi bà mẹ.
Bài tập 6: So sánh tuổi thai trung bình trong các nhóm tuổi của mẹ.
1.4. Kiểm định phi tham số:
Xem lại bảng chọn lựa kiểm định
Thang đo Loại thiết kế nghiên cứu (loại biến số độc lập)
của biến số
phụ thuộc
Hai nhóm Ba hay Trước và ≥ 3 can Liên hệ giữa
đối tượng nhiều nhóm sau nghiên thiệp trên hai biến số
gồm các cá đối tượng cứu trên cùng các đối
nhân khác gồm các cá cùng các đối tượng
nhau nhân khác tượng
nhau
Liên tục t-test không Phân tích t-test ghép Phân tích Hồi qui

51
(phân phối ghép cặp phương sai cặ p phương sai tuyến tính
chuẩn) đo lường lặp và tương
lại quan
pearson
Danh định χ2 bảng 2 x χ2 bảng 3 x test Cochrance Hệ số của
n n McNemar Q bảng n x m
(OR, RR…)
Thứ tự Kiểm định Kruskal- Kiểm định Friedman Hệ số tương
sắp hạng – Wallis sắp hạng có quan
tổng Mann- dấu Spearman
Whitney Wilcoxon
Khi các kiểm định tham số (ô màu xanh) không sử dụng được do không đáp ứng
các yêu cầu (các giả định) của kiểm định như phân phối của biến phụ thuộc, các
phương sai bằng nhau, các kiểm định có thể được dùng để thay thế là kiểm định
phi tham số (ô màu vàng).
Bài tập 7: So sánh trọng lượng trung bình ở trẻ con bà mẹ cao huyết áp và bà mẹ
không cao huyết áp.
Vì kiểm định t không ghép cặp cho kết quả như sau:
Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
birth weight in gms Equal variances
15.979 .000 -5.977 638 .000 -442.2728 73.99082 -587.568 -296.978
assumed
Equal variances
-4.909 105.000 .000 -442.2728 90.09368 -620.912 -263.634
not assumed

Trong đó có p của Levene test là <0.001, do đó hai phương sai hai nhóm không
bằng nhau, kết quả kiểm định t-không ghép cặp với giả định hai phương sai không
được sử dụng. Chúng ta có thể:
- Đọc kết quả kiểm định ở dòng dưới (Equal variances not asssumed – không giả
định hai phương sai bằng nhau)
- Thực hiện kiểm định phi tham số
Analyze Non Parametric tests 2-Independent-Samples Tests. Đưa biến cần so
sánh vào hộp Test Variable List. Đưa biến số phân loại (biến độc lập) vào hộp
Grouping variable.

52
Cần lưu ý xác định các nhóm cần so sánh bằng cách nhấp vào nút lệnh Define
Groups. Nhấp OK để hoàn tất và xem kết quả như sau:

Ranks

hypertension 1=yes, 2=no N Mean Rank Sum of Ranks


birth weight in gms 1.00 89 231.74 20624.50
2.00 551 334.84 184495.50
Total 640

Test Statisticsa

birth weight
in gms
Mann-Whitney U 16619.500
Wilcoxon W 20624.500
Z -4.881
Asymp. Sig. (2-tailed) .000
a. Grouping Variable: hypertension 1=yes, 2=no

Trả lời: Có sự khác biệt có ý nghĩa thống kê của trọng lượng sơ sinh giữa con
những người bị cao huyết áp và những người không bị cao huyết áp (p<0.001).
Cần thấy rằng các kiểm định thống kê phi tham số không cho chúng ta số liệu
thống kê mô tả của số liệu như trọng lượng trung bình của con bà mẹ có và không
có có cao huyết áp. Điều này là do nguyên lý của thống kê phi tham số không tính
toán các quan sát bằng chính những đo lường thật của nó mà xếp hạng các giá trị
này và tính toán trên các thứ tự xếp hạng này. Trong quá trình báo cáo, nếu cần
trình bày các số liệu thống kê mô tả trước khi đưa ra kết luận về sự khác nhau,

53
chúng ta có thể sử dụng kết quả trong phần thống kê mô tả. Việc kết luận sự khác
nhau sẽ dựa vào giá trị thống kê của kiểm định phi tham số (dựa vào giá trị p-value
như trong kết quả p<0.001).

III. Tương quan và hồi quy:

 Phần đọc thêm: Tương quan và hồi quy


Tương quan
Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có
nhiều loại hệ số tương quan, nhưng chúng đều có giá trị từ -1 đến 1. Nếu chúng có
giá trị bằng zero có nghĩa là hai biến số độc lập và không quan hệ gì với nhau. Nếu
chúng có giá trị dương có nghĩa là hai biến số đồng biến với nhau, nếu chúng có
giá trị âm nghĩa là hai biến số nghịch biến. Giá trị tuyệt đối của hệ số tương quan
càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai trò của sai số
ngẫu nhiên sẽ ít hơn. Khi trị tuyệt đối của hệ số tương quan bằng một có nghĩa là
hoàn toàn không có sai số ngẫu nhiên.
Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r:

r=
∑ ( x − x )( y − y )
i i

∑ ( x − x ) ∑ ( y − y)
i
2
i
2

Và kiểm định t liên quan đến giả thuyết r ≠0 (không có sự tương quan) được
tính như sau:

n−2
t=r và có phân phối student với n-2 độ tự do.
1− r2
Hồi quy
Hồi quy là một mô hình toán học mô tả sự biến đổi của một biến số này theo những
biến số khác.
Một phương trình hồi quy có thể có dạng như sau:
cân nặng (kg) = 6,85 + 0,18 x tháng tuổi
(phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi)
theo phương trình này người ta gọi:
cân nặng: biến số phụ thuộc
tháng tuổi: biến số độc lập
6,85: hệ số của hằng số (Constant), hay còn gọi là điểm chặn (intercept)

54
0,18: hệ số của biến số tháng tuổi.

Bài tập 8: Xác định sự tương quan giữa của biến số tuổi thai (gestwks) và trọng
lượng thai (bweight).
Thang đo Loại thiết kế nghiên cứu (loại biến số độc lập)
của biến số
phụ thuộc
Hai nhóm Ba hay Trước và ≥ 3 can Liên hệ giữa
đối tượng nhiều nhóm sau nghiên thiệp trên hai biến số
gồm các cá đối tượng cứu trên cùng các đối
nhân khác gồm các cá cùng các đối tượng
nhau nhân khác tượng
nhau
Liên tục t-test không Phân tích t-test ghép Phân tích Hồi qui
(phân phối ghép cặp phương sai cặ p phương sai tuyến tính
chuẩn) đo lường lặp và tương
lại quan
pearson
Danh định χ2 bảng 2 x χ2 bảng 3 x test Cochrance Hệ số của
n n McNemar Q bảng n x m
(OR, RR…)
Thứ tự Kiểm định Kruskal- Kiểm định Friedman Hệ số tương
sắp hạng – Wallis sắp hạng có quan
tổng Mann- dấu Spearman
Whitney Wilcoxon

Kế hoạch phân tích:


- Đây là câu hỏi nghiên cứu phân tích: nhằm xác định (mô tả và phân tích) mối
liên quan (tương quan) giữa cân nặng sơ sinh và tuổi thai
- Giả thuyết:
o Ho: CNSS không có liên quan với tuổi thai
o Ha: Có sự liên quan giữa tuổi thai và cân nặng sơ sinh
- Liệt kê các biến:
o Biến độc lập: tuổi thai
o Biến phụ thuộc: cân nặng sơ sinh
- Chọn kiểm định:
o mô tả bằng scatter graph (đã học trong phần thống kê mô tả),
o hệ số tương quan
o và hồi quy tuyến tính
- Thao tác và phiên giải:
Scatter graph:

55
Scattergram là đồ thị mô tả mối liên quan giữa hai biến số liên tục. Trong đó, trục
tung (Y axis) mô tả biến số phụ thuộc, trục hoành (X axis) mô tả biến số độc lập. Để
vẽ đồ thị này, vào menu Graphs – Scatter để làm xuất hiện cửa sổ Scatterplot.

Chọn kiểu Scatterplot đơn giản (simple). Nhấn nút đefine để tiếp tục. Sau đó đưa
biến số phụ thuộc (bweight) vào hộp Y axis, đưa biến độc lập (gestwks) vào hộp X
axis. Đến đây chúng ta có thể nhấp OK để hoàn tất nhưng nếu chúng ta muốn
phân biệt các điểm phân tán của trọng lượng trẻ trai và của trẻ gái, chúng ta
có thể đưa biến số phân loại (sex) vào hộp Set Markers by.

Đến đây, chúng ta có thể nhấp OK và xem kết quả.

56
5000

4000

3000

2000
Birthweight

1000 Sex of infant


Nu

0 Nam
20 30 40 50

Gestational age
Theo hình, có sự tương quan thuận tuyến tính giữa trọng lượng sơ sinh và tuổi
thai. Mối tương quan này khá chặt. Ở cùng tuổi thai trọng lượng trẻ trai dường như
hơi cao hơn trọng lượng trẻ gái.
Khi đánh giá phân tán đồ, chúng ta sẽ dựa vào hình dáng của đám mây phân bố của
phân tán đồ để xác định mối tương quan giữa hai biến quan tâm. Vấn đề này được
tóm tắt trong bảng sau:

57
Phân tán đồ cung cấp cho chúng ta cảm giác hoặc dự đoán về mối tương quan giữa
hai biến quan tâm. Để xác định mối tương quan này, chúng ta phải tính toán hệ số
tương quan (correlation coefficient) của chúng và phải đảm bảo rằng hệ số này là
khác 0 (nghĩa là không tương quan). Việc tính toán này được trình bày trong phần
sau đây.
Hệ số tương quan
Analyze Correlate Bivariate.

Correlations

birth weight gestational


in gms age in weeks
birth weight in gms Pearson Correlation 1 .719**
Sig. (2-tailed) . .000
N 641 641
gestational age in weeks Pearson Correlation .719** 1
Sig. (2-tailed) .000 .
N 641 641
**. Correlation is significant at the 0.01 level (2-tailed).

Hệ số tương quan giữa hai biến trọng lượng sinh và tuổi thai là 0.719. Sự tương
quan này là tương quan dương (tương quan thuận) có ý nghĩa thống kê với

58
p<0.001. Giá trị 0.738 cho biết tương quan này là tương quan mạnh trong đó biến
số độc lập (tuổi thai) giải thích cho 0.7192 = 51.6% sự biến thiên của trọng lượng
sơ sinh.
Đối với kết quả về hệ số tương quan, dấu của hệ số tương quan cho thấy chiều của
tương quan (dương - + -: tương quan thuận, âm - : tương quan nghịch). Ngoài ra,
độ lớn của hệ số tương quan quyết định mức độ tương quan là hoàn toàn hay
không.
Trong 02 phần trên, chúng ta đã xem xét đến việc hai biến số: độc lập và phụ thuộc
có tương quan với nhau hay không. Hệ số tương quan sẽ trả lời câu hỏi đó. Tuy
nhiên, chúng ta chưa xác định được tương quan này là như thế nào, nói cách khác,
sự thay đổi của biến này sẽ làm thay đổi biến kia ra sao. Để trả lời câu hỏi này, đòi
hỏi chúng ta phải tính toán sự tương quan giữa chúng thông qua việc xây dựng
phương trình hồi quy.
Hồi quy tuyến tính
Analyze Regression Linear để làm xuất hiện cửa sổ Linear Regression. Đưa
biến số phụ thuộc (bweight) vào hộp dependent. Đưa biến số độc lập (gestwks) vào
hộp Independent. Chấp nhận phương pháp mô hình là buộc đưa vào (Method:
Enter)

Nhấp OK để hoàn tất. Ta có kết quả như sau:

59
Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .719a .516 .515 462.58754
a. Predictors: (Constant), gestational age in weeks

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 1.46E+08 1 145924902.6 681.933 .000a
Residual 1.37E+08 639 213987.235
Total 2.83E+08 640
a. Predictors: (Constant), gestational age in weeks
b. Dependent Variable: birth weight in gms

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -4803.479 304.094 -15.796 .000
gestational age in weeks 204.906 7.847 .719 26.114 .000
a. Dependent Variable: birth weight in gms

Trong kết quả này cũng trình bày Hệ số tương quan - R giữa hai biến trọng lượng
sinh và tuổi thai là 0.719 như kết quả thao tác phần trước. Hệ số tương quan bình
phương – R square = 0.7192 = 0.516 = 51.6% nói lên tuổi thai có thể giải thích cho
51.6% sự thay đổi về trọng lượng sơ sinh.
Dựa vào bảng các hệ số chúng ta có thể xây dựng phương trình hồi quy như sau:
Trọng lượng sơ sinh = -4803.5 + 204.9 x tuổi thai (tính theo tuần).
Mức ý nghĩa (Sig.) của biến số tuổi thai (Gestational age) là kết quả của kiểm định
ý nghĩa của biến số này trong phương trình có thực sự khác không hay không
(nói cách khác, liệu biến số này có ý nghĩa trong phương trình hay không). Trong
bảng này, p<0.001 chứng tỏ biến số này có ý nghĩa trong phương trình.
Hệ số của biến số độc lập (ô màu đỏ) nói lên sự thay đổi của biến số phụ thuộc
khi biến số độc lập thay đổi một đơn vị. Trong phương trình này chúng ta có thể lí
giải nếu đứa trẻ lớn hơn 1 tuần tuổi trọng lượng lúc sanh của nó sẽ tăng them 204.9
gram.

60
Như vậy: trong quá trình xem xét mối tương quan giữa hai biến liên tục, một cách
ngắn gọn, chúng ta quan tâm đến hai giá trị: hệ số tương quan và hệ số của biến
độc lập trong phương trình hồi qui.

61
THỐNG KÊ PHÂN TÍCH - BIẾN PHÂN LOẠI

2 Học viên tải tập tin mwanza2.sav trên E-learning và Save vào máy

tính. Mở tập tin số liệu mwanza2.sav


I. Thông tin về nghiên cứu:
Một số nhà khoa học muốn đánh giá tác động của phòng ngừa bệnh lây truyền qua đường
tình dục lên tỉ lệ mắc mới của HIV ở Mwanza, Tanzania, một điều tra nền được tiến hành
ở 12 xã về tỉ lệ hiện nhiễm của HIV. Tất cả những phụ nữ có HIV dương (từ 15 tuổi trở
lên) được người điều tra quay trở lại và nếu có thể sẽ phỏng vấn về các yếu tố nguy cơ
của HIV sử dụng một bộ câu hỏi chuẩn. Ngoài việc hỏi những người phụ nữ có HIV
dương, người ta cũng chọn ngẫu nhiên một số người phụ nữ HIV âm từ danh sách dân số
được chuẩn bị khi tiến hành điều tra. Những phụ này sẽ được nhân viên điều tra thăm
viếng và nếu có thể sẽ phỏng vấn. Người ta không bắt cặp bệnh và chứng
Các mã số là như sau

Biến Giải thích tiếng Anh Giải thích tiếng Việt


số

idno identity number Mã số

comp community 1-12 Cộng đồng1-12

case 1=case 0=control 1=bệnh 0=chứng

age1 age group: 1=15-19 2=20-24 3=25- Nhóm tuổi: 1=15-19 2=20-24 3=25-29
29 4=30-34 5=35-44 6=45-54 4=30-34 5=35-44 6=45-54

ed education: 1=none/adult only 2=1-3 Học vấn : 1=không 2=1-3 năm 3=4-6
years 3=4-6 years 4=7+ years năm 4=7+ năm

eth ethnic group: 1=Sukuma 2=Mkara Dân tộc 1=Sukuma 2=Mkara 3=Khác
3=other 9=missing 9=khuyết

rel religion: 1=Moslem 2=Catholic Tôn giáo : 1=Hồi 2=Thiên chúa 3=Tin

62
3=Protestant 4=other 9=missing lành 4=khác 9=khuyết

msta marital status: 1=currently married Hôn nhân: 1=có gia đình 2=li dị/goá
2=divorced/widowed 3=never married 3=còn độc thân 9=khuyết
9=missing

bld blood transfusion in last 5 years: 1=no Truyền máu trong 5 năm qua: 1=không
2=yes 9=missing 2=có 9=khuyết

inj injections in past 1 year: 1=none 2=1 Tiêm chích trong năm qua: 1=không
3=2-4 4=5-9 5=10+ 9=missing 2=1 3=2-4 4=5-9 5=10+ 9=khuyết

skin skin incisions or tattoos: 1=no 2=yes Rạch da hay xâm da: 1=không 2=có
9=missing 9=khuyết

fsex age at first sex: 1=<15 2=15-19 Tuổi đầu tiên giao hợp: 1=<15 2=15-
3=20+ 4=never 9=missing 19 3=20+ 4=không 9=khuyết

npa number of sexual partners ever: 1=0-1 Số bạn tình cho đến nay: 1=0-1 2=2-4
2=2-4 3=5-9 4=10-19 5=20-49 6=50+ 3=5-9 4=10-19 5=20-49 6=50+
9=missing 9=khuyết

pa1 sex partners in last year: 1=none 2=1 Số bạn tình trong năm qua: 1=không
3=2 4=3-4 5=5+ 9=missing 2=1 3=2 4=3-4 5=5+ 9=khuyết

ever used a condom: 1=no 2=yes Có dùng bao cao su: 1=không 2=có
usedc 9=missing 9=khuyết

ud genital ulcer or discharge in past year: vết loét tình dục hay khí hư trong năm
1=no 2=yes 9=missing qua: 1=không 2=có 9=khuyết

3. Tìm sự khác biệt về trình độ học vấn giữa nhóm bệnh và chứng:
Hướng dẫn

63
Nhấp vào nút lệnh Cells. Nhấp vào hộp kiểm Column trong phần Percentages. Đọc kết
quả như sau:

Education * Case/control Crosstabulation

Case/control
0 1 Total
Education 1 Count 263 49 312
% within Case/control 45.8% 25.9% 40.9%
2 Count 51 24 75
% within Case/control 8.9% 12.7% 9.8%
3 Count 255 110 365
% within Case/control 44.4% 58.2% 47.8%
4 Count 5 6 11
% within Case/control .9% 3.2% 1.4%
Total Count 574 189 763
% within Case/control 100.0% 100.0% 100.0%

64
Chi-Square Tests

Asymp. Sig.
Value df (2-sided)
Pearson Chi-Square 26.737a 3 .000
Likelihood Ratio 27.011 3 .000
Linear-by-Linear
22.242 1 .000
Association
N of Valid Cases 763
a. 1 cells (12.5%) have expected count less than 5. The
minimum expected count is 2.72.

Kết quả ở trên có thể đọc như sau: số liệu gồm 763 bản ghi hợp lệ. Kiểm định Chi bình
phương về sự khác biệt về tỉ lệ giữa các hàng cho giá trị 26.737 với 3 độ tự do. Kiểm
định Chi bình phương để xem có phải có tính khuynh hướng về số chênh giữa các nhóm
là 22.242 với 1 độ tự do. Giá trị Likelihood Ratio về mặt ý nghĩa, tương tự như giá trị Chi
bình phương Pearson.
Giá trị Chi bình phương có thể không hợp lệ bởi vì có 1 ô có giá trị kì vọng nhỏ hơn 5.

4. Hãy tạo biến ed2 có giá trị 1 khi phụ nữ không được đi học (giá trị ed=1) và có giá trị 2
cho phụ nữ có đi học (giá trị ed=2/4). Tính tỉ lệ phụ nữ có đi học
5. Hãy tính tỉ số số chênh của mối liên quan giữa biến ed2 và nhiễm HIV. Từ kết quả này
chúng ta rút ra kết luận gì?
Hướng dẫn: Để giúp đọc các bảng chéo một cách dễ dàng, chúng ta nên mã hoá lại để
nhóm bệnh =1 và nhóm chứng =2.

65
Rồi nhấp continue để trở về cửa sổ Recode into same variables, rồi nhấp OK để hoàn tất.
Chúng ta có thể tính tỉ số số chênh cho nghiên cứu bệnh chứng sử dụng menu Statistics –
Descriptive Statistics – Crosstabs. Lưu ý nhớ nhấp nút Statistics để chọn vào hộp kiểm
Chi-square và Risk đồng thời nhấp vào nút lệnh Cells để chọn Column trong nhóm
Percentage.
Kết quả thu được như sau:

ED2 * Case/control Crosstabulation

Case/control
1 2 Total
ED2 1.00 Count 49 263 312
% within Case/control 25.9% 45.8% 40.9%
2.00 Count 140 311 451
% within Case/control 74.1% 54.2% 59.1%
Total Count 189 574 763
% within Case/control 100.0% 100.0% 100.0%

66
Chi-Square Tests

Asymp. Sig. Exact Sig. Exact Sig.


Value df (2-sided) (2-sided) (1-sided)
Pearson Chi-Square 23.279b 1 .000
Continuity Correctiona 22.463 1 .000
Likelihood Ratio 24.242 1 .000
Fisher's Exact Test .000 .000
Linear-by-Linear
23.248 1 .000
Association
N of Valid Cases 763
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is
77.28.

Risk Estimate

95% Confidence
Interval
Value Lower Upper
Odds Ratio for
.414 .287 .596
ED2 (1.00 / 2.00)
For cohort
.506 .378 .677
Case/control = 1
For cohort
1.222 1.130 1.322
Case/control = 2
N of Valid Cases 763

Trả lời: OR = 0.414. Từ kết quả này chúng ta có thể nói không đi học là một yếu tố bảo
vệ khỏi nhiễm HIV. Người phụ nữ không đi học chỉ có nguy cơ bị nhiễm HIV vào
khoảng 41.4% so với phụ nữ có đi học. Khoảng tin cậy 95% là 0,287 đến 0,596.

6. Chúng ta hãy tạo ra biến số age2 từ tuổi theo quy tắc sau:
age2 1=15/19 2 20/29 3 = 30-44 4 = 45+
Nhóm tuổi có phải là yếu tố tương tác hay là yếu tố gây nhiễu hay không?
Hướng dẫn:
Chúng ta có thể mã hoá biến số age1 thành biến số age2 theo quy ước ở trên nghĩa là 1
trở thành 1; 2 và 3 trở thành 2; 4 và 5 trở thành 3 và 6 trở thành 4. Chúng ta có thể sử
dụng menu Transform – Recode – Recode into different variables để vào cửa sổ Recode
into different variables . Chọn age1 vào hộp Numeric variable, gõ age2 vào hộp Output

67
variable – Name, nhấp nút lệnh Change. Sau đó nhấp vào nút lệnh Old and new values,
thao tác để có kết quả như sau.

Nhấp vào Continue để trở về cửa số Recode into Different Variables và nhấp OK để thực
hiện.
Muốn tính OR về mối liên quan giữa học vấn và nhiễm HIV có hiệu chỉnh theo nhóm
tuổi bằng cách sử dụng menu Statistics – Descriptive Statistics – Crosstab và chọn thêm
biến age2 vào hộp Layer 1 of 1 như hình vẽ sau:

68
Khi phân tích phân tầng cần phải tính giá trị thống kê Mantel –Haenszel bằng cách nhấp
vào nút lệnh Statistics và chọn các hộp kiểm Chi-square, Risk và Cochrane and Mantel-
Haenszel Statistics.

69
----------+--------------------------------------------------------------------
age2 | Odds ratio chi2(1) P>chi2 [95% Conf. Interval]
----------+--------------------------------------------------------------------
1 | 1.925926 1.02 0.3132 0.526705 7.042253
2 | 0.512195 4.10 0.0430 0.264718 .9910314
3 | 0.289130 16.76 0.0000 0.153528 .5445023
4 | 0.351220 3.05 0.0808 0.102761 1.200413
----------+--------------------------------------------------------------------
Mantel-Haenszel estimate controlling for age2
----------------------------------------------------------------
Odds ratio chi2(1) P>chi2 [95% Conf. Interval]
----------------------------------------------------------------
0.436729 17.94 0.0000 0.294397 0.647875
----------------------------------------------------------------

70
Risk Estimate

95% Confidence
Interval
AGE2 Value Lower Upper
1.00 Odds Ratio for
1.926 .533 6.958
ED2 (1.00 / 2.00)
For cohort
1.758 .596 5.180
Case/control = 1
For cohort
.913 .740 1.125
Case/control = 2
N of Valid Cases 109
2.00 Odds Ratio for
.512 .266 .985
ED2 (1.00 / 2.00)
For cohort
.622 .380 1.018
Case/control = 1
For cohort
1.215 1.029 1.435
Case/control = 2
N of Valid Cases 288
3.00 Odds Ratio for
.289 .157 .532
ED2 (1.00 / 2.00)
For cohort
.390 .242 .629
Case/control = 1
For cohort
1.349 1.159 1.569
Case/control = 2
N of Valid Cases 255
4.00 Odds Ratio for
.351 .105 1.174
ED2 (1.00 / 2.00)
For cohort
.434 .175 1.074
Case/control = 1
For cohort
1.236 .901 1.696
Case/control = 2
N of Valid Cases 111

Tests for Homogeneity of the Odds Ratio

Asymp. Sig.
Statistics Chi-Squared df (2-sided)
Conditional Cochran's 18.023 1 .000
Independence Mantel-Haenszel 17.128 1 .000
Homogeneity Breslow-Day 8.053 3 .045
Tarone's 8.010 3 .046
Under the conditional independence assumption, Cochran's statistic is
asymptotically distributed as a 1 df chi-squared distribution, only if the number of
strata is fixed, while the Mantel-Haenszel statistic is always asymptotically
distributed as a 1 df chi-squared distribution. Note that the continuity correction is
removed from the Mantel-Haenszel statistic when the sum of the differences
between the observed and the expected is 0.

71
Mantel-Haenszel Common Odds Ratio Estimate
Estimate .437
ln(Estimate) -.828
Std. Error of ln(Estimate) .204
Asymp. Sig. (2-sided) .000
Asymp. 95% Confidence Common Odds Lower Bound .293
Interval Ratio Upper Bound .651
ln(Common Lower Bound -1.227
Odds Ratio) Upper Bound -.429
The Mantel-Haenszel common odds ratio estimate is asymptotically normally
distributed under the common odds ratio of 1.000 assumption. So is the natural log of
the estimate.

Hình 1. Kế hoạch phân tích để đánh giá biến số gây nhiễu


Coù
Töông taùc Trình baøy giaù trò ñaëc hieäu taàng

Khoâng

Coù
Gaây nhieãu? Söû duïng soá hieäu chænh

Khoâng

Khoâng caàn
xem xeùt bieán
soá thöù 3

Ứng dụng sơ đồ trong hình một vào số liệu trên ta tiến hành lập luận như sau:
Bởi vì kiểm định Breslow Day có chi bình phương = 8.053 và giá trị p tương ứng là
0.045 chúng ta kết luận là có sự tương tác giữa nhóm tuổi và trình độ văn hoá lên tình
trạng nhiễm HIV. Ta cần báo cáo kết quả OR của từng tầng:

age2 OR

1=15/19 1.93

2 = 20/29 0.51

72
3 = 30-44 0.29

4 = 45+ 0.35

Kết luận: Như vậy chúng ta có thể kết luận Tuổi là yếu tố tương tác. Khi tuổi nhỏ thì học
vấn thấp là yếu tố nguy cơ nhưng ở lứa tuổi cao trên 20 thì học vấn thấp là yếu tố bảo vệ.

7. Tôn giáo có phải là yếu tố tương tác hay là yếu tố gây nhiễu hay không?

Hướng dẫn: Muốn tính OR về mối liên quan giữa học vấn và nhiễm HIV có hiệu chinh
theo tôn giáo, ta sử dụng menu Statistics – Descriptive Statistics – Crosstab và chọn thêm
biến re1 vào hộp Layer 1 of 1. Khi phân tích phân tầng cần phải tính giá trị thống kê
Mantel –Haenszel bằng cách nhấp vào nút lệnh Statistics và chọn các hộp kiểm Chi-
square, Risk và Cochrane and Mantel-Haenszel Statistics.

Tests for Homogeneity of the Odds Ratio

Asymp. Sig.
Statistics Chi-Squared df (2-sided)
Conditional Cochran's 10.955 1 .001
Independence Mantel-Haenszel 10.281 1 .001
Homogeneity Breslow-Day 1.046 3 .790
Tarone's 1.046 3 .790
Under the conditional independence assumption, Cochran's statistic is
asymptotically distributed as a 1 df chi-squared distribution, only if the number of
strata is fixed, while the Mantel-Haenszel statistic is always asymptotically
distributed as a 1 df chi-squared distribution. Note that the continuity correction is
removed from the Mantel-Haenszel statistic when the sum of the differences
between the observed and the expected is 0.

73
Mantel-Haenszel Common Odds Ratio Estimate
Estimate .522
ln(Estimate) -.649
Std. Error of ln(Estimate) .199
Asymp. Sig. (2-sided) .001
Asymp. 95% Confidence Common Odds Lower Bound .354
Interval Ratio Upper Bound .771
ln(Common Lower Bound -1.039
Odds Ratio) Upper Bound -.260
The Mantel-Haenszel common odds ratio estimate is asymptotically normally
distributed under the common odds ratio of 1.000 assumption. So is the natural log of
the estimate.

Cũng sử dụng sơ đồ trong hình 1 vào số liệu trên ta tiến hành lập luận như sau:
Bởi vì kiểm định Breslow Day có chi bình phương = 1.046 và giá trị p tương ứng là
0.790 chúng ta kết luận là không có sự tương tác giữa tôn giáo và trình độ văn hoá lên
tình trạng nhiễm HIV (ở nhóm tôn giáo nào học vấn thấp cũng là yếu tố bảo vệ). Khi đó
chúng ta không cần báo cáo kết quả OR của từng tầng mà phải kiểm tra nhóm tôn giáo có
phải là yếu tố gây nhiễu hay không. Chúng ta so sánh OR thô (0.414) với OR hiệu chỉnh
(common Odds Ratio=0.522) chúng ta thấy có sự khác biệt

ORMH − ORcrude 0.522 − 0.414


= = 21%
ORMH 0.522

Vì đây là sự khác biệt khá lớn nên chúng ta kết luận tôn giáo là yếu tố gây nhiễu. Do đó
chúng ta không thể báo cáo số OR thô là 0.414 mà phải báo cáo ORMH đã hiệu chỉnh là
0.522. Nói khác đi chúng ta cho rằng người phụ nữ học vấn thấp có nguy cơ bị nhiễm
HIV chỉ bằng 52,2% so với người phụ nữ có đi học nếu họ có cùng tôn giáo (khoảng tin
cậy 95% là 0.354 đến 0.771. Ngay ở phụ nữ cùng một tôn giáo sự khác biệt về tỉ lệ
nhiễm HIV giữa phụ nữ không đi học và phụ nữ có đi học vẫn có ý nghĩa thống kê rất cao
(chi bình phương = 10,281 với giá trị p = 0.001)
8. Chúng ta hãy xét vết loét tình dục là yếu tố nguy cơ. Xác định OR mối liên quan giữa
vết loét tình dục (ud) và nhiễm HIV (case).
Hướng dẫn: Lưu ý do biến vết loét tình dục (ud) có giá trị khuyết được mã hoá số 9.
Nếu chúng ta thực hiện lệnh crosstabl mà không để ý đến điều này sẽ không tính được
OR. Để báo cho phần mềm SPSS giá trị 9 của biến vết loét tình dục (ud) là giá trị khuyết

74
cần vào chuyển qua view “Variable View” bằng cách nhấp vào tab “Variable View” ở
góc dưới trái màn hình. Nhấp con trỏ vào ô của hàng ud và cột Missing ta thấy hiện lên
một nút lệnh với 3 dấu chấm hiện lên ở góc phải. (Nếu chúng ta nhấp vào phía bên phải
của ô này thì cửa sổ Missing value sẽ hiện lên ngay mà không cần thêm thao tác khác).
Nhấp vào nút lệnh này để hiện ra cửa số Missing Value. Nhấp vào nút chọn Discrete
missing value và nhập giá trị 9 vào ô đầu tiên.

Nhấp OK để hoàn tất.


Để thể hiện giá trị có vết loét tình dục là yếu tố nguy cơ, chúng ta cần mã hoá lại biến số
này. Dùng menu Transform – Recode – Into the variables. Chọn các biến số bld, usedc,
ud, skin để đưa vào hộp Numeric Variable (lưu ý chỉ những biến sẽ được xem là yếu tố
nguy cơ mới cần phải mã hoá lại, những yếu tố gây nhiễu không cần phải mã hoá lại).

Sau đó nhấp vào nút lệnh Old and New Value để mở cửa sổ Old and New Value. Thay
đổi Old Value (Value 1) thành New Value (Value 2) và Thay đổi Old Value (Value 2)

75
thành New Value (Value 1) như hình sau.

Nhấp vào continue để trở về cửa sổ Recode into Same Variables và nhấp nút lệnh OK để
hoàn tất.

Chúng ta có thể tính tỉ số số chênh cho nghiên cứu bệnh chứng sử dụng menu Statistics –
Descriptive Statistics – Crosstabs. Đưa biến phơi nhiễm loét sinh dục (ud) vào hộp
Row(s) và biến phụ thuộc nhiễm HIV (case) vào hộp Column(s).

76
Lưu ý nhớ nhấp nút Statistics để vào cửa sổ Crosstab:Statistics. Chọn vào hộp kiểm Chi-
square và Risk. Nhấp continue để trở về cửa sổ Crosstab.

Khi về cửa sổ Crosstab, nhấp vào nhấp vào nút lệnh Cells để vào của sổ Crosstabl:cell,
nhấp vào nút kiểm Column trong khung Percentage. Nhấp continue để trở về cửa sổ
Crosstab. Nhấp OK để hoàn tất.

77
Kết quả thu được như sau:

Genital ulcer/discharge, past y * Case/control Crosstabulation

Case/control
1 2 Total
Genital ulcer/discharge, 1 Count 42 90 132
past y % within Case/control 22.2% 15.7% 17.3%
2 Count 147 482 629
% within Case/control 77.8% 84.3% 82.7%
Total Count 189 572 761
% within Case/control 100.0% 100.0% 100.0%

Risk Estimate

95% Confidence
Interval
Value Lower Upper
Odds Ratio for Genital
ulcer/discharge, past y 1.530 1.015 2.306
(1 / 2)
For cohort
1.361 1.022 1.814
Case/control = 1
For cohort
.890 .786 1.007
Case/control = 2
N of Valid Cases 761

Trả lời: Người bị vết loét tình dục có nguy cơ bị nhiễm HIV tăng gắp 1.53 lần so với
người bình thường.
9. Người có nhiều bạn tình sẽ có nhiều vết loét tình dục, người có nhiều bạn tình có nhiều
nguy cơ bị nhiễm HIV, do đó chúng ta cần phải xem số bạn tình (npa) có phải là yếu tố
gây nhiễu trong nghiên cứu của chúng ta hay không?
Hướng dẫn: Chúng ta có thể tính tỉ số số chênh cho nghiên cứu bệnh chứng sử dụng
menu Statistics –
Descriptive Statistics – Crosstabs. Đưa biến phơi nhiễm loét sinh dục (ud) vào hộp
Row(s) và biến phụ thuộc nhiễm HIV (case) vào hộp Column(s) và biến gây nhiễu số bạn
tình đã từng có (npa) vào hộp Layer. Lưu ý cần nhấp vào nút lệnh Statistics để vào cửa sổ
Crosstabs: Statistic. Chọn vào các hộp kiểm: Risk (để ước lượng OR), Chi-Square (để
tiến hành kiểm định) và Cochrane and Mantel-Haenszel Statistics (để tính OR hiệu chỉnh
và kiểm định tính đồng nhất của OR giữa các tầng). Nhấp nút lệnh continue để trở về hộp

78
thoại Crosstabs.

Nhấp vào nút lệnh OK để hoàn tất và xem kết quả.

Tests for Homogeneity of the Odds Ratio

Asymp. Sig.
Statistics Chi-Squared df (2-sided)
Conditional Cochran's 2.741 1 .098
Independence Mantel-Haenszel 2.362 1 .124
Homogeneity Breslow-Day 10.314 4 .035
Tarone's 10.314 4 .035
Under the conditional independence assumption, Cochran's statistic is
asymptotically distributed as a 1 df chi-squared distribution, only if the number of
strata is fixed, while the Mantel-Haenszel statistic is always asymptotically
distributed as a 1 df chi-squared distribution. Note that the continuity correction is
removed from the Mantel-Haenszel statistic when the sum of the differences
between the observed and the expected is 0.

Trả lời: Kết quả cho thấy có sự tương tác giữa số bạn tình và vết loét tình dục. Cùng bị
vết loét tình dục nhưng ở người không quá 1 bạn tình và người có từ 2-4 bạn tình có nguy
cơ nhiễm HIV chỉ tăng lên không đáng kể (OR = 1.023 và 0.925), ở những người có từ 5-
9 người bạn tình có vết loét sinh dục sẽ làm nguy cơ nhiễm HIV lên 1.795 lần, ở những
người có trên 10 bạn tình vết loét sinh dục sẽ làm tăng nguy cơ lên 4.250 và những người
79
có số bạn tình không đếm được, vết loét sinh dục làm tăng nguy cơ lên 19 lần. Như vậy
để giảm việc lây truyền HIV cần điều trị (và phòng ngừa) bệnh lây truyền qua đường tình
dục gây loét tình dục cho các phụ nữ nhưng cần ưu tiên điều trị và phòng ngừa các bệnh
này ở các phụ nữ có nhiều bạn tình.

80
Risk Estimate

95% Confidence
Number of sex Interval
partners ever Value Lower Upper
1 Odds Ratio for Genital
ulcer/discharge, past y 1.023 .326 3.208
(1 / 2)
For cohort
1.019 .380 2.733
Case/control = 1
For cohort
.997 .852 1.167
Case/control = 2
N of Valid Cases 199
2 Odds Ratio for Genital
ulcer/discharge, past y .925 .482 1.777
(1 / 2)
For cohort
.943 .574 1.549
Case/control = 1
For cohort
1.019 .872 1.192
Case/control = 2
N of Valid Cases 369
3 Odds Ratio for Genital
ulcer/discharge, past y 1.795 .753 4.278
(1 / 2)
For cohort
1.454 .857 2.468
Case/control = 1
For cohort
.810 .573 1.145
Case/control = 2
N of Valid Cases 123
4 Odds Ratio for Genital
ulcer/discharge, past y 4.250 .782 23.107
(1 / 2)
For cohort
1.650 1.033 2.637
Case/control = 1
For cohort
.388 .108 1.401
Case/control = 2
N of Valid Cases 43
9 Odds Ratio for Genital
ulcer/discharge, past y 19.000 2.029 177.932
(1 / 2)
For cohort
7.000 1.668 29.384
Case/control = 1
For cohort
.368 .118 1.152
Case/control = 2
N of Valid Cases 27

81
Mantel-Haenszel Common Odds Ratio Estimate
Estimate 1.433
ln(Estimate) .360
Std. Error of ln(Estimate) .217
Asymp. Sig. (2-sided) .097
Asymp. 95% Confidence Common Odds Lower Bound .937
Interval Ratio Upper Bound 2.191
ln(Common Lower Bound -.065
Odds Ratio) Upper Bound .784
The Mantel-Haenszel common odds ratio estimate is asymptotically normally
distributed under the common odds ratio of 1.000 assumption. So is the natural log of
the estimate.

82

You might also like