P. 1
Thong Ke Co Ban Voi Stata 10

Thong Ke Co Ban Voi Stata 10

|Views: 1,457|Likes:
Được xuất bản bởidovandzung

More info:

Published by: dovandzung on Aug 22, 2011
Bản quyền:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

05/07/2013

pdf

text

original

TRƯỜNG ÐẠI HỌC Y DƯỢC TP HỒ CHÍ MINH

KHOA Y TẾ CÔNG CỘNG
Bộ môn Thống kê Y Học và Tin Học










STATA ỨNG DỤNG TRONG
NGHIÊN CỨU KHOA HỌC


Biên soạn: TS. Ðỗ Văn Dũng














THÀNH PHỒ HỒ CHÍ MINH
4-2008
(Lưu hành nội bộ)

MỤC LỤC

Ðại cương về thống kê và thống kê mô tả ...................................................................................... 1
Một số ñịnh nghĩa ....................................................................................................................... 1
Biến số và các loại biến số.......................................................................................................... 1
Phương pháp mô tả tóm tắt và trình bày số liệu ......................................................................... 1
Các số thống kê mô tả................................................................................................................. 2
Phương pháp trình bày số liệu .................................................................................................... 5
Ðại cương về phân tích số liệu...................................................................................................... 13
Suy luận thống kê...................................................................................................................... 14
Cài ñặt chương trình Stata 10.0, số liệu mẫu và các chương trình có liên quan.......................... 29
Khởi ñộng và kết thúc Stata.......................................................................................................... 36
Khởi ñộng Stata ............................................................................................................................ 40
1. Khởi ñộng Stata .................................................................................................................... 40
2. Mô tả giao diện của chương trình Stata ................................................................................ 40
3. Cách cách ñể thực hiện lệnh trong chương trình Stata ......................................................... 41
4. Lưu lại kết quả phân tích ..................................................................................................... 42
Một vài phân tích ñơn giản với Stata............................................................................................ 44
Mô tả số liệu với Stata 10.0 for Windows .................................................................................... 58
Thống kê phân tích biến số ñịnh lượng với Stata ......................................................................... 96
Thực hành ................................................................................................................................. 98

1
Ðại cương về thống kê và thống kê mô tả
Một số ñịnh nghĩa
Thống kê là phương pháp khoa học dùng ñề thu thập, tóm tắt, trình bày và phân tích số liệu.
Số liệu: Kết quả có ñược do việc quan sát hay thu thập một biến số ở các ñối tượng khác nhau
hay ở thời gian khác nhau.
Thí dụ: Khi tôi quan sát giới tính của các học viên trong lớp, tôi có số liệu là:
Nam, nam, nữ, nữ, nữ, nam, nữ, v.v
Thí dụ: Một nhà nghiên cứu ño nồng ñộ hemoglobin của 70 thai phụ có kết quả như sau:
10.2 13.7 10.4 14.9 11.5 12.0 11.0
13.3 12.9 12.1 9.4 13.2 10.8 11.7
10.6 10.5 13.7 11.8 14.1 10.3 13.6
12.1 12.9 11.4 12.7 10.6 11.4 11.9
9.3 13.5 14.6 11.2 11.7 10.9 10.4
12.0 12.9 11.1 8.8 10.2 11.6 12.5
13.4 12.1 10.9 11.3 14.7 10.8 13.3
11.9 11.4 12.5 13.0 11.6 13.1 9.7
11.2 15.1 10.7 12.9 13.4 12.3 11.0
14.6 11.1 13.5 10.9 13.1 11.8 12.2
và những con số này ñược gọi là số liệu.
Cần lưu ý số liệu phải liên kết với một biến số nhất ñịnh. Nếu tôi quan sát giới tính ở người này,
tuổi của người khác, quần áo của một người khác nữa thì kết quả quan sát ñược không phải là số
liệu.
Biến số và các loại biến số
Biến số là những ñại lượng hay những ñặc tính có thể thay ñổi từ người này sang người khác hay
từ thời ñiểm này sang thời ñiểm khác.
Như vậy biến số có thể thể hiện ñại lượng hay ñặc tính.
- Nếu biến số thể hiện một ñại lượng nó ñược gọi là biến số ñịnh lượng (quantitative
variable). Biến số ñịnh lượng có thể còn ñược chia thành biến số tỉ số - ratio variable(có giá trị
không tuyệt ñối) và biến số khoảng – interval variable (không có giá trị không tuyệt ñố)
- Nếu biến số nhằm thể hiện một ñặc tính, biến số ñược gọi là biến số ñịnh tính. Biến số
ñịnh tính còn ñược chia làm 3 loại:
- Biến số nhị giá – binary variable (khi chỉ có 2 giá trị)
- Biến số danh ñịnh – nominal variable (khi có 3 hay nhiều hơn các giá trị và các
bản thân các giá trị không có tính chất thứ tụ)
- Biến số thứ tự - ordinal variable (khi có 3 hay nhiều hơn các giá trị và các bản
thân các giá trị có tính chất thứ tự
- Ngoài ra có khi biến cố không chỉ ñược quan tâm về phương diện nó có xảy ra hay chưa
xảy ra mà còn ñược quan tâm về phương diện biến cố xảy ra vào lúc nào. Thí dụ sau khi ñiều trị
bệnh nhân ung thư chúng ta không chỉ quan tâm bệnh nhân có tử vong hay không mà còn quan
tâm bệnh nhân bệnh nhân tử vong bao nhiêu lâu sau khi ñiều trị và nếu bệnh nhân chưa tử vong,
bệnh nhân ñã sống ñược bao lâu.
Phương pháp mô tả tóm tắt và trình bày số liệu

2
-Tỉ lệ cho từng giá trị nếu
là biến thứ tự hay danh
ñịnh
- Tỉ lệ cho giá trị tiêu biểu
nếu là biến nhị giá
-Tỉ lệ cho từng giá trị nếu
là biến thứ tự hay danh
ñịnh
- Tỉ lệ cho giá trị tiêu biểu
nếu là biến nhị giá

Các số thống kê mô tả
Có hai loại thống kê mô tả: thống kê mô tả khuynh hướng tập trung và thống kê mô tả tính phân
tán.
Thống kê mô tả khuynh hướng tập trung
Thống kê mô tả khuynh hướng tập trung có thể là trung bình (mean), trung vị (median) và yếu vị
(mode). Những thống kê này cho biết giá trị tiêu biểu cho số liệu.
Thí dụ: có hai loại thuốc hạ áp A và B. Giả sử có 5 ñối tượng sau khi sử dụng thuốc hạ áp A sẽ có huyết áp
110 - 115 -120 - 125 -130 và ở 5 ñối tượng khác sau khi sử dụng thuốc hạ áp B sẽ có huyết áp 120 - 125 -
130 - 135 - 140. Con số tiêu biểu nhất ñể cho biết tác dụng của thuốc A là huyết áp trung bình sau khi sử
dụng thuốc A và là 120. Con số huyết áp trung bình này thấp hơn huyết áp trung bình sau khi sử dụng
thuốc B cho biết thuốc A có tác dụng mạnh hơn.
Trung bình của số liệu, ñược kí hiệu là (x (ñọc là x gạch) là tổng các giá trị của số liệu chia cho
số lần quan sát (N).
N
x
x
i
Σ
=
Thí dụ: Số liệu về huyết áp tâm thu của 5 ñối tượng là 120, 125, 130, 135, 150. Huyết áp tâm thu
trung bình sẽ là 132
132
5
150 125 130 125 120
=
+ + + +
=
Σ
=
N
x
x
i


3
Do không thể thực hiện các phép toán số học trên các biến số ñịnh tính (danh ñịnh và thứ tự)
chúng ta chỉ có thể tính trung bình cho số liệu của biến số ñịnh lượng.
Nếu chúng ta sắp xếp số liệu theo thứ tự, giá trị ñứng ở giữa ñược gọi là trung vị. Nếu có hai giá
trị cùng ñứng ở giữa, trung bình cộng của hai giá trị này là trung vị.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 ñối tượng là 120, 125, 130, 135, 150. Trung vị
của huyết áp tâm thu là giá trị ñứng ở giữa và bằng 130
Số liệu về chiều cao (cm) của 6 người là 153, 155, 160, 162, 165, 161. Ðể tính trung vị, trước tiên
chúng ta phải sắp xếp số liệu này: 153, 155, 160, 161, 162, 165. Do có hai giá trị 160 và 161 cùng
ở giữa, trung vị sẽ là (160+161)/2 = 160,5 cm
Do bản chất của biến số danh ñịnh không thể sắp ñược theo thứ tự, chúng ta chỉ có thể tính trung
vị của số liệu ñịnh lượng và số liệu của biến số thứ tự.
Ngoài ra yếu vị (mode) cũng ñược sử dụng làm con số thống kê tiêu biểu. Yếu vị là giá trị xuất
hiện phổ biến nhất (có tần suất cao nhất).
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 ñối tượng là 120, 125, 130, 135, 150. Trong
trường hợp này không có yếu vị.
Ðiểm số của 5 học sinh là 5, 5, 6, 7, 9. Yếu vị của ñiểm số là 5.
Trong một ấp có 361 gia ñình người Kinh, 120 gia ñình người Khmer và 27 gia ñình người Hoa.
Yếu vị của biên số dân tộc là dân tộc Kinh.
Trong một số liệu cụ thể, có thể không có yếu vị, có thể có một yếu vị hoặc hai hay nhiều yếu vị.
Ðây là khuyết ñiểm chính của số thống kê này. Do vậy người ta thường chỉ dùng yếu vị cho biến
số danh ñịnh hay trong các trường hợp ñặc biệt
Có thể sử dụng trung bình, trung vị hay yếu vị cho biến số ñịnh lượng. Khi biến số ñịnh lượng có
phân phối bình thường (hình chuông) thì ba con số này xấp xỉ bằng nhau và khi ñó người ta
thường tính trung bình bởi vì trung bình có những ñặc tính toán học mạnh. Tuy nhiên nếu số liệu
bị lệch thì con số trung vị phản ánh giá trị tiêu biểu một cách chính xác hơn.
Thí dụ: Bệnh nhân bị loét dạ dày - tá tràng ñược ñiều trị theo một phác ñồ diệt vi khuẩn
Helicobacter. Sau ñiều trị, bệnh nhân ñược theo dõi và ghi nhận thời gian kể từ khi sử dụng thuốc
ñến lúc bắt ñầu cải thiện triệu chứng ñau. Ở 10 bệnh nhân thời gian này (ngày ) là như sau: 1, 2, 2,
2, 2, 2, 3, 3, 3, 30. Bệnh nhân có thời gian từ lúc ñiều trị ñến lúc giảm triệu chứng là 30 ngày trên
thực chất là bệnh nhân không ñáp ứng với ñiều trị. Trung vị và trung bình của số liệu là 2 và 5
ngày. Con số trung vị phản ánh chân thực hơn bởi vì với tư cách là một bác sĩ lâm sàng từ số liệu
trên có thể nhận xét rằng một bệnh nhân tiêu biểu sẽ giảm ñau sau 2 ngày dùng thuốc. Con sôs 30
trong thí dụ trên ñược gọi là số ngoại lai (outlier) và làm số liệu bị lệch. Nhìn chung, khi số liệu bị
lệch thì con số trung bình sẽ bị ảnh hưởng rất nhiều và không phản ánh giá trị tiêu biểu như con số
trung vị.
Thống kê mô tả tính phân tán:
Có 3 thống kê mô tả tính phân tán: ñộ lệch chuẩn, khoảng tứ phân vị và phạm vi của số liệu.
Việc lựa chọn thống kê mô tả tính phân tán ñược trình bày trong bảng 2.
Thống kê mô tả tính phân tán có tầm quan trọng thứ hai sau con số mô tả khuynh hướng tập
trung.
Thí dụ: Thuốc hạ áp A ñược sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110, 115,
120, 125 và 130. Thuốc hạ áp B ñược sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100,
110, 120, 130, 140. Như vậy hai thuốc hạ áp này có hiệu quả hạ áp là tương ñương (bởi vì trung bình của
hai số liệu là bằng nhau) nhưng kết quả của thuốc B phân tán hơn và ñiều này làm thuốc B trở nên kém an
toàn.
Ðộ lệch chuẩn (standard deviation - viết tắt là SD hay s) là con số ñánh giá mức ñộ phân tán và

4
ñược tính theo công thức:


Như vậy ñộ lệch chuẩn phản ánh khoảng cách trung bình của số liệu so với giá trị tiêu biểu. Khái
niệm ñộ lệch chuẩn chỉ có thể áp dụng cho biến số ñịnh lượng bởi vì chúng ta có thể thực hiện
các phép toán số học trên các ñại lượng nhưng không thể thực hiện trên các giá trị của biến số
ñịnh tính là các ñặc tính.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 ñối tượng là 120, 125, 130, 135, 150. Trung bình của
huyết áp là 132 và ñộ lệch chuẩn bằng
5 , 11 5 , 132
4
530
4
324 9 4 49 144
1 5
) 132 150 ( ) 132 135 ( ) 130 132 ( ) 132 125 ( ) 132 120 (
1
) (
2 2 2 2 2
1
2
= = =
+ + + +
=

− + − + − + − + −
=


=

=
n
i
i
N
x x
s

Phương sai về mặt từ nguyên là bình phương của ñộ lệch chuẩn. Phương sai (variance) có thể
ñược kí hiệu và Var hay s
2
và ñược tính theo công thức sau:


=


=
n
i
i
N
x x
s
1
2
2
1
) (

Phạm vi của số liệu là tất cả các giá trị của số liệu từ giá trị nhỏ nhất ñến giá trị lớn nhất.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 ñối tượng là 120, 125, 130, 135, 150. Phạm vi của biến
số huyết áp là 120 ñến 150.
Thí dụ: Thuốc hạ áp A ñược sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110, 115,
120, 125 và 130. Thuốc hạ áp B ñược sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100,
110, 120, 130, 140. Số liệu của thuốc B có tính phân tán cao hơn do phạm vi thay ñổi từ 100-140 trong khi
ñó phạm vị của số liệu thuốc A chỉ từ 110-130.
Khoảng tứ phân vị (inter-quartile): Nếu chúng ta chia số liệu sắp theo thứ tự làm 2 phần ñều
nhau, khoảng tứ phân vị là khoảng cách của trung vị phần trên và trung vị phần dưới.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 ñối tượng là 120, 125, 130, 135, 150. Số liệu này ñược
chia làm 2 phần: phần 1 gồm 120, 125, 130 và phần 2 gồm 130, 135, và 150. Trung vị của phần trên là 125
- trung vị của phần dưới là 135, do ñó phạm tứ phân vị là 125-135.
Do bản chất của khoảng tứ phân vị là trung vị của phần số liệu trên và phần số liệu dưới, cũng
giống như trung vị, khoảng tứ phân vị không bị ảnh hưởng bởi các giá trị ngoại lai như trong
trường hợp của ñộ lệch chuẩn. Cũng như trung vị, khoảng tứ phân vị chỉ có thể áp dụng cho biến
số ñịnh lượng hay thứ tự.
Câu hỏi: Phân tích trên máy tính về biến số hemoglobin cho kết quả sau. Hãy thử ñọc và lí giải
kết quả:

Variable | Obs Mean Std. Dev. Min Max
-----------+-----------------------------------------------------
hemoglobin | 70 11.98429 1.416122 8.8 15.1

=


=
n
i
i
N
x x
s
1
2
1
) (

5

Phương pháp trình bày số liệu
Số liệu có thể ñược trình bày thành bảng hoặc các ñồ thị.
Trình bày bảng:
Phân phối tần suất của biến số ñịnh tính
Số liệu của biến số rời rạc có thể ñược trình bày dưới dạng một phân phối tần suất. Phân phối tần
suất là một bảng chỉ ra tần suất xuất hiện của từng giá trị rời rạc của biến số (Bảng 1). Như vậy
bảng phân phối tần suất gồm 2 cột, một cột liệt kê các giá trị của biến số và một cột trình bày tần
suất tương ứng của các giá trị ñó.
Table 1. Phân phối giới tính của 69 học sinh lớp cơm thường trường mầm non 23 tháng 11, Huyện
Hóc môn
Giới Số trẻ Phần trăm
Nam 45 65%
Nữ 24 35%
Tổng số 69 100%
Bảng trên là bản phân phối tần suất của giới tính. Bởi vì giới tính có 2 giá trị nam và nữ nên ta
liệt kê 2 giá trị này ở một cột. Ở cột thứ nhì ta ghi tần suất tương ứng của các giá trị này. Ðôi khi
bảng phân phối tần suất có thêm cột phần trăm như trong thí dụ ở trên. Bảng 2 là một thí dụ khác
về bảng phân phối tần suất.
Table 2. Phương pháp ñỡ ñẻ của 600 trẻ trong bệnh viện
Phương pháp ñỡ
ñẻ
Số sinh Phần trăm
Sinh thường 478 79,7
Sinh forceps 65 10,8
Sinh mổ 57 9,5
Tổng số 600 100,0

Phân phối tần suất của biến số ñịnh lượng
Nếu biến số là biến số liên tục chúng ta không thể liệt kê tất cả các giá trị của biến số. Trong
trường hợp này chúng ta có thể nhóm (làm tròn) giá trị của biến số lại.
Cụ thể các bước xây dựng bảng phân phối tần suất cho biến số ñịnh lượng như sau:
1- Tìm phạm vi (giá trị cực tiểu và giá trị cực ñại) của số liệu. Trong thí dụ về hemoglobin của
70 phụ nữ phạm vi là 8,8 ñến 15,1
2. Chia phạm vi số liệu ra làm n khoảng với ñộ rộng của mỗi khoảng là d. Cần lưu ý ñộ rộng mỗi
khoảng d nên là ñại lượng chẵn như 1, 2, 5, 10 hay 0,5, 0,2 và số các khoảng n nên từ 5-12 (trung

6
bình là 7-8). Trong thí dụ trên ta có thể chia phạm vi ra làm 8khoảng với chiều rộng khoảng bằng
1 ñơn vị. Khi ñó các khoảng là: 8-8,9; 9-9,9; 10-10,9; 11-11,9; 12-12,9; 13-13,9; 14-14,9; 15-
15,9.
3. Ðếm các giá trị thích hợp vào khoảng ñã ñịnh trước

Hemoglobin
(g/100ml)
Ðếm
8-8,9 1
9-9,9 111
10-10,9 1111 1111 1111
11-11,9 1111 1111 1111 1111
12-12,9 1111 1111 1111
13-13,9 1111 1111 111
14-14,9 1111
15-15,9 1
4. Xây dựng bảng phân phối tần suất với biến số và các khoảng giá trị của biến số và tần suất
tương ứng với các khoảng giá trị ñó. Chúng ta cũng có thể thêm vào cột phần trăm và cột phần
trăm tích lũy (nếu thích hợp)
Table 3. Hemoglobin của 70 phụ nữ
Hemoglobin Tần suất Phần trăm Phần trăm tích lũy
8-8,9 1 1.43 1.43
9-9,9 3 4.29 5.71
10-10,9 14 20.00 25.71
11-11,9 19 27.14 52.86
12-12,9 14 20.00 72.86
13-13,9 13 18.57 91.43
14-14,9 5 7.14 98.57
15-15,9 1 1.43 100.00

Thí dụ như nếu biên số là chu vi vòng cánh tay của trẻ chúng ta có thể làm tròn chu vi vòng cánh
tay ñến 1 cm. Khi ñó ta có thể xem thang ño của biến số là rời rạc và trình bày bảng phân phối
tần suất của biến số (bảng 2).
Table 4. Phân phối số ño vòng cánh tay của 69 trẻ lớp cơm thường nhà trẻ 23 tháng 11, Hóc môn.
Vòng cánh tay Tần suất Phần trăm Phần trăm tích lũy

7
13- <14 2 2.78 2.78
14- <15 31 43.06 45.83
15- <16 27 37.50 83.33
16- <17 9 12.50 95.83
17- <18 0 12.50 95.83
18- <19 2 2.78 98.61
19- <20 1 1.39 100.00

Biểu ñồ và ñồ thị
Số liệu cũng có thể ñược trình bày dưới dạng ñồ thị hoặc biểu ñồ. Mặc dù không có ranh giới
tuyệt ñối hoàn toàn rõ rệt, nói chung ñồ thị (graph) có tính chất toán học nhiều hơn, trong ñó có
trục hoành và trục tung còn biểu ñồ (chart) là hình ảnh mang tính chất tượng trưng.
Nếu biến số là biến rời rạc, có thể trình bày dưới dạng biểu ñồ hình thanh (bar chart - hình 1)
hoặc biểu ñồ hình bánh (pie chart). Nếu biến số là biến liên tục, thì phân phối của biến số có thể
trình bày dưới dạng tổ chức ñồ (histogram - hình 2) hoặc ña giác tần suất.
Hình thức của bảng
-Có tựa ngắn gọn và rõ ràng
-Ðặt tên cho các hàng và cột
-Trình bày tổng số của hàng và cột
-Ðịnh nghĩa các kí hiệu và chữ viết tắt ở dưới bảng
-Ghi nguồn số liệu ở dưới bảng
Biểu ñồ hình thanh
Biểu ñồ hình thang là biểu ñồ nhằm mô tả sự phân bố của biến số rời rạc. Biểu ñồ hình thanh
gồm có trục hoành trên ñó xác ñịnh những giá trị của biến số. Ứng với từng giá trị của biến số
người ta vẽ các thanh có chiều cao tỉ lệ với tần suất của giá trị ñó. Cần lưu ý luôn luôn có khoảng
trống giữa các thanh.

8
45
24
0
10
20
30
40
50
Nam Nöõ

Hình 1. Biểu ñồ hình thanh (bar chart) mô tả phân bố giới tính của những học sinh trong trường
mầm non 23/11, Hóc môn
Chúng ta cũng có thể xây dựng các thanh theo chiều ngang như trong ví dụ sau
478
65
57
0 100 200 300 400 500
Sinh thöôøng
Sinh forceps
Sinh moå

Hình 2. Phương pháp sinh của 600 trẻ sanh tại bệnh viện X trong năm 1998
Ðối với biến số thứ tự, ñiều cần lưu ý là các giá trị của biến số phải ñược sẵp xếp thứ tự theo trục
hoành.

9
T
a
àn

s
u
a
át
edumat
muø chöõ caá p 1 caá p 2-3 ñaï i hoï
0
1000
2000


Hình 3. Trình ñộ học vấn của các bà mẹ trong nghiên cứu
4,3%
19,5%
0,8%
3,9%
0%
5%
10%
15%
20%
25%
Duøng ZDV† Khoâng duøng ZDV
Ñöôøng aâm ñaïo
Moå laáy thai

Hình 4. Tỉ suất lây truyền từ mẹ sang con ở những người mẹ bị nhiễm HIV theo ñiều trị
hóa dự phòng và phương pháp sinh (Nguồn: The European Mode of Delivery
Collaboration, Lancet, 27/3/1999)
Biểu ñồ hình bánh
Biểu ñồ hình bánh cũng ñược dùng ñể mô tả sự phân bố của biến số rời rạc. Biểu ñô hình bánh là
một vòng tròn ñược chia làm nhiều cung tương ứng với các giá trị của biến số. Ðộ lớn của cung
tỉ lệ với tần suất của giá trị biến số.

10
Nöõ
35%
Nam
65%

Hình 5. Biểu ñồ hình bánh (pie chart) mô tả phân bố giới tính của những học sinh trong trường
mầm non 23/11, Hóc môn
Sinh
thöôøng
Sinh moå
Sinh
forceps

Hình 6. Biểu ñồ hình bánh thể hiện phương pháp sinh của 600 ñứa trẻ sinh tại bệnh viện X
Tổ chức ñồ và ña giác tần suất
Tổ chức ñồ (histogram) và ña giác tần suất (polyline) ñược dùng trong mô tả phân bố của biến số
liên tục. Ðể vẽ tổ chức ñồ, người ta chia biên ñộ của giá trị làm nhiều khoảng giá trị và tính tần
suất của những khoảng giá trị ñó. Những khoảng giá trị này ñược biểu thị ở trên trục hoành. Ứng
với mỗi khoảng giá trị người ta vẽ những hình chữ nhật có diện tích tỉ lệ với tần suất của khoảng
giá trị ñó. Bởi vì các khoảng giá trị này nằm sát nhau trên trục hoành, các hình chữ nhật của tổ
chức ñồ cũng thường nằm sát nhau.

11

F
r
e
q
u
e
n
c
y
hemoglobin
8 9 10 11 12 13 14 15 16
0
5
10
15
20

Hình 7. Tổ chức ñồ mức hemoglobin của 70 phụ nữ.



F
r
e
q
u
e
n
c
y
hemoglobin
8 9 10 11 12 13 14 15 16
0
5
10
15
20

Hình 8. Ða giác tần suất của hemoglobin của 70 phụ nữ.
Ðể vẽ ña giác tần suất, người ta thường vẽ tổ chức ñồ và nối các trung ñiểm của các cạnh trên
của các hình chữ nhật. Ða giác tần suất thường không ñẹp như các tổ chức ñồ nhưng nó có ưu
ñiểm là có thể vẽ nhiều ña giác tần suất trên cùng một ñồ thị ñể dễ so sánh các phân phối của
chúng.

12


hemoglobin
8 9 10 11 12 13 14 15 16
0
5
10
15

Hình 9. Ða giác tần suất hemoglobin của 28 phụ nữ nghèo (ñường ñỏ) so vơí 42 phụ nữ trung bình
và khá (ñường xanh)


13
Ðại cương về phân tích số liệu
Phép ước lượng
Dân số và mẫu
Thông thường chúng ta không thể nghiên cứu toàn bộ dân số mà chúng ta quan tâm. Chúng ta
thường chỉ có thể nghiên cứu chỉ một phần dân số ñó, phần này ñược gọi là mẫu (sample) và từ
ñó ước ñoán về những ñặc tính của dân số.
Trong nghiên cứu khoa học, chúng ta ñi từ ñặc trưng của cá thể (biến số - variable) ñể có ñược
ñặc trưng của mẫu (ñược gọi là thống kê - statistics) và từ ñặc trưng của mẫu chúng ta sử dụng
phương pháp suy luận thống kê và lí giải ñể có ñược ñặc trưng của dân số (ñược gọi là tham số -
parameter)
Một loại mẫu thường ñược gặp trong nghiên cứu là mẫu ngẫu nhiên ñơn. Khi lấy mẫu ngẫu
nhiên ñơn, chúng ta có thể tính ñược giá trị trung bình và ñộ lệch chuẩn của mẫu. Rõ ràng là giá
trị trung bình và ñộ lệch chuẩn sẽ khác nhau với những mẫu khác nhau. Tuy vậy các nhà thống
kê ñã chứng minh rằng giá trị trung bình của mẫu sẽ có phân phối bình thường và các giá trị
trung bình này sẽ tập trung tại trung bình của dân số. Do ñó nếu chúng ta tính trung bình của mẫu
thì chúng ta hi vọng trung bình của dân số sẽ nằm ngay tại hay ở lân cận trung bình của mẫu. Ðộ
phân tán của trung bình mẫu xung quanh chung bình dân số ñược gọi là sai số chuẩn (standard
error) và sẽ giảm ñi khi cỡ mẫu càng lớn:

n
s
n
s
e s
2
. . = =

ðộ lệch chuẩn và sai số chuẩn là hai ñại lượng thể hiện sự phân tán nhưng ñộ lệch chuẩn thể hiện
sự phân tán của cá thể chung quanh giá trình trung bình dân số còn sai số chuẩn là ñại lượng thể
hiện sự phân tán của con số thống kê (trung bình mẫu hay tỉ lệ của mẫu) chung quanh giá trị của
tham số (trung bình dân số hay tỉ lệ của dân số).
Ước lượng khoảng tin cậy của trung bình
Như chúng ta ñã trình bày, trung bình của mẫu sẽ dao ñộng nhưng tập trung tại giá trị trung bình
của dân số, nên chúng ta có thể ước lượng trung bình dân số bằng cách tính trung bình của mẫu.
Nhưng do trung bình mẫu có dao ñộng, chúng ta không chắc là trung bình mẫu sẽ chính xác bằng
trung bình của dân số mà chỉ có thể tin là trung bình dân số nằm ở vị trí ñâu ñó chung quanh
trung bình của dân số. Các nhà thống kê cho rằng 95% các trường hợp trung bình dân số không
nằm xa quá 1,96 x SE so với trung bình mẫu: phạm vi này ñược gọi là khoảng tin cậy 95%. Như
vậy khoảng tin cậy 95% của trung bình của biến sô ñịnh lượng
Khoảng tin cậy 95% (95% CI) : x ± 1,96s/√n
Trong trường hợp cỡ mẫu nhỏ (n < 30), chúng ta không thể sử dụng giá trị 1,96 như trong công
thức trên mà cần phải sử dụng các giá trị hơi lớn hơn (và càng lớn nếu cỡ mẫu càng nhỏ), giá trị
này ñược gọi là giá trị của phân phối t với (cỡ mẫu – 1) ñộ tự do.
Khoảng tin cậy 95% (95% CI) : x ± t
(1-α/2)
× s/√n
Bài tập:

14
1. Một nghiên cứu ghi nhận trên cỡ mẫu 1235 trẻ sơ sinh ở tỉnh ðồng Tháp cho thấy trọng lượng
trung bình của trẻ sơ sinh là 3121 gram và ñộ lệch chuẩn là 435 gram. Hãy ước lượng khoảng tin
cậy 95% của trọng lượng trung bình của trẻ sơ sinh tỉnh ðồng Tháp.
Sử dụng công thức trên ta tính ñược:
95%CI=3096.74 - 3145.26 gram.
2. Chiều cao của 10 thanh niên là 160; 162; 165; 166; 169; 170; 172; 172; 176; 176. Hãy ước
lượng khoảng tin cậy 95% của chiều cao trung bình.
Trước tiên chúng ta phải xác ñịnh trung bình của chiều cao là 168,8 cm và ñộ lệch chuẩn của
chiều cao là 5,493. Do cỡ mẫu là 10 chúng ta phải dò bảng phân phối t ở 9 ñộ tự do ta ñược giá
trị t (tương ứng với khoảng tin cậy 95%) là 2,26. Từ ñó chúng ta tính ñược khoảng tin cậy 95%
95%CI=164.87 - 164.87.
Ước lượng khoảng tin cậy của tỉ lệ
ðể ước lượng khoảng tin cậy của một tỉ lệ, chúng ta cần xác ñịnh tỉ lệ p sau ñó dựa vào p ñể ước
lượng khoảng tin cậy 95% của p

n
) - (1 p p
p × − 96 , 1 ñến
n
) - (1 p p
p × + 96 , 1
Bài tập
ðiều tra trên 127 thanh niên có 45 thanh niên hút thuốc lá. Hãy tính tỉ lệ thanh niên hút thuốc lá
và khoảng tin cậy 95% của tỉ lệ hút thuốc lá.
Chúng ta tính ñược tỉ lệ hút thuốc lá ở thanh niên là 0.354 (35.4%). Dựa vào công thức trên
chúng ta tính ñược khoảng tin cậy 95% của tỉ lệ hút thuốc lá là 0,271 ñến 0,438
Suy luận thống kê
Kiểm ñịnh ý nghĩa
Phương pháp kiểm ñịnh ý nghĩa ñược Fisher ñề xuất và dựa trên căn bản của phép phản chứng.
Phép phản chứng trong logic học sử dụng bằng mệnh ñề: Nếu A kéo theo B thì không B sẽ kéo
theo không A.
A⇒ ⇒⇒ ⇒ B ⇔ ⇔⇔ ⇔ B⇒ ⇒⇒ ⇒ A
Một thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ tắc ruột và chúng ta
hỏi bệnh sử xem bệnh nhân có bí trung tiện hay không. Giả sử bệnh nhân không bí trung tiện thì
chúng ta sẽ bác cỏ chẩn ñoán tắc ruột với suy luận sau: Nếu bệnh nhân bị tắc ruột sẽ bí trung tiện
thì bệnh nhân sẽ bí trung tiện, do bệnh nhân không bí trung tiện nên bệnh nhân không bị tắc ruột.
Một cách tổng quan hơn, khi chúng ta ñưa ra giả thuyết chẩn ñoán (thí dụ như chẩn ñoán tắc
ruột), chúng ta thường sẽ xem xét các hệ quả phổ biến giả thuyết này (Bệnh nhân tắc ruột thường
bị ñau bụng,nôn ói, bí trung tiện và chướng bụng). Việc không có một trong các hậu quả phổ
biến của giả thuyết này (thí dụ như bệnh nhân không có ñau bụng, không có nôn ói, không bị bí
trung tiện hay không có chướng bụng) thì chúng ta có thể bác bỏ chẩn ñoán. Các biến cố nằm
ngoài các hệ quả phổ biến của giả thuyết (biến cố không có ñau bụng, không có nôn ói, không bị
bí trung tiện hay không có chướng bụng) ñược gọi là miền bác bỏ của chẩn ñoán.
Trong kiểm ñịnh thống kê người ta cũng sử dụng các lập luận tương tự. ðể kiểm ñịnh một giả
thuyết thống kê (ñược gọi là giả thuyết Ho) cần phải xác ñịnh miền xảy ra phổ biến của các con

15
số thống kê (như trung bình, tỉ lệ, thống kê t, thống kê z, thống kê chi bình phương, v.v.) và nếu
con số thống kê này nằm ngoài miền xảy ra phổ biến thì chúng ta sẽ bác bỏ giả thuyết Ho. Miền
nằm ngoài miền xảy ra phổ biến của số thống kê ñược gọi miền bác bỏ.

Hình 1. Nguyên tắc kiểm ñịnh ý nghĩa theo Fisher. ðường cong phân phối hình chuông thể hiện
phân phối của thống kê của z khi µ=0 (giả thuyết Ho). Vùng diện tích dưới ñường cong màu trắng
thể hiện miền các thống kê z thường xảy ra nếu giả thuyết Ho là ñúng. Vùng diện tích dưới ñường
cong màu sẫm là miền bác bỏ giả thuyết Ho và có diện tích là xác suất sai lầm loại 1 (5%).
Khi sử dụng kiểm ñịnh ý nghĩa chúng ta cần lưu ý các ñiểm sau:
- Kiểm ñịnh dựa trên nguyên tắc phản chứng nghĩa là chúng ta chỉ có thể bác bỏ chứ không
thể chứng minh ñược giả thuyết Ho. Vì vậy nếu chúng ta muốn chứng minh hút thuốc lá
là yếu tố nguy cơ của ung thư phổi thì phải ñặt ra giả th.uyết thống kê Ho là hút thuốc lá
không phải là yếu tố nguy cơ của ung thư phổi và sử dụng phương pháp kiểm ñịnh ñể bác
bỏ ñiều này.
- Giả thuyết Ho phải thể hiện bằng ñẳng thức (thí dụ như giả thuyết Ho: RR=1 hay Ho:
ñiểm trung bình về bệnh lây truyền qua ñường tình dục ở nam thanh niên = ñiểm trung
bình về bệnh lây truyền qua ñường tình dục ở nữ thanh niên ) thì mới có thể tính ñược
phân phối của thống kê. Giả thuyết Ho không thể thể hiện bằng bất ñẳng thức (Ho: RR>1
là sai)
- Do diện tích miền bác bỏ là một con số cố ñịnh (thường là 0,05), ñể xác ñịnh con số
thống kê T có nằm trong miền bác bỏ hay không người ta tính xác suất xảy ra thống kê
cực ñoan hơn giá trị T nếu giả thuyết Ho là ñúng (ñược thể hiện bằng công thức: P (>T
|Ho) ). Xác suất này ñược gọi là giá trị p. Và nếu giá trị p nhỏ hơn ngưỡng bác bỏ nghĩa
là thống kê T nằm trong vùng bác bỏ và chúng ta có thể bác bỏ giả thuyết Ho.
Giá trị p ñược kí hiệu khác nhau trên các phần mềm thống kê. Thí dụ ở phần mềm Epi-Info, giá
trị p ñược kí hiệu là p-value, ở phần mềm SPSS, giá trị p ñược kí hiệu là Sig. Ở phần mềm Stata,

16
các giá trị p thường ñược kí hiệu khác nhau tùy theo thống kê ñược sử dụng là thống kê gì. Cụ
thể, trong phần mềm Stata, giá trị p ñược kí hiệu như sau:
P > |T| (nếu kiểm ñịnh t)
P > |z| (nếu kiểm ñịnh z)
Prob > chi2 (kiểm ñịnh chi bình phương)
Prob > F (Kiểm ñịnh F; Kiểm ñịnh ANOVA)


Kiểm ñịnh giả thuyết
Khuyết ñiểm của phương pháp kiểm ñịnh ý nghĩa khi không bác bỏ ñược giả thuyết H
0
chúng ta
không biết ñược xác suất H
0
ñúng là bao nhiêu. Một nhà thống kê học khác tên là Neyman ñã ñề
ra phương pháp kiểm ñịnh giả thuyết trong ñó có xét ñến sai lầm loại 2.


Phaùt bieån H
0
; H
a
Tính soá thoáng keâ
(z; t; chi
2
; F)
Xaùc suaát sai
laàm loaïi 1
Nhoû
Baùc boû giaû thuyeát
Xaùc suaát sai
laàm loaïi 2
Khoâng nhoû
Nhoû
Chaáp nhaän giaû
thuyeát
Thöïc hieän nghieân
cöùu vôùi côõ maãu
lôùn hôn
Khoâng nhoû
tra baûng tính p

Sai lầm loại một và sai lầm loại hai
Sai lầm loại một: bác bỏ giả thuyết H
0
trong khi giả thuyết H
0
là ñúng.
Sai lầm loại hai: Không bác bỏ giả thuyết H
0
trong khi giả thuyết H
0
sai.
Trong nghiên cứu thống kê người ta không bao giờ có thể chắc chắn. Do vậy, khi nhà nghiên cứu
ñi ñến kết luận bác bỏ giả thuyết H
0
, người nghiên cứu có thể bị sai lầm (sai lầm loại một - với
một xác suất nào ñó). Khi nhà nghiên cứu không bác bỏ giả thuyết H
0
, nhà nghiên cứu cũng có
thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào ñó). Một ñiều nên nhớ là bằng kiểm
ñịnh thống kê người ta có thể xác ñịnh ñược xác suất sai lầm loại một nhưng không thể tính ñược
xác suất sai lầm loại hai mà chỉ có thể tính ñược dựa vào ñối thuyết Ha và cỡ mẫu của nghiên
cứu.
Ðôi khi người ta còn sử dụng khái niệm năng lực (power) của kiểm ñịnh thống kê. Năng lực của
kiểm ñịnh thống kê = 1 - xác suất sai lầm loại 2. Khái niệm năng lực của thống kê hay ñược dùng
trong tính cỡ mẫu.

17
Bảng 1. Tóm tắt về sai lầm loại 1, sai lầm loại 2 và giá trị ngưỡng của nó
Chân lí là Ho ñúng
(Không có sự khác biệt)
Chân lí là Ha ñúng
(Không có sự khác biệt)
Bác bỏ giả thuyết H
0
Sai lầm loại 1
(Xác suất = α)
Kết luận ñúng
(Xác suất = 1-β =
Power của nghiên cứu)
Không bác bỏ giả thuyết H
0
Kết luận ñúng
(Xác suất = 1-α)
Sai lầm loại II
(Xác suất = β)
Chọn lựa kiểm ñịnh phù hợp

Như vậy nguyên lí của kiểm ñịnh ý nghĩa (hay kiểm ñịnh giả thuyết là như nhau). Các kiểm ñịnh
chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết H
0.
Việc lựa chọn này phụ thuộc
vào biến số của vấn ñề quan tâm và thiết kế của nghiên cứu.

18
Bảng 10. Chọn lựa kiểm ñịnh phù hợp theo thiết kế nghiên cứu
Loại thiết kế nghiên cứu


Thang ño của biến số
phụ thuộc
Hai nhóm
ñiều trị
gồm các cá
nhân khác
nhau
Ba (hay
nhiêù)
nhóm ñiều
trị gồm các
cá nhân
khác nhau
Trước và
sau một
ñiều trị
(hoặc 2
ñiều trị) ở
trên cùng
các ñối
tượng
Nhiều ñiều
trị trên cùng
các ñối
tượng
Liên hệ
giữa hai
biến số
Ðịnh lượng (mẫu rút từ
một dân số có phân phối
bình thường và phương
sai hai nhóm ñồng nhất
t-test không
bắt cặp
Phân tích
phương sai
t-test bắt
cặp
Phân tích
phương sai
ño lường
lập lại
Hồi quy
tuyến tính
và tương
quan
pearson
Ðịnh tính - Danh ñịnh χ
2
bảng 2 x
n
χ
2
bảng 3 x
n
test
McNemar
Cochrance
Q
Hệ số của
bảng n x m
(phi, OR,
RR)
Ðịnh tính -Thứ tự
(hay biến ñịnh lượng
không bình thường)
Kiểm ñịnh
tổng sắp
hạng
Mann-
Whitney
Kruskal-
Wallis
Kiểm ñịnh
sắp hạng có
dấu
Wilcoxon
Friedman hệ số tương
quan
Spearman

Bảng 11. Chọn lựa kiểm ñịnh phù hợp ñể tìm sự liên hệ giữa biến ñộc lập và biến phụ
thuộc
Biến ñộc lập Biến phụ thuộc
Nhị giá Danh ñịnh (hoặc thứ
tự)
ðịnh lượng, ña
biến (hoặc thứ tự)
ðịnh lượng phân phối bình
thường
T-test ANOVA Hồi quy tuyến tính
Biến ñịnh lượng phân phối
không bình thường – Biến thứ tự
Mann-Whitney Kruskal-Wallis TQ Spearman
Nhị giá Chi bình phương Chi bình phương Hồi quy logistic
Sống còn Wilcoxon tổng quát
Logrank
Wilcoxon tổng quát
Logrank
Hồi quy Cox


19
Phép kiểm t bắt cặp
Tiên lượng của bệnh nhân suy hô hấp mãn tính tăng carbonic thường kém (tỉ lệ tử vong trong 3
năm thay ñổi từ 30% ñến 100%) và hiện tại chưa có phương pháp ñiều trị hữu hiệu. Tilapur và
Mir (Am J Med 1984; 77:987) cho rằng chế ñộ ăn giảm carbonhydrate có thể cải thiện tình trạng
hô hấp. Các nhà nghiên cứu này tiến hành thực nghiệm trên 8 người suy hô hấp mãn tính (có dấu
hiệu của tim lớn, gan lớn, phù và tăng áp phổi) với chế ñộ ñiều trị bằng chế ñộ ăn 600 Kcal và
ghi nhận PaO2 (phân áp oxy ñộng mạch) và PaCO2 (phân áp carbon dioxide ñộng mạch) trước
và sau ñiều trị. Kết quả nghiên cứu ñược trình bày trong Bảng 1. Hãy so sánh trung bình của
phân áp oxy ñộng mạch trước và sau khi ñiều trị.

20
Bảng 1. Phân áp Oxy ñộng mạch và phân áp CO2 ñộng mạch trên 8 ñối tượng trước và
sau chế ñộ ñiều trị với chế ñộ ăn giảm carbonhydrate

ðối tượng Pa0
2
trước Pa0
2
sau Hiệu số PaC0
2
trước PaC0
2
sau Hiệu số
1 70 82 12 49 45 -4
2 59 66 7 68 54 -14
3 53 65 12 65 60 -5
4 54 62 8 57 60 3
5 44 74 30 76 59 -17
6 58 77 19 62 54 -8
7 64 68 4 49 47 -2
8 43 59 16 53 50 -3

Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Phân áp oxy ñộng mạch trước và sau ñiều trị không thay ñổi
Bước 2: Chọn kiểm ñịnh phù hợp
Kiểm ñịnh phù hơp là kiểm ñịnh t bắt cặp với 7 ñộ tự do
Bước 3: Tính thống kê t
Tính trung bình và ñộ lệch chuẩn của biến số d (hiệu số của phân áp oxy ñộng mạch trước và sau
ñiều trị) ñể tính thống kê t
66 , 4
/
; 2 , 8 ; 5 , 13 = = = =
n s
d
t s d
d

Bước 4: tính xác suất của giá trị thống kê t
ðể tính xác suất của giá trị thống kê t ta sử dụng hàm tdist(giá trị t, ñộ tự do, 2). Cụ thể ñể tính p
tương ứng với giá trị t = 4.63 ở 7 ñộ tự do chúng ta ñánh công thức "=tdist(4.63, 7, 2) vào một ô.
Kết quả ta ñược giá trị p= 0.002397687.
Bước 5: Kết luận
Vì giá trị p= 0.002397687 nhỏ hơn 0.05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là phân áp oxy
ñộng mạch có cải thiện sau khi ñiều trị.
Phép kiểm t (không bắt cặp)
Nhằm tìm hiểu vai trò của catecholamine trong tăng huyết áp vô căn, de Champlain (Circ Res
1976; 38:109) nghiên cứu 22 bênh nhân tăng huyết áp vô căn (gồm 13 người có nồng ñộ
catecholamine cao và 9 bình thường), ghi nhận nhịp tim, huyết áp tâm thu, huyết áp tâm trương.
Kết quả của nghiên cứu ñược trình bày trong bảng 2. Hãy so sánh nhịp tim ở hai nhóm, nhóm có
tăng catecholamine và nhóm không tăng catecholamine.

21
Bảng 1. Trung bình và ñộ lệch chuẩn của Luợng catecholamine huyết thanh, nhịp tim, huyết áp
tâm thu và huyết áp tâm trung ở 13 bệnh nhân tăng huyết áp tăng catecholamine và 9 bệnh nhân
tăng huyết áp không tăng catecholamine
Tăng catecholamine Không tăng
Số bệnh nhân 13 9
catecholamine huyết thanh (ug/mL) x=0.484 s=0.133 x=0.206 s=0.060
Nhịp tim x=90.7 s=11.5 x=77.8 s=13.2
Huyết áp tâm thu x=171.3 s=13.7 x=147.4 s=9.9
Huyết áp tâm trương x=103.0 s=8.3 x=95.6 s=12.9

Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Trung bình nhịp tim ở nhóm bệnh nhân có tăng catecholamine = nhịp tim trung bình ở nhóm
bệnh nhân không tăng catecholamine
Bước 2: Chọn kiểm ñịnh phù hợp
Kiểm ñịnh phù hơp là kiểm ñịnh t với (n
1
+n
2
-2) = 20 ñộ tự do
Bước 3: Tính thống kê t
Trước tiên chúng ta phải tính ñộ lệch chuẩn gộp
21 . 12
) 1 ( ) 1 (
) 1 ( ) 1 (
2 1
2
2 2
2
1 1
=
− + −
− + −
=
n n
s n s n
s
p

(ðể dễ nhớ công thức tính ñộ lệch chuẩn gộp chúng ta cần lưu ý phương sai gộp là trung bình
của phương sai của mỗi nhóm với trọng số là ñộ tự do của phương sai ñó)
Sau ñó chúng ta tính thống kê t
44 . 2
/ 1 / 1
) (
2 1
2 1
=
+

=
n n s
x x
t
Bước 4: tính xác suất của giá trị thống kê t
Sử dụng máy vi tính chúng ta tính ñược giá trị p= 0,024123071 (nếu sử dụng bảng số thống kê
chúng ta sẽ tìm ñược p <0,05)
Bước 5: Kết luận
Vì giá trị p= 0,024123071 nhỏ hơn 0,05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là giữa hai
nhóm bệnh nhân có sự khá biệt về nhịp tim trung bình.
Phân tích phương sai
Anionwo et al. (1981, BMJ; 282:283) muốn tìm hiểu xem mức hemoglobin trong 3 nhóm bệnh
hồng càu liềm có khác nhau hay không bằng cách ghi nhận mức hemoglobin ở 3 nhóm bệnh
nhân.

22
Bảng 7. Phân tích phương sai một chiều: sự khác biệt trong nồng ñộ hemoglobin giữa các bệnh
nhân bị các loại bệnh hồng cầu liềm khác nhau. Số liệu từ Anionwo et al. (1981) British Medical
Journal, 282, 283-6
(a) Số liệu
Loại bệnh hồng cầu
liềm
Số bệnh
nhân
(n
i
)
Trung bình

(x
i
)
s.d.

(s
i
)
Giá trị của các cá thể
hemoglobin g%
(x)
Hb SS 16 8,712 0,844 7,2; 7,7; 8,0; 8,1; 8,3; 8,4;
8,4; 8,5; 8,6; 8,7; 9,1; 9,1;
9,1; 9,8; 10,1; 10,3
Hb S/b-
thalassaemia
10 10,630 1,284 8,1; 9,2; 10,0; 10,4; 10,6;
10,9; 11,1; 11,9; 12,0; 12,1
Hb SC 15 13,300 0,942 10,7; 11,3; 11,5; 11,6; 11,7;
11,8; 12,0; 12,1; 12,3; 12,6;
12,6; 13,3; 13,8; 13,8; 13,9
Hãy sử dụng kiểm ñịnh thống kê phù hợp ñể so sánh nồng ñộ Hemoglobin trung bình ở 3 nhóm
bệnh nhân bị hồng cầu liềm.

Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Trung bình Nồng ñộ hemoglobin ở 3 nhóm bệnh HC liềm bằng nhau
Bước 2: Chọn kiểm ñịnh phù hợp
Kiểm ñịnh phù hợp là phương pháp phân tích phương sai (ANOVA) với thống kê F với (số
nhóm, số quan sát - số nhóm) = (2,38) ñộ tự do ; F tới hạn= 3,32
Bước 3: Lập bảng ANOVA và Tính thống kê F
Chúng ta lập thành bảng phân tích phương sai như sau:
Nguồn biến thiên SS d.f. MS=SS/d.f. MS giữa các nhóm
F= ----------------------------
MS bên trong nhóm
Giữa các nhóm 99,92 2 49,96 50.03 , P<0,001
Trong các nhóm 37,95 38 1,00
Tổng cộng 137,85 40

Các giá trị ở trên có thể tính theo công thức sau:
Giữa các nhóm
SS
b
= Σ n
i
×(x
i
-x)
2
= Σ n
i
x
i
2
-(Σx)
2
/N
= 16 × 8,7125
2
+10 × 10,6300
2
+15 × 12,300
2

- 430,2
2
/41=99,92

23
df
b
= k-1 = 2
MS
b
= SS/d.f.
Trong các nhóm
SS
w
= Σ (n
i
-1)s
i
2
=15 x 0,84452 + 9 x 1,28412 + 14 x 0,9419 = 37,96
df
w
= N - k = 41-3 = 38
MS
w
= SS/d.f.
Và giá trị thống kê F
F = MS
b
/MS
w

Bước 4: tính xác suất của giá trị thống kê F
Dựa vào máy tính chúng ta tính ñược giá trị p= 2.26 x 10
-11
. Chúng ta cũng có thể dựa vào bảng
thống kê F ñể tìm ñược p <0,001
Bước 5: Kết luận
Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho nghĩa là ba nhóm bệnh nhân bệnh hồng cầu
liềm có giá trị hemoglobin trung bình khác nhau có ý nghĩa thống kê.
Phép kiểm chi bình phương
Có 240 người ñược tiêm vaccine phòng bệnh cúm và 220 người ñược tiêm placebo. Trong nhóm
tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so sánh tỉ
lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức ñộ liên
hệ giữa vaccine cúm và bệnh cúm?
Thực hành
Bước 1: Xây dựng giả thuyết Ho:
Ho: Tỉ lệ mắc cúm ở nhóm tiêm vaccine = tỉ lệ mắc cúm ở nhóm không tiêm vaccine
Bước 2: Chọn kiểm ñịnh phù hợp
Kiểm ñịnh phù hợp là kiểm ñịnh chi bình phương với 1 ñộ tự do
Bước 3: Lập bảng 2 x 2 và Tính thống kê chi bình phương
Lập bảng 2 x 2 như sau
Kết quả Mắc bệnh cúm Không mắc Tổng
Có 20 a
(8,3%)
220 b

240 a+b

Placebo 80 c
(36,4%)
140 d 220 c+d
Tiêm chủng
Tổng 100 a+c 360 b+d 460 N

ðể tính thống kê chi bình phương có hai cách:
Phương pháp chính thức:
- Tính các giá trị kì vọng (E) ở các ô, giá trị kì vọng của một ô bằng tích các ô biên chia
cho tổng số chung (thí dụ giá trị kì vọng của ô a E
a
= (a+b) × (a+c) /N, giá trị kì vọng của ô c E
c

= (a+b) × (c+d) /N)

24
- Tính giá trị chi bình phương theo công thức
1) - coät (soá 1) - haøng soá × =

Σ = ( . . ,
) (
2
2
f d
E
E O
χ
Trong thí dụ này
09 , 53 02 , 6 52 , 5 69 , 21 86 , 19
2 , 172
) 2 , 172 140 (
8 , 187
) 8 , 187 220 (
8 , 47
) 8 , 47 80 (
2 , 52
) 2 , 52 20 (
2 2 2 2
2
= + + + =

+

+

+

= χ

Công thức tính tắt cho bảng 2 × 2
) )( )( )( (
) (
2
2
d b d c c a b a
N bc ad
+ + + +

= χ
Bước 4: tính xác suất của giá trị thống kê χ χχ χ
2

Sử dụng máy vi tính chúng ta ñược giá trị p= 3,31 x 10
-13
nghĩa là giá trị của p rất nhỏ. Sử dụng
bảng số chúng ta biết ñược p < 0,001.
Bước 5: Kết luận
Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho. Chúng ta có thể kết luận tỉ lệ mắc cúm ở
nhóm tiêm vaccine thấp hơn có ý nghĩa thống kê so với nhóm tiêm placebo.
Sự tương quan của hai biến số ñịnh tính
Mức ñộ liên hệ giữa tiêm chủng vaccine và mắc bệnh cúm
Mức ñộ liên hệ giữa hai biến số ñịnh tính ñược ước lượng bằng cách sử dụng RR (hoặc OR nếu
trong nghiên cứu bệnh chứng). Giả sử số liệu của bảng 2 x2 nằm ở vùng C2:D3 chúng ta có thể
tính RR bằng cách nhập công thức "=MHRR(C2:D3)" ta ñược RR=0,23 với khoảng tin cậy 95%
của RR từ 0,15 ñến 0,36
So sánh tỉ lệ của biến số nhị giá : Kiểm ñịnh chi-bình phương
Khi hai biến số là biến số nhị giá người ta sử dụng giá trị RR hay OR ñể ño lường mức ñộ liên hệ
(xem lại phần các số ño dịch tễ).
Kết quả Mắc bệnh Không mắc
bệnh
Tổng
Phơi nhiễm
a
1
b
1
N
1

Không phơi
nhiễm
a
o
b
0
N
0

Biến số phơi
nhiễm
Tổng
a
1+
a
0
b
1+
b
0
N=N
1
+N
0


Tỉ số nguy cơ (RR) là tỉ số của nguy cơ của nhóm phơi nhiễm trên nguy cơ của nhóm không phơi
nhiễm:
RR = (a
1
/N
1
)/(a
0
/N
0
)
Khoảng tin cậy 95% của tỉ số nguy cơ:

25
0 0 1 1
1 1 1 1
96 , 1
N a N a
e RR
− + − ×
÷ × hay
2
96 , 1
1
χ
±
RR (test-based CI)

Tỉ số số chênh (OR) là tỉ số của số chênh mắc bệnh của nhóm phơi nhiễm trên số chênh mắc
bệnh ở nhóm không phơi nhiễm. Trong trường hợp nghiên cứu bệnh chứng tỉ số số chênh là tỉ số
của số chênh phơi nhiễm của nhóm bệnh trên số chênh phơi nhiễm ở nhóm không chứng.
RR = (a
1
/b
1
)/(a
0
/b
0
)
Khoảng tin cậy 95% của tỉ số số chênh:
0 0 1 1
1 1 1 1
96 , 1
b a b a
e OR
+ + + ×
÷ ×
Bài tập
Một nghiên cứu bệnh chứng nhằm tìm mối liên hệ giữa sự ăn thịt và viêm ruột hoại tử ñã tìm
ñược 61 trường hợp viêm ruột hoại tử và 57 trường hợp chứng. Trong nhóm bị viêm ruột hoại tử
có 50 trường hợp có tiền căn ăn thịt (gần ñây) và trong nhóm chứng có 16 trường hợp có tiền
căn ăn thịt. Hãy tìm ước lượng số ño liên hệ giữa ăn thịt và viêm ruột hoại tử.
Table 5. Sự liên hệ giữa ăn thịt trong thời gian gần ñầu và viêm ruột hoại tử ở Papua New Guinea
(OR=11,6)
Ăn thịt trong thời gian gần ñây Không ăn thịt trong thời gian
gần ñây
Tổng số
Nhóm bệnh 50 a
1
11 b
1
61
Nhóm chứng 16 a
0
41 b
0
57
Tổng số 66 52 118

Nếu tỉ lệ ăn thịt ở nhóm bệnh (50/61) cao hơn tỉ lệ ăn thịt trong nhóm chứng (16/57) có ý nghĩa
thống kê thì chúng ta có thể kết luận rằng có sự liên quan giữa ăn thịt và viêm ruột hoại tử. ðây
là bài toán so sánh tỉ lệ của một biến số ñịnh tính ở hai nhóm và ñược giải quyết bằng kiểm ñịnh
chi bình phương.
Tuy nhiên bằng việc kiểm ñịnh giả thuyết chúng ta chỉ xác ñịnh có mối liên hệ mà không biết ñộ
lớn của sự liên hệ. Bởi vì ñây là nghiên cứu bệnh chứng chúng ta không tính ñược RR mà phải
sử dụng OR ñể ño lường sức mạnh liên hệ. Sử dụng công thức tính OR và khoảng tin cậy của
OR ta ñược:
OR = (a
1
/b
1
)/(a
0
/b
0
) = (a
1
× b
0
)/(a
0
× b
1
) = 11.65 và
khoảng tin cậy 95% của OR = 4.87 ñến 27.85
Bài tập
Có 240 người ñược tiêm vaccine phòng bệnh cúm và 220 người ñược tiêm placebo. Trong nhóm
tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so sánh tỉ
lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức ñộ liên
hệ giữa vaccine cúm và bệnh cúm?

26
Kết quả Mắc bệnh cúm Không mắc Tổng
Có 20 a
1

(8,3%)
220 b
1


240 N
1


Placebo 80 a
0

(36,4%)
140 d
220 N
0

Tiêm chủng
Tổng 100 360 460 N
Ta tính ñược RR = (a
1
/N
1
)/(a
0
/N
0
) = (20/240)/(80/220) = 0.23
Khoảng tin cậy 95% của tỉ số nguy cơ:
0 0 1 1
1 1 1 1
96 , 1
N a N a
e RR
− + − ×
÷ × = 0.15 ñến 0.36
Quan hệ giữa hai biến số ñịnh lượng
Tương quan
Tương quan là số ño mức ñộ hai biến số ñịnh lượng cùng thay ñổi với nhau. Có nhiều loại hệ số
tương quan, nhưng chúng ñều có giá trị từ -1 ñến 1. Nếu chúng có giá trị bằng zero có nghĩa là
hai biến số ñộc lập và không quan hệ gì với nhau. Nếu chúng có giá trị dương có nghĩa là hai
biến số ñồng biến với nhau, nếu chúng có giá trị âm nghĩa là hai biến số nghịch biến. Giá trị
tuyệt ñối của hệ số tương quan càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai
trò của sai số ngẫu nhiên sẽ ít hơn. Khi trị tuyệt ñối của hệ số tương quan bằng một có nghĩa là
hoàn toàn không có sai số ngẫu nhiên.
Loại hệ số tương quan ñược sử dụng phổ biến nhất là hệ số tương quan Pearson r:

1
/ ) (
) ( ) (
) )( (
2 2

×
×
× − Σ
=
− −
− −
=
∑ ∑

n
n y x n xy
y y x x
y y x x
r
y x
i i
i i
σ σ

Lí giải ý nghĩa của hệ số tương quan Pearson
- Hệ số tương quan luôn luôn nằm trong ñoạn [-1,1]
- Hệ số tương quan r dương chứng tỏ hai biến số là ñồng biến; hệ số tương quan r âm chứng tỏ
hai biến số là nghịch biến.
- Trị số tuyệt ñối của hệ số tương quan r nói lên mức ñộ liên quan giữa hai biến số. Nếu trị tuyệt
ñối của r bằng 1 (r=1 hay r=-1), quan hệ hoàn toàn tuyến tính nghĩa là tất cả các ñiểm nằm trên
ñường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt ñối của r nhỏ hơn 1 sẽ có các ñiểm số liệu phân
tán chung quanh ñường hồi quy (hình 9.2 c và 9.2e).
- Bình phương của hệ số tương quan (r
2
) thể hiện tỉ lệ biến thiên của biến số phụ thuộc ñược giải
thích bằng sự biến thiên của biến số ñộc lập (nếu mối liên hệ này là nhân quả)
- Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1) không có
mối liên hệ gì giữa hai biến số hoặc (hình 9.2a) (2) mối liên hệ giữa hai biến số không phải là
tuyến tính (hình 9.2b)
- Theo quy ước, quan hệ với r từ 0,1 ñến 0,3 là quan hệ yếu, từ 0,3 ñến 0,5 quan hệ trung bình và
trên 0,5 là quan hệ mạnh.

27
Hồi quy
Hồi quy là một mô hình toán học mô tả sự biến ñổi của một biến số này theo những biến số khác.
Một phương trình hồi quy có thể có dạng như sau:
cân nặng (kg) = 6,85 + 0,18 × tháng tuổi
(phương trình hồi quy tính cân nặng của trẻ từ 9 ñến 40 tháng tuổi theo tháng tuổi)
theo phương trình này người ta gọi:
cân nặng: biến số phụ thuộc
tháng tuổi: biến số ñộc lập
6,85: hệ số của hằng số, hay còn gọi là ñiểm chặn (intercept)
0,18: hệ số của biến số tháng tuổi.
Một cách tổng quát phương trình hồi quy sẽ có dạng:
Y = b
0
+ b
1
x
1
+ b
2
x
2
+ b
3
x
3
Với y là biến số phụ thuộc
x
1
, x
2
, x
3
là các biến số ñộc lập
b
0
: ñiểm chặn của phương trình
b
1
, b
2
, b
3
: hệ số của các biến số ñộc lập
Hệ số của biến số ñộc lập nói lên nếu biến số ñộc lập tăng một ñơn vị thì biến số phụ thuộc y sẽ
thay ñổi bao nhiêu. Cụ thể hơn nếu biến số x
2
thay ñổi một ñơn vị thì biến số y sẽ tăng giá trị là
b
2
(biến số y sẽ giảm nếu giá trị b
2
âm).

Bài tập
1. Một nhà nghiên cứu ghi nhận lượng muối ăn và huyết áp tâm thu của 5 ñối tượng trong bảng
4.
ðối tượng Lượng muối Huyết áp
1 5 110
2 10 120
3 12 110
4 18 120
5 20 140
Hãy tìm mối liên hệ giữa huyết áp tâm thu và lượng muối sử dụng.
Thực hành
ðể tìm sự liên hệ giữa hai biến số ñịnh lượng chúng ta sử dụng hệ số tương quan. Dựa vào công
thức ta tính ñược
r = 0,771829.
Như vậy có mối liên quan thuận giữa lượng muối ăn và huyết áp tâm thu. Mối liên quan này là
mạnh và lượng muối ăn giải thích cho ñến 60% (0.77 × 0.77) sự thay ñổi của huyết áp tâm thu.
Chúng ta cũng tìm ñược phương trình của huyết áp theo lượng muối tiêu thụ sẽ là:
Huyết áp tâm thu = 99,8 mmHg + 1,55 x Lượng muối.

28
Giá trị 99,8 ñược gọi là ñiểm chặn của phương trình hồi quy và 1,55 là hệ số góc của biến số
lượng muối tiêu thụ. ðiều này có nghĩa là nếu lượng muối ăn tăng thêm 1 gram/ngày thì huyết áp
tâm thu sẽ tăng trung bình 1,55 mmHg.
2. Lý giải ý nghĩa của phân tán ñồ sau
Figure 8. Trọng lượng sơ sinh theo tuổi thai (tuần) của 641 trẻ sinh do thụ thai trong ống nghiệm ở
Anh quốc
t
r
o
n
g

l
u
o
n
g

t
r
e
tuoi thai
20 24 28 32 36 40 44
0
1000
2000
3000
4000
5000


29
Cài ñặt chương trình Stata 10.0, số liệu mẫu
và các chương trình có liên quan
1. Cài ñặt chương trình Stata và số liệu mẫu
Có nhiều cách ñể cài ñặt chương trình Stata 10. Dưới ñấy sẽ trình bày cách cài ñặt chương trình
Stata/SE 10.0 từ tập tin "Setup Stata 10 and Data.exe" (có thể tải xuống từ website của khoa Y tế
công cộng ðại Học Y dược TP Hồ Chí Minh hay chép từ ñĩa CD của bộ môn Thống kê Y học)
- Tìm tập tin "Setup Stata 10 and Data.exe" (Ở một số máy khi không cho phép hiện phần mở
rộng của tên tập tin, tên tập tin chỉ hiện ra là Setup_Stata10)
- Nhấp ñúp vào tập tin này (hay nhấp chuột ñể chọn tập tin này và sau ñó nhấn phím Enter). Tập
tin này sẽ thực hiện việc khởi ñộng cài ñặt trong vòng vài giây.

Và tiếp theo, cửa sổ chào mừng (Welcome) sẽ hiện ra

Nhấp vào nút lệnh Next ñể sang cửa sổ tiếp theo ñể chọn thư mục của nơi cài ñặt (Choose
destination location).

30

Nếu ở bước này nếu chúng ta quyết ñịnh không cài ñặt nữa hãy nhấp vào nút lệnh Cancel ñể
thoát khỏi chương trình cài ñặt. Nếu chúng ta muốn tiếp tục cài ñặt thì cần phải quyết ñịnh thư
mục của nơi cài ñặt (Destination Directory). Theo mặc ñịnh thư mục của nơi cài ñặt sẽ là
C:\Program Files và nếu không có ý ñịnh gì ñặt biệt, chúng ta cũng nên cài ñặt ở thư mục này
bằng cách ñể nguyên tên thư mục nằm trong hộp văn bản Destination Directory rồi nhấp Next.
Nếu muốn cài ñặt vào thư mục khác, nhấp vào nút lệnh Browse rồi sau ñó chọn thư mục phù hợp
trước khi nhấp vào nút lệnh Next. Giả sử chúng ta tiếp tục cài ñặt và chọn thư mục nơi cài ñặt
mặc ñịnh (C:\Program Files) thì cửa sổ cài ñặt (Setup) sẽ hiện ra và cho tiếp tiến ñộ của việc
thực hiện cài ñặt.

Sau quá trình cài ñặt cửa sổ hoàn tất (Finised) sẽ hiện ra.

31

Chúng ta hãy nhấp vào nút lệnh Close của của sổ hoàn tất ñể kết thúc quá trình cài ñặt. Sau quá
trình cài ñặt, chương trình cài ñặt sẽ tạo ra mục chương trình Stata 10 trong nhóm chương trình
MediStat. ðiều này có nghĩa sau khi cài ñặt ñể khởi ñộng chương trình Stata trong Windows,
chúng ta nhấp chuột vào nút lệnh Start của hệ ñiều hành Windows và sau ñó chỉ vào Alls
Program và sau ñó di chuyển (navigate) ñến nhóm chương trình MediStat rồi nhấp vào mục
chương trình Stata 10. Việc thực hiện toàn bộ quá trình khởi ñộng chương trình Stata ñược thể
hiện tóm tắt như sau Start :: Alls Program :: MediStat :: Stata 10 (Chú ý nút lệnh ñầu tiên và
mục cuối cùng là ñiểm cần phải nhấp chuột, các dấu :: thể hiện sự di chuyển (navigate) của con
trỏ chuột. Việc cài ñặt Stata 10 cũng ñồng thời cài ñặt các tập tin số liệu mẫu vào thư mục Data
nằm trong thư mục Stata 10 của thư mục nơi cài ñặt.
2. Cài ñặt tập tin số liệu mẫu
ðể có thể thực tập các bài tập có trong tài liệu này, các bạn nên có các tập tin số liệu mẫu. Khi
bạn cài ñặt chương trình Stata 10 theo cách kể trên thì các tập tin số liệu mẫu ñã ñược ñưa vào
thư mục C:\Data và các bạn không cần phải thao tác gì thêm ñể có tập tin số liệu mẫu nhằm thực
tập. Do ñó việc cài ñặt tập tin số liệu mẫu chỉ nên thực hiện khi các số liệu mẫu vì một lí do gì ñã
bị xóa ñi hoặc hư hỏng. Cài ñặt tập tin số liệu mẫu cần ñòi hỏi tập tin Data_Stata10.exe (có thể
tải xuống từ website của khoa Y tế công cộng ðại Học Y dược TP Hồ Chí Minh hay chép từ ñĩa
CD của bộ môn Thống kê Y học)
- Tìm tập tin "Setup Data.exe" (Ở một số máy khi không cho phép hiện phần mở rộng của tên tập
tin, tên tập tin chỉ hiện ra là Data_Stata10)
- Nhấp ñúp vào tập tin "Setup Data.exe" (hay nhấp chuột ñể chọn tập tin này và sau ñó nhấn
phím Enter). Tập tin này sẽ thực hiện việc khởi ñộng cài ñặt trong vòng vài giây.

32

Tiếp theo là cửa sổ Choose Destination Location sẽ hiện ra.

Nếu ở bước này nếu chúng ta quyết ñịnh không cài ñặt nữa hãy nhấp vào nút lệnh Cancel ñể
thoát khỏi chương trình cài ñặt. Nếu chúng ta muốn tiếp tục cài ñặt thì cần phải quyết ñịnh thư
mục của nơi cài ñặt (Destination Directory). Theo mặc ñịnh thư mục của nơi cài ñặt sẽ là
C:\Program Files và nếu không có ý ñịnh gì ñặt biệt, chúng ta cũng nên cài ñặt ở thư mục này
bằng cách ñể nguyên tên thư mục nằm trong hộp văn bản Destination Directory rồi nhấp Next.
Khi ñó sau khi cài ñặt tập tin số liệu mẫu sẽ nằm ở thư mục C:\Data.
Nếu muốn cài ñặt vào thư mục khác, nhấp vào nút lệnh Browse rồi sau ñó chọn thư mục phù hợp
trước khi nhấp vào nút lệnh Next. Giả sử chúng ta tiếp tục cài ñặt và chọn thư mục nơi cài ñặt
mặc ñịnh (C:\Program Files) thì cửa sổ cài ñặt (Setup) của chương trình Data Stata 10 sẽ hiện ra
và cho tiếp tiến ñộ của việc thực hiện cài ñặt.

Sau khi thực hiện xong việc cài ñặt chương trình sẽ tự ñộng ñóng lại.

33
3. Cài ñặt chương trình chuyển ñổi số liệu
ðôi khi chúng ta có số liệu ñược nhập bằng chương trình Epi-Info 6.04, Epi-Info for Windows,
Access hay Excel nhưng chúng ta lại muốn phân tích số liệu bằng Stata chúng ta cần phải sử
dụng chương trình chuyển ñổi số liệu như DBMSCopy for Win hay StatTransfer. Sau ñây là
hướng dẫn cài ñặt chương trình StatTransfer 7.0 sử dụng tập tin StatTransfer7Setup.exe (có thể
tải xuống từ website của khoa Y tế công cộng ðại Học Y dược TP Hồ Chí Minh hay chép từ ñĩa
CD của bộ môn Thống kê Y học)
- Tìm tập tin "StatTransfer7Setup.exe" (Ở một số máy khi không cho phép hiện phần mở rộng
của tên tập tin, tên tập tin chỉ hiện ra là StatTransfer7Setup)
- Nhấp ñúp vào tập tin này (hay nhấp chuột ñể chọn tập tin này và sau ñó nhấn phím Enter). Tập
tin này sẽ thực hiện việc khởi ñộng cài ñặt trong vòng vài giây.

Tiếp theo các cửa sổ Welcome, Choose Destination Location

Nếu ở bước này nếu chúng ta quyết ñịnh không cài ñặt nữa hãy nhấp vào nút lệnh Cancel ñể
thoát khỏi chương trình cài ñặt. Nếu chúng ta muốn tiếp tục cài ñặt thì cần phải quyết ñịnh thư
mục của nơi cài ñặt (Destination Directory). Theo mặc ñịnh thư mục của nơi cài ñặt sẽ là
C:\Program Files\StatTransfer7 và nếu không có ý ñịnh gì ñặt biệt, chúng ta cũng nên cài ñặt ở
thư mục này bằng cách ñể nguyên tên thư mục nằm trong hộp văn bản Destination Directory rồi
nhấp Next.

34
Nếu muốn cài ñặt vào thư mục khác, nhấp vào nút lệnh Browse rồi sau ñó chọn thư mục phù hợp
trước khi nhấp vào nút lệnh Next. Giả sử chúng ta tiếp tục cài ñặt và chọn thư mục nơi cài ñặt
mặc ñịnh (C:\Program Files\StatTransfer7) thì cửa sổ Ready to Install sẽ hiện ra.

Nhấp vào nút lệnh Next ñể tiếp tục, cửa sổ cài ñặt (Setup) sẽ hiện ra và cho tiếp tiến ñộ của việc
thực hiện cài ñặt.

Sau khi cài ñặt chương trình StatTransfer, cửa sổ Finished sẽ hiện ra.

35

Chúng ta hãy nhấp vào nút lệnh Close của của sổ hoàn tất ñể kết thúc quá trình cài ñặt. Sau quá
trình cài ñặt, chương trình cài ñặt sẽ tạo ra mục chương trình st32w trong nhóm chương trình
MediStat. ðiều này có nghĩa sau khi cài ñặt ñể khởi ñộng chương trình StatTransfer7 trong
Windows, chúng ta nhấp chuột vào nút lệnh Start của hệ ñiều hành Windows và sau ñó chỉ vào
Alls Program và sau ñó di chuyển (navigate) ñến nhóm chương trình MediStat rồi nhấp vào
mục chương trình st32w. Việc thực hiện toàn bộ quá trình khởi ñộng chương trình Stata ñược thể
hiện tóm tắt bằng hướng dẫn sau Start :: Alls Program :: MediStat :: st32w (Chú ý nút lệnh ñầu
tiên và mục cuối cùng là ñiểm cần phải nhấp chuột, các dấu :: thể hiện sự di chuyển (navigate)
của con trỏ chuột.








36
Khởi ñộng và kết thúc Stata
1. Khởi ñộng Stata
ðể khởi ñộng Stata trong Windows XP hãy thực hiện
• Nhấp chuột vào Start
• Nhấp chuột vào “All Programs”
• Di chuyển chuột thư mục MediStat và
• Nhấp chuột vào mục Stata 10

Hoặc nếu ñã có biểu tượng của Stata trên desktop của máy tính có thể khởi ñộng Stata bằng cách
nhấp ñúp chuột vào biểu tượng của Stata 10 (Stata icon)
Người dùng sẽ nhìn thấy màn hình như sau khi khởi ñộng Stata 10.0

37

Nếu màn hình Stata không khởi ñộng ñược, nguyên nhân thông thường nhất là người sử dụng
chưa ñăng kí và mở khoá ñể sử dụng Stata. Trong trường hợp này người sử dụng cần liên hệ với
công ty Stata ñể có ñược số hiệu (serial number) mã chương trình (code) và chìa khoá chủ quyền
(Authorization key). Cũng có thể xảy ra trường hợp người sử dụng ñã mở khoá rồi nhưng do vô
ý ñã xoá file Stata.lic. Trong trường hợp này có thể chép lại tập tin Stata.lic của người ñã có khóa
hợp lệ.
2. Kiểm tra tính hợp lệ của Stata
Trong lần khởi ñộng Stata ñầu tiên, bạn có thể muốn kiểm tra rằng bạn ñã cài ñặt ñúng. Hãy
gõ lệnh verinst và bạn sẽ thấy kết xuất tương tự như sau:
. verinst
Stata/SE 10.0 for Windows
Born 25 Jul 2007
Copyright (C) 1985-2007

Total physical memory: 1038712 KB
Available physical memory: 191512 KB

Unlimited-user Stata for Windows (network) perpetual license:
Serial number: 56437637415
Licensed to: Khoa Y te Cong cong
Dai hoc Y Duoc
Lệnh verinst là một lệnh cần nhớ. Giả sử nếu chúng ta thay ñổi cấu hình của máy tính và không

38
biết mình ñã làm tổn thương cho Stata hay không, chúng ta có thể gõ verinst ñể ñược trấn an
rằng Stata vẫn còn ñược cài ñặt ñúng.
3. Thoát khỏi Stata
ðể thoát khỏi Stata/SE 10.0 for Windows chúng ta có thể thực hiện một trong 2 việc sau:
- Nhấp vào ô ñóng nằm ở phía trên phải của cửa sổ Stata
Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu ñó ñã ñược thay ñổi nhưng
chưa ñược lưu vào ñĩa thì khi chúng nhấp vào ô ñóng, máy tính sẽ hỏi chúng ta rằng
chúng ta có muốn thoát mà không lưu lại số liệu hay không. Nếu chúng ta ñồng ý thì
Stata sẽ thoát, nếu không thì chúng ta lại trở lại Stata ñể chúng ta có thể lưu lại số liệu.
- Gõ lệnh exit trong cửa sổ Stata Command.
Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu ñó ñã ñược thay ñổi nhưng
chưa ñược lưu vào ñĩa thì khi chúng gõ exit, máy tính sẽ không ñồng ý cho chúng ta thoát
và sẽ thông báo “no; data in memory would be lost”. Trong trường hợp này nếu chúng
muốn thoát mà không lưu lại số liệu thì chúng ta hãy gõ exit, clear. Nếu chúng ta muốn
lưu lại số liệu hãy sử dụng lệnh save.
4. Các loại hình của Stata
Có một số loại hình của Stata chạy trên các hệ ñiều hành khác nhau: Stata cho Windows
98/95/NT, Stata cho Windows 3.1, Stata cho Power Macintosh, Stata cho 680x0 Macintosh,
Stata cho Linux, Stata cho RS/6000, v.v. Tuy nhiên bất kể bạn dùng loại hình Stata nào, Stata
vẫn là Stata và bạn có thể sử dụng cùng một câu lệnh và Stata sẽ cho ra cùng một kết quả,
chính xác ñến số lẻ tận cùng.
Ngay cả các tập tin cũng có thể chia xẻ. Thí dụ tập tin số liệu, tập tin chương trình, tập tin ñồ
hoạ của Stata cho Macintosh có thể dùng trên các máy tính khác mà không cần phải chuyển
ñổi.
5. Stata nhỏ, Intercooled Stata và Stata bản ñặc biệt (Stata SE)
Stata cho Windows và Stata cho Macintosh có hai kiểu: Stata nhỏ và Intercooled Stata (trên
hệ ñiều hành Unix chỉ có Intercooled Stata). Cả hai kiểu Stata này ñều có những nét chung
nhưng Intercooled Stata có thể làm việc với tập tin dữ liệu lớn hơn và nhanh hơn. Tuỳ theo
loại máy Intercooled Stata có thể nhanh hơn Stata nhỏ từ 50 ñến 600%.
Sau ñây là sự khác biệt giữa về giới hạn kích thước giữa Intercooled Stata và Stata nhỏ
Stata nhỏ Intercooled Stata
Số quan sát 1.000 Tuỳ thuộc vào bộ nhớ
Số các biến số 99 2.047
Chiều rộng số liệu 200 8.192
Kích thước ma trận tối ña 40 800
Số kí tự trong một macro 1.000 18.632
Số kí tự trong một dòng lệnh 1.100 18.648

39

Tại sao Intercooled Stata chạy nhanh hơn Stata nhỏ? ðiều này là do sự khác biệt trong việc lập
chương trình. Thí dụ ñể có tích số của các ma trận RZR’, Intercooled Stata sẽ sử dụng bộ nhớ
ñể có thể ghi nhớ kết quả tạm thời là ma trân T=RZ rồi sau ñó tính TR’. Stata nhỏ do không có
thể sử dụng nhiều bộ nhớ nên phải tính toán trực tiếp RZR’, và do ñó một số kết quả trung gian
phải tính toán lại nhiều lần và ñiều này làm Stata nhỏ bị chậm .
Dù sao, sự khác biệt của Intercooled Stata và Stata nhỏ mang tính kĩ thuật và nội bộ, ñối với
người dùng, việc sử dụng Intercooled Stata và Stata nhỏ không có gì khác biệt. Nếu Stata ñã
ñược cài ñặt và bạn muốn biết bạn ñang dùng Stata gì thì có thể gõ lệnh about:
. about
Stata/SE 10.0 for Windows
Born 25 Jul 2007
Copyright (C) 1985-2007

Total physical memory: 1038712 KB
Available physical memory: 192392 KB

Unlimited-user Stata for Windows (network) perpetual license:
Serial number: 56437637415
Licensed to: Khoa Y te Cong cong
Dai hoc Y Duoc
Như vậy, chúng ta ñang sử dụng Stata Phiên bản ñặc biệt 10.0 cho Windows.

40
Khởi ñộng Stata
1. Khởi ñộng Stata
Khởi ñộng chương trình STATA bằng cách nhấp vào nút Start :: All Programs :: Medistat ::
Stata 10 hoặc nhấp vào biểu tượng (icon) Stata 10 trên màn hình Desktop.
2. Mô tả giao diện của chương trình Stata
Giao diện của Stata sẽ hiện ra với 3 thanh và 4 cửa sổ:
3 thanh bao gồm:
1. Thanh tiêu ñề với dòng chữ "Intercooled Stata 6.0"

2. Thanh menu với các menu File (ñóng mở tập tin); Edit (hiệu chỉnh); Prefs (Tùy chọn); Data
(Số liệu) Graphics (ðồ họa) Statistics (Thống kê) User (Người dùng) Window (mở ra các cửa
sổ) và Help (Trợ giúp)

3. Thanh công cụ (toolbar)

Thanh công cụ gồm 12 nút công cụ (1- Open file; 2- Save; 3- Print Results; 4- Begin (Close) log;
5- Start Viewer (Bring Viewer to Front) ; 6- Bring results window to Front 7-Bring
graph windows to Front; 8- Do-file Editor; 9-Data Editor; 10-Data Browser; 11-Clear -
more - Condition và 12- Break)
Ý nghĩa của từng công cụ như sau:

1- Open file (mở tập tin)
2- Save (Lưu tập tin)
3- Print Results (In kết quả)

4- Begin (Close) log: (Bắt ñầu (Kết thúc) ghi biên bản kết quả)
5- Start Viewer (Bring Viewer to Front) : Bắt ñầu sử dụng cửa sổ Viewer
7-Bring graph windows to Front (ðưa cửa sổ ñồ họa ra trước)

8- Do-file Editor: (Biên soạn tập tin chương trình - do file)
9-Data Editor: Biên tập số liệu (sửa chữa, thêm bớt số liệu)
10-Data Browser: Duyệt số liệu (xem nhưng không sửa chữa)
11-Clear - more - Condition (Xóa lệnh more ñể tiếp tục chương trình)

41
12- Break: (Ngưng tập tin chương trình)

Bốn cửa sổ liệt kê theo ngược chiều kim ñồng hồ bao gồm
1. Cửa sổ Command (cửa sổ lệnh)

2. Cửa sổ Result (cửa sổ Kết quả)

3. Cửa sổ Review (cửa sổ Lưu trữ)

4. Cửa sổ Variables (cửa số Biến số)


3. Cách cách ñể thực hiện lệnh trong chương trình Stata
Có hai cách ñể thực hiện lệnh trong chương trình Stata: Dùng bàn phím ñể gõ lệnh vào cửa sổ
lệnh (Stata Command) hay sử dụng con trỏ chuột ñể chọn các trình ñơn (menu) giao diện ñồ họa
(Graphic Interface)
Dùng bàn phím ñể gõ lệnh

42
Dùng bàn phím ñể gõ lệnh vào cửa sổ lệnh (Stata Command). ðây là cách sử dụng Stata
của người chuyên nghiệp vì nó cho phép thực hiện tất cả các lệnh của Stata một cách
nhanh chóng với ñầy ñủ các chức năng phụ của lệnh. Tuy nhiên phương pháp này có
thể không thích hợp cho người mới sử dụng do nó ñòi hỏi người dùng phải thuộc các câu
lệnh và cú pháp của nó
Con trỏ chuột với giao diện ñồ họa (Graphic Interface)
Có thể dùng chuột thực hiện các lệnh nhằm thao tác số liệu (menu Data), vẽ ñồ thị (menu
Graphics) và phân tích số liệu (menu Statistics). Phương pháp sử dụng chuột và menu là
phương pháp dễ sử dụng nên sẽ ñược ưu tiên trình bày trong tài liệu này.
4. Lưu lại kết quả phân tích
Kết quả của phân tích ñược thể hiện trên cửa sổ Stata Result và cửa sổ này có một thanh trượt
dọc cho phép xem lại những kết quả phân tích cũ. Tuy nhiên ñể tránh gây nhầm lẫn cho người
phân tích, cửa sổ này chỉ lưu lại những kết quả gần nhất. Do ñó nếu chúng ta muốn lưu trữ lại
toàn bộ kết quả phân tích chúng ta cần phải mở cửa sổ log bằng cách nhấp vào nút công cụ Stata
Log nằm vị trí thứ tư từ trái ở trên thanh công cụ . Khi ñó cửa sổ Open Stata Log mở ra,
chúng ta có thể nhập tên của tập tin lưu trữ (log file) vào hộp văn bản File name.

Giả sử chúng ta chọn tập tin này là "baitap.smcl" hãy gõ "baitap" vào hộp File Name rồi nhấp
OK.
Khi ñó trên cửa số kết quả (Stata results) sẽ hiện ra thông báo ñể cho biết rằng biên bản kết quả
phân tích sẽ ñược lưu tại tập tin "D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl"

43
. log using "D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl"
------------------------------------------------------------------------------
log: D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl
log type: smcl
opened on: 10 Oct 2004, 12:01:34
Sau ñó bạn có thể thực hiện các bước phân tích.
Khi muốn xem lại biên bản (kết quả phân tích) hãy nhấp vào nút công cụ log một lần nữa
ñể hiện ra cửa sổ Stata Log Options.

Sau ñó chọn vào nút chọn View snapshot of log file và nhấp vào nút lệnh OK ñể xem biên bản.
Khi muốn chấm dứt việc ghi biên bản (kết quả phân tích) hãy nhấp vào nút công cụ log ñể
hiện ra cửa sổ Stata Log Options.

Sau ñó chọn vào nút chọn Close log file và nhấp vào nút OK.
Lời khuyên: Người sử dụng Stata có kinh nghiệm sau khi mở tập tin số liệu luôn luôn mở tập tin
log trước khi tiến hành các phân tích thống kê ñể không bỏ mất các kết quả của quá trình phân
tích.


44
Một vài phân tích ñơn giản với Stata
Mục tiêu:
Sau khi nghiên cứu bài này các học viên có khả năng:
- Nêu ñược sự khác biệt giữa biến số ñịnh tính và biến ñịnh lượng
- Sử dụng ñược các lệnh của Stata: edit, sum, tab1, bysort
- Hiểu ñược khái niệm về trọng số (weight)
Chúng ta sẽ minh họa những lệnh cơ bản trong phân tích thống kê với Stata sử dụng số liệu ñơn
giản giả ñịnh của 5 ñối tượng nghiên cứu. Số liệu này có 2 biến số giới và ñường huyết (ñơn vị
của ñường huyết là mg/100mL).
Hình 2. ðường huyết và giới tính của 5 ñối tượng nghiên cứu
STT Tên Giới tính ðường huyết (mg/100mL)
1 Truc nam 80
2 Phuoc nam 90
3 Han nữ 100
4 Hoa nữ 110
5 Dung nam 130
Câu hỏi:
1- Biến số giới tính là biến ñịnh lượng hay biến ñịnh tính? Biến số ñường huyết là biến
ñịnh lượng hay biến ñịnh tính? Hãy nêu sự khác biệt giữa biến số ñịnh lượng và biến số
ñịnh tính.
2. Biến số tên học là biến số ñịnh lượng hay ñịnh tính?
2- ðể tóm tắt ñặc trưng về giới tính của 5 ñối tượng nghiên cứu này chúng ta sử dụng
thống kê gì?
3- ðể tóm tắt ñặc trưng về ñường huyết của 5 ñối tượng nghiên cứu này chúng ta sử dụng
thống kê gì? Hãy cho biết ñường huyết trung bình của 5 người này? Hãy cho biết ñường
huyết trung bình của 2 người nữ và ñường huyết trung bình của 3 người nam?
1. Khởi ñộng Stata
Trước tiên, chúng ta thực hiện theo hướng dẫn: Start :: Alls Program :: MediStat :: Stata 10 ñể
khởi ñộng Stata từ Windows (Chú ý nút lệnh ñầu tiên Start và mục cuối cùng Stata 10 là ñiểm
cần phải nhấp chuột, các dấu :: thể hiện sự di chuyển (navigate) của con trỏ chuột). Khi ñó
chúng ta có màn hình Stata với 4 cửa sổ biến số (variables), lệnh (command), kết quả (results) và
xem lại (review) như sau:

45

Hình 3. Giao diện của Stata với 4 cửa sổ biến số (variables), lệnh (command), kết quả (results) và
xem lại (review) như sau
Với Stata, chúng ta có 2 cách ñể yêu cầu cho Stata thực hiện các lệnh về quản lí số liệu, vẽ ñồ thị
hay phân tích thống kê (1) gõ lệnh vào cửa sổ lệnh hay (2) sử dụng menu. Người ñọc ñược
khuyến khích sử dụng cả 2 phương pháp trên ñể thực hiện phân tích thống kê. Nhưng với mục
ñích giúp người ñọc phát triển năng lực tự phát triển và năng lực phán ñoán trong thực hiện phân
tích thống kê bằng menu, các hướng dẫn sẽ tập trung việc giúp người ñọc chuyển một câu lệnh
ñược viết theo cú pháp vào màn hình giao diện.
2. Nhập liệu với lệnh Edit
Trước tiên chúng ta sử dụng lệnh edit ñể nhập liệu ñơn giản. Lệnh edit ngoài khả năng nhập liệu
cũng có thể sử dụng ñiều chỉnh số liệu. Gõ edit trong cửa sổ lệnh (cần lưu ý lệnh edit cũng như
phần lớn các lệnh khác trong Stata ñược viết chữ thường, nếu chúng ta gõ lệnh EDIT (hay Edit
hay eDit) thì chương trình Stata sẽ không hiểu và sẽ hiện thông báo màu ñỏ:
unrecognized command: EDIT
Sau khi chúng ta gõ lệnh edit, màn hình Editor sẽ hiện ra:

46

Trong cửa sổ Editor mỗi hàng là một ñối tượng và mỗi cột là một biến số, do ñó số liệu của về
tên, giới tính và ñường huyết của 5 ñối tượng sẽ thể hiện bằng 5 hàng và 3 cột. Biến số tên (là
biến số hành chính) ñược thể hiện ở Cột 1, biến giới là biến ñịnh tính ñược thể hiện ở cột 2 và
biến ñường huyết là biến ñịnh lượng ñược thể hiện ở cột 3. Trong thí dụ này chúng ta nhập liệu
5 giá trị của biến tên trước và sau ñó nhập 5 giá trị của biến giới và 5 giá trị của biến ñường
huyết:
- Trước tiên nhập giá trị tên cho ñối tượng 1 (Truc) bằng cách di chuyển con trỏ ñến hàng 1 cột 1
(lưu ý khi ñó nhãn ở trước hộp văn bản thể hiện là var1[1] thể hiện con trỏ ñang ở biến var1 của
ñối tượng số 1. Nhập "Truc" vào hộp văn bản.

Khi nhấn Enter thì giá trị "Truc" sẽ ñược ñưa vào hàng 1 cột 1 và con trỏ sẽ nằm xuống ở hàng 2
cột 1 và nhãn ở trước hộp văn bản sẽ thể hiện chữ var1[2] ñể thể hiện con trỏ ñang ở biến var1

47
của ñối tượng số 2

Tiếp tục thực hiện cho ñến khi ñã nhập ñủ 5 tên của 5 ñối tượng.


Sau ñó di chuyển con trỏ sang hàng 1 cột 2 và quan sát nhãn trước hộp văn bản là var2[1].

Tiếp tục nhập các số 1,1,0,0,1 vào 5 ô trên cùng của cột 2. Các số 1,1,0,0,1 là mã hóa của các

48
giá trị Nam, Nam, Nữ, Nữ, Nam của biến số giới tính.

Sau khi nhập các giá trị của giới tính, chúng ta sẽ nhập vào các giá trị của ñường huyết bằng cách
di chuyển con trỏ sang hàng 1 cột 2 và quan sát nhãn trước hộp văn bản là var3[1].

Tiếp tục nhập các giá trị ñường huyết của năm ñối tượng lần lượt là 80, 90, 100, 110,130
Khi nhập biến số ñịnh lượng (hoặc nhập giá trị của biến ñịnh tính ñược mã hóa) cần lưu ý tránh
gõ chữ cái (như a, b, c, …) vào ô nhập liệu ñầu tiên vì khi trong ô nhập liệu ñầu tiên có chữ cái
(như 8o) thì dù sau ñó chúng ta có xóa ñi và nhập lại cho ñúng (thí dụ như 80) thì kiểu (Type)
của biến số vẫn là str# và không thể ñược xử lí như là một biến ñịnh lượng. ðể khắc phụ sai lầm
này có thể sử dụng lệnh destring với cú pháp sau:
. destring [varlist], replace
(Data :: Create or Change variable :: Other variable transformation command :: Convert variable
from string to numeric)

49

Sau khi nhập liệu chúng ta có thể nhấp ñôi vào tên biến var1 ñể ñổi tên biến (Name) biến thành
ten.

Việc ñặt tên biến (name) phải theo một số quy tắc: Tên biến phải bắt ñầu bằng một chữ cái hoặc
dấu gạch chân và không có dấu khoảng trống hoặc dấu nốiở giữa tên biến. Nếu tên biến ñược ñặt
có khoảng trống ở giữa (thí dụ như "ho ten") thì chương trình stata sẽ nhận nhầm tên biến này là
2 tên biến ñược ñặt cạnh nhau. Nếu tên biến ñược ñặt có dấu cách ở giữa (thí dụ như "ho-ten")
thì chương trình stata sẽ nhận nhầm ñây là biểu thức số học (biến ho trừ cho biến ten). Vì những
hạn chế này nên tên biến thường không mô tả ñầy ñủ ñược ý nghĩa của biến. Khi ñó nếu muốn
mô tả ñầy ñủ ý nghĩa của biến phải sử dụng nhãn biến (label). Nói khác hơn tên biến là tên ngắn
gọn của biến, nhãn biến (label) là tên dài dòng của biến.
Trong trường hợp biến ten, nếu chúng ta thấy tên biên ten có ñủ ý nghĩa thì chúng ta không cần
sử dụng nhãn biến và ñể trống ô này.
Chương trình Stata cho biết ñịnh dạng (format) của biến này là %9s, chữ s của ñịnh dạng ñể chỉ
ñịnh ñây là biến chuỗi (string) và khi ñó máy tính sẽ không thực hiện phép toán số học trên các

50
biến số này.
Sau khi ñã ñặt xong tên biến và nhãn biến, chúng ta có thể nhấp vào nút lệnh OK ñể tiếp tục ñặt
tên cho biến số giới tính ở cột 2 bằng cách nhấp ñúp vào cột số 2

Ta hãy khai báo tên biến ở cột này là gioi và nhãn của biến này là gioi tinh. ðịnh dạng của biến
này là %8.0g. ðịnh dạng này nhằm cho biết ñây là biến thể hiện bằng con số (g), biến số này có
8 chữ số trước dấu thập phân và 0 (không) con số nào sau dấu thập phân.

Do chúng ta muốn thể hiện là 1 là mã hóa cho giá trị Nam của biến số, 0 là mã hóa của giá trị Nữ
của biến giới. Chúng ta phải khai báo nhãn giá trị (Value label) bằng cách nhấp vào nút lệnh
Define/Modify.

51

Khi khi cửa số "label define – Define value labels" ñã hiện ra chúng ta nhấp vào nút lệnh
Define của cửa sổ này ñể tạo ra nhãn giá trị mới. ðặt tên của nhãn (Label name) là gioi (lưu ý: có
thể ñặt tên của nhãn giống hoặc khác với tên của biến – Trong trường hợp này tên của nhãn trùng
với tên của biến)

Và sau ñó nhấp vào OK. Sau khi cửa sổ Add value hiện ra, nhập giá trị mã hóa (value) 1 vào hộp
văn bản value và nhập giá trị chưa mã hóa (text) nam vào hộp văn bản text và sau ñó nhấp nút
lệnh OK.

52

Cửa sổ Add value lại hiện ra một lần nữa, nhập giá trị mã hóa (value) 0 vào hộp văn bản value và
nhập giá trị chưa mã hóa (text) nu vào hộp văn bản text và sau ñó nhấp nút lệnh OK.

Cửa sổ Add value lại hiện ra thêm một lần nữa. Tuy nhiên lần này chúng ta không nhập vào các
hộp văn bản value và hộp văn bản text, mà chỉ nhấp vào nút lệnh Cancel bởi vì chúng ta ñã khai
báo ñầy ñủ cách mã hóa của biến số giới


53

Sau ñó chúng ta nhấp vào nút lệnh Close của cửa sổ label define – Define value labels. Ở cửa
sổ Variable properties nhấp vào hộp combo ở trên nút lệnh Define/Modify ñể chọn nhãn giá trị
gioi.

Sau ñó nhấp nút lệnh OK của cửa sổ Variable properties ñể hoàn tất phần khai báo cho biến
giới.
Tương tự chúng ta cũng ñổi tên và nhãn của biến var3 thành duonghuyet và duong huyet luc doi.

54

Sau khi ñã hoàn thành nhập liệu và mô tả thuộc tính của biến số, chúng ta ñóng số liệu lại bằng
cách Close cửa sổ Data Editor.
Khi ñó hãy quan sát ở cửa số Variable thể hiện có 3 biến số ten, gioi, duonghuyet và các ñặc
tính của biến này (nhãn, loại, ñịnh dạng).
Một cách khác ñể ñổi tên biến bằng cách nhấp chuột phải tên biến ở cửa sổ Variables:

3. Thống kê mô tả cho biến ñịnh tính với lệnh tab1
ðể làm thống kê mô tả cho biến ñịnh tính chúng ta sử dụng sử dụng lệnh tab1:
. tab1 varlist
(Statistics :: Summaries, tables, and tests :: Tables :: Multiple one-way tables)
Cụ thể trong trường hợp này, ñể có bảng phân phối tần suất của giới tính, bạn hãy gõ lệnh

55
. tab1 gioi

-> tabulation of gioi

gioi | Freq. Percent Cum.
------------+-----------------------------------
nu | 2 40.00 40.00
nam | 3 60.00 100.00
------------+-----------------------------------
Total | 5 100.00

Ở bảng kết quả Freq. là viết tắt của frequency có nghĩa là tần suất, Percent là phần trăm và Cum.
là chữ viết tắt của Cummulative percent có nghĩa là phần trăm cộng dồn. Cần lưu ý là chỉ nên sử
dụng phần trăm cộng dồn trong bảng tần suất của biến ñịnh lượng phân nhóm hay biến thứ tự.
Trong bảng này giá trị nữ ñược liệt kê trước vì nó ñược mã hóa bằng giá trị 0 nhỏ hơn giá trị mã
hóa 1 của giá trị nam
4. Thống kê mô tả cho biến ñịnh lượng với lệnh sum
ðể làm thống kê mô tả cho biến ñịnh tính chúng ta sử dụng sử dụng lệnh tab1:
. summarize varlist
(Statistics :: Summaries, tables, and tests :: Summary and Descriptive Statistics :: Summary
statistics)
Cụ thể trong trường hợp này, ñể biết trung bình, ñộ lệch chuẩn, giá trị tối thiểu và tối ña của biến
ñường huyết, bạn hãy gõ lệnh
. summarize duonghuyet
Hoặc ñơn giản hơn
. sum duonghuyet

Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
duonghuyet | 5 102 19.23538 80 130

Ở bảng kết quả Obs có nghĩa là số quan sát, mean là trung bình (hay chính xác hơn là trung bình
cộng), Std. Dev. là viết tắt của Standard Deviation có nghĩa là ñộ lệch chuẩn, Min là giá trị tối
thiểu và Max là giá trị tối ña.
5. Thống kê phân tầng theo nhóm
Trong các nghiên cứu có những trường hợp chúng ta thường phải thực hiện thống kê phân tầng
theo nhóm thí dụ như cần xác ñịnh tỉ lệ suy dinh dưỡng của trẻ dưới 5 tuổi phân tầng theo nơi cư
trú (có nghĩa là xác ñịnh tỉ lệ suy dinh dưỡng của trẻ dưới 5 tuổi ở nội thành và tỉ lệ suy dinh
dưỡng ở trẻ dưới 5 tuổi ở ngoại thành), tỉ lệ có kiến thức ñúng theo nghề nghiệp (tỉ lệ có kiến
thức ñúng ở nhóm công nhân, ở nhóm nông dân, ở nhóm nghề nghiệp khác) hoặc ñường huyết
trung bình theo giới tính (ñường huyết trung bình ở nhóm nam và ñường huyết trung bình ở
nhóm nữ). Tiền tố (prefix) bysort có thể sử dụng trước các lệnh thống kê ñể thực hiện các phân
tích thống kê phân tầng.

56
Cú pháp cho việc sử dụng tiền tố bysort là :
bysort varlist: Stata_command
Cụ thể ñể biết trung bình, ñộ lệch chuẩn, giá trị tối thiểu và tối ña của biến ñường huyết phân
tầng theo giới cần sử dụng tiền tố bysort gioi ở trước lệnh thống kê cho biến ñường huyết
. bysort gioi: sum duonghuyet

-> gioi = nu

Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
duonghuyet | 2 105 7.071068 100 110
------------------------------------------------------------------------------------
-> gioi = nam

Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
duonghuyet | 3 100 26.45751 80 130

Kết quả này cho biết ñường huyết trung bình của 3 người nam là 100 mg% và của 2 người nữ là
105 mg%.
6. Trọng số
Nếu chúng ta là một nghiên cứu và biết ñược ñường huyết trung bình của 3 người nam là 100
mg% và của 2 người nữ là 105 mg%, vậy ñường huyết trung bình của cả 2 nhóm sẽ là bao
nhiêu?
Nếu số người ở nhóm nam và nhóm nữ bằng nhau thì ñường huyết trung bình của chung 2 nhóm
sẽ là trung bình của ñường huyết trung bình của nhóm nam (100 mg%) và ñường huyết trung
bình của nhóm nữ (105 mg%) và sẽ là 102,5 mg%. Tuy nhiên trong trường hợp này không ñúng
vì số người ở nhóm nam (3 người) khác với số người ở nhóm nữ. Khi ñó ñường huyết trung bình
của chung 2 nhóm sẽ là trung bình của ñường huyết trung bình của nhóm nam (100 mg%) với
trọng số là 3 và ñường huyết trung bình của nhóm nữ (105 mg%) với trọng số là 2. Chúng ta hãy
minh họa các tính này với Stata bằng cách xóa bỏ số liệu cũ và nhập số liệu mới vào
. clear
. edit
Và nhập số liệu như sau:


57
Sau ñó chúng ta có thể sử dụng lệnh summarize với trọng số ñể tính ñường huyết trung bình
chung của cả 2 nhóm:
. summarize duonghuyet [fweight = trongso]

Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
duonghuyet | 5 102 2.738613 100 105
Có thể nhận xét rằng nếu chúng ta sử dụng trung bình có trọng số từ các trung bình từng nhóm
chúng ta sẽ có con số trung bình chung có giá trị. ðộ lệch chuẩn (standard deviation) trong
trường hợp này là 2,74 không sai nhưng phải lí giải khác ñi. ðộ lệch chuẩn này không nói lên sự
phân tán của giá trị cá thể chung quanh giá trị trung bình mà nói lên sự phân tán của trung bình
nhóm chung quanh giá trị trung bình chung. Vì vậy ñộ lệch chuẩn này là ñộ lệch chuẩn giữa các
nhóm (hay còn lại là between group standard deviation) và Tổng bình phương sai lệch giữa các
nhóm sẽ bằng phương sai giữa các nhóm nhân với căn bậc hai của cỡ mẫu -1 . Chúng ta sẽ quay
trở lại khái niệm này trong phần phân tích phương sai (analysis of variance) nhưng chúng ta cũng
nhân thí dụ này ñể minh họa cho công thức ñược sử dụng rộng rãi trong phân tích phương sai là:
SS =1480=4 x 19.23538
2
= SS
b
+ SS
w

30 2.738613 4 ) 1 ( ) (
2
1
2
= × = × − = − =

=
b
k
j
j j b
Var N X X N SS
1450 7.071068 1 + 26.45751 2 ) 1 (
2 2
1
2
= × × = − =

=
k
j
j j w
s N SS
Trong ñó kí hiệu số ñối tượng trong mỗi nhóm là N
1
, N
2
, …, N
k
. Số ñối tượng trong nhóm j ñược
kí hiệu là N
j
. Tổng số ñối tượng trong tất cả các nhóm là N
1
+ N
2
+ …+ N
k
= N. Số liệu ñược
trình bày như sau



58
Mô tả số liệu với Stata 10.0 for Windows
Chương này sẽ hướng dẫn bạn phương pháp mô tả số liệu với phần mềm Stata 10.0 sử dụng bộ
số liệu ivf.dta có trong thư mục C:\DATA sau khi bạn cài ñặt các tập tin số liệu mẫu.
Thông thường trước khi mô tả số liệu chúng ta cần thực hiện bước chuẩn bị và việc thao tác số
liệu (data processing). Công tác chuẩn bị bao gồm việc mở tập tin số liệu, mở tập tin log (Open
log file), khảo sát số liệu có bao nhiêu bản ghi và có những biến số nào cũng như nghiên cứu ñề
cương nghiên cứu (chủ yếu là mục tiêu nghiên cứu) ñể giúp việc phân loại biến số. Việc thao tác
số liệu là việc rà soát số liệu có bị sai sót hay nhầm lẫn gì hay không, tạo biến số mới theo yêu
cầu của phân tích và tiến hành việc dán nhãn số liệu ñể giúp cho việc hiểu rõ hơn số liệu và ñọc
kết quả của phân tích thống kê.

Trước tiên chúng ta hãy khởi ñộng Stata theo cách ñã hướng dẫn ở chương Khởi ñộng Stata.
Sau ñó thực hiện các bài tập 1 ñến 3 cho công tác chuẩn bị và các bài tập 4 ñến 6 cho công tác
thao tác số liệu.
1- Mở tập tin ivf_v.dta và mở tập tin log
Khởi ñộng cửa sổ Use New Data bằng cách 1 trong 2 cách:
- Nhấn nút công cụ mở file ( vị trí ñầu tiên trên thanh công cụ).
- Chọn menu File :: Open

Sau khi cửa sổ Use New Data sẽ hiện ra. Nhấp vào mũi tên bên phải hộp Look in ñể chọn ổ ñĩa
thích hợp và dùng con chuột nhấp vào các thư mục ñể chọn thư mục có chứa số liệu (thông

59
thường tập tin số liệu nằm ở thư mục C:\Data). Tìm tập tin số liệu ivf_v.dta, nhấp ñúp vào tên tập
tin này ñể mở tập tin (hoặc nhấp vào tập tin này ñể tên tập tin rơi vào hộp File Name rồi sau ñó
nhấp vào nút lệnh Open ñể mở tập tin).
ðể lưu trữ lại toàn bộ kết quả phân tích sẽ ñược thực hiện, cần nhớ nhấp vào nút công cụ Stata
Log nằm vị trí thứ tư từ trái ở trên thanh công cụ ñể bắt ñầu log kết quả (begin log). Máy
tính sẽ hiện ra hộp thoại Begin Logging Stata Output ñể chúng ta chọn tên tập tin (File name) và
thư mục lưu (Save In) của tập tin log.

Thí dụ chúng ta muốn lưu tập tin log với tên là ivf_v.smcl vào thư mục c:\data; chúng ta nhập
vào các thông tin như trên. Khi ñó ở cuối cửa sổ kết quả có thanh trạng thái với dòng chữ log on
(smcl) cho biết là tất cả các kết quả phân tích ñang ñược ghi chép lại (log).


2. Khảo sát các biến số của tập tin và nghiên cứu mục tiêu nghiên cứu ñể phân loại biến số
Hướng dẫn: ðể xem liệt kê các biến số chúng ta có thể nhấn phím chức năng F3 hay sử dụng

60
menu (nhấp vào menu Data :: Describe data :: Describe variable in memory) ñể xem các biến
số của số liệu


Chúng ta có thể xem danh sách các biến số liệt kê ở sau:

. describe

Contains data from C:\DATA\ivf_v.dta
obs: 641
vars: 7 15 Aug 2006 15:27
size: 20,512 (99.8% of memory free)
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
maso float %9.0g ma so
tuoime float %9.0g tuoi me (nam)
tangha float %9.0g tang huyet ap thai ki - 1=tang
ha, 0=khong tang ha
tuoithai float %9.0g tuoi thai (tuan)
gioi float %9.0g gioi tinh tre - 1=trai, 0=gai
tlsosinh float %9.0g trong luong so sinh (gram)
nghenghiep float %9.0g nghe nghiep me - 1=tu do,
2=cong nhan, 3=vien chuc
-------------------------------------------------------------------------------
Sorted by: maso


Giả sử từ ñề cương nghiên cứu chúng ta biết ñây là tập tin của số liệu 641 ñứa trẻ ñược sinh từ bà
mẹ thụ thai trong ống nghiệm (in-vitro fertilisation) với mục tiêu nghiên cứu là xem tuổi thai và
tăng huyết áp trong thai kì có ảnh hưởng lên trọng lượng thai hay không. Cách lí giải số liệu
ñược minh họa

STT Tên biến Ý nghĩa của biến Phân loại biến số:
(ðộc lập hay Phụ thuộc) –
(ðịnh tính hay ñịnh lượng)

61
1 Maso Mã số
2 Tuoime Tuổi của mẹ (năm tuổi)
3 Tangha Tăng huyết áp thai kì 1= có
0= không

4 Tuoithai Tuổi thai (tính theo tuần)
5 Gioi Giới tính của trẻ 1=trai 0=gái
6 Tlsosinh Trọng lượng sinh tính theo
grams

7 Nghenghiep Nghề nghiệp của mẹ 1=tự do
2=công nhân 3=viên chức


3. Làm thế nào ñể xem số liệu
Hướng dẫn: Có thể xem số liệu bằng 2 cách:
- Dùng nút lệnh Data Browser (vị trí 3 tính từ phía bên phải của thanh công cụ)
- Dùng menu Data :: Data browser (read-only editor)


Sử dụng Data Browser cho phép nhìn số liệu trong lưới (như các ô của chương trình Excel)
nhưng nó không cho phép in số liệu. Muốn nhìn số liệu ra của sổ kết xuất (output) ñể sau ñó in ra
hãy sử dụng menu Data:: Describe Data :: List data.

4. Hãy thực hiện thống kê mô tả tất cả các biến số trong bộ số liệu này:
Hướng dẫn: trước tiên chúng ta phải xác ñịnh biến số nào là biến số ñịnh lượng và biến số nào là
biến số ñịnh tính. Sau ñó thực hiện thống kê mô tả cho các biến số: ñối với biến ñịnh lượng, thực
hiện lệnh summarize ñể ñể có trung bình và ñộ lệch chuẩn, ñối với biến ñịnh tính thực hiện lệnh
tab1 ñể có bảng phân phối tần suất của các biến số.
Trong bộ số liệu này có các biến tuoime, tuoithai, tlsosinh là biến ñịnh lượng. ðể mô tả
biến số này chúng ta sử dụng menu Statistics :: Summaries, tables, & tests :: Summary
Statistics.

62


Sau khi hộp thoại Summarize hiện ra, thực hiện các bước sau:

Bước 1: Dùng con chuột nhấp vào dấu mũi tên xuống ( ) của hộp combo Variables. Khi ñó sẽ
có danh sách các biến số ñược sổ ra.

Bước 2: Di chuyển con trỏ trong danh sách các biến, và nhấp vào các biến cần mô tả thống kê

63
(tuoime, tuoithai, tlsosinh) ñể tên các biến này xuất hiện trên hộp văn bản Variables


Bước 3: Nhấp vào nút lệnh OK
Kết quả ñược trình bày nhưu sau:
. summarize tuoime tuoithai tlsosinh

Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
tuoime | 641 33.97192 3.87046 23 43
tuoithai | 641 38.68725 2.329931 24.69 42.35
tlsosinh | 641 3129.137 652.7827 630 4650

Các biến số ñịnh tính bao gồm tang_ha (tăng huyết áp), gioi (giới tính của trẻ), nghenghiep
(nghề nghiệp của mẹ). ðể tóm tắt các biến số ñịnh tính này (tang_ha, gioi, nghenghiep) chúng ta
sử dụng menu Statistics :: Summaries, tables & test :: Tables :: Multiple one-way tables.







64
Các bước thực hiện gồm:
- Bước 1: Dùng con chuột nhấp vào dấu mũi tên xuống ( ) của hộp combo Categorical
variables. Khi ñó sẽ có danh sách các biến số ñược sổ ra.

Bước 2: Di chuyển con trỏ trong danh sách các biến, và nhấp vào các biến cần mô tả thống kê
(tang_ha, gioi, nghenghiep) ñể tên các biến này xuất hiện trên hộp combo Categorical variables
Bước 3: nhấp nút lệnh OK ñể hoàn tất

. tab1 tang_ha gioi nghenghiep

-> tabulation of tang_ha

tang huyet |
ap thai ki |
- 1=tang |
ha, 0=khong |
tang ha | Freq. Percent Cum.
------------+-----------------------------------
0 | 552 86.12 86.12
1 | 89 13.88 100.00
------------+-----------------------------------
Total | 641 100.00

-> tabulation of gioi

gioi tinh |
tre - |
1=trai, |
0=gai | Freq. Percent Cum.
------------+-----------------------------------
0 | 315 49.14 49.14
1 | 326 50.86 100.00
------------+-----------------------------------
Total | 641 100.00

-> tabulation of nghenghiep


65
nghe nghiep |
me - 1=tu |
do, 2=cong |
nhan, |
3=vien chuc | Freq. Percent Cum.
------------+-----------------------------------
1 | 104 16.22 16.22
2 | 238 37.13 53.35
3 | 299 46.65 100.00
------------+-----------------------------------
Total | 641 100.00

5. Các tóm tắt số liệu như trên là ñạt yêu cầu. Tuy nhiên việc mã hoá các giá trị của biến số
khiến cho việc ñọc bảng bảng tần suất của biến số danh ñịnh (như gioi và nghenghiep) bị khó
khăn (nhất là cho những người không trực tiếp làm thống kê hay phải ñọc lại kết quả sau một
khoảng thời gian dài). Do ñó những người làm thống kê chuyên nghiệp luôn luôn thực hiện ghi
chú (dán nhãn) cho các biến số ñịnh tính. Hãy thực hiện việc dán nhãn số liệu.
Hướng dẫn:
Việc dán nhãn cho các giá trị mã hóa là việc làm tốn công nhưng nó giúp phân biệt người làm
thống kê chuyên nghiệp và người làm thống kê không chuyên nghiệp. Mặc dù tốn công nhưng
lợi ích do nó ñem lại vượt qua công sức bỏ ra vì vậy chúng ta cần phải thực hiện việc dán nhãn
này.
Việc dán nhãn giá trị biến số ñược thực hiện qua 2 bước: tạo nhãn (define label value) và dán
nhãn cho giá trị (Assign value label to variable).
- Tạo nhãn sex, tang_ha, nhãn nghenghiep
ðể tạo nhãn sử dụng menu Data :: Labels :: label values :: Define or modify value label. Cửa sổ
Define value label sẽ ñược hiện ra.

Khi khi cửa số "label define – Define value labels" ñã hiện ra chúng ta nhấp vào nút lệnh
Define của cửa sổ này ñể tạo ra nhãn giá trị mới. ðặt tên của nhãn (Label name) là sex (lưu ý: có
thể ñặt tên của nhãn giống hoặc khác với tên của biến – Trong trường hợp này tên của nhãn (sex)
khác với tên của biến(gioi))

66

Và sau ñó nhấp vào OK.

Sau khi cửa sổ Add value hiện ra, nhập giá trị mã hóa (value) 1 vào hộp văn bản value và nhập
giá trị chưa mã hóa (text) nam vào hộp văn bản text và sau ñó nhấp nút lệnh OK.

67

Cửa sổ Add value lại hiện ra một lần nữa, nhập giá trị mã hóa (value) 0 vào hộp văn bản value và
nhập giá trị chưa mã hóa (text) nu vào hộp văn bản text và sau ñó nhấp nút lệnh OK.


Cửa sổ Add value lại hiện ra thêm một lần nữa. Tuy nhiên lần này chúng ta không nhập vào các
hộp văn bản value và hộp văn bản text, mà chỉ nhấp vào nút lệnh Cancel bởi vì chúng ta ñã khai
báo ñầy ñủ cho tên nhãn sex


68

Sau ñó có thể nhấp vào nút lệnh Close (của hộp thoại Define value labels) ñể thoát ra hay nhấp
vào nút lệnh Define (của hộp thoại Define value labels) ñể tiếp tục tạo nhãn tang_ha.

Với các cách mã hóa ñược quy ñịnh trong nhãn có tên tang_ha là: 1 là có tăng huyết áp và 0 là
không tăng huyết áp.

69

Cần lưu ý: tên nhãn có thể khác với tên biến (thí du như trường hợp trên ta ñặt tên nhãn là sex
trong khi tên biến là gioi) hoặc tên nhãn có thể trùng với tên biến (thí dụ ta có thể ñặt tên nhãn là
tang_ha cho biến tang_ha).
Tương tự ta cũng tiếp tục tạo nhãn nghenghiep bằng cách nhấp vào nút lệnh define và sau ñó
nhập tên của nhãn nghenghiep vào hộp văn bản label name rồi nhấp OK.

Tiếp tục quy ñịnh cách mã hóa của nhãn có tên nhãn nghenghiep là: 1 là có nghe tự do và 2 là
công nhân và 3 là viên chức.

70

ðể hoàn tất việc tạo nhãn ta nhấn vào nút lệnh Close

Dán nhãn giá trị (Assign value label) cho các biến gioi, tang_ha, và nghenghiep
Sau khi dã tạo ñược nhãn, chúng ta hãy dán nhãn giá trị cho biến số bằng cách dùng menu
Data :: Labels :: Label values :: Assign value label to variable


Khi hộp thoại labels value – Attach value label hiện ra ñể dán nhãn sex cho mỗi biến số gioi cần
thực hiện 4 bước sau:

71

- Bước 1: Ở khung Add or remove value label, ñảm bảo là nút chọn Attach a value label to
variable ñược chọn.
- Bước 2: ðặt con trỏ vào hộp combo Variable; chọn biến gioi trong hộp combo này.
- Bước 3: ðưa con trỏ vào hộp combo Value lable và chọn nhãn sex hộp combo này
- Bước 4: Nhấp vào nút lệnh Submit ñể thực hiện việc dán nhãn.

ðể tiếp tục thực hiện tương tự ñể dán nhãn tang_ha cho biến tang_ha, hãy tiến hành các bước
sau:

- Bước 1: Ở khung Add or remove value label, ñảm bảo là nút chọn Attach a value label to
variable ñược chọn.
- Bước 2: ðặt con trỏ vào hộp combo Variable; chọn biến tang_ha trong hộp combo này.
- Bước 3: ðưa con trỏ vào hộp combo Value lable và chọn nhãn tang_ha hộp combo này

72
- Bước 4: Nhấp vào nút lệnh Submit ñể thực hiện việc dán nhãn.

ðể tiếp tục thực hiện tương tự ñể dán nhãn nghenghiep cho biến nghenghiep, hãy tiến hành các
bước sau:

- Bước 1: Ở khung Add or remove value label, ñảm bảo là nút chọn Attach a value label to
variable ñược chọn.
- Bước 2: ðặt con trỏ vào hộp combo Variable; chọn biến nghenghiep trong hộp combo này.
- Bước 3: ðưa con trỏ vào hộp combo Value lable và chọn nhãn nghenghiep hộp combo này
- Bước 4: Bởi vậy ñây là bước dán nhãn cuối cùng, do ñó không nhấp vào nút lệnh Submit ñể
thực hiện việc dán nhãn và nhấp vào nút lệnh OK ñể ñồng thời thực hiện việc dán nhãn và ñóng
cửa sổ label values

6. Lập bảng phân phối tần suất cho các biến số ñịnh tính sau khi ñã dán nhãn cho các biến này.
Hướng dẫn:
Các biến số ñịnh tính ñã ñược dán nhãn bao gồm tang_ha sex matagegp gestcat. ðể tóm tắt các
biến số ñịnh tính này (tang_ha sex matagegp gestcat) chúng ta sử dụng menu Statistics ::
Summaries, tables & test :: Tables :: Multiple one-way tables.

73


Khi hộp thoại tab1 – One-way tables hiện ra, chúng ta tiến hành 3 bước (1) ñặt con trỏ vào hộp
Categorical value (2) Nhấp vào cửa sổ variable ñể chọn các biến số tiến hành phân tích và (3)
Nhấp vào nút lệnh OK. Kết quả sẽ xuất hiện như sau:

. tab1 gioi tang_ha nghenghiep

-> tabulation of gioi

gioi tinh |
tre - |
1=trai, |
0=gai | Freq. Percent Cum.
------------+-----------------------------------
gai | 315 49.14 49.14
trai | 326 50.86 100.00
------------+-----------------------------------
Total | 641 100.00

-> tabulation of tang_ha

tang huyet ap |
thai ki - |
1=tang ha, |
0=khong tang |
ha | Freq. Percent Cum.
--------------+-----------------------------------
huyet ap bt | 552 86.12 86.12

74
huyet ap tang | 89 13.88 100.00
--------------+-----------------------------------
Total | 641 100.00

-> tabulation of nghenghiep

nghe nghiep |
me - 1=tu |
do, 2=cong |
nhan, |
3=vien chuc | Freq. Percent Cum.
------------+-----------------------------------
tu do | 104 16.22 16.22
cong nhan | 238 37.13 53.35
vien chuc | 299 46.65 100.00
------------+-----------------------------------
Total | 641 100.00

7. Vẽ tổ chức ñồ (histogram) của biến trọng lượng sơ sinh (tlsosinh)
Hướng dẫn:
ðể vẽ tổ chức ñồ, ta phải sử dụng menu Graphics :: Histogram


Khi hộp thoại histogram hiện ra, chúng ta thực hiện các bước sau:


75

Bước 1: ñặt con trỏ vào hộp combo Variable nhấp vào mũi tên xuống ở bên phải hộp combo ñể
sổ ra danh sách các biến
Bước 2: Từ trong danh sách các biến chọn tlsosinh ñể ñưa biến này vào hộp combo Variable.
Bước 3 – Bước 4: nhằm ñể xác ñịnh tổ chức ñồ sẽ bắt ñầu từ giá trị 600 (Lower limit of first bin)
và mỗi khoảng tiếp theo (bin) có ñộ rộng là 300 (Width of bins)
Bước 5: Cho biết tổ chức ñồ sẽ ghi nhận tỉ lệ phần trăm của các khoảng giá trị bằng cách nhấp
vào nút chọn Percent.
Nếu muốn thể hiện mật ñộ của phân phối, nhấp vào nút chọn Density, nếu muốn thể hiện
tỉ lệ thì nhấp vào nút chọn Fraction, nếu muốn thể hiện tần suất thì nhấp vào nút chọn
Frequency. Mối liên hệ giữa các hàm phân phối này như sau:
Tỉ lệ (Fraction) = Tần suất (Frequency) / Cỡ mẫu (N)
Mật ñộ (Density) = Tỉ lệ (Fraction) / ðộ rộng của khoảng chia (Width of bins)

Kết quả tiếp theo sẽ ñược trình bày trong hình sau.

76
0
5
1
0
1
5
2
0
2
5
P
e
r
c
e
n
t
1000 2000 3000 4000 5000
t r ong l uong so si nh ( gr am)


8. ðồ thị này cho chúng ta thấy hình dạng của phân phối số liệu, tuy nhiên chúng ta cũng có thể
thay ñổi thưc hiện việc chia khoảng cho trục hoành, ghi chú cho trục hoành, chia khoảng cho trục
tung và ghi chú cho trục tung. Giả sử chúng ta muốn thực hiện các yêu cầu chia khoảng và ghi
chú như sau:
• Trục hoành phải có khoảng giá trị từ 600 ñến 4800 (biên ñộ là 4200). Chúng ta muốn chia
làm mỗi khoảng có ñộ lớn là 300 như vậy cần thiết phải có 14 khoảng. Chúng ta cũng muốn
ghi giá trị từ 600 ñến 4200 và mỗi nhãn giá trị cách nhau 600 gram.
• Trục hoành ñược ghi chú là "trong luong so sinh (gram) cua 641 tre"
• Trục tung có khoảng giá trị là 0 ñến 0.3, ghi nhãn cho các giá trị và các nhãn này cách nhau
0.1
• Trục tung ñược ghi chú là "Phần trăm" (chứ không phải là Percent).

Các bước ñể thực hiện chia khoảng và ghi chú cho trục hoàng (trục X) như sau:
Bước 1: Nhấp vào Tab X-axis
Bước 2: ðể nhập ghi chú cho trục hoành, Ở hộp văn bản Title, nhập vào ghi chú là "trong luong
so sinh (gram)"
Bước 3: ðể chia khoảng cho trục hoành, chọn Major tick/label property, chọn Range/Delta và
sau ñó nhập các giá trị tối thiểu, tối ña và khoảng delta.


77

Sau ñó nhấp vào nút lệnh accept.

Các bước ñể thực hiện chia khoảng và ghi chú cho trục hoàng (trục Y) như sau:

Bước 4: Nhấp vào Tab Y-axis
Bước 5: ðể nhập ghi chú cho trục tung, Ở hộp văn bản Title, nhập vào ghi chú là "Phan tram"

78
Bước 6: ðể chia khoảng cho trục tung, chọn Major tick/label property, chọn Range/Delta và sau
ñó nhập các giá trị tối thiểu, tối ña và khoảng delta.

Nhấp vào nút lệnh Accept.

Bước 7: Nhấp vào nút lệnh OK ở cuối cửa sổ ñể hoàn tất

0
.
1
.
2
.
3
P
h
Ç
n

t
r
¨
m
600 1200 1800 2400 3000 3600 4200 4800
Tr äng l - î ng s¬ si nh ( gr am)


9. Chúng ta cũng có thể vẽ ñồ thị xuất (p-p plot) ñể xem biến số tlsosinh có tuân theo phân phối
bình thường

79
Hướng dẫn:
Sử dụng menu Graph – Distributional graph - normal quantile plot


Khi cửa sổ qnorm hiện ra, chúng ta tiến hành các bước sau:
Bước 1: ñặt con trỏ vào hộp văn bản Variable
Bước 2: ñưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh ñể ñưa biến này vào hộp văn
bản Variable.
Bước 3: ðánh dấu vào hộp kiểm: Show grid at percentiles:
Bước 4: Nhấp vào nút lệnh OK

80


Kết quả như sau:




81
Nếu phân phối bình thường thì ñường cong phân phối (ñường nét ñậm) sẽ trùng với ñường chéo
của hình chữ nhật (ñường thẳng mảnh). Nếu phân phối lệch âm thì ở xác suất 0,5 ñường cong
phân phối nằm ở bên trái ñường chéo. Nếu phân phối lệch dương thì ở xác suất 0,5 ñường cong
phân phối sẽ nằm ở bên phải ñường chéo.
Nếu ñộ dốc của ñường cong phân phối lớn hơn một (1) có nghĩa là phân phối thực nghiệm tăng
chậm hơn phân phối bình thường, nếu ñường cong phân phối nhỏ hơn một (1) có nghĩa là ñường
cong thực nghiệm tăng nhanh hơn phân phối bình thường.

Như vậy, phân phối của trọng sơ sinh bị lệch trái và ở khoảng trọng lượng thấp, phân phối trọng
lượng sơ sinh tăng chậm hơn phân phối chuẩn. Ở khoảng trọng lượng cao trọng lương sơ sinh
tăng hơi nhanh hơn phân phối chuẩn.
0
.
0
5
.
1
.
1
5
F
r
a
c
t
i
o
n
1000 2000 3000 4000 5000
trong luong so sinh (gram)


10. Hãy vẽ biểu ñồ hình thanh (bar chart) của nhóm nghề nghiệp
Hướng dẫn:
Trước tiên sử dụng menu Graphics :: Bar chart

ðể hiện ra cửa sổ graph bar – Chúng ta hãy ñể ý 2 thẻ Main và thẻ Categories là 2 thẻ nằm bên
trái của cửa sổ.


82

Ở thẻ Main tiến hành các bước sau:
Bước 1: Chọn mục count nonmissing trong hộp Combo Statistic
Bước 2: ðặt con trỏ vào hộp văn bản variable(s) nhấp vào mũi tên hướng xuống dưới ở bên phải
hộp combo ñể hiện ra danh sách biến số.
Bước 3: ðưa con trỏ chuột ñể chọn danh sách biến số và nhấp vào biến maso ñể biến này xuất
hiện trên hộp văn bản Variable(s)
Bước 4: Nhấp vào thẻ (tab) Categories ñể hiện thẻ này ra

83


Bước 5: Khi ñã ở thẻ Categories, ñưa con trỏ chuột vào hộp văn bản Variable
Bước 6: ðặt con trỏ vào hộp văn bản variable(s) nhấp vào mũi tên hướng xuống dưới ở bên phải
hộp combo ñể hiện ra danh sách biến số.
Bước 7: ðưa con trỏ chuột ñể chọn danh sách biến số và nhấp vào biến nghenghiep ñể biến này
xuất hiện trên hộp văn bản Variable(s)
Bước 8: Nhấp vào nút lệnh OK ñể xem biểu ñồ hình thanh ñược tạo ra.

84
0
1
0
0
2
0
0
3
0
0
c
o
u
n
t

o
f

m
a
s
o
t u do cong nhan vi en chuc



11. Hãy vẽ biểu ñồ hình thanh (bar chart) trung bình trọng lượng sơ sinh của các ñứa trẻ con của
những bà mẹ có nghề nghiệp khác nhau.
Hướng dẫn:
Trước tiên sử dụng menu Graphics :: Bar chart
ðể hiện ra cửa sổ graph bar – Chúng ta hãy ñể ý 2 thẻ Main và thẻ Categories là 2 thẻ nằm bên
trái của cửa sổ.


85

Ở thẻ Main tiến hành các bước sau:
Bước 1: Chọn mục mean trong hộp Combo Statistic
Bước 2: ðặt con trỏ vào hộp văn bản variable(s) nhấp vào mũi tên hướng xuống dưới ở bên phải
hộp combo ñể hiện ra danh sách biến số.
Bước 3: ðưa con trỏ chuột ñể chọn danh sách biến số và nhấp vào biến tlsosinh ñể biến này xuất
hiện trên hộp văn bản Variable(s)
Bước 4: Nhấp vào thẻ (tab) Categories ñể hiện thẻ này ra

86


Bước 5: Khi ñã ở thẻ Categories, ñưa con trỏ chuột vào hộp văn bản Variable
Bước 6: ðặt con trỏ vào hộp văn bản variable(s) nhấp vào mũi tên hướng xuống dưới ở bên phải
hộp combo ñể hiện ra danh sách biến số.
Bước 7: ðưa con trỏ chuột ñể chọn danh sách biến số và nhấp vào biến nghenghiep ñể biến này
xuất hiện trên hộp văn bản Variable(s)
Bước 8: Nhấp vào nút lệnh OK ñể xem biểu ñồ hình thanh ñược tạo ra.

87
0
1
,
0
0
0
2
,
0
0
0
3
,
0
0
0
m
e
a
n

o
f

t
l
s
o
s
i
n
h
t u do cong nhan vi en chuc

12. Hãy vẽ biểu ñồ hình bánh (Pie chart) phân phối biến số nghề nghiệp mẹ (nghenghiep).
Hướng dẫn:
Trước tiên sử dụng menu Graphics :: Pie Chart


ðể thực hiện biểu ñồ hình bánh, chúng ta tiếp tục các bước sau:
Bước 1: Lưu ý ñể nút chọn Graph by categories ñược ñánh dấu
Bước 2: ðặt con trỏ vào hộp combo Category variable và nhấp vào mũi tên xuống ở bên phải
ñể sổ ra danh sách biến.
Bước 3: Dùng con trỏ chọn biến nghenghiep (nghề nghiệp mẹ) trong danh sách biến ñể tên biến
này xuất hiện trên hộp combo Category variable.
Bước 4: Nhấp vào nút lệnh OK

88

Chúng ta sẽ có ñược biểu ñồ hình bánh như sau:


89
t u do cong nhan
vi en chuc

13. Hãy tạo biến mới nhomtuoi, biến này có giá trị
0 tương ứng với tuổi của mẹ từ thấp nhất ñến 29
1 tưong ứng với tuổi mẹ từ 30 ñến 34
2 tưong ứng với tuổi mẹ từ 35 ñến 39
3 tưong ứng với tuổi mẹ từ 40 trở lên
ðiều này có nghĩa là chúng ta chia tuổi mẹ làm 4 nhóm với 3 ñiểm chia là 30, 35 và 40. ðiều này
có thể thực hiện bằng cách tạo biến mới với hàm irecode.




Cách thực hiện việc tạo biến mới ñược thực hiện với menu Create or Change variables :: Create
new variable
30
29-30 34-35 39-40
0 1 2 3

90


Sau khi cửa sổ generate - Generate a new variable thực hiện việc tạo biến mới với các bước sau:

Bước 1: Nhập tên biến mới (nhomtuoi) vào hộp văn bản Generate variable
Bướic 2: Nhập công thức tạo biến mới irecode(tuoime,29,34,39)
Bước 3: Nhấp vào nút lệnh OK ñể hoàn tất
Sau khi tạo ra biến mới nhomtuoi, chúng ta nên thực hiện thêm 2 bước: tạo nhãn (define label
value) và dán nhãn giá trị cho biến số (Assign value label to variable) như ñược trình bày ở bưới
5. (0 là dưới 30; 1 là 30 den 34; 2 là 35-39; 3 là 40+)

14. Hãy tạo biến mới sinh non, biến này có giá trị
1 tương ứng với tuổi thai <37
0 tưong ứng với tuổi thai >=37 tuần
Yêu cầu có nghĩa là chúng ta cần tạo ra một biến nhị giá với 2 giá trị 0 và 1.. ðiều này có thể
thực hiện bằng cách tạo biến mới và sử dụng biểu thức boolean (biểu thức thể hiện một mệnh ñề

91
có giá trị là ñúng hay sai)
Việc thực hiện cụ thể bao gồm việc tạo biến mới ñược thực hiện với menu Create or Change
variables :: Create new variable


Sau khi cửa sổ generate - Generate a new variable thực hiện việc tạo biến mới với các bước sau:


Bước 1: Nhập tên biến mới (sinhnon) vào hộp văn bản Generate variable
Bướic 2: Nhập công thức tạo biến mới tuoithai<37
Bước 3: Nhấp vào nút lệnh OK ñể hoàn tất
Sau khi tạo ra biến mới sinhnon, chúng ta nên thực hiện thêm 2 bước: tạo nhãn (define label
value) và dán nhãn giá trị cho biến số (Assign value label to variable) như ñược trình bày ở bưới
5. (1 là sinh non, 0 là không sinh non)
15. Lưu lại số liệu
Hướng dẫn: ðể lưu số liệu chúng ta có thể sử dụng menu File :: Save (hay Ctrl-S) hoặc nhấn

92
vào nút save file (vị trí thứ hai của thanh công cụ). Một hộp thoại sẽ bật lên và hỏi chúng ta
có muốn chép chồng vào tập tin số liệu hay không. Nếu ñồng ý chúng ta hãy nhấp vào nút OK
ñể ñồng ý.

Nếu chúng ta không muốn thay ñổi tập tin số liệu cũ, chúng ta nên nhấp vào nút Cancel và lưu số
liệu với tên mới sử dụng menu File :: Save As. khi ñó hộp thoại "Save Stata Data File" sẽ hiện
ra. Gõ tên mới vào hộp File Name (thí dụ nếu chúng ta muốn ñặt tên tập tin là ivf_revised.dta thì
chúng ta gõ vào hộp văn bản File name: ivf_revised)

nhấp nút lệnh Save ñể hoàn tất.
16. Hãy thoát khỏi chương trình Stata
Hướng dẫn:
ðể thoát khỏi Stata/SE 10.0 for Windows chúng ta có thể thực hiện một trong 2 việc sau:
- Nhấp vào ô ñóng nằm ở phía trên phải của cửa sổ Stata

93
Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu ñó ñã ñược thay ñổi nhưng
chưa ñược lưu vào ñĩa thì khi chúng nhấp vào ô ñóng, máy tính sẽ hỏi chúng ta rằng
chúng ta có muốn thoát mà không lưu lại số liệu hay không.

Nếu chúng ta ñồng ý bằng cách nhấp vào nút lệnh Yes thì Stata sẽ thoát, nếu không (nhấp
nút lệnh No) thì chúng ta lại trở lại Stata ñể chúng ta có thể lưu lại số liệu.
- Gõ lệnh exit trong cửa sổ Stata Command.
Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu ñó ñã ñược thay ñổi nhưng
chưa ñược lưu vào ñĩa thì khi chúng gõ exit, máy tính sẽ không ñồng ý cho chúng ta thoát
và sẽ thông báo “no; data in memory would be lost”. Trong trường hợp này nếu chúng
muốn thoát mà không lưu lại số liệu thì chúng ta hãy gõ exit, clear. Nếu chúng ta muốn
lưu lại số liệu hãy sử dụng lệnh save.
17. Nếu chúng ta muốn xem lại các kết quả phân tích ñã ñược thực hiện chúng ta có thể xem lại
tập tin log.
Cách xem lại tập tin log gồm các bước sau:



94

Bước 1: Vào menu File:: View
Bước 2: Khi hiện ra hộp thoại Choose file to View, nhấp vào nút lệnh Browse, khi ñó cửa sổ
Choose file Name sẽ hiện ra
Bước 3: Trên cửa sổ Choose file Name, chọn thưmục chứa tập tin log trong hộp thoại Log gin
Bước 4: Chọn tập tin log cần xem lại (thí dụ tập tin baitap.smcl)
Bước 5: Nhấp vào nút lệnh Open ñể ñóng cửa sổ Choose file Name và trở về hộp thoại Choose
file to view

Bước 6: Nhấp vào nút lệnh OK ñể xem tập tin log

95





96
Thống kê phân tích biến số ñịnh lượng với Stata
Sơ lược lí thuyết về so sánh 2 trung bình
Kiểm ñịnh t dùng ñể so sánh 2 trung bình của của biến số ñịnh lương có phân phối bình thường.
Kiểm ñịnh t gồm có (a) Kiểm ñịnh t bắt cặp ñể so sánh trung bình trước và sau khi can thiệp trên
một nhóm và (b) kiểm ñịnh t không bắt cặp ñể so sánh trung bình của 2 nhóm ñộc lập.
Có hai loại kiểm ñịnh t không bắt cặp (khi so sánh trung bình của 2 nhóm ñộc lập). Kiểm ñịnh t
có giả ñịnh 2 phương sai bằng nhau và kiểm ñịnh t không có giả ñịnh phương sai bằng nhau. Hai
loại kiểm ñịnh này có chung nguyên lí nhưng khác nhau trong cách tính toán ñộ tự do (của kiểm
ñịnh t) và cách tính sai số chuẩn.
Kiểm ñịnh t không bắt cặp giả ñịnh 2 phương sai bằng nhau
Kiểm ñịnh t không bắt cặp giả ñịnh 2 phương sai bằng nhau dùng ñể so sánh trung bình của 2
nhóm ñộc lập và ñòi hỏi 2 giả ñịnh.
- Các giá trị của biến số của cả 2 dân số có phân phối bình thường
- Ðộ lệch chuẩn ở 2 nhóm dân số là bằng nhau.
Nếu chúng ta kí hiệu:
x
1
: giá trị trung bình ở nhóm 1
x
2
: giá trị trung bình ở nhóm 2
n
1
: cỡ mẫu của nhóm 1
n
2
: cỡ mẫu của nhóm 2
s
1
2
: phương sai ở nhóm 1
s
2
2
: phương sai ở nhóm 2
Chúng ta có thể xác ñịnh ñộ tự do, sai số chuẩn và giá trị của thống kê t theo công thức sau:
- ðộ tự do của kiểm ñịnh t: df = n
1
+ n
2
- 2
- Sai số chuẩn:
2 1
/ 1 / 1 n n s se
p
+ = với
) 1 ( ) 1 (
) 1 ( ) 1 (
2 1
2
2 2
2
1 1
− + −
− + −
=
n n
s n s n
s
p

- Giá trị thống kê t:
2 1
2 1 2 1
/ 1 / 1 n n s
x x
se
x x
t
p
+

=

=
Sau khi tính ñược giá trị thống kê t, người ta tra bảng phân phối t với (n1 +n1 - 2) ñộ tự do và
tính ñược xác suất p. Thông thường nếu p <0,05 người ta bác bỏ giả thuyết H
0
.
Kiểm ñịnh t không bắt cặp không có giả ñịnh 2 phương sai bằng nhau
Kiểm ñịnh t không bắt cặp giả ñịnh 2 phương sai bằng nhau dùng ñể so sánh trung bình của 2
nhóm ñộc lập và chỉ ñòi hỏi 1 giả ñịnh.
- Các giá trị của biến số của cả 2 dân số có phân phối bình thường
Nếu chúng ta kí hiệu:
x
1
: giá trị trung bình ở nhóm 1
x
2
: giá trị trung bình ở nhóm 2

97
n
1
: cỡ mẫu của nhóm 1
n
2
: cỡ mẫu của nhóm 2
s
1
2
: phương sai ở nhóm 1
s
2
2
: phương sai ở nhóm 2
Chúng ta có thể xác ñịnh ñộ tự do, sai số chuẩn và giá trị của thống kê t theo công thức sau:
- ðộ tự do của kiểm ñịnh t (theo công thức của Satterthwaite):
¦
¦
)
¦
¦
`
¹
¦
¦
¹
¦
¦
´
¦

+

+
=
) 1 ( ) 1 (
. .
2
2
2
4
2
1
2
1
4
1
2
2
2
2
1
2
1
n n
s
n n
s
n
s
n
s
f d
- Sai số chuẩn:
2
2
2
1
2
1
n
s
n
s
se + =
- Giá trị thống kê t:
2
2
2
1
2
1
2 1 2 1
n
s
n
s
x x
se
x x
t
+

=

=
Sau khi tính ñược giá trị thống kê t, người ta tra bảng phân phối t với ñộ tự do phù hợp (như tính
toán ở trên) và tính ñược xác suất p. Thông thường nếu p <0,05 người ta bác bỏ giả thuyết H
0
.
Kiểm ñịnh t bắt cặp
Giả sử ñể so sánh hiệu quả của thuốc A và thuốc B trong cải thiện thể tích thở ra gắng sức trong
1 giây ñầu tiên (FEV1) người ta cho các bệnh nhân tham gia nghiên cứu dùng thuốc A (hay
thuốc B) trong một thời gian và cuối thời gian này ño lường FEV1 của bệnh nhân (gọi là
FEV1
A
). Sau ñó cho lại ñổi cho bệnh nhân dùng thuốc B (hay thuốc A) trong một khoảng thời
gian và cuối thời gian này lại ño lường FEV1 của bệnh nhân (gọi là FEV1
B
). Thiết kế nghiên
cứu này ñược gọi là thử nghiệm lâm sàng bắt chéo. Chúng ta lưu ý các ñặc ñiểm sau khi phân
tích thống kê cho các nghiên cứu có cùng loại thiết kế này.
- Trong nghiên cứu này có 2 biến số ño lường trên cùng dân số: FEV1
A
và FEV1
B

- Các giá trị của biến số FEV1
A
và FEV1
B
là của cùng một bệnh nhân nên hiệu số (FEV1
A
-
FEV1
B
) cũng là biến số của bệnh nhân ñó. Và nếu không có sự khác biệt về hiệu quả của 2 loại
thuốc, trung bình của hiệu số này bằng 0.
- Khi ñó kiểm ñịnh so sánh hiệu quả của thuốc A và thuốc B cũng kiểm ñịnh so sánh giá trị
trung bình của FEV1
A
và FEV1
B
kiểm ñịnh hiệu số (FEV1
A
- FEV1
B
)=0
- Phép kiểm ñịnh này ñược gọi là kiểm ñịnh t bắt cặp. Kiểm ñịnh t bắt cặp là trường hợp ñặc biệt
của kiểm ñịnh t một mẫu.
Tóm lại kiểm ñịnh t bắt cặp là kiểm ñịnh ñược sử dụng khi thiết kế nghiên cứu cho một ñối
tượng (hay 2 ñối tượng rất giống nhau) ñược thử nghiệm 2 loại thuốc khác nhau.
Kiểm ñịnh phi tham số
Nếu phân phối không phải là bình thường (thí dụ như bị lệch dương), có thể sử dụng phép biến
ñổi (thường là biến ñổi log) ñể ñưa phân phối về bình thường hoặc dùng test phi tham số. Kiểm
ñịnh phi tham số có ưu ñiểm là không ñòi hỏi giả ñịnh về phân phối của biến số ñịnh lượng
nhưng có khuyết ñiểm là không thể ước lượng ñược tham số, ñó là như không thể ước lượng

98
khoảng tin cậy 95% hiệu số của trung bình giữa 2 nhóm.
Sơ lược lí thuyết về so sánh các trung bình của 3 nhóm.
Khi chúng ta cần so sánh trung bình của nhiều nhóm, chúng ta không thể dùng nhiều kiểm ñịnh t
ñể so sánh từng cặp của nhóm vì như vậy chúng ta sẽ làm tăng nguy cơ của sai lầm loại 1.
Phương pháp thích hợp ñể ñược dùng cho trường hợp này ñược gọi là test ANOVA. Test
ANOVA (phân tích phương sai) ñược xem như là sự tổng quát hóa của test t (test t dùng cho 2
nhóm và test ANOVA dùng cho 2 hay nhiều hơn các nhóm). Ðiều kiện ñể test ANOVA hợp lệ là
các giá trị có phân phối bình thường và phương sai của các nhóm xấp xỉ nhau.
Trong kết xuất của test ANOVA, chúng ta thấy có sự hiện diện của thống kê F (thống kê Fisher).
Trong trường hợp chỉ có 2 nhóm, thống kê F chính xác bằng bình phương của thống kê t và 2
phương pháp cho ra cùng một mức ý nghĩa.

ến

Hình 1. Giải thuật lựa chọn kiểm ñịnh phù hợp cho biến số phụ thuộc là biến ñịnh lượng
Thực hành
1- Mở tập tin ivf_v2.
Chúng ta hãy khởi ñộng Stata. Mở tập tin ivf_v2.dta bằng cách sử dụng menu File :: Open hay
nhấp vào nút công cụ Open file (Use), nằm ở vị trí thứ hai của thanh công cụ. Khi ñó hộp
thoại Use New Data sẽ hiện ra. Nhấp vào mũi tên bên phải hộp Look in ñể chọn ổ ñĩa thích hợp
và dùng con chuột nhấp vào các thư mục ñể chọn thư mục có chứa số liệu. Khi gập tập tin số liệu
BPT: phân phối bình
thường
≤ 2 nhóm
Phương sai ñồng nhất
BPT: ñịnh lượng
Phân phối bình thường
BPT: thứ tự
Kiểm ñịnh phi tham số
BPT: danh ñịnh
Kiểm ñịnh χ
2

Kiểm ñịnh t
Kiểm ñịnh t
PS không ñồng nhất
Phương sai ñồng nhất
ANOVA
ðúng
ðúng
ðúng
Trên 3 nhóm
Không ñồng nhất
ðồng nhất
ðồng nhất
Không ñồng nhất
ðúng ðúng

99
ivf_v2.dta, nhấp ñúp vào tên tập tin này ñể mở tập tin (hoặc nhấp vào tập tin này ñể tên tập tin
rơi vào hộp File Name rồi sau ñó nhấp vào nút lệnh Open ñể mở tập tin). Cần nhớ nhấp vào nút
công cụ Stata Log nằm vị trí thứ tư từ trái ở trên thanh công cụ nếu muốn lưu trữ lại toàn bộ
kết quả phân tích sẽ ñược thực hiện.
2. Sau khi mở tập tin, cần có thông tin gì trước khi phân tích số liệu:
Trước khi phân tích số liệu, nhà nghiên cứu (hay chuyên viên thống kê) cần ñọc lại ñề cương
nghiên cứu, ñặc biệt là số liệu (biến số và số các bản ghi), mục tiêu và thiết kế nghiên cứu. Giả
sử chúng ta có thông tin về nghiên cứu như sau:
MRC Working Party on Children Conceived by In Vitro Fertilisation. Births in Great Britain
resulting from assisted conception, 1978-87. BMJ 1990;300:1229-33.
Births in Great Britain resulting from assisted conception, 1978-87. MRC Working Party on
Children Conceived by In Vitro Fertilisation.

OBJECTIVE--To describe the characteristics at birth of children conceived by in vitro
fertilisation (IVF) or by gamete intrafallopian transfer (GIFT) and to assess whether they differ
from those of children conceived naturally. DESIGN--Survey of children resulting from IVF or
GIFT and comparison of their characteristics at birth with national statistics. SETTING--
England, Scotland, and Wales from 1978 to 1987. SUBJECTS--1267 Pregnancies conceived by
IVF or GIFT, which resulted in 1581 liveborn or stillborn children. MAIN OUTCOME
MEASURES--Sex ratio, multiplicity, gestational age at birth, birth weight, stillbirth rate,
perinatal and infant mortality, and prevalence of congenital malformations. RESULTS--The ratio
of male to female births was 1.07:1; 23% (249/1092) of the deliveries were multiple births
compared with 1% for natural conceptions; 24% (278) of 1015 deliveries were preterm
compared with 6% in England and Wales; 32% (406) of 1269 babies weighed less than 2500 g
compared with 7% in England and Wales. The high percentage of preterm deliveries and of low
birthweight babies was largely, but not entirely, due to the high frequency of multiple births. The
rate of stillbirth, perinatal mortality, and infant mortality were twice the national average, these
excesses being due to the high frequency of multiple births. One or more major congenital
malformations were detected during the first week of life in 35 (2.2%) of 1581 babies. This
figure is comparable with population based estimates of the prevalence of congenital
malformations. The types of malformations reported varied, and the number of each specific type
was small. The health of the children was not evaluated beyond the perinatal period.
CONCLUSIONS--Multiple pregnancies often result from assisted conception and are the main
determinant of the outcome of the pregnancies and of the health of the children at the time of
birth. Congenital malformations are comparatively rare, so larger numbers of children need to be
studied before firm conclusions can be drawn. The pooling of data from different countries is
recommended.

PMID: 2354290 [PubMed - indexed for MEDLINE]
Số liệu này bao gồm những biến số về những ñứa trẻ sinh một của những bà mẹ ñược thụ thai
trong ống nghiệm (in-vitro fertilisation). Nghiên cứu này ñã ñược báo cáo trong tạp chí BMJ
(1990;300:1229-1233). Tập tin này bao gồm 641 ñứa trẻ và gồm 8 biến số có chi tiết như sau:
STT Tên biến Giải thích tiếng Anh Giải thích tiếng Việt

100
1 Maso
identity number of mother and
baby
Mã số
2 tuoime maternal age in years Tuổi của mẹ (năm tuổi)
3 tang_ha hypertension 1=yes, 0=no
Tăng huyết áp thai kì 1= có 0 =
không
4 tuoithai gestational age in weeks Tuổi thai (tính theo tuần)
5 gioi sex of baby 1=male, 0=female Giới tính của trẻ 1=trai 0=gái
6 tlsosinh birth weight in gms Trọng lượng sinh tính theo grams.
7 nghenghiep
Occupation of mother (1= self
employed; 2=blue collar
worker; 3=white collar worker)
Nghề nghiệp mẹ (1= nghề tự do;
2=công nhân; 3=viên chức)
8 nhomtuoi
maternal age groups(0=<30;
1=30-34;2=35-39;3=40+)
Tuổi của mẹ phân nhóm (0=<30;
1=30-34; 2=35-39; 3=40+)
9 sinhnon
gestational category (1= <37
tuần; 0=37+tuần)
Sinh non (1: dưới 37 tuần; 0: ñủ tháng
– trên 37 tuần thai)
Việc nhận biết số liệu cũng có thể thực hiện bằng cách sử dụng lệnh describe (nhấn phím F3).
ðiều này ñặc biệt có ích nếu các biến số và giá trị của biến số ñã ñược dán nhãn ñầy ñủ.
Trong nghiên cứu này, tác giả muốn xác ñịnh tác ñộng của tăng huyết áp của mẹ và tuổi thai lên
trọng lượng thai.
3. Như vậy trong các biến số kể trên, biến nào là biến ñộc lập, biến nào là biến số phụ thuộc, biến
số này là gây nhiễu.
Hướng dẫn:
Bảng số liệu viewivf này có chứa những biến số khác nhau. Trong bảng sau hãy xác ñịnh tính
chất của từng biến số bằng cách khoanh tròn vào lựa chọn thích hợp.
Biến số Thang ño biến số Quan hệ
tuoime
- Nhị giá - Danh ñịnh
- Thứ tự - ðịnh lượng
- ðộc lập - Phụ thuộc
- Gây nhiễu
tang_ha
- Nhị giá - Danh ñịnh
- Thứ tự - ðịnh lượng
- ðộc lập - Phụ thuộc
- Gây nhiễu
tuoithai
- Nhị giá - Danh ñịnh
- Thứ tự - ðịnh lượng
- ðộc lập - Phụ thuộc
- Gây nhiễu
gioi
- Nhị giá - Danh ñịnh
- Thứ tự - ðịnh lượng
- ðộc lập - Phụ thuộc
- Gây nhiễu
tlsosinh
- Nhị giá - Danh ñịnh
- Thứ tự - ðịnh lượng
- ðộc lập - Phụ thuộc
- Gây nhiễu
nghenghiep - Nhị giá - Danh ñịnh - ðộc lập - Phụ thuộc

101
- Thứ tự - ðịnh lượng - Gây nhiễu
nhomtuoi
- Nhị giá - Danh ñịnh
- Thứ tự - ðịnh lượng
- ðộc lập - Phụ thuộc
- Gây nhiễu
sinhnon
- Nhị giá - Danh ñịnh
- Thứ tự - ðịnh lượng
- ðộc lập - Phụ thuộc
- Gây nhiễu
4. Trước khi phân tích số liệu cần thực hiện thao tác số liệu và các thống kê mô tả. Thực hiện lại
các bước thao tác số liệu và thống kê mô tả như ở chương trước

5. Hãy so sánh trọng lượng của trẻ nam và trẻ nữ
Hướng dẫn: Theo giải thuật ñược trình bày ở ñầu chương, ñể so sánh trọng lượng (biến phụ
thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem phương sai của 2
nhóm có bằng nhau hay không. Nếu phương sai 2 nhóm tương ñương chúng ta có thể sử dụng t-
test thông thường (t-test phương sai ñồng nhất). Nếu phương sai 2 nhóm không tương ñương,
chúng ta phải sử dụng t-test phương sai không ñồng nhất hay kiểm ñịnh phi tham số.
Kiểm ñịnh 1: So sánh 2 phương sai
ðể so sánh trung bình của một biến ñịnh lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu
Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group variance
comparison test.


102
Sau khi cửa sổ sdtest – Two sample test of variance hiện ra tiến hành 5 bước sau:

Bước 1: ñặt con trỏ vào hộp văn bản Variable name
Bước 2: ñưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh ñể ñưa biến này vào hộp văn
bản Variable name
Bước 3: ñặt con trỏ vào hộp văn bản Group name variable
Bước 4: ñưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi ñể ñưa biến này vào hộp văn bản
Group name variable.
Bước 5: Nhấp vào nút lệnh OK.
Kết quả ñược trình bày như sau:
. sdtest tlsosinh, by(gioi)

Variance ratio test

------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
gai | 315 3044.127 35.421 628.6603 2974.434 3113.819
trai | 326 3211.279 36.88521 665.9798 3138.715 3283.843
---------+--------------------------------------------------------------------
combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767
------------------------------------------------------------------------------

Ho: sd(gai) = sd(trai)

F(314,325) observed = F_obs = 0.891
F(314,325) lower tail = F_L = F_obs = 0.891
F(314,325) upper tail = F_U = 1/F_obs = 1.122

Ha: sd(gai) < sd(trai) Ha: sd(gai) != sd(trai) Ha: sd(gai) > sd(trai)
P < F_obs = 0.1518 P < F_L + P > F_U = 0.3032 P > F_obs = 0.8482

Với giá trị p = 0,3032 chúng ta không thể bác bỏ giả thuyết Ho: ñộ lệch chuẩn của nhóm trẻ trai

103
bằng ñộ lệch chuẩn của nhóm trẻ gái. Vì vậy chúng ta có thể sử dụng kiểm ñịnh t phương sai
ñồng nhát như ở bước 2.
Kiểm ñịnh 2: So sánh 2 trung bình sử dụng t-test phương sai ñồng nhất.
ðể so sánh trung bình của một biến ñịnh lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu
Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group mean comparison
test

Cửa sổ ttest- group mean comparision tests hiển ra. Tiến hành các bước sau:



104
Bước 1: ñặt con trỏ vào hộp văn bản Variable name
Bước 2: ñưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh ñể ñưa biến này vào hộp văn
bản Variable name
Bước 3: ñặt con trỏ vào hộp văn bản Group name variable
Bước 4: ñưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi ñể ñưa biến này vào hộp văn bản
Group name variable.
Bước 5: Nhấp vào nút lệnh OK.
. ttest tlsosinh, by(gioi)

Two-sample t test with equal variances

------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
gai | 315 3044.127 35.421 628.6603 2974.434 3113.819
trai | 326 3211.279 36.88521 665.9798 3138.715 3283.843
---------+--------------------------------------------------------------------
combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767
---------+--------------------------------------------------------------------
diff | -167.1522 51.18935 -267.6718 -66.63249
------------------------------------------------------------------------------
Degrees of freedom: 639

Ho: mean(gai) - mean(trai) = diff = 0

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
t = -3.2654 t = -3.2654 t = -3.2654
P < t = 0.0006 P > |t| = 0.0012 P > t = 0.9994


Trả lời: Trẻ trai có trọng lượng sơ sinh trung bình là 3211.28 gram, của trẻ gái là 3044.13 gram.
Với giá trị t = 3,2654 và mức ý nghĩa (p-value) là 0.0012 chúng ta kết luận có sự khác biệt về
trọng lượng sơ sinh giữa trẻ trai và trẻ gái (p=0.0012).
6. Hãy so sánh trọng lượng sơ sinh của con bà mẹ tăng huyết áp và bà mẹ không tăng huyết áp.
Hướng dẫn: Theo giải thuật ñược trình bày ở ñầu chương, ñể so sánh trọng lượng (biến phụ
thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem phương sai của 2
nhóm mẹ tăng huyết áp và mẹ không tăng huyết áp có bằng nhau hay không. Nếu phương sai 2
nhóm tương ñương chúng ta có thể sử dụng t-test thông thường (t-test phương sai ñồng nhất).
Nếu phương sai 2 nhóm không tương ñương, chúng ta phải sử dụng t-test phương sai không
ñồng nhất hay kiểm ñịnh phi tham số.
Kiểm ñịnh 1: So sánh 2 phương sai
ðể so sánh trung bình của một biến ñịnh lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu
Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group variance
comparison test.
Sau khi cửa sổ sdtest - Group variance comparison test chúng ta ñưa biến tlsosinh vào hộp văn
bản Variable name và biến tang_ha vào hộp văn bản Group name variable rồi nhấp vào nút lệnh
OK.
Kết quả ñược trình bày như sau:
. sdtest tlsosinh, by( tang_ha )
Variance ratio test

105

------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
Ha bt | 552 3191.531 25.58435 601.0962 3141.276 3241.786
Ha tang | 89 2742.157 86.17222 812.9471 2570.908 2913.406
---------+--------------------------------------------------------------------
combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767
------------------------------------------------------------------------------

Ho: sd(huyet ap) = sd(huyet ap)

F(551,88) observed = F_obs = 0.547
F(551,88) lower tail = F_L = F_obs = 0.547
F(551,88) upper tail = F_U = 1/F_obs = 1.829

Ha: sd(1) < sd(2) Ha: sd(1) != sd(2) Ha: sd(1) > sd(2)
P < F_obs = 0.0000 P < F_L + P > F_U = 0.0003 P > F_obs = 1.0000

Kết quả cho thấy giá trị p = 0,0003 có nghĩa là phương sai của trọng lượng lúc sinh của 2 nhóm
không ñồng nhất. Vì vậy chúng ta không thể dùng t-test phương sai ñồng nhất mà phải sử dụng t-
test phương sai không ñồng nhất (kiểm ñịnh 2A) hay kiểm ñịnh phi tham số (kiểm ñịnh 2B).
Kiểm ñịnh 2A: so sánh 2 trung bình t-test phương sai không ñồng nhất
ðể so sánh trung bình của một biến ñịnh lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu
Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group mean comparison
test (xem lại câu 4) và biến tlsosinh vào hộp văn bản Variable name; biến tang_ha vào hộp văn
bản Group name variable của cửa sổ ttest- group mean comparison. Cần lưu ý ñánh dấu vào hộp
kiểm Unequal variances rồi nhấp vào nút OK.


Kết quả trình bày như sau:
. ttest tlsosinh, by(tang_ha) unequal

106

Two-sample t test with unequal variances

------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
ha bt | 552 3191.531 25.58435 601.0962 3141.276 3241.786
ha tang | 89 2742.157 86.17222 812.9471 2570.908 2913.406
---------+--------------------------------------------------------------------
combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767
---------+--------------------------------------------------------------------
diff | 449.3735 89.88999 271.1197 627.6273
------------------------------------------------------------------------------
Satterthwaite's degrees of freedom: 104.069

Ho: mean(ha bt) - mean(ha tang) = diff = 0

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
t = 4.9991 t = 4.9991 t = 4.9991
P < t = 1.0000 P > |t| = 0.0000 P > t = 0.0000


Trả lời: Con bà mẹ bị tăng huyết áp có trọng lượng sơ sinh trung bình là 2742 gram, ở con của
bà mẹ không tăng huyết áp là 3192 gram. Sự khác biệt này có ý nghĩa thống kê với p<0,0001.
Kiểm ñịnh 2B: so sánh 2 trung bình với phép kiểm phi tham số Mann-Whitney
Thực hiện kiểm ñịnh phi tham số tổng sắp hạng Mann-Whitney (Mann-Whitney rank sum test)
bằng dụng menu Statistics :: Summaries, tables, & tests :: Non-parametric test of hypotheses ::
Mann-Whitney two-sample ranksum test.

Sau ñó cửa sổ ranksum - Mann-Whitney two-sample statistic hiện ra.


107

Tiến hành các bước sau:
Bước 1: ñặt con trỏ vào hộp văn bản Variable name
Bước 2: ñưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh ñể ñưa biến này vào hộp văn
bản Variable name
Bước 3: ñặt con trỏ vào hộp văn bản Group name variable
Bước 4: ñưa con trỏ vào cửa sổ Variables và nhấp vào biến tang_ha ñể ñưa biến này vào hộp văn
bản Group name variable.
Bước 5: Nhấp vào nút lệnh OK.
Kết quả như sau:

. ranksum tlsosinh, by( tang_ha )

Two-sample Wilcoxon rank-sum (Mann-Whitney) test

tang_ha | obs rank sum expected
-------------+---------------------------------
ha bt | 552 185203 177192
ha tang | 89 20558 28569
-------------+---------------------------------
combined | 641 205761 205761

unadjusted variance 2628348.00
adjustment for ties -144.78
----------
adjusted variance 2628203.22

Ho: tlsosinh(tang_ha==ha bt) = tlsosinh(tang_ha==ha tang)
z = 4.941
Prob > |z| = 0.0000
7. Hãy so sánh trọng lượng sơ sinh của trẻ sinh ra từ con của các nhóm nghề nghiệp khác nhau
của người mẹ.
Hướng dẫn: ðể so sánh trung bình của một biến ñịnh lượng ở nhiều nhóm, chúng ta phải sử dụng
phương pháp phân tích ANOVA một chiều. Sử dụng menu Statistics :: ANOVA/MANOVA ::
oneway analysis of variance

108

Do chúng ta muốn phân tích tác ñộng của yếu tố nghề nghiệp mẹ (nghenghiep) lên trọng lượng
sinh của trẻ (tlsosinh) khi cửa sổ oneway hiện lên, ta tiến hành các bước sau:
Bước 1: ñặt con trỏ vào hộp văn bản Response variable
Bước 2: ñưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh ñể ñưa biến này vào hộp văn
bản Response Variable.
Bước 3: ñặt con trỏ vào hộp văn bản Factor
Bước 4: ñưa con trỏ vào cửa sổ Variables và nhấp vào biến nghenghiep ñể ñưa biến này vào hộp
văn bản Factor.
Bước 5: ðánh dấu vào hộp kiểm Produce summary table ñể thể hiện thống kê mô tả trọng lượng
sơ sinh trung bình ở các nhóm nghề nghiệp
Bước 6: ðánh dấu vào hộp kiểm Scheffe ñể có kiểm ñịnh so sánh trọng lượng trung bình ở từng
cặp ñôi nghề nghiệp khác nhau
Bước 7: Nhấp vào nút lệnh OK


109


Trên cửa sổ Output, trên cùng thống kê mô tả của số liệu về trọng lượng sơ sinh theo nhóm tuổi
của mẹ:
nghe nghiep |
me - 1=tu |
do, 2=cong | Summary of trong luong so sinh
nhan, | (gram)
3=vien chuc | Mean Std. Dev. Freq.
------------+------------------------------------
tu do | 2981.4135 643.76283 104
cong nhan | 3118.084 646.69338 238
vien chuc | 3189.3177 654.19649 299
------------+------------------------------------
Total | 3129.1373 652.78265 641


Con bà mẹ nghề nghiệp tự do có trọng lượng trung bình là 2981 gram, của bà mẹ với nghề
nghiệp là 3118 gram, của bà mẹ với nghề nghiệp viên chức là là 3190 gram. Chúng ta biết kiểm
ñịnh ANOVA có thể sử dụng ñể kiểm ñịnh sự khác biệt về trung bình của nhiều nhóm, nhưng
trước tiên chúng ta hãy kiểm tra các ñiều kiện của phân tích ANOVA là (a) biến số phụ thuộc có
phân phối bình thường - ñiều này ñã ñược xác nhận từ ñồ thị của trọng lượng sơ sinh và (b)
phương sai của biến phụ thuộc ở các nhóm bằng nhau - ñiều này cũng ñược xác nhận qua thống
kê Bartlett với p-value là 0,973.
Analysis of Variance
Source SS df MS F Prob > F
------------------------------------------------------------------------
Between groups 3381483.56 2 1690741.78 4.00 0.0187
Within groups 269338638 638 422160.875
------------------------------------------------------------------------
Total 272720122 640 426125.19

Bartlett's test for equal variances: chi2(2) = 0.0558 Prob>chi2 = 0.973
Vì vậy trong trường hợp này kiểm ñịnh ANOVA là có giá trị. Ta ñọc kết quả của bảng ANOVA.

110
Chúng ta có ñược giá trị F = 0.0187 và mức ý nghĩa (p-value) là 0.9723 chúng ta kết luận không
có sự khác biệt về trọng lượng sơ sinh ở con của những bà mẹ có nghề nghiệp khác nhau. Với
kết luận này chúng ta có thể kết luận là có ít nhất có 1 cặp ñôi (2 nhóm) nghề nghiệp của mẹ có
sự khác biệt về trọng lượng con nhưng chúng ta không biết là sự khác biệt này ở cặp ñôi nghề
nghiệp nào. ðể biết cặp ñôi nào có sự khác biệt ta xem kết xuất của so sánh sau kiểm ñịnh (post-
hoc test) của Scheffe:
Comparison of trong luong so sinh (gram)
by nghe nghiep me - 1=tu do, 2=cong nhan, 3=vien chuc
(Scheffe)
Row Mean-|
Col Mean | tu do cong nha
---------+----------------------
cong nha | 136.671
| 0.202
|
vien chu | 207.904 71.2337
| 0.020 0.451

Kết quả của kiểm ñịnh Scheffe ñược trình bày theo bảng và ở mỗi ô của bảng có 2 con số: con số
ở trên thể hiện sự khác biệt về trọng lượng của nghề nghiệp của hàng so với nghề nghiệp của cột
và giá trị ở dưới thể hiện giá trịi p (mức ý nghĩa) của sự khác biệt này. Dựa vào giá trị p, có thể
kết luận có sự khác biệt về trọng lượng sơ sinh của con 2 nhóm nghề nghiệp viên chức và tự do
(giá trị p=0,020) và nhóm nghề nghiệp viên chức có trọng lượng trung bình cao hơn nhóm nghề
nghiệp tự do là 207,9 gram.
Nhắc lại lí thuyết về Tương quan và ước lượng
Tương quan là số ño mức ñộ hai biến số ñịnh lượng cùng thay ñổi với nhau. Có nhiều loại hệ số
tương quan, nhưng chúng ñều có giá trị từ -1 ñến 1. Nếu chúng có giá trị dương có nghĩa là hai
biến số ñồng biến với nhau, nếu chúng có giá trị âm nghĩa là hai biến số nghịch biến. Giá trị
tuyệt ñối của hệ số tương quan càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai
trò của sai số ngẫu nhiên sẽ ít hơn. Nếu hệ số tương quan có giá trị bằng zero có nghĩa là hai biến
số ñộc lập và không quan hệ gì với nhau. Khi trị tuyệt ñối của hệ số tương quan bằng một có
nghĩa là hoàn toàn không có sai số ngẫu nhiên. Bình phương của hệ số tương quan (r
2
) thể hiện tỉ
lệ các biến thiên của biến số phụ thuộc có thể ñược giải thích bằng biến số ñộc lập.
Loại hệ số tương quan ñược sử dụng phổ biến nhất là hệ số tương quan Pearson r:

∑ ∑

− −
− −
=
2 2
) ( ) (
) )( (
y y x x
y y x x
r
i i
i i


Lí giải ý nghĩa của hệ số tương quan:
- Hệ số tương quan luôn luôn nằm trong ñoạn [-1,1]
- Hệ số tương quan r dương chứng tỏ hai biến số là ñồng biến; hệ số tương quan r âm chứng tỏ
hai biến số là nghịch biến; hệ số tương quan bằng zero nếu hai biến không liên hệ.
- Trị số tuyệt ñối của hệ số tương quan r nói lên mức ñộ liên quan giữa hai biến số. Nếu trị tuyệt
ñối của r bằng 1 (r=1 hay r=-1), quan hệ hoàn toàn tuyến tính nghĩa là tất cả các ñiểm nằm trên
ñường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt ñối của r nhỏ hơn 1 sẽ có các ñiểm số liệu phân
tán chung quanh ñường hồi quy.

111
- Bình phương của hệ số tương quan (r
2
) thể hiện tỉ lệ biến thiên của biến số phụ thuộc ñược giải
thích bằng sự biến thiên của biến số ñộc lập (nếu mối liên hệ này là nhân quả)
- Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1) không có
mối liên hệ gì giữa hai biến số hoặc (2) mối liên hệ giữa hai biến số không phải là tuyến tính.
- Theo quy ước, quan hệ với r từ 0,1 ñến 0,3 là quan hệ yếu, từ 0,3 ñến 0,5 quan hệ trung bình và
trên 0,5 là quan hệ mạnh. Ðiều quan trọng là sự tương quan giữa hai biến số cho thấy sự liên hệ
nhưng không nhất thiết có nghĩa là cá quan hệ 'nhân quả'.

ðể kiểm ñịnh hệ số tương quan Pearson có thực sự khác 0 hay không, kiểm ñịnh t có thể ñược sử
dụng
t r
n
r
=


2
1
2
có phân phối student với n-2 ñộ tự do.
Hồi quy
Hồi quy là một mô hình toán học mô tả sự biến ñổi của một biến số này theo những biến số khác.
Một phương trình hồi quy có thể có dạng như sau:
cân nặng (kg) = 6,85 + 0,18 x tháng tuổi
(phương trình hồi quy tính cân nặng của trẻ từ 9 ñến 40 tháng tuổi theo tháng tuổi)
theo phương trình này người ta gọi:
cân nặng: biến số phụ thuộc
tháng tuổi: biến số ñộc lập
6,85: hệ số của hằng số (Constant), hay còn gọi là ñiểm chặn (intercept)
0,18: hệ số (Coeficient) của biến số tháng tuổi hay còn gọi là ñộ dốc (Slope) của ñường hồi
quy
9. Vẽ phân tán ñồ (scattergram) giữa của biến số tuổi thai (tuoithai) và trọng lượng thai
(tlsosinh).
Hướng dẫn: sử dụng menu Graphics :: Overlaid twoway graph


ñể hiện ra cửa sổ twoway – Twoway graphs

112

Trên cửa sổ twoway – Twoway graphs, nhập tên biến số phụ thuộc vào hộp Y-axis variable và
tên biến số ñộc lập vào hộp X-axis variable sau ñó nhấp OK ñể xem biểu ñồ phân tán. Cách làm
cụ thể từng bước như sau:
Bước 1: Trên hộp combo Type chọn Scatter
Bước 2: ðặt tên biến số ñộc lập (tuoithai) vào ô văn bản X
Bước 3: ðặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y
Bước 4: Nhấp nút lệnh OK


Có thể cho ñồ thị phân tán. Tuy nhiên chúng ta có thể thêm các tùy chọn ñể thực hiện các yêu
cầu sau:
• Bổ sung tiêu ñề “trọng lượng trẻ sơ sinh (gam)" cho trục tung
• Cho các giá trị trục y từ 500 ñến 5000 gram và chia các khoảng 500 gram.
• Bổ sung tiêu ñề “tuoi thai (tuan tuoi)" cho trục hoành

113
• Cho các giá trị của trục x từ 24 tuần tuổi ñến 42 tuần tuổi và chia làm các khoảng 4 tuần
Bằng cách trong cửa sổ Trên cửa sổ twoway – Twoway graphs thực hiện các bước:
Trên thẻ Plot 1: Bước 1: Trên hộp combo Type chọn Scatter
Bước 2: ðặt tên biến số ñộc lập (tuoithai) vào ô văn bản X
Bước 3: ðặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y
Trên thẻ Y-Axis: Bước 4: Trên hộp văn bản Title gõ "Trong luong tre so sinh (gam)"
Bước 5: Trên hộp văn bản Rule gõ quy tắc "500(500)5000"
Bước 6: Trên hộp combo Angle chọn "Horizontal"
Trên thẻ X-Axis: Bước 7: Trên hộp văn bản Title gõ "Tuoi thai (tuan)"
Bước 8: Trên hộp văn bản Rule gõ quy tắc "24(2)42"
Và nhấp vào nút lệnh OK.

Trả lời: Có sự tương quan thuận tuyến tính giữa trọng lượng sơ sinh và tuổi thai. Mối tương quan
này khá chặt do ñám mây có tính chất ñi lên (khi nó ñi về phải) và có ñường kính bé nhỏ hơn
nhiều so với ñường kính lớn.
10. Hãy xác ñịnh hệ số tương quan giữa trọng lượng sơ sinh (tlsosinh), tuổi thai (tuoithai) và tuổi
của mẹ (tuoime)
Hướng dẫn: Sử dụng menu Statistics :: Summaries, tables, & tests :: Summary statistics ::
Pairwise correlations.

114

Khi ñó hộp thoại pwcorr – Pairwise correlations of variables sẽ hiện ra.


115
Tiến hành các bước sau:
Bước 1: Nhấp con trỏ chuột vào hộp văn bản Variables
Bước 2: ðưa con trỏ chuột vào cửa sổ Variables và nhấp vào các biến tlsosinh, biến tuoithai và
biến tuoime ñể tên 3 biến này xuất hiện ở hộp văn bản Variables.
Bước 3: ðánh dấu vào hộp kiểm Print significance level for each entry
Bước 4: ðánh dấu vào hộp kiểm Significance level for displaying with a star.
Bước 5: Nhấp vào nút lệnh OK ñể xem kết quả.

. pwcorr tlsosinh tuoithai tuoime, sig star(5)

| tlsosinh tuoithai tuoime
-------------+---------------------------
tlsosinh | 1.0000
|
|
tuoithai | 0.7376* 1.0000
| 0.0000
|
tuoime | 0.0337 0.0151 1.0000
| 0.3941 0.7026

Trả lời: Chương trình cho kết quả hệ số tương quan của trọng lượng thai với trọng lượng thai là
1, giữa trọng lượng thai và tuổi thai là 0.7376 (giá trị p=0,0000), giữa trọng lượng thai và tuổi
của mẹ là 0,0337 (giá trị p = 0,3941). Như vậy có sự tương quan mạnh có ý nghĩa thống kê giữa
trọng lượng thai và tuổi thai trong khi ñó sự tương quan giữa trọng lượng thai và tuổi mẹ rất yếu
và không có ý nghĩa thống kê. Do có sự liên hệ có ý nghĩa thống kê (giá trị p <0,05) giữa trọng
lượng thai và tuổi thai nên giá trị của hệ số tương quan ñược ñánh dấu sao (*).
11. Hãy xây dựng phương trình hồi quy của trọng lượng thai theo tuổi thai.
Hướng dẫn: Sử dụng phương pháp hồi quy ñơn bằng cách nhấp vào menu "Statistics :: Linear
regression and related :: Linear regression" ñể hiện ra hộp thoại regress – Linear regression

116

Nhập tên biến số phụ thuộc vào hộp Dependent variable và tên biến số ñộc lập vào hộp
Independent variable rồi nhấn OK ñể tiếp tục.
Kết quả ñược trình bày như sau:
. regress tlsosinh tuoithai
Source | SS df MS Number of obs = 641
---------+------------------------------ F( 1, 639) = 762.25
Model | 148354317 1 148354317 Prob > F = 0.0000
Residual | 124365805 639 194625.673 R-squared = 0.5440
---------+------------------------------ Adj R-squared = 0.5433
Total | 272720122 640 426125.19 Root MSE = 441.16

tlsosinh | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
tuoithai | 206.6412 7.484572 27.609 0.000 191.9439 221.3386
_cons | -4865.245 290.0814 -16.772 0.000 -5434.873 -4295.617
Trả lời: Hệ số tương quan bình phương R-squared = 0.544 = 54.4% nói lên tuổi thai có thể giải
thích cho 54.4% sự thay ñổi về trọng lượng sơ sinh. Bảng ANOVA cho biết có tổng các sai lệch
của bình phương trọng lượng sơ sinh 272.720.122 (272.7 triệu) mà phương trình hồi quy có thể
giải thích cho 148.3 triệu của sự sai lệch này (như vậy còn 124.4 triệu tổng bình phương sai lệch
chưa ñược giải thích gọi là Residual Sum of Square và giá trị 0.45 chính là giá trị 148.3/272.7).
Mức ý nghĩa ñược trình bày trong bảng ANOVA cho biết mức ý nghĩa của phương trình.
Dựa vào bảng các hệ số chúng ta có thể xây dựng phương trình hồi quy như sau:
Trọng lượng sơ sinh = -4865.245 + 206.641 x tuổi thai (tính theo tuần).
Mức ý nghĩa (P-value) của biến số tuổi thai (Gestational age) là kết quả của kiểm ñịnh ý nghĩa
của biến số này trong phương trình có thực sự khác không hay không.
Hệ số (coefficient) của biến số ñộc lập nói lên sự thay ñổi của biến số phụ thuộc khi biến số

117
ñộc lập thay ñổi một ñơn vị. Trong phương trình này (với biến số ñộc lập là TUOITHAI và biến
số phụ thuộc là TLSOSINH) chúng ta có thể lí giải nếu ñứa trẻ lớn hơn 1 tuần tuổi trọng lượng
lúc sanh của nó sẽ tăng thêm 206.641 gram.
12. Hãy xây dựng phương trình hồi quy của trọng lượng thai theo tuổi thai, giới tính của trẻ và
huyết áp cao của mẹ.
Hướng dẫn: Sử dụng phương pháp hồi quy ñơn bằng cách nhấp vào menu "Statistics :: Linear
regression and related :: Linear regression" ñể hiện ra hộp thoại regress – Linear regression

Nhập tên biến số phụ thuộc (tlsosinh) vào hộp Dpendent variable và tên các biến số ñộc lập
(tuoithai gioi tang_ha) vào hộp Idependent variables, rồi nhấn OK ñể tiếp tục. Khi ñó hộp thoại
chẩn ñoán sẽ hiện ra. Tuy nhiên nếu chúng ta không quan tâm ñến việc chẩn ñoán các vấn ñề
trong phương trình hồi quy chúng ta hãy nhấp vào nút Cancel.
. regress tlsosinh tuoithai gioi tang_ha
Source | SS df MS Number of obs = 641
-------------+------------------------------ F( 3, 637) = 275.43
Model | 153998584 3 51332861.4 Prob > F = 0.0000
Residual | 118721538 637 186376.04 R-squared = 0.5647
-------------+------------------------------ Adj R-squared = 0.5626
Total | 272720122 640 426125.19 Root MSE = 431.71

------------------------------------------------------------------------------
tlsosinh | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
tuoithai | 201.4248 7.541441 26.71 0.000 186.6157 216.2339
gioi | 167.8167 34.17884 4.91 0.000 100.6999 234.9335
tang_ha | -142.14 50.8685 -2.79 0.005 -242.0302 -42.24979
_cons | -4729.048 294.1447 -16.08 0.000 -5306.659 -4151.438
------------------------------------------------------------------------------
Trả lời: Chúng ta tìm ñược r
2
(R-squared) là 0.5647 cho thấy phương trình hồi quy giải thích

118
ñược 56.47% sự biến thiên của trọng lượng thai và ñiều này cho thấy mô hình có cả giới tính và
tăng huyết áp giải thích tốt hơn so với mô hình chỉ có tuổi thai (r
2
=0.54).
Chúng ta cũng có thể viết ñược phương trình hồi quy theo kết quả ở trên:
Trọng lượng thai = -4729.048 + tuổi thai x 201.425 - tăng huyết áp x 142.14 + giới x 167.817
10. Bạn có gợi ý gì ñể trình bày phương trình hồi quy một cách dễ hiểu hơn ñối với người không
chuyên về thống kê.
Hướng dẫn: Bởi vì người không chuyên về thống kê hay người chưa ñược làm quen với phương
pháp mã hoá sẽ không biết làm sao ñể nhân tăng huyết áp với 142.14 hay giới với 167,817.
Chúng ta nhớ lại quy ước của tập tin này:
Biến tăng huyết áp (tang_ha) có giá trị =0 nếu mẹ không bị tăng huyết áp
Biến giới tính (gioi) có giá trị =0 nếu trẻ là trẻ gái
a) Do ñó phương trình hồi quy ñối với trẻ gái có mẹ không tăng huyết áp là:
Trọng lượng thai = -4729.048 + tuổi thai x 201.425 (a)
b) Ở trẻ trai với mẹ không tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ
tăng lên 167,817 gram nên phương trình hồi quy sẽ là
Trọng lượng thai = -4561.23 + tuổi thai x 201.425 (b)
c) Ở trẻ gái với mẹ bị tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ sẽ giảm
ñi 142,14 gram so với phương trình (a) nên phương trình hồi quy cho nhóm này là
Trọng lượng thai = -4871.19 + tuổi thai x 201.425
d) Ở trẻ trai với mẹ bị tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ sẽ
giảm ñi 142,14 gram so với phương trình (b) nên phương trình hồi quy cho nhóm này là
Trọng lượng thai = -4703.37 + tuổi thai x 201.425
Do các mức ý nghĩa (p-value) của biến số ñều nhỏ hơn 0.05 nên tất cả các biến số ñộc lập của
mô hình ñều có ý nghĩa thống kê và không nên loại bỏ khỏi mô hình.
13. Xét hai mô hình
trọng lượng thai = tuổi thai + tăng huyết áp mẹ + giới tính (cho hệ số của biến số tuổi t hai là
201.4) trong khi ñó mô hình
trọng lượng thai = tuổi thai (chohệ số của biến số tuổi thai là 206.6). Hệ số trong mô hình nào là
phù hợp hơn ñể ñánh giá sự tăng trưởng của trọng lượng thai.
Trả lời:
Chúng ta có thể giả ñịnh yếu tố tăng huyết áp của mẹ là yếu tố gây nhiễu. Do tăng huyết áp của
mẹ có thể làm giảm trọng lượng của con và trong tăng huyết áp của mẹ phổ biến hơn ở nhóm
sanh thiếu tháng nên ở ñứa trẻ sinh sớm 1 tuần bị mất trọng lượng là 206.6 gram nhưng ñiều này
là cả do tác ñộng của sanh non và cả tác ñộng do tăng huyết áp ở một số bà mẹ. Tuy nhiên ở
nhóm không bị tăng huyết áp trẻ sanh non một tuần chỉ bị mất có 201.4 gram và do ñó con số
201.4 là phù hợp hơn ñể ñánh giá sự tăng trưởng của trọng lượng thai.
Trên thực tiễn do con số 201.4 rất gần với con số 206.6 nên có thể bỏ qua tác ñộng gây nhiễu của
tăng huyết áp của mẹ lên tốc ñộ phát triển thai.

14. Sử dụng kiểm ñịnh t chúng ta phát hiện trọng lượng trẻ con các bà mẹ bị tăng huyết áp thấp
hơn con những người không tăng huyết áp là 449.37 gram. Trong khi mô hình của trọng lượng

119
sinh theo tuổi thai, tăng huyết áp mẹ và giới tính cho hệ số của biến tăng huyết áp là 142.14
gram. Hãy lí giải những số liệu này?
Trả lời: Cả hai con số 449.37 và 142.14 ñều nói lên sự khác biệt do tình trạng tăng huyết áp của
mẹ nhưng con số 449.37 là con số khác biệt thô và con số 142.14 là con số khác biệt có hiệu
chỉnh theo tháng tuổi và giới tính. Dựa vào nhận xét trên ta có giải thích những con số này như
sau:
• con các bà mẹ bị tăng huyết áp có trọng lượng nhẹ con những người không tăng huyết áp là
449.37 gram và ñiều này do tác ñộng của cả tăng huyết áp, tuổi thai (và cả tác ñộng của giới
tính nhưng giả sử chúng ta biết rằng tác ñộng gây nhiễu cao giới tính là không ñáng kể).
• con các bà mẹ bị tăng huyết áp có trọng lượng nhẹ con những người không tăng huyết áp là
142.14 gram và ñiều này do tác ñộng của cả tăng huyết áp khi không xét ñến tác ñộng của
tuổi thai. Như vậy tác ñộng do sinh thiếu tháng là 449.37-142.14 = 307.23 g
Cao huyeát
aùp meï
Troïng
löôïng con
Sinh thieáu
thaùng
Cô cheá
khaùc
142.14g
449.37g

Như vậy % tác ñộng do cơ chế sinh thiếu tháng trong tổng số tác ñộng của tăng huyết áp mẹ lên
trọng lượng của con là:
% 68 68 . 0
37 . 449
22 . 307
37 . 449
14 . 142 37 . 449
= = =

= =
thoâ ñoäng taùc
chænh hieäu ñoäng taùc - thoâ ñoäng taùc



Chúng ta có thể xem xét tác ñộng của cơ chế sinh thiếu tháng trong khi so sánh trọng lượng sơ
sinh của 2 nhóm mẹ tăng huyết áp và mẹ không tăng huyết áp bằng cách so sánh tuổi thai trung
bình giữa 2 nhóm. Nhóm có mẹ bị tăng huyết áp có tuổi thai trung bình là 37.3 tuần trong khi ñó
nhóm mẹ không bị tăng huyết áp có tuổi thai trung bình là 38.9 và sự khác biệt về tuổi thai là 1.6
tuần. Sự khác biệt về tuổi thai sẽ giải thích cho khoảng 200 gram/tuần x 1.6 =320 gram trọng
lượng sơ sinh.

M CL C Ð i cương v th ng kê và th ng kê mô t ...................................................................................... 1 M t s ñ nh nghĩa ....................................................................................................................... 1 Bi n s và các lo i bi n s .......................................................................................................... 1 Phương pháp mô t tóm t t và trình bày s li u ......................................................................... 1 Các s th ng kê mô t ................................................................................................................. 2 Phương pháp trình bày s li u .................................................................................................... 5 Ð i cương v phân tích s li u...................................................................................................... 13 Suy lu n th ng kê...................................................................................................................... 14 Cài ñ t chương trình Stata 10.0, s li u m u và các chương trình có liên quan.......................... 29 Kh i ñ ng và k t thúc Stata.......................................................................................................... 36 Kh i ñ ng Stata ............................................................................................................................ 40 1. Kh i ñ ng Stata .................................................................................................................... 40 2. Mô t giao di n c a chương trình Stata ................................................................................ 40 3. Cách cách ñ th c hi n l nh trong chương trình Stata ......................................................... 41 4. Lưu l i k t qu phân tích ..................................................................................................... 42 M t vài phân tích ñơn gi n v i Stata ............................................................................................ 44 Mô t s li u v i Stata 10.0 for Windows .................................................................................... 58 Th ng kê phân tích bi n s ñ nh lư ng v i Stata ......................................................................... 96 Th c hành ................................................................................................................................. 98

Ð i cương v th ng kê và th ng kê mô t M t s ñ nh nghĩa
Th ng kê là phương pháp khoa h c dùng ñ thu th p, tóm t t, trình bày và phân tích s li u. S li u: K t qu có ñư c do vi c quan sát hay thu th p m t bi n s các ñ i tư ng khác nhau hay th i gian khác nhau.
Thí d : Khi tôi quan sát gi i tính c a các h c viên trong l p, tôi có s li u là: Nam, nam, n , n , n , nam, n , v.v Thí d : M t nhà nghiên c u ño n ng ñ hemoglobin c a 70 thai ph có k t qu như sau:
10.2 13.3 10.6 12.1 9.3 12.0 13.4 11.9 11.2 14.6 13.7 12.9 10.5 12.9 13.5 12.9 12.1 11.4 15.1 11.1 10.4 12.1 13.7 11.4 14.6 11.1 10.9 12.5 10.7 13.5 14.9 9.4 11.8 12.7 11.2 8.8 11.3 13.0 12.9 10.9 11.5 13.2 14.1 10.6 11.7 10.2 14.7 11.6 13.4 13.1 12.0 10.8 10.3 11.4 10.9 11.6 10.8 13.1 12.3 11.8 11.0 11.7 13.6 11.9 10.4 12.5 13.3 9.7 11.0 12.2

và nh ng con s này ñư c g i là s li u.

C n lưu ý s li u ph i liên k t v i m t bi n s nh t ñ nh. N u tôi quan sát gi i tính ngư i này, tu i c a ngư i khác, qu n áo c a m t ngư i khác n a thì k t qu quan sát ñư c không ph i là s li u.

Bi n s và các lo i bi n s
Bi n s là nh ng ñ i lư ng hay nh ng ñ c tính có th thay ñ i t ngư i này sang ngư i khác hay t th i ñi m này sang th i ñi m khác. Như v y bi n s có th th hi n ñ i lư ng hay ñ c tính. - N u bi n s th hi n m t ñ i lư ng nó ñư c g i là bi n s ñ nh lư ng (quantitative variable). Bi n s ñ nh lư ng có th còn ñư c chia thành bi n s t s - ratio variable(có giá tr không tuy t ñ i) và bi n s kho ng – interval variable (không có giá tr không tuy t ñ ) - N u bi n s nh m th hi n m t ñ c tính, bi n s ñư c g i là bi n s ñ nh tính. Bi n s ñ nh tính còn ñư c chia làm 3 lo i: - Bi n s nh giá – binary variable (khi ch có 2 giá tr ) - Bi n s danh ñ nh – nominal variable (khi có 3 hay nhi u hơn các giá tr và các b n thân các giá tr không có tính ch t th t ) - Bi n s th t - ordinal variable (khi có 3 hay nhi u hơn các giá tr và các b n thân các giá tr có tính ch t th t - Ngoài ra có khi bi n c không ch ñư c quan tâm v phương di n nó có x y ra hay chưa x y ra mà còn ñư c quan tâm v phương di n bi n c x y ra vào lúc nào. Thí d sau khi ñi u tr b nh nhân ung thư chúng ta không ch quan tâm b nh nhân có t vong hay không mà còn quan tâm b nh nhân b nh nhân t vong bao nhiêu lâu sau khi ñi u tr và n u b nh nhân chưa t vong, b nh nhân ñã s ng ñư c bao lâu.

Phương pháp mô t tóm t t và trình bày s li u
1

-T l cho t ng giá tr n u là bi n th t hay danh ñ nh .T l cho giá tr tiêu bi u n u là bi n nh giá Các s th ng kê mô t Có hai lo i th ng kê mô t : th ng kê mô t khuynh hư ng t p trung và th ng kê mô t tính phân tán. Th ng kê mô t khuynh hư ng t p trung Th ng kê mô t khuynh hư ng t p trung có th là trung bình (mean).125 130 . Σx x= i N Thí d : S li u v huy t áp tâm thu c a 5 ñ i tư ng là 120.125 -130 và 5 ñ i tư ng khác sau khi s d ng thu c h áp B s có huy t áp 120 .115 -120 . Thí d : có hai lo i thu c h áp A và B. 135. Con s tiêu bi u nh t ñ cho bi t tác d ng c a thu c A là huy t áp trung bình sau khi s d ng thu c A và là 120. Gi s có 5 ñ i tư ng sau khi s d ng thu c h áp A s có huy t áp 110 . Con s huy t áp trung bình này th p hơn huy t áp trung bình sau khi s d ng thu c B cho bi t thu c A có tác d ng m nh hơn. trung v (median) và y u v (mode). Trung bình c a s li u. ñư c kí hi u là (x (ñ c là x g ch) là t ng các giá tr c a s li u chia cho s l n quan sát (N).135 . 130. 125. Nh ng th ng kê này cho bi t giá tr tiêu bi u cho s li u. Huy t áp tâm thu trung bình s là 132 x= Σxi 120 + 125 + 130 + 125 + 150 = = 132 N 5 2 . 150.140.

Vi c l a ch n th ng kê mô t tính phân tán ñư c trình bày trong b ng 2. 2. 162. Ngoài ra y u v (mode) cũng ñư c s d ng làm con s th ng kê tiêu bi u. 5. trung v hay y u v cho bi n s ñ nh lư ng. 161. N u chúng ta s p x p s li u theo th t .vi t t t là SD hay s) là con s ñánh giá m c ñ phân tán và 3 . 155. có th không có y u v . 161. 3.Do không th th c hi n các phép toán s h c trên các bi n s ñ nh tính (danh ñ nh và th t ) chúng ta ch có th tính trung bình cho s li u c a bi n s ñ nh lư ng. Thí d : Thu c h áp A ñư c s d ng trên 5 b nh nhân và huy t áp tâm thu sau khi dùng thu c là 110. 120. Ðây là khuy t ñi m chính c a s th ng kê này. Thí d : S li u v huy t áp tâm thu (mmHg) c a 5 ñ i tư ng là 120. 125 và 130. Như v y hai thu c h áp này có hi u qu h áp là tương ñương (b i vì trung bình c a hai s li u là b ng nhau) nhưng k t qu c a thu c B phân tán hơn và ñi u này làm thu c B tr nên kém an toàn. Sau ñi u tr . Trong m t p có 361 gia ñình ngư i Kinh. trư c tiên chúng ta ph i s p x p s li u này: 153. Trung v c a huy t áp tâm thu là giá tr ñ ng gi a và b ng 130 S li u v chi u cao (cm) c a 6 ngư i là 153. 9. 162. Y u v c a biên s dân t c là dân t c Kinh. Do có hai giá tr 160 và 161 cùng gi a. Y u v là giá tr xu t hi n ph bi n nh t (có t n su t cao nh t). Trung v và trung bình c a s li u là 2 và 5 ngày.tá tràng ñư c ñi u tr theo m t phác ñ di t vi khu n Helicobacter. Thí d : S li u v huy t áp tâm thu (mmHg) c a 5 ñ i tư ng là 120. 150. 2. Trong m t s li u c th . 110. Th ng kê mô t tính phân tán: Có 3 th ng kê mô t tính phân tán: ñ l ch chu n. giá tr ñ ng gi a ñư c g i là trung v . Y u v c a ñi m s là 5. b nh nhân ñư c theo dõi và ghi nh n th i gian k t khi s d ng thu c ñ n lúc b t ñ u c i thi n tri u ch ng ñau. Nhìn chung. Khi bi n s ñ nh lư ng có phân ph i bình thư ng (hình chuông) thì ba con s này x p x b ng nhau và khi ñó ngư i ta thư ng tính trung bình b i vì trung bình có nh ng ñ c tính toán h c m nh. Trong trư ng h p này không có y u v . có th có m t y u v ho c hai hay nhi u y u v . 130. 135. 160. Thu c h áp B ñư c s d ng trên 5 b nh nhân và có huy t áp sau s d ng thu c là 100. 115. 120. 160. 120 gia ñình ngư i Khmer và 27 gia ñình ngư i Hoa. 2. khi s li u b l ch thì con s trung bình s b nh hư ng r t nhi u và không ph n ánh giá tr tiêu bi u như con s trung v . Con s trung v ph n ánh chân th c hơn b i vì v i tư cách là m t bác sĩ lâm sàng t s li u trên có th nh n xét r ng m t b nh nhân tiêu bi u s gi m ñau sau 2 ngày dùng thu c. 125. 140. 155. chúng ta ch có th tính trung v c a s li u ñ nh lư ng và s li u c a bi n s th t . 6.5 cm Do b n ch t c a bi n s danh ñ nh không th s p ñư c theo th t . 2. 3. 130. 165. 2. trung v s là (160+161)/2 = 160. 7. Ð tính trung v . Do v y ngư i ta thư ng ch dùng y u v cho bi n s danh ñ nh hay trong các trư ng h p ñ c bi t Có th s d ng trung bình. N u có hai giá tr cùng ñ ng gi a. 130. B nh nhân có th i gian t lúc ñi u tr ñ n lúc gi m tri u ch ng là 30 ngày trên th c ch t là b nh nhân không ñáp ng v i ñi u tr . trung bình c ng c a hai giá tr này là trung v . Con sôs 30 trong thí d trên ñư c g i là s ngo i lai (outlier) và làm s li u b l ch. 165. 3. 10 b nh nhân th i gian này (ngày ) là như sau: 1. Thí d : B nh nhân b loét d dày . 125. Th ng kê mô t tính phân tán có t m quan tr ng th hai sau con s mô t khuynh hư ng t p trung. Ð l ch chu n (standard deviation . Ði m s c a 5 h c sinh là 5. 150. 135. kho ng t phân v và ph m vi c a s li u. 30. Tuy nhiên n u s li u b l ch thì con s trung v ph n ánh giá tr tiêu bi u m t cách chính xác hơn.

416122 8. Thí d : S li u v huy t áp tâm thu (mmHg) c a 5 ñ i tư ng là 120. Ph m vi c a bi n s huy t áp là 120 ñ n 150. 110. 125. Thí d : S li u v huy t áp tâm thu (mmHg) c a 5 ñ i tư ng là 120. 120.trung v c a ph n dư i là 135. Thí d : S li u v huy t áp tâm thu (mmHg) c a 5 ñ i tư ng là 120. và 150. 140. Kho ng t phân v (inter-quartile): N u chúng ta chia s li u s p theo th t làm 2 ph n ñ u nhau. 135. 125 và 130. 130. Cũng như trung v . 150. 150.5 = 11. cũng gi ng như trung v .1 4 . Thí d : Thu c h áp A ñư c s d ng trên 5 b nh nhân và huy t áp tâm thu sau khi dùng thu c là 110. Trung v c a ph n trên là 125 . 135. S li u c a thu c B có tính phân tán cao hơn do ph m vi thay ñ i t 100-140 trong khi ñó ph m v c a s li u thu c A ch t 110-130. Thu c h áp B ñư c s d ng trên 5 b nh nhân và có huy t áp sau s d ng thu c là 100. Khái ni m ñ l ch chu n ch có th áp d ng cho bi n s ñ nh lư ng b i vì chúng ta có th th c hi n các phép toán s h c trên các ñ i lư ng nhưng không th th c hi n trên các giá tr c a bi n s ñ nh tính là các ñ c tính.98429 1. S li u này ñư c chia làm 2 ph n: ph n 1 g m 120. Dev. kho ng t phân v là kho ng cách c a trung v ph n trên và trung v ph n dư i. 125.8 15. 130.ñư c tính theo công th c: ( xi − x ) 2 s= ∑ N −1 i =1 n Như v y ñ l ch chu n ph n ánh kho ng cách trung bình c a s li u so v i giá tr tiêu bi u. 130. 125. Min Max -----------+----------------------------------------------------hemoglobin | 70 11. 135. do ñó ph m t phân v là 125-135. kho ng t phân v ch có th áp d ng cho bi n s ñ nh lư ng hay th t . 125.5 4 4 Phương sai v m t t nguyên là bình phương c a ñ l ch chu n. Do b n ch t c a kho ng t phân v là trung v c a ph n s li u trên và ph n s li u dư i. Trung bình c a huy t áp là 132 và ñ l ch chu n b ng ( xi − x ) 2 s= ∑ N −1 i =1 n = = (120 − 132) 2 + (125 − 132) 2 + (132 − 130) 2 + (135 − 132) 2 + (150 − 132) 2 5 −1 144 + 49 + 4 + 9 + 324 530 = = 132. 120. 135. Câu h i: Phân tích trên máy tính v bi n s hemoglobin cho k t qu sau. 130. 115. 130 và ph n 2 g m 130. kho ng t phân v không b nh hư ng b i các giá tr ngo i lai như trong trư ng h p c a ñ l ch chu n. Phương sai (variance) có th ñư c kí hi u và Var hay s2 và ñư c tính theo công th c sau: s2 = ∑ i =1 n ( xi − x ) 2 N −1 Ph m vi c a s li u là t t c các giá tr c a s li u t giá tr nh nh t ñ n giá tr l n nh t. Hãy th ñ c và lí gi i k t qu : Variable | Obs Mean Std. 150.

Trình bày b ng: Phân ph i t n su t c a bi n s ñ nh tính S li u c a bi n s r i r c có th ñư c trình bày dư i d ng m t phân ph i t n su t. Chia ph m vi s li u ra làm n kho ng v i ñ r ng c a m i kho ng là d. 2. m t c t li t kê các giá tr c a bi n s và m t c t trình bày t n su t tương ng c a các giá tr ñó.1 2.7 10. Phân ph i t n su t là m t b ng ch ra t n su t xu t hi n c a t ng giá tr r i r c c a bi n s (B ng 1). Phân ph i gi i tính c a 69 h c sinh l p cơm thư ng trư ng m m non 23 tháng 11. B i vì gi i tính có 2 giá tr nam và n nên ta li t kê 2 giá tr này m t c t. B ng 2 là m t thí d khác v b ng phân ph i t n su t.8 ñ n 15. C n lưu ý ñ r ng m i kho ng d nên là ñ i lư ng ch n như 1. Phương pháp ñ ñ c a 600 tr trong b nh vi n Phương pháp ñ ñ Sinh thư ng Sinh forceps Sinh m T ng s S sinh 478 65 57 600 Ph n trăm 79. Như v y b ng phân ph i t n su t g m 2 c t. Ðôi khi b ng phân ph i t n su t có thêm c t ph n trăm như trong thí d trên.Phương pháp trình bày s li u S li u có th ñư c trình bày thành b ng ho c các ñ th . Huy n Hóc môn Gi i Nam N T ng s S tr 45 24 69 Ph n trăm 65% 35% 100% B ng trên là b n phân ph i t n su t c a gi i tính. Trong thí d v hemoglobin c a 70 ph n ph m vi là 8. 0.Tìm ph m vi (giá tr c c ti u và giá tr c c ñ i) c a s li u. C th các bư c xây d ng b ng phân ph i t n su t cho bi n s ñ nh lư ng như sau: 1. 5.5.0 Phân ph i t n su t c a bi n s ñ nh lư ng N u bi n s là bi n s liên t c chúng ta không th li t kê t t c các giá tr c a bi n s .5 100.2 và s các kho ng n nên t 5-12 (trung 5 .8 9. c t th nhì ta ghi t n su t tương ng c a các giá tr này. Table 1. Trong trư ng h p này chúng ta có th nhóm (làm tròn) giá tr c a bi n s l i. 10 hay 0. Table 2.

Vòng cánh tay T n su t Ph n trăm Ph n trăm tích lũy 6 .71 25. Table 4. 13-13.00 Thí d như n u biên s là chu vi vòng cánh tay c a tr chúng ta có th làm tròn chu vi vòng cánh tay ñ n 1 cm.43 5.00 18. Hóc môn.9 13-13.9.9 12-12.9.9.9 10-10. 10-10. 14-14. Phân ph i s ño vòng cánh tay c a 69 tr l p cơm thư ng nhà tr 23 tháng 11.9 15-15.9 10-10.bình là 7-8). Khi ñó ta có th xem thang ño c a bi n s là r i r c và trình bày b ng phân ph i t n su t c a bi n s (b ng 2).14 20.9 12-12. 1515.86 91. Hemoglobin c a 70 ph n Hemoglobin 8-8.57 100. Khi ñó các kho ng là: 8-8.9 1 111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 111 1111 1 Ð m 4.9 11-11. Chúng ta cũng có th thêm vào c t ph n trăm và c t ph n trăm tích lũy (n u thích h p) Table 3. 12-12.9.9 9-9.9 14-14.9 14-14. Trong thí d trên ta có th chia ph m vi ra làm 8kho ng v i chi u r ng kho ng b ng 1 ñơn v .57 7.9.9.9 9-9.43 Ph n trăm tích lũy 1.9 13-13.71 52.00 27.9.9. 11-11.14 1. 3. 9-9. Ð m các giá tr thích h p vào kho ng ñã ñ nh trư c Hemoglobin (g/100ml) 8-8.9 T n su t 1 3 14 19 14 13 5 1 Ph n trăm 1.43 98.86 72.29 20.9 11-11.43 4. Xây d ng b ng phân ph i t n su t v i bi n s và các kho ng giá tr c a bi n s và t n su t tương ng v i các kho ng giá tr ñó.9 15-15.

<18 18.83 98.13.78 1.78 43. trong ñó có tr c hoành và tr c tung còn bi u ñ (chart) là hình nh mang tính ch t tư ng trưng.<16 16.06 37.<20 2 31 27 9 0 2 1 2. N u bi n s là bi n r i r c.00 Bi u ñ và ñ th S li u cũng có th ñư c trình bày dư i d ng ñ th ho c bi u ñ . M c dù không có ranh gi i tuy t ñ i hoàn toàn rõ r t. thì phân ph i c a bi n s có th trình bày dư i d ng t ch c ñ (histogram . có th trình bày dư i d ng bi u ñ hình thanh (bar chart .hình 1) ho c bi u ñ hình bánh (pie chart).50 12.<14 14. ng v i t ng giá tr c a bi n s ngư i ta v các thanh có chi u cao t l v i t n su t c a giá tr ñó.50 2.83 95. 7 .78 45. Hình th c c a b ng -Có t a ng n g n và rõ ràng -Ð t tên cho các hàng và c t -Trình bày t ng s c a hàng và c t -Ð nh nghĩa các kí hi u và ch vi t t t -Ghi ngu n s li u dư i b ng dư i b ng Bi u ñ hình thanh Bi u ñ hình thang là bi u ñ nh m mô t s phân b c a bi n s r i r c. nói chung ñ th (graph) có tính ch t toán h c nhi u hơn.hình 2) ho c ña giác t n su t.<19 19.50 12.<15 15.33 95. N u bi n s là bi n liên t c.<17 17.83 83.61 100. C n lưu ý luôn luôn có kho ng tr ng gi a các thanh. Bi u ñ hình thanh g m có tr c hoành trên ñó xác ñ nh nh ng giá tr c a bi n s .39 2.

Phương pháp sinh c a 600 tr sanh t i b nh vi n X trong năm 1998 Ð i v i bi n s th t . 8 . ñi u c n lưu ý là các giá tr c a bi n s ph i ñư c s p x p th t theo tr c hoành. Hóc môn Chúng ta cũng có th xây d ng các thanh theo chi u ngang như trong ví d sau Sinh moå 57 Sinh forceps 65 Sinh thöôøng 478 0 100 200 300 400 500 Hình 2.50 40 30 20 10 0 Nam Nöõ 45 24 Hình 1. Bi u ñ hình thanh (bar chart) mô t phân b gi i tính c a nh ng h c sinh trong trư ng m m non 23/11.

8% 3.5% Ñöôøng aâm ñaïo Moå laáy thai Hình 4. Trình ñ h c v n c a các bà m trong nghiên c u 25% 20% 15% 10% 5% 0% Duøng ZDV† Khoâng duøng ZDV 4.9% 19.2000 Taàn suaát 1000 0 muø chöõ caáp 1 edumat caáp 2-3 ñaïi hoï Hình 3. 27/3/1999) Bi u ñ hình bánh Bi u ñ hình bánh cũng ñư c dùng ñ mô t s phân b c a bi n s r i r c. 9 . Ð l n c a cung t l v i t n su t c a giá tr bi n s . T su t lây truy n t m sang con nh ng ngư i m b nhi m HIV theo ñi u tr hóa d phòng và phương pháp sinh (Ngu n: The European Mode of Delivery Collaboration.3% 0. Lancet. Bi u ñô hình bánh là m t vòng tròn ñư c chia làm nhi u cung tương ng v i các giá tr c a bi n s .

Nöõ 35% Nam 65%

Hình 5. Bi u ñ hình bánh (pie chart) mô t phân b gi i tính c a nh ng h c sinh trong trư ng m m non 23/11, Hóc môn

Sinh moå Sinh forceps

Sinh thöôøng

Hình 6. Bi u ñ hình bánh th hi n phương pháp sinh c a 600 ñ a tr sinh t i b nh vi n X

T ch c ñ và ña giác t n su t
T ch c ñ (histogram) và ña giác t n su t (polyline) ñư c dùng trong mô t phân b c a bi n s liên t c. Ð v t ch c ñ , ngư i ta chia biên ñ c a giá tr làm nhi u kho ng giá tr và tính t n su t c a nh ng kho ng giá tr ñó. Nh ng kho ng giá tr này ñư c bi u th trên tr c hoành. ng v i m i kho ng giá tr ngư i ta v nh ng hình ch nh t có di n tích t l v i t n su t c a kho ng giá tr ñó. B i vì các kho ng giá tr này n m sát nhau trên tr c hoành, các hình ch nh t c a t ch c ñ cũng thư ng n m sát nhau.

10

20

15

Frequency

10

5

0 8 9 10 11 12 13 hemoglobin 14 15 16

Hình 7. T ch c ñ m c hemoglobin c a 70 ph n .

20

15

Frequency

10

5

0 8 9 10 11 12 13 hemoglobin 14 15 16

Hình 8. Ða giác t n su t c a hemoglobin c a 70 ph n .

Ð v ña giác t n su t, ngư i ta thư ng v t ch c ñ và n i các trung ñi m c a các c nh trên c a các hình ch nh t. Ða giác t n su t thư ng không ñ p như các t ch c ñ nhưng nó có ưu ñi m là có th v nhi u ña giác t n su t trên cùng m t ñ th ñ d so sánh các phân ph i c a chúng.

11

15

10

5

0 8 9 10 11 12 13 hemoglobin 14 15 16

Hình 9. Ða giác t n su t hemoglobin c a 28 ph n nghèo (ñư ng ñ ) so vơí 42 ph n trung bình và khá (ñư ng xanh)

12

Các nhà th ng kê cho r ng 95% các trư ng h p trung bình dân s không n m xa quá 1.96 x SE so v i trung bình m u: ph m vi này ñư c g i là kho ng tin c y 95%. Ư c lư ng kho ng tin c y c a trung bình Như chúng ta ñã trình bày. chúng ta có th tính ñư c giá tr trung bình và ñ l ch chu n c a m u. chúng ta ñi t ñ c trưng c a cá th (bi n s .e. trung bình c a m u s dao ñ ng nhưng t p trung t i giá tr trung bình c a dân s . chúng ta không ch c là trung bình m u s chính xác b ng trung bình c a dân s mà ch có th tin là trung bình dân s n m v trí ñâu ñó chung quanh trung bình c a dân s .statistics) và t ñ c trưng c a m u chúng ta s d ng phương pháp suy lu n th ng kê và lí gi i ñ có ñư c ñ c trưng c a dân s (ñư c g i là tham s parameter) M t lo i m u thư ng ñư c g p trong nghiên c u là m u ng u nhiên ñơn. giá tr này ñư c g i là giá tr c a phân ph i t v i (c m u – 1) ñ t do.Ð i cương v phân tích s li u Phép ư c lư ng Dân s và m u Thông thư ng chúng ta không th nghiên c u toàn b dân s mà chúng ta quan tâm. nên chúng ta có th ư c lư ng trung bình dân s b ng cách tính trung bình c a m u. Chúng ta thư ng ch có th nghiên c u ch m t ph n dân s ñó. Do ñó n u chúng ta tính trung bình c a m u thì chúng ta hi v ng trung bình c a dân s s n m ngay t i hay lân c n trung bình c a m u. Kho ng tin c y 95% (95% CI) : x ± t(1-α/2) × s/√n Bài t p: 13 . Tuy v y các nhà th ng kê ñã ch ng minh r ng giá tr trung bình c a m u s có phân ph i bình thư ng và các giá tr trung bình này s t p trung t i trung bình c a dân s .96s/√n Trong trư ng h p c m u nh (n < 30). Ð phân tán c a trung bình m u xung quanh chung bình dân s ñư c g i là sai s chu n (standard error) và s gi m ñi khi c m u càng l n: s. chúng ta không th s d ng giá tr 1. Nhưng do trung bình m u có dao ñ ng.96 như trong công th c trên mà c n ph i s d ng các giá tr hơi l n hơn (và càng l n n u c m u càng nh ). Khi l y m u ng u nhiên ñơn. = s = n s2 n ð l ch chu n và sai s chu n là hai ñ i lư ng th hi n s phân tán nhưng ñ l ch chu n th hi n s phân tán c a cá th chung quanh giá trình trung bình dân s còn sai s chu n là ñ i lư ng th hi n s phân tán c a con s th ng kê (trung bình m u hay t l c a m u) chung quanh giá tr c a tham s (trung bình dân s hay t l c a dân s ). Rõ ràng là giá tr trung bình và ñ l ch chu n s khác nhau v i nh ng m u khác nhau.variable) ñ có ñư c ñ c trưng c a m u (ñư c g i là th ng kê . Trong nghiên c u khoa h c. Như v y kho ng tin c y 95% c a trung bình c a bi n sô ñ nh lư ng Kho ng tin c y 95% (95% CI) : x ± 1. ph n này ñư c g i là m u (sample) và t ñó ư c ñoán v nh ng ñ c tính c a dân s .

Trong ki m ñ nh th ng kê ngư i ta cũng s d ng các l p lu n tương t . M t nghiên c u ghi nh n trên c m u 1235 tr sơ sinh t nh ð ng Tháp cho th y tr ng lư ng trung bình c a tr sơ sinh là 3121 gram và ñ l ch chu n là 435 gram.164. Chi u cao c a 10 thanh niên là 160.26 gram. Chúng ta tính ñư c t l hút thu c lá thanh niên là 0.493.354 (35. 172. Phép ph n ch ng trong logic h c s d ng b ng m nh ñ : N u A kéo theo B thì không B s kéo theo không A.p ) n Bài t p ði u tra trên 127 thanh niên có 45 thanh niên hút thu c lá. 166.4%). A⇒ B ⇔B⇒A ⇒ ⇒ M t thí d c a phép ph n ch ng là khi chúng ta g p m t b nh nhân nghi ng t c ru t và chúng ta h i b nh s xem b nh nhân có bí trung ti n hay không. chúng ta thư ng s xem xét các h qu ph bi n gi thuy t này (B nh nhân t c ru t thư ng b ñau b ng. Ư c lư ng kho ng tin c y c a t l ð ư c lư ng kho ng tin c y c a m t t l . 2.74 . ð ki m ñ nh m t gi thuy t th ng kê (ñư c g i là gi thuy t Ho) c n ph i xác ñ nh mi n x y ra ph bi n c a các con 14 . 162.87. Các bi n c n m ngoài các h qu ph bi n c a gi thuy t (bi n c không có ñau b ng. Hãy ư c lư ng kho ng tin c y 95% c a tr ng lư ng trung bình c a tr sơ sinh t nh ð ng Tháp. 176. Trư c tiên chúng ta ph i xác ñ nh trung bình c a chi u cao là 168. M t cách t ng quan hơn.8 cm và ñ l ch chu n c a chi u cao là 5. Gi s b nh nhân không bí trung ti n thì chúng ta s bác c ch n ñoán t c ru t v i suy lu n sau: N u b nh nhân b t c ru t s bí trung ti n thì b nh nhân s bí trung ti n. chúng ta c n xác ñ nh t l p sau ñó d a vào p ñ ư c lư ng kho ng tin c y 95% c a p p − 1. bí trung ti n và chư ng b ng).87 .271 ñ n 0. không có nôn ói. khi chúng ta ñưa ra gi thuy t ch n ñoán (thí d như ch n ñoán t c ru t).96 × p(1 . Hãy ư c lư ng kho ng tin c y 95% c a chi u cao trung bình. D a vào công th c trên chúng ta tính ñư c kho ng tin c y 95% c a t l hút thu c lá là 0. Hãy tính t l thanh niên hút thu c lá và kho ng tin c y 95% c a t l hút thu c lá. 169.96 × n p(1 .3145. Do c m u là 10 chúng ta ph i dò b ng phân ph i t 9 ñ t do ta ñư c giá tr t (tương ng v i kho ng tin c y 95%) là 2. không b bí trung ti n hay không có chư ng b ng) thì chúng ta có th bác b ch n ñoán. 165. S d ng công th c trên ta tính ñư c: 95%CI=3096.nôn ói. 172. 170. T ñó chúng ta tính ñư c kho ng tin c y 95% 95%CI=164. không có nôn ói. 176.26.438 Suy lu n th ng kê Ki m ñ nh ý nghĩa Phương pháp ki m ñ nh ý nghĩa ñư c Fisher ñ xu t và d a trên căn b n c a phép ph n ch ng.1. không b bí trung ti n hay không có chư ng b ng) ñư c g i là mi n bác b c a ch n ñoán. Vi c không có m t trong các h u qu ph bi n c a gi thuy t này (thí d như b nh nhân không có ñau b ng. do b nh nhân không bí trung ti n nên b nh nhân không b t c ru t.p ) ñ n p + 1.

giá tr p ñư c kí hi u là Sig. Xác su t này ñư c g i là giá tr p. Vùng di n tích dư i ñư ng cong màu tr ng th hi n mi n các th ng kê z thư ng x y ra n u gi thuy t Ho là ñúng. v. 15 .uy t th ng kê Ho là hút thu c lá không ph i là y u t nguy cơ c a ung thư ph i và s d ng phương pháp ki m ñ nh ñ bác b ñi u này. th ng kê t. th ng kê z. ðư ng cong phân ph i hình chuông th hi n phân ph i c a th ng kê c a z khi =0 (gi thuy t Ho).Do di n tích mi n bác b là m t con s c ñ nh (thư ng là 0.s th ng kê (như trung bình.v. Vùng di n tích dư i ñư ng cong màu s m là mi n bác b gi thuy t Ho và có di n tích là xác su t sai l m lo i 1 (5%). Gi thuy t Ho không th th hi n b ng b t ñ ng th c (Ho: RR>1 là sai) . Khi s d ng ki m ñ nh ý nghĩa chúng ta c n lưu ý các ñi m sau: .) và n u con s th ng kê này n m ngoài mi n x y ra ph bi n thì chúng ta s bác b gi thuy t Ho. Thí d ph n m m Epi-Info. ph n m m SPSS. giá tr p ñư c kí hi u là p-value.05). Vì v y n u chúng ta mu n ch ng minh hút thu c lá là y u t nguy cơ c a ung thư ph i thì ph i ñ t ra gi th. Nguyên t c ki m ñ nh ý nghĩa theo Fisher. Mi n n m ngoài mi n x y ra ph bi n c a s th ng kê ñư c g i mi n bác b . ñ xác ñ nh con s th ng kê T có n m trong mi n bác b hay không ngư i ta tính xác su t x y ra th ng kê c c ñoan hơn giá tr T n u gi thuy t Ho là ñúng (ñư c th hi n b ng công th c: P (>T |Ho) ). . Và n u giá tr p nh hơn ngư ng bác b nghĩa là th ng kê T n m trong vùng bác b và chúng ta có th bác b gi thuy t Ho. Giá tr p ñư c kí hi u khác nhau trên các ph n m m th ng kê. th ng kê chi bình phương.Gi thuy t Ho ph i th hi n b ng ñ ng th c (thí d như gi thuy t Ho: RR=1 hay Ho: ñi m trung bình v b nh lây truy n qua ñư ng tình d c nam thanh niên = ñi m trung bình v b nh lây truy n qua ñư ng tình d c n thanh niên ) thì m i có th tính ñư c phân ph i c a th ng kê. ph n m m Stata. t l . Hình 1.Ki m ñ nh d a trên nguyên t c ph n ch ng nghĩa là chúng ta ch có th bác b ch không th ch ng minh ñư c gi thuy t Ho.

v i m t xác su t nào ñó).xác su t sai l m lo i 2. ngư i nghiên c u có th b sai l m (sai l m lo i m t . t. giá tr p ñư c kí hi u như sau: P > |T| (n u ki m ñ nh t) P > |z| (n u ki m ñ nh z) Prob > chi2 (ki m ñ nh chi bình phương) Prob > F (Ki m ñ nh F. Năng l c c a ki m ñ nh th ng kê = 1 . Khi nhà nghiên c u không bác b gi thuy t H0. Ðôi khi ngư i ta còn s d ng khái ni m năng l c (power) c a ki m ñ nh th ng kê.các giá tr p thư ng ñư c kí hi u khác nhau tùy theo th ng kê ñư c s d ng là th ng kê gì. Trong nghiên c u th ng kê ngư i ta không bao gi có th ch c ch n. Sai l m lo i hai: Không bác b gi thuy t H0 trong khi gi thuy t H0 sai. M t ñi u nên nh là b ng ki m ñ nh th ng kê ngư i ta có th xác ñ nh ñư c xác su t sai l m lo i m t nhưng không th tính ñư c xác su t sai l m lo i hai mà ch có th tính ñư c d a vào ñ i thuy t Ha và c m u c a nghiên c u. Phaùt bieån H0 . Do v y. Ha Tính soá thoáng keâ (z. 16 . C th . Ki m ñ nh ANOVA) Ki m ñ nh gi thuy t Khuy t ñi m c a phương pháp ki m ñ nh ý nghĩa khi không bác b ñư c gi thuy t H0 chúng ta không bi t ñư c xác su t H0 ñúng là bao nhiêu.cũng v i m t xác su t nào ñó). M t nhà th ng kê h c khác tên là Neyman ñã ñ ra phương pháp ki m ñ nh gi thuy t trong ñó có xét ñ n sai l m lo i 2. F) Xaùc suaát sai laàm loaïi 1 Nhoû Khoâng nhoû tra baûng tính p Xaùc suaát sai laàm loaïi 2 Nhoû Khoâng nhoû Thöïc hieän nghieân cöùu vôùi côõ maãu lôùn hôn Baùc boû giaû thuyeát Chaáp nhaän giaû thuyeát Sai l m lo i m t và sai l m lo i hai Sai l m lo i m t: bác b gi thuy t H0 trong khi gi thuy t H0 là ñúng. Khái ni m năng l c c a th ng kê hay ñư c dùng trong tính c m u. khi nhà nghiên c u ñi ñ n k t lu n bác b gi thuy t H0. nhà nghiên c u cũng có th b sai l m (sai l m lo i hai . trong ph n m m Stata. chi2.

sai l m lo i 2 và giá tr ngư ng c a nó Chân lí là Ho ñúng (Không có s khác bi t) Bác b gi thuy t H0 Sai l m lo i (Xác su t = α) K t lu n (Xác su t = 1-α) Chân lí là Ha ñúng (Không có s khác bi t) lu n ñúng 1 K t (Xác su t = 1-β = Power c a nghiên c u) ñúng Sai l m (Xác su t = β) lo i II Không bác b gi thuy t H0 Ch n l a ki m ñ nh phù h p Như v y nguyên lí c a ki m ñ nh ý nghĩa (hay ki m ñ nh gi thuy t là như nhau). Vi c l a ch n này ph thu c vào bi n s c a v n ñ quan tâm và thi t k c a nghiên c u. Tóm t t v sai l m lo i 1.B ng 1. Các ki m ñ nh ch khác nhau vi c l a ch n th ng kê xu t phát t gi thuy t H0. 17 .

B ng 10.Danh ñ nh t-test không b tc p Phân tích phương sai Phân tích phương sai ño lư ng l pl i Cochrance Q H i quy tuy n tính và tương quan pearson H s c a b ng n x m (phi. OR. ña bi n (ho c th t ) H i quy tuy n tính TQ Spearman H i quy logistic H i quy Cox Wilcoxon t ng quát Wilcoxon t ng quát Logrank Logrank 18 . RR) h s tương quan Spearman χ2 b ng 2 x n χ2 b ng 3 x n test McNemar Ð nh tính -Th t (hay bi n ñ nh lư ng không bình thư ng) Ki m ñ nh t ng s p h ng MannWhitney KruskalWallis Ki m ñ nh s p h ng có d u Wilcoxon Friedman B ng 11. Ch n l a ki m ñ nh phù h p theo thi t k nghiên c u Lo i thi t k nghiên c u Hai nhóm ñi u tr g m các cá nhân khác nhau Ba (hay nhiêù) nhóm ñi u tr g m các cá nhân khác nhau Trư c và sau m t ñi u tr (ho c 2 ñi u tr ) trên cùng các ñ i tư ng t-test b t c p Nhi u ñi u tr trên cùng các ñ i tư ng Liên h gi a hai bi n s Thang ño c a bi n s ph thu c Ð nh lư ng (m u rút t m t dân s có phân ph i bình thư ng và phương sai hai nhóm ñ ng nh t Ð nh tính . Ch n l a ki m ñ nh phù h p ñ tìm s liên h gi a bi n ñ c l p và bi n ph thu c Bi n ph thu c Nh giá ð nh lư ng phân ph i bình thư ng Bi n ñ nh lư ng phân ph i không bình thư ng – Bi n th t Nh giá S ng còn T-test Mann-Whitney Chi bình phương Bi n ñ c l p Danh ñ nh (ho c th t ) ANOVA Kruskal-Wallis Chi bình phương ð nh lư ng.

Hãy so sánh trung bình c a phân áp oxy ñ ng m ch trư c và sau khi ñi u tr . Tilapur và Mir (Am J Med 1984. phù và tăng áp ph i) v i ch ñ ñi u tr b ng ch ñ ăn 600 Kcal và ghi nh n PaO2 (phân áp oxy ñ ng m ch) và PaCO2 (phân áp carbon dioxide ñ ng m ch) trư c và sau ñi u tr . gan l n. K t qu nghiên c u ñư c trình bày trong B ng 1. Các nhà nghiên c u này ti n hành th c nghi m trên 8 ngư i suy hô h p mãn tính (có d u hi u c a tim l n. 77:987) cho r ng ch ñ ăn gi m carbonhydrate có th c i thi n tình tr ng hô h p. 19 .Phép ki m t b t c p Tiên lư ng c a b nh nhân suy hô h p mãn tính tăng carbonic thư ng kém (t l t vong trong 3 năm thay ñ i t 30% ñ n 100%) và hi n t i chưa có phương pháp ñi u tr h u hi u.

de Champlain (Circ Res 1976.002397687. 20 .63.66 s/ n Bư c 4: tính xác su t c a giá tr th ng kê t ð tính xác su t c a giá tr th ng kê t ta s d ng hàm tdist(giá tr t. K t qu c a nghiên c u ñư c trình bày trong b ng 2. Bư c 5: K t lu n Vì giá tr p= 0.63 7 ñ t do chúng ta ñánh công th c "=tdist(4. 2).2. 2) vào m t ô. Hãy so sánh nh p tim hai nhóm. ghi nh n nh p tim.5. Phân áp Oxy ñ ng m ch và phân áp CO2 ñ ng m ch trên 8 ñ i tư ng trư c và sau ch ñ ñi u tr v i ch ñ ăn gi m carbonhydrate ð i tư ng 1 2 3 4 5 6 7 8 Pa02 trư c 70 59 53 54 44 58 64 43 Pa02 sau 82 66 65 62 74 77 68 59 Hi u s 12 7 12 8 30 19 4 16 PaC02 trư c 49 68 65 57 76 62 49 53 PaC02 sau 45 54 60 60 59 54 47 50 Hi u s -4 -14 -5 3 -17 -8 -2 -3 Th c hành: Bư c 1: Xây d ng gi thuy t Ho: Ho: Phân áp oxy ñ ng m ch trư c và sau ñi u tr không thay ñ i Bư c 2: Ch n ki m ñ nh phù h p Ki m ñ nh phù hơp là ki m ñ nh t b t c p v i 7 ñ t do Bư c 3: Tính th ng kê t Tính trung bình và ñ l ch chu n c a bi n s d (hi u s c a phân áp oxy ñ ng m ch trư c và sau ñi u tr ) ñ tính th ng kê t d = 4. d = 13. C th ñ tính p tương ng v i giá tr t = 4.002397687 nh hơn 0.B ng 1. t = Phép ki m t (không b t c p) Nh m tìm hi u vai trò c a catecholamine trong tăng huy t áp vô căn. ñ t do. huy t áp tâm thu. K t qu ta ñư c giá tr p= 0. nhóm có tăng catecholamine và nhóm không tăng catecholamine. 38:109) nghiên c u 22 bênh nhân tăng huy t áp vô căn (g m 13 ngư i có n ng ñ catecholamine cao và 9 bình thư ng). 7. huy t áp tâm trương. sd = 8.05 nên chúng ta bác b gi thuy t Ho nghĩa là phân áp oxy ñ ng m ch có c i thi n sau khi ñi u tr .

133 x=90.0 s=8.05) Bư c 5: K t lu n Vì giá tr p= 0. 282:283) mu n tìm hi u xem m c hemoglobin trong 3 nhóm b nh h ng càu li m có khác nhau hay không b ng cách ghi nh n m c hemoglobin 3 nhóm b nh nhân.024123071 nh hơn 0.2 x=147.6 s=12.7 s=11.060 x=77. Phân tích phương sai Anionwo et al. Trung bình và ñ l ch chu n c a Lu ng catecholamine huy t thanh.3 Không tăng 9 x=0. nh p tim.5 x=171.7 x=103. BMJ.8 s=13.44 s 1 / n1 + 1 / n2 Bư c 4: tính xác su t c a giá tr th ng kê t S d ng máy vi tính chúng ta tính ñư c giá tr p= 0.3 s=13.21 (n1 − 1) + (n2 − 1) nhóm (ð d nh công th c tính ñ l ch chu n g p chúng ta c n lưu ý phương sai g p là trung bình c a phương sai c a m i nhóm v i tr ng s là ñ t do c a phương sai ñó) Sau ñó chúng ta tính th ng kê t ( x1 − x2 ) t= = 2.484 s=0. huy t áp tâm thu và huy t áp tâm trung 13 b nh nhân tăng huy t áp tăng catecholamine và 9 b nh nhân tăng huy t áp không tăng catecholamine Tăng catecholamine S b nh nhân catecholamine huy t thanh (ug/mL) Nh p tim Huy t áp tâm thu Huy t áp tâm trương 13 x=0.024123071 (n u s d ng b ng s th ng kê chúng ta s tìm ñư c p <0. 21 .9 Th c hành: Bư c 1: Xây d ng gi thuy t Ho: Ho: Trung bình nh p tim nhóm b nh nhân có tăng catecholamine = nh p tim trung bình b nh nhân không tăng catecholamine Bư c 2: Ch n ki m ñ nh phù h p Ki m ñ nh phù hơp là ki m ñ nh t v i (n1+n2-2) = 20 ñ t do Bư c 3: Tính th ng kê t Trư c tiên chúng ta ph i tính ñ l ch chu n g p sp = 2 (n1 − 1) s12 + (n2 − 1) s2 = 12.9 x=95.206 s=0. (1981.B ng 1.05 nên chúng ta bác b gi thuy t Ho nghĩa là gi a hai nhóm b nh nhân có s khá bi t v nh p tim trung bình.4 s=9.

12.844 Giá tr c a các cá th hemoglobin g% (x) 7.1. 12. 12.4.B ng 7.3. 10.7. 11.6.6.03 . 11.96 1.1.942 Hãy s d ng ki m ñ nh th ng kê phù h p ñ so sánh n ng ñ Hemoglobin trung bình b nh nhân b h ng c u li m. 7. (1981) British Medical Journal.4.3. S li u t Anionwo et al. 283-6 (a) S li u Lo i b nh h ng c u S b nh Trung bình li m nhân (ni) (xi) Hb SS 16 8.9 3 nhóm Hb thalassaemia Hb SC S/b- 10 15 10. 11.9. 9. 8. MS=SS/d.92 22 .001 Gi a các nhóm Trong các nhóm T ng c ng 99. F t i h n= 3.3.0. 12.92 37.300 1. 10.1.71252+10 × 10. 8.3002 .4. 12.85 2 38 40 49. 9.3.6. 9.63002+15 × 12.38) ñ t do .0.1 10.00 Các giá tr trên có th tính theo công th c sau: Gi a các nhóm SSb= Σ ni×(xi-x)2= Σ nixi2-(Σx)2/N = 16 × 8. 13.6. 13. 10.1.s nhóm) = (2.d.1.8. 11.32 Bư c 3: L p b ng ANOVA và Tính th ng kê F Chúng ta l p thành b ng phân tích phương sai như sau: Ngu n bi n thiên SS d.1.7. 282.712 s. 11.7.f.8. 10. 9.f. 8.95 137. 10. MS gi a các nhóm F= ---------------------------MS bên trong nhóm 50. 10.0. 11. 11. P<0. 12.8. (si) 0. 13.7.6.8.284 0.5. Phân tích phương sai m t chi u: s khác bi t trong n ng ñ hemoglobin gi a các b nh nhân b các lo i b nh h ng c u li m khác nhau. 9.5.3 8.1.22/41=99. 8. 8.630 13.2.0. 12.9. 8. s quan sát . Th c hành: Bư c 1: Xây d ng gi thuy t Ho: Ho: Trung bình N ng ñ hemoglobin 3 nhóm b nh HC li m b ng nhau Bư c 2: Ch n ki m ñ nh phù h p Ki m ñ nh phù h p là phương pháp phân tích phương sai (ANOVA) v i th ng kê F v i (s nhóm. 8. 13.430.1. 8.2.

28412 + 14 x 0. giá tr kì v ng c a ô c Ec = (a+b) × (c+d) /N) 23 . Và giá tr th ng kê F F = MSb/MSw Bư c 4: tính xác su t c a giá tr th ng kê F D a vào máy tính chúng ta tính ñư c giá tr p= 2.k = 41-3 = 38 MSw = SS/d.26 x 10-11. Phép ki m chi bình phương Có 240 ngư i ñư c tiêm vaccine phòng b nh cúm và 220 ngư i ñư c tiêm placebo.9419 = 37.Tính các giá tr kì v ng (E) các ô.4%) 100 Không m c T ng a c a+c 220 140 360 b d b+d 240 220 460 a+b c+d N ð tính th ng kê chi bình phương có hai cách: Phương pháp chính th c: .f.f. Hãy so sánh t l m c cúm gi a 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho bi t m c ñ liên h gi a vaccine cúm và b nh cúm? Th c hành Bư c 1: Xây d ng gi thuy t Ho: Ho: T l m c cúm nhóm tiêm vaccine = t l m c cúm nhóm không tiêm vaccine Bư c 2: Ch n ki m ñ nh phù h p Ki m ñ nh phù h p là ki m ñ nh chi bình phương v i 1 ñ t do Bư c 3: L p b ng 2 x 2 và Tính th ng kê chi bình phương L p b ng 2 x 2 như sau K t qu Tiêm ch ng Có Placebo T ng M c b nh cúm 20 (8.84452 + 9 x 1. giá tr kì v ng c a m t ô b ng tích các ô biên chia cho t ng s chung (thí d giá tr kì v ng c a ô a Ea = (a+b) × (a+c) /N. Chúng ta cũng có th d a vào b ng th ng kê F ñ tìm ñư c p <0. Trong nhóm tiêm vaccine có 20 ngư i b cúm và trong nhóm tiêm placebo có 80 ngư i b cúm.96 dfw= N .3%) 80 (36.dfb = k-1 = 2 MSb = SS/d.001 Bư c 5: K t lu n Vì giá tr r t nh nên chúng ta bác b gi thuy t Ho nghĩa là ba nhóm b nh nhân b nh h ng c u li m có giá tr hemoglobin trung bình khác nhau có ý nghĩa th ng kê. Trong các nhóm SSw = Σ (ni -1)si2 =15 x 0.

Bư c 5: K t lu n Vì giá tr r t nh nên chúng ta bác b gi thuy t Ho.8 187.86 + 21. Chúng ta có th k t lu n t l m c cúm nhóm tiêm vaccine th p hơn có ý nghĩa th ng kê so v i nhóm tiêm placebo.2 47.8 172.8) 2 (220 − 187.8) 2 (140 − 172.09 Công th c tính t t cho b ng 2 × 2 χ2 = (ad − bc) 2 N (a + b)(a + c)(c + d )(b + d ) Bư c 4: tính xác su t c a giá tr th ng kê χ2 S d ng máy vi tính chúng ta ñư c giá tr p= 3. = (soá haøng .001. d .2) 2 (80 − 47. Gi s s li u c a b ng 2 x2 n m vùng C2:D3 chúng ta có th tính RR b ng cách nh p công th c "=MHRR(C2:D3)" ta ñư c RR=0. S d ng b ng s chúng ta bi t ñư c p < 0.1) E Trong thí d này χ2 = Σ χ2 = (20 − 52. f .69 + 5.2 = 19..15 ñ n 0.2) 2 + + + 52.Tính giá tr chi bình phương theo công th c (O − E ) 2 . S tương quan c a hai bi n s ñ nh tính M c ñ liên h gi a tiêm ch ng vaccine và m c b nh cúm M c ñ liên h gi a hai bi n s ñ nh tính ñư c ư c lư ng b ng cách s d ng RR (ho c OR n u trong nghiên c u b nh ch ng). K t qu Bi n s nhi m phơi Phơi nhi m Không nhi m T ng phơi M c b nh Không b nh m c T ng a1 ao a1+a0 b1 b0 b1+b0 N1 N0 N=N1+N0 T s nguy cơ (RR) là t s c a nguy cơ c a nhóm phơi nhi m trên nguy cơ c a nhóm không phơi nhi m: RR = (a1/N1)/(a0/N0) Kho ng tin c y 95% c a t s nguy cơ: 24 .52 + 6.02 = 53.1) × (soá coät .31 x 10-13 nghĩa là giá tr c a p r t nh .36 So sánh t l c a bi n s nh giá : Ki m ñ nh chi-bình phương Khi hai bi n s là bi n s nh giá ngư i ta s d ng giá tr RR hay OR ñ ño lư ng m c ñ liên h (xem l i ph n các s ño d ch t ).23 v i kho ng tin c y 95% c a RR t 0.

ðây là bài toán so sánh t l c a m t bi n s ñ nh tính hai nhóm và ñư c gi i quy t b ng ki m ñ nh chi bình phương.87 ñ n 27.RR × ÷e 1. Hãy tìm ư c lư ng s ño liên h gi a ăn th t và viêm ru t ho i t . 96× 1 1 1 1 − + − a1 N1 a0 N 0 1± 1. Hãy so sánh t l m c cúm gi a 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho bi t m c ñ liên h gi a vaccine cúm và b nh cúm? 25 . Table 5.85 Bài t p Có 240 ngư i ñư c tiêm vaccine phòng b nh cúm và 220 ngư i ñư c tiêm placebo. RR = (a1/b1)/(a0/b0) Kho ng tin c y 95% c a t s s chênh: OR × ÷e Bài t p M t nghiên c u b nh ch ng nh m tìm m i liên h gi a s ăn th t và viêm ru t ho i t ñã tìm ñư c 61 trư ng h p viêm ru t ho i t và 57 trư ng h p ch ng. 96× 1 1 1 1 + + + a1 b1 a0 b0 Ăn th t trong th i gian g n ñây Nhóm b nh Nhóm ch ng T ng s 50 16 66 Không ăn th t trong th i gian g n ñây 11 41 52 T ng s 61 57 118 a1 a0 b1 b0 N u t l ăn th t nhóm b nh (50/61) cao hơn t l ăn th t trong nhóm ch ng (16/57) có ý nghĩa th ng kê thì chúng ta có th k t lu n r ng có s liên quan gi a ăn th t và viêm ru t ho i t . Trong nhóm tiêm vaccine có 20 ngư i b cúm và trong nhóm tiêm placebo có 80 ngư i b cúm. Trong trư ng h p nghiên c u b nh ch ng t s s chênh là t s c a s chênh phơi nhi m c a nhóm b nh trên s chênh phơi nhi m nhóm không ch ng.96 hay RR χ2 (test-based CI) T s s chênh (OR) là t s c a s chênh m c b nh c a nhóm phơi nhi m trên s chênh m c b nh nhóm không phơi nhi m.65 và kho ng tin c y 95% c a OR = 4. S d ng công th c tính OR và kho ng tin c y c a OR ta ñư c: OR = (a1/b1)/(a0/b0) = (a1 × b0)/(a0 × b1) = 11. Trong nhóm b viêm ru t ho i t có 50 trư ng h p có ti n căn ăn th t (g n ñây) và trong nhóm ch ng có 16 trư ng h p có ti n căn ăn th t. S liên h gi a ăn th t trong th i gian g n ñ u và viêm ru t ho i t (OR=11. Tuy nhiên b ng vi c ki m ñ nh gi thuy t chúng ta ch xác ñ nh có m i liên h mà không bi t ñ l n c a s liên h . B i vì ñây là nghiên c u b nh ch ng chúng ta không tính ñư c RR mà ph i s d ng OR ñ ño lư ng s c m nh liên h .6) Papua New Guinea 1.

2b) . 26 . N u chúng có giá tr dương có nghĩa là hai bi n s ñ ng bi n v i nhau.Bình phương c a h s tương quan (r2) th hi n t l bi n thiên c a bi n s ph thu c ñư c gi i thích b ng s bi n thiên c a bi n s ñ c l p (n u m i liên h này là nhân qu ) . Giá tr tuy t ñ i c a h s tương quan càng g n m t nghĩa là hai bi n s có liên h ch t v i nhau và vai trò c a sai s ng u nhiên s ít hơn.N u r=0. N u tr tuy t ñ i c a r b ng 1 (r=1 hay r=-1).5 quan h trung bình và trên 0.Tr s tuy t ñ i c a h s tương quan r nói lên m c ñ liên quan gi a hai bi n s .Theo quy ư c. N u tr tuy t ñ i c a r nh hơn 1 s có các ñi m s li u phân tán chung quanh ñư ng h i quy (hình 9. N u chúng có giá tr b ng zero có nghĩa là hai bi n s ñ c l p và không quan h gì v i nhau.15 ñ n 0.23 Kho ng tin c y 95% c a t s nguy cơ: RR × ÷e 1.K t qu Tiêm ch ng Có Placebo T ng M c b nh cúm 20 (8.2 d và 9.H s tương quan r dương ch ng t hai bi n s là ñ ng bi n.2a) (2) m i liên h gi a hai bi n s không ph i là tuy n tính (hình 9. Lo i h s tương quan ñư c s d ng ph bi n nh t là h s tương quan Pearson r: r= ∑ ( x − x )( y − y ) ∑ (x − x) ∑ ( y − y) i i 2 i i 2 = (Σxy ) / n − x × y n × σ x ×σ y n −1 Lí gi i ý nghĩa c a h s tương quan Pearson . Ði u này có nghĩa là (1) không có m i liên h gì gi a hai bi n s ho c (hình 9.4%) 100 220 460 N0 N Ta tính ñư c RR = (a1/N1)/(a0/N0) = (20/240)/(80/220) = 0. nhưng chúng ñ u có giá tr t -1 ñ n 1.3 là quan h y u.2e).H s tương quan luôn luôn n m trong ño n [-1. h s tương quan r âm ch ng t hai bi n s là ngh ch bi n.2f). không có m i liên h tuy n tính gi a hai bi n s .1] . 96× 1 1 1 1 − + − a1 N1 a0 N 0 = 0.1 ñ n 0. . t 0. quan h v i r t 0.36 Quan h gi a hai bi n s ñ nh lư ng Tương quan Tương quan là s ño m c ñ hai bi n s ñ nh lư ng cùng thay ñ i v i nhau.3 ñ n 0. . Có nhi u lo i h s tương quan. quan h hoàn toàn tuy n tính nghĩa là t t c các ñi m n m trên ñư ng h i quy (Hình 9. Khi tr tuy t ñ i c a h s tương quan b ng m t có nghĩa là hoàn toàn không có sai s ng u nhiên.3%) Không m c 220 140 360 T ng a1 b1 d 240 N1 80 a0 (36.2 c và 9.5 là quan h m nh. n u chúng có giá tr âm nghĩa là hai bi n s ngh ch bi n.

Như v y có m i liên quan thu n gi a lư ng mu i ăn và huy t áp tâm thu.8 mmHg + 1.55 x Lư ng mu i. M i liên quan này là m nh và lư ng mu i ăn gi i thích cho ñ n 60% (0.85: h s c a h ng s . Chúng ta cũng tìm ñư c phương trình c a huy t áp theo lư ng mu i tiêu th s là: Huy t áp tâm thu = 99.18 × tháng tu i (phương trình h i quy tính cân n ng c a tr t 9 ñ n 40 tháng tu i theo tháng tu i) theo phương trình này ngư i ta g i: cân n ng: bi n s ph thu c tháng tu i: bi n s ñ c l p 6. 27 . Th c hành ð tìm s liên h gi a hai bi n s ñ nh lư ng chúng ta s d ng h s tương quan.18: h s c a bi n s tháng tu i.771829.77 × 0. ð i tư ng Lư ng mu i Huy t áp 1 2 3 4 5 5 10 12 18 20 110 120 110 120 140 Hãy tìm m i liên h gi a huy t áp tâm thu và lư ng mu i s d ng.H i quy H i quy là m t mô hình toán h c mô t s bi n ñ i c a m t bi n s này theo nh ng bi n s khác. M t phương trình h i quy có th có d ng như sau: cân n ng (kg) = 6. b2.77) s thay ñ i c a huy t áp tâm thu. hay còn g i là ñi m ch n (intercept) 0. x3 là các bi n s ñ c l p b0: ñi m ch n c a phương trình b1.85 + 0. M t cách t ng quát phương trình h i quy s có d ng: Y = b0 + b1 x1 + b2 x2 + b3 x3 V i y là bi n s ph thu c x1. x2. D a vào công th c ta tính ñư c r = 0. b3 : h s c a các bi n s ñ c l p H s c a bi n s ñ c l p nói lên n u bi n s ñ c l p tăng m t ñơn v thì bi n s ph thu c y s thay ñ i bao nhiêu. Bài t p 1. M t nhà nghiên c u ghi nh n lư ng mu i ăn và huy t áp tâm thu c a 5 ñ i tư ng trong b ng 4. C th hơn n u bi n s x2 thay ñ i m t ñơn v thì bi n s y s tăng giá tr là b2 (bi n s y s gi m n u giá tr b2 âm).

Tr ng lư ng sơ sinh theo tu i thai (tu n) c a 641 tr sinh do th thai trong ng nghi m Anh qu c 5000 4000 trong luong tre 3000 2000 1000 0 20 24 28 32 tuoi thai 36 40 44 28 .Giá tr 99. 2.55 mmHg.55 là h s góc c a bi n s lư ng mu i tiêu th . Lý gi i ý nghĩa c a phân tán ñ sau Figure 8. ði u này có nghĩa là n u lư ng mu i ăn tăng thêm 1 gram/ngày thì huy t áp tâm thu s tăng trung bình 1.8 ñư c g i là ñi m ch n c a phương trình h i quy và 1.

s li u m u và các chương trình có liên quan 1.exe" ( m t s máy khi không cho phép hi n ph n m r ng c a tên t p tin. 29 .Cài ñ t chương trình Stata 10. c a s chào m ng (Welcome) s hi n ra Nh p vào nút l nh Next ñ sang c a s ti p theo ñ ch n thư m c c a nơi cài ñ t (Choose destination location). Cài ñ t chương trình Stata và s li u m u Có nhi u cách ñ cài ñ t chương trình Stata 10. tên t p tin ch hi n ra là Setup_Stata10) .0 t t p tin "Setup Stata 10 and Data.Tìm t p tin "Setup Stata 10 and Data. Dư i ñ y s trình bày cách cài ñ t chương trình Stata/SE 10.0.Nh p ñúp vào t p tin này (hay nh p chu t ñ ch n t p tin này và sau ñó nh n phím Enter). Và ti p theo.exe" (có th t i xu ng t website c a khoa Y t công c ng ð i H c Y dư c TP H Chí Minh hay chép t ñĩa CD c a b môn Th ng kê Y h c) . T p tin này s th c hi n vi c kh i ñ ng cài ñ t trong vòng vài giây.

nh p vào nút l nh Browse r i sau ñó ch n thư m c phù h p trư c khi nh p vào nút l nh Next. N u chúng ta mu n ti p t c cài ñ t thì c n ph i quy t ñ nh thư m c c a nơi cài ñ t (Destination Directory). chúng ta cũng nên cài ñ t thư m c này b ng cách ñ nguyên tên thư m c n m trong h p văn b n Destination Directory r i nh p Next. Gi s chúng ta ti p t c cài ñ t và ch n thư m c nơi cài ñ t m c ñ nh (C:\Program Files) thì c a s cài ñ t (Setup) s hi n ra và cho ti p ti n ñ c a vi c th c hi n cài ñ t. 30 . Sau quá trình cài ñ t c a s hoàn t t (Finised) s hi n ra. N u mu n cài ñ t vào thư m c khác.N u bư c này n u chúng ta quy t ñ nh không cài ñ t n a hãy nh p vào nút l nh Cancel ñ thoát kh i chương trình cài ñ t. Theo m c ñ nh thư m c c a nơi cài ñ t s là C:\Program Files và n u không có ý ñ nh gì ñ t bi t.

Tìm t p tin "Setup Data.exe" (hay nh p chu t ñ ch n t p tin này và sau ñó nh n phím Enter). các b n nên có các t p tin s li u m u. T p tin này s th c hi n vi c kh i ñ ng cài ñ t trong vòng vài giây. chương trình cài ñ t s t o ra m c chương trình Stata 10 trong nhóm chương trình MediStat. Cài ñ t t p tin s li u m u ð có th th c t p các bài t p có trong tài li u này.Nh p ñúp vào t p tin "Setup Data. Do ñó vi c cài ñ t t p tin s li u m u ch nên th c hi n khi các s li u m u vì m t lí do gì ñã b xóa ñi ho c hư h ng. 31 .exe (có th t i xu ng t website c a khoa Y t công c ng ð i H c Y dư c TP H Chí Minh hay chép t ñĩa CD c a b môn Th ng kê Y h c) .Chúng ta hãy nh p vào nút l nh Close c a c a s hoàn t t ñ k t thúc quá trình cài ñ t. Sau quá trình cài ñ t. tên t p tin ch hi n ra là Data_Stata10) . các d u :: th hi n s di chuy n (navigate) c a con tr chu t. Cài ñ t t p tin s li u m u c n ñòi h i t p tin Data_Stata10. chúng ta nh p chu t vào nút l nh Start c a h ñi u hành Windows và sau ñó ch vào Alls Program và sau ñó di chuy n (navigate) ñ n nhóm chương trình MediStat r i nh p vào m c chương trình Stata 10. 2. Vi c cài ñ t Stata 10 cũng ñ ng th i cài ñ t các t p tin s li u m u vào thư m c Data n m trong thư m c Stata 10 c a thư m c nơi cài ñ t. Khi b n cài ñ t chương trình Stata 10 theo cách k trên thì các t p tin s li u m u ñã ñư c ñưa vào thư m c C:\Data và các b n không c n ph i thao tác gì thêm ñ có t p tin s li u m u nh m th c t p.exe" ( m t s máy khi không cho phép hi n ph n m r ng c a tên t p tin. ði u này có nghĩa sau khi cài ñ t ñ kh i ñ ng chương trình Stata trong Windows. Vi c th c hi n toàn b quá trình kh i ñ ng chương trình Stata ñư c th hi n tóm t t như sau Start :: Alls Program :: MediStat :: Stata 10 (Chú ý nút l nh ñ u tiên và m c cu i cùng là ñi m c n ph i nh p chu t.

N u chúng ta mu n ti p t c cài ñ t thì c n ph i quy t ñ nh thư m c c a nơi cài ñ t (Destination Directory). nh p vào nút l nh Browse r i sau ñó ch n thư m c phù h p trư c khi nh p vào nút l nh Next. N u bư c này n u chúng ta quy t ñ nh không cài ñ t n a hãy nh p vào nút l nh Cancel ñ thoát kh i chương trình cài ñ t. Theo m c ñ nh thư m c c a nơi cài ñ t s là C:\Program Files và n u không có ý ñ nh gì ñ t bi t. N u mu n cài ñ t vào thư m c khác. Khi ñó sau khi cài ñ t t p tin s li u m u s n m thư m c C:\Data. chúng ta cũng nên cài ñ t thư m c này b ng cách ñ nguyên tên thư m c n m trong h p văn b n Destination Directory r i nh p Next. 32 .Ti p theo là c a s Choose Destination Location s hi n ra. Sau khi th c hi n xong vi c cài ñ t chương trình s t ñ ng ñóng l i. Gi s chúng ta ti p t c cài ñ t và ch n thư m c nơi cài ñ t m c ñ nh (C:\Program Files) thì c a s cài ñ t (Setup) c a chương trình Data Stata 10 s hi n ra và cho ti p ti n ñ c a vi c th c hi n cài ñ t.

Choose Destination Location N u bư c này n u chúng ta quy t ñ nh không cài ñ t n a hãy nh p vào nút l nh Cancel ñ thoát kh i chương trình cài ñ t. Sau ñây là hư ng d n cài ñ t chương trình StatTransfer 7. T p tin này s th c hi n vi c kh i ñ ng cài ñ t trong vòng vài giây. N u chúng ta mu n ti p t c cài ñ t thì c n ph i quy t ñ nh thư m c c a nơi cài ñ t (Destination Directory). Theo m c ñ nh thư m c c a nơi cài ñ t s là C:\Program Files\StatTransfer7 và n u không có ý ñ nh gì ñ t bi t.0 s d ng t p tin StatTransfer7Setup. Ti p theo các c a s Welcome. tên t p tin ch hi n ra là StatTransfer7Setup) . Epi-Info for Windows. Access hay Excel nhưng chúng ta l i mu n phân tích s li u b ng Stata chúng ta c n ph i s d ng chương trình chuy n ñ i s li u như DBMSCopy for Win hay StatTransfer.exe" ( m t s máy khi không cho phép hi n ph n m r ng c a tên t p tin. 33 .3.Tìm t p tin "StatTransfer7Setup.exe (có th t i xu ng t website c a khoa Y t công c ng ð i H c Y dư c TP H Chí Minh hay chép t ñĩa CD c a b môn Th ng kê Y h c) . Cài ñ t chương trình chuy n ñ i s li u ðôi khi chúng ta có s li u ñư c nh p b ng chương trình Epi-Info 6.04.Nh p ñúp vào t p tin này (hay nh p chu t ñ ch n t p tin này và sau ñó nh n phím Enter). chúng ta cũng nên cài ñ t thư m c này b ng cách ñ nguyên tên thư m c n m trong h p văn b n Destination Directory r i nh p Next.

Sau khi cài ñ t chương trình StatTransfer.N u mu n cài ñ t vào thư m c khác. Gi s chúng ta ti p t c cài ñ t và ch n thư m c nơi cài ñ t m c ñ nh (C:\Program Files\StatTransfer7) thì c a s Ready to Install s hi n ra. Nh p vào nút l nh Next ñ ti p t c. c a s cài ñ t (Setup) s hi n ra và cho ti p ti n ñ c a vi c th c hi n cài ñ t. c a s Finished s hi n ra. nh p vào nút l nh Browse r i sau ñó ch n thư m c phù h p trư c khi nh p vào nút l nh Next. 34 .

ði u này có nghĩa sau khi cài ñ t ñ kh i ñ ng chương trình StatTransfer7 trong Windows. Sau quá trình cài ñ t. chương trình cài ñ t s t o ra m c chương trình st32w trong nhóm chương trình MediStat. chúng ta nh p chu t vào nút l nh Start c a h ñi u hành Windows và sau ñó ch vào Alls Program và sau ñó di chuy n (navigate) ñ n nhóm chương trình MediStat r i nh p vào m c chương trình st32w.Chúng ta hãy nh p vào nút l nh Close c a c a s hoàn t t ñ k t thúc quá trình cài ñ t. Vi c th c hi n toàn b quá trình kh i ñ ng chương trình Stata ñư c th hi n tóm t t b ng hư ng d n sau Start :: Alls Program :: MediStat :: st32w (Chú ý nút l nh ñ u tiên và m c cu i cùng là ñi m c n ph i nh p chu t. các d u :: th hi n s di chuy n (navigate) c a con tr chu t. 35 .

0 36 .Kh i ñ ng và k t thúc Stata 1. Kh i ñ ng Stata ð kh i ñ ng Stata trong Windows XP hãy th c hi n • • • • Nh p chu t vào Start Nh p chu t vào “All Programs” Di chuy n chu t thư m c MediStat và Nh p chu t vào m c Stata 10 Ho c n u ñã có bi u tư ng c a Stata trên desktop c a máy tính có th kh i ñ ng Stata b ng cách nh p ñúp chu t vào bi u tư ng c a Stata 10 (Stata icon) Ngư i dùng s nhìn th y màn hình như sau khi kh i ñ ng Stata 10.

lic. Trong trư ng h p này ngư i s d ng c n liên h v i công ty Stata ñ có ñư c s hi u (serial number) mã chương trình (code) và chìa khoá ch quy n (Authorization key). Ki m tra tính h p l c a Stata Trong l n kh i ñ ng Stata ñ u tiên. Cũng có th x y ra trư ng h p ngư i s d ng ñã m khoá r i nhưng do vô ý ñã xoá file Stata. Trong trư ng h p này có th chép l i t p tin Stata. 2. nguyên nhân thông thư ng nh t là ngư i s d ng chưa ñăng kí và m khoá ñ s d ng Stata. verinst Stata/SE 10.N u màn hình Stata không kh i ñ ng ñư c. Gi s n u chúng ta thay ñ i c u hình c a máy tính và không 37 . Hãy gõ l nh verinst và b n s th y k t xu t tương t như sau: .lic c a ngư i ñã có khóa h pl .0 for Windows Born 25 Jul 2007 Copyright (C) 1985-2007 Total physical memory: 1038712 KB Available physical memory: 191512 KB Unlimited-user Stata for Windows (network) perpetual license: Serial number: 56437637415 Licensed to: Khoa Y te Cong cong Dai hoc Y Duoc L nh verinst là m t l nh c n nh . b n có th mu n ki m tra r ng b n ñã cài ñ t ñúng.

Gõ l nh exit trong c a s Stata Command.0 for Windows chúng ta có th th c hi n m t trong 2 vi c sau: . Thí d t p tin s li u. máy tính s h i chúng ta r ng chúng ta có mu n thoát mà không lưu l i s li u hay không. N u chúng ta ñ ng ý thì Stata s thoát.000 1. t p tin chương trình. Intercooled Stata và Stata b n ñ c bi t (Stata SE) Stata cho Windows và Stata cho Macintosh có hai ki u: Stata nh và Intercooled Stata (trên h ñi u hành Unix ch có Intercooled Stata). 3. n u không thì chúng ta l i tr l i Stata ñ chúng ta có th lưu l i s li u. Trong trư ng h p này n u chúng mu n thoát mà không lưu l i s li u thì chúng ta hãy gõ exit. Ngay c các t p tin cũng có th chia x .v. clear. 4. v.648 38 .000 99 200 40 1. Thoát kh i Stata ð thoát kh i Stata/SE 10. Lưu ý: Trong trư ng h p có d li u trong b nh và d li u ñó ñã ñư c thay ñ i nhưng chưa ñư c lưu vào ñĩa thì khi chúng gõ exit.Nh p vào ô ñóng n m phía trên ph i c a c a s Stata Lưu ý: Trong trư ng h p có d li u trong b nh và d li u ñó ñã ñư c thay ñ i nhưng chưa ñư c lưu vào ñĩa thì khi chúng nh p vào ô ñóng. máy tính s không ñ ng ý cho chúng ta thoát và s thông báo “no. data in memory would be lost”. N u chúng ta mu n lưu l i s li u hãy s d ng l nh save. Các lo i hình c a Stata Có m t s lo i hình c a Stata ch y trên các h ñi u hành khác nhau: Stata cho Windows 98/95/NT. . Tuy nhiên b t k b n dùng lo i hình Stata nào. Stata cho Windows 3. Stata v n là Stata và b n có th s d ng cùng m t câu l nh và Stata s cho ra cùng m t k t qu . chúng ta có th gõ verinst ñ ñư c tr n an r ng Stata v n còn ñư c cài ñ t ñúng. Stata cho RS/6000. Sau ñây là s khác bi t gi a v gi i h n kích thư c gi a Intercooled Stata và Stata nh Stata nh S quan sát S các bi n s Chi u r ng s li u Kích thư c ma tr n t i ña S kí t trong m t macro S kí t trong m t dòng l nh 1.bi t mình ñã làm t n thương cho Stata hay không. 5. t p tin ñ ho c a Stata cho Macintosh có th dùng trên các máy tính khác mà không c n ph i chuy n ñ i. Stata cho Power Macintosh.1. Stata cho 680x0 Macintosh. Stata nh .192 800 18. Stata cho Linux. chính xác ñ n s l t n cùng.632 18. C hai ki u Stata này ñ u có nh ng nét chung nhưng Intercooled Stata có th làm vi c v i t p tin d li u l n hơn và nhanh hơn.100 Intercooled Stata Tuỳ thu c vào b nh 2. Tuỳ theo lo i máy Intercooled Stata có th nhanh hơn Stata nh t 50 ñ n 600%.047 8.

about Stata/SE 10.0 cho Windows. Intercooled Stata s s d ng b nh ñ có th ghi nh k t qu t m th i là ma trân T=RZ r i sau ñó tính TR’.T i sao Intercooled Stata ch y nhanh hơn Stata nh ? ði u này là do s khác bi t trong vi c l p chương trình.0 for Windows Born 25 Jul 2007 Copyright (C) 1985-2007 Total physical memory: 1038712 KB Available physical memory: 192392 KB Unlimited-user Stata for Windows (network) perpetual license: Serial number: 56437637415 Licensed to: Khoa Y te Cong cong Dai hoc Y Duoc Như v y. vi c s d ng Intercooled Stata và Stata nh không có gì khác bi t. 39 . N u Stata ñã ñư c cài ñ t và b n mu n bi t b n ñang dùng Stata gì thì có th gõ l nh about: . Dù sao. và do ñó m t s k t qu trung gian ph i tính toán l i nhi u l n và ñi u này làm Stata nh b ch m . s khác bi t c a Intercooled Stata và Stata nh mang tính kĩ thu t và n i b . Stata nh do không có th s d ng nhi u b nh nên ph i tính toán tr c ti p RZR’. ñ i v i ngư i dùng. chúng ta ñang s d ng Stata Phiên b n ñ c bi t 10. Thí d ñ có tích s c a các ma tr n RZR’.

10-Data Browser. Thanh tiêu ñ v i dòng ch "Intercooled Stata 6. 6.Do-file Editor.Break) Ý nghĩa c a t ng công c như sau: 1.Print Results.Bring results window to Front 7-Bring graph windows to Front.Begin (Close) log.Save (Lưu t p tin) 3. 9-Data Editor.0" 2.Open file. 8.Print Results (In k t qu ) 4.Open file (m t p tin) 2.Kh i ñ ng Stata 1.Condition và 12. 3. Kh i ñ ng Stata Kh i ñ ng chương trình STATA b ng cách nh p vào nút Start :: All Programs :: Medistat :: Stata 10 ho c nh p vào bi u tư ng (icon) Stata 10 trên màn hình Desktop.Start Viewer (Bring Viewer to Front) : B t ñ u s d ng c a s Viewer 7-Bring graph windows to Front (ðưa c a s ñ h a ra trư c) 8. Thanh menu v i các menu File (ñóng m t p tin). thêm b t s li u) 10-Data Browser: Duy t s li u (xem nhưng không s a ch a) 11-Clear . 11-Clear more . Data (S li u) Graphics (ð h a) Statistics (Th ng kê) User (Ngư i dùng) Window (m ra các c a s ) và Help (Tr giúp) 3.Begin (Close) log: (B t ñ u (K t thúc) ghi biên b n k t qu ) 5.more .do file) 9-Data Editor: Biên t p s li u (s a ch a.Start Viewer (Bring Viewer to Front) . 2.Condition (Xóa l nh more ñ ti p t c chương trình) 40 . 5. Thanh công c (toolbar) Thanh công c g m 12 nút công c (1. Prefs (Tùy ch n). 2. Mô t giao di n c a chương trình Stata Giao di n c a Stata s hi n ra v i 3 thanh và 4 c a s : 3 thanh bao g m: 1.Save. Edit (hi u ch nh).Do-file Editor: (Biên so n t p tin chương trình . 4.

C a s Command (c a s l nh) 2. C a s Variables (c a s Bi n s ) 3. Cách cách ñ th c hi n l nh trong chương trình Stata Có hai cách ñ th c hi n l nh trong chương trình Stata: Dùng bàn phím ñ gõ l nh vào c a s l nh (Stata Command) hay s d ng con tr chu t ñ ch n các trình ñơn (menu) giao di n ñ h a (Graphic Interface) Dùng bàn phím ñ gõ l nh 41 . C a s Result (c a s K t qu ) 3.12. C a s Review (c a s Lưu tr ) 4.Break: (Ngưng t p tin chương trình) B n c a s li t kê theo ngư c chi u kim ñ ng h bao g m 1.

4. Do ñó n u chúng ta mu n lưu tr l i toàn b k t qu phân tích chúng ta c n ph i m c a s log b ng cách nh p vào nút công c Stata . Khi ñó trên c a s k t qu (Stata results) s hi n ra thông báo ñ cho bi t r ng biên b n k t qu phân tích s ñư c lưu t i t p tin "D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl" hãy gõ "baitap" vào h p File Name r i nh p OK. Tuy nhiên phương pháp này có th không thích h p cho ngư i m i s d ng do nó ñòi h i ngư i dùng ph i thu c các câu l nh và cú pháp c a nó Con tr chu t v i giao di n ñ h a (Graphic Interface) Có th dùng chu t th c hi n các l nh nh m thao tác s li u (menu Data). Phương pháp s d ng chu t và menu là phương pháp d s d ng nên s ñư c ưu tiên trình bày trong tài li u này. c a s này ch lưu l i nh ng k t qu g n nh t.Dùng bàn phím ñ gõ l nh vào c a s l nh (Stata Command). Khi ñó c a s Open Stata Log m ra. Gi s chúng ta ch n t p tin này là "baitap. v ñ th (menu Graphics) và phân tích s li u (menu Statistics). ðây là cách s d ng Stata c a ngư i chuyên nghi p vì nó cho phép th c hi n t t c các l nh c a Stata m t cách nhanh chóng v i ñ y ñ các ch c năng ph c a l nh.smcl" 42 . Tuy nhiên ñ tránh gây nh m l n cho ngư i phân tích. Log n m v trí th tư t trái trên thanh công c chúng ta có th nh p tên c a t p tin lưu tr (log file) vào h p văn b n File name. Lưu l i k t qu phân tích K t qu c a phân tích ñư c th hi n trên c a s Stata Result và c a s này có m t thanh trư t d c cho phép xem l i nh ng k t qu phân tích cũ.

smcl log type: smcl opened on: 10 Oct 2004. 12:01:34 Sau ñó b n có th th c hi n các bư c phân tích. L i khuyên: Ngư i s d ng Stata có kinh nghi m sau khi m t p tin s li u luôn luôn m t p tin log trư c khi ti n hành các phân tích th ng kê ñ không b m t các k t qu c a quá trình phân tích.smcl" -----------------------------------------------------------------------------log: D:\Dung\Science\BSCK2_Hieu_mat\baitap. Khi mu n ch m d t vi c ghi biên b n (k t qu phân tích) hãy nh p vào nút công c hi n ra c a s Stata Log Options. log using "D:\Dung\Science\BSCK2_Hieu_mat\baitap. log ñ Sau ñó ch n vào nút ch n Close log file và nh p vào nút OK.. Khi mu n xem l i biên b n (k t qu phân tích) hãy nh p vào nút công c ñ hi n ra c a s Stata Log Options. 43 . log m tl nn a Sau ñó ch n vào nút ch n View snapshot of log file và nh p vào nút l nh OK ñ xem biên b n.

S d ng ñư c các l nh c a Stata: edit. Kh i ñ ng Stata Trư c tiên. Khi ñó chúng ta có màn hình Stata v i 4 c a s bi n s (variables). bysort . 2. Hình 2.Nêu ñư c s khác bi t gi a bi n s ñ nh tính và bi n ñ nh lư ng . tab1.ð tóm t t ñ c trưng v gi i tính c a 5 ñ i tư ng nghiên c u này chúng ta s d ng th ng kê gì? 3. ðư ng huy t và gi i tính c a 5 ñ i tư ng nghiên c u STT Tên 1 2 3 4 5 Truc Phuoc Han Hoa Dung Gi i tính ðư ng huy t (mg/100mL) nam nam n n nam 80 90 100 110 130 Câu h i: 1.M t vài phân tích ñơn gi n v i Stata M c tiêu: Sau khi nghiên c u bài này các h c viên có kh năng: . chúng ta th c hi n theo hư ng d n: Start :: Alls Program :: MediStat :: Stata 10 ñ kh i ñ ng Stata t Windows (Chú ý nút l nh ñ u tiên Start và m c cu i cùng Stata 10 là ñi m c n ph i nh p chu t. l nh (command).Bi n s gi i tính là bi n ñ nh lư ng hay bi n ñ nh tính? Bi n s ñư ng huy t là bi n ñ nh lư ng hay bi n ñ nh tính? Hãy nêu s khác bi t gi a bi n s ñ nh lư ng và bi n s ñ nh tính. k t qu (results) và xem l i (review) như sau: 44 . Bi n s tên h c là bi n s ñ nh lư ng hay ñ nh tính? 2. sum. S li u này có 2 bi n s gi i và ñư ng huy t (ñơn v c a ñư ng huy t là mg/100mL). các d u :: th hi n s di chuy n (navigate) c a con tr chu t).ð tóm t t ñ c trưng v ñư ng huy t c a 5 ñ i tư ng nghiên c u này chúng ta s d ng th ng kê gì? Hãy cho bi t ñư ng huy t trung bình c a 5 ngư i này? Hãy cho bi t ñư ng huy t trung bình c a 2 ngư i n và ñư ng huy t trung bình c a 3 ngư i nam? 1.Hi u ñư c khái ni m v tr ng s (weight) Chúng ta s minh h a nh ng l nh cơ b n trong phân tích th ng kê v i Stata s d ng s li u ñơn gi n gi ñ nh c a 5 ñ i tư ng nghiên c u.

v ñ th hay phân tích th ng kê (1) gõ l nh vào c a s l nh hay (2) s d ng menu. Nhưng v i m c ñích giúp ngư i ñ c phát tri n năng l c t phát tri n và năng l c phán ñoán trong th c hi n phân tích th ng kê b ng menu. màn hình Editor s hi n ra: 45 . L nh edit ngoài kh năng nh p li u cũng có th s d ng ñi u ch nh s li u. các hư ng d n s t p trung vi c giúp ngư i ñ c chuy n m t câu l nh ñư c vi t theo cú pháp vào màn hình giao di n. Ngư i ñ c ñư c khuy n khích s d ng c 2 phương pháp trên ñ th c hi n phân tích th ng kê. n u chúng ta gõ l nh EDIT (hay Edit hay eDit) thì chương trình Stata s không hi u và s hi n thông báo màu ñ : unrecognized command: EDIT Sau khi chúng ta gõ l nh edit.Hình 3. Gõ edit trong c a s l nh (c n lưu ý l nh edit cũng như ph n l n các l nh khác trong Stata ñư c vi t ch thư ng. 2. Giao di n c a Stata v i 4 c a s bi n s (variables). l nh (command). Nh p li u v i l nh Edit Trư c tiên chúng ta s d ng l nh edit ñ nh p li u ñơn gi n. chúng ta có 2 cách ñ yêu c u cho Stata th c hi n các l nh v qu n lí s li u. k t qu (results) và xem l i (review) như sau V i Stata.

Nh p "Truc" vào h p văn b n. Trong thí d này chúng ta nh p li u 5 giá tr c a bi n tên trư c và sau ñó nh p 5 giá tr c a bi n gi i và 5 giá tr c a bi n ñư ng huy t: . Khi nh n Enter thì giá tr "Truc" s ñư c ñưa vào hàng 1 c t 1 và con tr s n m xu ng hàng 2 c t 1 và nhãn trư c h p văn b n s th hi n ch var1[2] ñ th hi n con tr ñang bi n var1 46 .Trong c a s Editor m i hàng là m t ñ i tư ng và m i c t là m t bi n s . bi n gi i là bi n ñ nh tính ñư c th hi n c t 2 và bi n ñư ng huy t là bi n ñ nh lư ng ñư c th hi n c t 3. do ñó s li u c a v tên. Bi n s tên (là bi n s hành chính) ñư c th hi n C t 1.Trư c tiên nh p giá tr tên cho ñ i tư ng 1 (Truc) b ng cách di chuy n con tr ñ n hàng 1 c t 1 (lưu ý khi ñó nhãn trư c h p văn b n th hi n là var1[1] th hi n con tr ñang bi n var1 c a ñ i tư ng s 1. gi i tính và ñư ng huy t c a 5 ñ i tư ng s th hi n b ng 5 hàng và 3 c t.

1 là mã hóa c a các 47 .c a ñ i tư ng s 2 Ti p t c th c hi n cho ñ n khi ñã nh p ñ 5 tên c a 5 ñ i tư ng.0.1.1.0. Các s 1.0. Sau ñó di chuy n con tr sang hàng 1 c t 2 và quan sát nhãn trư c h p văn b n là var2[1].1 vào 5 ô trên cùng c a c t 2.0. Ti p t c nh p các s 1.

90. c. replace (Data :: Create or Change variable :: Other variable transformation command :: Convert variable from string to numeric) 48 .130 Khi nh p bi n s ñ nh lư ng (ho c nh p giá tr c a bi n ñ nh tính ñư c mã hóa) c n lưu ý tránh gõ ch cái (như a. chúng ta s nh p vào các giá tr c a ñư ng huy t b ng cách di chuy n con tr sang hàng 1 c t 2 và quan sát nhãn trư c h p văn b n là var3[1]. ð kh c ph sai l m này có th s d ng l nh destring v i cú pháp sau: .giá tr Nam. 100. N . destring [varlist]. …) vào ô nh p li u ñ u tiên vì khi trong ô nh p li u ñ u tiên có ch cái (như 8o) thì dù sau ñó chúng ta có xóa ñi và nh p l i cho ñúng (thí d như 80) thì ki u (Type) c a bi n s v n là str# và không th ñư c x lí như là m t bi n ñ nh lư ng. 110. b. Nam c a bi n s gi i tính. Nam. Ti p t c nh p các giá tr ñư ng huy t c a năm ñ i tư ng l n lư t là 80. N . Sau khi nh p các giá tr c a gi i tính.

Khi ñó n u mu n mô t ñ y ñ ý nghĩa c a bi n ph i s d ng nhãn bi n (label). N u tên bi n ñư c ñ t có d u cách gi a (thí d như "ho-ten") thì chương trình stata s nh n nh m ñây là bi u th c s h c (bi n ho tr cho bi n ten). N u tên bi n ñư c ñ t có kho ng tr ng gi a (thí d như "ho ten") thì chương trình stata s nh n nh m tên bi n này là 2 tên bi n ñư c ñ t c nh nhau. n u chúng ta th y tên biên ten có ñ ý nghĩa thì chúng ta không c n s d ng nhãn bi n và ñ tr ng ô này.Sau khi nh p li u chúng ta có th nh p ñôi vào tên bi n var1 ñ ñ i tên bi n (Name) bi n thành ten. Vì nh ng h n ch này nên tên bi n thư ng không mô t ñ y ñ ñư c ý nghĩa c a bi n. Chương trình Stata cho bi t ñ nh d ng (format) c a bi n này là %9s. Nói khác hơn tên bi n là tên ng n g n c a bi n. nhãn bi n (label) là tên dài dòng c a bi n. ch s c a ñ nh d ng ñ ch ñ nh ñây là bi n chu i (string) và khi ñó máy tính s không th c hi n phép toán s h c trên các 49 . Vi c ñ t tên bi n (name) ph i theo m t s quy t c: Tên bi n ph i b t ñ u b ng m t ch cái ho c d u g ch chân và không có d u kho ng tr ng ho c d u n i gi a tên bi n. Trong trư ng h p bi n ten.

50 . bi n s này có 8 ch s trư c d u th p phân và 0 (không) con s nào sau d u th p phân. Chúng ta ph i khai báo nhãn giá tr (Value label) b ng cách nh p vào nút l nh Define/Modify.bi n s này. Sau khi ñã ñ t xong tên bi n và nhãn bi n. chúng ta có th nh p vào nút l nh OK ñ ti p t c ñ t tên cho bi n s gi i tính c t 2 b ng cách nh p ñúp vào c t s 2 Ta hãy khai báo tên bi n c t này là gioi và nhãn c a bi n này là gioi tinh. Do chúng ta mu n th hi n là 1 là mã hóa cho giá tr Nam c a bi n s . ð nh d ng c a bi n này là %8.0g. ð nh d ng này nh m cho bi t ñây là bi n th hi n b ng con s (g). 0 là mã hóa c a giá tr N c a bi n gi i.

nh p giá tr mã hóa (value) 1 vào h p văn b n value và nh p giá tr chưa mã hóa (text) nam vào h p văn b n text và sau ñó nh p nút l nh OK. 51 . Sau khi c a s Add value hi n ra. ð t tên c a nhãn (Label name) là gioi (lưu ý: có th ñ t tên c a nhãn gi ng ho c khác v i tên c a bi n – Trong trư ng h p này tên c a nhãn trùng v i tên c a bi n) Và sau ñó nh p vào OK.Khi khi c a s "label define – Define value labels" ñã hi n ra chúng ta nh p vào nút l nh Define c a c a s này ñ t o ra nhãn giá tr m i.

C a s Add value l i hi n ra thêm m t l n n a.C a s Add value l i hi n ra m t l n n a. nh p giá tr mã hóa (value) 0 vào h p văn b n value và nh p giá tr chưa mã hóa (text) nu vào h p văn b n text và sau ñó nh p nút l nh OK. Tuy nhiên l n này chúng ta không nh p vào các h p văn b n value và h p văn b n text. mà ch nh p vào nút l nh Cancel b i vì chúng ta ñã khai báo ñ y ñ cách mã hóa c a bi n s gi i 52 .

Tương t chúng ta cũng ñ i tên và nhãn c a bi n var3 thành duonghuyet và duong huyet luc doi. Sau ñó nh p nút l nh OK c a c a s Variable properties ñ hoàn t t ph n khai báo cho bi n gi i.Sau ñó chúng ta nh p vào nút l nh Close c a c a s label define – Define value labels. c a s Variable properties nh p vào h p combo trên nút l nh Define/Modify ñ ch n nhãn giá tr gioi. 53 .

b n hãy gõ l nh 54 .Sau khi ñã hoàn thành nh p li u và mô t thu c tính c a bi n s . tab1 varlist (Statistics :: Summaries. M t cách khác ñ ñ i tên bi n b ng cách nh p chu t ph i tên bi n c a s Variables: 3. gioi. ñ có b ng phân ph i t n su t c a gi i tính. Th ng kê mô t cho bi n ñ nh tính v i l nh tab1 ð làm th ng kê mô t cho bi n ñ nh tính chúng ta s d ng s d ng l nh tab1: . duonghuyet và các ñ c tính c a bi n này (nhãn. lo i. tables. and tests :: Tables :: Multiple one-way tables) C th trong trư ng h p này. ñ nh d ng). chúng ta ñóng s li u l i b ng cách Close c a s Data Editor. Khi ñó hãy quan sát c a s Variable th hi n có 3 bi n s ten.

Percent là ph n trăm và Cum. Th ng kê mô t cho bi n ñ nh lư ng v i l nh sum ð làm th ng kê mô t cho bi n ñ nh tính chúng ta s d ng s d ng l nh tab1: . Trong b ng này giá tr n ñư c li t kê trư c vì nó ñư c mã hóa b ng giá tr 0 nh hơn giá tr mã hóa 1 c a giá tr nam 4. Ti n t (prefix) bysort có th s d ng trư c các l nh th ng kê ñ th c hi n các phân tích th ng kê phân t ng. 5.00 40. Th ng kê phân t ng theo nhóm Trong các nghiên c u có nh ng trư ng h p chúng ta thư ng ph i th c hi n th ng kê phân t ng theo nhóm thí d như c n xác ñ nh t l suy dinh dư ng c a tr dư i 5 tu i phân t ng theo nơi cư trú (có nghĩa là xác ñ nh t l suy dinh dư ng c a tr dư i 5 tu i n i thành và t l suy dinh dư ng tr dư i 5 tu i ngo i thành). Dev. t l có ki n th c ñúng theo ngh nghi p (t l có ki n th c ñúng nhóm công nhân. là ch vi t t t c a Cummulative percent có nghĩa là ph n trăm c ng d n. summarize varlist (Statistics :: Summaries. Min Max -------------+-------------------------------------------------------duonghuyet | 5 102 19. ñ l ch chu n. C n lưu ý là ch nên s d ng ph n trăm c ng d n trong b ng t n su t c a bi n ñ nh lư ng phân nhóm hay bi n th t . là vi t t t c a frequency có nghĩa là t n su t. là vi t t t c a Standard Deviation có nghĩa là ñ l ch chu n. Percent Cum.00 nam | 3 60.00 100. ------------+----------------------------------nu | 2 40. Std. and tests :: Summary and Descriptive Statistics :: Summary statistics) C th trong trư ng h p này.00 ------------+----------------------------------Total | 5 100. summarize duonghuyet Ho c ñơn gi n hơn . giá tr t i thi u và t i ña c a bi n ñư ng huy t. tab1 gioi -> tabulation of gioi gioi | Freq. Dev. tables.. 55 .00 b ng k t qu Freq. sum duonghuyet Variable | Obs Mean Std. b n hãy gõ l nh . nhóm nông dân. mean là trung bình (hay chính xác hơn là trung bình c ng).23538 80 130 b ng k t qu Obs có nghĩa là s quan sát. ñ bi t trung bình. nhóm ngh nghi p khác) ho c ñư ng huy t trung bình theo gi i tính (ñư ng huy t trung bình nhóm nam và ñư ng huy t trung bình nhóm n ). Min là giá tr t i thi u và Max là giá tr t i ña.

Dev.071068 100 110 ------------------------------------------------------------------------------------> gioi = nam Variable | Obs Mean Std. Khi ñó ñư ng huy t trung bình c a chung 2 nhóm s là trung bình c a ñư ng huy t trung bình c a nhóm nam (100 mg%) v i tr ng s là 3 và ñư ng huy t trung bình c a nhóm n (105 mg%) v i tr ng s là 2. Min Max -------------+-------------------------------------------------------duonghuyet | 3 100 26. 6. Tr ng s N u chúng ta là m t nghiên c u và bi t ñư c ñư ng huy t trung bình c a 3 ngư i nam là 100 mg% và c a 2 ngư i n là 105 mg%. Dev. Tuy nhiên trong trư ng h p này không ñúng vì s ngư i nhóm nam (3 ngư i) khác v i s ngư i nhóm n . bysort gioi: sum duonghuyet -> gioi = nu Variable | Obs Mean Std.5 mg%. Min Max -------------+-------------------------------------------------------duonghuyet | 2 105 7. ñ l ch chu n. Chúng ta hãy minh h a các tính này v i Stata b ng cách xóa b s li u cũ và nh p s li u m i vào .45751 80 130 K t qu này cho bi t ñư ng huy t trung bình c a 3 ngư i nam là 100 mg% và c a 2 ngư i n là 105 mg%. giá tr t i thi u và t i ña c a bi n ñư ng huy t phân t ng theo gi i c n s d ng ti n t bysort gioi trư c l nh th ng kê cho bi n ñư ng huy t . edit Và nh p s li u như sau: 56 . clear . v y ñư ng huy t trung bình c a c 2 nhóm s là bao nhiêu? N u s ngư i nhóm nam và nhóm n b ng nhau thì ñư ng huy t trung bình c a chung 2 nhóm s là trung bình c a ñư ng huy t trung bình c a nhóm nam (100 mg%) và ñư ng huy t trung bình c a nhóm n (105 mg%) và s là 102.Cú pháp cho vi c s d ng ti n t bysort là : bysort varlist: Stata_command C th ñ bi t trung bình.

74 không sai nhưng ph i lí gi i khác ñi. N2. Nk.738613 2 = 30 j =1 k k SS w = ∑ ( N j − 1) s 2 = 2 × 26. Min Max -------------+-------------------------------------------------------duonghuyet | 5 102 2.Sau ñó chúng ta có th s d ng l nh summarize v i tr ng s ñ tính ñư ng huy t trung bình chung c a c 2 nhóm: .738613 100 105 Có th nh n xét r ng n u chúng ta s d ng trung bình có tr ng s t các trung bình t ng nhóm chúng ta s có con s trung bình chung có giá tr . …. Chúng ta s quay tr l i khái ni m này trong ph n phân tích phương sai (analysis of variance) nhưng chúng ta cũng nhân thí d này ñ minh h a cho công th c ñư c s d ng r ng rãi trong phân tích phương sai là: SS =1480=4 x 19. summarize duonghuyet [fweight = trongso] Variable | Obs Mean Std. Dev. S li u ñư c trình bày như sau 57 . ð l ch chu n này không nói lên s phân tán c a giá tr cá th chung quanh giá tr trung bình mà nói lên s phân tán c a trung bình nhóm chung quanh giá tr trung bình chung. S ñ i tư ng trong nhóm j ñư c kí hi u là Nj.457512 + 1 × 7. Vì v y ñ l ch chu n này là ñ l ch chu n gi a các nhóm (hay còn l i là between group standard deviation) và T ng bình phương sai l ch gi a các nhóm s b ng phương sai gi a các nhóm nhân v i căn b c hai c a c m u -1 .235382= SSb + SSw SS b = ∑ N j ( X j − X ) 2 = ( N − 1) × Varb = 4 × 2.071068 2 = 1450 j j =1 Trong ñó kí hi u s ñ i tư ng trong m i nhóm là N1. ð l ch chu n (standard deviation) trong trư ng h p này là 2. T ng s ñ i tư ng trong t t c các nhóm là N1+ N2+ …+ Nk = N.

Ch n menu File :: Open v trí ñ u tiên trên thanh công c ). Sau khi c a s Use New Data s hi n ra. Nh p vào mũi tên bên ph i h p Look in ñ ch n ñĩa thích h p và dùng con chu t nh p vào các thư m c ñ ch n thư m c có ch a s li u (thông 58 . Sau ñó th c hi n các bài t p 1 ñ n 3 cho công tác chu n b và các bài t p 4 ñ n 6 cho công tác thao tác s li u.0 s d ng b s li u ivf. Công tác chu n b bao g m vi c m t p tin s li u. kh o sát s li u có bao nhiêu b n ghi và có nh ng bi n s nào cũng như nghiên c u ñ cương nghiên c u (ch y u là m c tiêu nghiên c u) ñ giúp vi c phân lo i bi n s .dta và m t p tin log Kh i ñ ng c a s Use New Data b ng cách 1 trong 2 cách: . Trư c tiên chúng ta hãy kh i ñ ng Stata theo cách ñã hư ng d n chương Kh i ñ ng Stata.Mô t s li u v i Stata 10. t o bi n s m i theo yêu c u c a phân tích và ti n hành vi c dán nhãn s li u ñ giúp cho vi c hi u rõ hơn s li u và ñ c k t qu c a phân tích th ng kê. Thông thư ng trư c khi mô t s li u chúng ta c n th c hi n bư c chu n b và vi c thao tác s li u (data processing). 1.M t p tin ivf_v.0 for Windows Chương này s hư ng d n b n phương pháp mô t s li u v i ph n m m Stata 10. m t p tin log (Open log file).Nh n nút công c m file ( .dta có trong thư m c C:\DATA sau khi b n cài ñ t các t p tin s li u m u. Vi c thao tác s li u là vi c rà soát s li u có b sai sót hay nh m l n gì hay không.

Khi ñó cu i c a s k t qu có thanh tr ng thái v i dòng ch log on (smcl) cho bi t là t t c các k t qu phân tích ñang ñư c ghi chép l i (log). chúng ta nh p vào các thông tin như trên. Thí d chúng ta mu n lưu t p tin log v i tên là ivf_v.smcl vào thư m c c:\data.thư ng t p tin s li u n m thư m c C:\Data). Kh o sát các bi n s c a t p tin và nghiên c u m c tiêu nghiên c u ñ phân lo i bi n s Hư ng d n: ð xem li t kê các bi n s chúng ta có th nh n phím ch c năng F3 hay s d ng 59 . ð lưu tr l i toàn b k t qu phân tích s ñư c th c hi n. c n nh nh p vào nút công c Stata Log n m v trí th tư t trái trên thanh công c ñ b t ñ u log k t qu (begin log). nh p ñúp vào tên t p tin này ñ m t p tin (ho c nh p vào t p tin này ñ tên t p tin rơi vào h p File Name r i sau ñó nh p vào nút l nh Open ñ m t p tin). Tìm t p tin s li u ivf_v.dta. Máy tính s hi n ra h p tho i Begin Logging Stata Output ñ chúng ta ch n tên t p tin (File name) và thư m c lưu (Save In) c a t p tin log. 2.

0g float float float float %9.0g %9.1=tu do. 2=cong nhan. 0=khong tang ha tuoi thai (tuan) gioi tinh tre .512 (99.0g %9.0g tuoi me (nam) tang huyet ap thai ki .0g %9.8% of memory free) ------------------------------------------------------------------------------variable name storage type display format value label variable label ------------------------------------------------------------------------------maso float %9. Cách lí gi i s li u ñư c minh h a STT Tên bi n Ý nghĩa c a bi n Phân lo i bi n s : (ð c l p hay Ph thu c) (ð nh tính hay ñ nh lư ng) – 60 .0g float %9.0g ma so tuoime tangha tuoithai gioi tlsosinh nghenghiep float %9. describe Contains data from C:\DATA\ivf_v. 3=vien chuc ------------------------------------------------------------------------------Sorted by: maso Gi s t ñ cương nghiên c u chúng ta bi t ñây là t p tin c a s li u 641 ñ a tr ñư c sinh t bà m th thai trong ng nghi m (in-vitro fertilisation) v i m c tiêu nghiên c u là xem tu i thai và tăng huy t áp trong thai kì có nh hư ng lên tr ng lư ng thai hay không.menu (nh p vào menu Data :: Describe data :: Describe variable in memory) ñ xem các bi n s c a s li u Chúng ta có th xem danh sách các bi n s li t kê .dta obs: vars: 641 7 sau: 15 Aug 2006 15:27 size: 20. 0=gai trong luong so sinh (gram) nghe nghiep me .1=tang ha.1=trai.

Dùng menu Data :: Data browser (read-only editor) S d ng Data Browser cho phép nhìn s li u trong lư i (như các ô c a chương trình Excel) nhưng nó không cho phép in s li u. ñ i v i bi n ñ nh tính th c hi n l nh tab1 ñ có b ng phân ph i t n su t c a các bi n s .1 2 3 4 5 6 7 Maso Tuoime Tangha Tuoithai Gioi Tlsosinh Mã s Tu i c a m (năm tu i) Tăng huy t áp thai kì 1= có 0= không Tu i thai (tính theo tu n) Gi i tính c a tr 1=trai 0=gái Tr ng lư ng sinh tính theo grams Nghenghiep Ngh nghi p c a m 1=t do 2=công nhân 3=viên ch c 3. Trong b s li u này có các bi n tuoime. 4. tlsosinh là bi n ñ nh lư ng. tables. 61 . Hãy th c hi n th ng kê mô t t t c các bi n s trong b s li u này: Hư ng d n: trư c tiên chúng ta ph i xác ñ nh bi n s nào là bi n s ñ nh lư ng và bi n s nào là bi n s ñ nh tính. Làm th nào ñ xem s li u Hư ng d n: Có th xem s li u b ng 2 cách: . Mu n nhìn s li u ra c a s k t xu t (output) ñ sau ñó in ra hãy s d ng menu Data:: Describe Data :: List data. ð mô t bi n s này chúng ta s d ng menu Statistics :: Summaries. Sau ñó th c hi n th ng kê mô t cho các bi n s : ñ i v i bi n ñ nh lư ng. tuoithai. th c hi n l nh summarize ñ ñ có trung bình và ñ l ch chu n.Dùng nút l nh Data Browser (v trí 3 tính t phía bên ph i c a thanh công c ) . & tests :: Summary Statistics.

Khi ñó s Bư c 2: Di chuy n con tr trong danh sách các bi n. th c hi n các bư c sau: Bư c 1: Dùng con chu t nh p vào d u mũi tên xu ng ( có danh sách các bi n s ñư c s ra.Sau khi h p tho i Summarize hi n ra. ) c a h p combo Variables. và nh p vào các bi n c n mô t th ng kê 62 .

gioi (gi i tính c a tr ). 63 . tuoithai.137 652. Min Max -------------+-------------------------------------------------------tuoime | 641 33.(tuoime. Dev.97192 3. gioi. tlsosinh) ñ tên các bi n này xu t hi n trên h p văn b n Variables Bư c 3: Nh p vào nút l nh OK K t qu ñư c trình bày nhưu sau: . tables & test :: Tables :: Multiple one-way tables.87046 23 43 tuoithai | 641 38. nghenghiep) chúng ta s d ng menu Statistics :: Summaries.329931 24.35 tlsosinh | 641 3129. ð tóm t t các bi n s ñ nh tính này (tang_ha. summarize tuoime tuoithai tlsosinh Variable | Obs Mean Std.69 42. nghenghiep (ngh nghi p c a m ).7827 630 4650 Các bi n s ñ nh tính bao g m tang_ha (tăng huy t áp).68725 2.

gioi. Percent Cum.Bư c 1: Dùng con chu t nh p vào d u mũi tên xu ng ( variables. | 0=gai | Freq. ------------+----------------------------------0 | 315 49. tab1 tang_ha gioi nghenghiep -> tabulation of tang_ha tang huyet | ap thai ki | . Khi ñó s có danh sách các bi n s ñư c s ra. và nh p vào các bi n c n mô t th ng kê (tang_ha.86 100.1=tang | ha.14 49. Percent Cum.00 ------------+----------------------------------Total | 641 100.00 -> tabulation of nghenghiep 64 . nghenghiep) ñ tên các bi n này xu t hi n trên h p combo Categorical variables Bư c 3: nh p nút l nh OK ñ hoàn t t .00 ------------+----------------------------------Total | 641 100.00 -> tabulation of gioi gioi tinh | tre .88 100. 0=khong | tang ha | Freq. ------------+----------------------------------0 | 552 86. ) c a h p combo Categorical Bư c 2: Di chuy n con tr trong danh sách các bi n.14 1 | 326 50.12 86.12 1 | 89 13.| 1=trai.Các bư c th c hi n g m: .

| 3=vien chuc | Freq. ð t tên c a nhãn (Label name) là sex (lưu ý: có th ñ t tên c a nhãn gi ng ho c khác v i tên c a bi n – Trong trư ng h p này tên c a nhãn (sex) khác v i tên c a bi n(gioi)) 65 .13 53.00 ------------+----------------------------------Total | 641 100.nghe nghiep | me . Khi khi c a s "label define – Define value labels" ñã hi n ra chúng ta nh p vào nút l nh Define c a c a s này ñ t o ra nhãn giá tr m i. tang_ha. Vi c dán nhãn giá tr bi n s ñư c th c hi n qua 2 bư c: t o nhãn (define label value) và dán nhãn cho giá tr (Assign value label to variable).T o nhãn sex.00 5. Hư ng d n: Vi c dán nhãn cho các giá tr mã hóa là vi c làm t n công nhưng nó giúp phân bi t ngư i làm th ng kê chuyên nghi p và ngư i làm th ng kê không chuyên nghi p. M c dù t n công nhưng l i ích do nó ñem l i vư t qua công s c b ra vì v y chúng ta c n ph i th c hi n vi c dán nhãn này. Các tóm t t s li u như trên là ñ t yêu c u. Tuy nhiên vi c mã hoá các giá tr c a bi n s khi n cho vi c ñ c b ng b ng t n su t c a bi n s danh ñ nh (như gioi và nghenghiep) b khó khăn (nh t là cho nh ng ngư i không tr c ti p làm th ng kê hay ph i ñ c l i k t qu sau m t kho ng th i gian dài).1=tu | do. 2=cong | nhan. Hãy th c hi n vi c dán nhãn s li u.22 16. C a s Define value label s ñư c hi n ra. Do ñó nh ng ngư i làm th ng kê chuyên nghi p luôn luôn th c hi n ghi chú (dán nhãn) cho các bi n s ñ nh tính. ------------+----------------------------------1 | 104 16. Percent Cum. nhãn nghenghiep ð t o nhãn s d ng menu Data :: Labels :: label values :: Define or modify value label. .65 100.35 3 | 299 46.22 2 | 238 37.

Sau khi c a s Add value hi n ra. nh p giá tr mã hóa (value) 1 vào h p văn b n value và nh p giá tr chưa mã hóa (text) nam vào h p văn b n text và sau ñó nh p nút l nh OK. 66 .Và sau ñó nh p vào OK.

C a s Add value l i hi n ra m t l n n a. Tuy nhiên l n này chúng ta không nh p vào các h p văn b n value và h p văn b n text. nh p giá tr mã hóa (value) 0 vào h p văn b n value và nh p giá tr chưa mã hóa (text) nu vào h p văn b n text và sau ñó nh p nút l nh OK. C a s Add value l i hi n ra thêm m t l n n a. mà ch nh p vào nút l nh Cancel b i vì chúng ta ñã khai báo ñ y ñ cho tên nhãn sex 67 .

Sau ñó có th nh p vào nút l nh Close (c a h p tho i Define value labels) ñ thoát ra hay nh p vào nút l nh Define (c a h p tho i Define value labels) ñ ti p t c t o nhãn tang_ha.

V i các cách mã hóa ñư c quy ñ nh trong nhãn có tên tang_ha là: 1 là có tăng huy t áp và 0 là không tăng huy t áp.

68

C n lưu ý: tên nhãn có th khác v i tên bi n (thí du như trư ng h p trên ta ñ t tên nhãn là sex trong khi tên bi n là gioi) ho c tên nhãn có th trùng v i tên bi n (thí d ta có th ñ t tên nhãn là tang_ha cho bi n tang_ha). Tương t ta cũng ti p t c t o nhãn nghenghiep b ng cách nh p vào nút l nh define và sau ñó nh p tên c a nhãn nghenghiep vào h p văn b n label name r i nh p OK.

Ti p t c quy ñ nh cách mã hóa c a nhãn có tên nhãn nghenghiep là: 1 là có nghe t do và 2 là công nhân và 3 là viên ch c.

69

ð hoàn t t vi c t o nhãn ta nh n vào nút l nh Close

Dán nhãn giá tr (Assign value label) cho các bi n gioi, tang_ha, và nghenghiep Sau khi dã t o ñư c nhãn, chúng ta hãy dán nhãn giá tr cho bi n s b ng cách dùng menu Data :: Labels :: Label values :: Assign value label to variable

Khi h p tho i labels value – Attach value label hi n ra ñ dán nhãn sex cho m i bi n s gioi c n th c hi n 4 bư c sau:

70

Bư c 4: Nh p vào nút l nh Submit ñ th c hi n vi c dán nhãn.. ñ m b o là nút ch n Attach a value label to variable ñư c ch n. .Bư c 2: ð t con tr vào h p combo Variable.Bư c 1: khung Add or remove value label.Bư c 1: khung Add or remove value label. ñ m b o là nút ch n Attach a value label to variable ñư c ch n.Bư c 3: ðưa con tr vào h p combo Value lable và ch n nhãn tang_ha h p combo này 71 . ch n bi n gioi trong h p combo này. ð ti p t c th c hi n tương t ñ dán nhãn tang_ha cho bi n tang_ha. . hãy ti n hành các bư c sau: .Bư c 3: ðưa con tr vào h p combo Value lable và ch n nhãn sex h p combo này . ch n bi n tang_ha trong h p combo này. . .Bư c 2: ð t con tr vào h p combo Variable.

L p b ng phân ph i t n su t cho các bi n s ñ nh tính sau khi ñã dán nhãn cho các bi n này. . hãy ti n hành các bư c sau: . ch n bi n nghenghiep trong h p combo này. tables & test :: Tables :: Multiple one-way tables. Hư ng d n: Các bi n s ñ nh tính ñã ñư c dán nhãn bao g m tang_ha sex matagegp gestcat.Bư c 1: khung Add or remove value label. ð ti p t c th c hi n tương t ñ dán nhãn nghenghiep cho bi n nghenghiep. 72 . ñ m b o là nút ch n Attach a value label to variable ñư c ch n.Bư c 4: Nh p vào nút l nh Submit ñ th c hi n vi c dán nhãn.Bư c 3: ðưa con tr vào h p combo Value lable và ch n nhãn nghenghiep h p combo này .Bư c 2: ð t con tr vào h p combo Variable. ð tóm t t các bi n s ñ nh tính này (tang_ha sex matagegp gestcat) chúng ta s d ng menu Statistics :: Summaries..Bư c 4: B i v y ñây là bư c dán nhãn cu i cùng. do ñó không nh p vào nút l nh Submit ñ th c hi n vi c dán nhãn và nh p vào nút l nh OK ñ ñ ng th i th c hi n vi c dán nhãn và ñóng c a s label values 6. .

86 100. | 0=gai | Freq. tab1 gioi tang_ha nghenghiep -> tabulation of gioi gioi tinh | tre .14 49.14 trai | 326 50. chúng ta ti n hành 3 bư c (1) ñ t con tr vào h p Categorical value (2) Nh p vào c a s variable ñ ch n các bi n s ti n hành phân tích và (3) Nh p vào nút l nh OK. Percent Cum.00 -> tabulation of tang_ha tang huyet ap | thai ki .Khi h p tho i tab1 – One-way tables hi n ra. | 0=khong tang | ha | Freq.12 73 .| 1=trai. ------------+----------------------------------gai | 315 49.00 ------------+----------------------------------Total | 641 100. --------------+----------------------------------huyet ap bt | 552 86.12 86.| 1=tang ha. Percent Cum. K t qu s xu t hi n như sau: .

00 --------------+----------------------------------Total | 641 100. ta ph i s d ng menu Graphics :: Histogram Khi h p tho i histogram hi n ra.00 ------------+----------------------------------Total | 641 100.22 cong nhan | 238 37.huyet ap tang | 89 13. V t ch c ñ (histogram) c a bi n tr ng lư ng sơ sinh (tlsosinh) Hư ng d n: ð v t ch c ñ .35 vien chuc | 299 46. ------------+----------------------------------tu do | 104 16. | 3=vien chuc | Freq.00 -> tabulation of nghenghiep nghe nghiep | me .88 100.13 53.22 16. 2=cong | nhan.00 7.65 100. chúng ta th c hi n các bư c sau: 74 .1=tu | do. Percent Cum.

n u mu n th hi n t n su t thì nh p vào nút ch n Frequency. nh p vào nút ch n Density. N u mu n th hi n m t ñ c a phân ph i. n u mu n th hi n t l thì nh p vào nút ch n Fraction.Bư c 1: ñ t con tr vào h p combo Variable nh p vào mũi tên xu ng bên ph i h p combo ñ s ra danh sách các bi n Bư c 2: T trong danh sách các bi n ch n tlsosinh ñ ñưa bi n này vào h p combo Variable. Bư c 3 – Bư c 4: nh m ñ xác ñ nh t ch c ñ s b t ñ u t giá tr 600 (Lower limit of first bin) và m i kho ng ti p theo (bin) có ñ r ng là 300 (Width of bins) Bư c 5: Cho bi t t ch c ñ s ghi nh n t l ph n trăm c a các kho ng giá tr b ng cách nh p vào nút ch n Percent. M i liên h gi a các hàm phân ph i này như sau: T l (Fraction) = T n su t (Frequency) / C m u (N) M t ñ (Density) = T l (Fraction) / ð r ng c a kho ng chia (Width of bins) K t qu ti p theo s ñư c trình bày trong hình sau. 75 .

3. Các bư c ñ th c hi n chia kho ng và ghi chú cho tr c hoàng (tr c X) như sau: Bư c 1: Nh p vào Tab X-axis Bư c 2: ð nh p ghi chú cho tr c hoành. ghi nhãn cho các giá tr và các nhãn này cách nhau 0. tuy nhiên chúng ta cũng có th thay ñ i thưc hi n vi c chia kho ng cho tr c hoành. 76 . • Tr c hoành ñư c ghi chú là "trong luong so sinh (gram) cua 641 tre" • Tr c tung có kho ng giá tr là 0 ñ n 0. Chúng ta mu n chia làm m i kho ng có ñ l n là 300 như v y c n thi t ph i có 14 kho ng. nh p vào ghi chú là "trong luong so sinh (gram)" Bư c 3: ð chia kho ng cho tr c hoành. ch n Range/Delta và sau ñó nh p các giá tr t i thi u. ð th này cho chúng ta th y hình d ng c a phân ph i s li u.0 5 Per c ent 10 15 20 25 1000 2000 3000 4000 t r ong l uong so si nh ( gr am ) 5000 8. ch n Major tick/label property. h p văn b n Title. ghi chú cho tr c hoành. Chúng ta cũng mu n ghi giá tr t 600 ñ n 4200 và m i nhãn giá tr cách nhau 600 gram. chia kho ng cho tr c tung và ghi chú cho tr c tung.1 • Tr c tung ñư c ghi chú là "Ph n trăm" (ch không ph i là Percent). t i ña và kho ng delta. Gi s chúng ta mu n th c hi n các yêu c u chia kho ng và ghi chú như sau: • Tr c hoành ph i có kho ng giá tr t 600 ñ n 4800 (biên ñ là 4200).

Sau ñó nh p vào nút l nh accept. Các bư c ñ th c hi n chia kho ng và ghi chú cho tr c hoàng (tr c Y) như sau: Bư c 4: Nh p vào Tab Y-axis Bư c 5: ð nh p ghi chú cho tr c tung. nh p vào ghi chú là "Phan tram" 77 . h p văn b n Title.

Bư c 7: Nh p vào nút l nh OK cu i c a s ñ hoàn t t PhÇn t r ¨ m .Bư c 6: ð chia kho ng cho tr c tung. Nh p vào nút l nh Accept. ch n Major tick/label property. t i ña và kho ng delta. ch n Range/Delta và sau ñó nh p các giá tr t i thi u.î ng s¬ si nh ( gr am ) 4200 4800 9. Chúng ta cũng có th v ñ th xu t (p-p plot) ñ xem bi n s tlsosinh có tuân theo phân ph i bình thư ng 78 .. 1 02 3 600 1200 1800 2400 3000 3600 Tr äng l .

normal quantile plot Khi c a s qnorm hi n ra. chúng ta ti n hành các bư c sau: Bư c 1: ñ t con tr vào h p văn b n Variable Bư c 2: ñưa con tr vào c a s Variables và nh p vào bi n tlsosinh ñ ñưa bi n này vào h p văn b n Variable. Bư c 3: ðánh d u vào h p ki m: Show grid at percentiles: Bư c 4: Nh p vào nút l nh OK 79 .Hư ng d n: S d ng menu Graph – Distributional graph .

K t qu như sau: 80 .

1 1000 2000 3000 trong luong so sinh (gram) 4000 5000 10. n u ñư ng cong phân ph i nh hơn m t (1) có nghĩa là ñư ng cong th c nghi m tăng nhanh hơn phân ph i bình thư ng. N u ñ d c c a ñư ng cong phân ph i l n hơn m t (1) có nghĩa là phân ph i th c nghi m tăng ch m hơn phân ph i bình thư ng. kho ng tr ng lư ng cao tr ng lương sơ sinh tăng hơi nhanh hơn phân ph i chu n.05 . . N u phân ph i l ch dương thì xác su t 0. 81 . N u phân ph i l ch âm thì xác su t 0.15 Fraction 0 .5 ñư ng cong phân ph i s n m bên ph i ñư ng chéo.N u phân ph i bình thư ng thì ñư ng cong phân ph i (ñư ng nét ñ m) s trùng v i ñư ng chéo c a hình ch nh t (ñư ng th ng m nh).5 ñư ng cong phân ph i n m bên trái ñư ng chéo. Hãy v bi u ñ hình thanh (bar chart) c a nhóm ngh nghi p Hư ng d n: Trư c tiên s d ng menu Graphics :: Bar chart ð hi n ra c a s graph bar – Chúng ta hãy ñ ý 2 th Main và th Categories là 2 th n m bên trái c a c a s . phân ph i tr ng lư ng sơ sinh tăng ch m hơn phân ph i chu n. Như v y. phân ph i c a tr ng sơ sinh b l ch trái và kho ng tr ng lư ng th p.

th Main ti n hành các bư c sau: Bư c 1: Ch n m c count nonmissing trong h p Combo Statistic Bư c 2: ð t con tr vào h p văn b n variable(s) nh p vào mũi tên hư ng xu ng dư i bên ph i h p combo ñ hi n ra danh sách bi n s . Bư c 3: ðưa con tr chu t ñ ch n danh sách bi n s và nh p vào bi n maso ñ bi n này xu t hi n trên h p văn b n Variable(s) Bư c 4: Nh p vào th (tab) Categories ñ hi n th này ra 82 .

83 . Bư c 7: ðưa con tr chu t ñ ch n danh sách bi n s và nh p vào bi n nghenghiep ñ bi n này xu t hi n trên h p văn b n Variable(s) Bư c 8: Nh p vào nút l nh OK ñ xem bi u ñ hình thanh ñư c t o ra.Bư c 5: Khi ñã th Categories. ñưa con tr chu t vào h p văn b n Variable Bư c 6: ð t con tr vào h p văn b n variable(s) nh p vào mũi tên hư ng xu ng dư i bên ph i h p combo ñ hi n ra danh sách bi n s .

84 .0 count of m o as 100 200 300 t u do c ong nhan vi en c huc 11. Hãy v bi u ñ hình thanh (bar chart) trung bình tr ng lư ng sơ sinh c a các ñ a tr con c a nh ng bà m có ngh nghi p khác nhau. Hư ng d n: Trư c tiên s d ng menu Graphics :: Bar chart ð hi n ra c a s graph bar – Chúng ta hãy ñ ý 2 th Main và th Categories là 2 th n m bên trái c a c a s .

th Main ti n hành các bư c sau: Bư c 1: Ch n m c mean trong h p Combo Statistic Bư c 2: ð t con tr vào h p văn b n variable(s) nh p vào mũi tên hư ng xu ng dư i bên ph i h p combo ñ hi n ra danh sách bi n s . Bư c 3: ðưa con tr chu t ñ ch n danh sách bi n s và nh p vào bi n tlsosinh ñ bi n này xu t hi n trên h p văn b n Variable(s) Bư c 4: Nh p vào th (tab) Categories ñ hi n th này ra 85 .

Bư c 7: ðưa con tr chu t ñ ch n danh sách bi n s và nh p vào bi n nghenghiep ñ bi n này xu t hi n trên h p văn b n Variable(s) Bư c 8: Nh p vào nút l nh OK ñ xem bi u ñ hình thanh ñư c t o ra.Bư c 5: Khi ñã th Categories. 86 . ñưa con tr chu t vào h p văn b n Variable Bư c 6: ð t con tr vào h p văn b n variable(s) nh p vào mũi tên hư ng xu ng dư i bên ph i h p combo ñ hi n ra danh sách bi n s .

0

m ean of t l sosi nh 1, 000 2, 000

3, 000

t u do

cong nhan

vi en chuc

12. Hãy v bi u ñ hình bánh (Pie chart) phân ph i bi n s ngh nghi p m (nghenghiep). Hư ng d n: Trư c tiên s d ng menu Graphics :: Pie Chart

ð th c hi n bi u ñ hình bánh, chúng ta ti p t c các bư c sau: Bư c 1: Lưu ý ñ nút ch n Graph by categories ñư c ñánh d u Bư c 2: ð t con tr vào h p combo Category variable và nh p vào mũi tên xu ng bên ph i ñ s ra danh sách bi n. Bư c 3: Dùng con tr ch n bi n nghenghiep (ngh nghi p m ) trong danh sách bi n ñ tên bi n này xu t hi n trên h p combo Category variable. Bư c 4: Nh p vào nút l nh OK

87

Chúng ta s có ñư c bi u ñ hình bánh như sau:

88

t u do vi en chuc

cong nhan

13. Hãy t o bi n m i nhomtuoi, bi n này có giá tr 0 tương ng v i tu i c a m t th p nh t ñ n 29 1 tưong ng v i tu i m t 30 ñ n 34 2 tưong ng v i tu i m t 35 ñ n 39 3 tưong ng v i tu i m t 40 tr lên ði u này có nghĩa là chúng ta chia tu i m làm 4 nhóm v i 3 ñi m chia là 30, 35 và 40. ði u này có th th c hi n b ng cách t o bi n m i v i hàm irecode. 0 30 29-30 1 34-35 2 39-40 3

Cách th c hi n vi c t o bi n m i ñư c th c hi n v i menu Create or Change variables :: Create new variable

89

2 là 35-39.Generate a new variable th c hi n vi c t o bi n m i v i các bư c sau: Bư c 1: Nh p tên bi n m i (nhomtuoi) vào h p văn b n Generate variable Bư ic 2: Nh p công th c t o bi n m i irecode(tuoime. ði u này có th th c hi n b ng cách t o bi n m i và s d ng bi u th c boolean (bi u th c th hi n m t m nh ñ 90 . chúng ta nên th c hi n thêm 2 bư c: t o nhãn (define label value) và dán nhãn giá tr cho bi n s (Assign value label to variable) như ñư c trình bày bư i 5.34.39) Bư c 3: Nh p vào nút l nh OK ñ hoàn t t Sau khi t o ra bi n m i nhomtuoi. bi n này có giá tr 1 tương ng v i tu i thai <37 0 tưong ng v i tu i thai >=37 tu n Yêu c u có nghĩa là chúng ta c n t o ra m t bi n nh giá v i 2 giá tr 0 và 1.29. 1 là 30 den 34. (0 là dư i 30. Hãy t o bi n m i sinh non.Sau khi c a s generate . 3 là 40+) 14..

chúng ta nên th c hi n thêm 2 bư c: t o nhãn (define label value) và dán nhãn giá tr cho bi n s (Assign value label to variable) như ñư c trình bày bư i 5. 0 là không sinh non) 15.Generate a new variable th c hi n vi c t o bi n m i v i các bư c sau: Bư c 1: Nh p tên bi n m i (sinhnon) vào h p văn b n Generate variable Bư ic 2: Nh p công th c t o bi n m i tuoithai<37 Bư c 3: Nh p vào nút l nh OK ñ hoàn t t Sau khi t o ra bi n m i sinhnon. Lưu l i s li u Hư ng d n: ð lưu s li u chúng ta có th s d ng menu File :: Save (hay Ctrl-S) ho c nh n 91 .có giá tr là ñúng hay sai) Vi c th c hi n c th bao g m vi c t o bi n m i ñư c th c hi n v i menu Create or Change variables :: Create new variable Sau khi c a s generate . (1 là sinh non.

N u ñ ng ý chúng ta hãy nh p vào nút OK ñ ñ ng ý. N u chúng ta không mu n thay ñ i t p tin s li u cũ. khi ñó h p tho i "Save Stata Data File" s hi n ra. Gõ tên m i vào h p File Name (thí d n u chúng ta mu n ñ t tên t p tin là ivf_revised. 16. M t h p tho i s b t lên và h i chúng ta có mu n chép ch ng vào t p tin s li u hay không. chúng ta nên nh p vào nút Cancel và lưu s li u v i tên m i s d ng menu File :: Save As.Nh p vào ô ñóng n m phía trên ph i c a c a s Stata 92 .0 for Windows chúng ta có th th c hi n m t trong 2 vi c sau: .dta thì chúng ta gõ vào h p văn b n File name: ivf_revised) nh p nút l nh Save ñ hoàn t t. Hãy thoát kh i chương trình Stata Hư ng d n: ð thoát kh i Stata/SE 10.vào nút save file (v trí th hai c a thanh công c ).

. n u không (nh p nút l nh No) thì chúng ta l i tr l i Stata ñ chúng ta có th lưu l i s li u. clear. N u chúng ta mu n xem l i các k t qu phân tích ñã ñư c th c hi n chúng ta có th xem l i t p tin log. máy tính s không ñ ng ý cho chúng ta thoát và s thông báo “no. Lưu ý: Trong trư ng h p có d li u trong b nh và d li u ñó ñã ñư c thay ñ i nhưng chưa ñư c lưu vào ñĩa thì khi chúng gõ exit. Trong trư ng h p này n u chúng mu n thoát mà không lưu l i s li u thì chúng ta hãy gõ exit.Lưu ý: Trong trư ng h p có d li u trong b nh và d li u ñó ñã ñư c thay ñ i nhưng chưa ñư c lưu vào ñĩa thì khi chúng nh p vào ô ñóng. 17. N u chúng ta mu n lưu l i s li u hãy s d ng l nh save.Gõ l nh exit trong c a s Stata Command. Cách xem l i t p tin log g m các bư c sau: 93 . N u chúng ta ñ ng ý b ng cách nh p vào nút l nh Yes thì Stata s thoát. data in memory would be lost”. máy tính s h i chúng ta r ng chúng ta có mu n thoát mà không lưu l i s li u hay không.

Bư c 1: Vào menu File:: View Bư c 2: Khi hi n ra h p tho i Choose file to View. ch n thưm c ch a t p tin log trong h p tho i Log gin Bư c 4: Ch n t p tin log c n xem l i (thí d t p tin baitap. khi ñó c a s Choose file Name s hi n ra Bư c 3: Trên c a s Choose file Name.smcl) Bư c 5: Nh p vào nút l nh Open ñ ñóng c a s Choose file Name và tr v h p tho i Choose file to view Bư c 6: Nh p vào nút l nh OK ñ xem t p tin log 94 . nh p vào nút l nh Browse.

95 .

Sai s chu n: se = s p 1 / n1 + 1 / n2 v i sp = 2 (n1 − 1) s12 + (n2 − 1) s2 (n1 − 1) + (n2 − 1) . N u chúng ta kí hi u: x1 : giá tr trung bình nhóm 1 x2 : giá tr trung bình nhóm 2 n1 : c m u c a nhóm 1 n2 : c m u c a nhóm 2 2 s1 : phương sai nhóm 1 2 s2 : phương sai nhóm 2 Chúng ta có th xác ñ nh ñ t do.2 .Các giá tr c a bi n s c a c 2 dân s có phân ph i bình thư ng .Ð l ch chu n 2 nhóm dân s là b ng nhau. Ki m ñ nh t g m có (a) Ki m ñ nh t b t c p ñ so sánh trung bình trư c và sau khi can thi p trên m t nhóm và (b) ki m ñ nh t không b t c p ñ so sánh trung bình c a 2 nhóm ñ c l p.ð t do c a ki m ñ nh t: df = n1 + n2 . . ngư i ta tra b ng phân ph i t v i (n1 +n1 . Ki m ñ nh t không b t c p không có gi ñ nh 2 phương sai b ng nhau Ki m ñ nh t không b t c p gi ñ nh 2 phương sai b ng nhau dùng ñ so sánh trung bình c a 2 nhóm ñ c l p và ch ñòi h i 1 gi ñ nh. Thông thư ng n u p <0. Hai lo i ki m ñ nh này có chung nguyên lí nhưng khác nhau trong cách tính toán ñ t do (c a ki m ñ nh t) và cách tính sai s chu n. Có hai lo i ki m ñ nh t không b t c p (khi so sánh trung bình c a 2 nhóm ñ c l p).Th ng kê phân tích bi n s ñ nh lư ng v i Stata Sơ lư c lí thuy t v so sánh 2 trung bình Ki m ñ nh t dùng ñ so sánh 2 trung bình c a c a bi n s ñ nh lương có phân ph i bình thư ng. .Các giá tr c a bi n s c a c 2 dân s có phân ph i bình thư ng N u chúng ta kí hi u: x1 : giá tr trung bình nhóm 1 x2 : giá tr trung bình nhóm 2 96 .2) ñ t do và tính ñư c xác su t p. Ki m ñ nh t không b t c p gi ñ nh 2 phương sai b ng nhau Ki m ñ nh t không b t c p gi ñ nh 2 phương sai b ng nhau dùng ñ so sánh trung bình c a 2 nhóm ñ c l p và ñòi h i 2 gi ñ nh. Ki m ñ nh t có gi ñ nh 2 phương sai b ng nhau và ki m ñ nh t không có gi ñ nh phương sai b ng nhau. sai s chu n và giá tr c a th ng kê t theo công th c sau: .05 ngư i ta bác b gi thuy t H0.Giá tr th ng kê t: t = x1 − x2 x1 − x2 = se s p 1 / n1 + 1 / n2 Sau khi tính ñư c giá tr th ng kê t.

Chúng ta lưu ý các ñ c ñi m sau khi phân tích th ng kê cho các nghiên c u có cùng lo i thi t k này. Ki m ñ nh t b t c p Gi s ñ so sánh hi u qu c a thu c A và thu c B trong c i thi n th tích th ra g ng s c trong 1 giây ñ u tiên (FEV1) ngư i ta cho các b nh nhân tham gia nghiên c u dùng thu c A (hay thu c B) trong m t th i gian và cu i th i gian này ño lư ng FEV1 c a b nh nhân (g i là FEV1A). f .Phép ki m ñ nh này ñư c g i là ki m ñ nh t b t c p. . trung bình c a hi u s này b ng 0. có th s d ng phép bi n ñ i (thư ng là bi n ñ i log) ñ ñưa phân ph i v bình thư ng ho c dùng test phi tham s .n1 : c m u c a nhóm 1 n2 : c m u c a nhóm 2 2 s1 : phương sai nhóm 1 2 s2 : phương sai nhóm 2 Chúng ta có th xác ñ nh ñ t do. Ki m ñ nh phi tham s có ưu ñi m là không ñòi h i gi ñ nh v phân ph i c a bi n s ñ nh lư ng nhưng có khuy t ñi m là không th ư c lư ng ñư c tham s .05 ngư i ta bác b gi thuy t H0.ð t do c a ki m ñ nh t (theo công th c c a Satterthwaite): d . . Tóm l i ki m ñ nh t b t c p là ki m ñ nh ñư c s d ng khi thi t k nghiên c u cho m t ñ i tư ng (hay 2 ñ i tư ng r t gi ng nhau) ñư c th nghi m 2 lo i thu c khác nhau. Thi t k nghiên c u này ñư c g i là th nghi m lâm sàng b t chéo. Thông thư ng n u p <0. Sau ñó cho l i ñ i cho b nh nhân dùng thu c B (hay thu c A) trong m t kho ng th i gian và cu i th i gian này l i ño lư ng FEV1 c a b nh nhân (g i là FEV1B). Và n u không có s khác bi t v hi u qu c a 2 lo i thu c.Giá tr th ng kê t: t = x1 − x2 x −x = 1 2 2 se s12 s 2 + n1 n2 Sau khi tính ñư c giá tr th ng kê t. Ki m ñ nh t b t c p là trư ng h p ñ c bi t c a ki m ñ nh t m t m u.Trong nghiên c u này có 2 bi n s ño lư ng trên cùng dân s : FEV1A và FEV1B .FEV1B)=0 . sai s chu n và giá tr c a th ng kê t theo công th c sau: 2 2    s12 s 2    +      n1 n 2  . Ki m ñ nh phi tham s N u phân ph i không ph i là bình thư ng (thí d như b l ch dương).Khi ñó ki m ñ nh so sánh hi u qu c a thu c A và thu c B cũng ki m ñ nh so sánh giá tr trung bình c a FEV1A và FEV1B ki m ñ nh hi u s (FEV1A . =   4 4 s1 s2   + 2  n12 (n1 − 1) n 2 (n 2 − 1)    2 s12 s2 + .Sai s chu n: se = n1 n2 . ngư i ta tra b ng phân ph i t v i ñ t do phù h p (như tính toán trên) và tính ñư c xác su t p. ñó là như không th ư c lư ng 97 .Các giá tr c a bi n s FEV1A và FEV1B là c a cùng m t b nh nhân nên hi u s (FEV1A FEV1B) cũng là bi n s c a b nh nhân ñó.

chúng ta không th dùng nhi u ki m ñ nh t ñ so sánh t ng c p c a nhóm vì như v y chúng ta s làm tăng nguy cơ c a sai l m lo i 1. n BPT: ñ nh lư ng ðúng BPT: th t ðúng BPT: danh ñ nh ðúng Ki m ñ nh χ2 Không ñ ng nh t BPT: phân ph i bình Phân ph i bình thư ng thư ng ðúng Ki m ñ nh phi tham s ≤ 2 nhóm ðúng Trên 3 nhóm Phương sai ñ ng nh t Phương sai ñ ng nh t ð ng nh t Không ñ ng nh t ð ng nh t Ki m ñ nh t Ki m ñ nh t PS không ñ ng nh t ANOVA Hình 1. Khi ñó h p tho i Use New Data s hi n ra. n m v trí th hai c a thanh công c . th ng kê F chính xác b ng bình phương c a th ng kê t và 2 phương pháp cho ra cùng m t m c ý nghĩa. chúng ta th y có s hi n di n c a th ng kê F (th ng kê Fisher). Khi g p t p tin s li u 98 .M t p tin ivf_v2. Test ANOVA (phân tích phương sai) ñư c xem như là s t ng quát hóa c a test t (test t dùng cho 2 nhóm và test ANOVA dùng cho 2 hay nhi u hơn các nhóm). Chúng ta hãy kh i ñ ng Stata. Phương pháp thích h p ñ ñư c dùng cho trư ng h p này ñư c g i là test ANOVA. Ði u ki n ñ test ANOVA h p l là các giá tr có phân ph i bình thư ng và phương sai c a các nhóm x p x nhau. Khi chúng ta c n so sánh trung bình c a nhi u nhóm. Nh p vào mũi tên bên ph i h p Look in ñ ch n ñĩa thích h p và dùng con chu t nh p vào các thư m c ñ ch n thư m c có ch a s li u.kho ng tin c y 95% hi u s c a trung bình gi a 2 nhóm. Gi i thu t l a ch n ki m ñ nh phù h p cho bi n s ph thu c là bi n ñ nh lư ng Th c hành 1. Trong trư ng h p ch có 2 nhóm. Trong k t xu t c a test ANOVA.dta b ng cách s d ng menu File :: Open hay nh p vào nút công c Open file (Use). Sơ lư c lí thuy t v so sánh các trung bình c a 3 nhóm. M t p tin ivf_v2.

so larger numbers of children need to be studied before firm conclusions can be drawn. The types of malformations reported varied. 23% (249/1092) of the deliveries were multiple births compared with 1% for natural conceptions. c n có thông tin gì trư c khi phân tích s li u: Trư c khi phân tích s li u. Births in Great Britain resulting from assisted conception. The health of the children was not evaluated beyond the perinatal period. 1978-87. The rate of stillbirth. This figure is comparable with population based estimates of the prevalence of congenital malformations.indexed for MEDLINE] S li u này bao g m nh ng bi n s v nh ng ñ a tr sinh m t c a nh ng bà m ñư c th thai trong ng nghi m (in-vitro fertilisation).ivf_v2. T p tin này bao g m 641 ñ a tr và g m 8 bi n s có chi ti t như sau: STT Tên bi n Gi i thích ti ng Anh Gi i thích ti ng Vi t 99 . Gi s chúng ta có thông tin v nghiên c u như sau: MRC Working Party on Children Conceived by In Vitro Fertilisation. 1978-87. perinatal and infant mortality. DESIGN--Survey of children resulting from IVF or GIFT and comparison of their characteristics at birth with national statistics. m c tiêu và thi t k nghiên c u. due to the high frequency of multiple births. MAIN OUTCOME MEASURES--Sex ratio. birth weight. and infant mortality were twice the national average. OBJECTIVE--To describe the characteristics at birth of children conceived by in vitro fertilisation (IVF) or by gamete intrafallopian transfer (GIFT) and to assess whether they differ from those of children conceived naturally. these excesses being due to the high frequency of multiple births.300:1229-1233). BMJ 1990. perinatal mortality. Congenital malformations are comparatively rare. SUBJECTS--1267 Pregnancies conceived by IVF or GIFT. 32% (406) of 1269 babies weighed less than 2500 g compared with 7% in England and Wales.dta. RESULTS--The ratio of male to female births was 1. Nghiên c u này ñã ñư c báo cáo trong t p chí BMJ (1990. ñ c bi t là s li u (bi n s và s các b n ghi). 2. and prevalence of congenital malformations. CONCLUSIONS--Multiple pregnancies often result from assisted conception and are the main determinant of the outcome of the pregnancies and of the health of the children at the time of birth.07:1. Scotland. nhà nghiên c u (hay chuyên viên th ng kê) c n ñ c l i ñ cương nghiên c u. multiplicity. but not entirely. PMID: 2354290 [PubMed .2%) of 1581 babies. stillbirth rate. which resulted in 1581 liveborn or stillborn children. One or more major congenital malformations were detected during the first week of life in 35 (2. and the number of each specific type was small. MRC Working Party on Children Conceived by In Vitro Fertilisation. nh p ñúp vào tên t p tin này ñ m t p tin (ho c nh p vào t p tin này ñ tên t p tin rơi vào h p File Name r i sau ñó nh p vào nút l nh Open ñ m t p tin). Sau khi m t p tin. 24% (278) of 1015 deliveries were preterm compared with 6% in England and Wales. C n nh nh p vào nút công c Stata Log n m v trí th tư t trái trên thanh công c n u mu n lưu tr l i toàn b k t qu phân tích s ñư c th c hi n. SETTING-England. Births in Great Britain resulting from assisted conception. The high percentage of preterm deliveries and of low birthweight babies was largely. gestational age at birth.300:1229-33. The pooling of data from different countries is recommended. and Wales from 1978 to 1987.

bi n nào là bi n ñ c l p.Nh giá . 0=37+tu n) – trên 37 tu n thai) Vi c nh n bi t s li u cũng có th th c hi n b ng cách s d ng l nh describe (nh n phím F3). 0=female birth weight in gms Tu i c a m (năm tu i) Tăng huy t áp thai kì 1= có 0 = không Tu i thai (tính theo tu n) Gi i tính c a tr 1=trai 0=gái Tr ng lư ng sinh tính theo grams. 0: ñ tháng tu n.ð nh lư ng .Th t . ði u này ñ c bi t có ích n u các bi n s và giá tr c a bi n s ñã ñư c dán nhãn ñ y ñ . 3.Ph thu c .Ph thu c 100 .Nh giá . 2=blue collar 2=công nhân.Gây nhi u -ð cl p .Th t .Gây nhi u -ð cl p .Danh ñ nh .ð nh lư ng . 0=no gestational age in weeks sex of baby 1=male.Danh ñ nh . tác gi mu n xác ñ nh tác ñ ng c a tăng huy t áp c a m và tu i thai lên tr ng lư ng thai.ð nh lư ng .Gây nhi u -ð cl p .Nh giá . 2=35-39.Th t . 3=viên ch c) worker.ð nh lư ng .2=35-39. 1=30-34. Occupation of mother (1= self Ngh nghi p m (1= ngh nghenghiep employed. 3=40+) gestational category (1= <37 Sinh non (1: dư i 37 tu n. Như v y trong các bi n s k trên. Tu i c a m phân nhóm (0=<30. bi n s này là gây nhi u.Nh giá . 3=white collar worker) nhomtuoi sinhnon maternal age groups(0=<30.3=40+) 1=30-34.Ph thu c . Trong nghiên c u này.Danh ñ nh .Gây nhi u -ð cl p .Th t .Nh giá . t do.1 2 3 4 5 6 7 8 9 Maso tuoime tang_ha tuoithai gioi tlsosinh identity number of mother and Mã s baby maternal age in years hypertension 1=yes. Bi n s tuoime tang_ha tuoithai gioi tlsosinh nghenghiep Thang ño bi n s . Hư ng d n: B ng s li u viewivf này có ch a nh ng bi n s khác nhau.Ph thu c . bi n nào là bi n s ph thu c. Trong b ng sau hãy xác ñ nh tính ch t c a t ng bi n s b ng cách khoanh tròn vào l a ch n thích h p.Nh giá .Danh ñ nh .Ph thu c .Danh ñ nh Quan h -ð cl p .Gây nhi u -ð cl p .Danh ñ nh .ð nh lư ng .Ph thu c .Th t .

tables.Danh ñ nh .Nh giá .Ph thu c . ñ so sánh tr ng lư ng (bi n ph thu c có phân ph i bình thư ng) 2 nhóm trư c tiên chúng ta c n ph i xem phương sai c a 2 nhóm có b ng nhau hay không. Th c hi n l i các bư c thao tác s li u và th ng kê mô t như chương trư c 5.Gây nhi u .ð nh lư ng .Th t .Nh giá .Ph thu c 4.Danh ñ nh . chúng ta ph i s d ng t-test phương sai không ñ ng nh t hay ki m ñ nh phi tham s . 101 .Th t nhomtuoi sinhnon .Gây nhi u -ð cl p . Hãy so sánh tr ng lư ng c a tr nam và tr n Hư ng d n: Theo gi i thu t ñư c trình bày ñ u chương. N u phương sai 2 nhóm tương ñương chúng ta có th s d ng ttest thông thư ng (t-test phương sai ñ ng nh t)..ð nh lư ng . chúng ta s d ng menu Statistics :: Summaries.Th t . Ki m ñ nh 1: So sánh 2 phương sai ð so sánh trung bình c a m t bi n ñ nh lư ng hai hay nhi u nhóm. Trư c khi phân tích s li u c n th c hi n thao tác s li u và các th ng kê mô t . N u phương sai 2 nhóm không tương ñương.ð nh lư ng . & tests :: Classical tests of hypothesis :: Group variance comparison test.Gây nhi u -ð cl p .

8482 V i giá tr p = 0.891 1.843 ---------+-------------------------------------------------------------------combined | 641 3129.3032 chúng ta không th bác b gi thuy t Ho: ñ l ch chu n c a nhóm tr trai 102 .279 36. sdtest tlsosinh. Std. Bư c 5: Nh p vào nút l nh OK. by(gioi) Variance ratio test -----------------------------------------------------------------------------Group | Obs Mean Std. K t qu ñư c trình bày như sau: .325) lower tail = F_L = F_obs = F(314.434 3113.325) upper tail = F_U = 1/F_obs = Ha: sd(gai) < sd(trai) P < F_obs = 0.127 35.9798 3138.1518 Ha: sd(gai) != sd(trai) P < F_L + P > F_U = 0.137 25.78336 652. Dev.325) observed = F_obs = F(314.3032 0.Sau khi c a s sdtest – Two sample test of variance hi n ra ti n hành 5 bư c sau: Bư c 1: ñ t con tr vào h p văn b n Variable name Bư c 2: ñưa con tr vào c a s Variables và nh p vào bi n tlsosinh ñ ñưa bi n này vào h p văn b n Variable name Bư c 3: ñ t con tr vào h p văn b n Group name variable Bư c 4: ñưa con tr vào c a s Variables và nh p vào bi n gioi ñ ñưa bi n này vào h p văn b n Group name variable. Interval] ---------+-------------------------------------------------------------------gai | 315 3044.715 3283. Err.421 628.122 Ha: sd(gai) > sd(trai) P > F_obs = 0.6603 2974.88521 665.7827 3078.767 -----------------------------------------------------------------------------Ho: sd(gai) = sd(trai) F(314.891 0.507 3179. [95% Conf.819 trai | 326 3211.

ð so sánh trung bình c a m t bi n ñ nh lư ng hai hay nhi u nhóm.group mean comparision tests hi n ra. Ki m ñ nh 2: So sánh 2 trung bình s d ng t-test phương sai ñ ng nh t. chúng ta s d ng menu Statistics :: Summaries.b ng ñ l ch chu n c a nhóm tr gái. tables. Vì v y chúng ta có th s d ng ki m ñ nh t phương sai ñ ng nhát như bư c 2. Ti n hành các bư c sau: 103 . & tests :: Classical tests of hypothesis :: Group mean comparison test C a s ttest.

N u phương sai 2 nhóm tương ñương chúng ta có th s d ng t-test thông thư ng (t-test phương sai ñ ng nh t). chúng ta ph i s d ng t-test phương sai không ñ ng nh t hay ki m ñ nh phi tham s .28 gram.2654 P < t = 0. Err.0012 Ha: diff > 0 t = -3. [95% Conf.Group variance comparison test chúng ta ñưa bi n tlsosinh vào h p văn b n Variable name và bi n tang_ha vào h p văn b n Group name variable r i nh p vào nút l nh OK. Bư c 5: Nh p vào nút l nh OK.0006 Ha: diff != 0 t = -3.6718 -66.137 25.767 ---------+-------------------------------------------------------------------diff | -167.507 3179.2654 P > |t| = 0.Bư c 1: ñ t con tr vào h p văn b n Variable name Bư c 2: ñưa con tr vào c a s Variables và nh p vào bi n tlsosinh ñ ñưa bi n này vào h p văn b n Variable name Bư c 3: ñ t con tr vào h p văn b n Group name variable Bư c 4: ñưa con tr vào c a s Variables và nh p vào bi n gioi ñ ñưa bi n này vào h p văn b n Group name variable. Hãy so sánh tr ng lư ng sơ sinh c a con bà m tăng huy t áp và bà m không tăng huy t áp. ttest tlsosinh. Dev.127 35. Std. chúng ta s d ng menu Statistics :: Summaries.6603 2974.63249 -----------------------------------------------------------------------------Degrees of freedom: 639 Ho: mean(gai) . N u phương sai 2 nhóm không tương ñương. Sau khi c a s sdtest . Interval] ---------+-------------------------------------------------------------------gai | 315 3044. Ki m ñ nh 1: So sánh 2 phương sai ð so sánh trung bình c a m t bi n ñ nh lư ng hai hay nhi u nhóm. tables. Hư ng d n: Theo gi i thu t ñư c trình bày ñ u chương.0012).9798 3138.2654 P > t = 0.88521 665.13 gram. by( tang_ha ) Variance ratio test 104 . V i giá tr t = 3.mean(trai) = diff = 0 Ha: diff < 0 t = -3.9994 Tr l i: Tr trai có tr ng lư ng sơ sinh trung bình là 3211.819 trai | 326 3211.715 3283.78336 652.421 628. 6.2654 và m c ý nghĩa (p-value) là 0. ñ so sánh tr ng lư ng (bi n ph thu c có phân ph i bình thư ng) 2 nhóm trư c tiên chúng ta c n ph i xem phương sai c a 2 nhóm m tăng huy t áp và m không tăng huy t áp có b ng nhau hay không.843 ---------+-------------------------------------------------------------------combined | 641 3129.0012 chúng ta k t lu n có s khác bi t v tr ng lư ng sơ sinh gi a tr trai và tr gái (p=0.434 3113.18935 -267.279 36. by(gioi) Two-sample t test with equal variances -----------------------------------------------------------------------------Group | Obs Mean Std. c a tr gái là 3044. & tests :: Classical tests of hypothesis :: Group variance comparison test.7827 3078. sdtest tlsosinh. K t qu ñư c trình bày như sau: . .1522 51.

C n lưu ý ñánh d u vào h p ki m Unequal variances r i nh p vào nút OK. Ki m ñ nh 2A: so sánh 2 trung bình t-test phương sai không ñ ng nh t ð so sánh trung bình c a m t bi n ñ nh lư ng hai hay nhi u nhóm. by(tang_ha) unequal 105 .78336 652. Interval] ---------+-------------------------------------------------------------------Ha bt | 552 3191. chúng ta s d ng menu Statistics :: Summaries.0003 0.7827 3078. K t qu trình bày như sau: . Err. Std. [95% Conf.58435 601. bi n tang_ha vào h p văn b n Group name variable c a c a s ttest.17222 812.group mean comparison.88) upper tail = F_U = 1/F_obs = Ha: sd(1) < sd(2) P < F_obs = 0.786 Ha tang | 89 2742. & tests :: Classical tests of hypothesis :: Group mean comparison test (xem l i câu 4) và bi n tlsosinh vào h p văn b n Variable name.0003 có nghĩa là phương sai c a tr ng lư ng lúc sinh c a 2 nhóm không ñ ng nh t.88) observed = F_obs = F(551.9471 2570.507 3179.767 -----------------------------------------------------------------------------Ho: sd(huyet ap) = sd(huyet ap) F(551.908 2913.531 25.157 86.-----------------------------------------------------------------------------Group | Obs Mean Std.0000 K t qu cho th y giá tr p = 0.88) lower tail = F_L = F_obs = F(551.829 Ha: sd(1) > sd(2) P > F_obs = 1.406 ---------+-------------------------------------------------------------------combined | 641 3129.547 0.137 25. Dev.547 1.0962 3141. ttest tlsosinh.0000 Ha: sd(1) != sd(2) P < F_L + P > F_U = 0. tables. Vì v y chúng ta không th dùng t-test phương sai ñ ng nh t mà ph i s d ng ttest phương sai không ñ ng nh t (ki m ñ nh 2A) hay ki m ñ nh phi tham s (ki m ñ nh 2B).276 3241.

0001. con c a bà m không tăng huy t áp là 3192 gram.531 25. Std. Dev.0000 Ha: diff > 0 t = 4.157 86.mean(ha tang) = diff = 0 Ha: diff < 0 t = 4.1197 627.9991 P < t = 1.767 ---------+-------------------------------------------------------------------diff | 449.786 ha tang | 89 2742. Ki m ñ nh 2B: so sánh 2 trung bình v i phép ki m phi tham s Mann-Whitney Th c hi n ki m ñ nh phi tham s t ng s p h ng Mann-Whitney (Mann-Whitney rank sum test) b ng d ng menu Statistics :: Summaries.17222 812.7827 3078.0000 Tr l i: Con bà m b tăng huy t áp có tr ng lư ng sơ sinh trung bình là 2742 gram. 106 . Interval] ---------+-------------------------------------------------------------------ha bt | 552 3191.507 3179.0962 3141.Mann-Whitney two-sample statistic hi n ra. S khác bi t này có ý nghĩa th ng kê v i p<0.137 25.78336 652. Sau ñó c a s ranksum .9991 P > t = 0.58435 601.406 ---------+-------------------------------------------------------------------combined | 641 3129.Two-sample t test with unequal variances -----------------------------------------------------------------------------Group | Obs Mean Std.9471 2570.6273 -----------------------------------------------------------------------------Satterthwaite's degrees of freedom: 104. [95% Conf.9991 P > |t| = 0. tables.88999 271.3735 89. & tests :: Non-parametric test of hypotheses :: Mann-Whitney two-sample ranksum test.0000 Ha: diff != 0 t = 4.908 2913. Err.069 Ho: mean(ha bt) .276 3241.

941 Prob > |z| = 0. K t qu như sau: . ranksum tlsosinh.0000 7. by( tang_ha ) Two-sample Wilcoxon rank-sum (Mann-Whitney) test tang_ha | obs rank sum expected -------------+--------------------------------ha bt | 552 185203 177192 ha tang | 89 20558 28569 -------------+--------------------------------combined | 641 205761 205761 unadjusted variance adjustment for ties adjusted variance 2628348.22 Ho: tlsosinh(tang_ha==ha bt) = tlsosinh(tang_ha==ha tang) z = 4.78 ---------2628203. chúng ta ph i s d ng phương pháp phân tích ANOVA m t chi u.Ti n hành các bư c sau: Bư c 1: ñ t con tr vào h p văn b n Variable name Bư c 2: ñưa con tr vào c a s Variables và nh p vào bi n tlsosinh ñ ñưa bi n này vào h p văn b n Variable name Bư c 3: ñ t con tr vào h p văn b n Group name variable Bư c 4: ñưa con tr vào c a s Variables và nh p vào bi n tang_ha ñ ñưa bi n này vào h p văn b n Group name variable. Hư ng d n: ð so sánh trung bình c a m t bi n ñ nh lư ng nhi u nhóm. S d ng menu Statistics :: ANOVA/MANOVA :: oneway analysis of variance 107 .00 -144. Hãy so sánh tr ng lư ng sơ sinh c a tr sinh ra t con c a các nhóm ngh nghi p khác nhau c a ngư i m . Bư c 5: Nh p vào nút l nh OK.

Bư c 3: ñ t con tr vào h p văn b n Factor Bư c 4: ñưa con tr vào c a s Variables và nh p vào bi n nghenghiep ñ ñưa bi n này vào h p văn b n Factor. Bư c 5: ðánh d u vào h p ki m Produce summary table ñ th hi n th ng kê mô t tr ng lư ng sơ sinh trung bình các nhóm ngh nghi p Bư c 6: ðánh d u vào h p ki m Scheffe ñ có ki m ñ nh so sánh tr ng lư ng trung bình t ng c p ñôi ngh nghi p khác nhau Bư c 7: Nh p vào nút l nh OK 108 .Do chúng ta mu n phân tích tác ñ ng c a y u t ngh nghi p m (nghenghiep) lên tr ng lư ng sinh c a tr (tlsosinh) khi c a s oneway hi n lên. ta ti n hành các bư c sau: Bư c 1: ñ t con tr vào h p văn b n Response variable Bư c 2: ñưa con tr vào c a s Variables và nh p vào bi n tlsosinh ñ ñưa bi n này vào h p văn b n Response Variable.

19 Bartlett's test for equal variances: chi2(2) = 0. Ta ñ c k t qu c a b ng ANOVA. Freq. nhưng trư c tiên chúng ta hãy ki m tra các ñi u ki n c a phân tích ANOVA là (a) bi n s ph thu c có phân ph i bình thư ng . c a bà m v i ngh nghi p là 3118 gram.ñi u này ñã ñư c xác nh n t ñ th c a tr ng lư ng sơ sinh và (b) phương sai c a bi n ph thu c các nhóm b ng nhau .00 0.Trên c a s Output.875 -----------------------------------------------------------------------Total 272720122 640 426125.3177 654. Analysis of Variance Source SS df MS F Prob > F -----------------------------------------------------------------------Between groups 3381483.084 646.69338 238 vien chuc | 3189. Chúng ta bi t ki m ñ nh ANOVA có th s d ng ñ ki m ñ nh s khác bi t v trung bình c a nhi u nhóm.0558 Prob>chi2 = 0. 109 .78 4. 2=cong | Summary of trong luong so sinh nhan.0187 Within groups 269338638 638 422160.1=tu | do.19649 299 ------------+-----------------------------------Total | 3129. Dev.1373 652.78265 641 Con bà m ngh nghi p t do có tr ng lư ng trung bình là 2981 gram.ñi u này cũng ñư c xác nh n qua th ng kê Bartlett v i p-value là 0.4135 643. ------------+-----------------------------------tu do | 2981. c a bà m v i ngh nghi p viên ch c là là 3190 gram. trên cùng th ng kê mô t c a s li u v tr ng lư ng sơ sinh theo nhóm tu i c am : nghe nghiep | me .76283 104 cong nhan | 3118.56 2 1690741. | (gram) 3=vien chuc | Mean Std.973.973 Vì v y trong trư ng h p này ki m ñ nh ANOVA là có giá tr .

H s tương quan r dương ch ng t hai bi n s là ñ ng bi n. N u chúng có giá tr dương có nghĩa là hai bi n s ñ ng bi n v i nhau. có th k t lu n có s khác bi t v tr ng lư ng sơ sinh c a con 2 nhóm ngh nghi p viên ch c và t do (giá tr p=0.Chúng ta có ñư c giá tr F = 0.202 | vien chu | 207. 3=vien chuc (Scheffe) Row Mean-| Col Mean | tu do cong nha ---------+---------------------cong nha | 136. Giá tr tuy t ñ i c a h s tương quan càng g n m t nghĩa là hai bi n s có liên h ch t v i nhau và vai trò c a sai s ng u nhiên s ít hơn.2 d và 9.1=tu do. V i k t lu n này chúng ta có th k t lu n là có ít nh t có 1 c p ñôi (2 nhóm) ngh nghi p c a m có s khác bi t v tr ng lư ng con nhưng chúng ta không bi t là s khác bi t này c p ñôi ngh nghi p nào. Bình phương c a h s tương quan (r2) th hi n t l các bi n thiên c a bi n s ph thu c có th ñư c gi i thích b ng bi n s ñ c l p. ð bi t c p ñôi nào có s khác bi t ta xem k t xu t c a so sánh sau ki m ñ nh (posthoc test) c a Scheffe: Comparison of trong luong so sinh (gram) by nghe nghiep me .2f). h s tương quan r âm ch ng t hai bi n s là ngh ch bi n.H s tương quan luôn luôn n m trong ño n [-1. N u tr tuy t ñ i c a r nh hơn 1 s có các ñi m s li u phân tán chung quanh ñư ng h i quy.2337 | 0. Khi tr tuy t ñ i c a h s tương quan b ng m t có nghĩa là hoàn toàn không có sai s ng u nhiên. h s tương quan b ng zero n u hai bi n không liên h .904 71. D a vào giá tr p.Tr s tuy t ñ i c a h s tương quan r nói lên m c ñ liên quan gi a hai bi n s . N u tr tuy t ñ i c a r b ng 1 (r=1 hay r=-1).020 0.020) và nhóm ngh nghi p viên ch c có tr ng lư ng trung bình cao hơn nhóm ngh nghi p t do là 207. .1] .9723 chúng ta k t lu n không có s khác bi t v tr ng lư ng sơ sinh con c a nh ng bà m có ngh nghi p khác nhau. Lo i h s tương quan ñư c s d ng ph bi n nh t là h s tương quan Pearson r: r= ∑ ( x − x )( y − y ) ∑ (x − x) ∑ ( y − y) i i 2 2 i i Lí gi i ý nghĩa c a h s tương quan: .0187 và m c ý nghĩa (p-value) là 0. nhưng chúng ñ u có giá tr t -1 ñ n 1.9 gram. Nh c l i lí thuy t v Tương quan và ư c lư ng Tương quan là s ño m c ñ hai bi n s ñ nh lư ng cùng thay ñ i v i nhau. 110 . Có nhi u lo i h s tương quan. quan h hoàn toàn tuy n tính nghĩa là t t c các ñi m n m trên ñư ng h i quy (Hình 9.671 | 0. N u h s tương quan có giá tr b ng zero có nghĩa là hai bi n s ñ c l p và không quan h gì v i nhau. n u chúng có giá tr âm nghĩa là hai bi n s ngh ch bi n.451 K t qu c a ki m ñ nh Scheffe ñư c trình bày theo b ng và m i ô c a b ng có 2 con s : con s trên th hi n s khác bi t v tr ng lư ng c a ngh nghi p c a hàng so v i ngh nghi p c a c t và giá tr dư i th hi n giá tr i p (m c ý nghĩa) c a s khác bi t này. 2=cong nhan.

hay còn g i là ñi m ch n (intercept) 0. quan h v i r t 0. V phân tán ñ (scattergram) gi a c a bi n s tu i thai (tuoithai) và tr ng lư ng thai (tlsosinh)..5 quan h trung bình và trên 0.Theo quy ư c. t 0.N u r=0.3 ñ n 0. ð ki m ñ nh h s tương quan Pearson có th c s khác 0 hay không.Bình phương c a h s tương quan (r2) th hi n t l bi n thiên c a bi n s ph thu c ñư c gi i thích b ng s bi n thiên c a bi n s ñ c l p (n u m i liên h này là nhân qu ) . không có m i liên h tuy n tính gi a hai bi n s .5 là quan h m nh.18: h s (Coeficient) c a bi n s tháng tu i hay còn g i là ñ d c (Slope) c a ñư ng h i quy 9.18 x tháng tu i (phương trình h i quy tính cân n ng c a tr t 9 ñ n 40 tháng tu i theo tháng tu i) theo phương trình này ngư i ta g i: cân n ng: bi n s ph thu c tháng tu i: bi n s ñ c l p 6.1 ñ n 0. M t phương trình h i quy có th có d ng như sau: cân n ng (kg) = 6. 1− r2 H i quy H i quy là m t mô hình toán h c mô t s bi n ñ i c a m t bi n s này theo nh ng bi n s khác.3 là quan h y u. Ði u quan tr ng là s tương quan gi a hai bi n s cho th y s liên h nhưng không nh t thi t có nghĩa là cá quan h 'nhân qu '.85 + 0.85: h s c a h ng s (Constant). Ði u này có nghĩa là (1) không có m i liên h gì gi a hai bi n s ho c (2) m i liên h gi a hai bi n s không ph i là tuy n tính. Hư ng d n: s d ng menu Graphics :: Overlaid twoway graph ñ hi n ra c a s twoway – Twoway graphs 111 . . ki m ñ nh t có th ñư c s d ng t=r n−2 có phân ph i student v i n-2 ñ t do.

Cách làm c th t ng bư c như sau: Bư c 1: Trên h p combo Type ch n Scatter Bư c 2: ð t tên bi n s ñ c l p (tuoithai) vào ô văn b n X Bư c 3: ð t tên bi n s ph thu c (tlsosinh) vào ô văn b n Y Bư c 4: Nh p nút l nh OK Có th cho ñ th phân tán. • B sung tiêu ñ “tuoi thai (tuan tuoi)" cho tr c hoành 112 .Trên c a s twoway – Twoway graphs. Tuy nhiên chúng ta có th thêm các tùy ch n ñ th c hi n các yêu c u sau: • B sung tiêu ñ “tr ng lư ng tr sơ sinh (gam)" cho tr c tung • Cho các giá tr tr c y t 500 ñ n 5000 gram và chia các kho ng 500 gram. nh p tên bi n s ph thu c vào h p Y-axis variable và tên bi n s ñ c l p vào h p X-axis variable sau ñó nh p OK ñ xem bi u ñ phân tán.

tu i thai (tuoithai) và tu i c a m (tuoime) Hư ng d n: S d ng menu Statistics :: Summaries. 10. M i tương quan này khá ch t do ñám mây có tính ch t ñi lên (khi nó ñi v ph i) và có ñư ng kính bé nh hơn nhi u so v i ñư ng kính l n. Hãy xác ñ nh h s tương quan gi a tr ng lư ng sơ sinh (tlsosinh). Tr l i: Có s tương quan thu n tuy n tính gi a tr ng lư ng sơ sinh và tu i thai. 113 . & tests :: Summary statistics :: Pairwise correlations.• Cho các giá tr c a tr c x t 24 tu n tu i ñ n 42 tu n tu i và chia làm các kho ng 4 tu n B ng cách trong c a s Trên c a s twoway – Twoway graphs th c hi n các bư c: Trên th Plot 1: Bư c 1: Trên h p combo Type ch n Scatter Bư c 2: ð t tên bi n s ñ c l p (tuoithai) vào ô văn b n X Bư c 3: ð t tên bi n s ph thu c (tlsosinh) vào ô văn b n Y Trên th Y-Axis: Bư c 4: Trên h p văn b n Title gõ "Trong luong tre so sinh (gam)" Bư c 5: Trên h p văn b n Rule gõ quy t c "500(500)5000" Bư c 6: Trên h p combo Angle ch n "Horizontal" Trên th X-Axis: Bư c 7: Trên h p văn b n Title gõ "Tuoi thai (tuan)" Bư c 8: Trên h p văn b n Rule gõ quy t c "24(2)42" Và nh p vào nút l nh OK. tables.

Khi ñó h p tho i pwcorr – Pairwise correlations of variables s hi n ra. 114 .

0000 | | tuoithai | 0.3941).0337 (giá tr p = 0. pwcorr tlsosinh tuoithai tuoime. . Bư c 3: ðánh d u vào h p ki m Print significance level for each entry Bư c 4: ðánh d u vào h p ki m Significance level for displaying with a star.0000 | 0.Ti n hành các bư c sau: Bư c 1: Nh p con tr chu t vào h p văn b n Variables Bư c 2: ðưa con tr chu t vào c a s Variables và nh p vào các bi n tlsosinh.0000 | tuoime | 0.7376 (giá tr p=0. gi a tr ng lư ng thai và tu i thai là 0. Hư ng d n: S d ng phương pháp h i quy ñơn b ng cách nh p vào menu "Statistics :: Linear regression and related :: Linear regression" ñ hi n ra h p tho i regress – Linear regression 115 .0151 1.7026 Tr l i: Chương trình cho k t qu h s tương quan c a tr ng lư ng thai v i tr ng lư ng thai là 1. Như v y có s tương quan m nh có ý nghĩa th ng kê gi a tr ng lư ng thai và tu i thai trong khi ñó s tương quan gi a tr ng lư ng thai và tu i m r t y u và không có ý nghĩa th ng kê. bi n tuoithai và bi n tuoime ñ tên 3 bi n này xu t hi n h p văn b n Variables. Bư c 5: Nh p vào nút l nh OK ñ xem k t qu . Do có s liên h có ý nghĩa th ng kê (giá tr p <0. Hãy xây d ng phương trình h i quy c a tr ng lư ng thai theo tu i thai.3941 0.0000).0000 | 0.0337 0. 11.05) gi a tr ng lư ng thai và tu i thai nên giá tr c a h s tương quan ñư c ñánh d u sao (*).7376* 1. sig star(5) | tlsosinh tuoithai tuoime -------------+--------------------------tlsosinh | 1. gi a tr ng lư ng thai và tu i c a m là 0.

4% nói lên tu i thai có th gi i thích cho 54. D a vào b ng các h s chúng ta có th xây d ng phương trình h i quy như sau: Tr ng lư ng sơ sinh = -4865.45 chính là giá tr 148.19 Number of obs F( 1.544 = 54.3 tri u c a s sai l ch này (như v y còn 124.641 x tu i thai (tính theo tu n).Nh p tên bi n s ph thu c vào h p Dependent variable và tên bi n s ñ c l p vào h p Independent variable r i nh n OK ñ ti p t c.0000 0.7 tri u) mà phương trình h i quy có th gi i thích cho 148.772 0. K t qu ñư c trình bày như sau: .4% s thay ñ i v tr ng lư ng sơ sinh.000 -5434.0814 -16. Interval] ---------+-------------------------------------------------------------------tuoithai | 206.6412 7. regress tlsosinh tuoithai Source | SS df MS ---------+-----------------------------Model | 148354317 1 148354317 Residual | 124365805 639 194625. B ng ANOVA cho bi t có t ng các sai l ch c a bình phương tr ng lư ng sơ sinh 272.609 0. M c ý nghĩa ñư c trình bày trong b ng ANOVA cho bi t m c ý nghĩa c a phương trình. t P>|t| [95% Conf.3/272.617 Tr l i: H s tương quan bình phương R-squared = 0.5433 441.673 ---------+-----------------------------Total | 272720122 640 426125.873 -4295.122 (272. Std.9439 221.245 290.25 0.245 + 206.7).5440 0.720. Err.16 tlsosinh | Coef. H s (coefficient) c a bi n s ñ c l p nói lên s thay ñ i c a bi n s ph thu c khi bi n s 116 .3386 _cons | -4865. M c ý nghĩa (P-value) c a bi n s tu i thai (Gestational age) là k t qu c a ki m ñ nh ý nghĩa c a bi n s này trong phương trình có th c s khác không hay không.000 191. 639) Prob > F R-squared Adj R-squared Root MSE = = = = = = 641 762.484572 27.4 tri u t ng bình phương sai l ch chưa ñư c gi i thích g i là Residual Sum of Square và giá tr 0.

08 0.438 ------------------------------------------------------------------------------ Tr l i: Chúng ta tìm ñư c r2 (R-squared) là 0.71 0.9335 tang_ha | -142.14 50.71 -----------------------------------------------------------------------------tlsosinh | Coef.1447 -16. regress tlsosinh tuoithai gioi tang_ha Source | SS df MS -------------+-----------------------------Model | 153998584 3 51332861. 12.000 186.91 0.04 -------------+-----------------------------Total | 272720122 640 426125.4248 7.8167 34. r i nh n OK ñ ti p t c.5647 0.659 -4151.541441 26. 637) Prob > F R-squared Adj R-squared Root MSE = = = = = = 641 275. Hư ng d n: S d ng phương pháp h i quy ñơn b ng cách nh p vào menu "Statistics :: Linear regression and related :: Linear regression" ñ hi n ra h p tho i regress – Linear regression Nh p tên bi n s ph thu c (tlsosinh) vào h p Dpendent variable và tên các bi n s ñ c l p (tuoithai gioi tang_ha) vào h p Idependent variables.000 -5306.2339 gioi | 167.79 0. Err.641 gram.17884 4.000 100. .ñ c l p thay ñ i m t ñơn v . Interval] -------------+---------------------------------------------------------------tuoithai | 201.5626 431.005 -242.43 0. t P>|t| [95% Conf. Trong phương trình này (v i bi n s ñ c l p là TUOITHAI và bi n s ph thu c là TLSOSINH) chúng ta có th lí gi i n u ñ a tr l n hơn 1 tu n tu i tr ng lư ng lúc sanh c a nó s tăng thêm 206.6157 216.5647 cho th y phương trình h i quy gi i thích 117 . Hãy xây d ng phương trình h i quy c a tr ng lư ng thai theo tu i thai. Khi ñó h p tho i ch n ñoán s hi n ra.19 Number of obs F( 3. gi i tính c a tr và huy t áp cao c a m .048 294.6999 234.0302 -42. Tuy nhiên n u chúng ta không quan tâm ñ n vi c ch n ñoán các v n ñ trong phương trình h i quy chúng ta hãy nh p vào nút Cancel.0000 0.24979 _cons | -4729.8685 -2. Std.4 Residual | 118721538 637 186376.

048 + tu i thai x 201.4 là phù h p hơn ñ ñánh giá s tăng trư ng c a tr ng lư ng thai. tr ng bi n s ph thu c c a phương trình h i quy s s gi m ñi 142. tr ng bi n s ph thu c c a phương trình h i quy s tăng lên 167.14 gram so v i phương trình (a) nên phương trình h i quy cho nhóm này là Tr ng lư ng thai = -4871. Chúng ta nh l i quy ư c c a t p tin này: Bi n tăng huy t áp (tang_ha) có giá tr =0 n u m không b tăng huy t áp Bi n gi i tính (gioi) có giá tr =0 n u tr là tr gái a) Do ñó phương trình h i quy ñ i v i tr gái có m không tăng huy t áp là: Tr ng lư ng thai = -4729.425 (b) c) tr gái v i m b tăng huy t áp.4) trong khi ñó mô hình tr ng lư ng thai = tu i thai (choh s c a bi n s tu i thai là 206. tr ng bi n s ph thu c c a phương trình h i quy s s gi m ñi 142.048 + tu i thai x 201.817. 13.tăng huy t áp x 142.817 10.14 + gi i x 167. Trong khi mô hình c a tr ng lư ng 118 .425 . Chúng ta cũng có th vi t ñư c phương trình h i quy theo k t qu trên: Tr ng lư ng thai = -4729.23 + tu i thai x 201. H s trong mô hình nào là phù h p hơn ñ ñánh giá s tăng trư ng c a tr ng lư ng thai. Do tăng huy t áp c a m có th làm gi m tr ng lư ng c a con và trong tăng huy t áp c a m ph bi n hơn nhóm sanh thi u tháng nên ñ a tr sinh s m 1 tu n b m t tr ng lư ng là 206.425 (a) b) tr trai v i m không tăng huy t áp.817 gram nên phương trình h i quy s là Tr ng lư ng thai = -4561.ñư c 56.425 Do các m c ý nghĩa (p-value) c a bi n s ñ u nh hơn 0. Xét hai mô hình tr ng lư ng thai = tu i thai + tăng huy t áp m + gi i tính (cho h s c a bi n s tu i t hai là 201.6 gram nhưng ñi u này là c do tác ñ ng c a sanh non và c tác ñ ng do tăng huy t áp m t s bà m . S d ng ki m ñ nh t chúng ta phát hi n tr ng lư ng tr con các bà m b tăng huy t áp th p hơn con nh ng ngư i không tăng huy t áp là 449. B n có g i ý gì ñ trình bày phương trình h i quy m t cách d hi u hơn ñ i v i ngư i không chuyên v th ng kê.14 hay gi i v i 167.425 d) tr trai v i m b tăng huy t áp.05 nên t t c các bi n s ñ c l p c a mô hình ñ u có ý nghĩa th ng kê và không nên lo i b kh i mô hình.37 gram.6 nên có th b qua tác ñ ng gây nhi u c a tăng huy t áp c a m lên t c ñ phát tri n thai.47% s bi n thiên c a tr ng lư ng thai và ñi u này cho th y mô hình có c gi i tính và tăng huy t áp gi i thích t t hơn so v i mô hình ch có tu i thai (r2=0.6). 14.14 gram so v i phương trình (b) nên phương trình h i quy cho nhóm này là Tr ng lư ng thai = -4703.19 + tu i thai x 201. Trên th c ti n do con s 201. Hư ng d n: B i vì ngư i không chuyên v th ng kê hay ngư i chưa ñư c làm quen v i phương pháp mã hoá s không bi t làm sao ñ nhân tăng huy t áp v i 142.4 gram và do ñó con s 201.37 + tu i thai x 201. Tr l i: Chúng ta có th gi ñ nh y u t tăng huy t áp c a m là y u t gây nhi u. Tuy nhiên nhóm không b tăng huy t áp tr sanh non m t tu n ch b m t có 201.54).4 r t g n v i con s 206.

37 Chúng ta có th xem xét tác ñ ng c a cơ ch sinh thi u tháng trong khi so sánh tr ng lư ng sơ sinh c a 2 nhóm m tăng huy t áp và m không tăng huy t áp b ng cách so sánh tu i thai trung bình gi a 2 nhóm.22 = = = 0.taùc ñoäng hieäu chænh 449.14 gram.37g Cao huyeát aùp meï Sinh thieáu thaùng Troïng löôïng con Như v y % tác ñ ng do cơ ch sinh thi u tháng trong t ng s tác ñ ng c a tăng huy t áp m lên tr ng lư ng c a con là: = taùc ñoäng thoâ .14 là con s khác bi t có hi u ch nh theo tháng tu i và gi i tính.37 449.14 307. S khác bi t v tu i thai s gi i thích cho kho ng 200 gram/tu n x 1. 119 . Hãy lí gi i nh ng s li u này? Tr l i: C hai con s 449.37 − 142.6 tu n. • con các bà m b tăng huy t áp có tr ng lư ng nh con nh ng ngư i không tăng huy t áp là 142. D a vào nh n xét trên ta có gi i thích nh ng con s này như sau: • con các bà m b tăng huy t áp có tr ng lư ng nh con nh ng ngư i không tăng huy t áp là 449.23 g 142.14 gram và ñi u này do tác ñ ng c a c tăng huy t áp khi không xét ñ n tác ñ ng c a tu i thai.68 = 68% taùc ñoäng thoâ 449.6 =320 gram tr ng lư ng sơ sinh. Như v y tác ñ ng do sinh thi u tháng là 449.14 ñ u nói lên s khác bi t do tình tr ng tăng huy t áp c a m nhưng con s 449. tu i thai (và c tác ñ ng c a gi i tính nhưng gi s chúng ta bi t r ng tác ñ ng gây nhi u cao gi i tính là không ñáng k ).37 và 142.37 gram và ñi u này do tác ñ ng c a c tăng huy t áp.9 và s khác bi t v tu i thai là 1.37-142.sinh theo tu i thai.14g Cô cheá khaùc 449.37 là con s khác bi t thô và con s 142.14 = 307. tăng huy t áp m và gi i tính cho h s c a bi n tăng huy t áp là 142. Nhóm có m b tăng huy t áp có tu i thai trung bình là 37.3 tu n trong khi ñó nhóm m không b tăng huy t áp có tu i thai trung bình là 38.

You're Reading a Free Preview

Tải về
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->