P. 1
Giáo trình nghiên cứu khoa học

Giáo trình nghiên cứu khoa học

|Views: 3,312|Likes:
Được xuất bản bởituananh08qb2

More info:

Published by: tuananh08qb2 on Dec 17, 2011
Bản quyền:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

05/19/2013

pdf

text

original

Sections

  • Phương pháp nghiên cứu khoa học
  • Nghiên cứu khoa học là gì:
  • Các đặc điểm của một nghiên cứu khoa học tốt
  • Ðại cương về thống kê và thống kê mô tả
  • Một số định nghĩa
  • Biến số và các loại biến số
  • Phương pháp mô tả tóm tắt và trình bày số liệu
  • Phương pháp trình bày số liệu
  • Ðại cương về phân tích số liệu
  • Suy luận thống kê
  • Xác định và chọn ưu tiên nghiên cứu
  • Mục tiêu
  • Xác định vấn đề
  • Tiêu chuẩn chọn ưu tiên cho vấn đề nghiên cứu
  • Thang điểm đánh giá các chủ đề nghiên cứu
  • Bảng điểm
  • Phương pháp phân tích và khẳng định vấn đề nghiên cứu
  • Phân tích vấn đề
  • Các bước để phân tích vấn đề
  • Xác định phạm vi và trọng tâm của nghiên cứu
  • Xây dựng phần đặt vấn đề
  • Các thông tin cần thiết trong phần đặt vấn đề
  • Tổng quan y văn
  • Tại sao cần phải tham khảo y văn khi chuẩn bị đề cương nghiên cứu
  • Những nguồn thông tin có thể tham khảo
  • Cách viết phần tổng quan
  • Sai lệch có thể
  • Mục tiêu nghiên cứu
  • Mục tiêu học tập:
  • Mục tiêu nghiên cứu là gì:
  • Tại sao phải xây dựng mục tiêu nghiên cứu
  • Yêu cầu của mục tiêu nghiên cứu
  • Giả thuyết nghiên cứu
  • Tên đề tài nghiên cứu
  • Thảo luận nhóm
  • Giới thiệu về phương pháp nghiên cứu khoa học y học
  • Biến số
  • Biến số định tính và biến số định lượng
  • Ðịnh nghĩa cụ thể
  • Biến số độc lập - phụ thuộc - gây nhiễu
  • Kiểm soát yếu tố gây nhiễu
  • Biến số nền (background variables)
  • Các loại nghiên cứu
  • Mở đầu
  • Một số loại nghiên cứu
  • Nghiên cứu không can thiệp
  • Nghiên cứu can thiệp
  • Tính giá trị và tính tin cậy của kết quả nghiên cứu
  • Các số đo dịch tễ học
  • I. Mở đầu:
  • II. Số đo tuyệt đối và số đo tương đối
  • III. Tỉ số, tỉ lệ, tỉ suất
  • IV. Số đo dịch tễ
  • Số đo hậu quả và số đo tác động
  • I. Nhắc lại về số đo sự xuất hiện của bệnh: tỉ suất, nguy cơ và số chênh
  • II. Số đo sự kết hợp - số đo hậu quả
  • III. Số đo tỉ số
  • IV. Số đo hiệu số
  • V. Biện luận thêm về tỉ số nguy cơ và hiệu số nguy cơ
  • VI. Số đo tác động
  • VII. Bàn luận thêm về phân số nguy cơ quy trách dân số
  • Phương pháp thu thập số liệu
  • Sử dụng thông tin sẵn có
  • Quan sát
  • Phỏng vấn mặt đối mặt và bộ câu hỏi tự điền
  • Thiết kế bộ câu hỏi
  • Lấy mẫu điều tra
  • Mục tiêu:
  • Ðại cương về phương pháp lấy mẫu:
  • Các phương pháp lẫy mẫu xác suất:
  • Cách tính cỡ mẫu
  • Giới thiệu
  • Hai cách tiếp cận trong tính cỡ mẫu
  • Các điểm cần lưu ý trong tính cỡ mẫu
  • Tính cỡ mẫu bằng phần mềm Epi Info:
  • Thí dụ
  • Chiến lược phân tích số liệu
  • Cài đặt chương trình Stata 8.0 và số liệu mẫu
  • Khởi động và kết thúc Stata
  • Mô tả ngắn gọn về Stata
  • Lệnh more
  • Thông báo lỗi và mã phản hồi
  • Phím break
  • Sử dụng bàn phím trong Stata
  • Khởi động Stata
  • 1. Khởi động Stata
  • 2. Mô tả giao diện của chương trình Stata
  • 3. Cách cách để thực hiện lệnh trong chương trình Stata
  • 4. Lưu lại kết quả phân tích
  • Mô tả số liệu với Stata 8.0 for Windows
  • Thống kê phân tích biến số định lượng với Stata
  • Thực hành

MỤC LỤC

Phương pháp nghiên cứu khoa học ................................................................................................. 1
Mục tiêu: ..................................................................................................................................... 1
Nghiên cứu khoa học là gì: ......................................................................................................... 1
Các đặc điểm của một nghiên cứu khoa học tốt ......................................................................... 1
Ðại cương về thống kê và thống kê mô tả ....................................................................................... 3
Một số định nghĩa ........................................................................................................................ 3
Biến số và các loại biến số .......................................................................................................... 3
Phương pháp mô tả tóm tắt và trình bày số liệu .......................................................................... 3
Các số thống kê mô tả ................................................................................................................. 4
Phương pháp trình bày số liệu ..................................................................................................... 6
Ðại cương về phân tích số liệu ...................................................................................................... 14
Suy luận thống kê ...................................................................................................................... 15
Xác định và chọn ưu tiên nghiên cứu ............................................................................................ 28
Mục tiêu .................................................................................................................................... 28
Xác định vấn đề ......................................................................................................................... 28
Tiêu chuẩn chọn ưu tiên cho vấn đề nghiên cứu ....................................................................... 28
Thang điểm đánh giá các chủ đề nghiên cứu ............................................................................ 29
Bảng điểm ................................................................................................................................. 30
Phương pháp phân tích và khẳng định vấn đề nghiên cứu ............................................................ 31
Mục tiêu .................................................................................................................................... 31
Phân tích vấn đề ........................................................................................................................ 31
Các bước để phân tích vấn đề ................................................................................................... 31
Xác định phạm vi và trọng tâm của nghiên cứu ........................................................................ 34
Xây dựng phần đặt vấn đề ......................................................................................................... 35
Các thông tin cần thiết trong phần đặt vấn đề ........................................................................... 35
Tổng quan y văn ............................................................................................................................ 36
Mục tiêu ................................................................................................................................... 36
Tại sao cần phải tham khảo y văn khi chuẩn bị đề cương nghiên cứu ...................................... 36
Những nguồn thông tin có thể tham khảo ................................................................................. 36
Cách viết phần tổng quan .......................................................................................................... 37
Sai lệch có thể ........................................................................................................................... 37
Mục tiêu nghiên cứu ...................................................................................................................... 39
Mục tiêu học tập: ....................................................................................................................... 39
Mục tiêu nghiên cứu là gì: ........................................................................................................ 39
Tại sao phải xây dựng mục tiêu nghiên cứu .............................................................................. 39
Yêu cầu của mục tiêu nghiên cứu ............................................................................................. 39
Giả thuyết nghiên cứu ............................................................................................................... 40
Tên đề tài nghiên cứu ................................................................................................................ 40
Thảo luận nhóm ......................................................................................................................... 40
Giới thiệu về phương pháp nghiên cứu khoa học y học ................................................................ 41
i
Mục tiêu .................................................................................................................................... 41
Giới thiệu ................................................................................................................................... 41
Biến số ........................................................................................................................................... 43
Mục tiêu .................................................................................................................................... 43
Biến số ....................................................................................................................................... 43
Biến số định tính và biến số định lượng .................................................................................... 43
Ðịnh nghĩa cụ thể ...................................................................................................................... 44
Biến số độc lập - phụ thuộc - gây nhiễu .................................................................................... 45
Kiểm soát yếu tố gây nhiễu ....................................................................................................... 45
Biến số nền (background variables) .......................................................................................... 46
Các loại nghiên cứu ....................................................................................................................... 50
Mục tiêu .................................................................................................................................... 50
Mở đầu ...................................................................................................................................... 50
Một số loại nghiên cứu .............................................................................................................. 50
Nghiên cứu không can thiệp ..................................................................................................... 50
Nghiên cứu can thiệp ................................................................................................................ 54
Tính giá trị và tính tin cậy của kết quả nghiên cứu ................................................................... 55
Các số đo dịch tễ học .................................................................................................................... 56
I. Mở đầu: .................................................................................................................................. 56
II. Số đo tuyệt đối và số đo tương đối ....................................................................................... 56
III. Tỉ số, tỉ lệ, tỉ suất ................................................................................................................. 56
IV. Số đo dịch tễ ....................................................................................................................... 57
Số đo hậu quả và số đo tác động ................................................................................................... 59
I. Nhắc lại về số đo sự xuất hiện của bệnh: tỉ suất, nguy cơ và số chênh ................................. 59
II. Số đo sự kết hợp - số đo hậu quả .......................................................................................... 59
III. Số đo tỉ số ............................................................................................................................ 59
IV. Số đo hiệu số ....................................................................................................................... 61
V. Biện luận thêm về tỉ số nguy cơ và hiệu số nguy cơ ............................................................ 62
VI. Số đo tác động ..................................................................................................................... 63
VII. Bàn luận thêm về phân số nguy cơ quy trách dân số ......................................................... 65
Phương pháp thu thập số liệu ........................................................................................................ 66
Sử dụng thông tin sẵn có ........................................................................................................... 66
Quan sát ..................................................................................................................................... 66
Phỏng vấn mặt đối mặt và bộ câu hỏi tự điền ........................................................................... 67
Thiết kế bộ câu hỏi .................................................................................................................... 67
Lấy mẫu điều tra ............................................................................................................................ 71
Mục tiêu: ................................................................................................................................... 71
Ðại cương về phương pháp lấy mẫu: ........................................................................................ 71
Các phương pháp lẫy mẫu xác suất: .......................................................................................... 72
Cách tính cỡ mẫu ........................................................................................................................... 79
Mục tiêu .................................................................................................................................... 79
Giới thiệu ................................................................................................................................... 79
ii
Hai cách tiếp cận trong tính cỡ mẫu .......................................................................................... 79
Các điểm cần lưu ý trong tính cỡ mẫu ...................................................................................... 81
Tính cỡ mẫu bằng phần mềm Epi Info: ..................................................................................... 81
Thí dụ ........................................................................................................................................ 83
Chiến lược phân tích số liệu .......................................................................................................... 84
Cài đặt chương trình Stata 8.0 và số liệu mẫu .............................................................................. 90
Khởi động và kết thúc Stata ......................................................................................................... 93
Mô tả ngắn gọn về Stata ................................................................................................................ 97
Lệnh more ..................................................................................................................................... 99
Thông báo lỗi và mã phản hồi ..................................................................................................... 100
Phím break .................................................................................................................................. 102
Sử dụng bàn phím trong Stata ..................................................................................................... 103
Khởi động Stata .......................................................................................................................... 105
1. Khởi động Stata ................................................................................................................... 105
2. Mô tả giao diện của chương trình Stata .............................................................................. 105
3. Cách cách để thực hiện lệnh trong chương trình Stata ........................................................ 106
4. Lưu lại kết quả phân tích .................................................................................................... 106
Mô tả số liệu với Stata 8.0 for Windows ..................................................................................... 109
Thống kê phân tích biến số định lượng với Stata ....................................................................... 143
Thực hành ................................................................................................................................ 145
iii
Phương pháp nghiên cứu khoa học
Mục tiêu:
- Mô tả được các đặc tính của một nghiên cứu khoa học
- Trình bày được các đặc tính của một nghiên cứu khoa học tốt
Nghiên cứu khoa học là gì:
Nghiên cứu là công việc tìm kiếm một cách có hệ thống các kiến thức mới, dựa trên sự tò mò và
nhu cầu được cảm nhận.
1
Như vậy đặc điểm của nghiên cứu là tìm ra kiến thức mới. Có hai phương pháp chính để tìm
kiếm kiến thức: hoặc là xem xét các tài liệu, kiến thức sẵn có để tìm ra các kiến thức mới
(scholarship) hay dựa vào thực tế khách quan để phát hiện các kiến thức và hiểu biết mới
(scientific research). Phương pháp dựa vào thực tế khách quan để tìm tòi các kiến thức mới được
gọi là nghiên cứu khoa học.
2
Nghiên cứu khoa học là việc thu thập, phân tích và lí giải số liệu để giải quyết một vấn đề hay
trả lời một câu hỏi (Theo Varkevisser và cộng sự, 1991).
Nói cách khác, nghiên cứu khoa học phải bao gồm các bước thu thập số liệu trên thực địa (hay
từ các ca bệnh trong bệnh viện hay phòng thí nghiệm), phân tích số liệu để có thông tin và
và trình bày các thông tin này trong phần kết quả và trong phần bàn luận và kiến nghị, lí
giải các thông tin đó đề trả lời cho câu hỏi nghiên cứu hay đề xuất các biện pháp giải quyết
vấn đề.
Số liệu: Kết quả của việc thu thập có hệ thống các đại lượng và đặc tính của các đối tượng
Thông tin: Số liệu đã được phân tích
Kiến thức: thông tin được lí giải và được sử dụng để trả lời câu hỏi hay giải quyết một vấn đề
nào đó
Nhưng để quá trình thu thập, phân tích và lí giải số liệu diễn ra tốt đẹp và giải quyết được vấn đề
nghiên cứu, trước đó nhà nghiên cứu phải phân tích từ vấn đề, xem những kiến thức gì đã biết và
còn chưa biết về vấn đề đó. Quá trình này được gọi là đặt vấn đề, tổng quan y văn. Sau đó nhà
nghiên cứu phải xác định hỏi để có được kiến thức còn chưa biết đó, cần những thông tin gì và
để có những thông tin này cần thu thập những đại lượng và tính chất nào của đối tượng. Đây là
nội dung của phần phương pháp nghiên cứu trong đề cương nghiên cứu hay báo cáo khoa học.
Sau khi đã thu thập được số liệu (đại lượng hay tính chất của các đối tượng nghiên cứu), kết quả
của phân tích số liệu (thông tin) được trình bày trong phần kết quả nghiên cứu. Ở phần bàn luận,
tác giả sẽ đánh giá xem các thông tin có trả lời được câu hỏi nghiên cứu hay không và câu trả lời
của câu hỏi nghiên cứu chính nhằm giúp giải quyết vấn đề nghiên cứu là kiến thức mới được tạo
ra.
Như vậy, một báo cáo khoa học sẽ gồm các phần chính: 1) Đặt vấn đề và mục tiêu nghiên cứu 2)
Tổng quan tài liệu 3) Phương pháp và đối tượng 4) Kết quả nghiên cứu 5) Bàn luận và 6) Kết
luận.
Các đặc điểm của một nghiên cứu khoa học tốt
Một nghiên cứu khoa học tốt có các đặc điếm sau:
1
Last JM. A dictionary of Epidemiology. NewYork: International epidemiology association
1997; 146
2
Varkevisser C, Pathmanathan I, Brownlee A. Designing and conductiong health system
research projects. IDRC, Ottawa 1991
1
- Phải tập trung vào các vấn đề ưu tiên trong chăm sóc y tế
- Phải có tính định hướng vào hành động và đề ra các giải pháp
- Phải có tính thời sự: kết quả phải có kịp thời để đưa ra các quyết định đúng đắn.
- Thiết kế nghiên cứu đơn giản và thực hiện trong thời gian ngắn
- Nên có tính chất chi phí - hiệu quả. Tốt nhất nếu nghiên cứu được tiến hành với chi phí
thấp và do các nhân viên, cán bộ y tế thực hiện cùng với công việc hàng ngày.
- Kết quả phải được trình bày theo hình thức hữu dụng cho các nhà quản lí, nhà hoạch
định chính sách và cộng đồng: Cần có tóm tắt những kết quả chủ yếu của nghiên cứu và
nêu bật những điểm lí thú cho đối tượng của bản báo cáo. Dựa theo kết quả có thể trình
bày giải pháp để giải quyết một vấn đề và so sánh ưu khuyết điểm của việc tiến hành giải
pháp và không tiến hành giải pháp.
- Nghiên cứu cần phải được đánh giá không chỉ dựa vào số các bài báo được xuất bản mà
cần phải xem xét sự ảnh hưởng của nó đến chính sách y tế hay thay đổi cung cách phục
vụ và cuối cùng là tác động lên sức khoẻ người dân.
Đối với nghiên cứu y tế công cộng cần phải đặt them hai đặc điểm sau:
- Sẽ tốt hơn nếu có sự tham gia của nhiều ngành, nhiều khoa
- Nghiên cứu cần có tính chất tham gia của mọi thành viên có liên quan trong tất cả các
bước của quá trình tiến hành nghiên cứu
2
Ðại cương về thống kê và thống kê mô tả
Một số định nghĩa
Thống kê là phương pháp khoa học dùng đề thu thập, tóm tắt, trình bày và phân tích số liệu.
Số liệu: Kết quả có được do việc quan sát hay thu thập một biến số ở các đối tượng khác nhau
hay ở thời gian khác nhau.
Thí dụ: Khi tôi quan sát giới tính của các học viên trong lớp, tôi có số liệu là:
Nam, nam, nữ, nữ, nữ, nam, nữ, v.v
Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ có kết quả như sau:
10.2 13.7 10.4 14.9 11.5 12.0 11.0
13.3 12.9 12.1 9.4 13.2 10.8 11.7
10.6 10.5 13.7 11.8 14.1 10.3 13.6
12.1 12.9 11.4 12.7 10.6 11.4 11.9
9.3 13.5 14.6 11.2 11.7 10.9 10.4
12.0 12.9 11.1 8.8 10.2 11.6 12.5
13.4 12.1 10.9 11.3 14.7 10.8 13.3
11.9 11.4 12.5 13.0 11.6 13.1 9.7
11.2 15.1 10.7 12.9 13.4 12.3 11.0
14.6 11.1 13.5 10.9 13.1 11.8 12.2
và những con số này được gọi là số liệu.
Cần lưu ý số liệu phải liên kết với một biến số nhất định. Nếu tôi quan sát giới tính ở người này,
tuổi của người khác, quần áo của một người khác nữa thì kết quả quan sát được không phải là số
liệu.
Biến số và các loại biến số
Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này sang người khác
hay từ thời điểm này sang thời điểm khác.
Như vậy biến số có thể thể hiện đại lượng hay đặc tính.
- Nếu biến số thể hiện một đại lượng nó được gọi là biến số định lượng (quantitative
variable). Biến số định lượng có thể còn được chia thành biến số tỉ số - ratio variable(có giá trị
không tuyệt đối) và biến số khoảng – interval variable (không có giá trị không tuyệt đố)
- Nếu biến số nhằm thể hiện một đặc tính, biến số được gọi là biến số định tính. Biến số
định tính còn được chia làm 3 loại:
- Biến số nhị giá – binary variable (khi chỉ có 2 giá trị)
- Biến số danh định – nominal variable (khi có 3 hay nhiều hơn các giá trị và các
bản thân các giá trị không có tính chất thứ tụ)
- Biến số thứ tự - ordinal variable (khi có 3 hay nhiều hơn các giá trị và các bản
thân các giá trị có tính chất thứ tự
- Ngoài ra có khi biến cố không chỉ được quan tâm về phương diện nó có xảy ra hay
chưa xảy ra mà còn được quan tâm về phương diện biến cố xảy ra vào lúc nào. Thí dụ sau khi
điều trị bệnh nhân ung thư chúng ta không chỉ quan tâm bệnh nhân có tử vong hay không mà
còn quan tâm bệnh nhân bệnh nhân tử vong bao nhiêu lâu sau khi điều trị và nếu bệnh nhân chưa
tử vong, bệnh nhân đã sống được bao lâu.
Phương pháp mô tả tóm tắt và trình bày số liệu
3
-Tỉ lệ cho từng giá trị nếu
là biến thứ tự hay danh
định
- Tỉ lệ cho giá trị tiêu biểu
nếu là biến nhị giá
-Tỉ lệ cho từng giá trị nếu
là biến thứ tự hay danh
định
- Tỉ lệ cho giá trị tiêu biểu
nếu là biến nhị giá
Các số thống kê mô tả
Có hai loại thống kê mô tả: thống kê mô tả khuynh hướng tập trung và thống kê mô tả tính phân
tán.
Thống kê mô tả khuynh hướng tập trung
Thống kê mô tả khuynh hướng tập trung có thể là trung bình (mean), trung vị (median) và yếu vị
(mode). Những thống kê này cho biết giá trị tiêu biểu cho số liệu.
Thí dụ: có hai loại thuốc hạ áp A và B. Giả sử có 5 đối tượng sau khi sử dụng thuốc hạ áp A sẽ có huyết áp
110 - 115 -120 - 125 -130 và ở 5 đối tượng khác sau khi sử dụng thuốc hạ áp B sẽ có huyết áp 120 - 125 -
130 - 135 - 140. Con số tiêu biểu nhất để cho biết tác dụng của thuốc A là huyết áp trung bình sau khi sử
dụng thuốc A và là 120. Con số huyết áp trung bình này thấp hơn huyết áp trung bình sau khi sử dụng
thuốc B cho biết thuốc A có tác dụng mạnh hơn.
Trung bình của số liệu, được kí hiệu là (x (đọc là x gạch) là tổng các giá trị của số liệu chia cho
số lần quan sát (N).
N
x
x
i
Σ
·
Thí dụ: Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125, 130, 135, 150. Huyết áp tâm thu
trung bình sẽ là 132
132
5
150 125 130 125 120
·
+ + + +
·
Σ
·
N
x
x
i
Do không thể thực hiện các phép toán số học trên các biến số định tính (danh định và thứ tự)
chúng ta chỉ có thể tính trung bình cho số liệu của biến số định lượng.
Nếu chúng ta sắp xếp số liệu theo thứ tự, giá trị đứng ở giữa được gọi là trung vị. Nếu có hai giá
trị cùng đứng ở giữa, trung bình cộng của hai giá trị này là trung vị.
4
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trung vị
của huyết áp tâm thu là giá trị đứng ở giữa và bằng 130
Số liệu về chiều cao (cm) của 6 người là 153, 155, 160, 162, 165, 161. Ðể tính trung vị, trước tiên
chúng ta phải sắp xếp số liệu này: 153, 155, 160, 161, 162, 165. Do có hai giá trị 160 và 161 cùng
ở giữa, trung vị sẽ là (160+161)/2 = 160,5 cm
Do bản chất của biến số danh định không thể sắp được theo thứ tự, chúng ta chỉ có thể tính
trung vị của số liệu định lượng và số liệu của biến số thứ tự.
Ngoài ra yếu vị (mode) cũng được sử dụng làm con số thống kê tiêu biểu. Yếu vị là giá trị xuất
hiện phổ biến nhất (có tần suất cao nhất).
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trong
trường hợp này không có yếu vị.
Ðiểm số của 5 học sinh là 5, 5, 6, 7, 9. Yếu vị của điểm số là 5.
Trong một ấp có 361 gia đình người Kinh, 120 gia đình người Khmer và 27 gia đình người Hoa.
Yếu vị của biên số dân tộc là dân tộc Kinh.
Trong một số liệu cụ thể, có thể không có yếu vị, có thể có một yếu vị hoặc hai hay nhiều yếu vị.
Ðây là khuyết điểm chính của số thống kê này. Do vậy người ta thường chỉ dùng yếu vị cho biến
số danh định hay trong các trường hợp đặc biệt
Có thể sử dụng trung bình, trung vị hay yếu vị cho biến số định lượng. Khi biến số định lượng
có phân phối bình thường (hình chuông) thì ba con số này xấp xỉ bằng nhau và khi đó người ta
thường tính trung bình bởi vì trung bình có những đặc tính toán học mạnh. Tuy nhiên nếu số liệu
bị lệch thì con số trung vị phản ánh giá trị tiêu biểu một cách chính xác hơn.
Thí dụ: Bệnh nhân bị loét dạ dày - tá tràng được điều trị theo một phác đồ diệt vi khuẩn
Helicobacter. Sau điều trị, bệnh nhân được theo dõi và ghi nhận thời gian kể từ khi sử dụng thuốc
đến lúc bắt đầu cải thiện triệu chứng đau. Ở 10 bệnh nhân thời gian này (ngày ) là như sau: 1, 2, 2,
2, 2, 2, 3, 3, 3, 30. Bệnh nhân có thời gian từ lúc điều trị đến lúc giảm triệu chứng là 30 ngày trên
thực chất là bệnh nhân không đáp ứng với điều trị. Trung vị và trung bình của số liệu là 2 và 5
ngày. Con số trung vị phản ánh chân thực hơn bởi vì với tư cách là một bác sĩ lâm sàng từ số liệu
trên có thể nhận xét rằng một bệnh nhân tiêu biểu sẽ giảm đau sau 2 ngày dùng thuốc. Con sôs 30
trong thí dụ trên được gọi là số ngoại lai (outlier) và làm số liệu bị lệch. Nhìn chung, khi số liệu bị
lệch thì con số trung bình sẽ bị ảnh hưởng rất nhiều và không phản ánh giá trị tiêu biểu như con
số trung vị.
Thống kê mô tả tính phân tán:
Có 3 thống kê mô tả tính phân tán: độ lệch chuẩn, khoảng tứ phân vị và phạm vi của số liệu.
Việc lựa chọn thống kê mô tả tính phân tán được trình bày trong bảng 2.
Thống kê mô tả tính phân tán có tầm quan trọng thứ hai sau con số mô tả khuynh hướng tập
trung.
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110, 115,
120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100,
110, 120, 130, 140. Như vậy hai thuốc hạ áp này có hiệu quả hạ áp là tương đương (bởi vì trung bình của
hai số liệu là bằng nhau) nhưng kết quả của thuốc B phân tán hơn và điều này làm thuốc B trở nên kém an
toàn.
Ðộ lệch chuẩn (standard deviation - viết tắt là SD hay s) là con số đánh giá mức độ phân tán và
được tính theo công thức:
Như vậy độ lệch chuẩn phản ánh khoảng cách trung bình của số liệu so với
giá trị tiêu biểu. Khái niệm độ lệch chuẩn chỉ có thể áp dụng cho biến số định lượng bởi vì
chúng ta có thể thực hiện các phép toán số học trên các đại lượng nhưng không thể thực hiện
trên các giá trị của biến số định tính là các đặc tính.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trung bình của
huyết áp là 132 và độ lệch chuẩn bằng

·


·
n
i
i
N
x x
s
1
2
1
) (
5
5 , 11 5 , 132
4
530
4
324 9 4 49 144
1 5
) 132 150 ( ) 132 135 ( ) 130 132 ( ) 132 125 ( ) 132 120 (
1
) (
2 2 2 2 2
1
2
· · ·
+ + + +
·

− + − + − + − + −
·


·

·
n
i
i
N
x x
s
Phương sai về mặt từ nguyên là bình phương của độ lệch chuẩn. Phương sai (variance) có thể
được kí hiệu và Var hay s
2
và được tính theo công thức sau:

·


·
n
i
i
N
x x
s
1
2
2
1
) (
Phạm vi của số liệu là tất cả các giá trị của số liệu từ giá trị nhỏ nhất đến giá trị lớn nhất.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Phạm vi của biến
số huyết áp là 120 đến 150.
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110, 115,
120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100,
110, 120, 130, 140. Số liệu của thuốc B có tính phân tán cao hơn do phạm vi thay đổi từ 100-140 trong khi
đó phạm vị của số liệu thuốc A chỉ từ 110-130.
Khoảng tứ phân vị (inter-quartile): Nếu chúng ta chia số liệu sắp theo thứ tự làm 2 phần đều
nhau, khoảng tứ phân vị là khoảng cách của trung vị phần trên và trung vị phần dưới.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Số liệu này được
chia làm 2 phần: phần 1 gồm 120, 125, 130 và phần 2 gồm 130, 135, và 150. Trung vị của phần trên là 125
- trung vị của phần dưới là 135, do đó phạm tứ phân vị là 125-135.
Do bản chất của khoảng tứ phân vị là trung vị của phần số liệu trên và phần số liệu dưới, cũng
giống như trung vị, khoảng tứ phân vị không bị ảnh hưởng bởi các giá trị ngoại lai như trong
trường hợp của độ lệch chuẩn. Cũng như trung vị, khoảng tứ phân vị chỉ có thể áp dụng cho biến
số định lượng hay thứ tự.
Câu hỏi: Phân tích trên máy tính về biến số hemoglobin cho kết quả sau. Hãy thử đọc và lí giải
kết quả:
Variable | Obs Mean Std. Dev. Min Max
-----------+-----------------------------------------------------
hemoglobin | 70 11.98429 1.416122 8.8 15.1
Phương pháp trình bày số liệu
Số liệu có thể được trình bày thành bảng hoặc các đồ thị.
Trình bày bảng:
Phân phối tần suất của biến số định tính
Số liệu của biến số rời rạc có thể được trình bày dưới dạng một phân phối tần suất. Phân phối
tần suất là một bảng chỉ ra tần suất xuất hiện của từng giá trị rời rạc của biến số (Bảng 1). Như
vậy bảng phân phối tần suất gồm 2 cột, một cột liệt kê các giá trị của biến số và một cột trình
bày tần suất tương ứng của các giá trị đó.
Table 1. Phân phối giới tính của 69 học sinh lớp cơm thường trường mầm non 23 tháng 11, Huyện
Hóc môn
Giới Số trẻ Phần trăm
6
Nam 45 65%
Nữ 24 35%
Tổng số 69 100%
Bảng trên là bản phân phối tần suất của giới tính. Bởi vì giới tính có 2 giá trị nam và nữ nên ta
liệt kê 2 giá trị này ở một cột. Ở cột thứ nhì ta ghi tần suất tương ứng của các giá trị này. Ðôi khi
bảng phân phối tần suất có thêm cột phần trăm như trong thí dụ ở trên. Bảng 2 là một thí dụ
khác về bảng phân phối tần suất.
Table 2. Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện
Phương pháp đỡ
đẻ
Số sinh Phần trăm
Sinh thường 478 79,7
Sinh forceps 65 10,8
Sinh mổ 57 9,5
Tổng số 600 100,0
Phân phối tần suất của biến số định lượng
Nếu biến số là biến số liên tục chúng ta không thể liệt kê tất cả các giá trị của biến số. Trong
trường hợp này chúng ta có thể nhóm (làm tròn) giá trị của biến số lại.
Cụ thể các bước xây dựng bảng phân phối tần suất cho biến số định lượng như sau:
1- Tìm phạm vi (giá trị cực tiểu và giá trị cực đại) của số liệu. Trong thí dụ về hemoglobin của
70 phụ nữ phạm vi là 8,8 đến 15,1
2. Chia phạm vi số liệu ra làm n khoảng với độ rộng của mỗi khoảng là d. Cần lưu ý độ rộng
mỗi khoảng d nên là đại lượng chẵn như 1, 2, 5, 10 hay 0,5, 0,2 và số các khoảng n nên từ 5-12
(trung bình là 7-8). Trong thí dụ trên ta có thể chia phạm vi ra làm 8khoảng với chiều rộng
khoảng bằng 1 đơn vị. Khi đó các khoảng là: 8-8,9; 9-9,9; 10-10,9; 11-11,9; 12-12,9; 13-13,9;
14-14,9; 15-15,9.
3. Ðếm các giá trị thích hợp vào khoảng đã định trước
Hemoglobin
(g/100ml)
Ðếm
8-8,9 1
9-9,9 111
10-10,9 1111 1111 1111
11-11,9 1111 1111 1111 1111
12-12,9 1111 1111 1111
13-13,9 1111 1111 111
14-14,9 1111
15-15,9 1
4. Xây dựng bảng phân phối tần suất với biến số và các khoảng giá trị của biến số và tần suất
7
tương ứng với các khoảng giá trị đó. Chúng ta cũng có thể thêm vào cột phần trăm và cột phần
trăm tích lũy (nếu thích hợp)
Table 3. Hemoglobin của 70 phụ nữ
Hemoglobin Tần suất Phần trăm Phần trăm tích lũy
8-8,9 1 1.43 1.43
9-9,9 3 4.29 5.71
10-10,9 14 20.00 25.71
11-11,9 19 27.14 52.86
12-12,9 14 20.00 72.86
13-13,9 13 18.57 91.43
14-14,9 5 7.14 98.57
15-15,9 1 1.43 100.00
Thí dụ như nếu biên số là chu vi vòng cánh tay của trẻ chúng ta có thể làm tròn chu vi vòng cánh
tay đến 1 cm. Khi đó ta có thể xem thang đo của biến số là rời rạc và trình bày bảng phân phối
tần suất của biến số (bảng 2).
Table 4. Phân phối số đo vòng cánh tay của 69 trẻ lớp cơm thường nhà trẻ 23 tháng 11, Hóc môn.
Vòng cánh tay Tần suất Phần trăm Phần trăm tích lũy
13- <14 2 2.78 2.78
14- <15 31 43.06 45.83
15- <16 27 37.50 83.33
16- <17 9 12.50 95.83
17- <18 0 12.50 95.83
18- <19 2 2.78 98.61
19- <20 1 1.39 100.00
Biểu đồ và đồ thị
Số liệu cũng có thể được trình bày dưới dạng đồ thị hoặc biểu đồ. Mặc dù không có ranh giới
tuyệt đối hoàn toàn rõ rệt, nói chung đồ thị (graph) có tính chất toán học nhiều hơn, trong đó có
trục hoành và trục tung còn biểu đồ (chart) là hình ảnh mang tính chất tượng trưng.
Nếu biến số là biến rời rạc, có thể trình bày dưới dạng biểu đồ hình thanh (bar chart - hình 1)
hoặc biểu đồ hình bánh (pie chart). Nếu biến số là biến liên tục, thì phân phối của biến số có thể
trình bày dưới dạng tổ chức đồ (histogram - hình 2) hoặc đa giác tần suất.
Hình thức của bảng
-Có tựa ngắn gọn và rõ ràng
-Ðặt tên cho các hàng và cột
-Trình bày tổng số của hàng và cột
-Ðịnh nghĩa các kí hiệu và chữ viết tắt ở dưới bảng
8
-Ghi nguồn số liệu ở dưới bảng
Biểu đồ hình thanh
Biểu đồ hình thang là biểu đồ nhằm mô tả sự phân bố của biến số rời rạc. Biểu đồ hình thanh
gồm có trục hoành trên đó xác định những giá trị của biến số. Ứng với từng giá trị của biến số
người ta vẽ các thanh có chiều cao tỉ lệ với tần suất của giá trị đó. Cần lưu ý luôn luôn có
khoảng trống giữa các thanh.
45
24
0
10
20
30
40
50
Nam Nöõ
Hình 1. Biểu đồ hình thanh (bar chart) mô tả phân bố giới tính của những học sinh trong trường
mầm non 23/11, Hóc môn
Chúng ta cũng có thể xây dựng các thanh theo chiều ngang như trong ví dụ sau
478
65
57
0 100 200 300 400 500
Sinh thöôøng
Sinh forceps
Sinh moå
Hình 2. Phương pháp sinh của 600 trẻ sanh tại bệnh viện X trong năm 1998
Ðối với biến số thứ tự, điều cần lưu ý là các giá trị của biến số phải được sẵp xếp thứ tự theo
trục hoành.
9
T
a
àn

s
u
a
át
e d u m a t
m u ø c h ö õ c a áp 1 c a áp 2 - 3 ñ a ïi h o ï
0
1 0 0 0
2 0 0 0
Hình 3. Trình độ học vấn của các bà mẹ trong nghiên cứu
4,3%
19,5%
0,8%
3,9%
0%
5%
10%
15%
20%
25%
Duøng ZDV† Khoâng duøng ZDV
Ñöôøng aâm ñaïo
Moålaáy thai
Hình 4. Tỉ suất lây truyền từ mẹ sang con ở những người mẹ bị nhiễm HIV theo điều trị
hóa dự phòng và phương pháp sinh (Nguồn: The European Mode of Delivery
Collaboration, Lancet, 27/3/1999)
Biểu đồ hình bánh
Biểu đồ hình bánh cũng được dùng để mô tả sự phân bố của biến số rời rạc. Biểu đô hình bánh
là một vòng tròn được chia làm nhiều cung tương ứng với các giá trị của biến số. Ðộ lớn của
cung tỉ lệ với tần suất của giá trị biến số.
10
Nöõ
35%
Nam
65%
Hình 5. Biểu đồ hình bánh (pie chart) mô tả phân bố giới tính của những học sinh trong trường
mầm non 23/11, Hóc môn
Sinh
thöôøng
Sinh moå
Sinh
forceps
Hình 6. Biểu đồ hình bánh thể hiện phương pháp sinh của 600 đứa trẻ sinh tại bệnh viện X
Tổ chức đồ và đa giác tần suất
Tổ chức đồ (histogram) và đa giác tần suất (polyline) được dùng trong mô tả phân bố của biến
số liên tục. Ðể vẽ tổ chức đồ, người ta chia biên độ của giá trị làm nhiều khoảng giá trị và tính
tần suất của những khoảng giá trị đó. Những khoảng giá trị này được biểu thị ở trên trục hoành.
Ứng với mỗi khoảng giá trị người ta vẽ những hình chữ nhật có diện tích tỉ lệ với tần suất của
khoảng giá trị đó. Bởi vì các khoảng giá trị này nằm sát nhau trên trục hoành, các hình chữ nhật
của tổ chức đồ cũng thường nằm sát nhau.
11

F
r
e
q
u
e
n
c
y
h e m o g l o b i n
8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6
0
5
1 0
1 5
2 0
Hình 7. Tổ chức đồ mức hemoglobin của 70 phụ nữ.

F
r
e
q
u
e
n
c
y
h e m o g l o b i n
8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6
0
5
1 0
1 5
2 0
Hình 8. Ða giác tần suất của hemoglobin của 70 phụ nữ.
Ðể vẽ đa giác tần suất, người ta thường vẽ tổ chức đồ và nối các trung điểm của các cạnh trên
của các hình chữ nhật. Ða giác tần suất thường không đẹp như các tổ chức đồ nhưng nó có ưu
điểm là có thể vẽ nhiều đa giác tần suất trên cùng một đồ thị để dễ so sánh các phân phối của
chúng.
12

h e m o g l o b i n
8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6
0
5
1 0
1 5
Hình 9. Ða giác tần suất hemoglobin của 28 phụ nữ nghèo (đường đỏ) so vơí 42 phụ nữ trung bình
và khá (đường xanh)
13
Ðại cương về phân tích số liệu
Phép ước lượng
Dân số và mẫu
Thông thường chúng ta không thể nghiên cứu toàn bộ dân số mà chúng ta quan tâm. Chúng ta
thường chỉ có thể nghiên cứu chỉ một phần dân số đó, phần này được gọi là mẫu (sample) và từ
đó ước đoán về những đặc tính của dân số.
Trong nghiên cứu khoa học, chúng ta đi từ đặc trưng của cá thể (biến số - variable) để có được
đặc trưng của mẫu (được gọi là thống kê - statistics) và từ đặc trưng của mẫu chúng ta sử dụng
phương pháp suy luận thống kê và lí giải để có được đặc trưng của dân số (được gọi là tham số -
parameter)
Một loại mẫu thường được gặp trong nghiên cứu là mẫu ngẫu nhiên đơn. Khi lấy mẫu ngẫu
nhiên đơn, chúng ta có thể tính được giá trị trung bình và độ lệch chuẩn của mẫu. Rõ ràng là
giá trị trung bình và độ lệch chuẩn sẽ khác nhau với những mẫu khác nhau. Tuy vậy các nhà
thống kê đã chứng minh rằng giá trị trung bình của mẫu sẽ có phân phối bình thường và các giá
trị trung bình này sẽ tập trung tại trung bình của dân số. Do đó nếu chúng ta tính trung bình của
mẫu thì chúng ta hi vọng trung bình của dân số sẽ nằm ngay tại hay ở lân cận trung bình của
mẫu. Ðộ phân tán của trung bình mẫu xung quanh chung bình dân số được gọi là sai số chuẩn
(standard error) và sẽ giảm đi khi cỡ mẫu càng lớn:

n
s
n
s
e s
2
. . · ·
Độ lệch chuẩn và sai số chuẩn là hai đại lượng thể hiện sự phân tán nhưng độ lệch chuẩn thể
hiện sự phân tán của cá thể chung quanh giá trình trung bình dân số còn sai số chuẩn là đại
lượng thể hiện sự phân tán của con số thống kê (trung bình mẫu hay tỉ lệ của mẫu) chung quanh
giá trị của tham số (trung bình dân số hay tỉ lệ của dân số).
Ước lượng khoảng tin cậy của trung bình
Như chúng ta đã trình bày, trung bình của mẫu sẽ dao động nhưng tập trung tại giá trị trung
bình của dân số, nên chúng ta có thể ước lượng trung bình dân số bằng cách tính trung bình của
mẫu.
Nhưng do trung bình mẫu có dao động, chúng ta không chắc là trung bình mẫu sẽ chính xác
bằng trung bình của dân số mà chỉ có thể tin là trung bình dân số nằm ở vị trí đâu đó chung
quanh trung bình của dân số. Các nhà thống kê cho rằng 95% các trường hợp trung bình dân số
không nằm xa quá 1,96 x SE so với trung bình mẫu: phạm vi này được gọi là khoảng tin cậy
95%. Như vậy khoảng tin cậy 95% của trung bình của biến sô định lượng
Khoảng tin cậy 95% (95% CI) : x t 1,96s/√n
Trong trường hợp cỡ mẫu nhỏ (n < 30), chúng ta không thể sử dụng giá trị 1,96 như trong công
thức trên mà cần phải sử dụng các giá trị hơi lớn hơn (và càng lớn nếu cỡ mẫu càng nhỏ), giá trị
này được gọi là giá trị của phân phối t với (cỡ mẫu – 1) độ tự do.
Khoảng tin cậy 95% (95% CI) : x t t
(1-α /2)
× s/√n
Bài tập:
1. Một nghiên cứu ghi nhận trên cỡ mẫu 1235 trẻ sơ sinh ở tỉnh Đồng Tháp cho thấy trọng lượng
trung bình của trẻ sơ sinh là 3121 gram và độ lệch chuẩn là 435 gram. Hãy ước lượng khoảng tin
cậy 95% của trọng lượng trung bình của trẻ sơ sinh tỉnh Đồng Tháp.
14
Sử dụng công thức trên ta tính được:
95%CI=3096.74 - 3145.26 gram.
2. Chiều cao của 10 thanh niên là 160; 162; 165; 166; 169; 170; 172; 172; 176; 176. Hãy ước
lượng khoảng tin cậy 95% của chiều cao trung bình.
Trước tiên chúng ta phải xác định trung bình của chiều cao là 168,8 cm và độ lệch chuẩn của
chiều cao là 5,493. Do cỡ mẫu là 10 chúng ta phải dò bảng phân phối t ở 9 độ tự do ta được giá
trị t (tương ứng với khoảng tin cậy 95%) là 2,26. Từ đó chúng ta tính được khoảng tin cậy 95%
95%CI=164.87 - 164.87.
Ước lượng khoảng tin cậy của tỉ lệ
Để ước lượng khoảng tin cậy của một tỉ lệ, chúng ta cần xác định tỉ lệ p sau đó dựa vào p để ước
lượng khoảng tin cậy 95% của p

n
) - (1 p p
p × − 96 , 1 đến
n
) - (1 p p
p × + 96 , 1
Bài tập
Điều tra trên 127 thanh niên có 45 thanh niên hút thuốc lá. Hãy tính tỉ lệ thanh niên hút thuốc lá
và khoảng tin cậy 95% của tỉ lệ hút thuốc lá.
Chúng ta tính được tỉ lệ hút thuốc lá ở thanh niên là 0.354 (35.4%). Dựa vào công thức trên
chúng ta tính được khoảng tin cậy 95% của tỉ lệ hút thuốc lá là 0,271 đến 0,438
Suy luận thống kê
Kiểm định ý nghĩa
Phương pháp kiểm định ý nghĩa được Fisher đề xuất và dựa trên căn bản của phép phản chứng.
Phép phản chứng trong logic học sử dụng bằng mệnh đề: Nếu A kéo theo B thì không B sẽ kéo
theo không A.
A⇒ B ⇔B⇒A
Một thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ tắc ruột và chúng
ta hỏi bệnh sử xem bệnh nhân có bí trung tiện hay không. Giả sử bệnh nhân không bí trung tiện
thì chúng ta sẽ bác cỏ chẩn đoán tắc ruột với suy luận sau: Nếu bệnh nhân bị tắc ruột sẽ bí trung
tiện thì bệnh nhân sẽ bí trung tiện, do bệnh nhân không bí trung tiện nên bệnh nhân không bị tắc
ruột.
Một cách tổng quan hơn, khi chúng ta đưa ra giả thuyết chẩn đoán (thí dụ như chẩn đoán tắc
ruột), chúng ta thường sẽ xem xét các hệ quả phổ biến giả thuyết này (Bệnh nhân tắc ruột
thường bị đau bụng,nôn ói, bí trung tiện và chướng bụng). Việc không có một trong các hậu quả
phổ biến của giả thuyết này (thí dụ như bệnh nhân không có đau bụng, không có nôn ói, không
bị bí trung tiện hay không có chướng bụng) thì chúng ta có thể bác bỏ chẩn đoán. Các biến cố
nằm ngoài các hệ quả phổ biến của giả thuyết (biến cố không có đau bụng, không có nôn ói,
không bị bí trung tiện hay không có chướng bụng) được gọi là miền bác bỏ của chẩn đoán.
Trong kiểm định thống kê người ta cũng sử dụng các lập luận tương tự. Để kiểm định một giả
thuyết thống kê (được gọi là giả thuyết Ho) cần phải xác định miền xảy ra phổ biến của các con
số thống kê (như trung bình, tỉ lệ, thống kê t, thống kê z, thống kê chi bình phương, v.v.) và nếu
con số thống kê này nằm ngoài miền xảy ra phổ biến thì chúng ta sẽ bác bỏ giả thuyết Ho. Miền
nằm ngoài miền xảy ra phổ biến của số thống kê được gọi miền bác bỏ.
15
Hình 1. Nguyên tắc kiểm định ý nghĩa theo Fisher. Đường cong phân phối hình chuông thể hiện
phân phối của thống kê của z khi µ=0 (giả thuyết Ho). Vùng diện tích dưới đường cong màu trắng
thể hiện miền các thống kê z thường xảy ra nếu giả thuyết Ho là đúng. Vùng diện tích dưới đường
cong màu sẫm là miền bác bỏ giả thuyết Ho và có diện tích là xác suất sai lầm loại 1 (5%).
Khi sử dụng kiểm định ý nghĩa chúng ta cần lưu ý các điểm sau:
- Kiểm định dựa trên nguyên tắc phản chứng nghĩa là chúng ta chỉ có thể bác bỏ chứ
không thể chứng minh được giả thuyết Ho. Vì vậy nếu chúng ta muốn chứng minh hút
thuốc lá là yếu tố nguy cơ của ung thư phổi thì phải đặt ra giả th.uyết thống kê Ho là hút
thuốc lá không phải là yếu tố nguy cơ của ung thư phổi và sử dụng phương pháp kiểm
định để bác bỏ điều này.
- Giả thuyết Ho phải thể hiện bằng đẳng thức (thí dụ như giả thuyết Ho: RR=1 hay Ho:
điểm trung bình về bệnh lây truyền qua đường tình dục ở nam thanh niên = điểm trung
bình về bệnh lây truyền qua đường tình dục ở nữ thanh niên ) thì mới có thể tính được
phân phối của thống kê. Giả thuyết Ho không thể thể hiện bằng bất đẳng thức (Ho: RR>1
là sai)
- Do diện tích miền bác bỏ là một con số cố định (thường là 0,05), để xác định con số
thống kê T có nằm trong miền bác bỏ hay không người ta tính xác suất xảy ra thống kê
cực đoan hơn giá trị T nếu giả thuyết Ho là đúng (được thể hiện bằng công thức: P (>T |
Ho) ). Xác suất này được gọi là giá trị p. Và nếu giá trị p nhỏ hơn ngưỡng bác bỏ nghĩa
là thống kê T nằm trong vùng bác bỏ và chúng ta có thể bác bỏ giả thuyết Ho.
Giá trị p được kí hiệu khác nhau trên các phần mềm thống kê. Thí dụ ở phần mềm Epi-Info, giá
trị p được kí hiệu là p-value, ở phần mềm SPSS, giá trị p được kí hiệu là Sig. Ở phần mềm
Stata, các giá trị p thường được kí hiệu khác nhau tùy theo thống kê được sử dụng là thống kê gì.
Cụ thể, trong phần mềm Stata, giá trị p được kí hiệu như sau:
P > |T| (nếu kiểm định t)
P > |z| (nếu kiểm định z)
Prob > chi2 (kiểm định chi bình phương)
Prob > F (Kiểm định F; Kiểm định ANOVA)
16
Kiểm định giả thuyết
Khuyết điểm của phương pháp kiểm định ý nghĩa khi không bác bỏ được giả thuyết H
0
chúng ta
không biết được xác suất H
0
đúng là bao nhiêu. Một nhà thống kê học khác tên là Neyman đã đề
ra phương pháp kiểm định giả thuyết trong đó có xét đến sai lầm loại 2.
P h a ù t b i e å n H
0
; H
a
T í n h s o á t h o á n g k e â
( z ; t ; c h i
2
; F )
X a ù c s u a á t s a i
l a à m l o a ï i 1
N h o û
B a ù c b o û g i a û t h u y e á t
X a ù c s u a á t s a i
l a à m l o a ï i 2
K h o â n g n h o û
N h o û
C h a á p n h a ä n g i a û
t h u y e á t
T h ö ï c h i e ä n n g h i e â n
c ö ù u v ô ù i c ô õ m a ã u
l ô ù n h ô n
K h o â n g n h o û
t r a b a û n g t í n h p
Sai lầm loại một và sai lầm loại hai
Sai lầm loại một: bác bỏ giả thuyết H
0
trong khi giả thuyết H
0
là đúng.
Sai lầm loại hai: Không bác bỏ giả thuyết H
0
trong khi giả thuyết H
0
sai.
Trong nghiên cứu thống kê người ta không bao giờ có thể chắc chắn. Do vậy, khi nhà nghiên
cứu đi đến kết luận bác bỏ giả thuyết H
0
, người nghiên cứu có thể bị sai lầm (sai lầm loại một -
với một xác suất nào đó). Khi nhà nghiên cứu không bác bỏ giả thuyết H
0
, nhà nghiên cứu cũng
có thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào đó). Một điều nên nhớ là bằng
kiểm định thống kê người ta có thể xác định được xác suất sai lầm loại một nhưng không thể
tính được xác suất sai lầm loại hai mà chỉ có thể tính được dựa vào đối thuyết Ha và cỡ mẫu của
nghiên cứu.
Ðôi khi người ta còn sử dụng khái niệm năng lực (power) của kiểm định thống kê. Năng lực của
kiểm định thống kê = 1 - xác suất sai lầm loại 2. Khái niệm năng lực của thống kê hay được
dùng trong tính cỡ mẫu.
Bảng 1. Tóm tắt về sai lầm loại 1, sai lầm loại 2 và giá trị ngưỡng của nó
Chân lí là Ho đúng
(Không có sự khác biệt)
Chân lí là Ha đúng
(Không có sự khác biệt)
Bác bỏ giả thuyết H
0
Sai lầm loại 1
(Xác suất = α )
Kết luận đúng
(Xác suất = 1-β =
Power của nghiên cứu)
Không bác bỏ giả thuyết H
0
Kết luận đúng
(Xác suất = 1-α )
Sai lầm loại II
(Xác suất = β )
Chọn lựa kiểm định phù hợp
Như vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như nhau). Các kiểm định
chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết H
0.
Việc lựa chọn này phụ thuộc
vào biến số của vấn đề quan tâm và thiết kế của nghiên cứu.
17
Bảng 10. Chọn lựa kiểm định phù hợp theo thiết kế nghiên cứu
Loại thiết kế nghiên cứu
Thang đo của biến số
phụ thuộc
Hai nhóm
điều trị
gồm các cá
nhân khác
nhau
Ba (hay
nhiêù)
nhóm điều
trị gồm các
cá nhân
khác nhau
Trước và
sau một
điều trị
(hoặc 2
điều trị) ở
trên cùng
các đối
tượng
Nhiều điều
trị trên cùng
các đối
tượng
Liên hệ
giữa hai
biến số
Ðịnh lượng (mẫu rút từ
một dân số có phân phối
bình thường và phương
sai hai nhóm đồng nhất
t-test không
bắt cặp
Phân tích
phương sai
t-test bắt
cặp
Phân tích
phương sai
đo lường
lập lại
Hồi quy
tuyến tính
và tương
quan
pearson
Ðịnh tính - Danh định
χ
2
bảng 2
x n
χ
2
bảng 3
x n
test
McNemar
Cochrance
Q
Hệ số của
bảng n x m
(phi, OR,
RR)
Ðịnh tính -Thứ tự
(hay biến định lượng
không bình thường)
Kiểm định
tổng sắp
hạng
Mann-
Whitney
Kruskal-
Wallis
Kiểm định
sắp hạng có
dấu
Wilcoxon
Friedman hệ số tương
quan
Spearman
Bảng 11. Chọn lựa kiểm định phù hợp để tìm sự liên hệ giữa biến độc lập và biến phụ
thuộc
Biến phụ thuộc Biến độc lập
Nhị giá Danh định (hoặc thứ
tự)
Định lượng, đa biến
(hoặc thứ tự)
Định lượng phân phối bình
thường
T-test ANOVA Hồi quy tuyến tính
Biến định lượng phân phối không
bình thường – Biến thứ tự
Mann-Whitney Kruskal-Wallis TQ Spearman
Nhị giá Chi bình phương Chi bình phương Hồi quy logistic
Sống còn Wilcoxon tổng quát
Logrank
Wilcoxon tổng quát
Logrank
Hồi quy Cox
Phép kiểm t bắt cặp
Tiên lượng của bệnh nhân suy hô hấp mãn tính tăng carbonic thường kém (tỉ lệ tử vong trong 3
năm thay đổi từ 30% đến 100%) và hiện tại chưa có phương pháp điều trị hữu hiệu. Tilapur và
Mir (Am J Med 1984; 77:987) cho rằng chế độ ăn giảm carbonhydrate có thể cải thiện tình
18
trạng hô hấp. Các nhà nghiên cứu này tiến hành thực nghiệm trên 8 người suy hô hấp mãn tính
(có dấu hiệu của tim lớn, gan lớn, phù và tăng áp phổi) với chế độ điều trị bằng chế độ ăn 600
Kcal và ghi nhận PaO2 (phân áp oxy động mạch) và PaCO2 (phân áp carbon dioxide động
mạch) trước và sau điều trị. Kết quả nghiên cứu được trình bày trong Bảng 1. Hãy so sánh trung
bình của phân áp oxy động mạch trước và sau khi điều trị.
19
Bảng 1. Phân áp Oxy động mạch và phân áp CO2 động mạch trên 8 đối tượng trước và
sau chế độ điều trị với chế độ ăn giảm carbonhydrate
Đối tượng Pa02 trước Pa02 sau Hiệu số PaC02 trước PaC02 sau Hiệu số
1 70 82 12 49 45 -4
2 59 66 7 68 54 -14
3 53 65 12 65 60 -5
4 54 62 8 57 60 3
5 44 74 30 76 59 -17
6 58 77 19 62 54 -8
7 64 68 4 49 47 -2
8 43 59 16 53 50 -3
Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Phân áp oxy động mạch trước và sau điều trị không thay đổi
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hơp là kiểm định t bắt cặp với 7 độ tự do
Bước 3: Tính thống kê t
Tính trung bình và độ lệch chuẩn của biến số d (hiệu số của phân áp oxy động mạch trước và
sau điều trị) để tính thống kê t
66 , 4
/
; 2 , 8 ; 5 , 13 · · · ·
n s
d
t s d
d
Bước 4: tính xác suất của giá trị thống kê t
Để tính xác suất của giá trị thống kê t ta sử dụng hàm tdist(giá trị t, độ tự do, 2). Cụ thể để tính p
tương ứng với giá trị t = 4.63 ở 7 độ tự do chúng ta đánh công thức "=tdist(4.63, 7, 2) vào một ô.
Kết quả ta được giá trị p= 0.002397687.
Bước 5: Kết luận
Vì giá trị p= 0.002397687 nhỏ hơn 0.05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là phân áp oxy
động mạch có cải thiện sau khi điều trị.
Phép kiểm t (không bắt cặp)
Nhằm tìm hiểu vai trò của catecholamine trong tăng huyết áp vô căn, de Champlain (Circ Res
1976; 38:109) nghiên cứu 22 bênh nhân tăng huyết áp vô căn (gồm 13 người có nồng độ
catecholamine cao và 9 bình thường), ghi nhận nhịp tim, huyết áp tâm thu, huyết áp tâm trương.
Kết quả của nghiên cứu được trình bày trong bảng 2. Hãy so sánh nhịp tim ở hai nhóm, nhóm có
tăng catecholamine và nhóm không tăng catecholamine.
Bảng 1. Trung bình và độ lệch chuẩn của Luợng catecholamine huyết thanh, nhịp tim, huyết áp
tâm thu và huyết áp tâm trung ở 13 bệnh nhân tăng huyết áp tăng catecholamine và 9 bệnh nhân
tăng huyết áp không tăng catecholamine
Tăng catecholamine Không tăng
Số bệnh nhân 13 9
catecholamine huyết thanh (ug/mL) x=0.484 s=0.133 x=0.206 s=0.060
20
Nhịp tim x=90.7 s=11.5 x=77.8 s=13.2
Huyết áp tâm thu x=171.3 s=13.7 x=147.4 s=9.9
Huyết áp tâm trương x=103.0 s=8.3 x=95.6 s=12.9
Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Trung bình nhịp tim ở nhóm bệnh nhân có tăng catecholamine = nhịp tim trung bình ở
nhóm bệnh nhân không tăng catecholamine
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hơp là kiểm định t với (n
1
+n
2
-2) = 20 độ tự do
Bước 3: Tính thống kê t
Trước tiên chúng ta phải tính độ lệch chuẩn gộp
21 . 12
) 1 ( ) 1 (
) 1 ( ) 1 (
2 1
2
2 2
2
1 1
·
− + −
− + −
·
n n
s n s n
s
p
(Để dễ nhớ công thức tính độ lệch chuẩn gộp chúng ta cần lưu ý phương sai gộp là trung bình
của phương sai của mỗi nhóm với trọng số là độ tự do của phương sai đó)
Sau đó chúng ta tính thống kê t
44 . 2
/ 1 / 1
) (
2 1
2 1
·
+

·
n n s
x x
t
Bước 4: tính xác suất của giá trị thống kê t
Sử dụng máy vi tính chúng ta tính được giá trị p= 0,024123071 (nếu sử dụng bảng số thống kê
chúng ta sẽ tìm được p <0,05)
Bước 5: Kết luận
Vì giá trị p= 0,024123071 nhỏ hơn 0,05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là giữa hai
nhóm bệnh nhân có sự khá biệt về nhịp tim trung bình.
Phân tích phương sai
Anionwo et al. (1981, BMJ; 282:283) muốn tìm hiểu xem mức hemoglobin trong 3 nhóm bệnh
hồng càu liềm có khác nhau hay không bằng cách ghi nhận mức hemoglobin ở 3 nhóm bệnh
nhân.
Bảng 7. Phân tích phương sai một chiều: sự khác biệt trong nồng độ hemoglobin giữa các bệnh
nhân bị các loại bệnh hồng cầu liềm khác nhau. Số liệu từ Anionwo et al. (1981) British Medical
Journal, 282, 283-6
(a) Số liệu
Loại bệnh hồng cầu
liềm
Số bệnh
nhân
(n
i
)
Trung bình
(x
i
)
s.d.
(s
i
)
Giá trị của các cá thể
hemoglobin g%
(x)
Hb SS 16 8,712 0,844 7,2; 7,7; 8,0; 8,1; 8,3; 8,4;
8,4; 8,5; 8,6; 8,7; 9,1; 9,1;
9,1; 9,8; 10,1; 10,3
21
Hb S/b-
thalassaemia
10 10,630 1,284 8,1; 9,2; 10,0; 10,4; 10,6;
10,9; 11,1; 11,9; 12,0; 12,1
Hb SC 15 13,300 0,942 10,7; 11,3; 11,5; 11,6; 11,7;
11,8; 12,0; 12,1; 12,3; 12,6;
12,6; 13,3; 13,8; 13,8; 13,9
Hãy sử dụng kiểm định thống kê phù hợp để so sánh nồng độ Hemoglobin trung bình ở 3 nhóm
bệnh nhân bị hồng cầu liềm.
Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Trung bình Nồng độ hemoglobin ở 3 nhóm bệnh HC liềm bằng nhau
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hợp là phương pháp phân tích phương sai (ANOVA) với thống kê F với (số
nhóm, số quan sát - số nhóm) = (2,38) độ tự do ; F tới hạn= 3,32
Bước 3: Lập bảng ANOVA và Tính thống kê F
Chúng ta lập thành bảng phân tích phương sai như sau:
Nguồn biến thiên SS d.f. MS=SS/d.f. MS giữa các nhóm
F= ----------------------------
MS bên trong nhóm
Giữa các nhóm 99,92 2 49,96 50.03 , P<0,001
Trong các nhóm 37,95 38 1,00
Tổng cộng 137,85 40
Các giá trị ở trên có thể tính theo công thức sau:
Giữa các nhóm
SS
b
= Σ n
i
× (x
i
-x)
2
= Σ n
i
x
i
2
-(Σ x)
2
/N
= 16 × 8,7125
2
+10 × 10,6300
2
+15 × 12,300
2

- 430,2
2
/41=99,92
df
b
= k-1 = 2
MS
b
= SS/d.f.
Trong các nhóm
SS
w
= Σ (n
i
-1)s
i
2
=15 x 0,84452 + 9 x 1,28412 + 14 x 0,9419 = 37,96
df
w
= N - k = 41-3 = 38
MS
w
= SS/d.f.
Và giá trị thống kê F
F = MS
b
/MS
w
Bước 4: tính xác suất của giá trị thống kê F
Dựa vào máy tính chúng ta tính được giá trị p= 2.26 x 10
-11
. Chúng ta cũng có thể dựa vào bảng
thống kê F để tìm được p <0,001
Bước 5: Kết luận
Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho nghĩa là ba nhóm bệnh nhân bệnh hồng cầu
liềm có giá trị hemoglobin trung bình khác nhau có ý nghĩa thống kê.
22
Phép kiểm chi bình phương
Có 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm placebo. Trong
nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so
sánh tỉ lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức
độ liên hệ giữa vaccine cúm và bệnh cúm?
Thực hành
Bước 1: Xây dựng giả thuyết Ho:
Ho: Tỉ lệ mắc cúm ở nhóm tiêm vaccine = tỉ lệ mắc cúm ở nhóm không tiêm vaccine
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hợp là kiểm định chi bình phương với 1 độ tự do
Bước 3: Lập bảng 2 x 2 và Tính thống kê chi bình phương
Lập bảng 2 x 2 như sau
Kết quả Mắc bệnh cúm Không mắc Tổng
Tiêm chủng Có 20 a
(8,3%)
220 b 240 a+b
Placebo 80 c
(36,4%)
140 d 220 c+d
Tổng 100 a+c 360 b+d 460 N
Để tính thống kê chi bình phương có hai cách:
Phương pháp chính thức:
- Tính các giá trị kì vọng (E) ở các ô, giá trị kì vọng của một ô bằng tích các ô biên chia
cho tổng số chung (thí dụ giá trị kì vọng của ô a E
a
= (a+b) × (a+c) /N, giá trị kì vọng của ô c E
c
= (a+b) × (c+d) /N)
- Tính giá trị chi bình phương theo công thức
1) - coät (soá 1) - haøng soá × ·

Σ · ( . . ,
) (
2
2
f d
E
E O
χ
Trong thí dụ này
09 , 53 02 , 6 52 , 5 69 , 21 86 , 19
2 , 172
) 2 , 172 140 (
8 , 187
) 8 , 187 220 (
8 , 47
) 8 , 47 80 (
2 , 52
) 2 , 52 20 (
2 2 2 2
2
· + + + ·

+

+

+

· χ
Công thức tính tắt cho bảng 2 × 2
) )( )( )( (
) (
2
2
d b d c c a b a
N bc ad
+ + + +

· χ
Bước 4: tính xác suất của giá trị thống kê χ
2
Sử dụng máy vi tính chúng ta được giá trị p= 3,31 x 10
-13
nghĩa là giá trị của p rất nhỏ. Sử dụng
bảng số chúng ta biết được p < 0,001.
Bước 5: Kết luận
Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho. Chúng ta có thể kết luận tỉ lệ mắc cúm ở
nhóm tiêm vaccine thấp hơn có ý nghĩa thống kê so với nhóm tiêm placebo.
Sự tương quan của hai biến số định tính
Mức độ liên hệ giữa tiêm chủng vaccine và mắc bệnh cúm
23
Mức độ liên hệ giữa hai biến số định tính được ước lượng bằng cách sử dụng RR (hoặc OR nếu
trong nghiên cứu bệnh chứng). Giả sử số liệu của bảng 2 x2 nằm ở vùng C2:D3 chúng ta có thể
tính RR bằng cách nhập công thức "=MHRR(C2:D3)" ta được RR=0,23 với khoảng tin cậy 95%
của RR từ 0,15 đến 0,36
So sánh tỉ lệ của biến số nhị giá : Kiểm định chi-bình phương
Khi hai biến số là biến số nhị giá người ta sử dụng giá trị RR hay OR để đo lường mức độ liên
hệ (xem lại phần các số đo dịch tễ).
Kết quả Mắc bệnh Không mắc
bệnh
Tổng
Biến số phơi
nhiễm
Phơi nhiễm
a
1
b
1
N
1
Không phơi
nhiễm
a
o
b
0
N
0
Tổng
a
1+
a
0
b
1+
b
0
N=N
1
+N
0
Tỉ số nguy cơ (RR) là tỉ số của nguy cơ của nhóm phơi nhiễm trên nguy cơ của nhóm không
phơi nhiễm:
RR = (a
1
/N
1
)/(a
0
/N
0
)
Khoảng tin cậy 95% của tỉ số nguy cơ:
0 0 1 1
1 1 1 1
96 , 1
N a N a
e RR
− + − ×
÷ ×
hay
2
96 , 1
1
χ
t
RR
(test-based CI)
Tỉ số số chênh (OR) là tỉ số của số chênh mắc bệnh của nhóm phơi nhiễm trên số chênh mắc
bệnh ở nhóm không phơi nhiễm. Trong trường hợp nghiên cứu bệnh chứng tỉ số số chênh là tỉ số
của số chênh phơi nhiễm của nhóm bệnh trên số chênh phơi nhiễm ở nhóm không chứng.
RR = (a
1
/b
1
)/(a
0
/b
0
)
Khoảng tin cậy 95% của tỉ số số chênh:
0 0 1 1
1 1 1 1
96 , 1
b a b a
e OR
+ + + ×
÷ ×
Bài tập
Một nghiên cứu bệnh chứng nhằm tìm mối liên hệ giữa sự ăn thịt và viêm ruột hoại tử đã tìm
được 61 trường hợp viêm ruột hoại tử và 57 trường hợp chứng. Trong nhóm bị viêm ruột hoại tử
có 50 trường hợp có tiền căn ăn thịt (gần đây) và trong nhóm chứng có 16 trường hợp có tiền
căn ăn thịt. Hãy tìm ước lượng số đo liên hệ giữa ăn thịt và viêm ruột hoại tử.
Table 5. Sự liên hệ giữa ăn thịt trong thời gian gần đầu và viêm ruột hoại tử ở Papua New Guinea
(OR=11,6)
Ăn thịt trong thời gian gần đây Không ăn thịt trong thời gian
gần đây
Tổng số
Nhóm bệnh 50 a
1
11 b
1
61
Nhóm chứng 16 a
0
41 b
0
57
Tổng số 66 52 118
24
Nếu tỉ lệ ăn thịt ở nhóm bệnh (50/61) cao hơn tỉ lệ ăn thịt trong nhóm chứng (16/57) có ý nghĩa
thống kê thì chúng ta có thể kết luận rằng có sự liên quan giữa ăn thịt và viêm ruột hoại tử. Đây
là bài toán so sánh tỉ lệ của một biến số định tính ở hai nhóm và được giải quyết bằng kiểm định
chi bình phương.
Tuy nhiên bằng việc kiểm định giả thuyết chúng ta chỉ xác định có mối liên hệ mà không biết độ
lớn của sự liên hệ. Bởi vì đây là nghiên cứu bệnh chứng chúng ta không tính được RR mà phải
sử dụng OR để đo lường sức mạnh liên hệ. Sử dụng công thức tính OR và khoảng tin cậy của
OR ta được:
OR = (a
1
/b
1
)/(a
0
/b
0
) = (a
1
× b
0
)/(a
0
× b
1
) = 11.65 và
khoảng tin cậy 95% của OR = 4.87 đến 27.85
Bài tập
Có 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm placebo. Trong
nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so
sánh tỉ lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức
độ liên hệ giữa vaccine cúm và bệnh cúm?
Kết quả Mắc bệnh cúm Không mắc Tổng
Tiêm chủng Có 20 a
1
(8,3%)
220 b
1
240 N
1
Placebo 80 a
0
(36,4%)
140 d
220 N
0
Tổng 100 360 460 N
Ta tính được RR = (a
1
/N
1
)/(a
0
/N
0
) = (20/240)/(80/220) = 0.23
Khoảng tin cậy 95% của tỉ số nguy cơ:
0 0 1 1
1 1 1 1
96 , 1
N a N a
e RR
− + − ×
÷ ×
= 0.15 đến 0.36
Quan hệ giữa hai biến số định lượng
Tương quan
Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có nhiều loại hệ số
tương quan, nhưng chúng đều có giá trị từ -1 đến 1. Nếu chúng có giá trị bằng zero có nghĩa là
hai biến số độc lập và không quan hệ gì với nhau. Nếu chúng có giá trị dương có nghĩa là hai
biến số đồng biến với nhau, nếu chúng có giá trị âm nghĩa là hai biến số nghịch biến. Giá trị
tuyệt đối của hệ số tương quan càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai
trò của sai số ngẫu nhiên sẽ ít hơn. Khi trị tuyệt đối của hệ số tương quan bằng một có nghĩa là
hoàn toàn không có sai số ngẫu nhiên.
Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r:
1
/ ) (
) ( ) (
) )( (
2 2

×
×
× − Σ
·
− −
− −
·
∑ ∑

n
n y x n xy
y y x x
y y x x
r
y x
i i
i i
σ σ
Lí giải ý nghĩa của hệ số tương quan Pearson
- Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]
- Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm chứng tỏ
hai biến số là nghịch biến.
- Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số. Nếu trị tuyệt
25
đối của r bằng 1 (r=1 hay r=-1), quan hệ hoàn toàn tuyến tính nghĩa là tất cả các điểm nằm trên
đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu
phân tán chung quanh đường hồi quy (hình 9.2 c và 9.2e).
- Bình phương của hệ số tương quan (r
2
) thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải
thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả)
- Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1) không có
mối liên hệ gì giữa hai biến số hoặc (hình 9.2a) (2) mối liên hệ giữa hai biến số không phải là
tuyến tính (hình 9.2b)
- Theo quy ước, quan hệ với r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình
và trên 0,5 là quan hệ mạnh.
Hồi quy
Hồi quy là một mô hình toán học mô tả sự biến đổi của một biến số này theo những biến số
khác.
Một phương trình hồi quy có thể có dạng như sau:
cân nặng (kg) = 6,85 + 0,18 × tháng tuổi
(phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi)
theo phương trình này người ta gọi:
cân nặng: biến số phụ thuộc
tháng tuổi: biến số độc lập
6,85: hệ số của hằng số, hay còn gọi là điểm chặn (intercept)
0,18: hệ số của biến số tháng tuổi.
Một cách tổng quát phương trình hồi quy sẽ có dạng:
Y = b
0
+ b
1
x
1
+ b
2
x
2
+ b
3
x
3
Với y là biến số phụ thuộc
x
1
, x
2
, x
3
là các biến số độc lập
b
0
: điểm chặn của phương trình
b
1
, b
2
, b
3
: hệ số của các biến số độc lập
Hệ số của biến số độc lập nói lên nếu biến số độc lập tăng một đơn vị thì biến số phụ thuộc y sẽ
thay đổi bao nhiêu. Cụ thể hơn nếu biến số x
2
thay đổi một đơn vị thì biến số y sẽ tăng giá trị là
b
2
(biến số y sẽ giảm nếu giá trị b
2
âm).
Bài tập
1. Một nhà nghiên cứu ghi nhận lượng muối ăn và huyết áp tâm thu của 5 đối tượng trong bảng
4.
Đối tượng Lượng muối Huyết áp
1 5 110
2 10 120
3 12 110
4 18 120
5 20 140
Hãy tìm mối liên hệ giữa huyết áp tâm thu và lượng muối sử dụng.
Thực hành
26
Để tìm sự liên hệ giữa hai biến số định lượng chúng ta sử dụng hệ số tương quan. Dựa vào công
thức ta tính được
r = 0,771829.
Như vậy có mối liên quan thuận giữa lượng muối ăn và huyết áp tâm thu. Mối liên quan này là
mạnh và lượng muối ăn giải thích cho đến 60% (0.77 × 0.77) sự thay đổi của huyết áp tâm thu.
Chúng ta cũng tìm được phương trình của huyết áp theo lượng muối tiêu thụ sẽ là:
Huyết áp tâm thu = 99,8 mmHg + 1,55 x Lượng muối.
Giá trị 99,8 được gọi là điểm chặn của phương trình hồi quy và 1,55 là hệ số góc của biến số
lượng muối tiêu thụ. Điều này có nghĩa là nếu lượng muối ăn tăng thêm 1 gram/ngày thì huyết
áp tâm thu sẽ tăng trung bình 1,55 mmHg.
2. Lý giải ý nghĩa của phân tán đồ sau
Figure 8. Trọng lượng sơ sinh theo tuổi thai (tuần) của 641 trẻ sinh do thụ thai trong ống nghiệm ở
Anh quốc
t
r
o
n
g

l
u
o
n
g

t
r
e
t u o i t h a i
2 0 2 4 2 8 3 2 3 6 4 0 4 4
0
1 0 0 0
2 0 0 0
3 0 0 0
4 0 0 0
5 0 0 0
27
Xác định và chọn ưu tiên nghiên cứu
Mục tiêu
Sau buổi thảo luận các hội thảo viên có thể:
- Xác định các tiêu chuẩn để chọn lựa các vấn đề y tế ưu tiên để nghiên cứu
- Làm việc theo nhóm nhỏ, dùng các tiêu chuẩn đã chọn để xác lập ưu tiên nghiên cứu
- Sử dụng các phương pháp đồng thuận nhóm để chọn một chủ đề thích hợp để thực hiện
đề cương nghiên cứu và đề cương này sẽ được sử dụng trong suốt khoá đào tạo
Xác định vấn đề
Vấn đề là một thiếu sót hay khoảng cách giữa hiện tại và điều mong đợi. Thí dụ nếu tỉ lệ tiêm
chủng đủ 6 loại vaccine của các bệnh Lao, Bạch hầu, Ho gà, Uốn ván, Bại liệt, Sởi ở trẻ em 12
tháng tuổi tại một địa phương là 60% trong khi chúng ta mong muốn tỉ lệ tiêm chủng đầy đủ là
90% thì tỉ lệ tiêm chủng thấp là một vấn đề.
Nếu tỉ lệ tiêm chủng vaccine viêm gan virus B ở trong dân số là 30% trong khi chúng ta không
đặt ra chỉ tiêu tiêm chủng của loại vaccine này thì tỉ lệ tiêm chủng vaccine viêm gan virus B
30% không phải là vấn đề.
Vấn đề có thể xảy ra do thiếu hụt trang thiết bị, do cơ cấu tổ chức thì vấn đề được gọi là vấn đề
quản lí. Thí dụ việc điều trị cho bệnh nhân sốt rét không tốt do trạm y tế không có đủ thuốc sốt
rét để điều trị sốt rét cho bệnh nhân thì vấn đề này được gọi là vấn đề quản lí và cần được giải
quyết bằng cách làm việc với chương trình sốt rét để cung cấp thêm thuốc. Đôi khi vấn đề xảy ra
do chúng ta không có đủ kiến thức về vấn đề đó. Thí dụ, nếu chúng ta không thể điều trị tốt bệnh
nhân sốt rét do chúng ta không biết được kí sinh trùng sốt rét đã kháng với loại thuốc nào và còn
nhạy cảm với thuốc chống sốt rét nào. nghiên cứu Khi đó vấn đề này là vấn đề nghiên cứu và
câu hỏi mà chúng ta cần phải trả lời để giải quyết vấn đề nghiên cứu được gọi là câu hỏi nghiên
cứu.
Các câu hỏi nghiên cứu có thể được phân thành ba loại tuỳ theo loại kiến thức cần tìm:
1- Mô tả vấn đề y tế để nhằm xây dựng kế hoạch can thiệp: mô tả có thể bao gồm các thông tin
về độ lớn và phân bố của nhu cầu sức khoẻ hoặc thông tin về nguồn lực nhằm xây dựng kế
hoạch can thiệp.
2. Kiến thức để đánh giá một chương trình can thiệp hay một phác đồ điều trị về các phương
diện: độ bảo phủ của nhu cầu sức khoẻ, độ bao phủ của dân số mục tiêu, chất lượng, hiệu quả,
chi phí, v.v
3. Kiến thức đề xác định các vấn đề y tế hay phân tích nguyên nhân của vấn đề để tìm giải pháp.
Một vấn đề cần được nghiên cứu phụ thuộc và ba điều kiện:
1. Phải có sự bất cập, khoảng cách giữa điều đang tồn tại và điều chúng ta mong muốn
2. Lí do của vấn đề đó (khoảng cách) là chưa rõ
3. Phải có nhiều hơn một câu trả lời cho vấn đề nghiên cứu đó
Tiêu chuẩn chọn ưu tiên cho vấn đề nghiên cứu
Có 7 tiêu chuẩn được sử dụng để hướng dẫn chọn ưu tiên cho các vấn đề nghiên cứu:
1. Tính xác hợp: Tính xác hợp của vấn đề nghiên cứu phụ thuộc vào quy mô và mức độ trầm
trọng của vấn đề. Cần lưu ý tính xác hợp của vấn đề phụ thuộc vào quan điểm của các bên.
2. Tránh trùng lắp: Cần phải kiểm tra xem nghiên cứu đã được thực hiện ở tại địa phương hay
không hay tại một địa phương có điều kiện tương tự hay không
3. Tính khả thi: Cần xem xét mức độ phực tạp của đề tài và nguồn lực cần thiết để tiến hành
28
nghiên cứu: nhân sự, thời gian, trang thiết bị và tiền bạc. Nếu vấn đề là quan trọng mà nguồn lực
không đủ có thể xem xét việc xin tài trợ từ các nguồn ở bên ngoài.
4. Tính được chấp nhận từ các nhà quản lí: Nói chung một nghiên cứu cần được sự quan tâm và
ủng hộ của các cấp có thẩm quyền. Khi đó nghiên cứu được tiến hành một cách thuận lợi hơn và
kết quả có thể được ứng dụng để đưa vào thực tiễn. Nếu một nghiên cứu được tiến hành nhằm
thay đổi một chính sách thì cần phải tranh thủ sự ủng hộ và sự tham gia của các nhà hoặch định
chính sách.
5. Tính ứng dụng của kết quả và các kiến nghị Các kiến nghị có thể được áp dựng hay không?
Điều này không chỉ phụ thuộc vào sự quan tâm của các cấp lãnh đạo mà còn phụ thuộc vào
nguồn lực hiện có tại địa phương.
6. Tính cấp thiết của đề tài: Kết quả của nghiên cứu có cần thiết để ra một quyết định khẩn cấp
hay không? Nghiên cứu nào cần phải làm trước và nghiên cứu nào có thể thực hiện sau.
7. Tính chấp nhận về đạo đức: Bao gồm sự chấp nhận của cộng đồng kể cả về mặt lợi ích và văn
hoá. Nghiên cứu này có sử dụng thư mời chấp nhận tham gia nghiên cứu hay không? Nếu kết
quả phát hiện bệnh tật ở người dân có cung cấp điều trị cho họ hay không?
Thang điểm đánh giá các chủ đề nghiên cứu
Tính xác hợp:
1. Không xác hợp: bệnh ít gặp và không trầm trọng
2. Xác hợp: bệnh phổ biến nhưng ít trầm trọng
3. Rất xác hợp: phổ biến có hậu quả xấu
Tránh trùng lắp
1. Đã đủ thông tin về vấn đề nghiên cứu
2. Có thông tin về vấn đề nghiên cứu nhưng chưa bao phủ vấn đề chính
3. Không có thông tin để giải quyết vấn đề
Tính khả thi
1. Nghiên cứu không khả thi với tài nguyên sẵn có
2. Nghiên cứu khả thi với nguồn lực sẵn có
3. Nghiên cứu rất khả thi với nguồn lực sẵn có
Tính chấp nhận của cấp lãnh đạo
1. Chủ đề không chấp nhận được với lãnh đạo
2. Chủ đề ít nhiều khó chấp nhận
3. Chủ đề được chấp nhận hoàn toàn
Tính ứng dụng
1. Khuyến cáo ít cơ hội được thực hiện
2. Khuyến cáo có ít nhiều cơ hội được thực hiện
3. Khuyến cáo có nhiều cơ hội được thực hiện
Tính cấp thiết
1. Thông tin không cấp thiết cần thiết
2. Thông tin cần thiết ngay nhưng có thể trì hoãn
3. Thông tin rất cần thiết để ra quyết định
29
Tính chấp nhận về đạo đức
1. Có vấn đề quan trọng về đạo đức
2. Có một ít trở ngại về đạo đức
3. Không có vấn đề đạo đưc
Bảng điểm
Vấn đề 1 Vấn đề 2 Vấn đề 3 Vấn đề 4
1. Tính xác hợp
2. Tránh trùng lắp
3. Khả thi
4. Được lãnh đạo
chấp nhận
5. Tính ứng dụng
6. Tính cấp thiết
7. Y đức
Tổng số
30
Phương pháp phân tích và khẳng định vấn đề nghiên cứu
Mục tiêu
Sau khi hoàn tất buổi tập huấn các hội thảo viên có thể:
1. Phân tích một vấn đề và các yếu tố ảnh hưởng đến nó
2. Viết phần đặt vấn đề cho đề cương nghiên cứu mà mình sẽ phải xây dựng
Phân tích vấn đề
Phân tích vấn đề là công việc xác định vấn đề cốt lõi từ vấn đề nghiên cứu và xác định các yếu
tố ảnh hưởng đến vấn đề cốt lõi đó.
Thí dụ: một bác sĩ hồi sức cấp cứu nhận xét tỉ lệ tử vong ở những bệnh nhân hôn mê do đái tháo
đường là rất cao do không xác định được phác đồ điều trị phù hợp cho các bệnh nhân này. Vấn
đề này có thể do nhiều vấn đề nhỏ khác nhau như: tăng áp lực thẩm thấu, nhiễm toan chuyển
hóa, do mất nước, do ổ nhiễm trùng tiềm ẩn, do bệnh nền, v.v. Giả sử người bác sĩ xác định
nhiễm toan chuyển hóa là nguyên nhân chủ yếu của tử vong ở các bệnh nhân hôn mê đái tháo
đường và ông ta liệt kê các các yếu tố ảnh hưởng đến toan chuyển hóa thì đây là việc phân tích
vấn đề
Bước này có thể đơn giản hay phức tạp tùy theo mức độ hiểu biết về vấn đề nghiên cứu của nhà
nghiên cứu. Việc phân tích vấn đề nhằm các mục đích:
1. Cho phép các thành viên nghiên cứu chia xẻ kiến thức về vấn đề nghiên cứu
2. Làm rõ vấn đề nghiên cứu và các yếu tố ảnh hưởng đến nó
3. Làm thuận lợi hơn việc quyết định về phạm vi và trọng tâm của nghiên cứu
Các bước để phân tích vấn đề
Bước 1: Làm rõ các quan điểm của các nhà quản lí, nhân viên y tế và nhà nghiên cứu có
liên quan đến vấn đề. Điều này là cần thiết bởi vì đôi khi quan điểm của nhà quản lí
không thể hiện một cách rõ ràng mà chỉ có thể là "Vấn đề chăm có bệnh nhân tiểu đường
cần phải xem lại". Do vậy nó cần được làm rõ
Bước 2: Chuyên biệt và mô tả vấn đề cốt lõi, bao gồm bản chất của vấn đề, phân bố của
vấn đề và quy mô và mức độ trầm trọng của vấn đề cốt lõi
Bước 3: Phân tích vấn đề: các yếu tố góp phần vào vấn đề và cần làm sáng tỏ mối quan
hệ giữa vấn đề và yếu tố góp phần. Bước này được chia làm 4 bước nhỏ:
- Viết ra vấn đề cốt lõi ở giữa tờ giấy
- Động não để tìm ra các yếu tố có ảnh hưởng đến vấn đề
- Xác định thêm các yếu tố góp phần vào vấn đề
- Phân các yếu tố có liên quan thành các nhóm: kinh tế xã hội, dịch vụ y tế và các yếu tố
bệnh tật.
Bước 1: Làm rõ quan điểm của nhà nghiên cứu, nhân viên y tế và nhà lãnh đạo
- Đôi khi quan điểm của nhà lãnh đạo được phát biểu chưa rõ ràng thí dụ như : “Cần xem xét lại
việc chăm sóc bệnh nhân tiểu đường”; “Cần nghiên cứu vấn đề bỏ tuyến”, “Khảo sát vấn đề điều
trị DOTS”. Khi đó chúng ta cần thảo luận và khẳng định dưới dạng vấn đề là khoảng cách giữa
“hiện tại” và “điều mong muốn”
- khi vấn đề dưới dạng trình bày rõ ràng, vấn đề trở thành nhiều vấn đề nhỏ:
Tỉ lệ chữa khỏi ở bệnh nhân điều trị bằng DOTS thấp
Nhân viên y tế không đảm bảo đúng chức năng giám sát
31
Bệnh nhân không tuân thủ lịch điều trị
Bệnh nhân tiểu đường và thân nhân không có nhận thức đủ về tiểu đường và tự chăm sóc
trong tiểu đường
Bệnh nhân tiểu đường có biến chứng cao
Bệnh nhân tiểu đường ít dung nạp với điều trị
Tỉ lệ tái nhập viện cao trong những bệnh nhân tiểu đường
Bước 2:
- chọn vấn đề cốt lõi từ các vấn đề nhỏ
Bệnh nhân tiểu đường có biến chứng cao
Tỉ lệ tái nhập viện cao trong những bệnh nhân tiểu đường
- Mô tả vấn đề cốt lõi theo:
Bản chất: sự khác biệt về “hiện tại” và “mong muốn”
Phân bố của vấn đề: Con người, thời gian, nơi chốn
Tầm cỡ và độ trầm trọng của vấn đề: quy mô của vấn đề, độ trầm trọng của vấn đề, hậu
quả vấn đề
Bước 3:
- Xác định yếu tố góp phần tạo ra vấn đề và mối quan hệ giữa vấn đề và vấn đề góp phần
Sử dụng sơ đồ cây vấn đề, trong đó vấn đề được đặt ở giữa và các yếu tố ảnh hưởng và góp phần
được đặt chung quanh và hướng mũi tên thể hiện sự tác động. Vấn đề thường được vẽ với 2
đường viền để phân biệt với các yếu tố ảnh hưởng.
Y e á u t o á
Y e á u t o á
V a á n ñ e à
\
Quá trình này bao gồm các bước sau:
Bước 3.1: Viết vấn đề cốt lõi ở giữa
Bước 3.2: tìm ra các yếu tố ảnh hưởng
B e ä n h n h a â n
k h o â n g d u n g
n a ï p ñ i e à u t r ò
K h o â n g c o ù
ñ i e à u t r ò t a ï i
c ô s ô û
T æ l e ä t a ù i n h a ä p
v i e ä n d o b e ä n h t i e å u
ñ ö ô ø n g c a o
T æ l e ä b i e á n
c h ö ù n g c a o
T æ l e ä b i e á n
c h ö ù n g c a o
Bước 3.3: Tiếp tục tìm ra các yếu tố ảnh hưởng và góp phần sao cho các yếu tố này là
yếu tố có thể thay đổi. Ở dưới là một số cây vấn đề của vấn đề lao phổi và tăng huyết áp.
32
N h ö õ n g y e á u t o á
d ò c h v u ï k h a ù c
T æ l e ä b o û t r ò ô û
b e ä n h n h a â n l a o
p h o å i c a o
B N k h o â n g
h i e å u s ö ï c a à n
t h i e á t
N h ö õ n g y e á u
t o á c a ù n h a â n
v a ø x a õ h o ä i
K h o â n g ñ u û
n h a â n v i e â n
K h o â n g t ö
v a á n c h o B N
N h a â n v i e â n
k h o â n g h u a á n
l u y e ä n
K h o â n g ñ u û
t a ø i l i e ä u ñ e å
G D S K L a o
T h i e á u h i e å u b i e á t
v e à c a û m n h a ä n
c u û a B N L a o v e à
l a o p h o å i
C h a á t l ö ô ï n g
d ò c h v u ï k e ù m
Ñ o ä n a ë n g
c u û a b e ä n h
T æ l e ä b o û t r ò ô û
b e ä n h n h a â n l a o
p h o å i c a o B N k h o â n g h i e å u
s ö ï c a à n t h i e á t
p h a û i ñ i e à u t r ò
T h a m v a á n
k h o â n g ñ u û
T h i e á u s ö ï h o ã
t r ô ï t ö ø g i a
ñ ì n h ï
Ñ a ù p ö ù n g
v ô ù i ñ i e à u t r ò
Ñ i e à u t r ò
t h u o á c n a m
K i e á n t h ö ù c k e ù m
v e à n g u y e â n
n h a â n v a ø h a ä u
q u a û b e ä n h
T u o å i ; G i ô ù i ;
G i a ù o d u ï c
T h i e á u s ö ï h o ã
t r ô ï c h u û l a o
ñ o ä n g
C a á u t r u ù c
g i a ñ ì n h
N g h e à
n g h i e ä p
P h o ø n g
k h a ù m x a
T í n h p h u ï c v u ï :
- G i ô ø m ô û c ö û a
- Ñ ô ï i l a â u
- K h o â n g ñ u û n h a â n v i e â n
- K h o â n g ñ u û h u a á n l u y e ä n
- T h i e á u h i e å u b i e á t v e à b e ä n h n h a â n
l a o
- K h o â n g ñ u û t a ø i l i e ä u
- T h i e á u g i a ù m s a ù t
- P h a ù c ñ o à k h o â n g t h í c h h ô ï p
- H ö ô ù n g d a ã n k h o â n g t h í c h h ô ï p
33
T a i b i e á n
m a ï c h m a ù u
n a õ o
D ò d a ï n g
m a ï c h
B e ä n h t i m
T a ê n g h u y e á t
a ù p
V a ä n ñ o ä n g
h a ø n g n g a ø y
L ö ô ï n g m u o á i
t i e â u t h u ï
B e ù o p h ì
C h e á ñ o ä a ê n
K h o â n g h i e å u
b i e á t v e à C H A
K h o â n g t u a â n
t h u û ñ i e à u t r ò
K h o â n g c o ù
g i a ù o d u ï c s ö ù c
k h o e û
D ò c h v u ï y t e á
c h ö a t o á t
B e ä n h n h a â n
k h o â n g b i e á t
s o á ñ o H A
T a ê n g h u y e á t
a ù p
H u ù t t h u o á c l a ù
U o á n g r ö ô ï u
R o á i l o a ï n l i p i d
m a ù u
R o á i l o a ï n
ñ ö ô ø n g h u y e á t
Bước 3.4: Sắp xếp các yếu tố thành các nhóm lớn và xây dựng sơ đồ:
Yếu tố kinh tế xã hội: Gồm tuổi, giới, học vấn, nghề nghiệp, kiến thức cộng đồng, các loại hình
điều trị ở cộng đồng, thái độ với các loại hình điều trị
Yếu tố dịch vụ y tế: tính có được và tiếp cận được của dịch vụ, quản lí dịch vụ y tế, chất lượng
cơ sở y tế
Yếu tố y sinh: độ trầm trọng của bệnh tật, đáp ứng với điều trị, hiện tượng kháng thuốc, độc lực
vi khuẩn
Chú ý:
- Nếu bản chất nghiên cứu là mô tả, sơ đồ phân tích không tìm kiếm nguyên nhân của vấn đề
- Thí dụ nếu chúng ta muốn nghiên cứu kiến thức, thái độ, hành vi của học sinh về giun sán để
xây dựng tài liệu giáo dục sức khoẻ ở trường học. Có 2 sơ đồ:
– Những yếu tố KAP gây nên bệnh giun sán
– Những yếu tố góp phần vào sự phát triển KAP ở thanh thiếu niên
Xác định phạm vi và trọng tâm của nghiên cứu
Sau khi phân tích vấn đề, cần phải xem xét lại trọng tâm và phạm vi của đề tài. Việc xác định
phạm vi và trọng tâm của đề tài phụ thuộc vào
1. Tính hữu dụng thông tin (thông tin về các yếu tố góp phần): Thông tin nào khi được
thu thập để giải quyết vấn đề sẽ giúp giải quyết vấn đề y tế và cải thiện chăm sóc y tế?
Thông tin này cần thiết cho ai? Thông tin sẽ giải quyết đến các yếu tố nào của vấn đề?
2. Tính khả thi: Có thể thu thập được những thông tin nào trong thời gian dự định dành
để thực hiện nghiên cứu?
3. tính lập lại: Có thông tin nào liên quan đến các yếu tố trong sơ đồ đã có rồi? vấn đề
nào của thông tin cần được nghiên cứu thêm.
34
Lưu ý:
- Cần tham khảo tài liệu hoặc hỏi ý kiến chuyên gia để xác định trọng tâm và phạm vi của
nghiên cứu
- Nếu chưa rõ sự liên hệ và tầm quan trọng của các yếu tố góp phần, khi xác định phạm vi
nghiên cứu dễ có nguy cơ bỏ qua những yếu tố góp phần quan trọng nhất.
- Để rõ mối liên hệ và tầm quan trọng của các yếu tố góp phần, sử dụng nghiên cứu thăm dò
nhằm phát hiện tối đa những yếu tố có liên quan bằng cách nghiên cứu một số ít đối tượng.
Xây dựng phần đặt vấn đề
Phần đầu tiên trong một đề cương nghiên cứu là phần đặt vấn đề. Phần này hết sức quan trọng
bởi vì nó đặt nền tảng cho sự xây dựng tiếp theo của đề cương nghiên cứu, giúp tìm kiếm thông
tin và báo cáo từ các nghiên cứu khác để có thể tham khảo và cho phép chỉ ra một cách có hệ
thống tại sao vấn đề này được nghiên cứu và chúng ta có thể gặt hái gì từ kết quả nghiên cứu.
Điều này là rất quan trọng khi chúng ta trình bày nghiên cứu của chúng ta cho các thành viên
của cộng đồng và các nhân viên, cán bộ và lãnh đạo ngành y tế.
Các thông tin cần thiết trong phần đặt vấn đề
1. Mô tả ngắn gọn về đặc điểm kinh tế xã hội, văn hoá , tình trạng sức khoẻ và y tế của địa
phương có liên quan đến vấn đề nghiên cứu.
2. Mô tả về bản chất của vấn đề (sự khác biệt giữa thực tiễn và điều mong muốn) nếu vấn đề còn
chưa rõ.
3. Phân tích các yếu tố chính ảnh hưởng đến vấn đề
4. Mô tả các giải pháp đã được sử dụng trước đây hoặc kết quả các nghiên cứu trước và nêu rõ lí
do tại sao cần giải pháp mới hay cần một nghiên cứu mới
5. Mô tả loại thông tin hi vọng sẽ có được từ nghiên cứu và thông tin này sẽ giúp giải quyết vấn
đề này như thế nào hay giúp trả lời câu hỏi nghiên cứu như thế nào?
6. Nếu cần thiết cần nêu ra định nghĩa của những khái niệm quan trọng của nghiên cứu.
35
Tổng quan y văn
Mục tiêu
Sau khi nghiên cứu phần này, học viên có khả năng
1. Trình bày những lí do để tham khảo các y văn có sẵn và các thông tin khác trong khi
chuẩn bị đề cương nghiên cứu
2. Trình bày các nguồn tài liệu có thể tham khảo
3. Chuẩn bị tổng quan y văn và những thông tin khác có liên quan đến đề cương nghiên
cứu, những thông tin này trình bày các số liệu nền tảng và những thông tin hỗ trợ cho
chủ đích nghiên cứu.
Tại sao cần phải tham khảo y văn khi chuẩn bị đề cương nghiên cứu
Việc tham khảo y văn sẽ giúp chúng ta tránh việc lập lại các công trình đã làm từ trước
Tham khảo y văn sẽ giúp bạn tìm hiểu các nhà nghiên cứu khác đã phát hiện và báo cáo
những gì về vấn đề bạn muốn nghiên cứu. Điều này giúp bạn hoàn thiện phần đặt vấn đề
Tham khảo y văn gúp bạn quen thuộc hơn với những loại thiết kế nghiên cứu đã được sử
dụng trong chủ đề nghiên cứu này
Tham khảo y văn cho bạn những lí lẽ thuyết phục tại sao đề tài nghiên cứu của bạn là cần
thiết.
Những nguồn thông tin có thể tham khảo
Chúng ta có thể tham khảo các nguồn thông tin khác nhau. Các nguồn thông tin này có thể là các
cá nhân, các nhóm người hay các tổ chức. Nguồn thông tin cũng có thể là từ những tài liệu đã
xuất bản như sách vở, tạp chí, bài báo, các thư mục hoặc những tài liệu chưa xuất bản như đề
cương nghiên cứu, báo cáo, hồ sơ, cơ sở dữ liệu trong máy tính. Hiện nay các website trên
internet là một nguồn thông tin quan trọng để có được các ý kiến của cá nhân, của các nhóm, các
tổ chức, các tài liệu đã xuất bản hoặc tài liệu chưa xuất bản.
Các nguồn thông tin có thể có ở nhiều cấp khác nhau, cấp độ địa phương, cấp độ quốc gia hay
cấp độ
Cấp độ Thí dụ về nguồn thông tin
Địa phương - Số liệu của bệnh viện hay phòng khám từ các thống kê định kì
- Ý kiến, niềm tin của các nhân vật chủ chốt
- Quan sát lâm sàng, báo cáo các tai biến
- Điều tra hay báo cáo hàng năm
- Niên giám thống kê của địa phương
- Sách, bài báo khoa học, báo chí, v.v
Quốc gia - Bài báo từ các tạp chí khoa học quốc gia, sách vở tìm kiếm được trong
thư viện của trường đại học, thư viện của WHO, UNICEF
- Văn bản, báo cáo, số liệu thô từ
- Bộ y tế
- Tổng cục thống kê
- Các tổ chức phi chính phủ
Quốc tế - Các tạp chí khoa học, tạp chí chuyên ngành
- Các ấn bản của WHO, UNICEF, UNFPA, v.v
36
- Các sách, tài liệu khoa học kinh điển
Cách viết phần tổng quan
Có một số bước phải thực hiện để chuẩn bị cho việc tổng quan y văn và các thông tin
1. Đầu tiên phải tổ chức các thẻ thư mục theo nhóm của các chủ đề tuỳ theo nó có liên
quan đến khía cạnh nào của vấn đề
2. Sau đó, quyết định trình tự trình bày các chủ đề. Nếu phát hiện rằng bạn đã không
tìm được y văn cho thông tin về một khía cạnh của vấn đề của bạn mà bạn cảm thấy rằng
nó quan trọng, cần phải nỗ lực để tìm kiếm y văn đó.
3. Cuối cùng, trình bày ý tưởng theo ngôn từ một cách mạch lạc trong vòng từ một đến
hai trang nhưng cần phải có tài liệu tham khảo.Có hai cách trích dẫn tài liệu tham khảo:
- Bạn có thể đánh số thứ tự trên văn bản để tham chiếu đến các tài liệu tham khảo. Sau
đó liệt kê các tài liệu tham khảo theo thứ tự và sử dụng các thông tin được mô tả trong
thẻ thư mục và phần liệt kê các tài liệu tham khảo này phải được đưa vào sau đề cương
để làm phụ lục (cách trích dẫn này thường được gọi là trích dẫn theo hệ thống
Vancouver).
- Một cách khác là bạn có thể viết họ của tác giả nước ngoài (toàn bộ tên và họ nếu là tác
giả trong nước), năm xuất bản và số trang được trích dẫn để tham chiếu đến tài liệu tham
khảo. Trong trường hợp này liệt kê các tài liệu tham khảo theo thứ tự bảng chữ cái và
phần liệt kê cũng được đưa vào sau đề cương để làm phụ lục (cách trính dẫn này được
gọi là trích dẫn theo hệ thống Havard)
4. Quy tắc liệt kê tài liệu tham khảo:
Tạp chí:
Altman Cho DG. Statistics in medical journals. Stat Med 1983;1:59-71.
[Họ - tên tắt].[Tên bài báo].[Tên tờ báo] [năm XB];[số]:[trg đầu]-[trg cuối]
Sách:
Andersen B. Methodological errors in medical research. An incomplete catalogue.
Oxford: Blackwell, 1990.
[Họ - tên tắt].[Nhan đề sách].[Nơi xuất bản]:[nhà xuất bản],[năm XB]
Một chương sách:
Bailar JC. Communicating with a scientific audience. In: Bailar JC, Mosteller F, eds.
Medical uses of statistics. Waltham, MA:NEJM Books, 1986:325-37.
[Họ - tên tắt].[Tên chương sách]. In: [Họ - tên tắt].[Nhan đề sách].[Nơi xuất bản]:[nhà
xuất bản],[năm XB]:[trg đầu]-[trg cuối]
Một Website
National Board of Health and Welfare, Sweden. Hospital discharge register.
http://www.sos.se/epc/par/pareng.htm (accessed 20 July 2001).
[Tên cơ quan chủ quản website]. [tên báo cáo].[địa chỉ website (ngày truy cập)]
Sai lệch có thể
Sai lệch trong y văn hay trong tổng quan y văn là sự biến dạng của những thông tin khiến cho
kết luận từ y văn hay tổng quan y văn không phản ánh tình hình thực tiễn. Chúng ta cần phải
cảnh giác với những loại sai lệch này và cần phải hết sức nghiêm túc với cácy văn hiện có. Nếu
bạn có nghi ngại về một số tài liệu tham khảo hay bạn có thể phát hiện những ý kiến khác nhau
chúng ta cần thảo luận một cách nghiêm túc và thẳng thắn. Thái độ nghiêm túc này sẽ giúp
37
chúng ta tránh khỏi các sai lệch trong nghiên cứu của chính chúng ta. Những sai lệch thường
thấy trong y văn bao gồm:
1. Che dấu những điểm tranh luận hay sự khác nhau trong kết quả nghiên cứu của chính
mình
2. Chỉ tham khảo tài liệu của những người ủng hộ quan điểm của tác giả.
3. Rút ra những kết luận hết sức mạnh bạo từ kết quả nghiên cứu sơ bộ hay nghiên cứu
mỏng manh hay khái quát hoá lan tràn từ một nghiên cứu trường hợp.
Việc mắc phải các loại sai lệch ở trên sẽ tạo nên các nghi ngờ về tính trung thực khoa học
(scientific integrity) của nhà nghiên cứu. Hơn nữa việc trình bày một cách không cẩn thận các
kết quả sẽ khiến cho độc giả ứng dụng kết quả nghiên cứu một cách sai lạc. Điều này không chỉ
gây tốn kém thời gian, tiền bạc mà còn có thể gây hậu quả xấu cho sức khoẻ của người dân.
Việc đạo văn – trình bày kết quả hay công trình của các nhà khoa học khác mà không trích dẫn –
cũng là một hành động thiếu đạo đức mà các nhà nghiên cứu cần phải tránh. Do đó nhà nghiên
cứu cần phải tuân thủ theo các hướng dẫn về trích dẫn tài liệu tham khảo trong khi viết đề cương
cũng như khi viết báo cáo khoa học. Ở một số quốc gia, hành động đạo văn có thể bị truy tố.
38
Mục tiêu nghiên cứu
Mục tiêu học tập:
Sau khi nghiên cứu phần này, học viên có khả năng:
- Khẳng định các lí do để viết mục tiêu cho một nghiên cứu
- Xác định và mô tả sự khác biệt giữa mục tiêu tổng quát và mục tiêu đặc hiệu
- Xác định đặc tính của mục tiêu nghiên cứu
- Xây dựng mục tiêu nghiên cứu cho nghiên cứu của bạn ở một hình thức phù hợp.
Mục tiêu nghiên cứu là gì:
Mục tiêu nghiên cứu nhằm tóm tắt những gì sẽ đạt được sau khi hoàn thành nghiên cứu. Thông
thường người ta chia mục tiêu làm mục tiêu tổng quát và mục tiêu đặc hiệu. Mục tiêu tổng quát
là những điều đạt được một cách chung nhất, còn mục tiêu đặc hiệu bao gồm các phần nhỏ hơn
và có liên hệ với nhau và với mục tiêu tổng quát một cách hợp lí. Trong mục tiêu đặc hiệun ên
cụ thể những điều sẽ làm trong nghiên cứu, làm ở đâu và với mục đích gì.
Thí dụ:
Nếu chúng ta có vấn đề nghiên cứu là mức độ sử dụng dịch vụ phòng khám trẻ em thấp tại
huyện CT. Và sau khi phân tích vấn đề nghiên cứu chúng ta nhận thấy để giải quyết các vấn đề
trên cần phải tìm hiểu các lí do khiến mức độ sử dụng dịch vụ phòng khám trẻ em thấp tại huyện
CT ta sẽ thiết lập mục tiêu tổng quát như sau:
- Xác định các lí do của mức độ sử dụng dịch vụ phòng khám trẻ em thấp tại huyện CT
Nhằm đặt được mục tiêu tổng quát kể trên, chúng ta phải hoàn thành các công việc sau. Các
công việc này được gọi là mục tiêu đặc hiệu:
- Xác định mức độ sử dụng dịch vụ phòng khám trẻ em ở huyện CT trong các năm 2000 và 2001
so với chỉ tiêu đặt ra
- Xác định có sự liên hệ giữa việc sử dụng dịch vụ phòng khám trẻ em với mùa trong năm, loại
hình phòng khám
- Xác định các yếu tố dịch vụ của phòng khám ảnh hưởng đến tính hấp đẫn đối với bà mẹ
- Xác định các yếu tố văn hoá và kinh tế xã hội ảnh hưởng đến việc sử dụng dịch vụ phòng
khám trẻ em.
- Kiến nghị các giải pháp để cải thiện sử dụng dịch vụ phòng khám trẻ em.
- Xây dựng kế hoạch thực hiện và các kiến nghị phối hợp với các ban ngành.
Như đã trình bày ở trên, trong các nghiên cứu ứng dụng, nên có mục tiêu xác định quy mô của
vấn đề và có các mục tiêu nhằm xây dựng kế hoạch ứng dụng kết quả của nghiên cứu.
Tại sao phải xây dựng mục tiêu nghiên cứu
Khi tiến hành nghiên cứu cần phải xây dựng mục tiêu nghiên cứu nhằm giúp cho chủ đề nghiên
cứu được tập trung và tránh việc thu thập các thông tin không cần thiết để giải quyết vấn đề.
Ngoài ra việc xây dựng mục tiêu cụ thể sẽ giúp cho việc thiết kế nghiên cứu bằng cách tổ chức
mục tiêu nghiên cứu thành các phần hay các giai đoạn xác định.
Yêu cầu của mục tiêu nghiên cứu
Mục tiêu nghiên cứu tốt cần phải đạt được các yêu cầu sau:
- Phải bao gồm các khía cạnh khác nhau của vấn đề nghiên cứu theo một trình tự hợp lí và mạch
lạc.
- Ðược hành văn rõ ràng, cụ thể chỉ rõ điều sẽ làm, làm ở đâu, trong thời gian nào và với mục
39
đích gì
- Mục tiêu phải phù hợp với điều kiện thực tiễn, khả thi.
- Mục tiêu phải bắt đầu bằng các từ hành động cụ thể và có thể đánh giá mức độ đạt được như:
xác định, so sánh, kiểm chứng, tính toán, mô tả
Giả thuyết nghiên cứu
Giả thuyết nghiên cứu là một mệnh đề khẳng định quan hệ giữa một hay nhiều yếu tố với vấn đề
nghiên cứu. Thí dụ "sử dụng dịch vụ phòng khám trẻ em thấp nhất trong thời gian thu hoạch" là
một giả thuyết nghiên cứu bởi vì nó khẳng định rằng trong thời gian thu hoạch thì mức độ sử
dụng dịch vụ phòng khám trẻ em sẽ thấp.
Việc kiểm định giả thuyết nghiên cứu có thể được xem là một mục tiêu nghiên cứu bởi vì nó sẽ
giúp cho giải quyết vấn đề nghiên cứu. Giả thuyết nghiên cứu thường được sử dụng để kiểm tra
một lí giải đã có và thường được sử dụng trong các nghiên cứu y sinh học nhưng thường không
phù hợp đối với nghiên cứu hệ thống y tế.
Tên đề tài nghiên cứu
Cần phân biệt tên đề tài nghiên cứu với vấn đề nghiên cứu: Vấn đề nghiên cứu là sự khác biệt
giữa hiện tại và điều mong đợi trong khi tên đề tài nghiên cứu lại tập trung và phương pháp giải
quyết vấn đề vì vậy tên đề tài nghiên cứu thường liên quan chặt chẽ với mục tiêu nghiên cứu.
Tuy nhiên khác với mục tiêu nghiên cứu, thường bắt đầu bằng một động từ hành động, tên đề tài
nghiên cứu thường là một ngữ danh từ (nên được gọi là tên). Tên đề tài nghiên cứu nên ngắn
gọn, bởi vì nó chiếm chỗ trong mục lục của tờ báo hay trong MEDLINE, nhưng phải chứa nhiều
thông tin. Bởi vì hiện nay do sự phổ biến của việc tìm kiếm bài báo trên Internet, tên đề tài nên
chứa những từ khoá (keyword) của bài báo. Phần từ khoá của bài báo hiện nay không phải là
phần bắt buộc vì vậy việc xây dựng tên đề tài nghiên cứu một cách hợp lí là cực kì quan trong.
Thảo luận nhóm
Chọn một chủ toạ và một thư kí
- Trình bày lại phần đặt vấn đề: tập trung vào
Lượng hoá và cụ thể hoá vấn đề
Thăm dò các yếu tố ảnh hưởng đến vấn đề
Các hoạt động nghiên cứu
- Xây dựng mục tiêu tổng quát và đặc hiệu
- Kiểm tra lại các yêu cầu của mục tiêu
- Trình bày trước lớp mục tiêu nghiên cứu.
40
Giới thiệu về phương pháp nghiên cứu khoa học y học
Mục tiêu
Sau phần này, học viên có khả năng:
1. Xác định những câu hỏi thích hợp cần phải đặt ra khi phát triển phương pháp cho đề cương
nghiên cứu
2. Mô tả được các thành phần thích hợp cần được giải quyết trong phần phương pháp của đề
cương nghiên cứu.
Giới thiệu
Câu hỏi Thành phần trong thiết kế nghiên cứu
Làm thế nào để thu thập số liệu Kế hoạch thu thập số liệu
Làm thế nào để có thể thu thập những
số liệu này
Chọn thiết kế nghiên cứu
Công cụ nào để thu thập số liệu Chọn kĩ thuật thu thập số liệu
Thu thập số liệu ở đâu: Trên bao
nhiêu đối tượng, chọn như thế nào?
Lấy mẫu
Chúng ta cần những số liệu mới nào? Chọn biến số
Chúng ta làm gì với số liệu để có
thông tin
Kế hoạch phân tích
Chúng ta có làm hại ai khi tiến hành
nghiên cứu?
Khía cạnh đạo đức của nghiên
cứu
Làm sao biết được phương pháp thu
thập số liệu?
Thử nghiệm phương pháp
41
Giả sử sau khi bạn đã xác định được:
- Chọn chủ đề nghiên cứu
- Chuẩn bị một mô tả ngắn gọn về vấn đề nghiên cứu và tầm quan trọng của nó
- Tổng quan y văn và các thông tin đã biết được về vấn đề
- Phát triển các mục tiêu nêu lên một cách rõ ràng mục đích của nghiên cứu, chờ đợi gì ở kết quả
nghiên cứu và cách sử dụng các kết quả nghiên cứu
Ðể đặt được mục tiêu đã đặt ra, bạn phần phải quyết định bạn sẽ phải làm gì: thí dụ những số
liệu nào cần được thu thập, làm thế nào để thu thập các số liệu đó, xử lí đó như thế nào. Các câu
hỏi trong lưu đồ ở trang sau chỉ ra những đề mục chính cần phải xem xét khi phát triển thiết kế
nghiên cứu.
42
Biến số
Mục tiêu
1. Xác định biến số là gì và tại sao việc chọn lựa biến số là quan trọng
2. Phân biệt được biến số định tính (categorical) và biến số định lượng (numerical)
3. Phân biệt được sự khác biệt giữa biến số độc lập và biến số phụ thuộc và chúng được sử dụng
trong nghiên cứu như thế nào
4. Xác định được các biến số được đo lường trong dự án nghiên cứu đang được thiết kế và cho
biết:
- Biến số nào có thể đo lường trực tiếp
- Biến số nào không thể đo lường trực tiệp và phải sử dụng định nghĩa cụ thể(operation
definition)
- Biến số nào không thể đo lường được vào thời điểm hiện tại.
Biến số
Do nghiên cứu khoa học là việc thu thập, phân tích và lí giải số liệu để giải quyết vấn đề nghiên
cứu hay trả lời một câu hỏi nghiên cứu (Varkevisser et al., 1991) nên nghiên cứ khoa học cần
phải thu thập thông tin các đặc tính hay các đại lượng của đối tượng. Các đặc tính hay đại lượng
này được gọi là biến số. Nói cách khác:
Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này sang người khác
hay từ thời điểm này sang thời điểm khác.
Biến số định tính và biến số định lượng
Như vậy biến số có thể thể hiện đại lượng hay đặc tính. Nếu nó thể hiện một đại lượng nó được
gọi là biến số định lượng. Nếu nó nhằm thể hiện một đặc tính nó được gọi là biến số định tính.
Biến số định tính còn được chia làm 2 loại: biến số danh định và biến số thứ tự.
Biến số danh định là biến số mà giá trị của nó không thể biểu thị bằng số mà phải biểu diễn bằng
một tên gọi (danh: tên) và các giá trị này không thể sắp đặt theo một trật tự từ thấp đến cao.
Thí dụ: Biến số dân tộc với các giá trị: Kinh, Khmer, Hoa, Chăm, là biến số định tính vì chúng ta không …
thể sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay ngược lại.
Một số thí dụ khác của biến số danh định là tình trạng hôn nhân (có 4 giá trị: độc thân, có gia đình, li dị,
góa) nhóm máu (A, B, AB và O).
Trong phân tích thống kê, để tiện việc nhập số liệu hay lí giải kết quả, người ta có thể ánh xạ
(mapping) các giá trị của biến danh định vào các con số. Việc này được gọi là mã hóa và cần
hiểu rằng việc mã hóa này hoàn toàn có tính chất áp đặt và các con số được dùng trong mã hóa
không phản ánh bản chất của biến số danh định.
Giới tính là biến số danh định và có hai giá trị là nam và nữ. Chúng ta có thể mã hóa giới tính và quy ước
Nam là 1 và Nữ là 2. Tuy nhiên việc mã hóa này là áp đặt và chúng ta hoàn toàn có thể quy ước Nam là 1
và Nữ là 0. Việc mã hóa chỉ nhằm giúp việc nhập số liệu và xử lí số liệu trở nên dễ dàng hơn chứ không
nhằm phản ánh bản chất của biến số đó (do đó hoàn toàn vô căn cứ nếu cho rằng mã hóa Nam=1 và Nữ=0
là phản ánh thái độ phong kiến "Nhất nam viết hữu - Thập nữ viết vô).
Biến số thứ tự là biến số danh định nhưng có thể sắp xếp thứ tự được.
Thí dụ: tình trạng kinh tế xã hội (giàu, khá, trung bình, nghèo, rất nghèo) là biến số thứ tự bởi vì người
giàu có điều kiện kinh tế tốt hơn người khá, người khá hơn người trung bình, trung bình hơn nghèo, v.v
Những thí dụ khác là học lực của học sinh (giỏi, khá, trung bình, kém), tiên lượng (tốt, khá, xấu, tử vong).
Theo phân loại tăng huyết áp của Tổ chức Y tế Thế giới được trình bày như sau, thì phân loại huyết áp với
các giá trị huyết áp bình thường, huyết áp cao nhẹ, vừa và nặng là biến số thứ tự.
43
Huyết áp bình thường: HA tâm thu (139 và HA tâm trương ( 89
Tăng huyết áp nhẹ: HA tâm thu ( 179 hay HA tâm trương ( 104
Tăng huyết áp vừa: HA tâm thu ( 180 hay HA tâm trương (114
Tăng huyết áp nặng: HA tâm thu (180 và HA tâm trương ( 115 mmHg
Biến số định lượng nhằm thể hiện một đại lượng và do đó có giá trị là những con số.
Thí dụ: tuổi là biến số liên tục bởi vì ta có thể nói người này 20 tuổi, người kia 32 tuổi, v.v.
Những thí dụ khác là đường huyết, hemoglobin, hematocrite, chiều cao, cân nặng, thu nhập, v.v
Khi chúng ta quan tâm đến việc lí giải nguyên nhân của sự việc chúng ta chia biến số thành biến
số độc lập và biến số phụ thuộc.
Biến số dùng để mô tả hay đo lường vấn đề nghiên cứu được gọi là biến số phụ thuộc.
Biến số dùng để mô tả hay đo lường các yếu tố được cho là gây nên (hay gây ảnh hưởng đến)
vấn đề nghiên cứu được gọi là biến số độc lập
Cần phân biệt sự khác biệt giữa biến số và giá trị của biến số (còn gọi là yếu tố): Giới tính là
biến số nhưng Nữ không phải là biến số mà là một giá trị của biến số (hay còn gọi là yếu tố).
Thời gian chờ đợi để được sử dụng dịch vụ y tế là biến số nhưng thời gian chờ đợi lâu là giá trị
của biến số. Kiến thức về các cây con thuốc là biến số nhưng ít hiểu biết về các cây con thuốc là
yếu tố. Ta có thể nói biến số mức độ hút thuốc lá có liên quan đến nguy cơ ung thư phổi nhưng
phải nói hút thuốc lá nặng là yếu tố nguy cơ của ung thư phổi.
Biến số (đại lượng hay đặc tính được quan tâm) được chia làm 3 loại:
- Biến số có thể đo lường trực tiếp - chiều cao, cân nặng, tuổi, tình trạng hôn nhân.v.v
- Biến số không thể đo lường trực tiếp được như tình trạng dinh dưỡng, mức độ đắc khí, mức độ
hài lòng của bệnh nhân, kiến thức của bà mẹ về thực hành chăm sóc trẻ.
- Biến số không đo lường được trong nghiên cứu hiện tại. Trên nguyên tắc, mọi biến số đều có
thể đo lường được nhưng trong một nghiên cứu cụ thể có thể có một số biến số không đo lường
được do hạn chế của điều kiện kĩ thuật hay không thống nhất về định nghĩa cụ thể (thí dụ nồng
độ endorphine gia tăng sau khi châm cứu, mức độ hữu dụng của những bệnh nhân bị tàn tật, chất
lượng dân số)
Ðịnh nghĩa cụ thể
Thông thường, nhà nghiên cứu bắt đầu với một quan điểm tương đối mơ hồ về cách đo lường
các biến số nghiên cứu. Thí dụ, nếu nhà nghiên cứu muốn đo lường mức độ đau thì nhà nghiên
cứu phải chuyển đổi khái niệm đau thành một mệnh đề chặt chẽ xác định cách đo lường biến số
này. Phụ thuộc vào cách lí giải trừu tượng của khái niệm đau và yêu cầu cụ thể của nghiên cứu,
chúng ta có thể chọn lựa một phương pháp đo lương mức độ đau đớn.
Ðịnh nghĩa cụ thể của biến số là một mệnh đề về cách người nghiên cứu của một nghiên cứu nào
đó chọn cách đo lường biến số đó. Nó phải không được mơ hồ và chỉ có một cách lí giải duy
nhất. Thí dụ, một nhà nghiên cứu cho rằng việc điều trị của bà ta có thể giúp cải thiện việc "kiểm
soát vận động", câu hỏi chúng ta cần đặt ra ngay là "kiểm soát vận động" có ý nghĩa như thế
nào. Nhà nghiên cứu có thể trả lời là bà ta quan tâm đến việc kiểm soát vận động được đo lường
bởi Plunkett Motor Dexterity Task Score. Một nhà nghiên cứu khác có thể không chấp nhận
định nghĩa này và cho rằng việc kiểm soát vận động nên được tự đánh giá bởi bệnh nhân. Cả hai
định nghĩa này được gọi là định nghĩa cụ thể.
Một định nghĩa cụ thể tốt là định nghĩa cung cấp đủ thông tin để cho phép một nhà nghiên cứu
khác có thể lập lại kĩ thuật đo lường, nếu người đó muốn. Trong mô tả nghiên cứu nhà nghiên
cứu nên bao gồm trong định nghĩa cụ thể những công cụ đo lường và quy trình nghiên cứu để
người đọc có thể rõ ràng về những việc đã làm.
44
Biến số độc lập - phụ thuộc - gây nhiễu
Việc xác định biến số nào là biến số độc lập hay biến số phụ thuộc được xác định trong phần đặt
vấn đề và mục tiêu của nghiên cứu. Do đó trong khi thiết kế nghiên cứu cần phải xác định rõ
ràng biến số nào là độc lập và biến số nào là phụ thuộc.
Thí dụ nếu nghiên cứu mối quan hệ giữa ung thư phổi và hút thuốc lá thì hút thuốc lá là biến số
độc lập và ung thư phổi là biến số phụ thuộc
Nếu nhà nghiên cứu muốn tìm hiểu tại sao thanh niên hút thuốc thì hút thuốc là biến số phụ
thuộc và "áp lực của bạn bè" là biến số độc lập.
Biến số gây nhiễu (confounding variable) là biến số cung cấp một giải thích khác của mối liên
hệ giữa biến số độc lập và biến số phụ thuộc. Một biến số được đánh giá là biến số gây nhiễu khi
có 3 đặc tính sau:
- Có liên quan đến biến số phụ thuộc (là yếu tố nguy cơ của vấn đề nghiên cứu)
- Có liên quan đến biến số độc lập (phân bố không đều giữa các giá trị của biến độc lập)
- Không nằm trong cơ chế tác động của biến độc lập lên biến phụ thuộc
Thí dụ:
Có mối
liên hệ
giữa số lần khám tiền sản và sanh con nhẹ hơn 2500 gram. Tuy nhiên thu nhập của gia đình
cũng có thể ảnh hưởng đến số lần khám tiền sản và việc sanh con nhẹ cân. Như vậy thu nhập của
gia đình là yếu tố gây nhiễu.
Kiểm soát yếu tố gây nhiễu
Ðể khắc phục yếu tố gây nhiễu người ta có thể sử dụng:
- Phương pháp hạn chế: thí dụ chỉ nghiên cứu những bà mẹ trong gia đình có thu nhập trung
bình, không nghiên cứu những bà mẹ trong gia đình nghèo
- Phương pháp bắt cặp trong chọn mẫu và phân tầng trong phân tích mẫu:
- Phương pháp phần tầng: gồm tiến hành phân tích số liệu riêng biệt cho nhóm bà mẹ nghèo, cho
nhóm bà mẹ trung bình và nhóm bà mẹ giàu rồi tổng hợp kết quả lại. Thực chất phương pháp
phân tầng gồm là sự tổng hợp của nhiều nghiên cứu hạn chế (mỗi nghiên cứu được hạn chế cho
một giá trị của biến số gây nhiễu)
- Phương pháp mô hình hóa sử dụng phương pháp hồi quy đa biến để tách riêng tác động của
từng biến số có liên quan trong mô hình. Khi đó hệ số của các biến số trong mô hình đánh giá
tác động của biến số đó, không bị ảnh hưởng hay gây nhiễu bởi các yếu tố khác (bởi vì trong
hồi quy đa biến, hệ số B
1
của biến số X
1
nêu lên sự thay đổi của biến phụ thuộc Y khi X
1
thay
đổi một đơn vị và các biến số liên quan khác như X
1
, X
2
, … không thay đổi).
- Phương pháp chia nhóm ngẫu nhiên: chỉ sử dụng được cho nghiên cứu thực nghiệm nhưng đây
là phương pháp khử yếu tố gây nhiễu toàn diện nhất và không cần xác định hay đo lường toàn
bộ các yếu tố gây nhiễu.
Số lần khám thai
(Biến số độc lập)
Cân nặng con lúc sinh
(Biến số phụ thuộc)
Thu nhập - Học vấn gia đình
(biến số gây nhiễu)
45
Biến số nền (background variables)
Trong bất cứ nghiên cứu nào, có những biến số nền tảng thí dụ như tuổi, giới, trình độ giáo dục,
tình trạng kinh tế, tình trạng hôn nhân, tôn giáo, v.v. Những biến số này thường có ảnh hưởng
đến vấn đề nghiên cứu (biến số phụ thuộc) và có tác động như biến số gây nhiễu. Nếu biến số
nền có ảnh hưởng quan trọng đến nghiên cứu cần phải thu thập thông tin về biến số nền. Nhưng
không nên thu thập quá nhiều biến số nền để tránh làm tăng kinh phí nghiên cứu một cách vô
ích.
46
Bài tập:
1. Giả sử chúng ta có khung ý niệm (conceptual framework) về mối liên hệ giữ kém vận động và
bệnh mạch vành như sau:
Trong các yếu tố: Hút thuốc lá, Tăng LDL-cholesterol, Xem ti vi nhiều, yếu tố nào được xem là
yếu tố gây nhiễu?
2. Một nghiên cứu đoàn hệ được tiến hành ở Anh quốc, những người tham gia được ghi nhận
mức độ hoạt động tình dục cao ở đầu nghiên cứu (được đánh giá bằng tần suất có khoái cảm) có
nguy cơ tử vong trong 10 năm thấp hơn những người được ghi nhận có mức độ hoạt động tình
dục thấp.
1
Giả sử điều này là đúng, anh chị có lời khuyên gì về việc hoạt động tình dục để giảm
thiểu nguy cơ tử vong.
Một số nhà khoa học cho rằng kết luận của nghiên cứu có thể là không đúng. Họ giải thích rằng
những người có quan hệ tình dục thường xuyên là những người có sức khoẻ tổng quát tốt hơn,
do đó, có nguy cơ tử vong thấp hơn. Theo các anh chị, những nhà khoa học này cho rằng tình
trạng sức khoẻ tổng quát là yếu tố biến đổi hậu quả hay yếu tố gây nhiễu? Nếu điều này được
chứng minh là đúng thì anh chị sẽ có lời khuyên gì đối với mọi người để giảm thiểu nguy cơ tử
vong.
Các bác sĩ lâm sàng có kinh nghiệm lại đưa ra lời giải thích khác. Họ cho rằng ở những người
khoẻ mạnh, quan hệ tình dục thường xuyên là có lợi cho sức khoẻ và làm giảm nguy cơ tử vong
còn ở người ở tình trạng sức khoẻ tổng quát đã kém việc quan hệ tình dục thường xuyên lại
khiến đối tượng dễ bị tử vong hơn. Theo các anh chị, nếu kinh nghiệm lâm sàng này là đúng thì
tình trạng sức khoẻ tổng quát là yếu tố biến đổi hậu quả hay yếu tố gây nhiễu? Nếu điều này là
đúng thì anh chị sẽ có lời khuyên gì đối với mọi người để giảm thiểu nguy cơ tử vong.
1. Davey Smith G, Frankel S, Yarnell J. Sex and death: are they related? Findings from
the Caerphilly Cohort study. BMJ. 1997; 315: 1641-1644
2. Gần như tất cả các nghiên cứu quan sát cho thấy sự giảm nguy cơ tử vong bệnh tim ở các phụ
nữ sử dụng oestrogen. Một nghiên cứu gộp (meta-analysis) của 25 nghiên cứu đã xuất bản tìm
thấy nguy cơ tương đối chung là 0.70 đối với bệnh mạch tim ở các phụ nữ có sử dụng estrogen
(so với nhóm không dùng oestrogen); trong 7 nghiên cứu khác đánh giá hiệu quả của việc sử
dụng oestrogen và progestogen, nguy cơ ước lượng là 0.66.
2

Tuy nhiên, gần đây, Hemminki

and McPherson đã tổng kết 22 nghiên cứu thử nghiệm ngẫu
nhiên của việc sử dụng trị liệu oestrogen và thấy rằng các biến cố tim mạch lại là nguyên nhân
chủ yếu của việc bỏ cuộc hay phản ứng ngoại ý.
3
Tỉ số nguy cơ tóm tắt là (1.39) trong nhóm sử
dụng estrogen so với nhóm không sử dụng. Điều này cho thấy estrogen không có tác dụng


lợi, nếu không phải là có hại, lên nguy cơ bệnh tim mạch.
Anh chị tin vào kết quả nghiên cứu của loại nghiên cứu nào hơn? Anh chị cho rằng điều trị
hormone thay thế ở phụ nữ mãn kinh có lợi hay có hại cho sức khỏe tim mạch? Tại sao anh chị
lại tin như vậy?
Kém vận động Tăng LDL-cholesterol
Giảm HDL-cholesterol
Bệnh mạch vành
Hút thuốc lá
Xem ti vi nhiều
47
1. Barrett-Connor E. Hormone Replacement Therapy. BMJ 1998;317:457-461 .
2. Barrett-Connor E, Grady D. Hormone replacement therapy, heart disease, and other
considerations. Annu Rev Public Health 1998; 19: 55-72.
3. Hemminki E, McPherson K. Impact of postmenopausal hormone therapy on
cardiovascular events and cancer: pooled data from clinical trials. BMJ 1997; 315: 149-
153
4. Writing Group for the PEPI Trial. Effects of estrogen or estrogen/progestin regimens
on heart disease risk factors in postmenopausal women. JAMA 1995; 273: 199-208
3. Một nghiên cứu thực nghiệm trên khỉ chimpanzee cho thấy lượng estrogen giúp khỉ
chimpanzee cái được bảo vệ và có nguy cơ bị sốt rét thấp hơn so với khỉ đực. Một nhà nghiên
cứu quan tâm đến đề tài này và thực hiện một nghiên cứu bệnh chứng để xác định mối liên hệ
giữa giới tính và sốt rét. Nhà nghiên cứu này tìm được 150 trường hợp bệnh (trong đó có 88
nam) và 150 chứng (trong đó có 68 nam). Tỉ số số chênh thô tính được là 1,71.
Nhà nghiên cứu này cũng biết chút ít về dịch tễ và cho rằng những hoạt động nghề nghiệp ngoài
nhà là yếu tố gây nhiễu và do đó, thu thập thông tin về nghề nghiệp hoạt động ngoài nhà ở các
đối tượng, sử dụng phương pháp phân tầng và ghi nhận được các kết quả sau:
Nhóm nghề nghiệp ngoài nhà Nhóm nghề nghiệp trong nhà
Bệnh Chứng Tổng
số
Bệnh Chứng Tổng số
Nam 53 15 68 Nam 35 53 88
Nữ 10 3 13 Nữ 52 79 131
Tổng
số
63 18 81 Tổng
số
87 132 219
Theo các anh chị, nghề nghiệp (ngoài nhà và trong nhà) có phải là yếu tố gây nhiễu trong nghiên
cứu này hay không? tại sao?
Nhà nghiên cứu đang viết bài báo cáo và dự định sẽ công bố giá trị OR hiệu chỉnh theo nghề
nghiệp. Tình cờ có một chuyên viên dịch tễ của Tổ Chức Y tế Thế giới đọc được bản thảo của
nghiên cứu này và cho ý kiến phản biến. Theo ông, do nghề nghiệp là hậu quả của giới tính nên
chuỗi giới tính - nghề nghiệp - sốt rét có thể được xem như là cơ chế tác động của giới tính lên
nguy cơ mắc bệnh sốt rét. Do đó nghề nghiệp không phải là yếu tố gây nhiễu. Ông ta khuyên
nên báo cáo giá trị OR thô (không hiệu chỉnh cho nghề nghiệp). Theo anh chị, nhà nghiên cứu
có nên nghe theo lời khuyên của chuyên gia dịch tễ hay không?
Bias in studies of use of oestrogen and heart disease
1

Bias in who is prescribed oestrogen:
More educated
Higher social class
Osteoporosis*
No diabetes, heart disease, or
hypertension
Healthier before treated
Bias in who takes oestrogen:
Compliant women
48
49
Các loại nghiên cứu
Mục tiêu
1. Mô tả được những thiết kế thường được sử dụng trong nghiên cứu khoa học y học và hạn chế
của mỗi loại nghiên cứu
2. Trình bày được từng loại nghiên cứu có ảnh hưởng gì đến tính giá trị và tính tin cậy của kết
quả nghiên cứu
3. Xác định được loại nghiên cứu thích hợp cho đề cương nghiên cứu của chính học viên
Mở đầu
Phụ thuộc vào chúng ta đã biết gì về vấn đề nghiên cứu, có những câu hỏi khác nhau cần được
đặt ra và tương ứng với các thiết kế nghiên cứu khác nhau. Việc chọn lựa thiết kế nghiên cứu
phụ thuộc vào
- Vấn đề thuộc loại gì?
- Kiến thức đã biết được về vấn đề
- Nguồn lực có được dành cho nghiên cứu
Thí dụ trong những vấn đề về quản lí y tế (thí dụ như việc quá tải của bệnh viện) chỉ cần mô tả
rõ ràng vấn đề và xác định các yếu cố góp phần cũng đủ cung cấp những thông tin để hành
động.
Ðối với một số vấn đề quản lí y tế và nhiều loại nghiên cứu khác, có thể chúng ta cần muốn biết
mối liên hệ giữa các biến số (thí dụ như ít ăn rau và ung thư đại tràng). Trong trường hợp này
chúng ta cần có nghiên cứu phân tích hay nghiên cứu thực nghiệm.
Một số loại nghiên cứu
Có nhiều cách phân loại nghiên cứu trong đó người ta thường chia làm 2 loại:
- Các nghiên cứu không can thiệp: trong đó nhà nghiên cứu chỉ mô tả và phân tích tình hình
nhưng không can thiệp
- Các nghiên cứu có can thiệp: nhà nghiên cứu tác động lên tình hình và đo lường kết quả của
việc tác động (thí dụ như tiến hành chương trình giáo dục sức khoẻ và xem nó có tác động gì lên
tỉ lệ tiêm chủng).
Nghiên cứu không can thiệp
Nghiên cứu không can thiệp bao gồm nghiên cứu thăm dò, nghiên cứu mô tả và nghiên cứu
phân tích
Nghiên cứu thăm dò
Nghiên cứu th ăm dò là nghiên cứu trên quy mô nhỏ trong thời gian ngắn khi chúng ta chưa rõ về
vấn đề hay tình hình cần phải nghiên cứu
Thí dụ: Uỷ ban quốc gia phòng chống AIDS muốn xây dựng dịch vụ tham vấn cho bệnh nhân
AIDS và người nhiễm HIV nhưng không biết những nhu cầu của bệnh nhân cần được hỗ trợ.
Ðể thăm dò những nhu cầu này, một số cuộc phỏng vấn sâu đã được tiến hành với nhiều nhóm
bệnh nhân và với các nhân viên y tế đã làm trong lãnh vực này.
Trong nghiên cứu thăm dò người ta thường mô tả và so sánh. Thí dụ nhà nghiên cứu có thể mô
tả nhu cầu của từng nhóm bệnh nhân và so sánh nhu cầu về tham vấn của bệnh nhân nam và
bệnh nhân nữ. Nghiên cứu thăm dò sẽ có giá trị tốt hơn nếu nhà nghiên cứu cố gằng tiếp cận vấn
đề từ nhiều hướng khác nhau.
50
Nghiên cứu mô tả
Nghiên cứu mô tả bao gồm việc thu thập và trình bày có hệ thống các số liệu nhằm cung cấp
một bức tranh về một tình huống cụ thể.
Nghiên cứu mô tả có thể được tiến hành trên một quy mô lớn hoặc quy mô nhỏ. Ở quy mô nhỏ
nghiên cứu mô tả bao gồm việc mô tả sâu các đặc tính của một số bệnh nhân hay các trạm y tế
hoặc các dự án. Loại hình nghiên cứu này được gọi là nghiên cứu trường hợp (case study) hay
báo cáo ca bệnh (case report, case series). Ở quy mô lớn hơn và các cuộc điều tra cắt ngang
nhằm xác định sự phân bố của các biến số nhất định ở một thời điểm. Các đặc tính này có thể là
các đặc tính thực thể, kinh tế xã hội hay hành vi của cộng đồng.
Ðôi khi nhà nghiên cứu thường kết hợp sự mô tả dân số nghiên cứu với sự so sánh các nhóm
trong dân số. Mặc dù nghiên cứu này cũng sử dụng phương pháp so sánh tương tự như nghiên
cứu phân tích, khi chỉ so sánh các nhóm dân số khác nhau, bản chất của nghiên cứu này vẫn là
nghiên cứu mô tả.
Khác với các nghiên cứu phân tích nhằm tìm mối liên hệ giữa một yếu tố phơi nhiễm và tình
trạng bệnh tật, các nghiên cứu mô tả, Nghiên cứu mô tả nhằm báo động, tìm hiểu một số đặc
điểm hay ước lượng quy mô của một vấn đề sức khoẻ hay tìm hiểu kiến thức, thái độ, hành vi
của người dân về vấn đề đó để đề xuất các giải pháp can thiệp.
Những nghiên cứu mô tả bao gồm: nghiên cứu ca bệnh, nghiên cứu loạt ca bệnh trong nghiên
cứu lâm sàng và nghiên cứu trường hợp trong nghiên cứu sức khoẻ công cộng. Các nghiên cứu
kiến thức, thái độ, hành vi hay các điều tra cắt ngang cũng là các nghiên cứu mô tả quan trọng.
Các nghiên cứu mô tả tương đối phổ biến trong y văn và sau đây là một số thí dụ
Một báo cáo loạt ca bệnh (case series) dựa trên việc mô tả bệnh sử và bệnh cảnh lâm sàng của 4
người đàn ông được nhập viện tại trung tâmY khoa của Ðại học California ở Los Angeles
(UCLA) vì bệnh viêm phổi do Pneumocystic carinii. 6 Ðây là một vấn đề sức khoẻ cần phải báo
động vì loại viêm phổi này trước đây chỉ xuất hiện ở những người bị rối loạn hệ thống miễn
dịch. Những nhà nghiên cứu tiến hành một nghiên cứu để xem đây là một vấn đề sức khoẻ mới
hay chỉ là các trường hợp tương tự với những ca bệnh viêm phổi Pneumocystic carinii được phát
hiện từ trước? Vấn đề sức khoẻ này có những đặc điểm gì ?
Một nghiên cứu trường hợp được tiến hành dựa trên việc mô tả đặc điểm của một trạm y tế có
hoạt động tương đối tốt nhằm rút ra các bài học về quản lí cho các trạm y tế
7.
Ðây là một nghiên
cứu có ý nghĩa thực tiễn trong tình hình có nhiều trạm y tế còn hoạt động kém.
Ở Anh quốc nhóm chăm sóc ban đầu (primary care groups) được đưa vào hoạt động từ năm
1999 và có một ngân quỹ thống nhất để chi trả cho các hoạt động y tế của bệnh nhân bao gồm cả
chi phí nhập viện. Tuy nhiên người ta vẫn chưa rõ các thông tin nền (baseline) về sức khoẻ, kinh
tế xã hội và tỉ lệ nhập viện của 66 nhóm chăm sóc ban đầu nay ở thành phố Luân đôn. Vì vậy
một nghiên cứu cắt ngang mô tả được tiến hành và cho thấy sự khác biệt đáng kể về kinh tế xã
hội, y tế và thực hành của các nhóm và các thông tin này được sử dụng cho việc lập kế hoạch và
đánh giá dịch vụ y tế
8
.
Như vậy các nghiên cứu mô tả có một giá trị thực tiễn hết sức to lớn và hoàn toàn không kém
nghiên cứu phân tích về giá trị khoa học. Tuy nhiên một số nhà nghiên cứu vì không nắm rõ
mục tiêu nghiên cứu của mình nên thay vì thực hiện một nghiên cứu mô tả tốt họ tiến hành một
nghiên cứu phân tích kém. Thí dụ trong một nghiên cứu cắt ngang nhằm tìm hiểu mô hình bệnh
tật của một cộng đồng (đây là một nghiên cứu rất có giá trị để thiết kế chương trình can thiệp y
tế cho cộng đồng đó) nhà nghiên cứu không tập trung vào việc mô tả các vấn đề sức khoẻ mà lại
(thí dụ như) cố gắng tìm mối liên hệ giữa ung thư và hút thuốc lá và như vậy làm loãng giá trị
của đề tài nghiên cứu bằng một phân tích kém chất lượng và bị sai lệch.
Nghiên cứu so sánh hay nghiên cứu phân tích
Dịch tễ học phân tích (hoặc tìm nguyên nhân) có nội dung tìm nguyên nhân gây ra vấn đề sức
51
khỏe trong dân chúng.
Phương pháp áp dụng là phân tích các yếu tố ảnh hưởng làm gia tăng tỷ lệ bệnh trong một dân
số. Nguyên lí của phương pháp này là so sánh tỉ lệ mắc bệnh của hai nhóm dân số: một dân số
có tiếp xúc với yếu tố nguy cơ và một dân số không tiếp xúc với yếu tố nguy cơ. Nếu tỉ lệ mắc
bệnh này khác biệt giữa hai nhóm (nghĩa là nguy cơ tương đối khác 1) thì ta kết luận có thể có
mối liên hệ giữa yếu tố tiếp xúc và bệnh tật. Mặc dầu rất nhiều lãnh vực khoa học sinh học tham
gia vào khảo sát nguyên nhân bệnh tật con người nhưng vai trò của dịch tễ học là độc đáo và
không thể thay thế. Hơn nữa phương pháp dịch tễ học thường đi đầu tìm ra các nguyên nhân.
Các ngành khoa học khác sẽ đi theo để tìm thêm chứng cứ ủng hộ. Thí dụ John Snow đã tìm ra
cơ chế lây bệnh của dịch tả trước khi các nhà vi sinh học tìm ra phẩy khuẩn tả Doll và Hill tìm –
thấy vai trò của thuốc lá gây bệnh ung thư phổi trước khi các nhà khoa học tìm thấy hóa chất
sinh ung trong khói thuốc lá.
Ðể có số liệu cụ thể, dịch tễ học phân tích có thể dùng các phương pháp điều tra thu thập sau
đây:
Khảo sát nguyên nhân trong cohort
C o ù t i e á p
x u ù c
K h o â n g
b e ä n h
C o ù
b e ä n h
K h o â n g
b e ä n h
T h ô ø i g i a n t
1
t
0
K h o â n g
t i e á p
x u ù c
K h o â n g
b e ä n h
C o ù
b e ä n h
K h o â n g
b e ä n h
T h ô ø i g i a n t
1
t
0
Nghiên cứu đoàn hệ là nghiên cứu nhằm tìm ra sự liên hệ giữa một yếu tố phơi nhiễm và một
tình trạng sức khoẻ (thí dụ như một bệnh tật) bằng cách quan sát và so sánh nguy cơ mắc bệnh
giữa hai nhóm quần thể có tình trạng phơi nhiễm khác nhau. Một thí dụ kinh điển của nghiên
cứu đoàn hệ là nghiên cứu các bác sĩ Anh quốc (The British Doctor's study) được bắt đầu tiến
hành vào năm 1951 trong đó 34.440 nam bác sĩ được hỏi về tình trạng hút thuốc lá (có hay
không) và được theo dõi về tử vong do ung thư phổi trong vòng 20 năm 3. Kết quả cho thấy
nguy cơ tử vong hàng năm do ung thư phổi ở người không hút thuốc lá là 10/100.000 trong khi
nguy cơ tử vong hàng năm do ung thư phổi ở người hút thuốc lá là 140/100.000. Như vậy hút
thuốc lá làm tăng nguy cơ ung thư phổi lên 14 lần (nguy cơ tương đối là 14) và như vậy hút
thuốc lá được gọi là yếu tố nguy cơ (hay nguyên nhân) của ung thư phổi.
Tiền đề của nghiên cứu đoàn hệ là phải theo dõi đầy đủ một hiện tượng sức khoẻ của quần thể
trong thời gian khá dài (không có mất theo dõi - loss from follow-up). Ðây là khuyết điểm chính
của nghiên cứu đoàn hệ và các thiết kế nghiên cứu khác (bệnh chứng và cắt ngang) được đề xuất
để khắc phục. Nếu được theo dõi đầy đủ, nghiên cứu đoàn hệ có ưu điểm là trực quan và ít gây
ra sai lệch do chọn lựa và sẽ có tính thuyết phục cao.
52
Khảo sát nguyên nhân bệnh chứng:
C o ù
b e ä n h
C o ù t i e á p
x u ù c
K h o â n g
t i e á p
x u ù c
T h ô ø i g i a n t
0
t
1
K h o â n g
b e ä n h
C o ù t i e á p
x u ù c
K h o â n g
t i e á p
x u ù c
T h ô ø i g i a n t
0
t
1
Giả sử chúng ta không có điều kiện theo dõi 34.440 bác sĩ trong thời gian 20 năm nhưng chúng
ta có điều kiện (a) biết chắc chắn một người có phải là một nam bác sĩ hay không (b) ghi nhận
được thông tin của tất cả các trường hợp ung thư phổi xảy ra trên các nam bác sĩ và (c) chọn
một mẫu đại diện cho quần thể nam bác sĩ về phương diện hút thuốc lá. Khi đó bằng phép tính
số học đơn giản có thể chứng minh:
OR · ·
laù thuoác huùt khoâng ngöôøi ôû beänh maéc cheânh soá
laù thuoác huùt ngöôøi ôû beänh maéc cheânh soá
beänh maéc khoâng ngöôøi ôû laù thuoác huùt cheânh soá
beänh maéc ngöôøi ôû laù thuoác huùt cheânh soá
Và như vậy chúng ta có thể ước lượng được nguy cơ tương đối mà không cần phải quan sát
trong thời gian dài.
Nhằm tìm hiểu sự liên quan giữa sử dụng Oestrogen tổng hợp (OCE) và ung thư mội mạc tử
cung, một nghiên cứu bệnh chứng được tiến hành trong đó có 183 người bị ung thư nội mạc tử
cung (nhóm bệnh) và 183 người không bị ung thư nội mạc tử cung (nhóm chứng) được hỏi tiền
căn sử dụng OCE4 . Kết quả cho thấy trong nhóm bệnh có 55 người có tiền căn sử dụng OCE
(số chênh sử dụng OCE trong nhóm này là 55/128=0,43) và trong nhóm chứng có 19 người có
tiền căn sử dụng OCE (số chênh sử dụng OCE trong nhóm chứng là 19/164=0,12). Tỉ số của hai
số chênh này là 0,43/0,12= 3,6. Con số này (3,6) cũng chính là số chênh mắc ung thư mội mạc
tử cung của nhóm sử dụng OCE so với nhóm không sử dụng OCE hay là mức tăng nguy cơ ung
thư nội mạc tử cung nếu sử dụng OCE.
Nghiên cứu bệnh chứng tốt đòi hỏi phải thoả mãn 3 điều kiện đã nêu ở trên trong đó có điều
kiện là phải có thông tin về tất cả các trường hợp bệnh vì vậy nghiên cứu này thích hợp cho các
bệnh nghiêm trọng và tất cả các trường hợp bệnh đều phải nhập viện. Bệnh ung thư là một thí dụ
kinh điển của loại bệnh thích hợp cho nghiên cứu bệnh chứng. Nếu nghiên cứu bệnh chứng
không thoả mãn được 3 điều kiện trên sẽ bị sai lệch (biased). Hơn thế nữa, khi tiến hành nghiên
cứu bệnh chứng, nhà nghiên cứu phải chuẩn bị rất chu đáo về mặt kĩ thuật vì không dễ dàng
thuyết phục được cộng đồng khoa học đều đồng ý rằng nhóm chứng là thực sự đại diện cho quần
thể không mắc bệnh. Tuy nhiên nghiên cứu bệnh chứng có ưu điểm là tiến hành nhanh, ít tốn
kém đặc biệt trong nghiên cứu các bệnh hiếm và có thời gian tiềm tàng kéo dài.
53
Nghiên cứu cắt ngang
Trở về thí dụ nghiên cứu sự liên hệ giữa hút thuốc là và ung thư phổi, chúng ta có thể không cần
thời gian theo dõi trong suốt thời gian từ 1951 đến 1971 mà chỉ cần tiến hành một cuộc điều tra
ở thời điểm 1971, ghi nhận thông tin về hút thuốc và ung thư phổi và có được kết luận tương tự
như nghiên cứu đoàn hệ nếu chúng ta giả định được rằng (a) Tất cả các trường hợp ung thư phổi
chẩn đoán trong giai đoạn 1951 đến 1971 đều còn sống cho đến năm 1971 (b) Việc mắc ung thư
phổi không làm thay đổi thói quen hút thuốc lá của bác sĩ mắc bệnh (nghĩa là nếu họ hút thuốc lá
rồi bị ung thư phổi thì họ vẫn tiếp tục hút thuốc lá và nếu họ không hút thuốc lá thì sau khi ung
thư phổi vẫn tiếp tục không hút thuốc lá). Như vậy, nghiên cứu cắt ngang thường ít được sử
dụng cho các bệnh nghiêm trọng như ung thư, bệnh nhiễm trùng, tai nạn. Những bệnh thích hợp
cho nghiên cứu cắt ngang bao gồm rối loạn có tính chất định lượng và ít gây tử vong (béo phì,
suy dinh dưỡng, bất dung nạp đường huyết, tăng huyết áp thể nhẹ hay trung bình).
Một nghiên cứu cắt ngang được tiến hành ở Bavaria, cộng hoà liên bang Ðức nhằm đánh giá tác
động của bú sữa mẹ (trong thời kì nhũ nhi) lên nguy cơ béo phì (vào cuối tuổi nhà trẻ) bằng
cách sử dụng các số liệu chiều cao, cân nặng và bộ câu hỏi về dinh dưỡng của 9357 trẻ từ 5-6
tuổi được khám sức khoẻ trước khi nhập học 5. Ở trẻ không được bú mẹ, tỉ lệ béo phì là 4,5%
trong khi đó ở trẻ được bú mẹ tỉ lệ béo phì là 2,8%. Tác giả kết luận rằng bú sữa mẹ làm giảm
nguy cơ béo phì ở cuối tuổi nhà trẻ. Mặc dù đây là nghiên cứu cắt ngang nhưng có tính giá trị
tốt do thoả mãn được hai giả định của nghiên cứu cắt ngang (a) đứa trẻ bị béo phì không bị tăng
nguy cơ tử vong và (b) việc trẻ bị béo phì không ảnh hưởng gì đến việc bú sữa mẹ ở giai đoạn
nhũ nhi.
Tóm lại nghiên cứu cắt ngang có ưu điểm là đơn giản và ít tốn kém. Tuy nhiên nó chỉ có thể áp
dụng được cho các bệnh tật có tính chất định lượng, phổ biến, ít gây tử vong và các yếu tố nguy
cơ ít biến động.
Nghiên cứu can thiệp
Trong nghiên cứu can thiệp nhà nghiên cứu tác động lên tình hình và đo lường kết quả của việc
tác động. Thông thường có hai nhóm được so sánh,nhóm được can thiệp (thí dụ như được điều
trị với một loại thuốc) và nhóm không được can thiệp (nhóm sử dụng giả dược).
Nghiên cứu can thiệp được chia thành nghiên cứu thực nghiệm và nghiên cứu bán thực nghiệm
Trong nghiên cứu thực nghiệm, các cá nhân được chia ngẫu nhiên thành (ít nhất) hai nhóm. Một
nhóm được nhận can thiệp (nhóm thử nghiệm) và một nhóm không được nhận can thiệp (nhóm
chứng). Kết cuộc của can thiệp được tính từ việc so sánh kết quả ở hai nhóm.
Nghiên cứu thực nghiệm có 3 đặc tính:
- Thao tác
- Có nhóm chứng
- Chia nhóm ngẫu nhiên: sức mạnh của nghiên cứu thực nghiệm chính là việc chia nhóm ngẫu
nhiên giúp loại bỏ yếu tố gây nhiễu.
Nghiên cứu bán thực nghiệm là nghiên cứu có sự thao tác của nhà nghiên cứu nhưng thiếu một
trong hai đặc tính còn lại của nghiên cứu thực nghiệm (thí dụ như không có nhóm chứng hay
không được chia nhóm ngẫu nhiên.
Nghiên cứu thực nghiệm có thể được chia làm 3 loại:
1- Thử nghiệm lâm sàng: là nghiên cứu trên đối tượng bệnh nhân. Loại nghiên cứu bao gồm
việc thử nghiệm một điều trị mới hay một biện pháp dự phòng các di chứng trên bệnh
nhân nhằm đánh giá hiệu quả của việc điều trị hay dự phòng kể trên.
2- Thử nghiệm thực địa là việc can thiệp trên người chưa có bệnh. Loại nghiên cứu này chủ yếu
đánh giá các biện pháp dự phòng.Để nghiên cứu có tính xác hợp người ta thường chỉ sử
dụng thử nghiệm thực địa để đánh giá các giải pháp can thiệp dự phòng cho các bệnh
54
bệnh phổ biến hay trầm trọng. Các thử nghiệm vaccine là một loại thử nghiệm thực địa
phổ biến nhất.
3- Can thiệp cộng đồng tương tự như thử nghiệm thực địa nhưng có đặc điểm là biện pháp can
thiệp được áp dụng cho cả cộng đồng chứ không phải có một cá nhân đơn lẻ. Can thiệp
cộng đồng áp dụng khi biện pháp can thiệp này chỉ có thể áp dụng cho quy mô cộng
đồng thí dụ như việc đánh giá hiệu quả của việc cải tạo vệ sinh môi trường trong việc
phòng chống sốt rét.
Nghiên cứu can thiệp chính thống có 3 đặc điểm quan trọng: có việc can thiệp chủ động và đặc
hiệu cho nghiên cứu, có nhóm đối chứng và sử dụng việc phân nhóm ngẫu nhiên để đưa các đối
tượng vào nhóm can thiệp và hay nhóm đối chứng đối chứng. Nghiên cứu can thiệp không có
đủ 3 đặc tính trên được gọi là nghiên cứu bán can thiệp (quasi experiment). Việc sai lệch thông
tin trong nghiên cứu can thiệp có thể được giảm thiểu nếu với phương pháp mù đơn (có nghĩa là
làm sao cho đối tượng không biết loại điều trị của cá nhân mình) hoặc mù đôi (cả đối tượng điều
trị và nhà nghiên cứu đều không biết loại điều trị được thực hiện trên từng cá nhân). Tuy nhiên
tính chất mù của nghiên cứu can thiệp không phải là yêu cầu tuyệt đối.
Do nghiên cứu thực nghiệm có chia làm 2 nhóm can thiệp và nhóm chứng bằng phương pháp
chia nhóm ngẫu nhiên, sẽ phân bố đều yếu tố gây nhiễu trong 2 nhóm và hạn chế vai trò của yếu
tố gây nhiễu, đặc biệt khí cỡ mẫu đủ lớn. Đó là lí do tại sao những bằng chứng từ nghiên cứu
thực nghiệm được đánh giá cao.
Tính giá trị và tính tin cậy của kết quả nghiên cứu
Tính giá trị nghĩa là kết luận của nghiên cứu là đúng
Tính tin cậy là nếu ai đó sử dụng cùng phương pháp nghiên cứu trong cùng một hoàn cảnh sẽ có
kết luận tương tự.
Giaù trò vaø chính xaùc Giaù trò - khoâng tin caäy
Khoâng giaù trò - khoâng tin caäy
55
Các số đo dịch tễ học
I. Mở đầu:
Bởi vì Dịch tễ học là khoa học mô tả sự phân bố của bệnh tật và các hiện tượng sức khỏe trong
dân số, các loại số đo sự phân bố bệnh tật là những khái niệm trung tâm của dịch tễ học.
II. Số đo tuyệt đối và số đo tương đối
Số đo tuyệt đối là số tuyệt đối của các hiện tượng sức khỏe và bệnh tật:
Thí dụ: trong năm 1997 tại thành phồ Hồ Chí Minh có khoảng 600 người chết vì bị tai nạn giao
thông đường bộ và 4 người chết do các phương tiện giao thông đường thủy. Ðây là các
số đo tuyệt đối. Từ các con số này chúng ta có thể cho rằng giao thông đường bộ nguy
hiểm hơn giao thông đường thủy. Nhận xét này có thể nhầm lẫn bởi vì chúng ta chưa xét
đến quy mô của dân số nguy cơ.
Số đo tương đối là tỉ số của hiện tượng sức khỏe bệnh tật so với dân số có nguy cơ có hiện tượng
sức khỏe đó.
Thí dụ: Người ta ước tính tại TP Hồ Chí Minh vào năm 1997 có khoảng 700.000.000 lượt vận
chuyển trên đường và 1.000.000 lượt vận chuyển bằng đường sông. Nguy cơ bị tử vong
trên mỗi lượt vận chuyển đường bộ vào khoảng 0,87/1.000.000 và nguy cơ bị tử vong
trên mỗi lượt vận chuyển là 2/1.000.000. Từ các con số này, chúng ta thấy vận chuyển
bằng đường sông nguy hiểm hơn vận chuyển bằng đường bộ
Câu hỏi: Về phương diện y tế công cộng, có phải dùng số đo tương đối thích hợp hơn số đo
tuyệt đối. Tại sao?
III. Tỉ số, tỉ lệ, tỉ suất
Do dịch tễ học sử dụng các số đo tương đối, các số đo thường là một thương số gồm tử số và
mẫu số. Tùy theo mối quan hệ giữa tử số và mẫu số cũng như tùy theo ý nghĩa của số đo, các
thương số này có thể là tỉ số, tỉ lệ hay tỉ suất:
Tỉ số (ratio) là loại thương số đơn giản nhất do một tử số chia cho một mẫu số bất kì
a/b
Trong tỉ số, tử số không nhất thiết là một phần của mẫu số.
Thí dụ: trong dân số của một xã người ta thâý có khoảng 49 người nam trong dân số 100 người.
Tỉ số giới tính = nam:nữ= 49:51.
Tỉ lệ (proportion) là một thương số trong đó tử số là một bộ phận của mẫu số.
Thí dụ: trong dân số một xã gồm 100 người có 49 người nam. Tỉ lệ nam giới trong dân số là
49%.
Tỉ suất (rate). từ "suất" trong tiếng Việt cũng như từ "rate" trong tiếng Anh thường để chỉ một
hiện tượng có liên quan đến thời gian. Thí dụ: lãi suất: tiền lời hàng tháng, sinh suất: số lần sinh
sống xảy ra trong một năm trong một dân số gồm 100 người. Thí dụ nếu một xã có 5.000 người
và sinh suất là 2% thì mỗi năm sẽ có khoảng 100 trẻ được sinh và trong 2 năm sẽ có khoảng 200
trẻ được sinh. Tỉ suất khác với tỉ lệ ở chỗ giả sử tỉ lệ không có mối liên hệ nội tại với thời gian.
Thí dụ nếu ta biết tỉ lệ nam trong dân số là 49%, ta không thể tiên đoán gì về sự thay đổi của số
người nam trong tương lai.
56
IV. Số đo dịch tễ
A. Tần suất
1. Số ca mới mắc (Incidence):
Là số lần mới vừa xảy ra của một bệnh, chấn thương hay tử vong trong dân số nghiên cứu trong
khoảng thời gian xác định
2. Sô ca hiện đang bệnh (Prevalence):
Là số người trong một dân số xác định có một bệnh nhất định ở một thời điểm (thường là thời
điểm điều tra).
3. Minh họa khái niệm về bệnh tật:
a. Khái niệm về số mới mắc, số hiện đang bệnh được minh họa trong hình 2-1 dựa trên phương
pháp được phát minh bởi Dorn (1957).
- Số mới mắc bệnh trong khoảng thời gian một năm là 4
- Số hiện đang bệnh tại thời điểm 1/1 là 3
- Số hiện đang bệnh tại thời điểm 1/9 là 4
4. Mối quan hệ giữa số hiện đang bệnh và số mới mắc:
Số hiện đang bệnh = Số mới mắc x Thời gian mắc bệnh trung bình
H ì n h 1 . M i n h h o ï a v e à d i e ã n t i e á n b e ä n h t a ä t c u û a 7 ñ o á i t ö ô ï n g A , B , C , D , E , F , G t r o n g s o á
1 0 0 ñ o á i t ö ô ï n g . Ñ ö ô ø n g ñ e n n a è m n g a n g l a ø t h ô ø i g i a n m a é c b e ä n h c u û a c a ù c ñ o á i t ö ô ï n g v ô ù i
d a á u c h a á m ô û ñ a à u l a ø t h ô ø i ñ i e å m m a é c b e ä n h v a ø d a á u c h a á m ô û c u o á i l a ø t h ô ø i ñ i e å m k e á t t h u ù c
b e ä n h .
A
C
B
D
F
E
G
57
B. Nguy cơ
1. Ðịnh nghĩa
a. Nguy cơ là tỉ lệ người không bị ảnh hưởng ở đầu nghiên cứu và sau đó vướng phải một biến
cố nguy cơ (chết, bệnh, chấn thương) trong thời gian nghiên cứu.
cô nguy soá daân
coá bieán ra xaûy ngöôøi soá
cô nguy ·
Nguy cơ rất hữu ích trong đo lường (tiên đoán) khả năng mắc bệnh của một cá nhân trong một
khoảng thời gian nhất định.
b. Hạn chế của ý niệm nguy cơ:
- Trên lí thuyết, chỉ có dân số nhạy cảm mới được kể trong mẫu số của nguy cơ nhưng trong
thực tế mẫu số bao gồm tất cả mọi người bị phơi nhiễm chứ không chỉ những cá nhân nhạy
cảm.
- Nguy cơ không hữu ích nếu một cá nhân có thể mắc bệnh (được quan tâm) nhiều lần hay khi
có tỉ lệ đối tượng cùng mắc bệnh tại một thời điểm khá cao.
c. Một số khái niệm thường gặp có bản chất là nguy cơ
- Tỉ số bệnh-vong (case fatality) là tỉ lệ người bệnh bị chết do bệnh đó. Ðây là chỉ số của độc
lực.
- Tỉ lệ người bị nhiễm trùng có triệu chứng lâm sàng được gọi là tính sinh bệnh (pathogenicity)
của vi sinh vật.
- Tỉ lệ người bị phơi nhiễm trở nên bị nhiễm trùng được gọi là tính truyền nhiễm của vi sinh vật
(infectiousness).
C. Tỉ suất
1. Ðịnh nghĩa:
Tỉ suất là số biến cố xảy ra trong một đơn vị thời gian chia cho dân số nguy cơ trung bình.
Tỉ suất còn có thể được định nghĩa là số biến cố xảy ra chia cho tổng thời gian nguy cơ.
bình trung cô nguy soá daân
gian thôøi vò ñôn 1 trong ra xaûy coá bieán soá
suaát tæ ·
2. Liên hệ giữa tỉ suất và nguy cơ
- Nếu nguy cơ được tính trong thời gian một năm và mỗi đối tượng chỉ có thể có một biến cố
nguy cơ thì số người có biến cố nguy cơ sẽ bằng với số biến cố nguy cơ trong 1 đơn vị
thời gian.
- Nếu số người bị ảnh hưởng bởi biến cố nguy cơ ít thì dân số nguy cơ trung bình sẽ bằng với
dân số nguy cơ ở đầu nghiên cứu. Khi đó ta nói tỉ suất sẽ xấp xỉ với nguy cơ trong một
đơn vị thời gian. Nói cách khác chúng ta có thể ước tính tỉ suất bằng nguy cơ trong một
đơn vị thời gian khi:
- Mỗi đối tượng chỉ có bị ảnh hưởng bởi biến cố nguy cơ nhiều nhất một lần, mỗi người chỉ có
thể có một lần mắc bệnh và
- Khoảng thời gian nghiên cứu ngắn hay đối với bệnh hiếm.
58

Số đo hậu quả và số đo tác động
I. Nhắc lại về số đo sự xuất hiện của bệnh: tỉ suất, nguy cơ và số chênh
Số mới mắc (incidence) là đo lường của sự xuất hiện của bệnh. Số mới mắc có thể trình bày
dưới dạng số tuyệt đối hay số tương đối. Những đo số tương đối của sự xuất hiện bệnh thường
gặp là nguy cơ, tỉ suất mới mắc, hay số chênh.
Nguy cơ (risk) là xác suất xuất hiện bệnh trong một khoảng thời gian nhất định. Do bản chất của
nguy cơ là xác suất nên nguy cơ không có thứ nguyên và
0 < nguy cơ < 1
Số chênh (odds) la ø tỉ số giữa nguy cơ mắc bệnh và nguy cơ không mắc bệnh
risk / (1 - risk)
Số chênh là một số không âm, số chênh bằng 0 khi nguy cơ bằng 0, số chênh bằng 1 khi nguy cơ
bằng 0,5 và số chênh tiến đến vô cực khi nguy cơ bằng 1. Như vậy, số chênh cũng là thước đo
để đo lường sự xuất hiện của bệnh.
Tỉ suất mới mắc (incidence rate): nguy cơ mắc bệnh tức thời trong một đơn vị thời gian. Do đơn
vị thời gian được chọn là tùy ý, tỉ suất mới mắc không có giới hạn về giá trị. Thứ nguyên của tỉ
suất mới mắc là thời gian
-1
, thí dụ tỉ suất mới của bệnh mạch vành tim ở người có cholesterol ≥
245 mg% là 0,02/năm.
Thông thường, tỉ suất mới mắc của một bệnh thường được gọi là tỉ suất của bệnh đó. Thí dụ, ta
có thể nói tỉ suất bệnh mạch vành là 0,02/năm ở những người có cholesterol ≥ 245 mg% nghĩa
là trong 100 người có cholesterol ≥ 245 mg% và chưa bị bệnh mạch vành tim, trung bình có hai
người bị xuất hiện bệnh mạch vành sau thời gian theo dõi 1 năm.
II. Số đo sự kết hợp - số đo hậu quả
Bảng 2 x 2 đã được dùng từ rất lâu để chứng minh sự kết hợp thống kê giữa một yếu tố nguy cơ
và sự xuất hiện của bệnh tật. Nhưng chỉ riêng sự kết hợp thống kê không nói lên được tầm quan
trọng về mặt lâm sàng (hoặc y tế công cộng) của mối liên quan nhân quả giữa yếu tố nguy cơ và
bệnh tật. Một sự kết hợp dù không có tầm quan trọng lớn nhưng đều có thể được chứng minh là
có ý nghĩa thống kê với cỡ mẫu đủ lớn.
Khoa học dịch tễ học nhận thức được hai vấn đề (1) Trong thực tế không có một nguyên nhân
đơn lẻ là nguyên nhân duy nhất cho một vấn đề y tế. Một vấn đề y tế luôn luôn được gây ra bởi
rất nhiều nguyên nhân và những nguyên nhân này chồng chéo lẫn nhau, người ta gợi đó là mạng
lưới nguyên nhân (web of causation) và (2) Ngành y tế không thể giải quyết được mọi nguyên
nhân của một vấn đề y tế cùng một lúc mà nó chỉ có thể giải quyết được tận gốc rễ nếu dịch tễ
học tìm ra được và giải quyết nguyên nhân quan trọng nhất.
Vì vậy, dịch tễ học đã đề xuất việc sử dụng tỉ số và hiệu số của nguy cơ làm thước đo của sự kết
hợp giữa nguyên nhân và hậu quả.
III. Số đo tỉ số
Số đo tỉ số thông dụng nhất là tỉ số nguy cơ (Risk ratio - RR). Tỉ số nguy cơ là tỉ số của nguy cơ
trong nhóm phơi nhiễm (r
1
) trên nguy cơ trong nhóm không phơi nhiễm (r
0
).
RR = r
1
/ r
0
Tỉ số nguy cơ còn được gọi là nguy cơ tương đối (Relative risk - RR). Tỉ số nguy cơ nói lên
người bị phơi nhiễm có nguy cơ bị mắc bệnh gấp bao nhiêu lần người không bị phơi nhiễm.
Thí dụ:
59
Bảng 1 trình bày một ví dụ rút ra từ nghiên cứu Framingham, trình bày số mới mắc bệnh mạch
vành tim trong 6 năm theo dõi tùy theo nồng độ cholesterol huyết thanh ban đầu trên nam giới
tuổi từ 40-59. Nếu ta xem nhóm có cholesterol huyết thanh <210 mg% là nhóm không phơi
nhiễm, thì nguy cơ mắc bệnh mạch vành tim ở nhóm không phơi nhiễm là 0,0352 (Ðiều này có
nghĩa là xác suất mắc bệnh mạch vành tim ở người có cholesterol < 210 mg% trong thời gian 6
năm vào khoảng 3,5%). Nếu ta xem nhóm có cholesterol ≥ 245 mg% là nhóm phơi nhiễm thì
nguy cơ ở nhóm phơi nhiễm là 0,1203 (xác suất người có cholesterol ≥ 245 mg% bị bệnh mạch
vành tim trong thời gian 6 năm là 12%). Ta có tỉ số nguy cơ (RR) là tỉ số của 2 nguy cơ trên =
0,1203 / 0,0352 = 3,4. Ðiều này có nghĩa là xác suất bị bệnh mạch vành tim ở người có
cholesterol ≥ 245 mg% cao gấp 3,4 lần xác suất ở người có cholesterol < 210 mg%.
Ðứa trẻ không được chủng ngừa vaccine bại liệt có nguy cơ mắc bệnh bại liệt hơn đứa trẻ được
chủng ngừa tù 5 đến 10 lần. Ta nói tỉ số nguy cơ mắc bệnh bại liệt trong nhóm không được
chủng ngừa so với nhóm được chủng ngừa là từ 5 đến 10.
Như vậy, tỉ số nguy cơ ước lượng độ lớn của hậu quả của yếu tố nguy cơ, và do đó, tỉ số nguy cơ
là số đo của độ mạnh của sự kết hợp giữa yếu tố nguy cơ và bệnh tật. Ta nói, tỉ số nguy cơ là số
đo hậu quả hay số đo sự kết hợp. Ngoài tỉ số nguy cơ, còn có những số đo sự kết hợp khác như tỉ
số tỉ suất (rate ratio), tỉ số chênh (odds ratio), và tỉ số số hiện mắc (prevalence ratio).
Tỉ số tỉ suất thường được dùng trong những nghiên cứu đoàn hệ. Ðối với bệnh tật không quá phổ
biến, tỉ số nguy cơ bằng với tỉ số tỉ suất về mặt con số, do đó, trong y văn, người ta thường dùng
lẫn lộn tỉ số nguy cơ và tỉ số tỉ suất. Khi bệnh tương đối phổ biến thì tỉ số nguy cơ sẽ bị sai lệch
tiến tới giá trị đơn vị và người ta cho rằng tỉ số tỉ suất là ước lượng tốt hơn cho độ mạnh của sự
kết hợp.
Thí dụ: Trong số liệu của nghiên cứu Framingham được trình bày trong bảng 1. Tỉ số tỉ suất mắc
bệnh mạch vành tim trong nhóm cholesterol cao (cholesterol ≥ 245 mg%) so với nhóm có
cholesterol thấp (cholesterol < 210 mg%) = 0,0200 / 0,0059 = 3,4, gần bằng giá trị của tỉ số
nguy cơ đã được tính ở trên.
Trong nghiên cứu bệnh-chứng (và cả trong nghiên cứu đoàn hệ nếu muốn), người ta thường
dùng tỉ số chênh để ước lượng nguy cơ tương đối của việc phơi nhiễm với một yếu tố nguy cơ.
Người ta đã chứng minh tùy theo bệnh được nghiên cứu là bệnh hiếm hay phổ biến và tùy theo
cơ cấu lấy mẫu, tỉ số chênh có thể ước lượng cho tỉ số nguy cơ hay tỉ số tỉ suất và đều có thể nói
lên độ mạnh của sự kết hợp. Với cơ cấu lấy mẫu cổ điển và RR > 1 thì OR ( RR trong trường
hợp bệnh hiếm và 1 < RR < OR trong trường hợp bệnh phổ biến.
Ví dụ:
Trong một dân số giả thuyết gồm 10.000 người trong đó có 4.000 người hút thuốc lá và 6.000
không hút thuốc. Nếu chúng ta có thể theo dõi nhóm người này trong 5 năm liên tục ta có kết
Table 1. Số mới mắc bệnh mạch vành tim trong 6 năm theo dõi tùy theo nồng độ cholesterol huyết
thanh ban đầu trên nam giới tuổi từ 40-59
cholesterol
huyết thanh
mg/100 ml
Số người
trong nhóm
Số ca bệnh Nguy cơ Tỉ suất RR Nguy cơ quy
trách
< 210 454 16 0,0352 0,0059 1,0 0,0000
210 - 244 455 29 0,0637 0,0106 1,8 0,0285
≥ 245
422 51 0,1203 0,0200 3,4 0,0851
Tổng cộng 1333 96 0,0720 0,0120

60
quả sau (Bảng 2):
Table 2. Tình trạng bị nhồi máu cơ tim sau 5 năm theo dõi phân theo tình trạng hút thuốc lá
Nhóm người Bị nhồi máu cơ tim trong 5
năm theo dõi
Không bị nhồi máu cơ tim sau
5 năm theo dõi
Tổng số
Hút thuốc 400 3.600 4.000
Không hút
thuốc
120 5.880 6.000
Tổng số 520 9.480 10.000
Trong những nguyên tắc của nghiên cứu thống kê cổ điển, nhà nghiên cứu chỉ lập bảng 2× 2 rồi
tính giá trị χ
2
, sau đó ước lượng xác suất của sai lầm loại 1 (mức ý nghĩa p) và quyết định chấp
nhận hay loại bỏ giả thuyết H
0
.
Các bước tiến hành như sau:
Giả thuyết H
0
: không có sự liên quan giữa hút thuốc lá và nguy cơ nhồi máu cơ tim
Chi-square = 311.59, 1 độ tự do do đó mức ý nghĩa p < 0,05
Như vậy ta bác bỏ giả thuyết H
0
. Nói cách khác, có sự liên hệ giữa hút thuốc lá và nhồi máu cơ
tim.
Tuy vậy theo dịch tễ học hiện đại, lời giải trên là không đầy đủ, bởi vì nó chỉ cho câu trả lời định
tính là có sự kết hợp giữa hút thuốc lá và nhồi máu cơ tim mà không nêu rõ sự kết hợp đó có độ
lớn là bao nhiêu. Ðể tính số đo kết hợp, ta cần những tính toán thêm như sau:
Nguy cơ nhồi máu ở những người hút thuốc (Risk
1
) = 400/4.000 = 0.1
Nguy cơ nhồi máu ở những người không hút (Risk
0
) = 120/6.000 = 0.02
Nguy cơ tương đối (hay tỉ số nguy cơ) RR= Risk
1
/Risk
0
=0.1/0.02=5
Ðó là những số đo sự kết hợp cổ điển trong nghiên cứu đoàn hệ. Dù vậy trong nghiên cứu đoàn
hệ cũng có thể dùng tỉ số số "chênh".
Số "Chênh" nhồi máu ở những người hút thuốc
(Odds
1
) = 0.10/(1-0.10) =400/(4.000-400) = 0.11
Số "Chênh" nhồi máu ở những người không hút
(Odds
0
) = 0.02/(1-0.02) =120/(6.000-120) = 0.02
Tỉ số số "Chênh" nhồi máu trong 2 nhóm tiếp xúc và không tiếp xúc
OR= Odds
1
/Odds
0
= (400/3600):120(5880)=(400*5880)/3600/120= 5.44
Ta thấy OR ≈ RR và OR hơi lớn hơn RR (trong trường hợp RR lớn hơn 1).
Trong nghiên cứu bệnh chứng cũng có thể tính được OR. Và nếu không có sai lêch trong nghiên
cứu thì OR tính được trong nghiên cứu bệnh chứng cũng bằng OR tính được trong nghiên cứu
đoàn hệ. Ví dụ minh họa cho điều này sẽ được trình bày trong bài nghiên cứu bệnh chứng.
IV. Số đo hiệu số
Hiệu số nguy cơ (Risk difference) là hiệu số của nguy cơ ở nhóm phơi nhiễm và ở nhóm không
phơi nhiễm
RD = r
1
- r
0
Hiệu số nguy cơ nói lên người bị phơi nhiễm phải gánh chịu một nguy cơ thặng dư là bao nhiêu.
Thí dụ:
Nếu ta xét trở lại số liệu ở bảng 1 và tìm hiệu số nguy cơ ở nhóm phơi nhiễm (những người có
cholesterol ≥ 245 mg%) và ở nhóm không phơi nhiễm (cholesterol < 210 mg%) ta có:
61
RD = 0,1203 - 0,0352 = 0,0851
Ta nói người có cholesterol cao sẽ có một nguy cơ thặng dư bị bệnh mạch vành tim là 0,0851.
Nói cách khác, loại bỏ những nguyên nhân khác, chỉ riêng cholesterol tăng cao sẽ tạo ra nguy cơ
là 0,0851. Nói thêm một cách khác nữa, nếu một người bị cholesterol cao và hoàn toàn không có
một yếu tố nguy cơ nào khác (không hút thuốc lá, không bị tăng huyết áp v.v. ) sẽ có xác suất bị
bệnh mạch vành tim là 8,5% trong thời gian được theo dõi là 6 năm.
Ta cũng có thể tính hiệu số tỉ suất ở trong nghiên cứu đoàn hệ. Tuy vậy, hiệu số số chênh không
được sử dụng bởi vì nó không có ý nghĩa sinh học.
Phân số nguy cơ quy trách (Attributable risk fraction) - còn được gọi là phân số quy trách là tỉ số
của hiệu số nguy cơ và nguy cơ của nhóm phơi nhiễm.
ARF= (r
1
-r
0
)/r
1
= 1 - 1/RR
Phân số nguy cơ quy trách nói lên rằng việc phơi nhiễm chiếm bao nhiêu phần trong nguy cơ
của người bị phơi nhiễm.
V. Biện luận thêm về tỉ số nguy cơ và hiệu số nguy cơ
1. Giả sử có một yếu tố nguy cơ là nguyên nhân của một bệnh tật nào đó (hay bệnh tật là
hậu quả của yếu tố nguy cơ). Khi đó, nếu có một quần thể bị phơi nhiễm với yếu tố nguy cơ và
một quần thể không bị phơi nhiễm thì nguy cơ (hoặc tỉ suất mới mắc) ở hai quần thể sẽ khác
nhau. Hậu quả của việc phơi nhiễm có thể được thấy bằng sự gia tăng nguy cơ (hoặc tỉ suất mới
mắc) ở một quần thể khi so sánh với quần thể khác. Hai nguy cơ (hoặc tỉ suất mới mắc) có thể
được so sánh bằng cách tính tỉ số hay hiệu số của chúng. Tóm lại, tỉ số nguy cơ hay hiệu số nguy
cơ có thể dùng để đánh giá độ mạnh của sự kết hợp giữa yếu tố nguy cơ và sự xuất hiện bệnh, và
đánh giá hậu quả của việc tiếp xúc với yếu tố nguy cơ. Tỉ số nguy cơ và hiệu số nguy cơ là số đo
sự kết hợp hay số đo hậu quả. Nhưng nó không thể dùng để đánh giá sự tác động của yếu tố
nguy cơ lên dân số. Sự tác động lên dân số không những phụ thuộc vào tỉ số nguy cơ mà còn
phụ thuộc vào mức độ phổ biến của bệnh và mức độ phổ biến của yếu tố nguy cơ
2. Nếu yếu tố nguy cơ là nguyên nhân của bệnh tật thì tỉ số nguy cơ và hiệu số nguy cơ sẽ
cho thấy sự kết hợp. Do đó tỉ số nguy cơ lớn hơn đơn vị (RR ≥ 1) là điều kiện cần, nhưng chưa
đủ để chứng minh mối quan hệ nhân quả.
3. Chọn lựa giữa tỉ số hay hiệu số phụ thuộc vào hiểu biết của chúng ta vào cơ chế làm tăng
tỉ suất mới mắc của yếu tố nguy cơ: nếu chúng ta nghĩ yếu tố nguy cơ làm nhân lên tỉ suất mới
mắc thì tỉ số là đo lường tốt nhất (những yếu tố nguy cơ có tác dụng gây bệnh phối hợp -
Synergic), nếu chúng ta nghĩ rằng yếu tố nguy cơ làm cộng thêm tỉ suất mới mắc thì hiệu số là
số đo lường tốt nhất (những yếu tố nguy cơ có tác dụng gây bệnh cộng - Additive).
Thí dụ: Xét việc truyền máu và vết lở ở cơ quan sinh dục với tư cách là yếu tố nguy cơ của
nhiễm HIV. Bởi vì truyền máu là nguy cơ cộng thêm và sự hiện diện của vết lở ở cơ quan sinh
dục là nguy cơ phối hợp nên người ta cho rằng nên dùng hiệu số nguy cơ để đánh giá hậu của
dùng bao cao su và tỉ số nguy cơ để đánh giá hậu quả của dùng bao cao su.
4. Trên đây, ta đã trình bày thí dụ về bệnh mạch vành tim là hiện tượng sức khỏe có sự
phân biệt rạch ròi giữa bệnh và không bệnh (nói cách khác, bệnh mạch vành tim được xem là
biến nhị phân - rời rạc) và ta có thể dùng tỉ số nguy cơ (RR) hay hiệu số nguy cơ (RD) để đánh
giá sự kết hợp. Dù vậy nếu hiện tượng sức khỏe là biến liên tục (thí dụ như tình trạng dinh
dưỡng của trẻ hoặc huyết áp tâm thu) ta không nên dùng RR hay RD mà nên dùng hệ số hồi quy
để đánh giá sự kết hợp.
5. Trong trường hợp có nhiều mức độ phơi nhiễm, như trong thí dụ trình bày ở bảng 1.Ta
phải chọn một mức phơi nhiễm (thí dụ như cholesterol < 210 mg%) làm nền tảng và tính RR của
những mức phơi nhiễm khác bằng cách tính nguy cơ ở mỗi mức và chia cho nguy cơ ở mức phơi
nhiễm nền tảng. Trở lại ví dụ ở bảng 1, nguy cơ bệnh mạch vành tim ở mức phơi nhiễm nền tảng
la 0,0352. Tỉ số nguy cơ ở người có cholesterol từ 210 đên 245 mg% là 0,0637 / 0,0352 = 1,8.
62
Tỉ số nguy cơ ở người có cholesterol ≥ 245 mg% là 0,1203 / 0,0352 = 3,4.
6. Nhóm được chọn làm nền tảng thường là nhóm có nguy cơ thấp nhất. Khi có nhiều mức
độ phơi nhiễm, người ta có thể chọn nhóm đông nhất làm nhóm nền tảng để làm tăng tính chính
xác của ước lượng.
7. Khi cả hai nhóm phơi nhiễm và không phơi nhiễm có thể được chia thành những tầng
(strata) theo một biến số khác -thí dụ như tuổi - ta có thể tính tỉ số nguy cơ đặc hiệu theo tầng
(stratum specific ratio) bằng cách xem xét nguy cơ ở từng tầng riêng biệt.
Thí dụ: Bảng 3 trỉnh bày tỉ suất chết do bệnh mạch vành tim ở những người hút thuốc và không
hút thuốc theo nhóm tuổi. Ở nhóm tuổi 35-44, người hút thuốc có nguy cơ bị chết do bệnh mạch
vành tim cao gấp 5 lần người không hút thuốc, trong khi ở nhóm tuổi từ 55-64 nguy cơ tương
đối chỉ khoảng 1,5 lần.
8. Có thể tính tỉ số tỉ suất tóm tắt (summary rate ratio). Có thể tính tỉ số tỉ suất tóm tắt bằng
cách lấy trung bình cộng những tỉ số tỉ suất đặc hiệu theo tầng. Nhưng người ta thường gán
trọng số (weight) cho tỉ số tỉ suất đặc hiệu. Có nhiều cách gán trọng số, hai cách phổ biến là
nguy cơ tương đối tóm tắt của Mantel-Hanenszel và tỉ số tử vong chuẩn hóa (Standardized
mortality ratio - SMR).
9. Hiệu lực vaccin (vaccine efficacy - VE) là tỉ lệ số mới mắc được giảm bớt do việc chủng
ngừa vaccin. Nếu xem nhóm không tiêm chủng vaccin là nhóm không phơi nhiễm có tỉ suất mới
mắc là r0 và nhóm có tiêm chủng có tỉ suất mắc bệnh r
1
, thì
VE = 1 - RR = 1 - (r
1
/ r
0
)
Nếu ta có tỉ lệ chủng ngừa trong dân số P
N
và tỉ lệ chủng ngừa trong những trường hợp bệnh P
C
ta có thể ước tính hiệu lực vaccin theo công thức sau:
VE = (P
N
- P
C
) / [P
N
(1-P
C
)]
Thí dụ: Chương trình tiêm chủng mở rộng được thực hiện ở Huyện A và người ta báo cáo rằng
90% đứa trẻ dưới 3 tuổi đã được tiêm chủng phòng sởi (P
N
= 0,9). Ở bệnh viện người ta thấy
rằng 70% đứa trẻ bị sởi dưới 3 tuổi đã được chủng ngừa sởi (P
C
= 0,7). VE được ước tính sẽ là
74%.
VI. Số đo tác động
Một số yếu tố nguy cơ có nguy cơ tương đối cao chưa hẳn có tác động quan trọng lên sức khỏe
của cộng đồng. Thí dụ, tình trạng vô toan ở dạ dày là một yếu tố nguy cơ của bệnh dịch tả (RR
từ 10 đến 20) tuy vậy, tình trạng vô toan ở dạ dày chỉ góp phần rất nhỏ trong những case bệnh
Table 3 Tỉ suất chết do bệnh mạch vành tim ở những người hút thuốc và không hút thuốc theo
nhóm tuổi
Tuổi Tỉ suất ở người hút
thuốc
Tỉ suất ở người
không hút thuốc
Tỉ số tỉ suất
35-44 0,61 0,11 5.5
45-54 2,40 1.12 2,1
55-64 7,20 4,9 1,5
65-74 14,69 10,83 1,4
75-84 19,18 21,20 0,9
85 + 39,52 35,93 1,1
Tính chung 4,29 3,30 1,3
63
dịch tả ở cộng đồng. Thực vậy, ở bệnh viện truyền nhiễm chúng ta rất hiếm khi (có thể nói là
không bao giờ) gặp được một bệnh nhân dịch tả do tình trạng vô toan mà chúng ta thường gặp
bệnh nhân bị bệnh dịch tả do không có nguồn nước sạch. Vì vậy người làm y tế công cộng
không quan tâm lắm đến tình trạng vô toan dạ dày như là một yếu tố nguy cơ của bệnh dịch tả,
bởi vì việc loại bỏ hoàn toàn yếu tố nguy cơ này chỉ có thể giảm một phần rất nhỏ số case bệnh
dịch tả. Ta nói yếu tố nguy cơ này có tác động nhỏ lên bệnh trạng của dịch tả. Ðể lượng hóa tác
động của yếu tố nguy cơ ta sử dụng nguy cơ quy trách dân số và phân số nguy cơ quy trách dân
số.
Hiệu số nguy cơ dân số (Population Risk Difference - PRD) là hiệu số giữa nguy cơ (hay tỉ suất)
của toàn bộ dân số r và nguy cơ (hay tỉ suất) của nhóm không phơi nhiễm (r0).
PRD = r - r
0
Nếu ta kí hiệu p là tỉ lệ trong dân số bị phơi nhiễm thì
r = pr
1
+ (1 - p)r
0
Do đó
PRD = pr
1
+ (1 - p)r
0
- r
0
= pr
1
+ r
0
- pr
0
- r
0
= pr
1
- pr
0
= p(r
1
- r
0
)
Nguy cơ quy trách dân số nói lên nguy cơ thặng dư gây nên do sự hiện diện của yếu tố nguy cơ
trong dân số. Nguy cơ quy trách dân số là tích số của tỉ lệ dân số bị phơi nhiễm và hiệu số nguy
cơ. Tình trạng vô toan dạ dày có nguy cơ quy trách dân số thấp bởi vì tỉ lệ dân số bị phơi nhiễm
với yếu tố nguy cơ đó (tỉ lệ dân số bị vô toan dạ dày) thấp.
Phân số nguy cơ quy trách dân số (Population Attributable Risk Fraction - PAF): là tỉ lệ của
những trường hợp bị bệnh trong toàn thể dân số nghiên cứu có thể quy kết cho sự phơi nhiễm
(với giả định là sự kết hợp nhân quả). Phân số nguy cơ quy trách dân số còn được gọi là phân số
căn nguyên (etiological fraction - EF), phần trăm nguy cơ quy trách dân số (percentage
population attributable fraction) hay phân số quy trách (attributable fraction - AF)
PAF = PRD / r = p (r
1
- r
0
)/ [pr
1
+ (1 - p)r
0
] = p(RR - 1)/[pRR + 1 - p]
= p(RR - 1)/[p(RR - 1) + 1]
Thí dụ:
1. Giả sử phân số nguy cơ quy trách dân số (PAF) tương ứng giữa hút thuốc lá và tử vong
do ung thư phổi là 0,80. Kết quả này có nghĩa là 80% những tử vong do ung thư phổi là do hút
thuốc lá. Hơn nữa, ta có thể tiên đoán nếu hút thuốc lá bị loại bỏ hoàn toàn, tỉ suất tử vong do
ung thư phổi sẽ giảm đi 80%
2. Xem lại số liệu được trình bày trong bảng 2. Ta tính được những số đo tác động như sau:
Nguy cơ nhồi máu trong dân số Risk =520 / 10.000 = 0.052
Hiệu số nguy cơ dân số PRD = 0.052-0.02 = 0.032
= Risk
0
× p × (RR-1) = 0.02 x 0.4 x (5-1) = 0.032
Phân số nguy cơ quy trách dân số PAF = 0.032/0.052 = 0.62 = 62%
3. Ðối với bệnh hiếm, ta có thể tính được PAF dựa trên kết quả của một nghiên cứu bệnh
chứng (lưu ý rằng đối với bệnh hiếm OR là ước lượng khá tốt cho RR). Dựa vào kết quả được
trình bày trong bảng 4, ta có thể tính được:
RR ≈ OR = 40 × 320 / (80 × 60) = 2,67
Tỉ lệ phơi nhiễm trong dân số = tỉ lệ phơi nhiễm trong nhóm chứng = 80/400 = 0,2
PAF = 0,2 × (2,67 - 1)/[0,2 (2,67 -1) + 1] = 0,25
64
Table 4. Số các đối tượng chia theo tình trạng phơi nhiễm và tình trạng bệnh trong một nghiên cứu
bệnh chứng (Số liệu giả lập)
Phơi nhiễm Không phơi
nhiễm
Tổng số
Bệnh 40 60 100
Chứng 80 320 400
Tổng số 120 380 500
VII. Bàn luận thêm về phân số nguy cơ quy trách dân số
1. Việc sử dụng phân số nguy cơ quy trách đòi hỏi một số những giả định: (1) sự kết hợp
giữa yếu tố nguy cơ và bệnh tật là nhân quả (2) RR và p được đo lường chính xác (3) việc loại
bỏ nguy cơ loại bỏ hoàn toàn nguy cơ do nó gây ra (điều này chưa chắn đúng bởi vì người bỏ
thuốc lá sẽ không thể có nguy cơ bị ung thư phổi bằng người chưa từng hút thuốc lá) và (4) có
thể loại bỏ hoàn toàn yếu tố nguy cơ.
2. Công thức tính toán này chỉ đúng khi áp dụng cho một yếu tố nguy cơ duy nhất và những
yếu tố nguy cơ không tương tác với nhau. Nếu áp dụng cho nhiều yếu tố nguy cơ có thể xảy ra
trường hợp tổng số những phân số nguy cơ quy trách dân số lớn hơn 100%.
65
Phương pháp thu thập số liệu
Có nhiều phương pháp chính để thu thập số liệu: hồi cứu hồ sơ tài liệu, quan sát, sử dụng bộ câu
hỏi tự điền, phỏng vấn mặt đối mặt, thảo luận nhóm tập trung như sử dụng nhóm danh định
(nomial group), kĩ thuật delphi, vẽ bản đồ (mapping). Cần phân biệt phương pháp thu thập số
liệu và công cụ thu thập số liệu (công cụ thu thập số liệu chỉ là một phần của phương pháp). Thí
dụ bộ câu hỏi chỉ là công cụ thu thập số liệu và có thể sử dụng trong nhiều phương pháp thu thập
số liệu khác nhau như bộ câu hỏi tự điền, phỏng vấn cá nhân mặt đối mặt, phỏng vấn nhóm, v.v.
Nhìn chung có hai kĩ thuật nghiên cứu chính: nghiên cứu định tính và nghiên cứu định lượng.
Nghiên cứu định tính nhằm mục đích tìm hiểu bản chất, nguyên nhân và hậu quả của vấn đề của
vấn đề nghiên cứu (để trả lời cho các câu hỏi tại sao, như thế nào) trong khi đó nghiên cứu định
lượng nhằm tìm hiểu quy mô của vấn đề (Trong một nghiên cứu có thể kết hợp cả hai loại kĩ
thuật nghiên cứu định tính và định lượng) Do các phương pháp thu thập số liệu sẽ cho các thông
tin khác nhau, việc chọn lựa kĩ thuật thu thập phù hợp phải dựa trên bản chất của nghiên cứu là
định tính hay định lượng.
Sử dụng thông tin sẵn có
Sử dụn thông tin sẵn có còn được gọi là phương pháp hồi cứu. Nó có ưu điểm là ít tốn kém về
mặt thời gian và nguồn lực và cho phép đánh giá các thông tin trong quá khứ. Tuy nhiên do bản
chất của số liệu hồi cứu là không sử dụng cho mục đích nghiên cứu, chất lượng số liệu thường
thấp, các biến số không được thu thập không hằng định và thường không có đủ các biến số mà
nhà nghiên cứu quan tâm (đặc biệt là yếu tố gây nhiễu).
Ðể cải thiện tính hằng định của số liệu có được nhờ hồi cứu, nhà nghiên cứu phải sử dụng các
công cụ để hệ thống hoá các biến số cần thu thập như bản kiểm hay sổ cái.
Quan sát
Chọn lọc, quan sát và ghi nhận hành vi hay đặc tính của con người, vật thể hay hiện tượng. Các
thí dụ của quan sát có thể bao gồm: quan sát hành vi rửa tay các cán bộ y tế trước khi làm thu
thuật y khoa, đo lường huyết áp và lấy thân nhiệt của bệnh nhân, đánh giá phương tiện thanh
khử trùng tại khoa phòng, theo dõi diễn tiến lâm sàng của bệnh nhân bị shock nhiễm trùng. Khi
quan sát hành vi con người trong các hoạt động xã hội, quá trình quan sát có thể chia thành quan
sát có tham gia và quan sát không tham gia.
Các ưu điểm của phương pháp quan sát
Cho thông tin chi tiết có liên quan tình huống: thí dụ giả sử chúng ta muốn quan sát hành
vi rửa tay của điều dưỡng trước khi thay băng cho bệnh nhân, chúng ta có thể có thông
tin về mức độ vô khuẩn của dụng cụ làm thủ thuật
Cho thông tin nằm ngoài bộ câu hỏi: Có những thông tin chúng ta không dự định thu
thập trong bộ câu hỏi (hoặc khó có thể thu thập được chính xác nhờ bộ câu hỏi) thí dụ
như thông tin về kĩ thuật sử dụng bàn chải trong khi đang rửa tay có đúng hay không có
thể có được một cách chính xác và đơn giản nhờ quan sát
Cho phép kiểm tra tính tin cậy của trả lời câu hỏi: Nếu chúng ta quan sát một người điều
dưỡng rửa tay trước khi làm thủ thuật, thông tin này sẽ đáng tin cậy hơn là việc phỏng
vấn họ có rửa tay hay không? Rửa tay trong bao lâu? Rửa tay có đúng kĩ thuật hay
không?
Khuyết điểm
Sai lệch do quan sát: đây là sai lệch do người quan sát. Phương pháp khắc phục là Cần
đào tạo đúng mức những trợ lí nghiên cứu
66
HW Hawthorne: đây là sai lệch do người (hay hiện tượng) được quan sát sẽ thay đổi
hành vi khi biết rằng đang được quan sát. Ðiều này có thể khắc phục bằng cách quan sát
nhưng không cho biết nhưng điều này có thể có thể gặp phải một số vấn đề về đạo đức.
Ðo lường là quan sát sử dụng một thang đo xác định từ trước
Phỏng vấn mặt đối mặt và bộ câu hỏi tự điền
Phương pháp phỏng vấn có thể áp dụng cho từng đối tượng hay cho một nhóm người. Phỏng
vấn từng người được dùng để có được những kết quả định lượng; phỏng vấn một nhóm người
nhằm mục đích để hiểu rõ suy nghĩ của người dân và ý kiến của họ trong điều kiện cuộc sống
thực tế: phương pháp này thường được dùng trong các nghiên cứu định tính.
Phỏng vấn có thể được tiến hành với các mức độ cấu trúc khác nhau. Phỏng vấn được gọi là có
cấu trúc nếu nó tuân thủ theo một kế hoạch chặt chẽ và được hỏi theo những câu hỏi đã soạn
sẵn. Phỏng vấn bán cấu trúc là phỏng vấn có tuân thủ nhưng không chặt chẽ theo kế hoạch định
trước, câu hỏi cũng có thể được cải biên sao cho phù hợp với đối tượng. Phỏng vấn được gọi là
không cấu trúc khi nó không theo một kế hoạch nào cả và việc đặt câu hỏi là tùy tiện: phỏng vấn
không cấu trúc thường được coi là ít có tính khoa học.
Bảng 1. Ưu và khuyết điểm của phương pháp sử dụng bộ câu hỏi và phỏng vấn.
Khuyết điểm Ưu điểm
Kế hoạch phỏng vấn giúp
nhưngười phỏng vấn hỏi các
câu hỏi
- Tốn kém, cần phải sự giúp
đỡ của chuyên gia.
- Sai lệch do người phỏng
vấn
- Thông tin riêng tư có thể bị
sai lệch
- Phù hợp với đối tượng có
trình độ văn hoá thấp
- Tỉ lệ trả lời cao hơn
- Có thể khêu gợi nhiều chi
tiết hơn.
- Có sự kiểm soát tốt hơn đối
với câu trả lời (có thể làm
sáng tỏ câu hỏi)
Bộ câu hỏi tự điền - Tỉ lệ trả lời thấp hơn
- Khó khêu gợi câu trả lời chi
tiết
- Kiểm soát kém hơn câu trả
lời
- Không dùng cho người có
trình độ văn hoá thấp
- Rẻ tiền hơn
- Ít nhạy cảm với sai lệch do
người phỏng ván
- Có thể dùng bưu điện để gửi
bộ câu hỏi.
Phỏng vấn có cấu trúc, bán cấu trúc hay thu thập số liệu bằng bộ câu hỏi tự điền đều cần phải sử
dụng bộ câu hỏi. Bộ câu hỏi (questionnaire) là một văn bản gồm nhiều câu hỏi dùng để thu thập
số liệu. Việc soạn thảo bộ câu hỏi tốt là một trong những khâu then chốt để đảm bảo chất lượng
số liệu thu thập được.
Thiết kế bộ câu hỏi
Những điểm cần xem xét
Cần phải xem xét bộ câu hỏi sử dụng cho mục đích gì (dùng cho bộ câu hỏi tự điền hay bộ câu
hỏi để phỏng vấn mặt đối mặt, sử dụng cho kĩ thuật nghiên cứu định tính hay định lượng, sử
dụng cho chủ đề nào, v.v.), sử dụng trên đối tượng nào, những đối tượng này có trình độ học vấn
như thế nào và bộ câu hỏi này sử dụng cho cỡ mẫu bao nhiêu.
Bộ câu hỏi thường được phân loại là bộ câu hỏi có cấu trúc hay bộ câu hỏi mềm dẻo. Thông
67
thường bộ câu hỏi có cấu trúc được sử dụng cho nghiên cứu định lượng, sử dụng máy tính để
phân tích và sử dụng cho cỡ mẫu lớn, bộ câu hỏi có tính mềm dẻo được sử dụng chủ yếu cho
nghiên cứu định tính nhằm hiểu sâu hơn về một vấn đề chưa biết và không phù hợp để phân tích
thống kê trên máy tính.
Cấu trúc bộ câu hỏi
Cấu trúc bộ câu hỏi bao gồm quá trình thiết kế và tiến hành bộ câu hỏi
Việc thiết kế bộ câu hỏi bao gồm các bước sau:
1. Nội dung: Nhà nghiên cứu xác định những thông tin cần thu thập: những thông tin này bao
gồm những biến số độc lập, biến số phụ thuộc và các biến số gây nhiễu. Việc này cần rất nhiều
suy nghĩ và thảo luận. Cảm hứng trong việc chọn lựa những thông tin cần thiết xuất phát từ mục
tiêu của nhà nghiên cứu, từ việc thảo luận với những người khác và những nguồn khác. Kết quả
của giai đoạn này là một danh sách những thong tin cần được chuyển thành dạng câu hỏi.
2. Ðặt câu hỏi: Sơ phác bộ câu hỏi. Nhà nghiên cứu xuất phát từ danh sách những thông tin cần
thu thập và sơ phác bộ câu hỏi. Như sẽ được thảo luận sâu hơn, việc đặt câu và thiết kế bộ câu
hỏi là rất quan trọng trong việc đạt được tính giá trị của thông tin. Nếu bộ thiết kế được thiết kế
kém, câu trả lời sẽ không phản ánh chính xác tình trạng thực tế của nhà nghiên cứu. Có hai dạng
thức câu hỏi chính, câu hỏi mở và và câu hỏi. Trong câu hỏi mở không có những câu trả lời định
trước. Trong câu hỏi đóng có nhiều câu trả lời định trước mà người được hỏi chỉ việc lựa chọn
trong đó. Ưu và khuyết điểm của những câu trả lời là như sau:
Khuyết điểm Ưu điểm
Câu hỏi mở - Có tính cấu trúc thấp
- Khó mã hóa câu trả lời để
có thể phân tích thống kê
- Tốn nhiều thời gian
- Khó trả lời hơn
- Có nhiều chi tiết hơn
Câu hỏi đóng - Có ít chi tiết hơn
- Có thể khiến người được
hỏi khó chịu
- Có tính cấu trúc cao
- Câu trả lời dễ mã hóa hơn
- Tốn ít thời gian hơn
Tuy nhiên nếu nghiên cứu định tính, người ta thích dùng câu hỏi mở hơn bởi vì nó cho phép
người trả lời có thể trình bày bằng ngôn từ của họ. Còn việc dùng bộ câu hỏi trong nghiên cứu
định lượng người ta nhắm vào tiện lợi và tốc độ chứ không chú trọng đến phân tích sâu.
Ðiều quan trọng trong danh sách những câu trả lời cho câu hỏi đóng cần phải được thiết kế cẩn
thận. Nếu phạm vi các câu trả lời bị giới hạn thì câu trả lời sẽ bị sai lệch.
Thang đo Likert và thang đo buộc lựa chọn
Một loại câu hỏi đóng đặc biệt có giá trị là thang đo Likert. Thang đo Likert do một nhà tâm lí
học người Mỹ tên là Likert phát minh. Thang đo này có ba ưu điểm chính:
- Làm dễ dàng hơn việc xây dựng câu hỏi để xác định thái độ của người dân
- Thuận tiện trong việc trả lời, phân tích câu hỏi
- Cho phép phân biệt nhiều mức độ khác nhau của thái độ.
Thang đo Likert truyền thống là một câu hỏi đóng gồm một mệnh đề và có 5 lựa chọn: có lựa
chọn dương tính, lựa chọn âm tính và lựa chọn trung bình. Thí dụ:
Bảng 3. Dạng thức Likert và dạng thức buộc lựa chọn
68
Q1. Bác sĩ của trạm y tế luôn luôn giải thích việc điều trị cho tôi (khoang một lựa chọn)
Rất đồng ý 1
Ðồng ý 2
Không ý kiến 3
Không đồng ý 4
Rất không đồng ý 5
Q2. Bác sĩ của trạm y tế luôn luôn giải thích việc điều trị cho tôi (khoang một lựa chọn)
Rất đồng ý 1
Ðồng ý 2
Không đồng ý 3
Rất không đồng ý 4
Tuy nhiên nếu những người dân có vẻ e dè khi dùng câu trả lời phủ định thì chúng ta có thể sử
dụng thang đo buộc lựa chọn. Trong câu hỏi buộc lựa chọn không cho phép người trả lời trả lời
không ý kiến và câu trả lời này để tránh tình trạng người trả lời luôn luôn ba phải (acquiescent
response mode). (Trong bảng trên câu hỏi 1 là thang đo Likert cổ điển. Câu hỏi 2 là thang đo 4
điểm buộc lựa chọn).
Bảng 4. Ưu và khuyết điểm của dạng thức Likert và buộc lựa chọn
Dạng thức trả lời Ưu điểm Khuyết điểm
Likert Luôn luôn cho phép trả lời trung
tính
Trả lời ba phải
Buộc lựa chọn Người trả lời phải chọn hoặc đồng
ý hoặc không đồng ý
Không cho phép trả lời ba phải
3. Sắp xếp cấu trúc bộ câu hỏi:
Bộ câu hỏi thông thường có cấu trúc như sau:
1. Phần giới thiệu: phần giới thiệu mô tả mục đích của nghiên cứu, thông tin cần thu thập
và cách sử dụng bộ câu hỏi. Nó cũng trình bày cho người được hỏi là thông tin này sẽ
được giữ kín hay không?
2. Thông tin về dân số học: thông thường chúng ta cần phải thu thập thông tin về dân số
học của người được phỏng vấn như tuổi, giới tính, nghề nghiệp, học vấn, v.v. Chúng ta
nên đưa thông tin này lên đầu bởi vì nó dễ trả lời và đóng vai trò "làm nóng" cho việc hỏi
những thông tin tiếp theo.
3. Câu hỏi về sự kiện: Câu hỏi về sự kiện dễ hỏi (và trả lời) hơn câu hỏi về ý kiến nên
thường được đặt ở trước.
4. Câu hỏi về ý kiến
5. Phần kết thúc và hướng dẫn gửi trả lại bộ câu hỏi (nếu sử dụng bộ câu hỏi tự điền).
Phần kết thúc là phần cám ơn người được phỏng vấn về sự hợp tác của họ và cung cấp
thông tin để họ có thể gửi trả bộ câu hỏi.
Trong bộ câu hỏi tự điền nên tránh những cấu trúc phức tạp như "Nếu bạn trả lời có ở
câu 6 và trả lời không ở câu trả lời 9, xin trả lời câu 10 nếu không xin trả lời câu 11".
4. Xây dựng hình thức bộ câu hỏi
5. Tiến hành thử bộ câu hỏi: Cần tiến hành thử bộ câu hỏi với một nhóm nhỏ những người mà ta
sẽ tiến hành nghiên cứu và trên đồng nghiệp để làm sáng tỏ bộ câu hỏi và phát hiện các vấn đề.
6. Soạn lại bộ câu hỏi: Nhờ vào việc tiến hành thử các bộ câu hỏi chúng ta có thể phát hiện được
69
vấn đề và cần phải sử chữa chúng bằng cách soạn lại bộ câu hỏi. Nếu vấn đề nay là nghiêm
trọng, chúng ta cần phải lập lại việc thử bộ câu hỏi. Nếu vấn đề là nhỏ thì nhà nghiên cứu chỉ
cần thay đổi và có thể tiến hành nghiên cứu trên quy mô thực sự.
7. Tiến hành bộ câu hỏi. Sau khi bộ câu hỏi hoàn chỉnh, chúng ta sẽ tiến hành bộ câu hỏi trên
dân số nghiên cứu. Các trả lời sẽ được phân tích theo mục tiêu của nghiên cứu.
Cách dùng từ và việc thiết kế câu hỏi
Viết được một câu hỏi tốt là một nghệ thuật và tốn nhiều thời gian. Ðể có được một câu trả lời
có giá trị và đáng tin cậy chúng ta phải có cách dùng từ trong câu hỏi tốt. Những sai lầm cần
phải tránh là:
Câu hỏi 2 nội dung: Thí dụ "Ông có thích cách đối xử của bác sĩ và các điều dưỡng trong bệnh
viện hay không". Những câu hỏi như thế này cần được tách ra để người ttả lời có thể nhận thức
câu hỏi một cách rõ ràng hơn.
Câu hỏi mơ hồ: Thí dụ đối với học sinh phổ thông người già là người trên 30 tuổi, nhưng đối
với người 50 tuổi người già là người trên 60 tuổi.
Tránh dùng từ quá chuyên môn: Thí dụ "Trong nhà bà có ai bị bệnh Trisomy 21 hay không?"
Tránh những câu hỏi gợi ý: "Mỗi năm ông (hoặc bà) đi khám răng mấy lần?". Câu hỏi này khiến
cho người được gọi có cảm giác rằng mọi người đều khám đi khám răng và cảm thấy rất khó
khăn khi trả lời "Không bao giờ tôi đi khám răng". hoặc "Bà đưa cháu đi khám ở đâu nếu cháu
bị tiêu chảy?"
Hơn nữa cũng cần lưu ý, ngay cả khi câu hỏi không gợi ý cũng có thể bị sai lệch, tùy thuộc vào
cách sử dụng bộ câu hỏi. Thí dụ nếu chúng ta hỏi ý kiến của người dân về trạm y tế mà chúng ta
lại cử nhân viên trạm y tế đi phỏng vấn thì chắc chắn câu trả lời sẽ bị sai lệch.
70
Lấy mẫu điều tra
Mục tiêu:
Sáu khi nghiên cứu bài này, hội thảo viên có khả năng:
(i) Phân biệt được phương pháp lấy mẫu xác suất và lấy mẫu không xác suất
(ii) Liệt kê 5 sơ đồ lấy mẫu xác suất thường dùng được và các ưu khuyết điểm của nó
(iii) Trình bày được các bước tiến hành của 5 sơ đồ lấy mẫu xác suất
(iv) Lập được một danh sách dân số nghiên cứu bằng cách rút chọn mẫu ngẫu nhiên đơn.
Ðại cương về phương pháp lấy mẫu:
Trên nguyên tắc, chúng ta chỉ có thể có những kết luận có giá trị về một dân số nào đó nếu
chúng ta khảo sát hoàn toàn dân số đó. Tuy vậy, điều này sẽ gây ra một số những hạn chế về
nguồn tài nguyên và về vấn đề về đạo đức. Một điều may mắn là những phương pháp thống kê
sẽ cho phép chúng ta có thể rút ra những kết luận có giá trị về dân số (với một độ tin cậy nhất
định) mà chỉ cần khảo sát một phần dân số đó. Phương pháp lấy mẫu là phương pháp rút chọn
một phần của dân số sao cho việc khảo sát mẫu đó cho phép cho phép chúng ta rút ra những kết
luận về dân số. Những nguyên tắc thống kê đòi hỏi một mẫu có giá trị khi mẫu đó có kích thước
đủ lớn (đủ cỡ mẫu) và mẫu đại diện cho dân số
Có nhiều phương pháp để đảm bảo tính đại diện của mẫu: Chúng ta có thể dùng trực giác để kết
luận về tính đại diện của mẫu. Thí dụ như chúng ta có thể cho rằng huyện An Phú tỉnh An giang
là đại diện cho vùng sinh thái lũ lụt của vùng đồng bằng sông Cửu Long. Tuy nhiên tính đại diện
theo sự đánh giá trực giác có thể không được tất cả mọi người đồng ý. Một cách khác tốt hơn để
đảm bảo tính đại diện bằng cách chọn mẫu xác suất.
Mẫu xác suất là mẫu rút từ dân số theo cách sao cho mọi phần tử trong dân số đều có một xác
suất được đưa vào mẫu. Năm phương pháp chọn mẫu xác suất thường được dùng phổ biến nhất
trong những cuộc điều tra ở địa phương hay có quy mô nhỏ là:
1. Lấy mẫu ngẫu nhiên đơn (Single random Sampling)
2. Lấy mẫu hệ thống (systemic sampling)
3. Lấy mẫu phân tầng (Stratified sampling)
4. Lấy mẫu cụm (Cluster sampling)
5. Lấy mẫu nhiều bậc (Multistage sampling)
Trước khi tiến hành lấy mẫu, trước tiên ta cần phải xác định đơn vị nghiên cứu. Ðơn vị nghiên
cứu (study unit) là đơn vị căn bản nhất hay nhỏ nhất mà cuộc nghiên cứu quan tâm. Trong cuộc
điều tra, đơn vị lấy mẫu là nơi mà người nhân viên điều tra phải đến thăm viếng để phỏng vấn,
khám lâm sàng và thu thập các thông tin khác. Ðơn vị nghiên cứu có thể là một bệnh nhận, một
hộ gia đình, một ngôi nhà, một làng, một xã hay có thể là một đơn vị hành chánh lớn hơn. Tập
hợp tất cả những đơn vị nghiên cứu hợp lệ trong dân số được gọi là khung mẫu (sampling
frame).
Thí dụ: Trong nghiên cứu về trọng lượng trung bình của trẻ sơ sinh trong năm 1997 của Quận
11, thành phố Hồ Chí Minh, đơn vị nghiên cứu là những đứa trẻ sơ sinh. Khung mẫu là tất cả
các đứa trẻ sơ sinh sinh trong năm 1997 của các gia đình cư ngụ tại Q11, thành phố Hồ Chí
Minh.
Trong nghiên cứu về tỉ lệ sử dụng các biện pháp sinh đẻ kế hoạch ở huyện Châu thành tỉnh Cần
thơ. Ðơn vị nghiên cứu là các cặp vợ chồng. Khung mẫu là tất cả các cặp vợ chồng cư ngụ tại
huyện Châu thành, tỉnh Cần thơ.
Trong nghiên cứu về số hộ có cầu tiêu hợp vệ sinh ở Tỉnh Sóc trăng. đơn vị nghiên cứu là ngôi
71
nhà. Khung mẫu là tất cả các ngôi nhà trong tỉnh Sóc Trăng.
Các phương pháp lẫy mẫu xác suất:
1. Mẫu ngẫu nhiên đơn:
Mẫu có cỡ mẫu n được rút từ trong dân số có N phần tử sao cho mọi cách lấy mẫu cỡ n đều có
một xác suất lựa chọn như nhau, mẫu đó được gọi là mẫu ngẫu nhiên đơn.
Phương pháp lẫy mẫu còn được chia theo 2 loại: phương pháp lấy mẫu có hoàn lại và lấy mẫu
không hoàn lại. Trong phương pháp lấy mẫu hoàn lại,một phần tử sau khi được rút chọn để đưa
vào mẫu vẫn có khả năng được rút chọn thêm - như vậy, một phần tử có thể làm đại diện cho
dân số 1, 2, 3 hay nhiều hơn lần. Trong phương pháp lấy mẫu không hoàn lại, những phần tử
được rút chọn rồi sẽ không được chọn một lần nữa. Do đó một phần tử có thể được đưa vào mẫu
tối đa 1 lần.
Ðể có thể lấy mẫu nhiên đơn, trước tiên ta cần xây dựng danh sách các đơn vị nghiên cứu trong
dân số (khung mẫu). Mỗi tên trên danh sách phải có một con số và con số này không được dùng
cho các tên khác.
Phương pháp chọn mẫu ngẫu nhiên đơn bằng cách rút thăm:
Cắt giấy thành những hình vuông đủ lớn để viết (thường dùng gấy vuông có cạnh từ 4 đến 5
cm). Ở mảnh giấy đầu ghi “1”, mảnh giấy thứ nhì ghi “2”, trên mảnh giấy thứ ba ghi “3” và tiếp
tục như thế cho đến số cuối cùng trong bản danh sách điều tra. Sau khi gấp kĩ và riêng rẽ các tờ
giấy để không ai có thể nhìn thấy số. Ðặt tất cả các mảnh giấy đã gấp vào hộp và lắc kĩ vài lần.
Khi đã lắc xong, để một người nào đó rút những mảnh giấy đã gập tùy theo yêu cầu của cỡ mẫu.
Mở các mảnh giấy đã được rút và chọn trong bản danh sách điều tra những tên có số giống với
số trên tờ giấy được rút chọn.Cần lưu ý: Mảnh giấy chỉ có một số, số trên tờ giấy phải tương ứng
với số trong danh sách không thêm số nào và bớt số nào.
Chọn số ngẫu nhiên đơn dùng bảng số ngẫu nhiên
Cách dùng bảng số ngẫu nhiên
Ða số các bảng số ngẫu nhiên gồm nhiều khối, mỗi khối có 5 số, mỗi số có 5 chữ số. Những số
này có thể đọc theo bất kì thứ tự nào, lên hoặc xuống theo cột hay qua hay qua trái của hàng.
Người ta chọn các số trong bảng này và tiếp theo đó đưa vào nghiên cứu những tên trong danh
sách có số trùng với số được chọn. Ðôi khi số ngẫu nhiên được bắt gặp 2 hay nhiều lần nhưng
khi đó người nghiên cứu bỏ qua số này. Ðôi khi người đọc được số trong bảng số ngẫu nhiên lớn
hơn số lớn nhất có trong danh sách (ngoài danh sách, "lớn quá cỡ thợ mộc") thì người nghiên
cứu cũng không xét đến số này.
Thao tác sử dụng các bảng số ngẫu nhiên:
Bước 1:
Xác định các chữ số có trong số lớn nhất của bản danh sách điều tra. Thí dụ, nếu có 317 đối
tượng trong khung mẫu, số lớn nhất là 317 và số này có 3 chữ số.
Bước 2:
Bảng chữ số ngẫu nhiên thường chứa 5 chữ số, như vậy nó thường lớn hơn cần thiết cho các
cuộc điều tra. Những số này có thể biến đổi thành số nhỏ hơn bằng cách loại bỏ một số các chữ
số. Thí dụ nếu ta cần 3 chữ số, thì một số 5 chữ số (như 44983) có thể trở thành số có 3 chữ số
bằng những phương pháp sau:
(i) loại bỏ 2 chữ số cuối (trở thành 449)
(ii) loại bỏ chữ số đầu và chữ số cuối (trở thành 498)
(iii) loại bỏ 2 chữ số đầu (như 983)
72
Tất cả 3 số này đều là những số ngẫu nhiên 3 chữ số hợp lệ
Lưu ý: Chúng ta có thể tìm một bảng số ngẫu nhiên bằng cách tra cứu trong sách thống kê.
Chúng ta cũng có thể tạo ra bảng số ngẫu nhiên bằng cách dùng chương trình Epi-Info. Trước
tiên chúng ta vào chương trình Epitable, chọn trình đơn Sample rồi chọn trình đơn con Random
number table (Bảng số ngẫu nhiên). Khi đó trên màn hình sẽ có kết quả như sau
Chúng ta nhập vào số các số ngẫu nhiên mà chúng ta muốn tạo ra (How many random
numbers): thí dụ như 60 và nhập vào số các chữ số có trong số ngẫu nhiên (How many digits
per number), thí dụ như 3, chúng ta sẽ có kết quả sau.
Bước 3:
Chọn một số có chữ số mong muốn. Chọn đối tượng tương ứng trên bản danh sách điều tra để
đưa vào nghiên cứu trừ khi:
(i) số được chọn đã được chọn từ trước
_ Describe Compare Study Sample Probability Setup
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
_________+----------------------------------------------------------+___________
_________¦ +-[_]------- Random number table generator ------------+¦___________
_________¦ ¦ ¦¦___________
_________¦ ¦ How many random numbers 550 ¦¦___________
_________¦ ¦ How many digits per number 5 ¦¦___________
_________¦ ¦ ¦¦___________
_________¦ ¦ ¦¦___________
_________¦ ¦ Calculate _ Reset _ Quit _ ¦¦___________
_________¦ ¦ ____________ ____________ ____________ ¦¦___________
_________¦ ¦ ¦¦___________
_________¦ +------------------------------------------------------+¦___________
_________+----------------------------------------------------------+___________
________________________________________________________________________________
________________________________________________________________________________
____________________________________________________________________¦¦__________
___________________________________________________________________¦¦¦¦_________
__________________________________________________________________¦¦¦¦¦¦________
_________________________________________________________________¦¦¦¦¦¦¦¦_______
F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:224824
_ Describe Compare Study Sample Probability Setup
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
_________+----------------------------------------------------------+___________
_________¦ +----------- Random number table generator ------------+¦___________
_________¦ ¦ ¦¦___________
_________¦ ¦ How many random numbers 60 ¦¦___________
_____+-[_] Files Edit Search []-+_____
_____¦454 712 771 345 042 124 978 077 899 904 914 680 374 784 925 ¦_____
_____¦133 359 974 535 150 661 443 010 944 509 897 462 692 565 277 -_____
_____¦487 622 044 787 542 892 801 795 586 689 510 109 682 209 261 ______
_____¦456 577 455 221 199 460 010 198 588 416 215 216 098 291 423 ______
_____¦ ______
_____¦ ______
_____¦ ______
_____¦ ______
_____¦ ______
_____¦ _____
_____+-¤---- 5:2 ------________________________________________________-+_____
__________________________________________________________________¦¦¦¦¦¦________
_________________________________________________________________¦¦¦¦¦¦¦¦_______
F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:223680
73
(ii) Số được chọn lớn hơn số lớn nhất có trong danh sách.
Bước 4:
Khảo sát số bên cạnh trong bảng số ngẫu nhiên và tiến hành như trong bước 2 và 3, số tiếp theo
có thể được chọn bất kì chỗ nào trong bảng số ngẫu nhiên. Cách đơn giản nhất là đi xuống dọc
theo cột (nếu hết cột này thì lại đếm qua cột bên cạnh) cho đến khi số nghiên cứu được chọn từ
danh sách điều tra bằng với số mẫu cần thiết. Ðiểm cần lưu ý là chọn hàng và cột đầu tiên phải
ngẫu nhiên.
Chọn mẫu ngẫu nhiên dùng chương trình Epi-Info
Trước tiên chúng ta vào chương trình Epitable, chọn trình đơn Sample rồi chọn trình đơn con
Random number list (Bảng số ngẫu nhiên). Khi đó trên màn hình sẽ có kết quả như sau (Xem
hình 3).
Nếu chúng ta muốn có danh sách gồm 50 số ngẫu nhiên trong phạm vi từ 1 đến 457 ta nhập giá
trị 30 vào ô How many radom numbers; 1 vào ô Minimumrange of numbers và 457 vào ô
Maximum range of number. Ta sẽ có kết quả sau:
_ Describe Compare Study Sample Probability Setup
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
_________+--+-[_]-------- Random number List generator ------------++___________
_________¦ ¦ ¦¦___________
_________¦ ¦ How many random numbers 100 ¦¦___________
_________¦ ¦ Minimum range of numbers 0 ¦¦___________
_________¦ ¦ Maximum range of numbers 1000 ¦¦___________
_________¦ ¦ ¦¦___________
_________¦ ¦ [ ] Drawing with replacement ¦¦___________
_________¦ ¦ ¦¦___________
_________¦ ¦ Calculate _ Reset _ Quit _ ¦¦___________
_________¦ ¦ ____________ ____________ ____________ ¦¦___________
_________¦ ¦ ¦¦___________
_________+--+------------------------------------------------------++___________
________________________________________________________________________________
________________________________________________________________________________
____________________________________________________________________¦¦__________
___________________________________________________________________¦¦¦¦_________
__________________________________________________________________¦¦¦¦¦¦________
_________________________________________________________________¦¦¦¦¦¦¦¦_______
F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:224504
74
Như vậy chúng ta sẽ chọn các đối tượng số 6, 10, 15, 22, ...., và 449 trong khung mẫu để đưa
vào mẫu.
Ưu và khuyết của phương pháp lấy mẫu ngẫu nhiên đơn:
Phương pháp lấy mẫu ngẫu nhiên đơn đòi hỏi phải có danh sách của toàn bộ dân số khảo sát.
Danh sách này có thể không có hoặc có nhưng không hoàn toàn và lỗi thời. Nếu không có được
danh sách hay chi phí lập danh sách rất tốn kém thì không thể sử dụng phương pháp ngẫu nhiên
được. Ðây là khuyết điểm chính của phương pháp lẫy mẫu này.
Tuy vậy, khi có hay khi có thể lập danh sách của toàn bộ dân số một cách dễ dàng thì phương
pháp này là phương pháp lấy mẫu đơn giản và có tính đại diện cao.
2. Phương pháp lấy mẫu hệ thống:
Thay vì rút chọn ngẫu nhiên người ta có thể chọn những đối tượng có một khoảng cách nhất
định, phương pháp này được gọi là phương pháp rút chọn hệ thống. Thí dụ, lấy mẫu hệ thống là
chọn các đối tượng mang số 8, 17, 26, 35, 44, 53, ... vào mẫu. Phương pháp lấy mẫu hệ thống
cũng có giá trị như lấymẫu ngẫu nhiên nếu không có tính tuần hoàn của các đối tượng. Tuy vậy,
cần biết rằng phương pháp mẫu ngẫu nhiên đơn luôn luôn tốt hơn bởi vì nó không cần thiết giả
định này. Phương pháp lấy mẫu hệ thống đặc biệt có giá trị khi chúng ta không thể có được toàn
bộ danh sách lấy mẫu ở vào thời điểm lấy mẫu. Thí dụ như chúng ta có thể lấy mẫu hệ thống để
chọn những bệnh nhân có số hồ sơ nhập viện cách nhau một khoảng nhất định.
3. Phương pháp lấy mẫu phân tầng
Lấy mẫu phân tầng được dùng khi dân số bao gồm các nhóm khác biệt hay tầng (strata), khác
nhau về các đặc tính nghiên cứu và bản thân sự khác biệt này cũng cần quan tâm. Những thí dụ
thường gặp là các nhóm tuổi, nhóm giới tính hay những vùng địa lí hay sinh thái khác nhau
trong quốc gia. Một mẫu ngẫu nhiên đơn được rút ra từ mỗi tầng để đảm bảo rằng chúng đủ đại
diện. Ước lượng chung cũng sẽ chính xác hơn dựa vào phương pháp lấy mẫu ngẫu nhiên đơn
không xét đến cấu trúc của các nhóm nhỏ trong dân số. Chiến lược thường dùdng là chọn các cá
nhân trong tầng với tỉ lệ như nhau, nghĩa là có cùng chung một phân số lấy mẫu (sampling
fraction) cho các tầng. Dù vậy, đôi khi cũng cần phải thay đổi để cỡ mâu của mỗi tầng không
quá nhỏ.
_ Describe Compare Study Sample Probability Setup
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
_________+--+------------ Random number List generator ------------++___________
_________¦ ¦ ¦¦___________
_________¦ ¦ How many random numbers 50 ¦¦___________
_________¦ ¦ Minimum range of numbers 1 ¦¦___________
_____+-[_] Files Edit Search []-+_____
_____¦ 6 10 15 22 35 43 ¦_____
_____¦ 50 80 81 83 105 105 -_____
_____¦ 126 157 158 164 191 194 ______
_____¦ 215 221 224 227 234 236 ______
_____¦ 243 243 255 256 283 285 ______
_____¦ 295 319 324 326 333 343 ______
_____¦ 347 355 369 377 378 384 ______
_____¦ 393 414 421 434 435 435 ______
_____¦ 447 449 ______
_____¦ _____
_____+-¤--- 10:2 ------________________________________________________-+_____
__________________________________________________________________¦¦¦¦¦¦________
_________________________________________________________________¦¦¦¦¦¦¦¦_______
F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:223360
75
Bảng 1. Kết quả một mẫu phân tầng được tiến hành để ước lượng tỉ suất bệnh hiện mắc của một
bệnh trong một quốc gia có ba vùng địa lí chính. Tỉ suất bệnh hiện mắc chung được tính bằng
cách cộng số các người bệnh ước lượng được trong mỗi vùng và chia cho tổng số dân (Câu hỏi
thảo luận: Các tầng có cùng một phân số lấy mẫu hay không?)
Khu vực Dân số Cỡ mẫu Số bị bệnh Tỉ suất bệnh
hiện mắc
tổng số bệnh
ước lượng
Ðồng bằng ven
biển
1500000 200 120 0,6 900000
Vùng núi 150000 50 5 0,1 15000
Bán hoang mạc 300000 50 15 0,3 90000
Tổng số 1950000 300 140 0,52* 1005000
Thí dụ: Người ta muốn ước lượng tỉ suất hiện mắc của một bệnh trong một quốc gia với 3 vùng
sinh thái chính, vùng đồng bằng ven biển, vùng núi và vùng bán hoang mạc. Bởi vì dân số phân
phối đồng đều trong quốc gia, và bởi vì người ta nghĩ rằng đặc trưng sinh thái có thể ảnh hưởng
đến tỉ suất hiện mắc của bệnh, người ta chọn mẫu phân tầng. Bảng 1 trình bày kết quả thu được
với tỉ suất mắc toàn bộ trong mỗi vùng.
Tỉ suất mắc toàn bộ chung được tính bằng cách ước lượng số người bị bệnh trong mỗi vùng. Thí
dụ trong vùng đồng bằng ven biển tỉ suất hiện mắc của mẫu là 120/200 hay 0,6. Áp dụng số này
cho tổng số dân số trong vùng đồng bằng ven biển cho số ước lượng 0,5 x 150.000 = 90.000. Số
người bị bệnh của vùng núi và vùng hoang mạc được tính theo cách tương tự là 15000 và 90000.
Tổng số người mắc bệnh trong toàn quốc gia là 1.050.000. Kích thước dân số là 1.950.000 cho
nên tỉ số mắc toàn bộ chung là 1.050.000/1.950.000 = 0,52.
Lưu ý rằng con số này không giống với tỉ suất hiện mắc của mẫu là 140/300 = 0,47. Hai con số
này chỉ giống nhau khi dùng phân số lấy mẫu giống nhau cho mỗi tầng (nhưng điều này không
đúng trong trường hợp này). Việc tính toán sai số chuẩn của tỉ suất mắc hiện mắc cho toàn bộ
dân số dựa trên sự kết hợp các sai số chuẩn của các tỉ suất hiện mắc của mỗi vùng. Có thể sử
dụng phần mềm Epi-Info hoặc xem Moser và Kalton để biết thêm chi tiết.
4. Lấy mẫu cụm
Nếu chi phí phụ trội không nhiều, nên điều tra tất cả các đơn vị bậc hai từ một đơn vị bậc một
được chọn trong lược đồ lấy mẫu hai bậc. Ðiều đó được gọi là lấy mẫu cụm (cluster sampling)
và đơn vị lấy mẫu bậc một được gọi là cụm (cluster) trong trường hợp này. Có thể đạt được lược
đồ xác suất bằng nhau bằng cách lấy mẫu ngẫu nhiên đơn các cụm bất kể chúng có kích thươc
bằng nhau hay không.
Lấy mẫu cụm được dùng nếu có ích lợi được phân phát cho mọi người tham gia và nếu chỉ phân
phát quyền lợi cho một số thành viên của đơn vị là không thích hợp và không đạo đức. Thí dụ,
trog khi lấy mẫu trường để ước lượng tỉ suất hiện mắc của bệnh khi muốn sử dụng một phương
pháp điều trị có hiệu quả cho tất cả người bị bệnh, người ta sẽ khám cho tất cả các học sinh
trong các trường được chọn chứ không khám một mẫu trong đó.
5. Lấy mẫu nhiều bậc
Lấy mẫu nhiều bậc được tiến hành trong trong nhiều bậc dùng các cấu trúc đẳng cấp
(hierarchical structure) của dân số. Thí dụ, lấy mẫu 2 bậc (two stage sampling) có thể bao gồm
lần thứ nhất lấy một mẫu ngẫu nhiên các trường học và sau đó lấy mẫu ngẫu nhiên các trẻ em
trong các trường đã được chọn. Các trường hợp được gọi là đơn vị bậc một (first stage units hay
primary sampling units) và trẻ em là đơn vị bậc hai (second stage units - secondary sampling
units). Ưu điểm là tài nguyên có thể tập trung tại một số địa điểm và không cần cơ cấu lấy mẫu
76
cho toàn dân số. Cần danh sách các đơn vị bậc một nhưng chỉ cần danh sách các đơn vị bậc hai
của các đơn vị bậc một được chọn. Khuyết điểm là ước lượng chung kém chính xác hơn khi dựa
trên lấy mẫu ngẫu nhiên đớn có cùng một cỡ mẫu. Nói cách khác, để đạt được cùng độ chính xác
như lấy mẫu ngẫu nhiên đơn cần một cỡ mẫu lớn hơn.
Lấy mẫu ở bậc hai gồm lấy các mẫu ngẫu nhiên đơn có cùng kích thước từ các các đơn vị bậc
một. Phương pháp lấy mẫu bậc một phụ thuộc vào chúng có cùng số các đơn vị lấy mẫu bậc hai
hay không. Nếu có, có thể lấy mẫu ngẫu nhiên đơn. Nếu chúng có cỡ mẫu khác nhau, có thể đạt
được lược đồ epsem, bằng cách lấy mẫu xác suất tỉ lệ với kích thước (probability proportional to
size _ PPS). Thí dụ, nếu một trường học có nhiều gấp đôi học sinh so với trường kia thì nó có cơ
hội được chọn gấp đôi. Lấy mẫu PPS được tiến hành bằng cách thay thế (with replacement), có
nghĩa là sau khi một đơn vị bậc một được chọn nó vần còn được rút chọn và có thể được chọn
lần nữa. Khi một đơn vị bậc một được chọn hai lần, chọn mẫu đơn vị bậc hai nhiều gấp đôi. Tác
dụng chung là cho mỗi đơn vị bậc hai trong dân số một cơ hội được chọn bằng nhau.
Các bước tiến hành để lấy mẫu PPS được minh hạo trong ví dụ sau:
Giả sử chúng ta có 10 bệnh viện với số hồ sơ trong mỗi bệnh viện được trình bày trong bảng
sau:
Cụm Số hồ sơ Số hồ sơ tích
lũy
Số ngãu nhiên tương ứng
1 4288 4288 1-4288
2 5036 9324 4289-9324
3 1178 10502 9325-10502
4 638 11140 10503-11140
5 27010 38150 11141-38150
6 1122 39272 38151-39272
7 2134 41406 39273-41406
8 1824 43230 41407-43230
9 4672 47902 43231-47902
10 2154 50056 47903-50056
Tổng số 50056 50056
Ðể chọn 4 cụm và điều tra 100 hồ sơ trong mỗi cụm (như vậy tổng cỡ mẫu là 400 hồ sơ) có thể
tuân theo các sau:
- Tính số hồ sơ lũy tích
- Gán một cụm cho các số ngẫu nhiên từ số hồ sơ lũy tích của cụm trước đó +1 đến số
hồ sơ lũy tích của cụm đó.
- Rút chọn ngẫu nhiên 4 số từ 1 đến 50056: thí dụ như 36699; 35700; 11883; 4285 và
ứng với mỗi số chọn 100 hồ sơ từ cụm tương ứng với các số này. Trong trường hợp này
chúng ta sẽ điều tra 300 hồ sơ của bệnh viện 5 và 100 hồ sơ từ cụm số 1.
Cũng cần lưu ý chúng ta có thể chọn các số ngẫu nhiên bằng phương pháp lấy mẫu hệ thống như
thường được thực hiện trong chương trình tiêm chủng mở rộng (EPI program).
Có thể có lược đồ lấy mẫu có nhiều bậc hơn, thí dụ như chọn tỉnh, quận, đường phố và cuối
cùng là nhà. Phương pháp lấy mẫu này được gọi là lấy mẫu nhiều bậc (multi-stage sampling).
77
Thí dụ 2
Lấy mẫu phân tầng được đề nghị trong thí dụ 1 để ước lượng tỉ suất hiện mắc toàn bộ trong một
quốc gia với 3 vùng chính có thể được cải tiến thành cộng đồng thứ nhất (thành phố, làng, ấp) và
các nhà trong vùng, khám tất cả các thành viên trong nhà. Lược đồ sẽ là sự kết hợp giữa lấy mẫu
phần tầng (khu vực) lấy mẫu hai bậc (cộng đồng và nhà) và lấy mẫu cụm (tất cả các thành viên
trong nhà).
Lấy mẫu cụm
Lấy mẫu phân tầng
Lấy mẫu hệ thống
Lấy mẫu ngẫu nhiên đơn
78
Cách tính cỡ mẫu
Mục tiêu
Sau khi nghiên cứu bài này, hội thảo viên có khả năng:
(i) Hiểu được hai cách tiếp cận trong cách tính cỡ mẫu, bao gồm khái niệm về năng lực nghiên
cứu
(ii) Biết được những yếu tố nào ảnh hưởng đến việc tính toán cỡ mẫu và ảnh hưởng như thế nào
(iiI) Biết được cách tính cỡ mẫu cho những tình huống khác nhau
(iv) Biết được ảnh hưởng của cỡ mẫu lên những khía cạnh thiết kế khác.
(v) Ðánh giá được những vấn đề khác của cỡ mẫu
Giới thiệu
Cỡ mẫu sẽ có ảnh hưởng lớn đến độ chính xác của ước lượng thống kê. Từ định lí giới hạn trung
tâm chúng ta hi vọng rằng con số trung bình được ước lượng từ một mẫu sẽ tập trung tại trung
bình của dân số đó. Tuy vậy chúng ta cũng biết rằng con số ước lượng sẽ không chính xác bằng
trung bình của dân số đó mà mức độ phân tán phụ thuộc vào cỡ mẫu: Nếu cỡ mẫu nhỏ độ phân
tán lớn, nếu cỡ mấu lớn thì độ phân tán nhỏ và ta hi vọng số trung bình của mẫu sẽ bằng trung
bình của dân số. Người ta có thể trình bày mức độ phân tán theo khoảng tin cậy 95%. Nếu độ
phân tán lớn thì khoảng tin cậy 95% sẽ rộng và chúng ta khó lòng thực sự biết được trung bình
của dân số sẽ nằm ở đâu trong khoảng này. Nói rộng ra, nếu cỡ mẫu nhỏ chúng ta không thể ước
lượng một cách chính xác, chúng ta không thể chứng minh sự khác biệt giữa hai nhóm là không
có ý nghĩa.
Vấn đề xác định cỡ mẫu trong nghiên cứu khoa học là một vấn đề quan trọng. Nếu chúng ta lấy
mẫu quá nhỏ, đến giai đoạn phân tích ta có thể thấy được điều đó qua sự không chính xác của
uớc lượng, sự thất bại trong chứng minh giả thuyết. Tuy vậy khi chúng ta đã đi vào giai đoạn
phân tích số liệu thì lúc đó là quá chậm trễ để có thể thay đổi được cỡ mẫu. Ngược lại nếu
chúng ta lấy một cỡ mẫu quá lớn thì chúng ta rõ ràng lãng phì tiền bạc và thời gian.
Hai cách tiếp cận trong tính cỡ mẫu
Trên cơ bản có hai cách tiếp cận trong tính cỡ mẫu:
(a) dựa tên sự ước lượng của một tỉ lệ, một trung bình, hiệu số, nguy cơ tương đối với
một mức độ chính xác nhất định. Thí dụ, để ước lượng tỉ leẹ trẻ em trong lứa từ 12-23
tháng tuổi được tiêm chủng đầy đủ (với độ chính xác) trong vòng 10%. Câu hỏi chìa
khóa của cách tiếp cận này là khoảng tin cậy sẽ là bao nhiêu?
(b) Dựa trên kiểm định giả thuyết. Thí dụ,so sánh thời gian bú sữa mẹ hoàn toàn ở 2
nhóm có giáo dục sức khỏe và nhóm chứng.Câu hỏi chìa khóa trong cách tiếp cận này là
xác suất kết luận sai lầm trong kiểm định giả thuyết là bao nhiêu?
Ước lượng một hậu quả với một độ chính xác nhất định
Ðộ chính xác của một ước lượng (với khoảng tin cậy 95%) = d có nghĩa là sai số tối đa của ước
lượng là d (với độ tin cậy 95% hay xác suất điều trên không bị sai là 95%)
Công thức tính cỡ mẫu để ước lượng khoảng tin cậy (1-α ) của một tỉ lệ p với sai số d là như
sau:
2
2
2 / 1
) 1 (
d
p p z
n

·
−α
Một thắc mắc hay nẩy sinh trong khi nghiên cứu công thức này là trong khi chúng ta muốn
79
nghiên cứu ước lượng p nhưng trong khi tính toán để tính cỡ mẫu chúng ta phải có giá trị của tỉ
lệ p! Toàn bộ logic của vấn đề là ở chỗ chúng ta có thể ước lượng p trước lúc nghiên cứu một
cách không chính xác, sau nghiên cứu chúng ta có thể ước lượng p một cách chính xác hơn
nhiều. Ta có thể ước lượng p sử dụng phán đoán của chúng ta, sử dụng những nghiên cứu trước
đó, có thể tiến hành nghiên cứu dẫn đường. Trong trường hợp chúng ta không thể ước đoán p, ta
có thể ước đoán p =0,5, một ước đoán an toàn nhất và sẽ cho một cỡ mẫu an toàn nhất (lớn
nhất).
Không có quy tắc cứng nhắc độ chính xác d, điều này phụ thuộc vào mục đích của nghiên cứu
và vào tài nguyên hiện có.
Lưu ý:
- Công thức được trình bày là dành cho phép lấy mẫu ngẫu nhiên đơn. Nếu nghiên cứu sử dụng
phương pháp lấy mẫu cụm cần phải hiệu chỉnh tác động làm giảm độ chính xác của việc chọn
cụm bằng cách tăng cỡ mẫu. Cỡ mẫu trong nghiên cứu lấy mẫu cụm thường được nhân lên với
một hệ số (được gọi là hệ số thiết kế) có giá trị từ 2 đến 4. Hệ số thiết kế có thể tính được từ việc
nghiên cứu thử. Nếu không có điều kiện tính hệ số thiết kế có thể chọn hệ số thiết kế là 3.
- Công thức tính cỡ mẫu trên là dành lấy mẫu từ một dân số vô hạn hay khá lớn. Nếu cỡ mẫu
vào khoảng từ 10% dân số trở lên, ta có thể điều chỉnh để có cỡ mẫu nhỏ hơn.
P N
P N
N
hc
+
×
·
Với N là cỡ mẫu chưa hiệu chỉnh, P là kích thước của dân số đích và N
hc
là cỡ mẫu sau
khi đã hiệu chỉnh.
- Chúng ta cũng nên phải trù liệu cho những số liệu bị mất, những trường hợp từ chối nghiên
cứư bằng cách tăng cỡ mẫu.
Kiểm định một giả thuyết, so sánh 2 nhóm
Giả sử chúng ta muốn so sánh hai tỉ lệ (thí dụ tỉ lệ trẻ em được bú sữa non trong hai nhóm bà
mẹ: một nhóm được giáo dục sức khỏe và một nhóm không). Chúng ta có thể kiểm định xem hai
tỉ lệnày có khác nhau đáng kể hay không, nói cách khác kiểm định xem hiệu số của hai tỉ lệ này
có khác một cách có ý nghĩa với zero khay không. Sau khi tiến hành phân tích chúng ta có thể
bác bỏ hay không bác bỏ giả thuyết này. Về phương diện thống kê, dù khi chúng ta bác bỏ hay
không bác bỏ, chúng ta đều có khả năng bị sai lầm: sai lầm mà chúng ta mắc phải khi bác bỏ giả
thuyết được gọi là sai lầm loại I, sai lầm chúng ta mắc phải khi không bác bỏ được gọi là sai
lầm loại II.
Khi kiểm định H
0
: Không có sự khác biệt (p
1
=p
2
; OR=1 ; RR=1 ; β =0)
Chân lí là Ho đúng
(Không có sự khác biệt)
Chân lí là Ha đúng
(Không có sự khác biệt)
Bác bỏ giả thuyết H
0
Sai lầm loại 1
(Xác suất = α )
Kết luận đúng
(Xác suất = 1-β =
Power của nghiên cứu)
Không bác bỏ giả thuyết H
0
Kết luận đúng
(Xác suất = 1-α )
Sai lầm loại II
(Xác suất = β )
Lí tưởng, chúng ta muốn giảm thiểu cả hai loại sai lầm trong nghiên cứu. Lưu ý rằng chúng ta đã
định nghĩa cái gọi là năng lực (power) của nghiên cứu=1-sai lầm loại II. Năng lực là xác suất
đạt được kết quả có ý nghĩa thống kê nếu thực sự có sự khác biệt giữa p
1
và p
2
. Mục tiêu của
chúng ta khi chọn cỡ mẫu là nếu có sự khác biệt về lâm sàng quan trọng giữa hai nhóm, chúng ta
có cơ hội tốt để tìm thấy sự khác biệt có ý nghĩa thống kê trong 2 nhóm. Ðiều này là một ý niệm
hết sức quan trọng trong thiết kế nghiên cứu và lí giải. Nếu trong giai đoạn phân tích nếu kết quả
80
là có ý nghĩa thống kê, thì hầu hết mọi người đều thỏa mãn. Mặt khác nếu kết quả không có ý
nghĩa thông kê thì điều này có thể xảy ra do (a) không có sự khác biệt thực sự giữa hai nhóm và
(b) có sự khác biệt nhưng mẫu của chúng ta không cho thấy sự khác biệt bởi vì năng lực của
mẫu thấp (cỡ mẫu nhỏ) do đó chúng ta không có kết luận rõ ràng. Do đó, nếu chúng ta chọn
mẫu để có năng lực cao và kết quả không có ý nghĩa thống kê thì chúng ta có thể chắc hơn về sự
khác biệt.
Ðể chọn cỡ mẫu (trong trường hợp cỡ mẫu của 2 nhóm so sánh bằng nhau), chúng ta phải có 4
tham số
- Sai lầm loại I hay còn gọi là mức ý nghĩa mà chúng ta muốn có trong nghiên cứu (thường là
5%)
- Sai lầm loại II chúng ta muốn có trong nghiên cứu (Sai lầm loại hai khoảng 10-20% tương ứng
với năng lực từ 80-90%)
- Tỉ lệ trong một nhóm cơ bản (thí dụ tỉ lệ tiếp xúc với yếu tố nguy cơ trong nhóm chứng của
một nghiên cứu bệnh chứng)
- Tỉ lệ trong một nhóm khác (thí dụ tỉ lệ tiếp xúc với yếu tố nguy cơ trong nhóm bệnh của một
nghiên cứu bệnh chứng). Đôi khi chúng ta không trình bày tỉ lệ của nhóm này một cách cụ thể
mà trình bày nguy cơ tương đối hay tỉ số số chênh mà chúng ta mong muốn phát hiện trong một
nghiên cứu đoàn hệ hay nghiên cứu bệnh chứng.
Công thức tính cỡ mẫu (cho mỗi nhóm) để so sánh hai tỉ lệ π
1
và π
2
của hai nhóm:
2
2 1
2
2 / 1 2 2 1 1 1
) (
} ) 1 ( 2 ) 1 ( ) 1 ( {
π π
π π π π π π
α β

− + − + −
·
− −
z z
n
Các điểm cần lưu ý trong tính cỡ mẫu
- Như đã nói ở trên, cách tính cỡ mẫu chỉ cho chúng ta một ước lượng thô của cõ mẫu cần thiết
bởi vì nó dựa trên sự ước đoán về giá trị của thông số, quyết định chủ quan của chúng ta về hậu
quả mà chúng ta muốn phát hiện và công thức được sử dụng là công thức gần đúng. Do đó con
số tính ra giúp chúng ta phân biệt giữa cỡ mẫu 50 và 100 chứ không phân biệt cỡ mẫu 50 và 53.
- Chúng ta phải cân đối giữa điều chúng ta mong muốn và tính khả thi. Ðôi khi có thể dùng
công thức tính cỡ mẫu để đi ngược lại năng lực của nghiên cứu. Thí dụ nếu chúng ta có một kinh
phí hạn chế để thực hiện một nghiên cứu nên chỉ có một cỡ mẫu nhất định. Chúng ta có thể tính
ngược lại từ cỡ mẫu để biết năng lực của nghiên cứu. Nếu hóa ra năng lực của nghiên cứu rất
thấp (thí dụ như 20%) tốt nhất chung ta không nên tiến hành nghiên cứu vì chúng ta đã nắm
chắc kết quả thất bại.
- Nếu một nghiên cứu có nhiều mục tiêu thì cỡ mẫu đủ cho một mục tiêu này có thể không đủ
cho mục tiêu khác. Ðể tính cỡ mẫu, tốt nhất phải chú trọng vào biến số (hoặc những biến số
quan trọng nhất).
- Tính cỡ mẫu không khó, cái khó là phải cung cấp những giả định của nghiên cứu: sai lầm loại
một, năng lực, sự khác biệt mà chúng ta muốn phát hiện.
Tính cỡ mẫu bằng phần mềm Epi Info:
Ðầu tiên ta vào phần mềm Epitable bằng 1 trong 2 cách (giả sử thư mục chứa Epi Info trong là
c:\epi6)
- Vào trực tiếp:
c:\>c:\epi6\epitable <enter>
- Thông qua trình đơn chính của epi6
c:\>c:\epi6\epi6 <enter>
Khi đã vào trình đơn chính của Epi6 chọn program Epitable trong trình đơn Programs bằng cách
81
dùng chuột hoặc nhấn Alt-P rồi kéo con trỏ xuống EPITABLE Calculator rồi nhấn <enter>
Sau đó chọn Samle size bằng cách dùng chuột hay nhấn Alt-S rồi di chuyển con trỏ vào sample
size rổi nhấn <Enter>.
Chương trình Epi Info cho phép tính cỡ mẫu trong 4 trường hợp: Ước lượng một tỉ lệ (single
proportion); So sánh 2 tỉ lệ trong hai nhóm (Two proportions); Nghiên cứu đoàn hệ (cohort
study) và nghiên cứu bệnh chứng (Case-control study). Chọn loại thích hợp bằng cách di chuyển
trỏ rồi nhấn <Enter>. Khi đó màn hình sẽ hiện lên một cửa số có nhiều trường. Trong cửa số này
chúng ta có thể di chuyển con trỏ giữa các trường bằng cách nhấn phím <Tab> hoặc phím
<Shift><Tab>. Nhập các giả định cần thiết vào các trường thích hợp. Di chuyển con trỏ đến ô
Calculate, nhấn <Enter> để xem kết quả tính toán.
Lưu ý: Trong cách tính cỡ mẫu ước lượng một tỉ lệ, chúng ta thấy có một tham số Design effect.
Tham số dùng để điều chỉnh nếu chúng ta lấy mẫu theo cụm. Do đó nếu ta lấy mẫu ngẫu nhiên
đơn thì Design effect=1. Nếu chúng ta lấy mẫu theo cụm thì tham số này sẽ lớn hơn 1 và độ lớn
cụ thể thì phụ thuộc vào mức độ không đồng nhất giữa các cụm.
Nếu chúng ta lấy mẫu theo cụm thì chọn Design effect là bao nhiêu? Thông thường chúng ta có
thể tham khảo các nghiên cứu trước hoặc làm nghiên cứu pilot để xác định mức độ không đồng
nhất. Nếu chúng ta có kinh nghiệm chúng ta có thể dùng trực giác để phán đoán design effect.
Nếu chúng ta không có kinh nghiệm, không tìm được tài liệu tham khảo và không thể tiến hành
nghiên cứu pilot, chúng ta chọn Design effect = 2 để có cỡ mẫu đảm bảo an toàn (Design effect
hiếm khi nào lớn hơn 2).
_ Describe Compare Study Sample Probability Setup
_____________________________ +----------------------+ _________________________
_____________________________ ¦ Sample size > ¦ _________________________
_____________________________ ¦ Power calculation > ¦ _________________________
_____________________________ ¦ Random number table ¦ _________________________
_____________________________ ¦ Random number list ¦ _________________________
_________+------------------- +----------------------+ -------------+___________
_________¦ ¦___________
_________¦ _____¦ _¦ _¦ __¦ __¦ ¦___________
_________¦ _¦ _¦ _¦ _¦ ¦___________
_________¦ _¦ _¦___¦ __¦ ____¦ ___¦ _¦ _¦ ___¦ ¦___________
_________¦ ___¦ _¦ _¦ _¦ _¦ _¦ ____¦ _¦ _¦ _¦ ¦___________
_________¦ _¦ _¦ _¦ _¦ _¦ ____¦ _¦ _¦ _¦ _____¦ ¦___________
_________¦ _¦ ____¦ _¦ _¦_¦ _¦ _¦ _¦ _¦ _¦ _¦ ¦___________
_________¦ _____¦ _¦ ___¦ _¦ ___¦_¦ _¦___¦ ___¦ ___¦ ¦___________
_________¦ ___¦ ¦___________
_________¦ ¦___________
_________+----------------------------------------------------------+___________
________________________________________________________________________________
________________________________________________________________________________
____________________________________________________________________¦¦__________
___________________________________________________________________¦¦¦¦_________
__________________________________________________________________¦¦¦¦¦¦________
_________________________________________________________________¦¦¦¦¦¦¦¦_______
F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:228552
82
Thí dụ
Thí dụ 1: Cho một nghiên cứu bệnh chứng, sử dụng những giả định sau để tính cỡ mẫu
cho từng trường hợp
Năng lực của nghiên cứu = 90%; mức ý nghĩa = 5%; 1 bệnh cho một chứng
% chứng tiếp xúc với yếu tố nguy cơ
OR 5% 20% 50% 70% 90%
1.5 2346
2 244
5 46
10 50
1. Dựa trên phép tính cỡ mẫu hãy đưa ra khuyến cáo khi nào nên dùng nghiên cứu bệnh chứng
và khi nào không.
2. Hãy tính cỡ mẫu trong một nghiên cứu bệnh chứng có năng lực =90%, mức ý nghĩa =5%
OR= 2 và tỉ lệ tiếp xúc với yếu tố nguy cơ là 30%. Hãy tính cỡ mẫu khi có 1 chứng: 1 bệnh; 2
chứng: 1 bệnh; 3 chứng: 1 bệnh.
Thí dụ 2: Cho một nghiên cứu đoàn hệ, sử dụng những giả định sau để tính cỡ mẫu cho
từng trường hợp
Năng lực của nghiên cứu = 90%; mức ý nghĩa = 5%; nhóm có tiếp xúc= nhóm không tiếp xúc
tỉ suất mắc bệnh trong nhóm không tiếp xúc với yếu tố nguy cơ
RR 0,1% 1% 5% 15% 30%
1.5 108,904
2 3300
3 207
5 15
1. Dựa trên phép tính cỡ mẫu hãy đưa ra khuyến cáo khi nào nên dùng nghiên cứu đoàn hệ và
khi nào không.
2. Hãy tính cỡ mẫu trong một nghiên cứu bệnh chứng có năng lực =90%, mức ý nghĩa =5%
OR= 2 và tỉ suất mắc bệnh là 5%. Hãy tính cỡ mẫu khi có nhóm không tiếp xúc = nhóm tiếp
xúc; nhóm không tiếp xúc = 2 nhóm tiếp xúc; nhóm không tiếp xúc = 3 nhóm tiếp xúc
Thí dụ 3: Phòng y tế huyện A. muốn kiểm tra báo cáo về tỉ lệ tiêm chủng của một xã là
80% bằng cách tiến hành một cuộc điều tra (với sai số tuyệt đối dưới 5%, độ tin cậy = 95%).
Nếu phòng y tế quyết định chọn mẫu bằng phương pháp chọn mẫu ngẫu nhiên thì cỡ mẫu cần
thiết là bao nhiêu? Nếu chọn theo cụm thì cỡ mẫu cần thiết là bao nhiêu?
83
Chiến lược phân tích số liệu
1. Giới thiệu
Chúng ta đã biết qua những kĩ thuật thống kê chuyên biệt cho các tình huống dịch tễ nhất đinh.
Trong bối cảnh của một nghiên cứu dịch tễ thực sự bao gồm số liệu của rất nhiều các biến số, rất
khó quyết định thao tác nào được áp dụng và áp dụng theo trình tự như thế nào. Trong phần này,
chúng ta sẽ trình bày một số nguyên tắc chiến lược để phân tích số liệu từ nghiên cứu dịch tễ.
2. Biên tập số liệu
Kiểm tra và biên tập cẩn thận bộ số liệu là rất cần thiết trước khi bắt đầu phân tích thống kê.
Bước đầu tiên là xem sự phân phối của từng biến số để phát hiện các sai lầm có thể. Đối với
biến số phân loại, điều này thực hiện bằng bảng phân phối tần suất để xem rằng các bản ghi đều
ở trong các nhóm đã được xác định và tần suất của mỗi nhóm là hợp lí. Đối với biến số định
lượng, kiểm tra phạm vi cần được tiến hành để phát hiện những giá trị nằm ngoài phạm vi mong
đợi. Tổ chức đồ cũng có thể dùng để tìm kiếm các giá trị bất thường (outliers) không phù hợp
với phần số liệu còn lại.
Bước tiếp theo là tiến hành kiểm tra tính hàng định, để tìm kiếm những trường hợp mà 2 hay
nhiều biến số là không hằng định. Thí dụ, nếu có 2 biến số giới tính và số lần mang thai trong bộ
số liệu, chúng ta có thể sử dụng bảng chéo để chắc rằng không có người nam giới nào có số lần
mang thai là một hay nhiều hơn. Phân tán đồ cũng có thể được sử dụng để kiểm tra tính hằng
định của số liệu số; thí dụ chúng ta có thể vẽ phân tán đồ của trọng lượng theo tuổi, trọng lượng
theo chiều cao, dung tích sống theo chiều cao. Những giá trị bất thường cũng có thể được phát
hiện bằng cách này.
Những sai sót có thể được kiểm tra so với tài liệu gốc. Trong một số trường hợp cần phải điều
chỉnh lại số liệu. Một số trường hợp khác cần phải đưa mã số giá trị khuyết (missing value) nếu
chắc chắn rằng số liệu sai (thí dụ một bà mẹ có trọng lượng trước khi sinh là 45 kg và đã tăng
cân 35kg trong thời gian có thai). Trong trường hợp còn chưa rõ, khi số liệu là bất thường nhưng
không bị xem là không thể xảy ra, tốt nhất là để số liệu giữ nguyên. Một cách chặt chẽ, việc
phân tích sau đó phải được kiểm tra để đảm bảo là kết luận không bị ảnh hưởng quá mức vì giá
trị cực đoan này. Trên thực tiễn, giá trị bằng số thường được chia thành các nhóm trước khi
phân tích và do đó một hay hai giá trị bất thường khó có thể có ảnh hưởng đáng kể đến kết quả.
Việc kiểm tra cần phải được tiến hành riêng biệt cho nhóm mắc bệnh và nhóm không mắc bệnh
bởi vì phân phối của 2 nhóm này có thể hoàn toàn khác nhau.
3. Mô tả số liệu
Sau khi số liệu đã được làm sạch, phân phối của từng biến số phải được rà soát lại. Điều này
được thực hiện cho 2 mục đích. Thứ nhất, để đảm bảo rằng tất cả các số liệu đều đã được sắp
xếp phù hợp và thứ hai để có một cảm giác về số liệu. Cảm giác vế số liệu là sự hiểu biét về đặc
tính của dân số đối với biến số phơi nhiễm và các giá trị khác cần đo lường. Khi thực hiện
nghiên cứu bệnh chứng, chúng ta cần phải xem xét số liệu một cách riêng biệt.
4. Phân loại biến số
Nói chung sẽ rất hữu ích nếu chúng ta phân biệt các loại biến số "kết cuộc", "phơi nhiễm", "gây
nhiễu" và "thay đổi tác động". Biến số kết cuộc và biến số phơi nhiễm là các biến số trung tâm
của nghiên cứu trong đó biến số kết cuộc mô tả vấn đề nghiên cứu và biến số phơi nhiễm là biến
số mà chúng ta muốn xem xét và ước lượng tác động của nó lên biến số kết cuộc.
Biến số gây nhiễu là biến số làm biến dạng quan hệ giữa biến số phơi nhiễm và két cuộc. Chúng
ta thu thập số liệu của các biến số gây nhiễu để loại bỏ tác động của yếu tố gây nhiễu trong khi
phân tích. Biến số thay đổi tác động là biến số thay đổi tác động của biến số phơi nhiễm lên
84
nguy cơ. Chúng ta thu thập số liệu của các biến số thay đổi tác động để xem xét tác động của
biến số phơi nhiễm lên nguy cơ thay đổi như thế nào tuỳ theo giá trị của biến số thay đổi tác
động.
Trên thực tiễn, mối liên hệ giữa các biến số có thể phức tạp hơn. Thí dụ một biến số có thể gây
nhiễu tác động của một yếu tố phơi nhiễm cần quan tâm nhung bản thân nó có thể là biến số
phơi nhiễm quan tâm. Một biến số khác có thể gây nhiễu cho một biến sô phơi nhiễm này nhưng
làm thay đổi tác động cho một biến số phơi nhiễm khác.
Ngoài ra trong nghiên cứu có thể có các yếu tố thăm dò, số liệu của biến số này có thể trở thành
biến số phơi nhiễm quan trọng hoặc nếu nó không trở thành biến số phơi nhiễm quan trọng, nó
có thể được xem là biến số gây nhiễu hay thay đổi tác động.
5. Rút gọn số liệu
Trước khi bắt đầu phân tích chính thức, có thể vần phân nhóm giá trị của các biến số. Bởi vì
phương pháp "cổ điển" dựa trên việc phân tầng là cần thiết cho giai đoạn đầu của nghiên cứu,
việc phân nhóm là quan trọng cho các biến số liên tục. Việc phân nhóm cũng cần thiết cho biến
số phân loại hay biến số rời rạc nếu các biến số này có chứa một số lớn các nhóm (thí dụ như
nghề nghiệp, số lần mang thai). Số nhóm được phân chia phụ thuộc vào từng loại biến số: đối
với biến số phơi nhiễm cần phân chia thành nhiều nhóm hơn đối với biến số gây nhiễu hay biến
số thay đổi tác động.
Đối với biến số phơi nhiễm, khi chúng ta muốn xem xét sự phụ thuộc của nguy cơ vào mức độ
phơi nhiễm (quan hệ liều lượng – đáp ứng), chúng ta sẽ mắc sai lầm nếu chúng ta sử dụng quá ít
nhóm. Nguyên tắc chung là nhóm không phơi nhiễm nên đặt riêng (thí dụ nhóm không hút
thuốc) và nhóm phơi nhiễm nên chia thành nhiều nhóm (thường là 4 hay 5 nhóm là đủ để có thể
xem xét mối quan hệ liều lượng đáp ứng). Đối với biến số liên tục như tăng huyết áp, có thể chia
các giá trị của biến số làm 5 nhóm có tần suất bằng nhau (được gọi là quintiles – ngũ vị). Điều
này giúp cho độ chính xác của ước lượng tác động lên mỗi nhóm nhưng đôi khi có thể sai lầm
do nếu có một ít đối tượng có mức phơi nhiễm rất cao bị ghép chung với các đối tượng có độ
phơi nhiễm vừa phải. Một cách khác là chọn các điểm cắt dựa trên nền tảng của các nghiên cứu
trước đó, mục đích là xác định các nhóm mà nguy cơ tương đối ít thay đổi trong từng nhóm.
Đối với biến sô gây nhiễu, hai hay ba nhóm là đủ đối với phần lớn các yếu tố gây nhiễu. Dù vậy
nếu biến số gây nhiễu mạnh (thí dụ như tuổi) thì có thể phân thành nhiều nhóm hơn. Trước khi
quyết định số nhóm cần dùng trong phân tích, chúng ta có thể đánh giá sức mạnh quan hệ giữa
biến số gây nhiễu và biến số kết cuộc. Nếu sự quan hệ này là yếu thì chúng ta có thể kết hợp
nhiều nhóm lại với nhau.
6. Đo lường tác động
Có các lựa chọn khác nhau để đo lường tác động cho các thiết kế nghiên cứu. Các lựa chọn bao
gồm:
Thiết kế nghiên cứu Đo lường tần suất bệnh Đo lường tác động
Đoàn hệ (người thời gian) Tỉ suất Tỉ số tỉ suất
Hiệu số tỉ suất
Đoàn hệ (không có số liệu
người thời gian)
Nguy cơ
Số chênh
Tỉ số nguy cơ
Hiệu số nguy cơ
Tỉ số số chênh
Hiện mắc Tỉ lệ hiện mắc
Số chênh
Tỉ số nguy cơ (hiện mắc)
Hiệu số nguy cơ
Tỉ số số chênh
85
Bệnh chứng Tỉ số số chênh
Đối với nghiên cứu đoàn hệ, nếu có số liệu về người thời gian phơi nhiễm, tỉ suất mới mắc
thường là số đo tần suất được chọn lựa và tỉ số tỉ suất là số đo tác động được chọn lựa.
Đối với nghiên cứu đoàn hệ dựa trên nguy cơ và cho nghiên cứu bệnh hiện mắc, tỉ số nguy cơ sẽ
được xem là dễ lí giải hơn tỉ số số chênh. Tuy nhiên tỉ số số chênh thường được sử dụng do tính
chất thống kê của các thao tác dựa trên tỉ số số chênh là tốt hơn. Bởi vì hồi quy logistic thường
được sử dụng để ước lượng tỉ số số chênh, tỉ số số chênh cũng được sử dụng do nó cho kế quả
hằng định với kết quả của phân tích hồi quy logistic.
Trong nghiên cứu bệnh chứng, tỉ số số chênh thưưòng được dung để đo lường tác động mặc dù
nó có thể ước lượng cho tỉ số nguy cơ hay tỉ số tỉ suất, phụ thuộc vào phương pháp chọn lựa
nhóm chứng.
7. Phân tích đơn biến
Thông thường nên bắt đầu với phân tích thô đơn biến, sử dụng các phương pháp cổ điển để xem
xét sự liên quan giữa kết cuộc và các yếu tố phơi nhiễm quan tâm và bỏ qua các biến số khác.
Mặc dù phân tích này sẽ bị thay thế bởi các phân tích phức tạp hơn và có xem xét đến tác động
của các biến số khác, phân tích đơn biến vẫn có ích lợi vì:
i) xem xét các bảng phân tích đơn cho người nghiên cứu những thông tin hữu ích về bộ số liệu;
thí dụ nó có thể cho thấy có rất ít bản ghi hay rất ít trường hợp tử vong ở một nhóm phơi nhiễm
nhất định.
ii) Nó cho chúng ta khái niệm ban đầu về các biến số có thể liên quan mạnh đến kết cuộc
iii) Mức độ thay đổi của ước lượng tho so với ước lượng khi các biến số khác được đưa vào để
sử dụng trong phân tầng flà một chỉ số quan trọng để đánh giá sự hiện diện của yếu tố gây nhiễu.
Khi phơi nhiễm có trên 2 mức độ, một mức độ phơi nhiễm được chọn làm mức nền. Thông
thường người ta chọn mức nền là mức không có phơi nhiễm (hoặc phơi nhiễm ít nhất nếu ai đó
đều bị phơi nhiễm ít nhiều). Tuy nhiên nếu nhóm này có ít người thì ước lượng sẽ có sai số
chuẩn lớn và chúgn ta có thể có lợi khi chọn nhóm lớn hơn làm nền tảng. Phânt ích phơi nhiễm
với 2 hoặc hơn các mức độ (cả khi phân tích thô và phân tích phân tầng) sẽ bao gồm:
i) Các bảng 2x2, so sánh các mức độ phơi nhiễm với nhóm nền
ii) Xem xét các ước lượng của tác động có theo một khuynh hướng nào hay không?
iii) Nếu phù hợp, thực hiện một kiểm định khuynh hướng (test for trend) để tìm bằng chứng về
sự tăng giảm nguy cơ theo mức độ phơi nhiễm tăng dần.
8. Kiểm soát các yếu tố gây nhiễu
Yếu tố gây nhiễu hiện diện ít nhiều trong các nghiên cứu quan sát và cần phải thực hiện loại bỏ
các yếu tố gây nhiễu trong các phân tích của biến số phơi nhiễm quan tâm. Chúng ta đã có 2
công cụ cho nhiệm vụ này: phương pháp cổ điển (Mantel-Haenszel) dựa trên phân tầng và
phương pháp mô hình hoá với các phương trình hồi quy.
Chúng ta nên dùng phương pháp cổ điển trong bước đầu của phân tích vì các lí do sau:
i) Các bảng số liệu đơn giản giúp nhà nghiên cứu có liên hệ với số liệu. Ngược lại, phương trình
hồi quy là một hộp đen có thể gây ra những sai số tai họa khi mô hình hoá.
ii) Phương pháp cổ điển đòi hỏi ít giả định nên có thể phát hiện được các mối liên quan phức
tạp. Phương pháp mô hình hoá có thể bỏ qua một số tương tác.
Tuy nhiên phương pháp cổ điển gập khó khăn khi có một số lớn các biến số gây nhiễu và khi
muốn kiểm soát các yếu tố gây nhiễu này đồng thời thì do sự hiện diện của quá nhiều tầng sẽ
khiến cho số liệu của mỗi tầng trở thành quá nhỏ và sẽ khiến sức mạnh thống kê bị kém và
86
khoảng tin cậy của ước lượng sẽ rộng ra.
Mặc dù vậy, nếu phương pháp cổ điển được áp dụng một cách sáng suốt sẽ cho một ước lượng
có giá trị và loại bỏ các sai lệch do yếu tố gây nhiễu gây ra. Điều này đúng cho hầu hết các loại
nghiên cứu ngoại trừ nghiên cứu bệnh chứng bắt cặp cá nhân trong đó kĩ thuật phân tầng cổ điển
có rất ít giá trị.
Chúng ta đã thấy rằng phương pháp hồi quy cho tác động của hai biến số phân loại có giả định
giống như giả định trong phương pháp phân tầng và do đó cho kết quả hoàn toàn đồng nhất.
Phương trình hồi quy ngoài ra còn có một số lợi ích sau:
i) Giả định rằng không có tương tác giữa các biến số gây nhiễu, chúng ta có thể làm giảm số
tham số cần thiết
ii) Có thể xác định được tác động của từng biến số, được kiểm soát cho tác động của các biến số
khác.
iii) Có thể xem xét tác động liều lượng hậu quả một cách linh hoạt hơn.
9. Cách đưa vào biến số gây nhiễu
i) Thông thường sẽ có hai hay ba biến số đượccho là các biến số gây nhiễu quan trọng (những
biến số này đuợc gọi là biến số gây nhiễu trù định - a priori confounders) những bCác biến số
này thường là tuổi và một hay hai yếu tố nguy cơ quan trọng của bệnh và được cho là có thể có
liên quan đến biến số phơi nhiễm quan tâm. Theo các quy tắc chung, những biến số này phải
được kiểm soát trong phân tích.
ii) Chúng ta có xem xét các biến số có thể gây nhiễu khác. Kiểm soát từng biến số một và xem
có làm thay đổi con số ước lượng tác động hay không.
iii) Đôi khi chỉ có môt hoặc hai biến số gây nhiễu có làm thay đổi ước lượng tác động. Khi đó
phân tích cuối cùng thưc hiện việc kiểm soát các biến số gây nhiễu trù định với các biến số gây
nhiễu bổ sung có tác động. Không cần thiết phải đưa tất cả các biến số tất cả các biến số gây
nhiễu bổ sung vào phân tích cuối cùng bởi vì một số biến số gây nhiễu không làm thay đổi ước
lượng tác động của biến số phơi nhiễm quan tâm nếu đã được kiểm soát cho các biến số gây
nhiễu khác.
Nếu có 3 hay ít hơn các biến số gây nhiễu thì chỉ cần sử dụng phương pháp cổ điển là đủ. Trong
trường hợp này, lần lượt phân tầng cho từng biến số và sau đó phân tầng cho đồng thời các biến
số để xem các ước lượng tác động thay đổi như thế nào. Chiến lược này đủ để loại bỏ hầu hết
các ảnh hưởng gây nhiễu.
Khi số các biến số gây nhiễu là quá lớn và không thể kiểm soát bằng phương pháp phân tầng
đơn thuần, phương trình hồi quy (giả định không có hay chỉ có ít tương tác giữa các biến số gây
nhiễu) sẽ có giá trị.
Bước đầu tiên của phương pháp mô hình là lập lại những phân tích đơn giản và kiểm tra xem kết
quả có phù hợp với phân tích phân tầng đơn giản hay không. Điều này giúp chúng ta tránh được
các sai lầm tai hoạ do sử dụng phương pháp hộp đen. Sau đó có thể xây dựng các mô hình phức
tạp hơn bao gồm:
- Biến số phơi nhiễm hoặc các biến số phơi nhiễm quan tâm
- Tất cả các biến số được cho là yếu tố gây nhiễu từ trước (yếu tố gây nhiễu trù định)
- Tất cả các biến số khác được cho là có thể gây nhiễu và số liệu cho thấy có tác động gây nhiễu
đáng kể.
Tránh việc đưa vào các biến số không phải là yếu tố gây nhiễu cho bệnh đặc biệt là nếu biến số
này có liên quan mạnh đến phơi nhiễm quan tâm bởi vì nó sẽ tạo ra sai số chuẩn lớn và khiến
ước lượng kém chính xác.
Cần lưu ý rằng các biến số được xem là gây nhiễu phụ thuộc một phần vào quyết định trù định
(a priori decision) và một phần vào mức độ của ước lượng bị thay đổi sau khi kiểm soát cho yếu
87
tố gây nhiễu đó. Chúng ta hoàn toàn không dựa vào kết quả của kiểm định ý nghĩa. Do đó các
nhà thống kê và dịch tễ hang đầu thường không khuyến cáo sử dụng phương pháp hồi quy từng
bước (stepwise) trong phân tích dịch tễ.
10. Phân tích tương tác
Hồi quy là một công cụ rất phù hợp cho phân tích sự tương tác. Có 3 loại tương tác cần được
phân biệt
i) tương tác giữa các biến số gây nhiễu
Sự khác biệt chính giữa phương pháp mô hình hoá và phương páp cổ điển là phương pháp cổ
điển cho phép xem xét sự tương tác giữa các biến số gây nhiễu. Điều may mắn là trên thực thế,
hầu như không bao cần xem xét sự tương tác giữa các biến số gây nhiễu.
ii) Tương tác giữa biến số gây nhiễu và biến số phơi nhiễm chúng ta quan tâm:
Trên lí thuyết thống kê, việc tính toán con số ước lượng tác động chính xác, sau khi hiệu chỉnh
cho các yếu tố gây nhiễu chỉ cần thiết nếu tác động là đồng nhất ở các mức khác nhau của yếu tố
gây nhiễu. Tuy nhiễn trên thực tế, có thể là tác động sẽ thay đổi ít nhiều giữa các nhóm gnhĩa là
ít nhiều có sự tương tác của phơi nhiễm quan tâm và yếu tố gây nhiễu được kiểm soát trong
phân tích. Khi có sự hiện diện đáng kể của tương tác, tác động đặc hiệu của từng tầng phải được
báo cáo.
iii) Tương tác giữa các biến số phơi nhiễm quan tâm
Nếu có sự tương tác giữa các biến số phơi nhiễm quan tâm thì điều này là rất quan trọng cho
việc lí giải khoa học của kết quả phân tích và cho việc ứng dụng các can thiệp dự phòng.
Tuy nhiên việc tích cực tìm kiếm sự tương tác với tất cả các biến số có thể là không có ích lợi.
Kiểm định thống kê cho sự tương tác được chứng minh là có lực rất kém và nếu chúng ta lần
lượt tìm kiếm sự tương tác có ý nghĩa thống kê của tất cả các biến số sẽ dễ dàng bỏ qua những
tương tác thực sự và tình cờ đưa ra các phát hiện giả tạo. Chúng ta cũng nên nhớ rằng mục tiêu
của nghiên cứu dịch tễ là tìm ra một bức trạnh đơn giản nhưng chân thật và hữu dụng của thực
tế. Nếu có tương tác yếu, bản thân điều này không có ý nghĩa quan trọng lắm cho nên việc tính
toán ước lượng gộp của tác động cho từng phơi nhiễm là sự xấp xỉ hợp lí cho sự thật.
Vì những lí do này, nên trì hoãn việc phân tích tương tác vào giai đoạn cuối của phân tích và chỉ
nên xem xét tương tác phơi nhiễm-phơi nhiễm và phơi nhiễm-gây nhiễu, đặc biệt chú ý đến
những yếu tố tương tác trù định đáng được nghiên cứu. Nên xem xét từng yếu tố tương tác một
để tránh những mô hình quá phức tạp với nhiều tham số.
11. Nghiên cứu bệnh chứng bắt cặp
Phân tích bệnh chứng đúng cách sẽ kiểm soát các tác động gây nhiễu do biến số bắt cặp. Tuy
nhiên nếu có những biến số gây nhiễu khác không được bắt cặp sẽ có thể là biến số gây nhiễu.
Việc phân tầng có thể được sử dụng để kiểm soát những yếu tố gây nhiễu bổ sung nếu chúng ta
chú ý rằng các tập hợp của ca bệnh và chứng (các tầng) phải đồng nhất về phương diện yếu tố
gây nhiễu quan tâm. Điều này sẽ khiến cho các tầng này có rất ít số liệu nên sẽ tạo ra các ước
lượng kém tin cậy. Có hai cách để giải quyết vấn đề này:
1. Sử dụng hồi quy logistic có điều kiện. Cách tiếp cận này rất ích lợi cho phép sử dụng toàn bộ
số liệu và phân tích nhiều yếu tố gây nhiễu cùng một lúc, mặc dù điều này đòi hỏi thêm các giả
định.
2. Nếu bệnh và chứng chỉ được bắt cặp dựa trên các biến số đã được đo lường trong nghiên cứu
(thí dụ như tuổi và giới), cách tiếp cận khác là phá vỡ việc bắt cặp và phân tích số liệu như là
nghiên cứu bắt cặp tần suất. Trong trường hợp này, tuổi và giới sẽ được kiểm soát như là một
tầng trong phân tích. Chúng ta có thể sử dụng phương pháp phân tầng hay hồi quy logistic
không điều kiện để tiếp tục phân tích.
88
12. Những trở ngại trong phân tích và lí giải số liệu
Nếu chúng ta có một nghiên cứu thử nghiệm ngẫu nhiên lớn so sánh 2 can thiệp. Sự so sánh đã
được thiết lập trong đề cương nghiên cứu và đã được thống nhất trước khi nghiên cứu được tiến
hành. Nếu nghiên cứu đủ lớn thì việc ngẫu nhiên hoá sẽ đảm bảo 2 nhóm cân bằng với nhau về
tất cả các biến số gây nhiễu và việc phân tích kết quả sẽ rất đơn giản.
Nghiên cứu dịch tễ thường gặp thường có liên quan đến nhiều biến số, ngay cả khi chúng ta đã
xác định biến số phơi nhiễm quan tâm từ trước. Sự khác biệt trong việc quyết định phân nhóm
số liệu và chiến lược mô hình hoá sẽ cho những kết luận có thể rất khác biệt.
Có nhũng quan điểm khác nhau về cách xử lí số liệu từ các nghiên cứu thăm dò. Những lí do
cho sự cẩn trọng trong phân tích và lí giải số liệu bao gồm:
(i) Nhiều so sánh:
Ngay cả khi không có sự liên quan giữa biến phơi nhiễm và kết cuộc, chúng ta sẽ hi vọng sẽ có 1
trong 20 so sánh sẽ có ý nghĩa thống kê ở mức 5%. Do đó lí giải mối liên quan trong nghiên cứu
mà tác động nhiều yếu tố phơi nhiễm được đo lường sẽ cần phải cẩn thận hơn trong một nghiên
cứu với một giả thuyết được trù định từ trước. Tìm kiếm tất cả các liênq uan với một biến số kết
cuộc được các nhà thống kê gọi là "nạo vét số liệu"
(ii) Phân tích từng nhóm nhỏ:
Cần phải đặc biệt cẩn thận khi lí giải kết quả về sự liên quan "biểu kiến" trong các nhóm số liệu,
đặc biệt là khi không có bằng chứng về mối liên quan chung. Chúng ta thường dễ bị cám dỗ và
cho rằng đó là một kết quả lí thú của nghiên cứu, nhất là khi nếu loại bỏ nó ra nghiên cứu này là
một nghiên cứu âm tính.
(iii) So sánh được chỉ định do kết quả phân tích
Chúng ta không nên phân nhóm số liệu để có thể tạo ra một sự khác biệt thống kê rồi lí giải giá
trị p này như thể giá trị p này là của một so sánh có trù định. Thí dụ nếu chúng ta có 10 nhóm
tuổi và chúng ta so sánh nhóm tuổi 1 với nhóm 2, nhóm 3, …, nhóm 10 rồi so sánh nhóm tuổi 1
và 2 với nhóm 3, 4,…10 và tiếp tục. Chúng ta có 9 so sánh như vậy và sau đó chúng ta sẽ chọn
cách so sánh nào có sự khác biệt nhiều nhất và có ý nghĩa thống kê nhất giữa nhóm trẻ và nhóm
già. Cách này là cách so sánh chỉ định do kết quả phân tích. Lẽ ra chúng ta phải quyết định việc
phân nhóm càng sớm càng tốt trước khi xem sự khác biệt trong phân nhóm tuổi ảnh hưởng đến
kết luận của nghiên cứu.
Điều này không có nghĩa là tất cả các nghiên cứu dịch tễ phải có giả thuyết nghiên cứu và
phương pháp phân tích được chỉ định từ trước khi tiến hành thu thập số liệu. Việc lí giải kết quả
phải bị ảnh hưởng bởi việc phân tích. Nếu chúng ta tìm được một mối liên quan có ý nghĩa trong
50 mối liên quan được kiểm định thì điều này sẽ phải được khẳng định rõ rang. Chúng ta chỉ nên
xem mối liên hệ này chỉ nhằm tạo ra giả thuyết để được kiểm định trong tương lai.
89
Cài đặt chương trình Stata 8.0 và số liệu mẫu
1. Cài đặt chương trình Stata
Có nhiều cách để cài đặt chương trình Stata. Dưới đấy sẽ trình bày cách cài đặt chương trình
Stata 8.0 khi có đĩa CD của bộ môn Thống kê Y học.
- Đưa đĩa CD vào đầu đọc CD của máy tính (thí dụ vào đầu đọc E:)
- Vào thư mục Statistic softwares của đĩa CD
- Tìm tập tin Stata8Setup.exe và nhấp đúp vào tập tin này. Tập tin này sẽ thực hiện việc khởi
động cài đặt trong vòng vài giây.
Và tiếp theo, cửa sổ chào mừng (Welcome) sẽ hiện ra
Nhấp vào nút lệnh Next để sang cửa sổ tiếp theo. Cũng tiếp tục làm như vậy cho 2 cửa sổ tiếp
theo (Choose Destination Location, Ready to Install) để tiến hành việc cài đặt

90
Sau khi cài đặt, cửa sổ Finished sẽ hiện ra. Lúc này có thể nhấp vào nút lệnh Close để kết thúc.
2. Cài đặt tập tin số liệu mẫu
Để có thể thực tập các bài tập có trong tài liệu này, các bạn nên cài đặt các tập tin số liệu. Việc
cài đặt cũng được thực hiện bằng cách sử dụng đĩa CD của bộ môn Thống kê Y học.
- Đưa đĩa CD vào đầu đọc CD của máy tính (thí dụ vào đầu đọc E:)
- Vào thư mục Statistic softwares của đĩa CD
- Tìm tập tin StataData.exe và nhấp đúp vào tập tin này. Tập tin này sẽ thực hiện việc khởi động
cài đặt trong vòng vài giây.
Tiếp theo là cửa sổ Choose Destination Location sẽ hiện ra.
Nếu muốn cài đặt số liệu vào thư mục khác hãy nhấp vào nút lệnh Browse trong khung
Destination Directory để chọn thư mục cài đặt rồi nhấp vào nút lệnh Next. Nếu chấp nhận thư
mục cài đặt mặc định là C:\DATA, hãy nhấp vào nút lệnh Next để tiếp tục.
Khi đó chương trình sẽ tiếp tục thực hiện việc cài đặt và tự chấm dứt.
3. Cài đặt chương trình chuyển đổi số liệu
Đôi khi chúng ta có số liệu được nhập bằng chương trình Epi-Info 6.04, Epi-Info for Windows,
Access hay Excel nhưng chúng ta lại muốn phân tích số liệu bằng Stata chúng ta cần phải sử
dụng chương trình chuyển đổi số liệu như DBMSCopy for Win hay StatTransfer. Sau đây là
hướng dẫn cài đặt chương trình StatTransfer 7.0 sử dụng đĩa CD của của bộ môn Thống kê Y
học.
- Đưa đĩa CD vào đầu đọc CD của máy tính (thí dụ vào đầu đọc E:)
- Vào thư mục Statistic softwares của đĩa CD
91
- Tìm tập tin StatTransfer7Setup.exe và nhấp đúp vào tập tin này. Tập tin này sẽ thực hiện việc
khởi động cài đặt trong vòng vài giây.
Tiếp theo các cửa sổ Welcome, Choose Destination Location, Ready to Install sẽ hiện ra. Ở tất
cả các cửa số này bạn nên nhấp vào nút lệnh Next để tiếp tục. Sau khi nhấp vào nút lệnh Next
của cửa sổ Ready to Install, chương trình sẽ cài đặt.
Sau khi cài đặt chương trình StatTransfer, cửa sổ Finished sẽ hiện ra. Lúc này có thể nhấp vào
nút lệnh Close để kết thúc.
Khi cài đặt các chương trình StatTransfer và Stata theo cách trên, 2 chương trình này sẽ nằm
trong MediStat trong “All Programs” của Windows.
92
Khởi động và kết thúc Stata
1. Khởi động Stata
Để khởi động Stata trong Windows XP hãy thực hiện
• Nhấp chuột vào Start
• Nhấp chuột vào “All Programs”
• Di chuyển chuột thư mục MediStat và
• Nhấp chuột vào mục Stata 8
Hoặc nếu đã có biểu tượng của Stata trên desktop của máy tính có thể khởi động Stata bằng cách
nhấp đúp chuột vào biểu tượng của Stata 8 (Stata icon)
Người dùng sẽ nhìn thấy màn hình như sau khi khởi động Stata 8.0
93
Nếu màn hình Stata không khởi động được, nguyên nhân thông thường nhất là người sử dụng
chưa đăng kí và mở khoá để sử dụng Stata. Trong trường hợp này người sử dụng cần liên hệ với
công ty Stata để có được số hiệu (serial number) mã chương trình (code) và chìa khoá chủ quyền
(Authorization key). Cũng có thể xảy ra trường hợp người sử dụng đã mở khoá rồi nhưng do vô
ý đã xoá file Stata.lic. Trong trường hợp này có thể chép lại tập tin Stata.lic của người đã có
khóa hợp lệ.
2. Kiểm tra tính hợp lệ của Stata
Trong lần khởi động Stata đầu tiên, bạn có thể muốn kiểm tra rằng bạn đã cài đặt đúng. Hãy
gõ lệnh verinst và bạn sẽ thấy kết xuất tương tự như sau:
. verinst
You are running Stata/SE 8.0 for Windows.
Stata is correctly installed.
You can type exit to exit Stata.
Lệnh verinst là một lệnh cần nhớ. Giả sử nếu chúng ta thay đổi cấu hình của máy tính và không
biết mình đã làm tổn thương cho Stata hay không, chúng ta có thể gõ verinst để được trấn an
rằng Stata vẫn còn được cài đặt đúng.
3. Thoát khỏi Stata
Để thoát khỏi Stata/SE 8.0 for Windows chúng ta có thể thực hiện một trong 2 việc sau:
- Nhấp vào ô đóng nằm ở phía trên phải của cửa sổ Stata
Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng
chưa được lưu vào đĩa thì khi chúng nhấp vào ô đóng, máy tính sẽ hỏi chúng ta rằng
94
chúng ta có muốn thoát mà không lưu lại số liệu hay không. Nếu chúng ta đồng ý thì
Stata sẽ thoát, nếu không thì chúng ta lại trở lại Stata để chúng ta có thể lưu lại số liệu.
- Gõ lệnh exit trong cửa sổ Stata Command.
Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng
chưa được lưu vào đĩa thì khi chúng gõ exit, máy tính sẽ không đồng ý cho chúng ta
thoát và sẽ thông báo “no; data in memory would be lost”. Trong trường hợp này nếu
chúng muốn thoát mà không lưu lại số liệu thì chúng ta hãy gõ exit, clear. Nếu chúng ta
muốn lưu lại số liệu hãy sử dụng lệnh save.
4. Các loại hình của Stata
Có một số loại hình của Stata chạy trên các hệ điều hành khác nhau: Stata cho Windows
98/95/NT, Stata cho Windows 3.1, Stata cho Power Macintosh, Stata cho 680x0 Macintosh,
Stata cho Linux, Stata cho RS/6000, v.v. Tuy nhiên bất kể bạn dùng loại hình Stata nào, Stata
vẫn là Stata và bạn có thể sử dụng cùng một câu lệnh và Stata sẽ cho ra cùng một kết quả,
chính xác đến số lẻ tận cùng.
Ngay cả các tập tin cũng có thể chia xẻ. Thí dụ tập tin số liệu, tập tin chương trình, tập tin đồ
hoạ của Stata cho Macintosh có thể dùng trên các máy tính khác mà không cần phải chuyển
đổi.
5. Stata nhỏ, Intercooled Stata và Stata bản đặc biệt (Stata SE)
Stata cho Windows và Stata cho Macintosh có hai kiểu: Stata nhỏ và Intercooled Stata (trên
hệ điều hành Unix chỉ có Intercooled Stata). Cả hai kiểu Stata này đều có những nét chung
nhưng Intercooled Stata có thể làm việc với tập tin dữ liệu lớn hơn và nhanh hơn. Tuỳ theo
loại máy Intercooled Stata có thể nhanh hơn Stata nhỏ từ 50 đến 600%.
Sau đây là sự khác biệt giữa về giới hạn kích thước giữa Intercooled Stata và Stata nhỏ
Stata nhỏ Intercooled Stata
Số quan sát 1.000 Tuỳ thuộc vào bộ nhớ
Số các biến số 99 2.047
Chiều rộng số liệu 200 8.192
Kích thước ma trận tối đa 40 800
Số kí tự trong một macro 1.000 18.632
Số kí tự trong một dòng lệnh 1.100 18.648
Tại sao Intercooled Stata chạy nhanh hơn Stata nhỏ? Điều này là do sự khác biệt trong việc lập
chương trình. Thí dụ để có tích số của các ma trận RZR’, Intercooled Stata sẽ sử dụng bộ nhớ
để có thể ghi nhớ kết quả tạm thời là ma trân T=RZ rồi sau đó tính TR’. Stata nhỏ do không có
thể sử dụng nhiều bộ nhớ nên phải tính toán trực tiếp RZR’, và do đó một số kết quả trung gian
phải tính toán lại nhiều lần và điều này làm Stata nhỏ bị chậm .
Dù sao, sự khác biệt của Intercooled Stata và Stata nhỏ mang tính kĩ thuật và nội bộ, đối với
người dùng, việc sử dụng Intercooled Stata và Stata nhỏ không có gì khác biệt. Nếu Stata đã
được cài đặt và bạn muốn biết bạn đang dùng Stata gì thì có thể gõ lệnh about:
. about
Stata/SE 8.0 for Windows
Born 30 Jan 2003
95
Copyright (C) 1985-2003
Total physical memory: 261616 KB
Available physical memory: 37056 KB
Single-user Stata for Windows perpetual license:
Serial number: 196201410
Licensed to: Do Van Dung
Univ of Medicine & Pharm
Như vậy, chúng ta đang sử dụng Stata Phiên bản đặc biệt 8.0 cho Windows.
96
Mô tả ngắn gọn về Stata
Stata là một bộ phần mềm thống kê để quản lí, phân tích và vẽ đồ thị của số liệu.
Stata có thể chạy trên nhiều hệ điều hành nhưng bất kể ở hệ điều hành nào, Stata c ó thể cho
phép điều khiển bởi dòng lệnh (command-driven) và điều khiển bằng menu (menu-driven)khác
với SPSS chỉ được phép điều khiển bằng menu (menu-driven). Sau đây là một đoạn sử dụng
Stata với
. use "C:\Program Files\STATA8\auto.dta", clear
. summarize mpg weight
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------------------------
mpg | 74 21.2973 5.785503 12 41
weight | 74 3019.459 777.1936 1760 4840
Ở đây người dùng gõ vào summarize mpg weight và Stata trả lời bằng một bảng thống kê mô
tả. Một số lệnh khác có thể tạo ra kết quả khác:
. correlate mpg weight
(obs=74)
| mpg weight
---------+------------------
mpg | 1.0000
weight | -0.8072 1.0000
. gen w_sq=weight^2
. regress mpg weight w_sq
Source | SS df MS Number of obs = 74
---------+------------------------------ F( 2, 71) = 72.80
Model | 1642.52197 2 821.260986 Prob > F = 0.0000
Residual | 800.937487 71 11.2808097 R-squared = 0.6722
---------+------------------------------ Adj R-squared = 0.6630
Total | 2443.45946 73 33.4720474 Root MSE = 3.3587
mpg | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
weight | -.0141581 .0038835 -3.646 0.001 -.0219016 -.0064145
w_sq | 1.32e-06 6.26e-07 2.116 0.038 7.67e-08 2.57e-06
_cons | 51.18308 5.767884 8.874 0.000 39.68225 62.68392
Số liệu của Stata, tương tự như của phần lớn các phần mềm thống kê khác, được mô tả dưới
dạng là một bảng với các hàng là các đối tượng và các cột là các biến số:
. list mpg weight in 1/10
mpg weight
1. 22 2,930
2. 17 3,350
3. 22 2,640
4. 20 3,250
5. 15 4,080
6. 18 3,670
7. 26 2,230
97
8. 20 3,280
9. 16 3,880
10. 19 3,400
Trong đó các quan sát được đánh số và các biến số được đặt tên (như mpg, weight, v.v)
Stata có đặc điểm là chạy rất nhanh. Tốc độ nhanh một phần là do chương trình được viết hết
sức khôn khéo và một phần là do Stata giữ số liệu trong bộ nhớ. Tương tự như winword: khi làm
vieej số liệu được nạp vào trong bộ nhớ và được phân tích, biến đổi mà không ảnh hưởng gì đến
số liệu được giữ trong đĩa cứng. Do đó chúng ta có thể thoải mái làm việc mà không sợ bị ảnh
hưởng lên số liệu gốc trừ khi chúng ta ra lệnh cho Stata ghi số liệu trở lại vào đĩa.
Do số liệu được đưa vào bộ nhớ nên kích thước của số liệu bị giới hạn bởi kích thước bộ nhớ.
Do đó khi chúng ta làm việc với số liệu có kích thước lớn chúng ta cần dành nhiều bộ nhớ cho
Stata. Thông thường 32 megabyte bộ nhớ được dành cho Stata và ta có thể tăng lượng bộ nhớ
dành cho Stata bằng cách dùng lệnh set memory. Nếu chúng ta muốn dành cho Stata 64
megabyte hãy gõ: set memory 64m
Nếu muốn chúng ta có thể biết được lượng bộ nhớ tự do bằng cách gõ vào: memory. Để Stata
có thể hoạt động tối ưu, sau khi đã nạp số liệu nên còn khoảng 1 megabyte bộ nhớ tự do.
98
Lệnh more
1. Mô tả
Khi chúng ta gõ một câu lệnh và Stata có một câu trả lời dài quá một cửa sổ màn hình chúng ta
sẽ thấy—more-- ở cuối màn hình. Khi đó chúng ta có thể:
• Gõ phím trắng để xem câu trả lời ở màn hình kết tiếp
• Gõ l (chữ el-lờ) hay Enter để xem dòng tiếp
• Gõ q để ngưng hiện ra câu trả lời --Break--
• more—là cách của Stata để cho biết rằng nó còn tiếp tục trả lời nhưng nó cũng có ý là nói
còn có những thông tin khác để đẩy các thông tin có sẵn trên màn hình đi.
Nếu chúng ta gõ set more off thì—more—sẽ không bao giờ hiện ra và câu trả lời của Stata sẽ
trôi nhanh hết tốc độ. Nếu chúng ta gõ lại set more on thì—more—sẽ được phục hồi trở lại.
Trong do-file chúng ta thường sử dụng lệnh set more off bởi vì chúng ta không quan tâm đến sự
tương tác với kết quả và muốn Stata thực hiện càng nhanh càng tốt nhằm kết quả được đưa vào
log-file và file này sẽ được đọc sau. Trong do file nếu chúng ta muốn chương trình dừng tại một
nơi nào đó, chúng ta có thể thêm lệnh more vào chương trình. Khi chương trình gập lệnh này
nó sẽ dừng lại và đợi chúng ta đánh Enter, phím trắng hay q dù rằng cửa số kết xuất có đầy hay
chưa.
99
Thông báo lỗi và mã phản hồi
1. Lỗi
Khi có một lỗi xảy ra, Stata tạo ra một thông báo lỗi và một mã trả về. Thí du:
. list myvar
no variables defined
r(111);
Chúng ta yêu cầu Stata liệt kê giá trị của biến myvar. Stata trả lời bằng thông báo “no variables
defined” và dòng thông báo “r(111)”
“no variables defined” là thông báo lỗi (error message).
111 được gọi là mã trả về (return code).
Trong chế độ tương tác, tất cả các lỗi đều được tha thứ. Nghĩa là sau khi ra thông báo lỗi và mã
trả về, Stata xem như lỗi chưa hề xảy ra.
Trong chế độ chương trình khi có một lỗi xảy ra, do-file sẽ ra thông báo lỗi và mã trả về đồng
thời với việc ngưng thực hiện ngay lập tức.
Thí dụ, xem do-file sau đây:
------------------------------------------------- đầu của myfile.do----------------
use auto
decribe
list
------------------------------------------------- cuối của myfile.do---------------
Lưu ý dòng số hai - chúng ta muốn mô tả (describe) nhưng lại gõ sai là decribe. Sau đây là
những gì xảy ra khi chúng ta thực hiện do-file bằng cách gõ do myfile:
(1978 Automobile Data)
. do myfile
. use auto
(1978 Automobile Data)
. decribe
unrecognized command: decribe
r(199);
Decribe tạo ra thông báo lỗi và mã trả về 111. Điều này sẽ làm chấm dứt việc thực hiện do-file
và khi đó lệnh list (dù rằng đúng) vẫn không được thực hiện.
2. Bỏ qua lỗi lầm trong lập trình
Thí dụ một câu lệnh có thể là đúng trong một tập số liệu A nhưng lại là sai ở một tập số liệu B.
Và những lỗi như vậy có thể được tiên liệu từ trước: Trong trường hợp đó nếu câu lệnh không
lỗi thì chúng ta cứ tiếp tục, nếu có lỗi thì chúng ta mở tập số liệu A ra.
Như vậy người lập trình có thể yêu cầu Stata không ra thông báo lỗi bằng cách dùng lệnh
capture. Nhờ có thể đọc trực tiếp mã trả về và biết có lỗi xảy ra hay không và lỗi gì, lập trình
viên có thể có những hành động thích hợp.
3. Mã trả về để biết thời gian tính toán
Ngoài thông báo lỗi và mã trả về, Stata còn có thể có thông báo trả về (return message) cho biết
thời gian thực hiện một lệnh và thời điểm lệnh đó hoàn thành. Thông thường thì Stata không
cung cấp thông báo trả về trừ khi chúng ta yêu cầu bằng lệnh set rmsg on.
Thí dụ nếu bạn gõ sum mpg, bạn sẽ thấy
. sum mpg
100
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------------------------
mpg | 74 21.2973 5.785503 12 41
Nếu chúng ta đã gõ lệnh ở đâu đó trong chương trình
. set rmsg on
thì Stata sẽ trình bày thông báo trả về như sau:
. sum mpg
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------------------------
mpg | 74 21.2973 5.785503 12 41
r; t=0.11 7:52:45
Dòng “r; t=0.11 7:52:45” là thông báo trả về cho biết thời gian Stata thực hiện lệnh này là 0,11
giây và lệnh này hoàn thành lúc 7 giờ 52 sáng.
Nếu chúng ta không muốn xuất hiện thông báo trở về nữa, chúng ta hãy gõ:
. set rmsg off

101
Phím break
1. Làm Stata ngưng thực hiện việc đang làm
Khi chúng ta muốn Stata ngưng thực hiện việc nó đang làm và trả về dấu chấm nhắc (dot
prompt), chúng ta nhấn phím Control-Break (Thường được viết là ^Break hay Ctrl-Break). Việc
này được thực hiện bằng cách nhấn và giữ phím Ctrl và đồng thời nhấn phím Pause/Break.
Nếu bạn nhấn ^Break trong khi chúng ta đang gõ một dòng lệnh, Stata sẽ bỏ qua dòng lệnh đó
bởi vì bạn đã ở trong tình trạng kiểm soát.
Nếu bạn nhấn ^Break khi Stata đang làm điều gì đó thì Stata sẽ ngưng việc đang làm, trở về
trạng thái cũ và đưa ra một dấu chấm nhắc. Ở trạng thái cũ có nghĩa Stata hoàn trả lại tình trạng
như là bạn chưa hề ra câu lệnh. Tuy nhiên có hai trường hợp ngoại lệ:
1. Nếu bạn đang đọc số liệu từ đĩa bằng các lệnh insheet, infile, hay infix, thì khi bạn nhấn
^Break Stata sẽ ngưng công việc nhưng bạn không trở về trạng thái cũ mà các số liệu đã đọc sẽ
còn lại trong bộ nhớ. Điều này là có ích nếu bạn muốn xem xét quá trình nhập số liệu có đúng
hay không trước khi bạn nhập vào toàn bộ. Nếu không bạn có thể gõ lệnh drop _all
2. Nếu số liệu đang được sắp xếp cho biến số sex và bạn muốn sắp xếp lại cho biến số age . Giả
sử trong khi Stata đang sắp xếp cho age thì bạn đổi ý kiến và nhấn ^Break. Khi đó số liệu sẽ
không còn sắp xếp cho age và cũng không còn sắp xếp cho sex nữa: nó ở trạng thái không sắp
xếp (unsorted).
2. Điểm cần lưu ý trong lập trình
Có những trường hợp trong chương trình bạn muốn chương trình phải thực hiện toàn bộ một
nhóm lệnh mà không ngừng bởi vì nếu ngừng số liệu ở ở trạng thái bất định. Trong trường hợp
này Stata cung cấp cấu trúc:
no break {
. . .
}

102
Sử dụng bàn phím trong Stata
1. Bàn phím
Vì Stata được điều khiển theo dòng lệnh (command-driven) nên bàn phím là rất cần thiết trong
việc sử dụng ngoại trừ 2 trường hợp sau:
• Để có được những câu lệnh mà chúng ta đã nhập từ trước, chúng ta có thể nhấn các phím
PgUp và PgDn. Ngoài ra chúng ta có thể đưa con chuột đến dòng lệnh đó trong cửa sổ
hồi kiểm (review window) và nhấp để nạp câu lệnh đó vào cửa sổ dòng lệnh.
• Chúng ta có thể sử dụng các phím chức năng (F-keys) có các ý nghĩa đặc biệt và chúng
ta có thể thay đổi các định nghĩa này tuỳ theo sở thích của chúng ta.
2. Phím chức năng
Stata mặc định các phím chức năng các ý nghĩa sau:
F-keys
F1 help
F2 #review;
F3 describe;
F7 save
F8 use
Dấu chấm phẩy (;) ở sau #review và describe chỉ định rằng các phím này đã bao gồm phím
Enter
help gọi hướng dẫn của Stata - nếu chúng ta muốn có hướng dẫn về một lệnh nào đó (thí dụ như
lệnh summarize) chúng ta có thể gõ help summarize hoặc nhấn F1, rồi gõ summarize và nhấn
Enter.
#review là câu lệnh nhằm hiển thị một số câu lệnh bạn vừa sử dụng. Bạn có thể gõ vào #review
rồi Enter hoặc bạn có thể nhấn F2
describe là câu lệnh yêu cầu Stata báo cáo nội dung số liệu có trong bộ nhớ. Thông thường bạn
có thể gõ describe rồi Enter hoặc nhấn F3
save nhằm lưu lại số liệu trong bộ nhớ vào trong tập tin. Cần lưu ý cú pháp của save là sau nó
phải có tên tập tin. Chúng ta có thể gõ câu lệnh hoặc nhấn F7 rồi gõ tên tập tin.
use, ngược lại, nhằm đưa số liệu từ tập tin vào bộ nhớ. Sau use cũng phải có tên tập tin.
Bạn có thể thay đổi những định nghĩa mặc định này, thí dụ nếu bạn muốn F3 có nghĩa là
summarize bạn có thể gõ:
. global F3 "summarize"
Cần lưu ý ở trên F3 là chữ F và số 3 chứ không phải là phím F3. Lưu ý F là chữ in hoa và có
khoảng trống giữa global và F3 cũng như có khoảng trống giữa F3 và “summarize “
Sau chữ summarize nên có một dấu trắng khi cần có thể nhanh chóng gõ vào tên các biến số cần
được summarize
Nếu chúng ta muốn gán phím F5 để summarize tất cả các biến số ta có thể gõ:
. global F5 "summarize;"
Như vậy chúng ta có hai cách để tóm tắt tất cả các biến số : (1) nhấn F3 và sau đó nhấn Return
hoặc (2) nhấn F5. Dấu chấm phẩy (;)ở cuối định nghĩa của F5 sẽ thay chúng ta nhấn phím
Return.
Nếu chúng ta muốn thay đổi định nghĩa của F3 và F5 mỗi khi chúng ta khởi động Stata, chúng ta
có thể gõ hai lệnh trên mỗi khi chúng ta vào Stata. Cách khôn ngoan hơn là gõ 2 lệnh này trong
103
một tập tin văn bản, đặt tên là profile.do và đặt trong thư mục “khởi động”. Stata sẽ thực hiện
các lệnh trong profile.do mỗi khi nó được thực hiện.
3. Phím hiệu chỉnh
Người dùng Windows sẽ có quyền sử dụng những phím hiệu chỉnh tiêu chuẩn của Windows.
Cho nên Stata cho Windows sẽ hiệu chỉnh những gì bạn gõ vào một cách tư nhiên như một cửa
sổ hiệu chỉnh tiêu chuan.
Hơn nữa, bạn có thể đưa các câu lệnh từ cửa sổ Review vào cửa sổ Command. Nhấp vào một
lệnh ở cửa sổ Review sẽ nạp lệnh đó và cửa sổ Command, và bạn có thể hiện chỉnh nó. Nếu bạn
nhấp đúp vào một lệnh ở cửa sổ Review, nó sẽ nạp là thực hiện lệnh đó ngay.
Một cách khác để nạp các lệnh ở cửa sổ Review là dùng phím PgUp và PgDn. gõ PgUp và Stata
sẽ nạp lệnh cuối cùng bạn vừa gõ lên cửa sổ Cọmmand. Gõ PgUp thêm lần nữa nó sẽ nạp thêm
lệnh trước đó và tiếp tục. Gõ PgDn có tác dụng ngược lại.
Một phím hiệu chỉnh khác làm phím Esc, phím này có tác dụng xoá sạch cửa sổ Command.
Tóm lại:
Gõ Hiệu quả
PgUp Đi lùi từng lệnh và chuyển các lệnh từ cửa sổ Review sang cửa sổ Command
PgDn Đi tới từng lệnh và chuyển các lệnh từ cửa sổ Review sang cửa sổ Command
Esc Xoá cửa sổ Command
104
Khởi động Stata
1. Khởi động Stata
Khởi động chương trình STATA bằng cách nhấp vào nút Start :: All Programs :: Medistat ::
Stata 8 hoặc nhấp vào biểu tượng (icon) Stata 8 trên màn hình Desktop.
2. Mô tả giao diện của chương trình Stata
Giao diện của Stata sẽ hiện ra với 3 thanh và 4 cửa sổ:
3 thanh bao gồm:
1. Thanh tiêu đề với dòng chữ "Intercooled Stata 6.0"
2. Thanh menu với các menu File (đóng mở tập tin); Edit (hiệu chỉnh); Prefs (Tùy chọn); Data
(Số liệu) Graphics (Đồ họa) Statistics (Thống kê) User (Người dùng) Window (mở ra các cửa
sổ) và Help (Trợ giúp)
3. Thanh công cụ (toolbar)
Thanh công cụ gồm 12 nút công cụ (1- Open file; 2- Save; 3- Print Results; 4- Begin (Close)
log; 5- Start Viewer (Bring Viewer to Front) ; 6- Bring results window to Front 7-Bring
graph windows to Front; 8- Do-file Editor; 9-Data Editor; 10-Data Browser; 11-Clear -
more - Condition và 12- Break)
Ý nghĩa của từng công cụ như sau:

1- Open file (mở tập tin)
2- Save (Lưu tập tin)
3- Print Results (In kết quả)
4- Begin (Close) log: (Bắt đầu (Kết thúc) ghi biên bản kết quả)
5- Start Viewer (Bring Viewer to Front) : Bắt đầu sử dụng cửa sổ Viewer
6- Bring results window to Front : (Đưa cửa sổ kết quả ra trước)
7-Bring graph windows to Front (Đưa cửa sổ đồ họa ra trước)
8- Do-file Editor: (Biên soạn tập tin chương trình - do file)
9-Data Editor: Biên tập số liệu (sửa chữa, thêm bớt số liệu)
10-Data Browser: Duyệt số liệu (xem nhưng không sửa chữa)
11-Clear - more - Condition (Xóa lệnh more để tiếp tục thực hiện chương trình)
12- Break: (Ngưng tập tin chương trình)
Bốn cửa sổ liệt kê theo ngược chiều kim đồng hồ bao gồm
105
1. Cửa sổ Command (cửa sổ lệnh)
2. Cửa sổ Result (cửa sổ Kết quả)
3. Cửa sổ Review (cửa sổ Lưu trữ)
4. Cửa sổ Variables (cửa số Biến số)
3. Cách cách để thực hiện lệnh trong chương trình Stata
Có hai cách để thực hiện lệnh trong chương trình Stata: Dùng bàn phím để gõ lệnh vào cửa sổ
lệnh (Stata Command) hay sử dụng con trỏ chuột để chọn các trình đơn (menu) giao diện đồ họa
(Graphic Interface)
Dùng bàn phím để gõ lệnh
Dùng bàn phím để gõ lệnh vào cửa sổ lệnh (Stata Command). Đây là cách sử dụng Stata
của người chuyên nghiệp vì nó cho phép thực hiện tất cả các lệnh của Stata một cách
nhanh chóng với đầy đủ các chức năng phụ của lệnh. Tuy nhiên phương pháp này có
thể không thích hợp cho người mới sử dụng do nó đòi hỏi người dùng phải thuộc các câu
lệnh và cú pháp của nó
Con trỏ chuột với giao diện đồ họa (Graphic Interface)
Có thể dùng chuột thực hiện các lệnh nhằm thao tác số liệu (menu Data), vẽ đồ thị (menu
Graphics) và phân tích số liệu (menu Statistics). Phương pháp sử dụng chuột và menu là
phương pháp dễ sử dụng nên sẽ được ưu tiên trình bày trong tài liệu này.
4. Lưu lại kết quả phân tích
Kết quả của phân tích được thể hiện trên cửa sổ Stata Result và cửa sổ này có một thanh trượt
dọc cho phép xem lại những kết quả phân tích cũ. Tuy nhiên để tránh gây nhầm lẫn cho người
phân tích, cửa sổ này chỉ lưu lại những kết quả gần nhất. Do đó nếu chúng ta muốn lưu trữ lại
toàn bộ kết quả phân tích chúng ta cần phải mở cửa sổ log bằng cách nhấp vào nút công cụ Stata
Log nằm vị trí thứ tư từ trái ở trên thanh công cụ . Khi đó cửa sổ Open Stata Log mở ra,
chúng ta có thể nhập tên của tập tin lưu trữ (log file) vào hộp văn bản File name.
106
Giả sử chúng ta chọn tập tin này là "baitap.smcl" hãy gõ "baitap" vào hộp File Name rồi nhấp
OK.
Khi đó trên cửa số kết quả (Stata results) sẽ hiện ra thông báo để cho biết rằng biên bản kết quả
phân tích sẽ được lưu tại tập tin "D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl"
. log using "D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl"
------------------------------------------------------------------------------
log: D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl
log type: smcl
opened on: 10 Oct 2004, 12:01:34
Sau đó bạn có thể thực hiện các bước phân tích.
Khi muốn xem lại biên bản (kết quả phân tích) hãy nhấp vào nút công cụ log một lần nữa
để hiện ra cửa sổ Stata Log Options.

Sau đó chọn vào nút chọn View snapshot of log file và nhấp vào nút lệnh OK để xem biên bản.
Khi muốn chấm dứt việc ghi biên bản (kết quả phân tích) hãy nhấp vào nút công cụ log
để hiện ra cửa sổ Stata Log Options.
107

Sau đó chọn vào nút chọn Close log file và nhấp vào nút OK.
Lời khuyên: Người sử dụng Stata có kinh nghiệm sau khi mở tập tin số liệu luôn luôn mở tập tin
log trước khi tiến hành các phân tích thống kê để không bỏ mất các kết quả của quá trình phân
tích.
108
Mô tả số liệu với Stata 8.0 for Windows
Chương này sẽ hướng dẫn bạn phương pháp mô tả số liệu với phần mềm Stata 8.0 sử dụng bộ số
liệu ivf.dta có trong thư mục C:\DATA sau khi bạn cài đặt các tập tin số liệu mẫu.
Thông thường trước khi mô tả số liệu chúng ta cần thực hiện bước chuẩn bị và việc thao tác số
liệu (data processing). Công tác chuẩn bị bao gồm việc mở tập tin số liệu, mở tập tin log (Open
log file), khảo sát số liệu có bao nhiêu bản ghi và có những biến số nào cũng như nghiên cứu đề
cương nghiên cứu (chủ yếu là mục tiêu nghiên cứu) để giúp việc phân loại biến số. Việc thao tác
số liệu là việc rà soát số liệu có bị sai sót hay nhầm lẫn gì hay không, tạo biến số mới theo yêu
cầu của phân tích và tiến hành việc dán nhãn số liệu để giúp cho việc hiểu rõ hơn số liệu và đọc
kết quả của phân tích thống kê.
Trước tiên chúng ta hãy khởi động Stata theo cách đã hướng dẫn ở chương Khởi động Stata.
Sau đó thực hiện các bài tập 1 đến 3 cho công tác chuẩn bị và các bài tập 4 đến 6 cho công tác
thao tác số liệu.
1- Mở tập tin ivf_v.dta và mở tập tin log
Khởi động cửa sổ Use New Data bằng cách 1 trong 2 cách:
- Nhấn nút công cụ mở file ( vị trí đầu tiên trên thanh công cụ).
- Chọn menu File :: Open
Sau khi cửa sổ Use New Data sẽ hiện ra. Nhấp vào mũi tên bên phải hộp Look in để chọn ổ đĩa
thích hợp và dùng con chuột nhấp vào các thư mục để chọn thư mục có chứa số liệu (thông
thường tập tin số liệu nằm ở thư mục C:\Data). Tìm tập tin số liệu ivf_v.dta, nhấp đúp vào tên
tập tin này để mở tập tin (hoặc nhấp vào tập tin này để tên tập tin rơi vào hộp File Name rồi sau
đó nhấp vào nút lệnh Open để mở tập tin).
Để lưu trữ lại toàn bộ kết quả phân tích sẽ được thực hiện, cần nhớ nhấp vào nút công cụ Stata
109
Log nằm vị trí thứ tư từ trái ở trên thanh công cụ để bắt đầu log kết quả (begin log). Máy
tính sẽ hiện ra hộp thoại Begin Logging Stata Output để chúng ta chọn tên tập tin (File name)
và thư mục lưu (Save In) của tập tin log.
Thí dụ chúng ta muốn lưu tập tin log với tên là ivf_v.smcl vào thư mục c:\data; chúng ta nhập
vào các thông tin như trên.
2. Khảo sát các biến số của tập tin và nghiên cứu mục tiêu nghiên cứu để phân loại biến số
Hướng dẫn: Để xem liệt kê các biến số chúng ta có thể nhấn phím chức năng F3 hay sử dụng
menu (nhấp vào menu Data :: Describe data :: Describe variable in memory) để xem các biến
số của số liệu
Chúng ta có thể xem danh sách các biến số liệt kê ở sau:
110
. describe
Contains data from C:\DATA\ivf_v.dta
obs: 641
vars: 7 15 Aug 2006 15:27
size: 20,512 (99.8% of memory free)
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
maso float %9.0g ma so
tuoime float %9.0g tuoi me (nam)
tangha float %9.0g tang huyet ap thai ki - 1=tang
ha, 0=khong tang ha
tuoithai float %9.0g tuoi thai (tuan)
gioi float %9.0g gioi tinh tre - 1=trai, 0=gai
tlsosinh float %9.0g trong luong so sinh (gram)
nghenghiep float %9.0g nghe nghiep me - 1=tu do,
2=cong nhan, 3=vien chuc
-------------------------------------------------------------------------------
Sorted by: maso
Giả sử từ đề cương nghiên cứu chúng ta biết đây là tập tin của số liệu 641 đứa trẻ được sinh từ
bà mẹ thụ thai trong ống nghiệm (in-vitro fertilisation) với mục tiêu nghiên cứu là xem tuổi thai
và tăng huyết áp trong thai kì có ảnh hưởng lên trọng lượng thai hay không. Cách lí giải số liệu
được minh họa
STT Tên biến Ý nghĩa của biến Phân loại biến số:
(Độc lập hay Phụ thuộc) –
(Định tính hay định lượng)
1 Maso Mã số
2 Tuoime Tuổi của mẹ (năm tuổi)
3 Tangha Tăng huyết áp thai kì 1= có
0= không
4 Tuoithai Tuổi thai (tính theo tuần)
5 Gioi Giới tính của trẻ 1=trai 0=gái
6 Tlsosinh Trọng lượng sinh tính theo
grams
7 Nghenghiep Nghề nghiệp của mẹ 1=tự do
2=công nhân 3=viên chức
3. Làm thế nào để xem số liệu
Hướng dẫn: Có thể xem số liệu bằng 2 cách:
- Dùng nút lệnh Data Browser (vị trí 11 tính từ bên trái của thanh công cụ)
- Dùng menu Data :: Data browser (read-only editor)
111
Sử dụng Data Browser cho phép nhìn số liệu trong lưới (như các ô của chương trình Excel)
nhưng nó không cho phép in số liệu. Muốn nhìn số liệu ra của sổ kết xuất (output) để sau đó in
ra hãy sử dụng menu Data:: Describe Data :: List data.
4. Hãy thực hiện thống kê mô tả tất cả các biến số trong bộ số liệu này:
Hướng dẫn: trước tiên chúng ta phải xác định biến số nào là biến số định lượng và biến số nào là
biến số định tính. Sau đó thực hiện thống kê mô tả cho các biến số: đối với biến định lượng, thực
hiện lệnh summarize để để có trung bình và độ lệch chuẩn, đối với biến định tính thực hiện lệnh
tab1 để có bảng phân phối tần suất của các biến số.
Trong bộ số liệu này có các biến tuoime, tuoithai, tlsosinh là biến định lượng. Để mô tả
biến số này chúng ta sử dụng menu Statistics :: Summaries, tables, & tests :: Summary
Statistics.
Sau khi hộp thoại Summarize hiện ra, thực hiện các bước sau:
Bước 1: Đặt con trỏ vào hộp văn bản Variables
Bước 2: Di chuyển con trỏ vào cửa sổ Variables, và nhấp vào các biến cần mô tả thống kê
(tuoime, tuoithai, tlsosinh) để tên các biến này xuất hiện trên hộp văn bản Variables
Bước 3: Nhấp vào nút lệnh OK
112
Kết quả được trình bày nhưu sau:
. summarize tuoime tuoithai tlsosinh
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
tuoime | 641 33.97192 3.87046 23 43
tuoithai | 641 38.68725 2.329931 24.69 42.35
tlsosinh | 641 3129.137 652.7827 630 4650
Các biến số định tính bao gồm tang_ha (tăng huyết áp), gioi (giới tính của trẻ), nghenghiep
(nghề nghiệp của mẹ). Để tóm tắt các biến số định tính này (tang_ha, gioi, nghenghiep) chúng ta
sử dụng menu Statistics :: Summaries, tables & test :: Tables :: Multiple one-way tables.
113
Các bước thực hiện gồm:
- Bước 1: đưa con trỏ vào hộp văn bản categorical variable(s)
- Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào các biến tang_ha, gioi, nghenghiep để
đưa các tên biến này vào hộp văn bản Categorical variables(s)
- Bước 3: nhấp nút lệnh OK để hoàn tất
. tab1 tang_ha gioi nghenghiep
-> tabulation of tang_ha
tang huyet |
ap thai ki |
- 1=tang |
ha, 0=khong |
tang ha | Freq. Percent Cum.
------------+-----------------------------------
0 | 552 86.12 86.12
1 | 89 13.88 100.00
------------+-----------------------------------
Total | 641 100.00
-> tabulation of gioi
gioi tinh |
tre - |
1=trai, |
0=gai | Freq. Percent Cum.
------------+-----------------------------------
0 | 315 49.14 49.14
1 | 326 50.86 100.00
------------+-----------------------------------
Total | 641 100.00
-> tabulation of nghenghiep
114
nghe nghiep |
me - 1=tu |
do, 2=cong |
nhan, |
3=vien chuc | Freq. Percent Cum.
------------+-----------------------------------
1 | 104 16.22 16.22
2 | 238 37.13 53.35
3 | 299 46.65 100.00
------------+-----------------------------------
Total | 641 100.00
5. Các tóm tắt số liệu như trên là đạt yêu cầu. Tuy nhiên việc mã hoá các giá trị của biến số
khiến cho việc đọc bảng bảng tần suất của biến số danh định (như gioi và nghenghiep) bị khó
khăn (nhất là cho những người không trực tiếp làm thống kê hay phải đọc lại kết quả sau một
khoảng thời gian dài). Do đó những người làm thống kê chuyên nghiệp luôn luôn thực hiện ghi
chú (dán nhãn) cho các biến số định tính. Hãy thực hiện việc dán nhãn số liệu.
Hướng dẫn:
Việc dán nhãn cho các giá trị mã hóa là việc làm tốn công nhưng nó giúp phân biệt người làm
thống kê chuyên nghiệp và người làm thống kê không chuyên nghiệp. Mặc dù tốn công nhưng
lợi ích do nó đem lại vượt qua công sức bỏ ra vì vậy chúng ta cần phải thực hiện việc dán nhãn
này.
Việc dán nhãn giá trị biến số được thực hiện qua 2 bước: tạo nhãn (define label value) và dán
nhãn cho giá trị (Assign value label to variable).
- Tạo nhãn sex, tang_ha, nhãn nghenghiep
Để tạo nhãn sử dụng menu Data :: Labels & Notes :: Define value label. Cửa sổ Define value
label sẽ được hiện ra.
Giả sử chúng ta muốn tạo nhãn sex theo quy tắc 1 =nam và 2=nữ, các bước cụ thể như sau:
-Bước 1: nhấp vào nút lệnh Define để hiện ra hộp nhập liệu Define new lable
115
- Bước 2: gõ sex vào hộp văn bản Label name
- Bước 3: nhấp vào nút lệnh OK khi đó hộp nhập liệu Add value sẽ hiện ra
- Bước 4: Nhập 1 vào hộp văn bản value
- Bước 5: nhập nam vào hộp văn bản Text
- Bước 6: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add Value
biến mất
- Bước 7: Nhấp vào nhãn sex trong hộp văn bản Defien label names
- Bước 8: Nhấp vào nút lệnh Add để hộp nhập liệu Add value sẽ hiện ra
- Bước 9: Nhập 0 vào hộp văn bản value
- Bước 10: nhập nữ vào hộp văn bản Text
- Bước 11: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add
Value biến mất
Sau đó có thể nhấp vào nút lệnh Close (của hộp thoại Define value labels) để thoát ra hay nhấp
vào nút lệnh Define (của hộp thoại Define value labels) để tiếp tục tạo nhãn tang_ha.
Các bước cụ thể để tạo nhãn tang_ha gồm:
-Bước 1: nhấp vào nút lệnh Define để hiện ra hộp nhập liệu Define new lable
- Bước 2: gõ tang_ha vào hộp văn bản Label name
- Bước 3: nhấp vào nút lệnh OK khi đó hộp nhập liệu Add value sẽ hiện ra
116
Cần lưu ý: tên nhãn có thể khác với tên biến (thí du như trường hợp trên ta đặt tên nhãn là sex
trong khi tên biến là giới) hoặc tên nhãn có thể trùng với tên biến (thí dụ ta có thể đặt tên nhãn là
tang_ha cho biến tăng ha).
- Bước 4: Nhập 1 vào hộp văn bản value
- Bước 5: nhập huyet ap tang vào hộp văn bản Text
- Bước 6: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add Value
biến mất
- Bước 7: Nhấp vào nhãn tang_ha trong hộp văn bản Define label names
- Bước 8: Nhấp vào nút lệnh Add để hộp nhập liệu Add value sẽ hiện ra
117
- Bước 9: Nhập 0 vào hộp văn bản value
- Bước 10: nhập huyet ap bt vào hộp văn bản Text
- Bước 11: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add
Value biến mất
Để tiếp tục tạo nhãn nghenghiep ta nhấp vào nút lệnh Define (của hộp thoại Define value
labels).
-Bước 1: nhấp vào nút lệnh Define để hiện ra hộp nhập liệu Define new lable
- Bước 2: gõ nghenghiep vào hộp văn bản Label name
- Bước 3: nhấp vào nút lệnh OK khi đó hộp nhập liệu Add value sẽ hiện ra
- Bước 4: Nhập 1 vào hộp văn bản value
118
- Bước 5: nhập tu do vào hộp văn bản Text
- Bước 6: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add Value
biến mất
- Bước 7: Nhấp vào nhãn nghenghiep trong hộp văn bản Define label names
- Bước 8: Nhấp vào nút lệnh Add để hộp nhập liệu Add value sẽ hiện ra
- Bước 9: Nhập 2 vào hộp văn bản value
- Bước 10: nhập cong nhan vào hộp văn bản Text
- Bước 11: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add
Value biến mất
119
- Bước 12: Ở hộp Define label names vẫn tiếp tục chọn nhãn nghenghiep, nhấp vào nút lệnh
Add để hộp nhập liệu Add value sẽ hiện ra
- Bước 13: Nhập 3 vào hộp văn bản value
- Bước 14: nhập vien chuc vào hộp văn bản Text
- Bước 15: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add
Value biến mất. Ta có kết quả như sau:
- Bước 16: Để hoàn tất việc tạo nhãn ta nhấn vào nút lệnh Close
Dán nhãn giá trị (Assign value label) cho các biến gioi, tang_ha, và nghenghiep
Sau khi dã tạo được nhãn, chúng ta hãy dán nhãn giá trị cho biến số bằng cách dùng menu
Data :: Labels & Notes :: Assign value label to variable
120
Khi hộp thoại labels value – Attach value label hiện ra để dán nhãn cho mỗi biến số cần thực
hiện 4 bước sau:
- Bước 1: Đặt con trỏ vào hộp văn bản Variable
- Bước 2: Đưa con trỏ vào cửa sổ Variable và nhấp vào biến gioi để tên biến này xuất hiện trên
121
hộp văn bản Variable.
- Bước 3: Đưa con trỏ vào nhãn sex trong hộp văn bản Attach value label để dán nhãn sex vào
tên biến sex
- Bước 4: Nhấp vào nút lệnh Submit để thực hiện việc dán nhãn.
Để tiếp tục thực hiện tương tự để dán nhãn tang_ha cho biến tang_ha, hãy tiến hành các bước
sau:
- Bước 5: Đặt con trỏ vào hộp văn bản Variable
- Bước 6: Đưa con trỏ vào cửa sổ Variable và nhấp vào biến gioi để tên biến này xuất hiện trên
hộp văn bản Variable.
- Bước 7: Đưa con trỏ vào nhãn sex trong hộp văn bản Attach value label để dán nhãn sex vào
tên biến sex
- Bước 8: Nhấp vào nút lệnh Submit để thực hiện việc dán nhãn.
Để tiếp tục thực hiện tương tự để dán nhãn nghenghiep cho biến nghenghiep, hãy tiến hành các
bước sau:
122
- Bước 9: Đặt con trỏ vào hộp văn bản Variable
- Bước 10: Đưa con trỏ vào cửa sổ Variable và nhấp vào biến gioi để tên biến này xuất hiện trên
hộp văn bản Variable.
- Bước 11: Đưa con trỏ vào nhãn sex trong hộp văn bản Attach value label để dán nhãn sex vào
tên biến sex
- Bước 12: Nhấp vào nút lệnh OK để thực hiện việc dán nhãn. Cần lưu ý, trong những lần dán
nhãn trước chúng ta nhấp vào nút lệnh submit để hoàn thành việc dán nhãn nhưng không đóng
cửa sổ label values. Sau khi dán nhãn nghenghiep cho biến nghenghiep, chúng ta không cần dán
nhãn tiếp tục nên chúng ta nhấp vào nút lệnh OK để đóng cửa sổ label values sau khi hoàn thành
việc dán nhãn.
6. Lập bảng phân phối tần suất cho các biến số định tính sau khi đã dán nhãn cho các biến này.
Hướng dẫn:
Các biến số định tính đã được dán nhãn bao gồm tang_ha sex matagegp gestcat. Để tóm tắt các
biến số định tính này (tang_ha sex matagegp gestcat) chúng ta sử dụng menu Statistics ::
Summaries, tables & test :: Tables :: Multiple one-way tables.
123
Khi hộp thoại tab1 – One-way tables hiện ra, chúng ta tiến hành 3 bước (1) đặt con trỏ vào hộp
Categorical value (2) Nhấp vào cửa sổ variable để chọn các biến số tiến hành phân tích và (3)
Nhấp vào nút lệnh OK. Kết quả sẽ xuất hiện như sau:
. tab1 gioi tang_ha nghenghiep
-> tabulation of gioi
gioi tinh |
tre - |
1=trai, |
0=gai | Freq. Percent Cum.
------------+-----------------------------------
gai | 315 49.14 49.14
trai | 326 50.86 100.00
------------+-----------------------------------
Total | 641 100.00
-> tabulation of tang_ha
tang huyet ap |
thai ki - |
1=tang ha, |
0=khong tang |
ha | Freq. Percent Cum.
--------------+-----------------------------------
huyet ap bt | 552 86.12 86.12
huyet ap tang | 89 13.88 100.00
--------------+-----------------------------------
124
Total | 641 100.00
-> tabulation of nghenghiep
nghe nghiep |
me - 1=tu |
do, 2=cong |
nhan, |
3=vien chuc | Freq. Percent Cum.
------------+-----------------------------------
tu do | 104 16.22 16.22
cong nhan | 238 37.13 53.35
vien chuc | 299 46.65 100.00
------------+-----------------------------------
Total | 641 100.00
7. Vẽ tổ chức đồ (histogram) của biến trọng lượng sơ sinh (tlsosinh)
Hướng dẫn:
Để vẽ tổ chức đồ, ta phải sử dụng menu Graphics :: Histogram
Khi hộp thoại histogram hiện ra, chúng ta thực hiện các bước sau:
125
Bước 1: đặt con trỏ vào hộp văn bản Variable
Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn
bản Variable.
Bước 3 – Bước 4: nhằm để xác định tổ chức đồ sẽ bắt đầu từ giá trị 600 (Lower limit of first bin)
và mỗi khoảng tiếp theo (bin) có độ rộng là 300 (Width of bins)
Bước 5: Cho biết tổ chức đồ sẽ ghi nhận tỉ lệ của các khoảng giá trị bằng cách nhấp vào nút
chọn Fraction.
Nếu muốn thể hiện mật độ của phân phối, nhấp vào nút chọn Density, nếu muốn thể hiện
tần suất thì nhấp vào nút chọn Frequency. Mối liên hệ giữa các hàm phân phối này như
sau:
Tỉ lệ (Fraction) = Tần suất (Frequency) / Cỡ mẫu (N)
Mật độ (Density) = Tỉ lệ (Fraction) / Độ rộng của khoảng chia (Width of bins)
Kết quả tiếp theo sẽ được trình bày trong hình sau.
126
0
.
0
5
.
1
.
1
5
.
2
.
2
5
F
r
a
c
t
i
o
n
1000 2000 3000 4000 5000
trong luong so si nh (gram)
8. Đồ thị này cho chúng ta thấy hình dạng của phân phối số liệu, tuy nhiên chúng ta cũng có thể
thay đổi thưc hiện việc chia khoảng cho trục hoành, ghi chú cho trục hoành, chia khoảng cho
trục tung và ghi chú cho trục tung. Giả sử chúng ta muốn thực hiện các yêu cầu chia khoảng và
ghi chú như sau:
• Trục hoành phải có khoảng giá trị từ 600 đến 4800 (biên độ là 4200). Chúng ta muốn chia
làm mỗi khoảng có độ lớn là 300 như vậy cần thiết phải có 14 khoảng. Chúng ta cũng muốn
ghi giá trị từ 600 đến 4200 và mỗi nhãn giá trị cách nhau 600 gram.
• Trục hoành được ghi chú là "trong luong so sinh (gram) cua 641 tre"
• Trục tung có khoảng giá trị là 0 đến 0.3, ghi nhãn cho các giá trị và các nhãn này cách nhau
0.1
• Trục tung được ghi chú là "tỉ lệ" (chứ không phải là fraction).
127
Các bước để thực hiện chia khoảng và ghi chú cho trục hoàng (trục X) như sau:
Bước 1: Nhấp vào Tab X-axis
Bước 2: Để nhập ghi chú cho trục hoành, Ở hộp văn bản Title, nhập vào ghi chú là "trong
luong so sinh (gram) cua 641 tre"
Bước 3: Để chia khoảng cho trục hoành, ở hộp văn bản Rule, nhập vào 600(600)4800.
Nguyên tắc của quy tắc này là: Số đầu thang đo (Độ rộng khoảng chia) Số cuối thang đo.
Các bước để thực hiện chia khoảng và ghi chú cho trục hoàng (trục Y) như sau:
Bước 4: Nhấp vào Tab Y-axis
Bước 5: Để nhập ghi chú cho trục tung, Ở hộp văn bản Title, nhập vào ghi chú là "Ti le"
Bước 6: Để chia khoảng cho trục hoành, ở hộp văn bản Rule, nhập vào 0(0.1)0.3. Nguyên
tắc của quy tắc này là: Số đầu thang đo (Độ rộng khoảng chia) Số cuối thang đo.
Bước 7: Nhấp vào nút lệnh OK ở cuối cửa sổ để hoàn tất
128
0
.
1
.
2
.
3
T
æ

l
e
ä
600 1200 1800 2400 3000 3600 4200 4800
Troïng löôïng sô sinh (gram) cuûa 641 treû
9. Chúng ta cũng có thể vẽ đồ thị xuất (p-p plot) để xem biến số tlsosinh có tuân theo phân phối
bình thường
Hướng dẫn:
Sử dụng menu Graph – Distributional graph - normal quantile plot
Khi cửa sổ qnorm hiện ra, chúng ta tiến hành các bước sau:
Bước 1: đặt con trỏ vào hộp văn bản Variable
Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn
129
bản Variable.
Bước 3: Đánh dấu vào hộp kiểm: Show grid at percentiles:
Bước 4: Nhấp vào nút lệnh OK
Kết quả như sau:
Nếu phân phối bình thường thì đường cong phân phối (đường nét đậm) sẽ trùng với đường chéo
130
của hình chữ nhật (đường thẳng mảnh). Nếu phân phối lệch âm thì ở xác suất 0,5 đường cong
phân phối nằm ở bên trái đường chéo. Nếu phân phối lệch dương thì ở xác suất 0,5 đường cong
phân phối sẽ nằm ở bên phải đường chéo.
Nếu độ dốc của đường cong phân phối lớn hơn một (1) có nghĩa là phân phối thực nghiệm tăng
chậm hơn phân phối bình thường, nếu đường cong phân phối nhỏ hơn một (1) có nghĩa là đường
cong thực nghiệm tăng nhanh hơn phân phối bình thường.
Như vậy, phân phối của trọng sơ sinh bị lệch trái và ở khoảng trọng lượng thấp, phân phối trọng
lượng sơ sinh tăng chậm hơn phân phối chuẩn. Ở khoảng trọng lượng cao trọng lương sơ sinh
tăng hơi nhanh hơn phân phối chuẩn.
0
.
0
5
.
1
.
1
5
F
r
a
c
t
i
o
n
1000 2000 3000 4000 5000
trong luong so sinh (gram)
10. Hãy vẽ biểu đồ hình thanh (bar chart) của nhóm nghề nghiệp
Hướng dẫn:
Trước tiên sử dụng menu Graphics :: Easy graphs :: Bar chart
Để hiện ra cửa sổ graph bar – Chúng ta hãy để ý 2 thẻ Main và thẻ Over là 2 thẻ nằm bên trái
của cửa sổ.
131
Ở thẻ Main tiến hành các bước sau:
Bước 1: Chọn mục count nonmissing trong hộp Combo Statistic
Bước 2: Đặt con trỏ vào hộp văn bản variable(s)
Bước 3: Đưa con trỏ chuột vào cửa sổ variable và nhấp vào biến maso để biến này xuất hiện trên
hộp văn bản Variable(s)
Bước 4: Nhấp vào thẻ (tab) Over để hiện thẻ này ra
132
Bước 5: Khi đã ở thẻ Over, đưa con trỏ chuột vào hộp văn bản Variable
Bước 6: Đưa con trỏ chuột vào cửa sổ Variables và nhấp vào tên biến nghenghiep để tên biến
này xuất hiện trên hộp văn bản Variable.
Bước 7: Nhấp vào nút lệnh OK để xem biểu đồ hình thanh được tạo ra.
133
11. Hãy vẽ biểu đồ hình thanh (bar chart) trung bình trọng lượng sơ sinh của các đứa trẻ con của
những bà mẹ có nghề nghiệp khác nhau.
Hướng dẫn:
Trước tiên sử dụng menu Graphics :: Easy graphs :: Bar chart
Để hiện ra cửa sổ graph bar – Chúng ta hãy để ý 2 thẻ Main và thẻ Over là 2 thẻ nằm bên trái
của cửa sổ.
Ở thẻ Main tiến hành các bước sau:
Bước 1: Chọn mục mean trong hộp Combo Statistic
Bước 2: Đặt con trỏ vào hộp văn bản variable(s)
134
Bước 3: Đưa con trỏ chuột vào cửa sổ variable và nhấp vào biến tlsosinh (trọng lượng sơ sinh)
để biến này xuất hiện trên hộp văn bản Variable(s)
Bước 4: Nhấp vào thẻ (tab) Over để hiện thẻ này ra
Bước 5: Khi đã ở thẻ Over, đưa con trỏ chuột vào hộp văn bản Variable
Bước 6: Đưa con trỏ chuột vào cửa sổ Variables và nhấp vào tên biến nghenghiep để tên biến
này xuất hiện trên hộp văn bản Variable.
Bước 7: Nhấp vào nút lệnh OK để xem biểu đồ hình thanh được tạo ra.
135
12. Hãy vẽ biểu đồ hình bánh (Pie chart) phân phối biến số nghề nghiệp mẹ (nghenghiep).
Hướng dẫn:
Trước tiên sử dụng menu Graphics :: Pie Chart
Để thực hiện biểu đồ hình bánh, chúng ta tiếp tục các bước sau:
Bước 1: Đánh dấu kiểm (v) vào hộp kiểm (check box) Slices are distinct values of variable
Bước 2: Đặt con trỏ vào hộp văn bản Slices are distinct values of variable ở dưới hộp kiểm
Bước 3: Đưa con trỏ chuột vào cửa sổ variable và nhấp vào biến nghenghiep (nghề nghiệp mẹ)
để biến này xuất hiện trên hộp văn bản Slices are distinct values of variable.
Bước 4: Nhấp vào nút lệnh OK
Chúng ta sẽ có được biểu đồ hình bánh như sau:
136
13. Hãy tạo biến mới nhomtuoi, biến này có giá trị
0 tương ứng với tuổi của mẹ từ thấp nhất đến 29
1 tưong ứng với tuổi mẹ từ 30 đến 34
2 tưong ứng với tuổi mẹ từ 35 đến 39
3 tưong ứng với tuổi mẹ từ 40 trở lên
Điều này có nghĩa là chúng ta chia tuổi mẹ làm 4 nhóm với 3 điểm chia là 30, 35 và 40. Điều
này có thể thực hiện bằng cách tạo biến mới với hàm irecode.
Cách thực hiện việc tạo biến mới được thực hiện với menu Create or Change variables :: Create
new variable
Sau khi cửa sổ generate - Generate a new variable thực hiện việc tạo biến mới với các bước sau:
30
29-30 34-35 39-40
0 1 2 3
137
Bước 1: Nhập tên biến mới (nhomtuoi) vào hộp văn bản Generate variable
Bướic 2: Nhập công thức tạo biến mới irecode(tuoime,29,34,39)
Bước 3: Nhấp vào nút lệnh OK để hoàn tất
Sau khi tạo ra biến mới nhomtuoi, chúng ta nên thực hiện thêm 2 bước: tạo nhãn (define label
value) và dán nhãn giá trị cho biến số (Assign value label to variable) như được trình bày ở bưới
5. (0 là dưới 30; 1 là 30 den 34; 2 là 35-39; 3 là 40+)
14. Hãy tạo biến mới sinh non, biến này có giá trị
1 tương ứng với tuổi thai <37
0 tưong ứng với tuổi thai >=37 tuần
Yêu cầu có nghĩa là chúng ta cần tạo ra một biến nhị giá với 2 giá trị 0 và 1.. Điều này có thể
thực hiện bằng cách tạo biến mới và sử dụng biểu thức boolean (biểu thức thể hiện một mệnh đề
có giá trị là đúng hay sai)
Việc thực hiện cụ thể bao gồm việc tạo biến mới được thực hiện với menu Create or Change
variables :: Create new variable
138
Sau khi cửa sổ generate - Generate a new variable thực hiện việc tạo biến mới với các bước sau:
Bước 1: Nhập tên biến mới (sinhnon) vào hộp văn bản Generate variable
Bướic 2: Nhập công thức tạo biến mới tuoithai<37
Bước 3: Nhấp vào nút lệnh OK để hoàn tất
Sau khi tạo ra biến mới sinhnon, chúng ta nên thực hiện thêm 2 bước: tạo nhãn (define label
value) và dán nhãn giá trị cho biến số (Assign value label to variable) như được trình bày ở bưới
5. (1 là sinh non, 0 là không sinh non)
15. Lưu lại số liệu
Hướng dẫn: Để lưu số liệu chúng ta có thể sử dụng menu File :: Save (hay Ctrl-S) hoặc nhấn
vào nút save file (vị trí thứ hai của thanh công cụ). Một hộp thoại sẽ bật lên và hỏi chúng
ta có muốn chép chồng vào tập tin số liệu hay không. Nếu đồng ý chúng ta hãy nhấp vào nút
OK để đồng ý.

Nếu chúng ta không muốn thay đổi tập tin số liệu cũ, chúng ta nên nhấp vào nút Cancel và lưu
số liệu với tên mới sử dụng menu File :: Save As. khi đó hộp thoại "Save Stata Data File" sẽ
hiện ra. Gõ tên mới vào hộp File Name (thí dụ nếu chúng ta muốn đặt tên tập tin là ivf_v2.dta thì
chúng ta gõ vào hộp văn bản File name: ivf_v2.dta)
139
nhấp nút lệnh Save để hoàn tất.
16. Hãy thoát khỏi chương trình Stata
Hướng dẫn:
Để thoát khỏi Stata/SE 8.0 for Windows chúng ta có thể thực hiện một trong 2 việc sau:
- Nhấp vào ô đóng nằm ở phía trên phải của cửa sổ Stata
Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng
chưa được lưu vào đĩa thì khi chúng nhấp vào ô đóng, máy tính sẽ hỏi chúng ta rằng
chúng ta có muốn thoát mà không lưu lại số liệu hay không.
Nếu chúng ta đồng ý bằng cách nhấp vào nút lệnh Yes thì Stata sẽ thoát, nếu không (nhấp
nút lệnh No) thì chúng ta lại trở lại Stata để chúng ta có thể lưu lại số liệu.
- Gõ lệnh exit trong cửa sổ Stata Command.
Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng
chưa được lưu vào đĩa thì khi chúng gõ exit, máy tính sẽ không đồng ý cho chúng ta
thoát và sẽ thông báo “no; data in memory would be lost”. Trong trường hợp này nếu
chúng muốn thoát mà không lưu lại số liệu thì chúng ta hãy gõ exit, clear. Nếu chúng ta
muốn lưu lại số liệu hãy sử dụng lệnh save.
17. Nếu chúng ta muốn xem lại các kết quả phân tích đã được thực hiện chúng ta có thể xem lại
tập tin log.
Cách xem lại tập tin log gồm các bước sau:
140
Bước 1: Vào menu File:: Log :: View
Bước 2: Khi hiện ra hộp thoại Choose file to View, nhấp vào nút lệnh Browse, khi đó cửa sổ
Choose file Name sẽ hiện ra
Bước 3: Trên cửa sổ Choose file Name, chọn thưmục chứa tập tin log trong hộp thoại Log gin
Bước 4: Chọn tập tin log cần xem lại (thí dụ tập tin pt_ivf.smcl
Bước 5: Nhấp vào nút lệnh Open để đóng cửa sổ Choose file Name và trở về hộp thoại Choose
file to view
Bước 6: Nhấp vào nút lệnh OK để xem tập tin log
141
142
Thống kê phân tích biến số định lượng với Stata
Sơ lược lí thuyết về so sánh 2 trung bình
Kiểm định t dùng để so sánh 2 trung bình của của biến số định lương có phân phối bình thường.
Kiểm định t gồm có (a) Kiểm định t bắt cặp để so sánh trung bình trước và sau khi can thiệp trên
một nhóm và (b) kiểm định t không bắt cặp để so sánh trung bình của 2 nhóm độc lập.
Có hai loại kiểm định t không bắt cặp (khi so sánh trung bình của 2 nhóm độc lập). Kiểm định t
có giả định 2 phương sai bằng nhau và kiểm định t không có giả định phương sai bằng nhau.
Hai loại kiểm định này có chung nguyên lí nhưng khác nhau trong cách tính toán độ tự do (của
kiểm định t) và cách tính sai số chuẩn.
Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau
Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung bình của 2
nhóm độc lập và đòi hỏi 2 giả định.
- Các giá trị của biến số của cả 2 dân số có phân phối bình thường
- Ðộ lệch chuẩn ở 2 nhóm dân số là bằng nhau.
Nếu chúng ta kí hiệu:
x
1
: giá trị trung bình ở nhóm 1
x
2
: giá trị trung bình ở nhóm 2
n
1
: cỡ mẫu của nhóm 1
n
2
: cỡ mẫu của nhóm 2
s
1
2
: phương sai ở nhóm 1
s
2
2
: phương sai ở nhóm 2
Chúng ta có thể xác định độ tự do, sai số chuẩn và giá trị của thống kê t theo công thức sau:
- Độ tự do của kiểm định t: df = n
1
+ n
2
- 2
- Sai số chuẩn:
2 1
/ 1 / 1 n n s se
p
+ ·
với
) 1 ( ) 1 (
) 1 ( ) 1 (
2 1
2
2 2
2
1 1
− + −
− + −
·
n n
s n s n
s
p
- Giá trị thống kê t:
2 1
2 1 2 1
/ 1 / 1 n n s
x x
se
x x
t
p
+

·

·
Sau khi tính được giá trị thống kê t, người ta tra bảng phân phối t với (n1 +n1 - 2) độ tự do và
tính được xác suất p. Thông thường nếu p <0,05 người ta bác bỏ giả thuyết H
0
.
Kiểm định t không bắt cặp không có giả định 2 phương sai bằng nhau
Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung bình của 2
nhóm độc lập và chỉ đòi hỏi 1 giả định.
- Các giá trị của biến số của cả 2 dân số có phân phối bình thường
Nếu chúng ta kí hiệu:
x
1
: giá trị trung bình ở nhóm 1
x
2
: giá trị trung bình ở nhóm 2
n
1
: cỡ mẫu của nhóm 1
n
2
: cỡ mẫu của nhóm 2
s
1
2
: phương sai ở nhóm 1
s
2
2
: phương sai ở nhóm 2
143
Chúng ta có thể xác định độ tự do, sai số chuẩn và giá trị của thống kê t theo công thức sau:
- Độ tự do của kiểm định t (theo công thức của Satterthwaite):
¹
¹
¹
¹
¹
;
¹
¹
¹
¹
¹
¹
'
¹

+

1
]
1

¸

+
·
) 1 ( ) 1 (
. .
2
2
2
4
2
1
2
1
4
1
2
2
2
2
1
2
1
n n
s
n n
s
n
s
n
s
f d
- Sai số chuẩn:
2
2
2
1
2
1
n
s
n
s
se + ·
- Giá trị thống kê t:
2
2
2
1
2
1
2 1 2 1
n
s
n
s
x x
se
x x
t
+

·

·
Sau khi tính được giá trị thống kê t, người ta tra bảng phân phối t với độ tự do phù hợp (như tính
toán ở trên) và tính được xác suất p. Thông thường nếu p <0,05 người ta bác bỏ giả thuyết H
0
.
Kiểm định t bắt cặp
Giả sử để so sánh hiệu quả của thuốc A và thuốc B trong cải thiện thể tích thở ra gắng sức trong
1 giây đầu tiên (FEV1) người ta cho các bệnh nhân tham gia nghiên cứu dùng thuốc A (hay
thuốc B) trong một thời gian và cuối thời gian này đo lường FEV1 của bệnh nhân (gọi là
FEV1
A
). Sau đó cho lại đổi cho bệnh nhân dùng thuốc B (hay thuốc A) trong một khoảng thời
gian và cuối thời gian này lại đo lường FEV1 của bệnh nhân (gọi là FEV1
B
). Thiết kế nghiên
cứu này được gọi là thử nghiệm lâm sàng bắt chéo. Chúng ta lưu ý các đặc điểm sau khi phân
tích thống kê cho các nghiên cứu có cùng loại thiết kế này.
- Trong nghiên cứu này có 2 biến số đo lường trên cùng dân số: FEV1
A
và FEV1
B
- Các giá trị của biến số FEV1
A
và FEV1
B
là của cùng một bệnh nhân nên hiệu số (FEV1
A
-
FEV1
B
) cũng là biến số của bệnh nhân đó. Và nếu không có sự khác biệt về hiệu quả của 2 loại
thuốc, trung bình của hiệu số này bằng 0.
- Khi đó kiểm định so sánh hiệu quả của thuốc A và thuốc B cũng  kiểm định so sánh giá trị
trung bình của FEV1
A
và FEV1
B
 kiểm định hiệu số (FEV1
A
- FEV1
B
)=0
- Phép kiểm định này được gọi là kiểm định t bắt cặp. Kiểm định t bắt cặp là trường hợp đặc biệt
của kiểm định t một mẫu.
Tóm lại kiểm định t bắt cặp là kiểm định được sử dụng khi thiết kế nghiên cứu cho một đối
tượng (hay 2 đối tượng rất giống nhau) được thử nghiệm 2 loại thuốc khác nhau.
Kiểm định phi tham số
Nếu phân phối không phải là bình thường (thí dụ như bị lệch dương), có thể sử dụng phép biến
đổi (thường là biến đổi log) để đưa phân phối về bình thường hoặc dùng test phi tham số. Kiểm
định phi tham số có ưu điểm là không đòi hỏi giả định về phân phối của biến số định lượng
nhưng có khuyết điểm là không thể ước lượng được tham số, đó là như không thể ước lượng
khoảng tin cậy 95% hiệu số của trung bình giữa 2 nhóm.
Sơ lược lí thuyết về so sánh các trung bình của 3 nhóm.
Khi chúng ta cần so sánh trung bình của nhiều nhóm, chúng ta không thể dùng nhiều kiểm định
t để so sánh từng cặp của nhóm vì như vậy chúng ta sẽ làm tăng nguy cơ của sai lầm loại 1.
Phương pháp thích hợp để được dùng cho trường hợp này được gọi là test ANOVA. Test
ANOVA (phân tích phương sai) được xem như là sự tổng quát hóa của test t (test t dùng cho 2
nhóm và test ANOVA dùng cho 2 hay nhiều hơn các nhóm). Ðiều kiện để test ANOVA hợp lệ
144
là các giá trị có phân phối bình thường và phương sai của các nhóm xấp xỉ nhau.
Trong kết xuất của test ANOVA, chúng ta thấy có sự hiện diện của thống kê F (thống kê Fisher).
Trong trường hợp chỉ có 2 nhóm, thống kê F chính xác bằng bình phương của thống kê t và 2
phương pháp cho ra cùng một mức ý nghĩa.
ến
Hình 1. Giải thuật lựa chọn kiểm định phù hợp cho biến số phụ thuộc là biến định lượng
Thực hành
1- Mở tập tin ivf_v2.
Chúng ta hãy khởi động Stata. Mở tập tin ivf_v2.dta bằng cách sử dụng menu File :: Open hay
nhấp vào nút công cụ Open file (Use), nằm ở vị trí thứ hai của thanh công cụ. Khi đó hộp
thoại Use New Data sẽ hiện ra. Nhấp vào mũi tên bên phải hộp Look in để chọn ổ đĩa thích hợp
và dùng con chuột nhấp vào các thư mục để chọn thư mục có chứa số liệu. Khi gập tập tin số
liệu ivf_v2.dta, nhấp đúp vào tên tập tin này để mở tập tin (hoặc nhấp vào tập tin này để tên tập
tin rơi vào hộp File Name rồi sau đó nhấp vào nút lệnh Open để mở tập tin). Cần nhớ nhấp vào
nút công cụ Stata Log nằm vị trí thứ tư từ trái ở trên thanh công cụ nếu muốn lưu trữ lại
toàn bộ kết quả phân tích sẽ được thực hiện.
2. Sau khi mở tập tin, cần có thông tin gì trước khi phân tích số liệu:
Trước khi phân tích số liệu, nhà nghiên cứu (hay chuyên viên thống kê) cần đọc lại đề cương
nghiên cứu, đặc biệt là số liệu (biến số và số các bản ghi), mục tiêu và thiết kế nghiên cứu. Giả
sử chúng ta có thông tin về nghiên cứu như sau:
MRC Working Party on Children Conceived by In Vitro Fertilisation. Births in Great Britain
resulting from assisted conception, 1978-87. BMJ 1990;300:1229-33.
BPT: phân phối bình
thường
≤ 2 nhóm
Phương sai đồng nhất
BPT: định lượng
Phân phối bình thường
BPT: thứ tự
Kiểm định phi tham số
BPT: danh định
Kiểm định χ
2
Kiểm định t
Kiểm định t
PS không đồng nhất
Phương sai đồng nhất
ANOVA
Đúng
Đúng
Đúng
Trên 3 nhóm
Không đồng nhất
Đồng nhất
Đồng nhất
Không đồng nhất
Đúng Đúng
145
Births in Great Britain resulting from assisted conception, 1978-87. MRC Working Party on
Children Conceived by In Vitro Fertilisation.
OBJECTIVE--To describe the characteristics at birth of children conceived by in vitro
fertilisation (IVF) or by gamete intrafallopian transfer (GIFT) and to assess whether they differ
from those of children conceived naturally. DESIGN--Survey of children resulting from IVF or
GIFT and comparison of their characteristics at birth with national statistics. SETTING--
England, Scotland, and Wales from 1978 to 1987. SUBJECTS--1267 Pregnancies conceived by
IVF or GIFT, which resulted in 1581 liveborn or stillborn children. MAIN OUTCOME
MEASURES--Sex ratio, multiplicity, gestational age at birth, birth weight, stillbirth rate,
perinatal and infant mortality, and prevalence of congenital malformations. RESULTS--The
ratio of male to female births was 1.07:1; 23% (249/1092) of the deliveries were multiple births
compared with 1% for natural conceptions; 24% (278) of 1015 deliveries were preterm
compared with 6% in England and Wales; 32% (406) of 1269 babies weighed less than 2500 g
compared with 7% in England and Wales. The high percentage of preterm deliveries and of low
birthweight babies was largely, but not entirely, due to the high frequency of multiple births. The
rate of stillbirth, perinatal mortality, and infant mortality were twice the national average, these
excesses being due to the high frequency of multiple births. One or more major congenital
malformations were detected during the first week of life in 35 (2.2%) of 1581 babies. This
figure is comparable with population based estimates of the prevalence of congenital
malformations. The types of malformations reported varied, and the number of each specific
type was small. The health of the children was not evaluated beyond the perinatal period.
CONCLUSIONS--Multiple pregnancies often result from assisted conception and are the main
determinant of the outcome of the pregnancies and of the health of the children at the time of
birth. Congenital malformations are comparatively rare, so larger numbers of children need to be
studied before firm conclusions can be drawn. The pooling of data from different countries is
recommended.
PMID: 2354290 [PubMed - indexed for MEDLINE]
Số liệu này bao gồm những biến số về những đứa trẻ sinh một của những bà mẹ được thụ thai
trong ống nghiệm (in-vitro fertilisation). Nghiên cứu này đã được báo cáo trong tạp chí BMJ
(1990;300:1229-1233). Tập tin này bao gồm 641 đứa trẻ và gồm 8 biến số có chi tiết như sau:
STT Tên biến Giải thích tiếng Anh Giải thích tiếng Việt
1 Maso
identity number of mother and
baby
Mã số
2 tuoime maternal age in years Tuổi của mẹ (năm tuổi)
3 tang_ha hypertension 1=yes, 0=no Tăng huyết áp thai kì 1= có 0 = không
4 tuoithai gestational age in weeks Tuổi thai (tính theo tuần)
5 gioi sex of baby 1=male, 0=female Giới tính của trẻ 1=trai 0=gái
6 tlsosinh birth weight in gms Trọng lượng sinh tính theo grams.
7 nghenghiep
Occupation of mother (1= self
employed; 2=blue collar
worker; 3=white collar worker)
Nghề nghiệp mẹ (1= nghề tự do;
2=công nhân; 3=viên chức)
8 nhomtuoi
maternal age groups(0=<30;
1=30-34;2=35-39;3=40+)
Tuổi của mẹ phân nhóm (0=<30;
1=30-34; 2=35-39; 3=40+)
9 sinhnon
gestational category (1= <37 Sinh non (1: dưới 37 tuần; 0: đủ tháng
146
tuần; 0=37+tuần) – trên 37 tuần thai)
Việc nhận biết số liệu cũng có thể thực hiện bằng cách sử dụng lệnh describe (nhấn phím F3).
Điều này đặc biệt có ích nếu các biến số và giá trị của biến số đã được dán nhãn đầy đủ.
Trong nghiên cứu này, tác giả muốn xác định tác động của tăng huyết áp của mẹ và tuổi thai lên
trọng lượng thai.
3. Như vậy trong các biến số kể trên, biến nào là biến độc lập, biến nào là biến số phụ thuộc,
biến số này là gây nhiễu.
Hướng dẫn:
Bảng số liệu viewivf này có chứa những biến số khác nhau. Trong bảng sau hãy xác định tính
chất của từng biến số bằng cách khoanh tròn vào lựa chọn thích hợp.
Biến số Thang đo biến số Quan hệ
tuoime
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
tang_ha
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
tuoithai
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
gioi
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
tlsosinh
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
nghenghiep
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
nhomtuoi
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
sinhnon
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
4. Trước khi phân tích số liệu cần thực hiện thao tác số liệu và các thống kê mô tả. Thực hiện lại
các bước thao tác số liệu và thống kê mô tả như ở chương trước
5. Hãy so sánh trọng lượng của trẻ nam và trẻ nữ
Hướng dẫn: Theo giải thuật được trình bày ở đầu chương, để so sánh trọng lượng (biến phụ
thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem phương sai của 2
nhóm có bằng nhau hay không. Nếu phương sai 2 nhóm tương đương chúng ta có thể sử dụng t-
test thông thường (t-test phương sai đồng nhất). Nếu phương sai 2 nhóm không tương đương,
chúng ta phải sử dụng t-test phương sai không đồng nhất hay kiểm định phi tham số.
Kiểm định 1: So sánh 2 phương sai
Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu
Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group variance
comparison test.
147
Sau khi cửa sổ sdtest – Two sample test of variance hiện ra tiến hành 5 bước sau:
Bước 1: đặt con trỏ vào hộp văn bản Variable name
Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn
bản Variable name
Bước 3: đặt con trỏ vào hộp văn bản Group name variable
Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi để đưa biến này vào hộp văn
bản Group name variable.
Bước 5: Nhấp vào nút lệnh OK.
Kết quả được trình bày như sau:
. sdtest tlsosinh, by(gioi)
148
Variance ratio test
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
gai | 315 3044.127 35.421 628.6603 2974.434 3113.819
trai | 326 3211.279 36.88521 665.9798 3138.715 3283.843
---------+--------------------------------------------------------------------
combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767
------------------------------------------------------------------------------
Ho: sd(gai) = sd(trai)
F(314,325) observed = F_obs = 0.891
F(314,325) lower tail = F_L = F_obs = 0.891
F(314,325) upper tail = F_U = 1/F_obs = 1.122
Ha: sd(gai) < sd(trai) Ha: sd(gai) != sd(trai) Ha: sd(gai) > sd(trai)
P < F_obs = 0.1518 P < F_L + P > F_U = 0.3032 P > F_obs = 0.8482
Với giá trị p = 0,3032 chúng ta không thể bác bỏ giả thuyết Ho: độ lệch chuẩn của nhóm trẻ trai
bằng độ lệch chuẩn của nhóm trẻ gái. Vì vậy chúng ta có thể sử dụng kiểm định t phương sai
đồng nhát như ở bước 2.
Kiểm định 2: So sánh 2 trung bình sử dụng t-test phương sai đồng nhất.
Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu
Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group mean comparison
test
149
Cửa sổ ttest- group mean comparision tests hiển ra. Tiến hành các bước sau:
Bước 1: đặt con trỏ vào hộp văn bản Variable name
Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn
bản Variable name
Bước 3: đặt con trỏ vào hộp văn bản Group name variable
Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi để đưa biến này vào hộp văn
bản Group name variable.
Bước 5: Nhấp vào nút lệnh OK.
. ttest tlsosinh, by(gioi)
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
gai | 315 3044.127 35.421 628.6603 2974.434 3113.819
trai | 326 3211.279 36.88521 665.9798 3138.715 3283.843
---------+--------------------------------------------------------------------
combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767
---------+--------------------------------------------------------------------
diff | -167.1522 51.18935 -267.6718 -66.63249
------------------------------------------------------------------------------
Degrees of freedom: 639
Ho: mean(gai) - mean(trai) = diff = 0
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
t = -3.2654 t = -3.2654 t = -3.2654
P < t = 0.0006 P > |t| = 0.0012 P > t = 0.9994
Trả lời: Trẻ trai có trọng lượng sơ sinh trung bình là 3211.28 gram, của trẻ gái là 3044.13 gram.
Với giá trị t = 3,2654 và mức ý nghĩa (p-value) là 0.0012 chúng ta kết luận có sự khác biệt về
trọng lượng sơ sinh giữa trẻ trai và trẻ gái (p=0.0012).
6. Hãy so sánh trọng lượng sơ sinh của con bà mẹ tăng huyết áp và bà mẹ không tăng huyết áp.
Hướng dẫn: Theo giải thuật được trình bày ở đầu chương, để so sánh trọng lượng (biến phụ
thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem phương sai của 2
nhóm mẹ tăng huyết áp và mẹ không tăng huyết áp có bằng nhau hay không. Nếu phương sai 2
nhóm tương đương chúng ta có thể sử dụng t-test thông thường (t-test phương sai đồng nhất).
Nếu phương sai 2 nhóm không tương đương, chúng ta phải sử dụng t-test phương sai không
đồng nhất hay kiểm định phi tham số.
150
Kiểm định 1: So sánh 2 phương sai
Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu
Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group variance
comparison test.
Sau khi cửa sổ sdtest - Group variance comparison test chúng ta đưa biến tlsosinh vào hộp văn
bản Variable name và biến tang_ha vào hộp văn bản Group name variable rồi nhấp vào nút lệnh
OK.
Kết quả được trình bày như sau:
. sdtest tlsosinh, by( tang_ha )
Variance ratio test
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
Ha bt | 552 3191.531 25.58435 601.0962 3141.276 3241.786
Ha tang | 89 2742.157 86.17222 812.9471 2570.908 2913.406
---------+--------------------------------------------------------------------
combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767
------------------------------------------------------------------------------
Ho: sd(huyet ap) = sd(huyet ap)
F(551,88) observed = F_obs = 0.547
F(551,88) lower tail = F_L = F_obs = 0.547
F(551,88) upper tail = F_U = 1/F_obs = 1.829
Ha: sd(1) < sd(2) Ha: sd(1) != sd(2) Ha: sd(1) > sd(2)
P < F_obs = 0.0000 P < F_L + P > F_U = 0.0003 P > F_obs = 1.0000
Kết quả cho thấy giá trị p = 0,0003 có nghĩa là phương sai của trọng lượng lúc sinh của 2 nhóm
không đồng nhất. Vì vậy chúng ta không thể dùng t-test phương sai đồng nhất mà phải sử dụng
t-test phương sai không đồng nhất (kiểm định 2A) hay kiểm định phi tham số (kiểm định 2B).
Kiểm định 2A: so sánh 2 trung bình t-test phương sai không đồng nhất
Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu
Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group mean comparison
test (xem lại câu 4) và biến tlsosinh vào hộp văn bản Variable name; biến tang_ha vào hộp văn
bản Group name variable của cửa sổ ttest- group mean comparison. Cần lưu ý đánh dấu vào hộp
kiểm Unequal variances rồi nhấp vào nút OK.
151
Kết quả trình bày như sau:
. ttest tlsosinh, by(tang_ha) unequal
Two-sample t test with unequal variances
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
ha bt | 552 3191.531 25.58435 601.0962 3141.276 3241.786
ha tang | 89 2742.157 86.17222 812.9471 2570.908 2913.406
---------+--------------------------------------------------------------------
combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767
---------+--------------------------------------------------------------------
diff | 449.3735 89.88999 271.1197 627.6273
------------------------------------------------------------------------------
Satterthwaite's degrees of freedom: 104.069
Ho: mean(ha bt) - mean(ha tang) = diff = 0
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
t = 4.9991 t = 4.9991 t = 4.9991
P < t = 1.0000 P > |t| = 0.0000 P > t = 0.0000
Trả lời: Con bà mẹ bị tăng huyết áp có trọng lượng sơ sinh trung bình là 2742 gram, ở con của
bà mẹ không tăng huyết áp là 3192 gram. Sự khác biệt này có ý nghĩa thống kê với p<0,0001.
Kiểm định 2B: so sánh 2 trung bình với phép kiểm phi tham số Mann-Whitney
Thực hiện kiểm định phi tham số tổng sắp hạng Mann-Whitney (Mann-Whitney rank sum test)
bằng dụng menu Statistics :: Summaries, tables, & tests :: Non-parametric test of hypotheses ::
Mann-Whitney two-sample ranksum test.
152
Sau đó cửa sổ ranksum - Mann-Whitney two-sample statistic hiện ra.
Tiến hành các bước sau:
Bước 1: đặt con trỏ vào hộp văn bản Variable name
Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn
bản Variable name
Bước 3: đặt con trỏ vào hộp văn bản Group name variable
Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tang_ha để đưa biến này vào hộp
văn bản Group name variable.
Bước 5: Nhấp vào nút lệnh OK.
Kết quả như sau:
. ranksum tlsosinh, by( tang_ha )
Two-sample Wilcoxon rank-sum (Mann-Whitney) test
tang_ha | obs rank sum expected
-------------+---------------------------------
ha bt | 552 185203 177192
ha tang | 89 20558 28569
-------------+---------------------------------
153
combined | 641 205761 205761
unadjusted variance 2628348.00
adjustment for ties -144.78
----------
adjusted variance 2628203.22
Ho: tlsosinh(tang_ha==ha bt) = tlsosinh(tang_ha==ha tang)
z = 4.941
Prob > |z| = 0.0000
7. Hãy so sánh trọng lượng sơ sinh của trẻ sinh ra từ con của các nhóm nghề nghiệp khác nhau
của người mẹ.
Hướng dẫn: Để so sánh trung bình của một biến định lượng ở nhiều nhóm, chúng ta phải sử
dụng phương pháp phân tích ANOVA một chiều. Sử dụng menu Statistics ::
ANOVA/MANOVA :: oneway analysis of variance
Do chúng ta muốn phân tích tác động của yếu tố nghề nghiệp mẹ (nghenghiep) lên trọng lượng
sinh của trẻ (tlsosinh) khi cửa sổ oneway hiện lên, ta tiến hành các bước sau:
Bước 1: đặt con trỏ vào hộp văn bản Response variable
Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn
bản Response Variable.
Bước 3: đặt con trỏ vào hộp văn bản Factor
Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến nghenghiep để đưa biến này vào hộp
văn bản Factor.
Bước 5: Đánh dấu vào hộp kiểm Produce summary table để thể hiện thống kê mô tả trọng lượng
sơ sinh trung bình ở các nhóm nghề nghiệp
154
Bước 6: Đánh dấu vào hộp kiểm Scheffe để có kiểm định so sánh trọng lượng trung bình ở từng
cặp đôi nghề nghiệp khác nhau
Bước 7: Nhấp vào nút lệnh OK

Trên cửa sổ Output, trên cùng thống kê mô tả của số liệu về trọng lượng sơ sinh theo nhóm tuổi
của mẹ:
nghe nghiep |
me - 1=tu |
do, 2=cong | Summary of trong luong so sinh
nhan, | (gram)
3=vien chuc | Mean Std. Dev. Freq.
------------+------------------------------------
tu do | 2981.4135 643.76283 104
cong nhan | 3118.084 646.69338 238
vien chuc | 3189.3177 654.19649 299
------------+------------------------------------
Total | 3129.1373 652.78265 641
Con bà mẹ nghề nghiệp tự do có trọng lượng trung bình là 2981 gram, của bà mẹ với nghề
nghiệp là 3118 gram, của bà mẹ với nghề nghiệp viên chức là là 3190 gram. Chúng ta biết kiểm
định ANOVA có thể sử dụng để kiểm định sự khác biệt về trung bình của nhiều nhóm, nhưng
trước tiên chúng ta hãy kiểm tra các điều kiện của phân tích ANOVA là (a) biến số phụ thuộc có
phân phối bình thường - điều này đã được xác nhận từ đồ thị của trọng lượng sơ sinh và (b)
phương sai của biến phụ thuộc ở các nhóm bằng nhau - điều này cũng được xác nhận qua thống
kê Bartlett với p-value là 0,973.
Analysis of Variance
Source SS df MS F Prob > F
------------------------------------------------------------------------
Between groups 3381483.56 2 1690741.78 4.00 0.0187
Within groups 269338638 638 422160.875
------------------------------------------------------------------------
Total 272720122 640 426125.19
Bartlett's test for equal variances: chi2(2) = 0.0558 Prob>chi2 = 0.973
Vì vậy trong trường hợp này kiểm định ANOVA là có giá trị. Ta đọc kết quả của bảng ANOVA.
155
Chúng ta có được giá trị F = 0.0187 và mức ý nghĩa (p-value) là 0.9723 chúng ta kết luận không
có sự khác biệt về trọng lượng sơ sinh ở con của những bà mẹ có nghề nghiệp khác nhau. Với
kết luận này chúng ta có thể kết luận là có ít nhất có 1 cặp đôi (2 nhóm) nghề nghiệp của mẹ có
sự khác biệt về trọng lượng con nhưng chúng ta không biết là sự khác biệt này ở cặp đôi nghề
nghiệp nào. Để biết cặp đôi nào có sự khác biệt ta xem kết xuất của so sánh sau kiểm định (post-
hoc test) của Scheffe:
Comparison of trong luong so sinh (gram)
by nghe nghiep me - 1=tu do, 2=cong nhan, 3=vien chuc
(Scheffe)
Row Mean-|
Col Mean | tu do cong nha
---------+----------------------
cong nha | 136.671
| 0.202
|
vien chu | 207.904 71.2337
| 0.020 0.451
Kết quả của kiểm định Scheffe được trình bày theo bảng và ở mỗi ô của bảng có 2 con số: con
số ở trên thể hiện sự khác biệt về trọng lượng của nghề nghiệp của hàng so với nghề nghiệp của
cột và giá trị ở dưới thể hiện giá trịi p (mức ý nghĩa) của sự khác biệt này. Dựa vào giá trị p, có
thể kết luận có sự khác biệt về trọng lượng sơ sinh của con 2 nhóm nghề nghiệp viên chức và tự
do (giá trị p=0,020) và nhóm nghề nghiệp viên chức có trọng lượng trung bình cao hơn nhóm
nghề nghiệp tự do là 207,9 gram.
Nhắc lại lí thuyết về Tương quan và ước lượng
Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có nhiều loại hệ số
tương quan, nhưng chúng đều có giá trị từ -1 đến 1. Nếu chúng có giá trị dương có nghĩa là hai
biến số đồng biến với nhau, nếu chúng có giá trị âm nghĩa là hai biến số nghịch biến. Giá trị
tuyệt đối của hệ số tương quan càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai
trò của sai số ngẫu nhiên sẽ ít hơn. Nếu hệ số tương quan có giá trị bằng zero có nghĩa là hai
biến số độc lập và không quan hệ gì với nhau. Khi trị tuyệt đối của hệ số tương quan bằng một
có nghĩa là hoàn toàn không có sai số ngẫu nhiên. Bình phương của hệ số tương quan (r
2
) thể
hiện tỉ lệ các biến thiên của biến số phụ thuộc có thể được giải thích bằng biến số độc lập.
Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r:
∑ ∑

− −
− −
·
2 2
) ( ) (
) )( (
y y x x
y y x x
r
i i
i i
Lí giải ý nghĩa của hệ số tương quan:
- Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]
- Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm chứng tỏ
hai biến số là nghịch biến; hệ số tương quan bằng zero nếu hai biến không liên hệ.
- Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số. Nếu trị tuyệt
đối của r bằng 1 (r=1 hay r=-1), quan hệ hoàn toàn tuyến tính nghĩa là tất cả các điểm nằm trên
đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu
phân tán chung quanh đường hồi quy.
- Bình phương của hệ số tương quan (r
2
) thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải
thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả)
- Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1) không có
mối liên hệ gì giữa hai biến số hoặc (2) mối liên hệ giữa hai biến số không phải là tuyến tính.
156
- Theo quy ước, quan hệ với r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình
và trên 0,5 là quan hệ mạnh. Ðiều quan trọng là sự tương quan giữa hai biến số cho thấy sự liên
hệ nhưng không nhất thiết có nghĩa là cá quan hệ 'nhân quả'.
Để kiểm định hệ số tương quan Pearson có thực sự khác 0 hay không, kiểm định t có thể được
sử dụng
t r
n
r
·


2
1
2
có phân phối student với n-2 độ tự do.
Hồi quy
Hồi quy là một mô hình toán học mô tả sự biến đổi của một biến số này theo những biến số
khác.
Một phương trình hồi quy có thể có dạng như sau:
cân nặng (kg) = 6,85 + 0,18 x tháng tuổi
(phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi)
theo phương trình này người ta gọi:
cân nặng: biến số phụ thuộc
tháng tuổi: biến số độc lập
6,85: hệ số của hằng số (Constant), hay còn gọi là điểm chặn (intercept)
0,18: hệ số (Coeficient) của biến số tháng tuổi hay còn gọi là độ dốc (Slope) của đường hồi
quy
9. Vẽ phân tán đồ (scattergram) giữa của biến số tuổi thai (tuoithai) và trọng lượng thai
(tlsosinh).
Hướng dẫn: sử dụng menu Graphics :: Overlaid twoway graph
để hiện ra cửa sổ twoway – Twoway graphs
157
Trên cửa sổ twoway – Twoway graphs, nhập tên biến số phụ thuộc vào hộp Y-axis variable và
tên biến số độc lập vào hộp X-axis variable sau đó nhấp OK để xem biểu đồ phân tán. Cách làm
cụ thể từng bước như sau:
Bước 1: Trên hộp combo Type chọn Scatter
Bước 2: Đặt tên biến số độc lập (tuoithai) vào ô văn bản X
Bước 3: Đặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y
Bước 4: Nhấp nút lệnh OK
Có thể cho đồ thị phân tán. Tuy nhiên chúng ta có thể thêm các tùy chọn để thực hiện các yêu
cầu sau:
• Bổ sung tiêu đề “trọng lượng trẻ sơ sinh (gam)" cho trục tung
• Cho các giá trị trục y từ 500 đến 5000 gram và chia các khoảng 500 gram.
• Bổ sung tiêu đề “tuoi thai (tuan tuoi)" cho trục hoành
• Cho các giá trị của trục x từ 24 tuần tuổi đến 42 tuần tuổi và chia làm các khoảng 4 tuần
Bằng cách trong cửa sổ Trên cửa sổ twoway – Twoway graphs thực hiện các bước:
Trên thẻ Plot 1: Bước 1: Trên hộp combo Type chọn Scatter
Bước 2: Đặt tên biến số độc lập (tuoithai) vào ô văn bản X
158
Bước 3: Đặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y
Trên thẻ Y-Axis: Bước 4: Trên hộp văn bản Title gõ "Trong luong tre so sinh (gam)"
Bước 5: Trên hộp văn bản Rule gõ quy tắc "500(500)5000"
Bước 6: Trên hộp combo Angle chọn "Horizontal"
Trên thẻ X-Axis: Bước 7: Trên hộp văn bản Title gõ "Tuoi thai (tuan)"
Bước 8: Trên hộp văn bản Rule gõ quy tắc "24(2)42"
Và nhấp vào nút lệnh OK.
Trả lời: Có sự tương quan thuận tuyến tính giữa trọng lượng sơ sinh và tuổi thai. Mối tương
quan này khá chặt do đám mây có tính chất đi lên (khi nó đi về phải) và có đường kính bé nhỏ
hơn nhiều so với đường kính lớn.
10. Hãy xác định hệ số tương quan giữa trọng lượng sơ sinh (tlsosinh), tuổi thai (tuoithai) và
tuổi của mẹ (tuoime)
Hướng dẫn: Sử dụng menu Statistics :: Summaries, tables, & tests :: Summary statistics ::
Pairwise correlations.
159
Khi đó hộp thoại pwcorr – Pairwise correlations of variables sẽ hiện ra.
Tiến hành các bước sau:
Bước 1: Nhấp con trỏ chuột vào hộp văn bản Variables
Bước 2: Đưa con trỏ chuột vào cửa sổ Variables và nhấp vào các biến tlsosinh, biến tuoithai và
biến tuoime để tên 3 biến này xuất hiện ở hộp văn bản Variables.
160
Bước 3: Đánh dấu vào hộp kiểm Print significance level for each entry
Bước 4: Đánh dấu vào hộp kiểm Significance level for displaying with a star.
Bước 5: Nhấp vào nút lệnh OK để xem kết quả.
. pwcorr tlsosinh tuoithai tuoime, sig star(5)
| tlsosinh tuoithai tuoime
-------------+---------------------------
tlsosinh | 1.0000
|
|
tuoithai | 0.7376* 1.0000
| 0.0000
|
tuoime | 0.0337 0.0151 1.0000
| 0.3941 0.7026
Trả lời: Chương trình cho kết quả hệ số tương quan của trọng lượng thai với trọng lượng thai là
1, giữa trọng lượng thai và tuổi thai là 0.7376 (giá trị p=0,0000), giữa trọng lượng thai và tuổi
của mẹ là 0,0337 (giá trị p = 0,3941). Như vậy có sự tương quan mạnh có ý nghĩa thống kê giữa
trọng lượng thai và tuổi thai trong khi đó sự tương quan giữa trọng lượng thai và tuổi mẹ rất yếu
và không có ý nghĩa thống kê. Do có sự liên hệ có ý nghĩa thống kê (giá trị p <0,05) giữa trọng
lượng thai và tuổi thai nên giá trị của hệ số tương quan được đánh dấu sao (*).
11. Hãy xây dựng phương trình hồi quy của trọng lượng thai theo tuổi thai.
Hướng dẫn: Sử dụng phương pháp hồi quy đơn bằng cách nhấp vào menu "Statistics :: Linear
regression and related :: Linear regression" để hiện ra hộp thoại regress – Linear regression
Nhập tên biến số phụ thuộc vào hộp Dependent variable và tên biến số độc lập vào hộp
Independent variable rồi nhấn OK để tiếp tục.
Kết quả được trình bày như sau:
. regress tlsosinh tuoithai
161
Source | SS df MS Number of obs = 641
---------+------------------------------ F( 1, 639) = 762.25
Model | 148354317 1 148354317 Prob > F = 0.0000
Residual | 124365805 639 194625.673 R-squared = 0.5440
---------+------------------------------ Adj R-squared = 0.5433
Total | 272720122 640 426125.19 Root MSE = 441.16
tlsosinh | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
tuoithai | 206.6412 7.484572 27.609 0.000 191.9439 221.3386
_cons | -4865.245 290.0814 -16.772 0.000 -5434.873 -4295.617
Trả lời: Hệ số tương quan bình phương R-squared = 0.544 = 54.4% nói lên tuổi thai có thể giải
thích cho 54.4% sự thay đổi về trọng lượng sơ sinh. Bảng ANOVA cho biết có tổng các sai lệch
của bình phương trọng lượng sơ sinh 272.720.122 (272.7 triệu) mà phương trình hồi quy có thể
giải thích cho 148.3 triệu của sự sai lệch này (như vậy còn 124.4 triệu tổng bình phương sai lệch
chưa được giải thích gọi là Residual Sum of Square và giá trị 0.45 chính là giá trị 148.3/272.7).
Mức ý nghĩa được trình bày trong bảng ANOVA cho biết mức ý nghĩa của phương trình.
Dựa vào bảng các hệ số chúng ta có thể xây dựng phương trình hồi quy như sau:
Trọng lượng sơ sinh = -4865.245 + 206.641 x tuổi thai (tính theo tuần).
Mức ý nghĩa (P-value) của biến số tuổi thai (Gestational age) là kết quả của kiểm định ý nghĩa
của biến số này trong phương trình có thực sự khác không hay không.
Hệ số (coefficient) của biến số độc lập nói lên sự thay đổi của biến số phụ thuộc khi biến số
độc lập thay đổi một đơn vị. Trong phương trình này (với biến số độc lập là TUOITHAI và biến
số phụ thuộc là TLSOSINH) chúng ta có thể lí giải nếu đứa trẻ lớn hơn 1 tuần tuổi trọng lượng
lúc sanh của nó sẽ tăng thêm 206.641 gram.
12. Hãy xây dựng phương trình hồi quy của trọng lượng thai theo tuổi thai, giới tính của trẻ và
huyết áp cao của mẹ.
Hướng dẫn: Sử dụng phương pháp hồi quy đơn bằng cách nhấp vào menu "Statistics :: Linear
regression and related :: Linear regression" để hiện ra hộp thoại regress – Linear regression
Nhập tên biến số phụ thuộc (tlsosinh) vào hộp Dpendent variable và tên các biến số độc lập
(tuoithai gioi tang_ha) vào hộp Idependent variables, rồi nhấn OK để tiếp tục. Khi đó hộp thoại
162
chẩn đoán sẽ hiện ra. Tuy nhiên nếu chúng ta không quan tâm đến việc chẩn đoán các vấn đề
trong phương trình hồi quy chúng ta hãy nhấp vào nút Cancel.
. regress tlsosinh tuoithai gioi tang_ha
Source | SS df MS Number of obs = 641
-------------+------------------------------ F( 3, 637) = 275.43
Model | 153998584 3 51332861.4 Prob > F = 0.0000
Residual | 118721538 637 186376.04 R-squared = 0.5647
-------------+------------------------------ Adj R-squared = 0.5626
Total | 272720122 640 426125.19 Root MSE = 431.71
------------------------------------------------------------------------------
tlsosinh | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
tuoithai | 201.4248 7.541441 26.71 0.000 186.6157 216.2339
gioi | 167.8167 34.17884 4.91 0.000 100.6999 234.9335
tang_ha | -142.14 50.8685 -2.79 0.005 -242.0302 -42.24979
_cons | -4729.048 294.1447 -16.08 0.000 -5306.659 -4151.438
------------------------------------------------------------------------------
Trả lời: Chúng ta tìm được r
2
(R-squared) là 0.5647 cho thấy phương trình hồi quy giải thích
được 56.47% sự biến thiên của trọng lượng thai và điều này cho thấy mô hình có cả giới tính và
tăng huyết áp giải thích tốt hơn so với mô hình chỉ có tuổi thai (r
2
=0.54).
Chúng ta cũng có thể viết được phương trình hồi quy theo kết quả ở trên:
Trọng lượng thai = -4729.048 + tuổi thai x 201.425 - tăng huyết áp x 142.14 + giới x 167.817
10. Bạn có gợi ý gì để trình bày phương trình hồi quy một cách dễ hiểu hơn đối với người không
chuyên về thống kê.
Hướng dẫn: Bởi vì người không chuyên về thống kê hay người chưa được làm quen với phương
pháp mã hoá sẽ không biết làm sao để nhân tăng huyết áp với 142.14 hay giới với 167,817.
Chúng ta nhớ lại quy ước của tập tin này:
Biến tăng huyết áp (tang_ha) có giá trị =0 nếu mẹ không bị tăng huyết áp
Biến giới tính (gioi) có giá trị =0 nếu trẻ là trẻ gái
a) Do đó phương trình hồi quy đối với trẻ gái có mẹ không tăng huyết áp là:
Trọng lượng thai = -4729.048 + tuổi thai x 201.425 (a)
b) Ở trẻ trai với mẹ không tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ
tăng lên 167,817 gram nên phương trình hồi quy sẽ là
Trọng lượng thai = -4561.23 + tuổi thai x 201.425 (b)
c) Ở trẻ gái với mẹ bị tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ sẽ
giảm đi 142,14 gram so với phương trình (a) nên phương trình hồi quy cho nhóm này là
Trọng lượng thai = -4871.19 + tuổi thai x 201.425
d) Ở trẻ trai với mẹ bị tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ sẽ
giảm đi 142,14 gram so với phương trình (b) nên phương trình hồi quy cho nhóm này là
Trọng lượng thai = -4703.37 + tuổi thai x 201.425
Do các mức ý nghĩa (p-value) của biến số đều nhỏ hơn 0.05 nên tất cả các biến số độc lập của
mô hình đều có ý nghĩa thống kê và không nên loại bỏ khỏi mô hình.
13. Xét hai mô hình
trọng lượng thai = tuổi thai + tăng huyết áp mẹ + giới tính (cho hệ số của biến số tuổi t hai là
201.4) trong khi đó mô hình
trọng lượng thai = tuổi thai (chohệ số của biến số tuổi thai là 206.6). Hệ số trong mô hình nào là
phù hợp hơn để đánh giá sự tăng trưởng của trọng lượng thai.
Trả lời:
Chúng ta có thể giả định yếu tố tăng huyết áp của mẹ là yếu tố gây nhiễu. Do tăng huyết áp của
mẹ có thể làm giảm trọng lượng của con và trong tăng huyết áp của mẹ phổ biến hơn ở nhóm
163
sanh thiếu tháng nên ở đứa trẻ sinh sớm 1 tuần bị mất trọng lượng là 206.6 gram nhưng điều này
là cả do tác động của sanh non và cả tác động do tăng huyết áp ở một số bà mẹ. Tuy nhiên ở
nhóm không bị tăng huyết áp trẻ sanh non một tuần chỉ bị mất có 201.4 gram và do đó con số
201.4 là phù hợp hơn để đánh giá sự tăng trưởng của trọng lượng thai.
Trên thực tiễn do con số 201.4 rất gần với con số 206.6 nên có thể bỏ qua tác động gây nhiễu
của tăng huyết áp của mẹ lên tốc độ phát triển thai.
14. Sử dụng kiểm định t chúng ta phát hiện trọng lượng trẻ con các bà mẹ bị tăng huyết áp thấp
hơn con những người không tăng huyết áp là 449.37 gram. Trong khi mô hình của trọng lượng
sinh theo tuổi thai, tăng huyết áp mẹ và giới tính cho hệ số của biến tăng huyết áp là 142.14
gram. Hãy lí giải những số liệu này?
Trả lời: Cả hai con số 449.37 và 142.14 đều nói lên sự khác biệt do tình trạng tăng huyết áp của
mẹ nhưng con số 449.37 là con số khác biệt thô và con số 142.14 là con số khác biệt có hiệu
chỉnh theo tháng tuổi và giới tính. Dựa vào nhận xét trên ta có giải thích những con số này như
sau:
• con các bà mẹ bị tăng huyết áp có trọng lượng nhẹ con những người không tăng huyết áp là
449.37 gram và điều này do tác động của cả tăng huyết áp, tuổi thai (và cả tác động của giới
tính nhưng giả sử chúng ta biết rằng tác động gây nhiễu cao giới tính là không đáng kể).
• con các bà mẹ bị tăng huyết áp có trọng lượng nhẹ con những người không tăng huyết áp là
142.14 gram và điều này do tác động của cả tăng huyết áp khi không xét đến tác động của
tuổi thai. Như vậy tác động do sinh thiếu tháng là 449.37-142.14 = 307.23 g
C a o h u y e á t
a ù p m e ï
T r o ï n g
l ö ô ï n g c o n
S i n h t h i e á u
t h a ù n g
C ô c h e á
k h a ù c
1 4 2 . 1 4 g
4 4 9 . 3 7 g
Như vậy % tác động do cơ chế sinh thiếu tháng trong tổng số tác động của tăng huyết áp mẹ lên
trọng lượng của con là:
% 68 68 . 0
37 . 449
22 . 307
37 . 449
14 . 142 37 . 449
· · ·

· ·
thoâ ñoäng taùc
chænh hieäu ñoäng taùc - thoâ ñoäng taùc

Chúng ta có thể xem xét tác động của cơ chế sinh thiếu tháng trong khi so sánh trọng lượng sơ
sinh của 2 nhóm mẹ tăng huyết áp và mẹ không tăng huyết áp bằng cách so sánh tuổi thai trung
bình giữa 2 nhóm. Nhóm có mẹ bị tăng huyết áp có tuổi thai trung bình là 37.3 tuần trong khi đó
nhóm mẹ không bị tăng huyết áp có tuổi thai trung bình là 38.9 và sự khác biệt về tuổi thai là 1.6
tuần. Sự khác biệt về tuổi thai sẽ giải thích cho khoảng 200 gram/tuần x 1.6 =320 gram trọng
lượng sơ sinh.
164

Mục tiêu....................................................................................................................................41 Giới thiệu...................................................................................................................................41 Biến số...........................................................................................................................................43 Mục tiêu....................................................................................................................................43 Biến số.......................................................................................................................................43 Biến số định tính và biến số định lượng....................................................................................43 Ðịnh nghĩa cụ thể......................................................................................................................44 Biến số độc lập - phụ thuộc - gây nhiễu....................................................................................45 Kiểm soát yếu tố gây nhiễu.......................................................................................................45 Biến số nền (background variables)..........................................................................................46 Các loại nghiên cứu.......................................................................................................................50 Mục tiêu....................................................................................................................................50 Mở đầu......................................................................................................................................50 Một số loại nghiên cứu..............................................................................................................50 Nghiên cứu không can thiệp.....................................................................................................50 Nghiên cứu can thiệp................................................................................................................54 Tính giá trị và tính tin cậy của kết quả nghiên cứu...................................................................55 Các số đo dịch tễ học....................................................................................................................56 I. Mở đầu:..................................................................................................................................56 II. Số đo tuyệt đối và số đo tương đối.......................................................................................56 III. Tỉ số, tỉ lệ, tỉ suất.................................................................................................................56 IV. Số đo dịch tễ .......................................................................................................................57 Số đo hậu quả và số đo tác động...................................................................................................59 I. Nhắc lại về số đo sự xuất hiện của bệnh: tỉ suất, nguy cơ và số chênh.................................59 II. Số đo sự kết hợp - số đo hậu quả..........................................................................................59 III. Số đo tỉ số............................................................................................................................59 IV. Số đo hiệu số.......................................................................................................................61 V. Biện luận thêm về tỉ số nguy cơ và hiệu số nguy cơ............................................................62 VI. Số đo tác động.....................................................................................................................63 VII. Bàn luận thêm về phân số nguy cơ quy trách dân số.........................................................65 Phương pháp thu thập số liệu........................................................................................................66 Sử dụng thông tin sẵn có...........................................................................................................66 Quan sát.....................................................................................................................................66 Phỏng vấn mặt đối mặt và bộ câu hỏi tự điền...........................................................................67 Thiết kế bộ câu hỏi....................................................................................................................67 Lấy mẫu điều tra............................................................................................................................71 Mục tiêu:...................................................................................................................................71 Ðại cương về phương pháp lấy mẫu:........................................................................................71 Các phương pháp lẫy mẫu xác suất:..........................................................................................72 Cách tính cỡ mẫu...........................................................................................................................79 Mục tiêu....................................................................................................................................79 Giới thiệu...................................................................................................................................79 ii

Hai cách tiếp cận trong tính cỡ mẫu..........................................................................................79 Các điểm cần lưu ý trong tính cỡ mẫu......................................................................................81 Tính cỡ mẫu bằng phần mềm Epi Info:.....................................................................................81 Thí dụ........................................................................................................................................83 Chiến lược phân tích số liệu..........................................................................................................84 Cài đặt chương trình Stata 8.0 và số liệu mẫu..............................................................................90 Khởi động và kết thúc Stata .........................................................................................................93 Mô tả ngắn gọn về Stata................................................................................................................97 Lệnh more.....................................................................................................................................99 Thông báo lỗi và mã phản hồi.....................................................................................................100 Phím break..................................................................................................................................102 Sử dụng bàn phím trong Stata.....................................................................................................103 Khởi động Stata ..........................................................................................................................105 1. Khởi động Stata...................................................................................................................105 2. Mô tả giao diện của chương trình Stata..............................................................................105 3. Cách cách để thực hiện lệnh trong chương trình Stata........................................................106 4. Lưu lại kết quả phân tích....................................................................................................106 Mô tả số liệu với Stata 8.0 for Windows.....................................................................................109 Thống kê phân tích biến số định lượng với Stata .......................................................................143 Thực hành................................................................................................................................145

iii

Trình bày được các đặc tính của một nghiên cứu khoa học tốt Nghiên cứu khoa học là gì: Nghiên cứu là công việc tìm kiếm một cách có hệ thống các kiến thức mới. Brownlee A. Các đặc điểm của một nghiên cứu khoa học tốt Một nghiên cứu khoa học tốt có các đặc điếm sau: 1 Last JM.Phương pháp nghiên cứu khoa học Mục tiêu: . lí giải các thông tin đó đề trả lời cho câu hỏi nghiên cứu hay đề xuất các biện pháp giải quyết vấn đề. xem những kiến thức gì đã biết và còn chưa biết về vấn đề đó. Có hai phương pháp chính để tìm kiếm kiến thức: hoặc là xem xét các tài liệu. Pathmanathan I. kiến thức sẵn có để tìm ra các kiến thức mới (scholarship) hay dựa vào thực tế khách quan để phát hiện các kiến thức và hiểu biết mới (scientific research). cần những thông tin gì và để có những thông tin này cần thu thập những đại lượng và tính chất nào của đối tượng. Phương pháp dựa vào thực tế khách quan để tìm tòi các kiến thức mới được gọi là nghiên cứu khoa học. 146 2 Varkevisser C. kết quả của phân tích số liệu (thông tin) được trình bày trong phần kết quả nghiên cứu. phân tích và lí giải số liệu để giải quyết một vấn đề hay trả lời một câu hỏi (Theo Varkevisser và cộng sự. một báo cáo khoa học sẽ gồm các phần chính: 1) Đặt vấn đề và mục tiêu nghiên cứu 2) Tổng quan tài liệu 3) Phương pháp và đối tượng 4) Kết quả nghiên cứu 5) Bàn luận và 6) Kết luận. nghiên cứu khoa học phải bao gồm các bước thu thập số liệu trên thực địa (hay từ các ca bệnh trong bệnh viện hay phòng thí nghiệm). trước đó nhà nghiên cứu phải phân tích từ vấn đề. NewYork: International epidemiology association 1997. Designing and conductiong health system research projects. Như vậy. phân tích và lí giải số liệu diễn ra tốt đẹp và giải quyết được vấn đề nghiên cứu. IDRC. tác giả sẽ đánh giá xem các thông tin có trả lời được câu hỏi nghiên cứu hay không và câu trả lời của câu hỏi nghiên cứu chính nhằm giúp giải quyết vấn đề nghiên cứu là kiến thức mới được tạo ra. Đây là nội dung của phần phương pháp nghiên cứu trong đề cương nghiên cứu hay báo cáo khoa học. Sau đó nhà nghiên cứu phải xác định hỏi để có được kiến thức còn chưa biết đó. dựa trên sự tò mò và nhu cầu được cảm nhận. tổng quan y văn. Ottawa 1991 1 . Quá trình này được gọi là đặt vấn đề. Nói cách khác. phân tích số liệu để có thông tin và và trình bày các thông tin này trong phần kết quả và trong phần bàn luận và kiến nghị. Ở phần bàn luận.1 Như vậy đặc điểm của nghiên cứu là tìm ra kiến thức mới. Số liệu: Kết quả của việc thu thập có hệ thống các đại lượng và đặc tính của các đối tượng Thông tin: Số liệu đã được phân tích Kiến thức: thông tin được lí giải và được sử dụng để trả lời câu hỏi hay giải quyết một vấn đề nào đó Nhưng để quá trình thu thập.Mô tả được các đặc tính của một nghiên cứu khoa học . 1991).2 Nghiên cứu khoa học là việc thu thập. Sau khi đã thu thập được số liệu (đại lượng hay tính chất của các đối tượng nghiên cứu). A dictionary of Epidemiology.

.Nên có tính chất chi phí . cán bộ y tế thực hiện cùng với công việc hàng ngày. Dựa theo kết quả có thể trình bày giải pháp để giải quyết một vấn đề và so sánh ưu khuyết điểm của việc tiến hành giải pháp và không tiến hành giải pháp.Sẽ tốt hơn nếu có sự tham gia của nhiều ngành.Thiết kế nghiên cứu đơn giản và thực hiện trong thời gian ngắn .Kết quả phải được trình bày theo hình thức hữu dụng cho các nhà quản lí. Tốt nhất nếu nghiên cứu được tiến hành với chi phí thấp và do các nhân viên. Đối với nghiên cứu y tế công cộng cần phải đặt them hai đặc điểm sau: . . .Phải có tính định hướng vào hành động và đề ra các giải pháp . nhà hoạch định chính sách và cộng đồng: Cần có tóm tắt những kết quả chủ yếu của nghiên cứu và nêu bật những điểm lí thú cho đối tượng của bản báo cáo.hiệu quả.Nghiên cứu cần có tính chất tham gia của mọi thành viên có liên quan trong tất cả các bước của quá trình tiến hành nghiên cứu 2 .Phải có tính thời sự: kết quả phải có kịp thời để đưa ra các quyết định đúng đắn.Nghiên cứu cần phải được đánh giá không chỉ dựa vào số các bài báo được xuất bản mà cần phải xem xét sự ảnh hưởng của nó đến chính sách y tế hay thay đổi cung cách phục vụ và cuối cùng là tác động lên sức khoẻ người dân. .Phải tập trung vào các vấn đề ưu tiên trong chăm sóc y tế . nhiều khoa .

Biến số định lượng có thể còn được chia thành biến số tỉ số .Nếu biến số thể hiện một đại lượng nó được gọi là biến số định lượng (quantitative variable). Như vậy biến số có thể thể hiện đại lượng hay đặc tính. Thí dụ: Khi tôi quan sát giới tính của các học viên trong lớp.0 12. tôi có số liệu là: Nam.6 13. nam.2 14.Biến số nhị giá – binary variable (khi chỉ có 2 giá trị) .7 11. Phương pháp mô tả tóm tắt và trình bày số liệu 3 .3 11. Biến số và các loại biến số Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này sang người khác hay từ thời điểm này sang thời điểm khác. nam.0 12.5 12.9 11. v.9 10.4 11.8 11.Ngoài ra có khi biến cố không chỉ được quan tâm về phương diện nó có xảy ra hay chưa xảy ra mà còn được quan tâm về phương diện biến cố xảy ra vào lúc nào.2 13.Biến số danh định – nominal variable (khi có 3 hay nhiều hơn các giá trị và các bản thân các giá trị không có tính chất thứ tụ) . bệnh nhân đã sống được bao lâu.3 12.9 9.9 13.1 10. .0 13.4 14.0 11.7 12. Số liệu: Kết quả có được do việc quan sát hay thu thập một biến số ở các đối tượng khác nhau hay ở thời gian khác nhau.5 14.ordinal variable (khi có 3 hay nhiều hơn các giá trị và các bản thân các giá trị có tính chất thứ tự .1 10.9 10.5 10. tuổi của người khác.2 và những con số này được gọi là số liệu.3 9.1 9.5 12.9 12.8 10.6 11.8 12.9 11.1 11.2 14.7 11.7 11.4 15.3 11. nữ.2 14.9 10.4 12.8 13.6 11. quần áo của một người khác nữa thì kết quả quan sát được không phải là số liệu.ratio variable(có giá trị không tuyệt đối) và biến số khoảng – interval variable (không có giá trị không tuyệt đố) .1 10.5 13.9 12.1 11.6 12.7 11.0 10. nữ.7 13.6 13.4 12.3 10.8 11.7 10.Ðại cương về thống kê và thống kê mô tả Một số định nghĩa Thống kê là phương pháp khoa học dùng đề thu thập.4 13.9 11.5 13.3 13.1 12.6 10. biến số được gọi là biến số định tính. tóm tắt. Thí dụ sau khi điều trị bệnh nhân ung thư chúng ta không chỉ quan tâm bệnh nhân có tử vong hay không mà còn quan tâm bệnh nhân bệnh nhân tử vong bao nhiêu lâu sau khi điều trị và nếu bệnh nhân chưa tử vong. nữ.Biến số thứ tự .1 12. trình bày và phân tích số liệu.2 8. Nếu tôi quan sát giới tính ở người này.6 11.1 13.v Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ có kết quả như sau: 10. Cần lưu ý số liệu phải liên kết với một biến số nhất định. Biến số định tính còn được chia làm 3 loại: .Nếu biến số nhằm thể hiện một đặc tính.4 11.4 10. nữ.7 13.

135. Nếu chúng ta sắp xếp số liệu theo thứ tự. Huyết áp tâm thu trung bình sẽ là 132 Σxi 120 + 125 + 130 + 125 + 150 = = 132 N 5 Do không thể thực hiện các phép toán số học trên các biến số định tính (danh định và thứ tự) chúng ta chỉ có thể tính trung bình cho số liệu của biến số định lượng.135 . Nếu có hai giá trị cùng đứng ở giữa. 150. Con số tiêu biểu nhất để cho biết tác dụng của thuốc A là huyết áp trung bình sau khi sử dụng thuốc A và là 120. Những thống kê này cho biết giá trị tiêu biểu cho số liệu. giá trị đứng ở giữa được gọi là trung vị. được kí hiệu là (x (đọc là x gạch) là tổng các giá trị của số liệu chia cho số lần quan sát (N). Con số huyết áp trung bình này thấp hơn huyết áp trung bình sau khi sử dụng thuốc B cho biết thuốc A có tác dụng mạnh hơn. Σx x= i N Thí dụ: Số liệu về huyết áp tâm thu của 5 đối tượng là 120. Giả sử có 5 đối tượng sau khi sử dụng thuốc hạ áp A sẽ có huyết áp 110 .115 -120 . 130. Trung bình của số liệu. Thí dụ: có hai loại thuốc hạ áp A và B. x= 4 . trung vị (median) và yếu vị (mode).Các số thống kê mô tả Có hai loại thống kê mô tả: thống kê mô tả khuynh hướng tập trung và thống kê mô tả tính phân tán.125 -130 và ở 5 đối tượng khác sau khi sử dụng thuốc hạ áp B sẽ có huyết áp 120 .140. Thống kê mô tả khuynh hướng tập trung Thống kê mô tả khuynh hướng tập trung có thể là trung bình (mean). 125.125 130 . trung bình cộng của hai giá trị này là trung vị.

Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120. Trong một số liệu cụ thể. Trung vị của huyết áp tâm thu là giá trị đứng ở giữa và bằng 130 Số liệu về chiều cao (cm) của 6 người là 153. Con số trung vị phản ánh chân thực hơn bởi vì với tư cách là một bác sĩ lâm sàng từ số liệu trên có thể nhận xét rằng một bệnh nhân tiêu biểu sẽ giảm đau sau 2 ngày dùng thuốc. Yếu vị là giá trị xuất hiện phổ biến nhất (có tần suất cao nhất). 9. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100. Thống kê mô tả tính phân tán: Có 3 thống kê mô tả tính phân tán: độ lệch chuẩn. 161. 162. 125 và 130. Sau điều trị. Trung vị và trung bình của số liệu là 2 và 5 ngày. 120. Việc lựa chọn thống kê mô tả tính phân tán được trình bày trong bảng 2. chúng ta chỉ có thể tính trung vị của số liệu định lượng và số liệu của biến số thứ tự. 165. 140. 2. 130. 130. Do có hai giá trị 160 và 161 cùng ở giữa. Trong trường hợp này không có yếu vị.5 cm Do bản chất của biến số danh định không thể sắp được theo thứ tự. 2. 2. Ðây là khuyết điểm chính của số thống kê này. Trong một ấp có 361 gia đình người Kinh. trung vị sẽ là (160+161)/2 = 160. có thể không có yếu vị. 120 gia đình người Khmer và 27 gia đình người Hoa. 115. Tuy nhiên nếu số liệu bị lệch thì con số trung vị phản ánh giá trị tiêu biểu một cách chính xác hơn. Thí dụ: Bệnh nhân bị loét dạ dày . Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110. Khái niệm độ lệch chuẩn chỉ có thể áp dụng cho biến số định lượng bởi vì chúng ta có thể thực hiện các phép toán số học trên các đại lượng nhưng không thể thực hiện trên các giá trị của biến số định tính là các đặc tính. Ðiểm số của 5 học sinh là 5. 125. 130. có thể có một yếu vị hoặc hai hay nhiều yếu vị. trước tiên chúng ta phải sắp xếp số liệu này: 153. 135. Yếu vị của điểm số là 5. bệnh nhân được theo dõi và ghi nhận thời gian kể từ khi sử dụng thuốc đến lúc bắt đầu cải thiện triệu chứng đau. Khi biến số định lượng có phân phối bình thường (hình chuông) thì ba con số này xấp xỉ bằng nhau và khi đó người ta thường tính trung bình bởi vì trung bình có những đặc tính toán học mạnh. 135. 155. Yếu vị của biên số dân tộc là dân tộc Kinh. 135. Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120. 2. 150. Bệnh nhân có thời gian từ lúc điều trị đến lúc giảm triệu chứng là 30 ngày trên thực chất là bệnh nhân không đáp ứng với điều trị. khi số liệu bị lệch thì con số trung bình sẽ bị ảnh hưởng rất nhiều và không phản ánh giá trị tiêu biểu như con số trung vị. 150. Trung bình của huyết áp là 132 và độ lệch chuẩn bằng ( xi − x ) 2 N −1 5 . Nhìn chung. khoảng tứ phân vị và phạm vi của số liệu. Như vậy hai thuốc hạ áp này có hiệu quả hạ áp là tương đương (bởi vì trung bình của hai số liệu là bằng nhau) nhưng kết quả của thuốc B phân tán hơn và điều này làm thuốc B trở nên kém an toàn.viết tắt là SD hay s) là con số đánh giá mức độ phân tán và được tính theo công thức: s= ∑ i =1 n Như vậy độ lệch chuẩn phản ánh khoảng cách trung bình của số liệu so với giá trị tiêu biểu. 125. 5. 150. 125. 3. 7. 155. 160. 6. Ngoài ra yếu vị (mode) cũng được sử dụng làm con số thống kê tiêu biểu. 160. 3. Thống kê mô tả tính phân tán có tầm quan trọng thứ hai sau con số mô tả khuynh hướng tập trung. 162. 165. 130. 2. Ðể tính trung vị. Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120. 30. Ở 10 bệnh nhân thời gian này (ngày ) là như sau: 1. 110.tá tràng được điều trị theo một phác đồ diệt vi khuẩn Helicobacter. 3. 120. Ðộ lệch chuẩn (standard deviation . Con sôs 30 trong thí dụ trên được gọi là số ngoại lai (outlier) và làm số liệu bị lệch. 161. Do vậy người ta thường chỉ dùng yếu vị cho biến số danh định hay trong các trường hợp đặc biệt Có thể sử dụng trung bình. trung vị hay yếu vị cho biến số định lượng.

110. Dev. Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110. và 150. Số liệu của thuốc B có tính phân tán cao hơn do phạm vi thay đổi từ 100-140 trong khi đó phạm vị của số liệu thuốc A chỉ từ 110-130. do đó phạm tứ phân vị là 125-135.trung vị của phần dưới là 135.416122 8. cũng giống như trung vị. 125. Phương sai (variance) có thể được kí hiệu và Var hay s2 và được tính theo công thức sau: s2 = ∑ i =1 n ( xi − x ) 2 N −1 Phạm vi của số liệu là tất cả các giá trị của số liệu từ giá trị nhỏ nhất đến giá trị lớn nhất. 150. Trung vị của phần trên là 125 .98429 1. Phạm vi của biến số huyết áp là 120 đến 150. 130. Huyện Hóc môn Giới Số trẻ Phần trăm 6 . 140. 130. khoảng tứ phân vị là khoảng cách của trung vị phần trên và trung vị phần dưới. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100. một cột liệt kê các giá trị của biến số và một cột trình bày tần suất tương ứng của các giá trị đó.5 = 11. Min Max -----------+----------------------------------------------------hemoglobin | 70 11. Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120. Phân phối giới tính của 69 học sinh lớp cơm thường trường mầm non 23 tháng 11. 125. 135.1 Phương pháp trình bày số liệu Số liệu có thể được trình bày thành bảng hoặc các đồ thị.8 15. 150. Hãy thử đọc và lí giải kết quả: Variable | Obs Mean Std. 135. 125. Câu hỏi: Phân tích trên máy tính về biến số hemoglobin cho kết quả sau.s= = = ( xi − x ) 2 ∑ N −1 i =1 n (120 − 132 ) 2 + (125 − 132 ) 2 + (132 − 130 ) 2 + (135 − 132 ) 2 + (150 − 132 ) 2 5 −1 144 + 49 + 4 + 9 + 324 = 4 530 = 132 . 115. khoảng tứ phân vị chỉ có thể áp dụng cho biến số định lượng hay thứ tự. 125 và 130. 130. Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120. Trình bày bảng: Phân phối tần suất của biến số định tính Số liệu của biến số rời rạc có thể được trình bày dưới dạng một phân phối tần suất.5 4 Phương sai về mặt từ nguyên là bình phương của độ lệch chuẩn. Table 1. Số liệu này được chia làm 2 phần: phần 1 gồm 120. Do bản chất của khoảng tứ phân vị là trung vị của phần số liệu trên và phần số liệu dưới. 135. Như vậy bảng phân phối tần suất gồm 2 cột. Phân phối tần suất là một bảng chỉ ra tần suất xuất hiện của từng giá trị rời rạc của biến số (Bảng 1). 120. 130 và phần 2 gồm 130. khoảng tứ phân vị không bị ảnh hưởng bởi các giá trị ngoại lai như trong trường hợp của độ lệch chuẩn. 120. Khoảng tứ phân vị (inter-quartile): Nếu chúng ta chia số liệu sắp theo thứ tự làm 2 phần đều nhau. Cũng như trung vị.

15-15. Bởi vì giới tính có 2 giá trị nam và nữ nên ta liệt kê 2 giá trị này ở một cột. 9-9. 5.9.5 100. Khi đó các khoảng là: 8-8. Bảng 2 là một thí dụ khác về bảng phân phối tần suất.9 9-9. 13-13.9 10-10.9 14-14.5. 2.9 13-13. 11-11.9.8 9. Chia phạm vi số liệu ra làm n khoảng với độ rộng của mỗi khoảng là d. Table 2.9 1 111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 1111 111 1111 1 Ðếm 4.9 15-15. 12-12. Cần lưu ý độ rộng mỗi khoảng d nên là đại lượng chẵn như 1. Xây dựng bảng phân phối tần suất với biến số và các khoảng giá trị của biến số và tần suất 7 .7 10. Trong thí dụ trên ta có thể chia phạm vi ra làm 8khoảng với chiều rộng khoảng bằng 1 đơn vị.9. Trong trường hợp này chúng ta có thể nhóm (làm tròn) giá trị của biến số lại.9 12-12.9.8 đến 15. 3. 10 hay 0. Trong thí dụ về hemoglobin của 70 phụ nữ phạm vi là 8. 10-10.0 Phân phối tần suất của biến số định lượng Nếu biến số là biến số liên tục chúng ta không thể liệt kê tất cả các giá trị của biến số.9. Ở cột thứ nhì ta ghi tần suất tương ứng của các giá trị này.9. Ðếm các giá trị thích hợp vào khoảng đã định trước Hemoglobin (g/100ml) 8-8.2 và số các khoảng n nên từ 5-12 (trung bình là 7-8). 14-14.9 11-11.Nam Nữ Tổng số 45 24 69 65% 35% 100% Bảng trên là bản phân phối tần suất của giới tính.9. 0.9. Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện Phương pháp đỡ Số sinh đẻ Sinh thường Sinh forceps Sinh mổ Tổng số 478 65 57 600 Phần trăm 79. Ðôi khi bảng phân phối tần suất có thêm cột phần trăm như trong thí dụ ở trên.Tìm phạm vi (giá trị cực tiểu và giá trị cực đại) của số liệu.1 2. Cụ thể các bước xây dựng bảng phân phối tần suất cho biến số định lượng như sau: 1.

57 7.61 100.86 72.9 12-12.78 43. Mặc dù không có ranh giới tuyệt đối hoàn toàn rõ rệt. Nếu biến số là biến rời rạc. Phân phối số đo vòng cánh tay của 69 trẻ lớp cơm thường nhà trẻ 23 tháng 11. Table 4.9 15-15. Nếu biến số là biến liên tục.78 1.9 14-14.<18 18.00 18.00 27. Hemoglobin của 70 phụ nữ Hemoglobin 8-8.43 5.43 4.50 2.43 Phần trăm tích lũy 1.00 Biểu đồ và đồ thị Số liệu cũng có thể được trình bày dưới dạng đồ thị hoặc biểu đồ.71 52.83 83.14 20.57 100.14 1.tương ứng với các khoảng giá trị đó.78 45. Vòng cánh tay 13.71 25.29 20.9 Tần suất 1 3 14 19 14 13 5 1 Phần trăm 1.<20 Tần suất 2 31 27 9 0 2 1 Phần trăm 2. Hóc môn.hình 1) hoặc biểu đồ hình bánh (pie chart).33 95. Khi đó ta có thể xem thang đo của biến số là rời rạc và trình bày bảng phân phối tần suất của biến số (bảng 2).9 10-10.9 13-13.<16 16.39 Phần trăm tích lũy 2.50 12. nói chung đồ thị (graph) có tính chất toán học nhiều hơn.43 98.9 11-11.83 95. trong đó có trục hoành và trục tung còn biểu đồ (chart) là hình ảnh mang tính chất tượng trưng.<17 17. Hình thức của bảng -Có tựa ngắn gọn và rõ ràng -Ðặt tên cho các hàng và cột -Trình bày tổng số của hàng và cột -Ðịnh nghĩa các kí hiệu và chữ viết tắt ở dưới bảng 8 .9 9-9. có thể trình bày dưới dạng biểu đồ hình thanh (bar chart .86 91.83 98. thì phân phối của biến số có thể trình bày dưới dạng tổ chức đồ (histogram .<15 15.00 Thí dụ như nếu biên số là chu vi vòng cánh tay của trẻ chúng ta có thể làm tròn chu vi vòng cánh tay đến 1 cm.50 12.<19 19.06 37. Chúng ta cũng có thể thêm vào cột phần trăm và cột phần trăm tích lũy (nếu thích hợp) Table 3.hình 2) hoặc đa giác tần suất.<14 14.

Hóc môn Chúng ta cũng có thể xây dựng các thanh theo chiều ngang như trong ví dụ sau Sinh moå 57 Sinh forceps 65 Sinh thöôøg n 478 0 100 200 300 400 500 Hình 2. Biểu đồ hình thanh (bar chart) mô tả phân bố giới tính của những học sinh trong trường mầm non 23/11. Ứng với từng giá trị của biến số người ta vẽ các thanh có chiều cao tỉ lệ với tần suất của giá trị đó. 50 40 30 20 10 0 Nam Nöõ 45 24 Hình 1. Phương pháp sinh của 600 trẻ sanh tại bệnh viện X trong năm 1998 Ðối với biến số thứ tự. Biểu đồ hình thanh gồm có trục hoành trên đó xác định những giá trị của biến số. 9 . điều cần lưu ý là các giá trị của biến số phải được sẵp xếp thứ tự theo trục hoành. Cần lưu ý luôn luôn có khoảng trống giữa các thanh.-Ghi nguồn số liệu ở dưới bảng Biểu đồ hình thanh Biểu đồ hình thang là biểu đồ nhằm mô tả sự phân bố của biến số rời rạc.

10 .2 0 0 0 T aà suaá n t 1 0 0 0 0 m u øc h ö õ c a á p 1 e d u m c a á p a t 2 . 27/3/1999) Biểu đồ hình bánh Biểu đồ hình bánh cũng được dùng để mô tả sự phân bố của biến số rời rạc. Ðộ lớn của cung tỉ lệ với tần suất của giá trị biến số.9% Moå y thai laá 19.3% 0. Biểu đô hình bánh là một vòng tròn được chia làm nhiều cung tương ứng với các giá trị của biến số. Tỉ suất lây truyền từ mẹ sang con ở những người mẹ bị nhiễm HIV theo điều trị hóa dự phòng và phương pháp sinh (Nguồn: The European Mode of Delivery Collaboration.5% Hình 4.3 ñ a ïi h o ï Hình 3. Lancet.8% 3. Trình độ học vấn của các bà mẹ trong nghiên cứu 25% 20% Ñöôøg aâ ñaï n m o 15% 10% 5% 0% Duøg ZDV† n Khoâg duøg ZDV n n 4.

Nöõ 35% Nam 65%

Hình 5. Biểu đồ hình bánh (pie chart) mô tả phân bố giới tính của những học sinh trong trường mầm non 23/11, Hóc môn

Sinh moå Sinh forceps

Sinh thöôø g n

Hình 6. Biểu đồ hình bánh thể hiện phương pháp sinh của 600 đứa trẻ sinh tại bệnh viện X

Tổ chức đồ và đa giác tần suất
Tổ chức đồ (histogram) và đa giác tần suất (polyline) được dùng trong mô tả phân bố của biến số liên tục. Ðể vẽ tổ chức đồ, người ta chia biên độ của giá trị làm nhiều khoảng giá trị và tính tần suất của những khoảng giá trị đó. Những khoảng giá trị này được biểu thị ở trên trục hoành. Ứng với mỗi khoảng giá trị người ta vẽ những hình chữ nhật có diện tích tỉ lệ với tần suất của khoảng giá trị đó. Bởi vì các khoảng giá trị này nằm sát nhau trên trục hoành, các hình chữ nhật của tổ chức đồ cũng thường nằm sát nhau.

11

2 0

1 5 F re q u e n c y

1 0

5

0 8 9 1 0 1 1 1 2 1 3 h e m o g l o b in 1 4 1 5 1 6

Hình 7. Tổ chức đồ mức hemoglobin của 70 phụ nữ.

2 0

1 5 F re q u e n c y

1 0

5

0 8 9 1 0 1 1 1 2 1 3 h e m o g l o b in 1 4 1 5 1 6

Hình 8. Ða giác tần suất của hemoglobin của 70 phụ nữ.

Ðể vẽ đa giác tần suất, người ta thường vẽ tổ chức đồ và nối các trung điểm của các cạnh trên của các hình chữ nhật. Ða giác tần suất thường không đẹp như các tổ chức đồ nhưng nó có ưu điểm là có thể vẽ nhiều đa giác tần suất trên cùng một đồ thị để dễ so sánh các phân phối của chúng.

12

1 5

1 0

5

0 8 9 1 0 1 1 1 2 1 3 h e m o g l o b in 1 4 1 5 1 6

Hình 9. Ða giác tần suất hemoglobin của 28 phụ nữ nghèo (đường đỏ) so vơí 42 phụ nữ trung bình và khá (đường xanh)

13

96 x SE so với trung bình mẫu: phạm vi này được gọi là khoảng tin cậy 95%. nên chúng ta có thể ước lượng trung bình dân số bằng cách tính trung bình của mẫu. Nhưng do trung bình mẫu có dao động. Hãy ước lượng khoảng tin cậy 95% của trọng lượng trung bình của trẻ sơ sinh tỉnh Đồng Tháp. Tuy vậy các nhà thống kê đã chứng minh rằng giá trị trung bình của mẫu sẽ có phân phối bình thường và các giá trị trung bình này sẽ tập trung tại trung bình của dân số.statistics) và từ đặc trưng của mẫu chúng ta sử dụng phương pháp suy luận thống kê và lí giải để có được đặc trưng của dân số (được gọi là tham số parameter) Một loại mẫu thường được gặp trong nghiên cứu là mẫu ngẫu nhiên đơn. 14 .Ðại cương về phân tích số liệu Phép ước lượng Dân số và mẫu Thông thường chúng ta không thể nghiên cứu toàn bộ dân số mà chúng ta quan tâm. giá trị này được gọi là giá trị của phân phối t với (cỡ mẫu – 1) độ tự do. phần này được gọi là mẫu (sample) và từ đó ước đoán về những đặc tính của dân số. Trong nghiên cứu khoa học. Như vậy khoảng tin cậy 95% của trung bình của biến sô định lượng Khoảng tin cậy 95% (95% CI) : x ± 1. Rõ ràng là giá trị trung bình và độ lệch chuẩn sẽ khác nhau với những mẫu khác nhau. Khi lấy mẫu ngẫu nhiên đơn. = s = n s2 n Độ lệch chuẩn và sai số chuẩn là hai đại lượng thể hiện sự phân tán nhưng độ lệch chuẩn thể hiện sự phân tán của cá thể chung quanh giá trình trung bình dân số còn sai số chuẩn là đại lượng thể hiện sự phân tán của con số thống kê (trung bình mẫu hay tỉ lệ của mẫu) chung quanh giá trị của tham số (trung bình dân số hay tỉ lệ của dân số).96s/√n Trong trường hợp cỡ mẫu nhỏ (n < 30). Do đó nếu chúng ta tính trung bình của mẫu thì chúng ta hi vọng trung bình của dân số sẽ nằm ngay tại hay ở lân cận trung bình của mẫu.variable) để có được đặc trưng của mẫu (được gọi là thống kê . chúng ta có thể tính được giá trị trung bình và độ lệch chuẩn của mẫu. Khoảng tin cậy 95% (95% CI) : x ± t(1-α /2) × s/√n Bài tập: 1. Ðộ phân tán của trung bình mẫu xung quanh chung bình dân số được gọi là sai số chuẩn (standard error) và sẽ giảm đi khi cỡ mẫu càng lớn: s. Ước lượng khoảng tin cậy của trung bình Như chúng ta đã trình bày.e. trung bình của mẫu sẽ dao động nhưng tập trung tại giá trị trung bình của dân số. Chúng ta thường chỉ có thể nghiên cứu chỉ một phần dân số đó. chúng ta không chắc là trung bình mẫu sẽ chính xác bằng trung bình của dân số mà chỉ có thể tin là trung bình dân số nằm ở vị trí đâu đó chung quanh trung bình của dân số. chúng ta không thể sử dụng giá trị 1. Một nghiên cứu ghi nhận trên cỡ mẫu 1235 trẻ sơ sinh ở tỉnh Đồng Tháp cho thấy trọng lượng trung bình của trẻ sơ sinh là 3121 gram và độ lệch chuẩn là 435 gram. chúng ta đi từ đặc trưng của cá thể (biến số .96 như trong công thức trên mà cần phải sử dụng các giá trị hơi lớn hơn (và càng lớn nếu cỡ mẫu càng nhỏ). Các nhà thống kê cho rằng 95% các trường hợp trung bình dân số không nằm xa quá 1.

166. Để kiểm định một giả thuyết thống kê (được gọi là giả thuyết Ho) cần phải xác định miền xảy ra phổ biến của các con số thống kê (như trung bình. 2. Phép phản chứng trong logic học sử dụng bằng mệnh đề: Nếu A kéo theo B thì không B sẽ kéo theo không A. 15 .96 × p(1.26. Trước tiên chúng ta phải xác định trung bình của chiều cao là 168. Miền nằm ngoài miền xảy ra phổ biến của số thống kê được gọi miền bác bỏ.p ) n Bài tập Điều tra trên 127 thanh niên có 45 thanh niên hút thuốc lá. chúng ta cần xác định tỉ lệ p sau đó dựa vào p để ước lượng khoảng tin cậy 95% của p p − 1. Từ đó chúng ta tính được khoảng tin cậy 95% 95%CI=164. Trong kiểm định thống kê người ta cũng sử dụng các lập luận tương tự.271 đến 0.87 . 176.3145.493.4%). thống kê z. Hãy ước lượng khoảng tin cậy 95% của chiều cao trung bình.354 (35. khi chúng ta đưa ra giả thuyết chẩn đoán (thí dụ như chẩn đoán tắc ruột).) và nếu con số thống kê này nằm ngoài miền xảy ra phổ biến thì chúng ta sẽ bác bỏ giả thuyết Ho. Do cỡ mẫu là 10 chúng ta phải dò bảng phân phối t ở 9 độ tự do ta được giá trị t (tương ứng với khoảng tin cậy 95%) là 2.26 gram. Ước lượng khoảng tin cậy của tỉ lệ Để ước lượng khoảng tin cậy của một tỉ lệ.164.438 Suy luận thống kê Kiểm định ý nghĩa Phương pháp kiểm định ý nghĩa được Fisher đề xuất và dựa trên căn bản của phép phản chứng. 172. không bị bí trung tiện hay không có chướng bụng) thì chúng ta có thể bác bỏ chẩn đoán. 162. 170. Giả sử bệnh nhân không bí trung tiện thì chúng ta sẽ bác cỏ chẩn đoán tắc ruột với suy luận sau: Nếu bệnh nhân bị tắc ruột sẽ bí trung tiện thì bệnh nhân sẽ bí trung tiện.Sử dụng công thức trên ta tính được: 95%CI=3096. 176. Hãy tính tỉ lệ thanh niên hút thuốc lá và khoảng tin cậy 95% của tỉ lệ hút thuốc lá. không có nôn ói. thống kê chi bình phương. 169. Việc không có một trong các hậu quả phổ biến của giả thuyết này (thí dụ như bệnh nhân không có đau bụng. 165.74 .96 × n p(1.nôn ói. 172. Chiều cao của 10 thanh niên là 160. do bệnh nhân không bí trung tiện nên bệnh nhân không bị tắc ruột. Chúng ta tính được tỉ lệ hút thuốc lá ở thanh niên là 0. tỉ lệ.p ) đến p + 1. Các biến cố nằm ngoài các hệ quả phổ biến của giả thuyết (biến cố không có đau bụng. không có nôn ói. không bị bí trung tiện hay không có chướng bụng) được gọi là miền bác bỏ của chẩn đoán. thống kê t.v. Dựa vào công thức trên chúng ta tính được khoảng tin cậy 95% của tỉ lệ hút thuốc lá là 0.8 cm và độ lệch chuẩn của chiều cao là 5. v. bí trung tiện và chướng bụng). chúng ta thường sẽ xem xét các hệ quả phổ biến giả thuyết này (Bệnh nhân tắc ruột thường bị đau bụng. A⇒ B ⇔B⇒A Một thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ tắc ruột và chúng ta hỏi bệnh sử xem bệnh nhân có bí trung tiện hay không. Một cách tổng quan hơn.87.

uyết thống kê Ho là hút thuốc lá không phải là yếu tố nguy cơ của ung thư phổi và sử dụng phương pháp kiểm định để bác bỏ điều này. Vì vậy nếu chúng ta muốn chứng minh hút thuốc lá là yếu tố nguy cơ của ung thư phổi thì phải đặt ra giả th. Vùng diện tích dưới đường cong màu sẫm là miền bác bỏ giả thuyết Ho và có diện tích là xác suất sai lầm loại 1 (5%). Và nếu giá trị p nhỏ hơn ngưỡng bác bỏ nghĩa là thống kê T nằm trong vùng bác bỏ và chúng ta có thể bác bỏ giả thuyết Ho. các giá trị p thường được kí hiệu khác nhau tùy theo thống kê được sử dụng là thống kê gì. Cụ thể. ở phần mềm SPSS.Do diện tích miền bác bỏ là một con số cố định (thường là 0. Thí dụ ở phần mềm Epi-Info. Ở phần mềm Stata.Hình 1.Kiểm định dựa trên nguyên tắc phản chứng nghĩa là chúng ta chỉ có thể bác bỏ chứ không thể chứng minh được giả thuyết Ho. Kiểm định ANOVA) 16 .05). Đường cong phân phối hình chuông thể hiện phân phối của thống kê của z khi µ=0 (giả thuyết Ho). . trong phần mềm Stata. Nguyên tắc kiểm định ý nghĩa theo Fisher. Khi sử dụng kiểm định ý nghĩa chúng ta cần lưu ý các điểm sau: . Giá trị p được kí hiệu khác nhau trên các phần mềm thống kê. giá trị p được kí hiệu là Sig. Giả thuyết Ho không thể thể hiện bằng bất đẳng thức (Ho: RR>1 là sai) . giá trị p được kí hiệu là p-value. Xác suất này được gọi là giá trị p.Giả thuyết Ho phải thể hiện bằng đẳng thức (thí dụ như giả thuyết Ho: RR=1 hay Ho: điểm trung bình về bệnh lây truyền qua đường tình dục ở nam thanh niên = điểm trung bình về bệnh lây truyền qua đường tình dục ở nữ thanh niên ) thì mới có thể tính được phân phối của thống kê. Vùng diện tích dưới đường cong màu trắng thể hiện miền các thống kê z thường xảy ra nếu giả thuyết Ho là đúng. để xác định con số thống kê T có nằm trong miền bác bỏ hay không người ta tính xác suất xảy ra thống kê cực đoan hơn giá trị T nếu giả thuyết Ho là đúng (được thể hiện bằng công thức: P (>T | Ho) ). giá trị p được kí hiệu như sau: P > |T| (nếu kiểm định t) P > |z| (nếu kiểm định z) Prob > chi2 (kiểm định chi bình phương) Prob > F (Kiểm định F.

Một nhà thống kê học khác tên là Neyman đã đề ra phương pháp kiểm định giả thuyết trong đó có xét đến sai lầm loại 2. Bảng 1. Tóm tắt về sai lầm loại 1. Một điều nên nhớ là bằng kiểm định thống kê người ta có thể xác định được xác suất sai lầm loại một nhưng không thể tính được xác suất sai lầm loại hai mà chỉ có thể tính được dựa vào đối thuyết Ha và cỡ mẫu của nghiên cứu.i F ) Xaùc suaát sai K la à m lo a ïi 1 N ho û hoâng nho û t r a b a û n g tín h p Xaùc suaát sai K la à m lo a ïi 2 N ho û h o â n g n h o ûc T h ö ïc h ie ä n n g h ie â n öùu vôùi côõ m aãu lô ù n h ô n B a ù c b o û g ia û th u y e á t C h a á p n h a ä n g ia û th u y e á t Sai lầm loại một và sai lầm loại hai Sai lầm loại một: bác bỏ giả thuyết H0 trong khi giả thuyết H0 là đúng. Sai lầm loại hai: Không bác bỏ giả thuyết H0 trong khi giả thuyết H0 sai.xác suất sai lầm loại 2. sai lầm loại 2 và giá trị ngưỡng của nó Chân lí là Ho đúng (Không có sự khác biệt) Bác bỏ giả thuyết H0 Sai lầm loại (Xác suất = α ) Kết luận (Xác suất = 1-α ) Chân lí là Ha đúng (Không có sự khác biệt) 1 Kết luận đúng (Xác suất = 1-β = Power của nghiên cứu) đúng Sai lầm loại (Xác suất = β ) II Không bác bỏ giả thuyết H0 Chọn lựa kiểm định phù hợp Như vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như nhau). HH a T ín h s o á th o á n g k e â ( z . 17 . Ðôi khi người ta còn sử dụng khái niệm năng lực (power) của kiểm định thống kê. Khái niệm năng lực của thống kê hay được dùng trong tính cỡ mẫu.Kiểm định giả thuyết Khuyết điểm của phương pháp kiểm định ý nghĩa khi không bác bỏ được giả thuyết H0 chúng ta không biết được xác suất H0 đúng là bao nhiêu. người nghiên cứu có thể bị sai lầm (sai lầm loại một với một xác suất nào đó).cũng với một xác suất nào đó). Khi nhà nghiên cứu không bác bỏ giả thuyết H0. Các kiểm định chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết H0. Trong nghiên cứu thống kê người ta không bao giờ có thể chắc chắn. t . nhà nghiên cứu cũng có thể bị sai lầm (sai lầm loại hai . khi nhà nghiên cứu đi đến kết luận bác bỏ giả thuyết H0. Việc lựa chọn này phụ thuộc vào biến số của vấn đề quan tâm và thiết kế của nghiên cứu. Năng lực của kiểm định thống kê = 1 . P h a ù t b i e å 0n . c h2 . Do vậy.

77:987) cho rằng chế độ ăn giảm carbonhydrate có thể cải thiện tình 18 . OR.Danh định t-test không bắt cặp Phân tích phương sai Phân tích phương sai đo lường lập lại Cochrance Q Hồi quy tuyến tính và tương quan pearson Hệ số của bảng n x m (phi.Bảng 10. đa biến tự) (hoặc thứ tự) ANOVA Kruskal-Wallis Chi bình phương Hồi quy tuyến tính TQ Spearman Hồi quy logistic Hồi quy Cox Wilcoxon tổng quát Wilcoxon tổng quát Logrank Logrank Phép kiểm t bắt cặp Tiên lượng của bệnh nhân suy hô hấp mãn tính tăng carbonic thường kém (tỉ lệ tử vong trong 3 năm thay đổi từ 30% đến 100%) và hiện tại chưa có phương pháp điều trị hữu hiệu. Chọn lựa kiểm định phù hợp theo thiết kế nghiên cứu Loại thiết kế nghiên cứu Hai nhóm điều trị gồm các cá nhân khác nhau Ba (hay nhiêù) nhóm điều trị gồm các cá nhân khác nhau Trước và sau một điều trị (hoặc 2 điều trị) ở trên cùng các đối tượng t-test bắt cặp Nhiều điều trị trên cùng các đối tượng Liên hệ giữa hai biến số Thang đo của biến số phụ thuộc Ðịnh lượng (mẫu rút từ một dân số có phân phối bình thường và phương sai hai nhóm đồng nhất Ðịnh tính . RR) hệ số tương quan Spearman χ 2 bảng 2 xn χ 2 bảng 3 xn test McNemar Ðịnh tính -Thứ tự (hay biến định lượng không bình thường) Kiểm định tổng sắp hạng MannWhitney KruskalWallis Kiểm định sắp hạng có dấu Wilcoxon Friedman Bảng 11. Tilapur và Mir (Am J Med 1984. Chọn lựa kiểm định phù hợp để tìm sự liên hệ giữa biến độc lập và biến phụ thuộc Biến phụ thuộc Nhị giá Định lượng phân phối bình thường Biến định lượng phân phối không bình thường – Biến thứ tự Nhị giá Sống còn T-test Mann-Whitney Chi bình phương Biến độc lập Danh định (hoặc thứ Định lượng.

phù và tăng áp phổi) với chế độ điều trị bằng chế độ ăn 600 Kcal và ghi nhận PaO2 (phân áp oxy động mạch) và PaCO2 (phân áp carbon dioxide động mạch) trước và sau điều trị. gan lớn. 19 . Các nhà nghiên cứu này tiến hành thực nghiệm trên 8 người suy hô hấp mãn tính (có dấu hiệu của tim lớn.trạng hô hấp. Kết quả nghiên cứu được trình bày trong Bảng 1. Hãy so sánh trung bình của phân áp oxy động mạch trước và sau khi điều trị.

484 s=0. độ tự do. huyết áp tâm thu và huyết áp tâm trung ở 13 bệnh nhân tăng huyết áp tăng catecholamine và 9 bệnh nhân tăng huyết áp không tăng catecholamine Tăng catecholamine Số bệnh nhân catecholamine huyết thanh (ug/mL) 13 x=0.060 20 . Kết quả của nghiên cứu được trình bày trong bảng 2. Bước 5: Kết luận Vì giá trị p= 0. Phép kiểm t (không bắt cặp) Nhằm tìm hiểu vai trò của catecholamine trong tăng huyết áp vô căn.133 Không tăng 9 x=0. Phân áp Oxy động mạch và phân áp CO2 động mạch trên 8 đối tượng trước và sau chế độ điều trị với chế độ ăn giảm carbonhydrate Đối tượng 1 2 3 4 5 6 7 8 Pa02 trước 70 59 53 54 44 58 64 43 Pa02 sau 82 66 65 62 74 77 68 59 Hiệu số 12 7 12 8 30 19 4 16 PaC02 trước 49 68 65 57 76 62 49 53 PaC02 sau 45 54 60 60 59 54 47 50 Hiệu số -4 -14 -5 3 -17 -8 -2 -3 Thực hành: Bước 1: Xây dựng giả thuyết Ho: Ho: Phân áp oxy động mạch trước và sau điều trị không thay đổi Bước 2: Chọn kiểm định phù hợp Kiểm định phù hơp là kiểm định t bắt cặp với 7 độ tự do Bước 3: Tính thống kê t Tính trung bình và độ lệch chuẩn của biến số d (hiệu số của phân áp oxy động mạch trước và sau điều trị) để tính thống kê t d =13 . de Champlain (Circ Res 1976.63 ở 7 độ tự do chúng ta đánh công thức "=tdist(4. 2). 2) vào một ô. Trung bình và độ lệch chuẩn của Luợng catecholamine huyết thanh. Hãy so sánh nhịp tim ở hai nhóm. Bảng 1. nhịp tim.63. nhóm có tăng catecholamine và nhóm không tăng catecholamine.66 s/ n Bước 4: tính xác suất của giá trị thống kê t Để tính xác suất của giá trị thống kê t ta sử dụng hàm tdist(giá trị t.206 s=0. t = d = 4. Cụ thể để tính p tương ứng với giá trị t = 4. 38:109) nghiên cứu 22 bênh nhân tăng huyết áp vô căn (gồm 13 người có nồng độ catecholamine cao và 9 bình thường).05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là phân áp oxy động mạch có cải thiện sau khi điều trị.002397687 nhỏ hơn 0. sd = 8. huyết áp tâm thu.2. Kết quả ta được giá trị p= 0. 7.5. huyết áp tâm trương.002397687.Bảng 1. ghi nhận nhịp tim.

7.3.21 (n1 −1) + (n2 −1) (Để dễ nhớ công thức tính độ lệch chuẩn gộp chúng ta cần lưu ý phương sai gộp là trung bình của phương sai của mỗi nhóm với trọng số là độ tự do của phương sai đó) Sau đó chúng ta tính thống kê t ( x1 − x2 ) t= = 2.1. 10.7 x=103. 282.4. Số liệu từ Anionwo et al.5 x=171. (si) 0.4.5.9 x=95. (1981) British Medical Journal. 9. Bảng 7.0. 8.8.44 s 1 / n1 + 1 / n2 Bước 4: tính xác suất của giá trị thống kê t Sử dụng máy vi tính chúng ta tính được giá trị p= 0. BMJ. Phân tích phương sai một chiều: sự khác biệt trong nồng độ hemoglobin giữa các bệnh nhân bị các loại bệnh hồng cầu liềm khác nhau.7.2.0 s=8.6 s=12. 8.1. (1981. 8.4 s=9.1.712 s.844 Giá trị của các cá thể hemoglobin g% (x) 7.8 s=13. 283-6 (a) Số liệu Loại bệnh hồng cầu Số bệnh Trung bình liềm nhân (ni) (xi) Hb SS 16 8. Phân tích phương sai Anionwo et al.3 x=77.7 s=11. 10. 8.2 x=147.1.9 Thực hành: Bước 1: Xây dựng giả thuyết Ho: Ho: Trung bình nhịp tim ở nhóm bệnh nhân có tăng catecholamine = nhịp tim trung bình ở nhóm bệnh nhân không tăng catecholamine Bước 2: Chọn kiểm định phù hợp Kiểm định phù hơp là kiểm định t với (n1+n2-2) = 20 độ tự do Bước 3: Tính thống kê t Trước tiên chúng ta phải tính độ lệch chuẩn gộp sp = 2 (n1 −1) s12 + (n2 −1) s2 = 12 . 8.Nhịp tim Huyết áp tâm thu Huyết áp tâm trương x=90. 7.1.05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là giữa hai nhóm bệnh nhân có sự khá biệt về nhịp tim trung bình.024123071 nhỏ hơn 0.3 s=13.d. 8. 9.3 21 . 282:283) muốn tìm hiểu xem mức hemoglobin trong 3 nhóm bệnh hồng càu liềm có khác nhau hay không bằng cách ghi nhận mức hemoglobin ở 3 nhóm bệnh nhân. 9. 8.6. 8.05) Bước 5: Kết luận Vì giá trị p= 0.024123071 (nếu sử dụng bảng số thống kê chúng ta sẽ tìm được p <0. 9.

38) độ tự do .22/41=99.f. 12.00 Các giá trị ở trên có thể tính theo công thức sau: Giữa các nhóm SSb= Σ ni× (xi-x)2= Σ nixi2-(Σ x)2/N = 16 × 8.84452 + 9 x 1. 9.1. 10. 13.85 2 38 40 49. F tới hạn= 3. 12. MS=SS/d.8.630 13. Chúng ta cũng có thể dựa vào bảng thống kê F để tìm được p <0.92 37. P<0.300 1. MS giữa các nhóm F= ---------------------------MS bên trong nhóm 50. 11.3.f.001 Giữa các nhóm Trong các nhóm Tổng cộng 99. 11.96 1. 11.Hb thalassaemia Hb SC S/b- 10 15 10.32 Bước 3: Lập bảng ANOVA và Tính thống kê F Chúng ta lập thành bảng phân tích phương sai như sau: Nguồn biến thiên SS d.7.số nhóm) = (2. 12.942 8. 12.9 Hãy sử dụng kiểm định thống kê phù hợp để so sánh nồng độ Hemoglobin trung bình ở 3 nhóm bệnh nhân bị hồng cầu liềm. số quan sát . 11.9419 = 37.4. 11.430. 12.0. 13. 13. Và giá trị thống kê F F = MSb/MSw Bước 4: tính xác suất của giá trị thống kê F Dựa vào máy tính chúng ta tính được giá trị p= 2.92 dfb = k-1 = 2 MSb = SS/d. 22 . 11. 10. Trong các nhóm SSw = Σ (ni -1)si2 =15 x 0.5. 11.0.f.001 Bước 5: Kết luận Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho nghĩa là ba nhóm bệnh nhân bệnh hồng cầu liềm có giá trị hemoglobin trung bình khác nhau có ý nghĩa thống kê.k = 41-3 = 38 MSw = SS/d.6.7.6.71252+10 × 10. 10.9.1.28412 + 14 x 0. Thực hành: Bước 1: Xây dựng giả thuyết Ho: Ho: Trung bình Nồng độ hemoglobin ở 3 nhóm bệnh HC liềm bằng nhau Bước 2: Chọn kiểm định phù hợp Kiểm định phù hợp là phương pháp phân tích phương sai (ANOVA) với thống kê F với (số nhóm.1.96 dfw= N .9.3002 .6. 12. 12.6.2.63002+15 × 12. 10.1 10.284 0.0.8.f.95 137.26 x 10-11.3.03 .8. 13.3.

f .2) 2 + + + 52 . d .Phép kiểm chi bình phương Có 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm placebo.2) 2 (80 − 47 .4%) 100 a c a+c Không mắc 220 140 360 b d b+d Tổng 240 220 460 a+b c+d N Để tính thống kê chi bình phương có hai cách: Phương pháp chính thức: .3%) 80 (36.8) 2 ( 220 −187 .Tính các giá trị kì vọng (E) ở các ô. Sự tương quan của hai biến số định tính Mức độ liên hệ giữa tiêm chủng vaccine và mắc bệnh cúm 23 .Tính giá trị chi bình phương theo công thức χ2 = Σ (O − E ) 2 .8) 2 (140 −172 .31 x 10-13 nghĩa là giá trị của p rất nhỏ. Bước 5: Kết luận Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho.2 47 . Sử dụng bảng số chúng ta biết được p < 0.8 187 .8 172 .001.2 =19 . Chúng ta có thể kết luận tỉ lệ mắc cúm ở nhóm tiêm vaccine thấp hơn có ý nghĩa thống kê so với nhóm tiêm placebo.69 +5.86 + 21. giá trị kì vọng của ô c Ec = (a+b) × (c+d) /N) .52 + 6.02 = 53 . = (soá haøng1) ×(soá -1) coät E Trong thí dụ này χ2 = ( 20 −52 . Trong nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm.09 Công thức tính tắt cho bảng 2 × 2 χ2 = (ad − bc ) 2 N ( a + b)( a + c )( c + d )( b + d ) Bước 4: tính xác suất của giá trị thống kê χ 2 Sử dụng máy vi tính chúng ta được giá trị p= 3. giá trị kì vọng của một ô bằng tích các ô biên chia cho tổng số chung (thí dụ giá trị kì vọng của ô a Ea = (a+b) × (a+c) /N. Hãy so sánh tỉ lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm? Thực hành Bước 1: Xây dựng giả thuyết Ho: Ho: Tỉ lệ mắc cúm ở nhóm tiêm vaccine = tỉ lệ mắc cúm ở nhóm không tiêm vaccine Bước 2: Chọn kiểm định phù hợp Kiểm định phù hợp là kiểm định chi bình phương với 1 độ tự do Bước 3: Lập bảng 2 x 2 và Tính thống kê chi bình phương Lập bảng 2 x 2 như sau Kết quả Mắc bệnh cúm Tiêm chủng Có Placebo Tổng 20 (8.

Trong nhóm bị viêm ruột hoại tử có 50 trường hợp có tiền căn ăn thịt (gần đây) và trong nhóm chứng có 16 trường hợp có tiền căn ăn thịt.6) 1. Table 5. RR = (a1/b1)/(a0/b0) Khoảng tin cậy 95% của tỉ số số chênh: OR × ÷e Bài tập Một nghiên cứu bệnh chứng nhằm tìm mối liên hệ giữa sự ăn thịt và viêm ruột hoại tử đã tìm được 61 trường hợp viêm ruột hoại tử và 57 trường hợp chứng. Giả sử số liệu của bảng 2 x2 nằm ở vùng C2:D3 chúng ta có thể tính RR bằng cách nhập công thức "=MHRR(C2:D3)" ta được RR=0.23 với khoảng tin cậy 95% của RR từ 0.15 đến 0.36 So sánh tỉ lệ của biến số nhị giá : Kiểm định chi-bình phương Khi hai biến số là biến số nhị giá người ta sử dụng giá trị RR hay OR để đo lường mức độ liên hệ (xem lại phần các số đo dịch tễ). Kết quả Mắc bệnh Biến số phơi Phơi nhiễm nhiễm Không phơi nhiễm Tổng Không bệnh mắc Tổng a1 ao a1+a0 b1 b0 b1+b0 N1 N0 N=N1+N0 Tỉ số nguy cơ (RR) là tỉ số của nguy cơ của nhóm phơi nhiễm trên nguy cơ của nhóm không phơi nhiễm: RR = (a1/N1)/(a0/N0) Khoảng tin cậy 95% của tỉ số nguy cơ: RR × ÷e 1.Mức độ liên hệ giữa hai biến số định tính được ước lượng bằng cách sử dụng RR (hoặc OR nếu trong nghiên cứu bệnh chứng). Hãy tìm ước lượng số đo liên hệ giữa ăn thịt và viêm ruột hoại tử. 96 RR χ2 (test-based CI) Tỉ số số chênh (OR) là tỉ số của số chênh mắc bệnh của nhóm phơi nhiễm trên số chênh mắc bệnh ở nhóm không phơi nhiễm. 96 × 1 1 1 1 − + − a1 N1 a0 N 0 hay 1± 1. 96 × 1 1 1 1 + + + a1 b1 a0 b0 Ăn thịt trong thời gian gần đây Nhóm bệnh Nhóm chứng Tổng số 50 16 66 a1 a0 Không ăn thịt trong thời gian gần đây 11 41 52 b1 b0 Tổng số 61 57 118 24 . Trong trường hợp nghiên cứu bệnh chứng tỉ số số chênh là tỉ số của số chênh phơi nhiễm của nhóm bệnh trên số chênh phơi nhiễm ở nhóm không chứng. Sự liên hệ giữa ăn thịt trong thời gian gần đầu và viêm ruột hoại tử ở Papua New Guinea (OR=11.

23 Khoảng tin cậy 95% của tỉ số nguy cơ: RR × ÷e 1. . Nếu chúng có giá trị dương có nghĩa là hai biến số đồng biến với nhau.Hệ số tương quan luôn luôn nằm trong đoạn [-1. Khi trị tuyệt đối của hệ số tương quan bằng một có nghĩa là hoàn toàn không có sai số ngẫu nhiên. Trong nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm.15 đến 0.36 Quan hệ giữa hai biến số định lượng Tương quan Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau.87 đến 27. nhưng chúng đều có giá trị từ -1 đến 1.3%) a1 Không mắc 220 140 360 b1 d Tổng 240 N1 80 a0 (36.Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số. Giá trị tuyệt đối của hệ số tương quan càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai trò của sai số ngẫu nhiên sẽ ít hơn. Nếu trị tuyệt 25 . Đây là bài toán so sánh tỉ lệ của một biến số định tính ở hai nhóm và được giải quyết bằng kiểm định chi bình phương. hệ số tương quan r âm chứng tỏ hai biến số là nghịch biến. Nếu chúng có giá trị bằng zero có nghĩa là hai biến số độc lập và không quan hệ gì với nhau. Hãy so sánh tỉ lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức độ liên hệ giữa vaccine cúm và bệnh cúm? Kết quả Mắc bệnh cúm Tiêm chủng Có Placebo Tổng 20 (8.Nếu tỉ lệ ăn thịt ở nhóm bệnh (50/61) cao hơn tỉ lệ ăn thịt trong nhóm chứng (16/57) có ý nghĩa thống kê thì chúng ta có thể kết luận rằng có sự liên quan giữa ăn thịt và viêm ruột hoại tử. Có nhiều loại hệ số tương quan.Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến.4%) 100 220 460 N0 N Ta tính được RR = (a1/N1)/(a0/N0) = (20/240)/(80/220) = 0. Bởi vì đây là nghiên cứu bệnh chứng chúng ta không tính được RR mà phải sử dụng OR để đo lường sức mạnh liên hệ. Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r: r= ∑( x − x )( y − y ) ∑( x − x ) ∑( y − y ) i i 2 i i 2 = (Σxy ) / n − x × y n × σ x ×σ y n −1 Lí giải ý nghĩa của hệ số tương quan Pearson .85 Bài tập Có 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm placebo. nếu chúng có giá trị âm nghĩa là hai biến số nghịch biến. 96 × 1 1 1 1 − + − a1 N1 a0 N 0 = 0. Sử dụng công thức tính OR và khoảng tin cậy của OR ta được: OR = (a1/b1)/(a0/b0) = (a1 × b0)/(a0 × b1) = 11.1] . Tuy nhiên bằng việc kiểm định giả thuyết chúng ta chỉ xác định có mối liên hệ mà không biết độ lớn của sự liên hệ.65 và khoảng tin cậy 95% của OR = 4.

18: hệ số của biến số tháng tuổi. Đối tượng Lượng muối Huyết áp 1 2 3 4 5 5 10 12 18 20 110 120 110 120 140 Hãy tìm mối liên hệ giữa huyết áp tâm thu và lượng muối sử dụng. quan hệ hoàn toàn tuyến tính nghĩa là tất cả các điểm nằm trên đường hồi quy (Hình 9. Hồi quy Hồi quy là một mô hình toán học mô tả sự biến đổi của một biến số này theo những biến số khác. quan hệ với r từ 0. Thực hành 26 .5 quan hệ trung bình và trên 0. x2. x3 là các biến số độc lập b0: điểm chặn của phương trình b1. Cụ thể hơn nếu biến số x2 thay đổi một đơn vị thì biến số y sẽ tăng giá trị là b2 (biến số y sẽ giảm nếu giá trị b2 âm).85: hệ số của hằng số. Một cách tổng quát phương trình hồi quy sẽ có dạng: Y = b0 + b1 x1 + b2 x2 + b3 x3 Với y là biến số phụ thuộc x1.Nếu r=0. Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu phân tán chung quanh đường hồi quy (hình 9.2b) .18 × tháng tuổi (phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi) theo phương trình này người ta gọi: cân nặng: biến số phụ thuộc tháng tuổi: biến số độc lập 6. . Bài tập 1. Ðiều này có nghĩa là (1) không có mối liên hệ gì giữa hai biến số hoặc (hình 9. từ 0.Theo quy ước.5 là quan hệ mạnh.2a) (2) mối liên hệ giữa hai biến số không phải là tuyến tính (hình 9. Một phương trình hồi quy có thể có dạng như sau: cân nặng (kg) = 6.2 c và 9. b2.3 là quan hệ yếu. không có mối liên hệ tuyến tính giữa hai biến số.1 đến 0.đối của r bằng 1 (r=1 hay r=-1). b3 : hệ số của các biến số độc lập Hệ số của biến số độc lập nói lên nếu biến số độc lập tăng một đơn vị thì biến số phụ thuộc y sẽ thay đổi bao nhiêu.2 d và 9.3 đến 0.Bình phương của hệ số tương quan (r2) thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả) . Một nhà nghiên cứu ghi nhận lượng muối ăn và huyết áp tâm thu của 5 đối tượng trong bảng 4.2e). hay còn gọi là điểm chặn (intercept) 0.2f).85 + 0.

Mối liên quan này là mạnh và lượng muối ăn giải thích cho đến 60% (0.55 mmHg.Để tìm sự liên hệ giữa hai biến số định lượng chúng ta sử dụng hệ số tương quan. Lý giải ý nghĩa của phân tán đồ sau Figure 8.55 là hệ số góc của biến số lượng muối tiêu thụ. Dựa vào công thức ta tính được r = 0. Giá trị 99.77 × 0.8 được gọi là điểm chặn của phương trình hồi quy và 1. 2. Điều này có nghĩa là nếu lượng muối ăn tăng thêm 1 gram/ngày thì huyết áp tâm thu sẽ tăng trung bình 1. Trọng lượng sơ sinh theo tuổi thai (tuần) của 641 trẻ sinh do thụ thai trong ống nghiệm ở Anh quốc 5000 4000 trong luong tre 3000 2000 1000 0 20 24 28 32 tu o i th a i 36 40 44 27 .771829. Như vậy có mối liên quan thuận giữa lượng muối ăn và huyết áp tâm thu.77) sự thay đổi của huyết áp tâm thu.8 mmHg + 1.55 x Lượng muối. Chúng ta cũng tìm được phương trình của huyết áp theo lượng muối tiêu thụ sẽ là: Huyết áp tâm thu = 99.

Xác định các tiêu chuẩn để chọn lựa các vấn đề y tế ưu tiên để nghiên cứu . Bạch hầu. độ bao phủ của dân số mục tiêu. Thí dụ nếu tỉ lệ tiêm chủng đủ 6 loại vaccine của các bệnh Lao. Một vấn đề cần được nghiên cứu phụ thuộc và ba điều kiện: 1. Bại liệt. Thí dụ việc điều trị cho bệnh nhân sốt rét không tốt do trạm y tế không có đủ thuốc sốt rét để điều trị sốt rét cho bệnh nhân thì vấn đề này được gọi là vấn đề quản lí và cần được giải quyết bằng cách làm việc với chương trình sốt rét để cung cấp thêm thuốc. Sởi ở trẻ em 12 tháng tuổi tại một địa phương là 60% trong khi chúng ta mong muốn tỉ lệ tiêm chủng đầy đủ là 90% thì tỉ lệ tiêm chủng thấp là một vấn đề.Xác định và chọn ưu tiên nghiên cứu Mục tiêu Sau buổi thảo luận các hội thảo viên có thể: . Thí dụ. khoảng cách giữa điều đang tồn tại và điều chúng ta mong muốn 2. Vấn đề có thể xảy ra do thiếu hụt trang thiết bị. Tính khả thi: Cần xem xét mức độ phực tạp của đề tài và nguồn lực cần thiết để tiến hành 28 . Nếu tỉ lệ tiêm chủng vaccine viêm gan virus B ở trong dân số là 30% trong khi chúng ta không đặt ra chỉ tiêu tiêm chủng của loại vaccine này thì tỉ lệ tiêm chủng vaccine viêm gan virus B 30% không phải là vấn đề.Mô tả vấn đề y tế để nhằm xây dựng kế hoạch can thiệp: mô tả có thể bao gồm các thông tin về độ lớn và phân bố của nhu cầu sức khoẻ hoặc thông tin về nguồn lực nhằm xây dựng kế hoạch can thiệp.Sử dụng các phương pháp đồng thuận nhóm để chọn một chủ đề thích hợp để thực hiện đề cương nghiên cứu và đề cương này sẽ được sử dụng trong suốt khoá đào tạo Xác định vấn đề Vấn đề là một thiếu sót hay khoảng cách giữa hiện tại và điều mong đợi. Phải có nhiều hơn một câu trả lời cho vấn đề nghiên cứu đó Tiêu chuẩn chọn ưu tiên cho vấn đề nghiên cứu Có 7 tiêu chuẩn được sử dụng để hướng dẫn chọn ưu tiên cho các vấn đề nghiên cứu: 1. Kiến thức đề xác định các vấn đề y tế hay phân tích nguyên nhân của vấn đề để tìm giải pháp. Phải có sự bất cập. Cần lưu ý tính xác hợp của vấn đề phụ thuộc vào quan điểm của các bên. Tính xác hợp: Tính xác hợp của vấn đề nghiên cứu phụ thuộc vào quy mô và mức độ trầm trọng của vấn đề. chi phí. Kiến thức để đánh giá một chương trình can thiệp hay một phác đồ điều trị về các phương diện: độ bảo phủ của nhu cầu sức khoẻ. Đôi khi vấn đề xảy ra do chúng ta không có đủ kiến thức về vấn đề đó. chất lượng. nghiên cứu Khi đó vấn đề này là vấn đề nghiên cứu và câu hỏi mà chúng ta cần phải trả lời để giải quyết vấn đề nghiên cứu được gọi là câu hỏi nghiên cứu. Lí do của vấn đề đó (khoảng cách) là chưa rõ 3.v 3. 2. v. Các câu hỏi nghiên cứu có thể được phân thành ba loại tuỳ theo loại kiến thức cần tìm: 1. do cơ cấu tổ chức thì vấn đề được gọi là vấn đề quản lí.Làm việc theo nhóm nhỏ. Tránh trùng lắp: Cần phải kiểm tra xem nghiên cứu đã được thực hiện ở tại địa phương hay không hay tại một địa phương có điều kiện tương tự hay không 3. Uốn ván. nếu chúng ta không thể điều trị tốt bệnh nhân sốt rét do chúng ta không biết được kí sinh trùng sốt rét đã kháng với loại thuốc nào và còn nhạy cảm với thuốc chống sốt rét nào. 2. Ho gà. hiệu quả. dùng các tiêu chuẩn đã chọn để xác lập ưu tiên nghiên cứu .

thời gian. Tính được chấp nhận từ các nhà quản lí: Nói chung một nghiên cứu cần được sự quan tâm và ủng hộ của các cấp có thẩm quyền. 7. Nếu vấn đề là quan trọng mà nguồn lực không đủ có thể xem xét việc xin tài trợ từ các nguồn ở bên ngoài. Nếu một nghiên cứu được tiến hành nhằm thay đổi một chính sách thì cần phải tranh thủ sự ủng hộ và sự tham gia của các nhà hoặch định chính sách. Nghiên cứu rất khả thi với nguồn lực sẵn có Tính chấp nhận của cấp lãnh đạo 1. Thông tin không cấp thiết cần thiết 2. Không xác hợp: bệnh ít gặp và không trầm trọng 2. Nghiên cứu không khả thi với tài nguyên sẵn có 2. Xác hợp: bệnh phổ biến nhưng ít trầm trọng 3. Chủ đề được chấp nhận hoàn toàn Tính ứng dụng 1. Rất xác hợp: phổ biến có hậu quả xấu Tránh trùng lắp 1. trang thiết bị và tiền bạc. Khuyến cáo có nhiều cơ hội được thực hiện Tính cấp thiết 1. 6. Nghiên cứu khả thi với nguồn lực sẵn có 3. Khi đó nghiên cứu được tiến hành một cách thuận lợi hơn và kết quả có thể được ứng dụng để đưa vào thực tiễn.nghiên cứu: nhân sự. Tính cấp thiết của đề tài: Kết quả của nghiên cứu có cần thiết để ra một quyết định khẩn cấp hay không? Nghiên cứu nào cần phải làm trước và nghiên cứu nào có thể thực hiện sau. Nghiên cứu này có sử dụng thư mời chấp nhận tham gia nghiên cứu hay không? Nếu kết quả phát hiện bệnh tật ở người dân có cung cấp điều trị cho họ hay không? Thang điểm đánh giá các chủ đề nghiên cứu Tính xác hợp: 1. Thông tin rất cần thiết để ra quyết định 29 . Tính ứng dụng của kết quả và các kiến nghị Các kiến nghị có thể được áp dựng hay không? Điều này không chỉ phụ thuộc vào sự quan tâm của các cấp lãnh đạo mà còn phụ thuộc vào nguồn lực hiện có tại địa phương. Khuyến cáo ít cơ hội được thực hiện 2. Tính chấp nhận về đạo đức: Bao gồm sự chấp nhận của cộng đồng kể cả về mặt lợi ích và văn hoá. Không có thông tin để giải quyết vấn đề Tính khả thi 1. Khuyến cáo có ít nhiều cơ hội được thực hiện 3. Chủ đề không chấp nhận được với lãnh đạo 2. Đã đủ thông tin về vấn đề nghiên cứu 2. Thông tin cần thiết ngay nhưng có thể trì hoãn 3. 4. 5. Chủ đề ít nhiều khó chấp nhận 3. Có thông tin về vấn đề nghiên cứu nhưng chưa bao phủ vấn đề chính 3.

Tính xác hợp 2. Y đức Tổng số Vấn đề 2 Vấn đề 3 Vấn đề 4 30 . Không có vấn đề đạo đưc Bảng điểm Vấn đề 1 1. Có một ít trở ngại về đạo đức 3. Tính cấp thiết 7. Tránh trùng lắp 3. Khả thi 4. Có vấn đề quan trọng về đạo đức 2. Tính ứng dụng 6.Tính chấp nhận về đạo đức 1. Được lãnh đạo chấp nhận 5.

vấn đề trở thành nhiều vấn đề nhỏ: Tỉ lệ chữa khỏi ở bệnh nhân điều trị bằng DOTS thấp Nhân viên y tế không đảm bảo đúng chức năng giám sát 31 . nhiễm toan chuyển hóa. v. Điều này là cần thiết bởi vì đôi khi quan điểm của nhà quản lí không thể hiện một cách rõ ràng mà chỉ có thể là "Vấn đề chăm có bệnh nhân tiểu đường cần phải xem lại". Bước 1: Làm rõ quan điểm của nhà nghiên cứu. “Cần nghiên cứu vấn đề bỏ tuyến”.Viết ra vấn đề cốt lõi ở giữa tờ giấy .khi vấn đề dưới dạng trình bày rõ ràng. Phân tích một vấn đề và các yếu tố ảnh hưởng đến nó 2. Việc phân tích vấn đề nhằm các mục đích: 1. bao gồm bản chất của vấn đề. nhân viên y tế và nhà nghiên cứu có liên quan đến vấn đề. do mất nước. Do vậy nó cần được làm rõ Bước 2: Chuyên biệt và mô tả vấn đề cốt lõi. dịch vụ y tế và các yếu tố bệnh tật. do ổ nhiễm trùng tiềm ẩn. Cho phép các thành viên nghiên cứu chia xẻ kiến thức về vấn đề nghiên cứu 2.Động não để tìm ra các yếu tố có ảnh hưởng đến vấn đề .Đôi khi quan điểm của nhà lãnh đạo được phát biểu chưa rõ ràng thí dụ như : “Cần xem xét lại việc chăm sóc bệnh nhân tiểu đường”. Làm thuận lợi hơn việc quyết định về phạm vi và trọng tâm của nghiên cứu Các bước để phân tích vấn đề Bước 1: Làm rõ các quan điểm của các nhà quản lí. Viết phần đặt vấn đề cho đề cương nghiên cứu mà mình sẽ phải xây dựng Phân tích vấn đề Phân tích vấn đề là công việc xác định vấn đề cốt lõi từ vấn đề nghiên cứu và xác định các yếu tố ảnh hưởng đến vấn đề cốt lõi đó. Khi đó chúng ta cần thảo luận và khẳng định dưới dạng vấn đề là khoảng cách giữa “hiện tại” và “điều mong muốn” . Vấn đề này có thể do nhiều vấn đề nhỏ khác nhau như: tăng áp lực thẩm thấu.Xác định thêm các yếu tố góp phần vào vấn đề . Bước này được chia làm 4 bước nhỏ: . do bệnh nền. Thí dụ: một bác sĩ hồi sức cấp cứu nhận xét tỉ lệ tử vong ở những bệnh nhân hôn mê do đái tháo đường là rất cao do không xác định được phác đồ điều trị phù hợp cho các bệnh nhân này. nhân viên y tế và nhà lãnh đạo . phân bố của vấn đề và quy mô và mức độ trầm trọng của vấn đề cốt lõi Bước 3: Phân tích vấn đề: các yếu tố góp phần vào vấn đề và cần làm sáng tỏ mối quan hệ giữa vấn đề và yếu tố góp phần.v. Làm rõ vấn đề nghiên cứu và các yếu tố ảnh hưởng đến nó 3.Phân các yếu tố có liên quan thành các nhóm: kinh tế xã hội. Giả sử người bác sĩ xác định nhiễm toan chuyển hóa là nguyên nhân chủ yếu của tử vong ở các bệnh nhân hôn mê đái tháo đường và ông ta liệt kê các các yếu tố ảnh hưởng đến toan chuyển hóa thì đây là việc phân tích vấn đề Bước này có thể đơn giản hay phức tạp tùy theo mức độ hiểu biết về vấn đề nghiên cứu của nhà nghiên cứu. “Khảo sát vấn đề điều trị DOTS”.Phương pháp phân tích và khẳng định vấn đề nghiên cứu Mục tiêu Sau khi hoàn tất buổi tập huấn các hội thảo viên có thể: 1.

Vấn đề thường được vẽ với 2 đường viền để phân biệt với các yếu tố ảnh hưởng.chọn vấn đề cốt lõi từ các vấn đề nhỏ Bệnh nhân tiểu đường có biến chứng cao Tỉ lệ tái nhập viện cao trong những bệnh nhân tiểu đường . Y e á u to á Vaán ñeà Y e á u to á \ Quá trình này bao gồm các bước sau: Bước 3.Mô tả vấn đề cốt lõi theo: Bản chất: sự khác biệt về “hiện tại” và “mong muốn” Phân bố của vấn đề: Con người.3: Tiếp tục tìm ra các yếu tố ảnh hưởng và góp phần sao cho các yếu tố này là yếu tố có thể thay đổi.Bệnh nhân không tuân thủ lịch điều trị Bệnh nhân tiểu đường và thân nhân không có nhận thức đủ về tiểu đường và tự chăm sóc trong tiểu đường Bệnh nhân tiểu đường có biến chứng cao Bệnh nhân tiểu đường ít dung nạp với điều trị Tỉ lệ tái nhập viện cao trong những bệnh nhân tiểu đường Bước 2: .1: Viết vấn đề cốt lõi ở giữa Bước 3. hậu quả vấn đề Bước 3: . thời gian.Xác định yếu tố góp phần tạo ra vấn đề và mối quan hệ giữa vấn đề và vấn đề góp phần Sử dụng sơ đồ cây vấn đề. độ trầm trọng của vấn đề. Ở dưới là một số cây vấn đề của vấn đề lao phổi và tăng huyết áp. 32 .2: tìm ra các yếu tố ảnh hưởng Khoâng coù ñ ie à u t r ò t a ïi cô sôû Beänh nhaân khoâng dung n a ïp ñ ie à u t r ò T æ le ä ta ù i n h a ä p v ie ä n d o b e ä n h tie å u ñöôøng cao T æ le ä b ie á n chöùng cao T æ le ä b i e á n chöùng cao Bước 3. nơi chốn Tầm cỡ và độ trầm trọng của vấn đề: quy mô của vấn đề. trong đó vấn đề được đặt ở giữa và các yếu tố ảnh hưởng và góp phần được đặt chung quanh và hướng mũi tên thể hiện sự tác động.

Ñ ô ïi la â u Ñ oä naëng cuûa beänh Ñ aùp öùng v ô ù i ñ ie à u t r ò Ñ ie à u t r ò th u o á c n a m C h a á t lö ô ïn g dòch vuï keùm T æ le ä b o û t r ò ô û b e ä n h n h a â n la o phoåi cao K ie á n t h ö ù c k e ù m veà nguyeân nhaân vaø haäu quaû beänh B N k h o â n g h ie å u s ö ï c a à n t h ie á t p h a û i ñ ie à u t r ò T u o å i.K h o â n g ñ u û n h a â n v ie â n . G ia ù o d u ïc .K h o â n g ñ u û t a ø i lie ä u .N h ö õ n g y e á u to á dòch vuï khaùc T æ le ä b o û t r ò ô û b e ä n h n h a â n la o phoåi cao BN khoâng h ie å u s ö ï c a à n t h ie á t K h o â n g tö vaán cho BN Nhöõng yeáu to á c a ù n h a â n vaø xaõ hoäi Khoâng ñuû t a ø i lie ä u ñ e å G D SK Lao T h ie á u h ie å u b ie á t N h a â n v ie â n veà caûm nhaän khoâng huaán cuûa BN Lao veà lu y e ä n la o p h o å i Khoâng ñuû n h a â n v ie â n Phoøng khaùm xa T ín h p h u ïc v u ï: .H ö ô ù n g d a ã n k h o â n g t h íc h h ô ïp Tham vaán khoâng ñuû T h ie á u s ö ï h o ã tr ô ï t ö ø g ia ñ ìn h ï T h ie á u s ö ï h o ã t r ô ï c h u û la o ñoäng C a á u tru ù c g ia ñ ìn h N gheà n g h ie ä p 33 .G iô ø m ô û c ö û a . G iô ù i.K h o â n g ñ u û h u a á n lu y e ä n .T h ie á u g ia ù m s a ù t .T h ie á u h ie å u b ie á t v e à b e ä n h n h a â n la o .P h a ù c ñ o à k h o â n g t h íc h h ô ïp .

giới. chất lượng cơ sở y tế Yếu tố y sinh: độ trầm trọng của bệnh tật. 34 . Việc xác định phạm vi và trọng tâm của đề tài phụ thuộc vào 1. đáp ứng với điều trị. học vấn.4: Sắp xếp các yếu tố thành các nhóm lớn và xây dựng sơ đồ: Yếu tố kinh tế xã hội: Gồm tuổi. Có 2 sơ đồ: – Những yếu tố KAP gây nên bệnh giun sán – Những yếu tố góp phần vào sự phát triển KAP ở thanh thiếu niên Xác định phạm vi và trọng tâm của nghiên cứu Sau khi phân tích vấn đề.Thí dụ nếu chúng ta muốn nghiên cứu kiến thức. tính lập lại: Có thông tin nào liên quan đến các yếu tố trong sơ đồ đã có rồi? vấn đề nào của thông tin cần được nghiên cứu thêm. hiện tượng kháng thuốc. kiến thức cộng đồng.H u ù t t h u o á c la ù U o á n g r ö ô ïu R o á i lo a ïn ñöôøng huyeát Vaän ñoäng haøng ngaøy D ò d a ïn g m a ïc h T a i b ie á n m a ïc h m a ù u naõo Taêng huyeát aùp B e ä n h t im K h o â n g tu a â n t h u û ñ ie à u t r ò Beùo phì R o á i lo a ïn lip id m aùu L ö ô ïn g m u o á i t ie â u t h u ï C heá ñoä aên K h o â n g h ie å u b ie á t v e à C H A Khoâng coù g ia ù o d u ïc s ö ù c khoeû D ò c h v u ï y te á c h ö a to á t Beänh nhaân k h o â n g b ie á t soá ño H A Bước 3. sơ đồ phân tích không tìm kiếm nguyên nhân của vấn đề . quản lí dịch vụ y tế. thái độ với các loại hình điều trị Yếu tố dịch vụ y tế: tính có được và tiếp cận được của dịch vụ. nghề nghiệp. Tính khả thi: Có thể thu thập được những thông tin nào trong thời gian dự định dành để thực hiện nghiên cứu? 3. độc lực vi khuẩn Chú ý: . Tính hữu dụng thông tin (thông tin về các yếu tố góp phần): Thông tin nào khi được thu thập để giải quyết vấn đề sẽ giúp giải quyết vấn đề y tế và cải thiện chăm sóc y tế? Thông tin này cần thiết cho ai? Thông tin sẽ giải quyết đến các yếu tố nào của vấn đề? 2. thái độ. hành vi của học sinh về giun sán để xây dựng tài liệu giáo dục sức khoẻ ở trường học. các loại hình điều trị ở cộng đồng.Nếu bản chất nghiên cứu là mô tả. cần phải xem xét lại trọng tâm và phạm vi của đề tài.

văn hoá . Các thông tin cần thiết trong phần đặt vấn đề 1. giúp tìm kiếm thông tin và báo cáo từ các nghiên cứu khác để có thể tham khảo và cho phép chỉ ra một cách có hệ thống tại sao vấn đề này được nghiên cứu và chúng ta có thể gặt hái gì từ kết quả nghiên cứu. Nếu cần thiết cần nêu ra định nghĩa của những khái niệm quan trọng của nghiên cứu.Cần tham khảo tài liệu hoặc hỏi ý kiến chuyên gia để xác định trọng tâm và phạm vi của nghiên cứu . Mô tả ngắn gọn về đặc điểm kinh tế xã hội.Để rõ mối liên hệ và tầm quan trọng của các yếu tố góp phần. Mô tả các giải pháp đã được sử dụng trước đây hoặc kết quả các nghiên cứu trước và nêu rõ lí do tại sao cần giải pháp mới hay cần một nghiên cứu mới 5. . Phân tích các yếu tố chính ảnh hưởng đến vấn đề 4.Nếu chưa rõ sự liên hệ và tầm quan trọng của các yếu tố góp phần. tình trạng sức khoẻ và y tế của địa phương có liên quan đến vấn đề nghiên cứu. 2. Mô tả về bản chất của vấn đề (sự khác biệt giữa thực tiễn và điều mong muốn) nếu vấn đề còn chưa rõ. Điều này là rất quan trọng khi chúng ta trình bày nghiên cứu của chúng ta cho các thành viên của cộng đồng và các nhân viên. sử dụng nghiên cứu thăm dò nhằm phát hiện tối đa những yếu tố có liên quan bằng cách nghiên cứu một số ít đối tượng.Lưu ý: . cán bộ và lãnh đạo ngành y tế. Mô tả loại thông tin hi vọng sẽ có được từ nghiên cứu và thông tin này sẽ giúp giải quyết vấn đề này như thế nào hay giúp trả lời câu hỏi nghiên cứu như thế nào? 6. Phần này hết sức quan trọng bởi vì nó đặt nền tảng cho sự xây dựng tiếp theo của đề cương nghiên cứu. khi xác định phạm vi nghiên cứu dễ có nguy cơ bỏ qua những yếu tố góp phần quan trọng nhất. 35 . 3. Xây dựng phần đặt vấn đề Phần đầu tiên trong một đề cương nghiên cứu là phần đặt vấn đề.

báo cáo. học viên có khả năng 1. Hiện nay các website trên internet là một nguồn thông tin quan trọng để có được các ý kiến của cá nhân.Sách.Tổng quan y văn Mục tiêu Sau khi nghiên cứu phần này. v. những thông tin này trình bày các số liệu nền tảng và những thông tin hỗ trợ cho chủ đích nghiên cứu. Tại sao cần phải tham khảo y văn khi chuẩn bị đề cương nghiên cứu Việc tham khảo y văn sẽ giúp chúng ta tránh việc lập lại các công trình đã làm từ trước Tham khảo y văn sẽ giúp bạn tìm hiểu các nhà nghiên cứu khác đã phát hiện và báo cáo những gì về vấn đề bạn muốn nghiên cứu. báo chí.Bài báo từ các tạp chí khoa học quốc gia. Các nguồn thông tin này có thể là các cá nhân.Ý kiến.Số liệu của bệnh viện hay phòng khám từ các thống kê định kì . các nhóm người hay các tổ chức.Các tạp chí khoa học.Bộ y tế . Điều này giúp bạn hoàn thiện phần đặt vấn đề Tham khảo y văn gúp bạn quen thuộc hơn với những loại thiết kế nghiên cứu đã được sử dụng trong chủ đề nghiên cứu này Tham khảo y văn cho bạn những lí lẽ thuyết phục tại sao đề tài nghiên cứu của bạn là cần thiết. bài báo. cấp độ quốc gia hay cấp độ Cấp độ Địa phương Thí dụ về nguồn thông tin . Các nguồn thông tin có thể có ở nhiều cấp khác nhau.v . báo cáo. UNFPA. UNICEF. sách vở tìm kiếm được trong thư viện của trường đại học. Chuẩn bị tổng quan y văn và những thông tin khác có liên quan đến đề cương nghiên cứu.Quan sát lâm sàng. Nguồn thông tin cũng có thể là từ những tài liệu đã xuất bản như sách vở. v.Điều tra hay báo cáo hàng năm . tạp chí chuyên ngành .Các tổ chức phi chính phủ . cơ sở dữ liệu trong máy tính.Niên giám thống kê của địa phương .Các ấn bản của WHO. hồ sơ. số liệu thô từ . bài báo khoa học. các tổ chức. cấp độ địa phương. Những nguồn thông tin có thể tham khảo Chúng ta có thể tham khảo các nguồn thông tin khác nhau. báo cáo các tai biến .Văn bản.Tổng cục thống kê . Trình bày những lí do để tham khảo các y văn có sẵn và các thông tin khác trong khi chuẩn bị đề cương nghiên cứu 2. các thư mục hoặc những tài liệu chưa xuất bản như đề cương nghiên cứu.v 36 Quốc gia Quốc tế . thư viện của WHO. tạp chí. của các nhóm. các tài liệu đã xuất bản hoặc tài liệu chưa xuất bản. UNICEF . Trình bày các nguồn tài liệu có thể tham khảo 3. niềm tin của các nhân vật chủ chốt .

[Nơi xuất bản]:[nhà xuất bản]. 1986:325-37. Nếu bạn có nghi ngại về một số tài liệu tham khảo hay bạn có thể phát hiện những ý kiến khác nhau chúng ta cần thảo luận một cách nghiêm túc và thẳng thắn. eds.1:59-71.tên tắt]. Trong trường hợp này liệt kê các tài liệu tham khảo theo thứ tự bảng chữ cái và phần liệt kê cũng được đưa vào sau đề cương để làm phụ lục (cách trính dẫn này được gọi là trích dẫn theo hệ thống Havard) 4.[địa chỉ website (ngày truy cập)] Sai lệch có thể Sai lệch trong y văn hay trong tổng quan y văn là sự biến dạng của những thông tin khiến cho kết luận từ y văn hay tổng quan y văn không phản ánh tình hình thực tiễn.[Tên tờ báo] [năm XB]. 1990.sos. An incomplete catalogue. tài liệu khoa học kinh điển Cách viết phần tổng quan Có một số bước phải thực hiện để chuẩn bị cho việc tổng quan y văn và các thông tin 1. In: Bailar JC.htm (accessed 20 July 2001). Mosteller F.tên tắt]. Oxford: Blackwell. http://www. [Họ . năm xuất bản và số trang được trích dẫn để tham chiếu đến tài liệu tham khảo. . Waltham.se/epc/par/pareng. Communicating with a scientific audience.tên tắt].[năm XB]:[trg đầu]-[trg cuối] Một Website National Board of Health and Welfare. Sau đó liệt kê các tài liệu tham khảo theo thứ tự và sử dụng các thông tin được mô tả trong thẻ thư mục và phần liệt kê các tài liệu tham khảo này phải được đưa vào sau đề cương để làm phụ lục (cách trích dẫn này thường được gọi là trích dẫn theo hệ thống Vancouver). Cuối cùng. quyết định trình tự trình bày các chủ đề. Medical uses of statistics. 3. In: [Họ . [Họ .Bạn có thể đánh số thứ tự trên văn bản để tham chiếu đến các tài liệu tham khảo. [Họ .Một cách khác là bạn có thể viết họ của tác giả nước ngoài (toàn bộ tên và họ nếu là tác giả trong nước)..Có hai cách trích dẫn tài liệu tham khảo: . Hospital discharge register.[Nhan đề sách]. Quy tắc liệt kê tài liệu tham khảo: Tạp chí: Altman Cho DG. Stat Med 1983.[Nhan đề sách]. Nếu phát hiện rằng bạn đã không tìm được y văn cho thông tin về một khía cạnh của vấn đề của bạn mà bạn cảm thấy rằng nó quan trọng. Methodological errors in medical research.[năm XB] Một chương sách: Bailar JC. [Tên cơ quan chủ quản website]. Statistics in medical journals.[số]:[trg đầu]-[trg cuối] Sách: Andersen B. Thái độ nghiêm túc này sẽ giúp 37 .[Tên bài báo].[Nơi xuất bản]:[nhà xuất bản].Các sách. Sweden. Chúng ta cần phải cảnh giác với những loại sai lệch này và cần phải hết sức nghiêm túc với cácy văn hiện có. trình bày ý tưởng theo ngôn từ một cách mạch lạc trong vòng từ một đến hai trang nhưng cần phải có tài liệu tham khảo. cần phải nỗ lực để tìm kiếm y văn đó.tên tắt]. MA:NEJM Books. [tên báo cáo]. Đầu tiên phải tổ chức các thẻ thư mục theo nhóm của các chủ đề tuỳ theo nó có liên quan đến khía cạnh nào của vấn đề 2.[Tên chương sách]. Sau đó.

Rút ra những kết luận hết sức mạnh bạo từ kết quả nghiên cứu sơ bộ hay nghiên cứu mỏng manh hay khái quát hoá lan tràn từ một nghiên cứu trường hợp. Hơn nữa việc trình bày một cách không cẩn thận các kết quả sẽ khiến cho độc giả ứng dụng kết quả nghiên cứu một cách sai lạc. Do đó nhà nghiên cứu cần phải tuân thủ theo các hướng dẫn về trích dẫn tài liệu tham khảo trong khi viết đề cương cũng như khi viết báo cáo khoa học. 38 . tiền bạc mà còn có thể gây hậu quả xấu cho sức khoẻ của người dân. 3. Việc mắc phải các loại sai lệch ở trên sẽ tạo nên các nghi ngờ về tính trung thực khoa học (scientific integrity) của nhà nghiên cứu. Những sai lệch thường thấy trong y văn bao gồm: 1. Ở một số quốc gia. Chỉ tham khảo tài liệu của những người ủng hộ quan điểm của tác giả. hành động đạo văn có thể bị truy tố. Che dấu những điểm tranh luận hay sự khác nhau trong kết quả nghiên cứu của chính mình 2. Việc đạo văn – trình bày kết quả hay công trình của các nhà khoa học khác mà không trích dẫn – cũng là một hành động thiếu đạo đức mà các nhà nghiên cứu cần phải tránh.chúng ta tránh khỏi các sai lệch trong nghiên cứu của chính chúng ta. Điều này không chỉ gây tốn kém thời gian.

Thông thường người ta chia mục tiêu làm mục tiêu tổng quát và mục tiêu đặc hiệu. nên có mục tiêu xác định quy mô của vấn đề và có các mục tiêu nhằm xây dựng kế hoạch ứng dụng kết quả của nghiên cứu. Và sau khi phân tích vấn đề nghiên cứu chúng ta nhận thấy để giải quyết các vấn đề trên cần phải tìm hiểu các lí do khiến mức độ sử dụng dịch vụ phòng khám trẻ em thấp tại huyện CT ta sẽ thiết lập mục tiêu tổng quát như sau: . trong các nghiên cứu ứng dụng. Yêu cầu của mục tiêu nghiên cứu Mục tiêu nghiên cứu tốt cần phải đạt được các yêu cầu sau: . .Kiến nghị các giải pháp để cải thiện sử dụng dịch vụ phòng khám trẻ em.Phải bao gồm các khía cạnh khác nhau của vấn đề nghiên cứu theo một trình tự hợp lí và mạch lạc. Thí dụ: Nếu chúng ta có vấn đề nghiên cứu là mức độ sử dụng dịch vụ phòng khám trẻ em thấp tại huyện CT. Như đã trình bày ở trên.Xây dựng mục tiêu nghiên cứu cho nghiên cứu của bạn ở một hình thức phù hợp. .Xác định mức độ sử dụng dịch vụ phòng khám trẻ em ở huyện CT trong các năm 2000 và 2001 so với chỉ tiêu đặt ra . làm ở đâu và với mục đích gì. Các công việc này được gọi là mục tiêu đặc hiệu: . chúng ta phải hoàn thành các công việc sau. Trong mục tiêu đặc hiệun ên cụ thể những điều sẽ làm trong nghiên cứu.Xác định và mô tả sự khác biệt giữa mục tiêu tổng quát và mục tiêu đặc hiệu . còn mục tiêu đặc hiệu bao gồm các phần nhỏ hơn và có liên hệ với nhau và với mục tiêu tổng quát một cách hợp lí.Mục tiêu nghiên cứu Mục tiêu học tập: Sau khi nghiên cứu phần này. loại hình phòng khám .Xác định các yếu tố văn hoá và kinh tế xã hội ảnh hưởng đến việc sử dụng dịch vụ phòng khám trẻ em. Mục tiêu tổng quát là những điều đạt được một cách chung nhất.Ðược hành văn rõ ràng. Tại sao phải xây dựng mục tiêu nghiên cứu Khi tiến hành nghiên cứu cần phải xây dựng mục tiêu nghiên cứu nhằm giúp cho chủ đề nghiên cứu được tập trung và tránh việc thu thập các thông tin không cần thiết để giải quyết vấn đề. cụ thể chỉ rõ điều sẽ làm. Ngoài ra việc xây dựng mục tiêu cụ thể sẽ giúp cho việc thiết kế nghiên cứu bằng cách tổ chức mục tiêu nghiên cứu thành các phần hay các giai đoạn xác định. làm ở đâu. Mục tiêu nghiên cứu là gì: Mục tiêu nghiên cứu nhằm tóm tắt những gì sẽ đạt được sau khi hoàn thành nghiên cứu. trong thời gian nào và với mục 39 . học viên có khả năng: .Xác định đặc tính của mục tiêu nghiên cứu . .Xác định các lí do của mức độ sử dụng dịch vụ phòng khám trẻ em thấp tại huyện CT Nhằm đặt được mục tiêu tổng quát kể trên.Xây dựng kế hoạch thực hiện và các kiến nghị phối hợp với các ban ngành.Khẳng định các lí do để viết mục tiêu cho một nghiên cứu .Xác định các yếu tố dịch vụ của phòng khám ảnh hưởng đến tính hấp đẫn đối với bà mẹ .Xác định có sự liên hệ giữa việc sử dụng dịch vụ phòng khám trẻ em với mùa trong năm.

nhưng phải chứa nhiều thông tin. Giả thuyết nghiên cứu thường được sử dụng để kiểm tra một lí giải đã có và thường được sử dụng trong các nghiên cứu y sinh học nhưng thường không phù hợp đối với nghiên cứu hệ thống y tế.Xây dựng mục tiêu tổng quát và đặc hiệu .Trình bày lại phần đặt vấn đề: tập trung vào Lượng hoá và cụ thể hoá vấn đề Thăm dò các yếu tố ảnh hưởng đến vấn đề Các hoạt động nghiên cứu . tính toán. mô tả Giả thuyết nghiên cứu Giả thuyết nghiên cứu là một mệnh đề khẳng định quan hệ giữa một hay nhiều yếu tố với vấn đề nghiên cứu.Kiểm tra lại các yêu cầu của mục tiêu . tên đề tài nghiên cứu thường là một ngữ danh từ (nên được gọi là tên). kiểm chứng. . Phần từ khoá của bài báo hiện nay không phải là phần bắt buộc vì vậy việc xây dựng tên đề tài nghiên cứu một cách hợp lí là cực kì quan trong. Thảo luận nhóm Chọn một chủ toạ và một thư kí . Bởi vì hiện nay do sự phổ biến của việc tìm kiếm bài báo trên Internet. khả thi. Thí dụ "sử dụng dịch vụ phòng khám trẻ em thấp nhất trong thời gian thu hoạch" là một giả thuyết nghiên cứu bởi vì nó khẳng định rằng trong thời gian thu hoạch thì mức độ sử dụng dịch vụ phòng khám trẻ em sẽ thấp.Mục tiêu phải phù hợp với điều kiện thực tiễn.đích gì .Mục tiêu phải bắt đầu bằng các từ hành động cụ thể và có thể đánh giá mức độ đạt được như: xác định. Tên đề tài nghiên cứu Cần phân biệt tên đề tài nghiên cứu với vấn đề nghiên cứu: Vấn đề nghiên cứu là sự khác biệt giữa hiện tại và điều mong đợi trong khi tên đề tài nghiên cứu lại tập trung và phương pháp giải quyết vấn đề vì vậy tên đề tài nghiên cứu thường liên quan chặt chẽ với mục tiêu nghiên cứu. so sánh. 40 . Việc kiểm định giả thuyết nghiên cứu có thể được xem là một mục tiêu nghiên cứu bởi vì nó sẽ giúp cho giải quyết vấn đề nghiên cứu. Tuy nhiên khác với mục tiêu nghiên cứu. bởi vì nó chiếm chỗ trong mục lục của tờ báo hay trong MEDLINE. tên đề tài nên chứa những từ khoá (keyword) của bài báo. Tên đề tài nghiên cứu nên ngắn gọn. thường bắt đầu bằng một động từ hành động.Trình bày trước lớp mục tiêu nghiên cứu.

học viên có khả năng: 1. Giới thiệu Câu hỏi Thành phần trong thiết kế nghiên cứu Chúng ta cần những số liệu mới nào? Chọn biến số Làm thế nào để có thể thu thập những số liệu này Chọn thiết kế nghiên cứu Công cụ nào để thu thập số liệu Chọn kĩ thuật thu thập số liệu Thu thập số liệu ở đâu: Trên bao nhiêu đối tượng. chọn như thế nào? Lấy mẫu Làm thế nào để thu thập số liệu Kế hoạch thu thập số liệu Chúng ta làm gì với số liệu để có thông tin Chúng ta có làm hại ai khi tiến hành nghiên cứu? Làm sao biết được phương pháp thu thập số liệu? Kế hoạch phân tích Khía cạnh đạo đức của nghiên cứu Thử nghiệm phương pháp 41 . Xác định những câu hỏi thích hợp cần phải đặt ra khi phát triển phương pháp cho đề cương nghiên cứu 2.Giới thiệu về phương pháp nghiên cứu khoa học y học Mục tiêu Sau phần này. Mô tả được các thành phần thích hợp cần được giải quyết trong phần phương pháp của đề cương nghiên cứu.

chờ đợi gì ở kết quả nghiên cứu và cách sử dụng các kết quả nghiên cứu Ðể đặt được mục tiêu đã đặt ra. xử lí đó như thế nào. 42 .Phát triển các mục tiêu nêu lên một cách rõ ràng mục đích của nghiên cứu. làm thế nào để thu thập các số liệu đó.Chọn chủ đề nghiên cứu . bạn phần phải quyết định bạn sẽ phải làm gì: thí dụ những số liệu nào cần được thu thập.Giả sử sau khi bạn đã xác định được: .Tổng quan y văn và các thông tin đã biết được về vấn đề .Chuẩn bị một mô tả ngắn gọn về vấn đề nghiên cứu và tầm quan trọng của nó . Các câu hỏi trong lưu đồ ở trang sau chỉ ra những đề mục chính cần phải xem xét khi phát triển thiết kế nghiên cứu.

Việc này được gọi là mã hóa và cần hiểu rằng việc mã hóa này hoàn toàn có tính chất áp đặt và các con số được dùng trong mã hóa không phản ánh bản chất của biến số danh định. Hoa.. tử vong).Biến số Mục tiêu 1. Giới tính là biến số danh định và có hai giá trị là nam và nữ. khá. Xác định được các biến số được đo lường trong dự án nghiên cứu đang được thiết kế và cho biết: . Một số thí dụ khác của biến số danh định là tình trạng hôn nhân (có 4 giá trị: độc thân.… là biến số định tính vì chúng ta không thể sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay ngược lại. trung bình hơn nghèo. Biến số định tính và biến số định lượng Như vậy biến số có thể thể hiện đại lượng hay đặc tính. khá. Khmer. nghèo. có gia đình. Thí dụ: Biến số dân tộc với các giá trị: Kinh. người ta có thể ánh xạ (mapping) các giá trị của biến danh định vào các con số. Biến số Do nghiên cứu khoa học là việc thu thập. rất nghèo) là biến số thứ tự bởi vì người giàu có điều kiện kinh tế tốt hơn người khá. trung bình. huyết áp cao nhẹ. Theo phân loại tăng huyết áp của Tổ chức Y tế Thế giới được trình bày như sau. trung bình. người khá hơn người trung bình. Nói cách khác: Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này sang người khác hay từ thời điểm này sang thời điểm khác. kém). li dị. B. Chúng ta có thể mã hóa giới tính và quy ước Nam là 1 và Nữ là 2. Thí dụ: tình trạng kinh tế xã hội (giàu. 1991) nên nghiên cứ khoa học cần phải thu thập thông tin các đặc tính hay các đại lượng của đối tượng. để tiện việc nhập số liệu hay lí giải kết quả.Biến số nào có thể đo lường trực tiếp .Biến số nào không thể đo lường được vào thời điểm hiện tại. Phân biệt được sự khác biệt giữa biến số độc lập và biến số phụ thuộc và chúng được sử dụng trong nghiên cứu như thế nào 4. Trong phân tích thống kê. phân tích và lí giải số liệu để giải quyết vấn đề nghiên cứu hay trả lời một câu hỏi nghiên cứu (Varkevisser et al.Biến số nào không thể đo lường trực tiệp và phải sử dụng định nghĩa cụ thể(operation definition) . Phân biệt được biến số định tính (categorical) và biến số định lượng (numerical) 3. thì phân loại huyết áp với các giá trị huyết áp bình thường. vừa và nặng là biến số thứ tự.Thập nữ viết vô). Chăm. Tuy nhiên việc mã hóa này là áp đặt và chúng ta hoàn toàn có thể quy ước Nam là 1 và Nữ là 0. Việc mã hóa chỉ nhằm giúp việc nhập số liệu và xử lí số liệu trở nên dễ dàng hơn chứ không nhằm phản ánh bản chất của biến số đó (do đó hoàn toàn vô căn cứ nếu cho rằng mã hóa Nam=1 và Nữ=0 là phản ánh thái độ phong kiến "Nhất nam viết hữu . xấu. Biến số danh định là biến số mà giá trị của nó không thể biểu thị bằng số mà phải biểu diễn bằng một tên gọi (danh: tên) và các giá trị này không thể sắp đặt theo một trật tự từ thấp đến cao. Nếu nó thể hiện một đại lượng nó được gọi là biến số định lượng. góa) nhóm máu (A. khá. tiên lượng (tốt. Xác định biến số là gì và tại sao việc chọn lựa biến số là quan trọng 2. Các đặc tính hay đại lượng này được gọi là biến số. Biến số định tính còn được chia làm 2 loại: biến số danh định và biến số thứ tự. 43 . Nếu nó nhằm thể hiện một đặc tính nó được gọi là biến số định tính. v.v Những thí dụ khác là học lực của học sinh (giỏi. AB và O). Biến số thứ tự là biến số danh định nhưng có thể sắp xếp thứ tự được.

Biến số không đo lường được trong nghiên cứu hiện tại. Những thí dụ khác là đường huyết. mọi biến số đều có thể đo lường được nhưng trong một nghiên cứu cụ thể có thể có một số biến số không đo lường được do hạn chế của điều kiện kĩ thuật hay không thống nhất về định nghĩa cụ thể (thí dụ nồng độ endorphine gia tăng sau khi châm cứu. cân nặng. Kiến thức về các cây con thuốc là biến số nhưng ít hiểu biết về các cây con thuốc là yếu tố. cân nặng. chiều cao. . tình trạng hôn nhân. Thời gian chờ đợi để được sử dụng dịch vụ y tế là biến số nhưng thời gian chờ đợi lâu là giá trị của biến số. Phụ thuộc vào cách lí giải trừu tượng của khái niệm đau và yêu cầu cụ thể của nghiên cứu. Biến số (đại lượng hay đặc tính được quan tâm) được chia làm 3 loại: . Cả hai định nghĩa này được gọi là định nghĩa cụ thể. v. hematocrite. Trên nguyên tắc. mức độ hữu dụng của những bệnh nhân bị tàn tật. Ta có thể nói biến số mức độ hút thuốc lá có liên quan đến nguy cơ ung thư phổi nhưng phải nói hút thuốc lá nặng là yếu tố nguy cơ của ung thư phổi. hemoglobin.Biến số không thể đo lường trực tiếp được như tình trạng dinh dưỡng. Thí dụ. người kia 32 tuổi. mức độ đắc khí. 44 . Biến số dùng để mô tả hay đo lường vấn đề nghiên cứu được gọi là biến số phụ thuộc. nếu nhà nghiên cứu muốn đo lường mức độ đau thì nhà nghiên cứu phải chuyển đổi khái niệm đau thành một mệnh đề chặt chẽ xác định cách đo lường biến số này.v Khi chúng ta quan tâm đến việc lí giải nguyên nhân của sự việc chúng ta chia biến số thành biến số độc lập và biến số phụ thuộc. chất lượng dân số) Ðịnh nghĩa cụ thể Thông thường. Một định nghĩa cụ thể tốt là định nghĩa cung cấp đủ thông tin để cho phép một nhà nghiên cứu khác có thể lập lại kĩ thuật đo lường. Thí dụ: tuổi là biến số liên tục bởi vì ta có thể nói người này 20 tuổi. Nó phải không được mơ hồ và chỉ có một cách lí giải duy nhất. Thí dụ.Biến số có thể đo lường trực tiếp .Huyết áp bình thường: Tăng huyết áp nhẹ: Tăng huyết áp vừa: Tăng huyết áp nặng: HA tâm thu (139 và HA tâm trương ( 89 HA tâm thu ( 179 hay HA tâm trương ( 104 HA tâm thu ( 180 hay HA tâm trương (114 HA tâm thu (180 và HA tâm trương ( 115 mmHg Biến số định lượng nhằm thể hiện một đại lượng và do đó có giá trị là những con số. v. Biến số dùng để mô tả hay đo lường các yếu tố được cho là gây nên (hay gây ảnh hưởng đến) vấn đề nghiên cứu được gọi là biến số độc lập Cần phân biệt sự khác biệt giữa biến số và giá trị của biến số (còn gọi là yếu tố): Giới tính là biến số nhưng Nữ không phải là biến số mà là một giá trị của biến số (hay còn gọi là yếu tố).chiều cao.v. chúng ta có thể chọn lựa một phương pháp đo lương mức độ đau đớn. Nhà nghiên cứu có thể trả lời là bà ta quan tâm đến việc kiểm soát vận động được đo lường bởi Plunkett Motor Dexterity Task Score. kiến thức của bà mẹ về thực hành chăm sóc trẻ. thu nhập. nhà nghiên cứu bắt đầu với một quan điểm tương đối mơ hồ về cách đo lường các biến số nghiên cứu. Trong mô tả nghiên cứu nhà nghiên cứu nên bao gồm trong định nghĩa cụ thể những công cụ đo lường và quy trình nghiên cứu để người đọc có thể rõ ràng về những việc đã làm. Một nhà nghiên cứu khác có thể không chấp nhận định nghĩa này và cho rằng việc kiểm soát vận động nên được tự đánh giá bởi bệnh nhân. câu hỏi chúng ta cần đặt ra ngay là "kiểm soát vận động" có ý nghĩa như thế nào. Ðịnh nghĩa cụ thể của biến số là một mệnh đề về cách người nghiên cứu của một nghiên cứu nào đó chọn cách đo lường biến số đó.v . mức độ hài lòng của bệnh nhân. một nhà nghiên cứu cho rằng việc điều trị của bà ta có thể giúp cải thiện việc "kiểm soát vận động". tuổi. nếu người đó muốn.v.

Có liên quan đến biến số độc lập (phân bố không đều giữa các giá trị của biến độc lập) .Phương pháp mô hình hóa sử dụng phương pháp hồi quy đa biến để tách riêng tác động của từng biến số có liên quan trong mô hình. Thực chất phương pháp phân tầng gồm là sự tổng hợp của nhiều nghiên cứu hạn chế (mỗi nghiên cứu được hạn chế cho một giá trị của biến số gây nhiễu) . Tuy nhiên thu nhập của gia đình cũng có thể ảnh hưởng đến số lần khám tiền sản và việc sanh con nhẹ cân. X2 . Biến số gây nhiễu (confounding variable) là biến số cung cấp một giải thích khác của mối liên hệ giữa biến số độc lập và biến số phụ thuộc. Thí dụ nếu nghiên cứu mối quan hệ giữa ung thư phổi và hút thuốc lá thì hút thuốc lá là biến số độc lập và ung thư phổi là biến số phụ thuộc Nếu nhà nghiên cứu muốn tìm hiểu tại sao thanh niên hút thuốc thì hút thuốc là biến số phụ thuộc và "áp lực của bạn bè" là biến số độc lập. Do đó trong khi thiết kế nghiên cứu cần phải xác định rõ ràng biến số nào là độc lập và biến số nào là phụ thuộc.Biến số độc lập . Như vậy thu nhập của gia đình là yếu tố gây nhiễu. Khi đó hệ số của các biến số trong mô hình đánh giá tác động của biến số đó.Phương pháp hạn chế: thí dụ chỉ nghiên cứu những bà mẹ trong gia đình có thu nhập trung bình. hệ số B1 của biến số X1 nêu lên sự thay đổi của biến phụ thuộc Y khi X1 thay đổi một đơn vị và các biến số liên quan khác như X1 . .Phương pháp phần tầng: gồm tiến hành phân tích số liệu riêng biệt cho nhóm bà mẹ nghèo.Không nằm trong cơ chế tác động của biến độc lập lên biến phụ thuộc Thí dụ: Số lần khám thai (Biến số độc lập) Cân nặng con lúc sinh (Biến số phụ thuộc) Có mối liên hệ giữa số lần khám tiền sản và sanh con nhẹ hơn 2500 gram. không nghiên cứu những bà mẹ trong gia đình nghèo .gây nhiễu Việc xác định biến số nào là biến số độc lập hay biến số phụ thuộc được xác định trong phần đặt vấn đề và mục tiêu của nghiên cứu.Phương pháp chia nhóm ngẫu nhiên: chỉ sử dụng được cho nghiên cứu thực nghiệm nhưng đây là phương pháp khử yếu tố gây nhiễu toàn diện nhất và không cần xác định hay đo lường toàn bộ các yếu tố gây nhiễu. 45 . không bị ảnh hưởng hay gây nhiễu bởi các yếu tố khác (bởi vì trong hồi quy đa biến. Thu nhập .phụ thuộc .Có liên quan đến biến số phụ thuộc (là yếu tố nguy cơ của vấn đề nghiên cứu) .Phương pháp bắt cặp trong chọn mẫu và phân tầng trong phân tích mẫu: .Học vấn gia đình (biến số gây nhiễu) Kiểm soát yếu tố gây nhiễu Ðể khắc phục yếu tố gây nhiễu người ta có thể sử dụng: . Một biến số được đánh giá là biến số gây nhiễu khi có 3 đặc tính sau: . cho nhóm bà mẹ trung bình và nhóm bà mẹ giàu rồi tổng hợp kết quả lại. … không thay đổi).

tình trạng hôn nhân. 46 .v.Biến số nền (background variables) Trong bất cứ nghiên cứu nào. v. trình độ giáo dục. tình trạng kinh tế. Những biến số này thường có ảnh hưởng đến vấn đề nghiên cứu (biến số phụ thuộc) và có tác động như biến số gây nhiễu. Nhưng không nên thu thập quá nhiều biến số nền để tránh làm tăng kinh phí nghiên cứu một cách vô ích. giới. tôn giáo. có những biến số nền tảng thí dụ như tuổi. Nếu biến số nền có ảnh hưởng quan trọng đến nghiên cứu cần phải thu thập thông tin về biến số nền.

Anh chị tin vào kết quả nghiên cứu của loại nghiên cứu nào hơn? Anh chị cho rằng điều trị hormone thay thế ở phụ nữ mãn kinh có lợi hay có hại cho sức khỏe tim mạch? Tại sao anh chị lại tin như vậy? 47 Bệnh mạch vành .Bài tập: 1. Theo các anh chị.2 Tuy nhiên. 315: 1641-1644 2. Davey Smith G. có nguy cơ tử vong thấp hơn. Họ giải thích rằng những người có quan hệ tình dục thường xuyên là những người có sức khoẻ tổng quát tốt hơn. BMJ. lên nguy cơ bệnh tim mạch. Theo các anh chị. nếu kinh nghiệm lâm sàng này là đúng thì tình trạng sức khoẻ tổng quát là yếu tố biến đổi hậu quả hay yếu tố gây nhiễu? Nếu điều này là đúng thì anh chị sẽ có lời khuyên gì đối với mọi người để giảm thiểu nguy cơ tử vong. Hemminki and McPherson đã tổng kết 22 nghiên cứu thử nghiệm ngẫu nhiên của việc sử dụng trị liệu oestrogen và thấy rằng các biến cố tim mạch lại là nguyên nhân chủ yếu của việc bỏ cuộc hay phản ứng ngoại ý. 1.39) trong nhóm sử dụng estrogen so với nhóm không sử dụng. do đó.70 đối với bệnh mạch tim ở các phụ nữ có sử dụng estrogen (so với nhóm không dùng oestrogen). Yarnell J. Frankel S. những người tham gia được ghi nhận mức độ hoạt động tình dục cao ở đầu nghiên cứu (được đánh giá bằng tần suất có khoái cảm) có nguy cơ tử vong trong 10 năm thấp hơn những người được ghi nhận có mức độ hoạt động tình dục thấp. quan hệ tình dục thường xuyên là có lợi cho sức khoẻ và làm giảm nguy cơ tử vong còn ở người ở tình trạng sức khoẻ tổng quát đã kém việc quan hệ tình dục thường xuyên lại khiến đối tượng dễ bị tử vong hơn. Giả sử chúng ta có khung ý niệm (conceptual framework) về mối liên hệ giữ kém vận động và bệnh mạch vành như sau: Hút thuốc lá Kém vận động Tăng LDL-cholesterol Giảm HDL-cholesterol Xem ti vi nhiều Trong các yếu tố: Hút thuốc lá. trong 7 nghiên cứu khác đánh giá hiệu quả của việc sử dụng oestrogen và progestogen. 1997. Tăng LDL-cholesterol. yếu tố nào được xem là yếu tố gây nhiễu? 2.1 Giả sử điều này là đúng. anh chị có lời khuyên gì về việc hoạt động tình dục để giảm thiểu nguy cơ tử vong. nếu không phải là có hại. những nhà khoa học này cho rằng tình trạng sức khoẻ tổng quát là yếu tố biến đổi hậu quả hay yếu tố gây nhiễu? Nếu điều này được chứng minh là đúng thì anh chị sẽ có lời khuyên gì đối với mọi người để giảm thiểu nguy cơ tử vong. Gần như tất cả các nghiên cứu quan sát cho thấy sự giảm nguy cơ tử vong bệnh tim ở các phụ nữ sử dụng oestrogen. Điều này cho thấy estrogen không có tác dụng có lợi. Sex and death: are they related? Findings from the Caerphilly Cohort study.66.3 Tỉ số nguy cơ tóm tắt là (1. Một số nhà khoa học cho rằng kết luận của nghiên cứu có thể là không đúng. Một nghiên cứu gộp (meta-analysis) của 25 nghiên cứu đã xuất bản tìm thấy nguy cơ tương đối chung là 0. Xem ti vi nhiều. Họ cho rằng ở những người khoẻ mạnh. gần đây. Các bác sĩ lâm sàng có kinh nghiệm lại đưa ra lời giải thích khác. Một nghiên cứu đoàn hệ được tiến hành ở Anh quốc. nguy cơ ước lượng là 0.

Ông ta khuyên nên báo cáo giá trị OR thô (không hiệu chỉnh cho nghề nghiệp). Nhà nghiên cứu này cũng biết chút ít về dịch tễ và cho rằng những hoạt động nghề nghiệp ngoài nhà là yếu tố gây nhiễu và do đó. 19: 55-72. Impact of postmenopausal hormone therapy on cardiovascular events and cancer: pooled data from clinical trials. Một nghiên cứu thực nghiệm trên khỉ chimpanzee cho thấy lượng estrogen giúp khỉ Bias in studies of use of oestrogen and heart disease1 Bias in who is prescribed oestrogen: More educated Higher social class Osteoporosis* No diabetes. Hormone replacement therapy. nhà nghiên cứu có nên nghe theo lời khuyên của chuyên gia dịch tễ hay không? 48 . 2. Grady D.1. 315: 149153 4. heart disease. Hemminki E. nghề nghiệp (ngoài nhà và trong nhà) có phải là yếu tố gây nhiễu trong nghiên cứu này hay không? tại sao? Nhà nghiên cứu đang viết bài báo cáo và dự định sẽ công bố giá trị OR hiệu chỉnh theo nghề nghiệp. and other considerations. Một nhà nghiên cứu quan tâm đến đề tài này và thực hiện một nghiên cứu bệnh chứng để xác định mối liên hệ giữa giới tính và sốt rét. sử dụng phương pháp phân tầng và ghi nhận được các kết quả sau: Nhóm nghề nghiệp ngoài nhà Bệnh Chứng Nam Nữ Tổng số 53 10 63 15 3 18 Tổng số 68 13 81 Nam Nữ Tổng số Nhóm nghề nghiệp trong nhà Bệnh Chứng Tổng số 35 52 87 53 79 132 88 131 219 Theo các anh chị. Tỉ số số chênh thô tính được là 1. Nhà nghiên cứu này tìm được 150 trường hợp bệnh (trong đó có 88 nam) và 150 chứng (trong đó có 68 nam). 273: 199-208 3. Annu Rev Public Health 1998. heart disease. do nghề nghiệp là hậu quả của giới tính nên chuỗi giới tính . Writing Group for the PEPI Trial. Barrett-Connor E. McPherson K. Do đó nghề nghiệp không phải là yếu tố gây nhiễu. Barrett-Connor E.71. Hormone Replacement Therapy. BMJ 1998.nghề nghiệp . Tình cờ có một chuyên viên dịch tễ của Tổ Chức Y tế Thế giới đọc được bản thảo của nghiên cứu này và cho ý kiến phản biến. or hypertension Healthier before treated Bias in who takes oestrogen: Compliant women chimpanzee cái được bảo vệ và có nguy cơ bị sốt rét thấp hơn so với khỉ đực. Theo ông. BMJ 1997. Theo anh chị. 3. JAMA 1995.317:457-461 .sốt rét có thể được xem như là cơ chế tác động của giới tính lên nguy cơ mắc bệnh sốt rét. Effects of estrogen or estrogen/progestin regimens on heart disease risk factors in postmenopausal women. thu thập thông tin về nghề nghiệp hoạt động ngoài nhà ở các đối tượng.

49 .

Nghiên cứu thăm dò sẽ có giá trị tốt hơn nếu nhà nghiên cứu cố gằng tiếp cận vấn đề từ nhiều hướng khác nhau. Nghiên cứu không can thiệp Nghiên cứu không can thiệp bao gồm nghiên cứu thăm dò.Các nghiên cứu không can thiệp: trong đó nhà nghiên cứu chỉ mô tả và phân tích tình hình nhưng không can thiệp .Vấn đề thuộc loại gì? .Nguồn lực có được dành cho nghiên cứu Thí dụ trong những vấn đề về quản lí y tế (thí dụ như việc quá tải của bệnh viện) chỉ cần mô tả rõ ràng vấn đề và xác định các yếu cố góp phần cũng đủ cung cấp những thông tin để hành động. Trong nghiên cứu thăm dò người ta thường mô tả và so sánh. có thể chúng ta cần muốn biết mối liên hệ giữa các biến số (thí dụ như ít ăn rau và ung thư đại tràng).Kiến thức đã biết được về vấn đề . Trong trường hợp này chúng ta cần có nghiên cứu phân tích hay nghiên cứu thực nghiệm. Việc chọn lựa thiết kế nghiên cứu phụ thuộc vào . có những câu hỏi khác nhau cần được đặt ra và tương ứng với các thiết kế nghiên cứu khác nhau. Trình bày được từng loại nghiên cứu có ảnh hưởng gì đến tính giá trị và tính tin cậy của kết quả nghiên cứu 3. nghiên cứu mô tả và nghiên cứu phân tích Nghiên cứu thăm dò Nghiên cứu thăm dò là nghiên cứu trên quy mô nhỏ trong thời gian ngắn khi chúng ta chưa rõ về vấn đề hay tình hình cần phải nghiên cứu Thí dụ: Uỷ ban quốc gia phòng chống AIDS muốn xây dựng dịch vụ tham vấn cho bệnh nhân AIDS và người nhiễm HIV nhưng không biết những nhu cầu của bệnh nhân cần được hỗ trợ. Mô tả được những thiết kế thường được sử dụng trong nghiên cứu khoa học y học và hạn chế của mỗi loại nghiên cứu 2. Thí dụ nhà nghiên cứu có thể mô tả nhu cầu của từng nhóm bệnh nhân và so sánh nhu cầu về tham vấn của bệnh nhân nam và bệnh nhân nữ. 50 . một số cuộc phỏng vấn sâu đã được tiến hành với nhiều nhóm bệnh nhân và với các nhân viên y tế đã làm trong lãnh vực này. Một số loại nghiên cứu Có nhiều cách phân loại nghiên cứu trong đó người ta thường chia làm 2 loại: . Ðể thăm dò những nhu cầu này. Xác định được loại nghiên cứu thích hợp cho đề cương nghiên cứu của chính học viên Mở đầu Phụ thuộc vào chúng ta đã biết gì về vấn đề nghiên cứu. Ðối với một số vấn đề quản lí y tế và nhiều loại nghiên cứu khác.Các loại nghiên cứu Mục tiêu 1.Các nghiên cứu có can thiệp: nhà nghiên cứu tác động lên tình hình và đo lường kết quả của việc tác động (thí dụ như tiến hành chương trình giáo dục sức khoẻ và xem nó có tác động gì lên tỉ lệ tiêm chủng).

Các đặc tính này có thể là các đặc tính thực thể. hành vi của người dân về vấn đề đó để đề xuất các giải pháp can thiệp. Tuy nhiên một số nhà nghiên cứu vì không nắm rõ mục tiêu nghiên cứu của mình nên thay vì thực hiện một nghiên cứu mô tả tốt họ tiến hành một nghiên cứu phân tích kém. Tuy nhiên người ta vẫn chưa rõ các thông tin nền (baseline) về sức khoẻ. Nghiên cứu mô tả có thể được tiến hành trên một quy mô lớn hoặc quy mô nhỏ. bản chất của nghiên cứu này vẫn là nghiên cứu mô tả. Nghiên cứu so sánh hay nghiên cứu phân tích Dịch tễ học phân tích (hoặc tìm nguyên nhân) có nội dung tìm nguyên nhân gây ra vấn đề sức 51 . khi chỉ so sánh các nhóm dân số khác nhau. 6 Ðây là một vấn đề sức khoẻ cần phải báo động vì loại viêm phổi này trước đây chỉ xuất hiện ở những người bị rối loạn hệ thống miễn dịch. Những nghiên cứu mô tả bao gồm: nghiên cứu ca bệnh. Loại hình nghiên cứu này được gọi là nghiên cứu trường hợp (case study) hay báo cáo ca bệnh (case report. y tế và thực hành của các nhóm và các thông tin này được sử dụng cho việc lập kế hoạch và đánh giá dịch vụ y tế 8. kinh tế xã hội và tỉ lệ nhập viện của 66 nhóm chăm sóc ban đầu nay ở thành phố Luân đôn. Khác với các nghiên cứu phân tích nhằm tìm mối liên hệ giữa một yếu tố phơi nhiễm và tình trạng bệnh tật. thái độ. nghiên cứu loạt ca bệnh trong nghiên cứu lâm sàng và nghiên cứu trường hợp trong nghiên cứu sức khoẻ công cộng. kinh tế xã hội hay hành vi của cộng đồng. Vì vậy một nghiên cứu cắt ngang mô tả được tiến hành và cho thấy sự khác biệt đáng kể về kinh tế xã hội. Các nghiên cứu kiến thức. Ở quy mô lớn hơn và các cuộc điều tra cắt ngang nhằm xác định sự phân bố của các biến số nhất định ở một thời điểm. Nghiên cứu mô tả nhằm báo động. Mặc dù nghiên cứu này cũng sử dụng phương pháp so sánh tương tự như nghiên cứu phân tích. Ðôi khi nhà nghiên cứu thường kết hợp sự mô tả dân số nghiên cứu với sự so sánh các nhóm trong dân số. Như vậy các nghiên cứu mô tả có một giá trị thực tiễn hết sức to lớn và hoàn toàn không kém nghiên cứu phân tích về giá trị khoa học. Ở Anh quốc nhóm chăm sóc ban đầu (primary care groups) được đưa vào hoạt động từ năm 1999 và có một ngân quỹ thống nhất để chi trả cho các hoạt động y tế của bệnh nhân bao gồm cả chi phí nhập viện. Ðây là một nghiên cứu có ý nghĩa thực tiễn trong tình hình có nhiều trạm y tế còn hoạt động kém. Những nhà nghiên cứu tiến hành một nghiên cứu để xem đây là một vấn đề sức khoẻ mới hay chỉ là các trường hợp tương tự với những ca bệnh viêm phổi Pneumocystic carinii được phát hiện từ trước? Vấn đề sức khoẻ này có những đặc điểm gì ? Một nghiên cứu trường hợp được tiến hành dựa trên việc mô tả đặc điểm của một trạm y tế có hoạt động tương đối tốt nhằm rút ra các bài học về quản lí cho các trạm y tế 7. thái độ. case series). hành vi hay các điều tra cắt ngang cũng là các nghiên cứu mô tả quan trọng. Các nghiên cứu mô tả tương đối phổ biến trong y văn và sau đây là một số thí dụ Một báo cáo loạt ca bệnh (case series) dựa trên việc mô tả bệnh sử và bệnh cảnh lâm sàng của 4 người đàn ông được nhập viện tại trung tâmY khoa của Ðại học California ở Los Angeles (UCLA) vì bệnh viêm phổi do Pneumocystic carinii. Thí dụ trong một nghiên cứu cắt ngang nhằm tìm hiểu mô hình bệnh tật của một cộng đồng (đây là một nghiên cứu rất có giá trị để thiết kế chương trình can thiệp y tế cho cộng đồng đó) nhà nghiên cứu không tập trung vào việc mô tả các vấn đề sức khoẻ mà lại (thí dụ như) cố gắng tìm mối liên hệ giữa ung thư và hút thuốc lá và như vậy làm loãng giá trị của đề tài nghiên cứu bằng một phân tích kém chất lượng và bị sai lệch. tìm hiểu một số đặc điểm hay ước lượng quy mô của một vấn đề sức khoẻ hay tìm hiểu kiến thức. các nghiên cứu mô tả. Ở quy mô nhỏ nghiên cứu mô tả bao gồm việc mô tả sâu các đặc tính của một số bệnh nhân hay các trạm y tế hoặc các dự án.Nghiên cứu mô tả Nghiên cứu mô tả bao gồm việc thu thập và trình bày có hệ thống các số liệu nhằm cung cấp một bức tranh về một tình huống cụ thể.

Kết quả cho thấy nguy cơ tử vong hàng năm do ung thư phổi ở người không hút thuốc lá là 10/100. Hơn nữa phương pháp dịch tễ học thường đi đầu tìm ra các nguyên nhân. Nếu được theo dõi đầy đủ. Ðể có số liệu cụ thể.000 trong khi nguy cơ tử vong hàng năm do ung thư phổi ở người hút thuốc lá là 140/100.khỏe trong dân chúng. Các ngành khoa học khác sẽ đi theo để tìm thêm chứng cứ ủng hộ. Như vậy hút thuốc lá làm tăng nguy cơ ung thư phổi lên 14 lần (nguy cơ tương đối là 14) và như vậy hút thuốc lá được gọi là yếu tố nguy cơ (hay nguyên nhân) của ung thư phổi. Phương pháp áp dụng là phân tích các yếu tố ảnh hưởng làm gia tăng tỷ lệ bệnh trong một dân số. 52 .000. Một thí dụ kinh điển của nghiên cứu đoàn hệ là nghiên cứu các bác sĩ Anh quốc (The British Doctor's study) được bắt đầu tiến hành vào năm 1951 trong đó 34. Ðây là khuyết điểm chính của nghiên cứu đoàn hệ và các thiết kế nghiên cứu khác (bệnh chứng và cắt ngang) được đề xuất để khắc phục.440 nam bác sĩ được hỏi về tình trạng hút thuốc lá (có hay không) và được theo dõi về tử vong do ung thư phổi trong vòng 20 năm 3.loss from follow-up). Nếu tỉ lệ mắc bệnh này khác biệt giữa hai nhóm (nghĩa là nguy cơ tương đối khác 1) thì ta kết luận có thể có mối liên hệ giữa yếu tố tiếp xúc và bệnh tật. Nguyên lí của phương pháp này là so sánh tỉ lệ mắc bệnh của hai nhóm dân số: một dân số có tiếp xúc với yếu tố nguy cơ và một dân số không tiếp xúc với yếu tố nguy cơ. Tiền đề của nghiên cứu đoàn hệ là phải theo dõi đầy đủ một hiện tượng sức khoẻ của quần thể trong thời gian khá dài (không có mất theo dõi . Mặc dầu rất nhiều lãnh vực khoa học sinh học tham gia vào khảo sát nguyên nhân bệnh tật con người nhưng vai trò của dịch tễ học là độc đáo và không thể thay thế. Thí dụ John Snow đã tìm ra cơ chế lây bệnh của dịch tả trước khi các nhà vi sinh học tìm ra phẩy khuẩn tả – Doll và Hill tìm thấy vai trò của thuốc lá gây bệnh ung thư phổi trước khi các nhà khoa học tìm thấy hóa chất sinh ung trong khói thuốc lá. nghiên cứu đoàn hệ có ưu điểm là trực quan và ít gây ra sai lệch do chọn lựa và sẽ có tính thuyết phục cao. dịch tễ học phân tích có thể dùng các phương pháp điều tra thu thập sau đây: Khảo sát nguyên nhân trong cohort C o ù ti e á p xuùc Khoâng beänh Coù beänh Khoâng beänh t0 T h ô ø i g ia n t1 Khoâng ti e á p xuùc Khoâng beänh Coù beänh Khoâng beänh t0 T h ô ø i g ia n t1 Nghiên cứu đoàn hệ là nghiên cứu nhằm tìm ra sự liên hệ giữa một yếu tố phơi nhiễm và một tình trạng sức khoẻ (thí dụ như một bệnh tật) bằng cách quan sát và so sánh nguy cơ mắc bệnh giữa hai nhóm quần thể có tình trạng phơi nhiễm khác nhau.

ít tốn kém đặc biệt trong nghiên cứu các bệnh hiếm và có thời gian tiềm tàng kéo dài. khi tiến hành nghiên cứu bệnh chứng. Nhằm tìm hiểu sự liên quan giữa sử dụng Oestrogen tổng hợp (OCE) và ung thư mội mạc tử cung. Kết quả cho thấy trong nhóm bệnh có 55 người có tiền căn sử dụng OCE (số chênh sử dụng OCE trong nhóm này là 55/128=0. một nghiên cứu bệnh chứng được tiến hành trong đó có 183 người bị ung thư nội mạc tử cung (nhóm bệnh) và 183 người không bị ung thư nội mạc tử cung (nhóm chứng) được hỏi tiền căn sử dụng OCE4 .12).43/0.43) và trong nhóm chứng có 19 người có tiền căn sử dụng OCE (số chênh sử dụng OCE trong nhóm chứng là 19/164=0.6) cũng chính là số chênh mắc ung thư mội mạc tử cung của nhóm sử dụng OCE so với nhóm không sử dụng OCE hay là mức tăng nguy cơ ung thư nội mạc tử cung nếu sử dụng OCE. Tuy nhiên nghiên cứu bệnh chứng có ưu điểm là tiến hành nhanh.440 bác sĩ trong thời gian 20 năm nhưng chúng ta có điều kiện (a) biết chắc chắn một người có phải là một nam bác sĩ hay không (b) ghi nhận được thông tin của tất cả các trường hợp ung thư phổi xảy ra trên các nam bác sĩ và (c) chọn một mẫu đại diện cho quần thể nam bác sĩ về phương diện hút thuốc lá. Nghiên cứu bệnh chứng tốt đòi hỏi phải thoả mãn 3 điều kiện đã nêu ở trên trong đó có điều kiện là phải có thông tin về tất cả các trường hợp bệnh vì vậy nghiên cứu này thích hợp cho các bệnh nghiêm trọng và tất cả các trường hợp bệnh đều phải nhập viện. Hơn thế nữa. 53 . nhà nghiên cứu phải chuẩn bị rất chu đáo về mặt kĩ thuật vì không dễ dàng thuyết phục được cộng đồng khoa học đều đồng ý rằng nhóm chứng là thực sự đại diện cho quần thể không mắc bệnh.Khảo sát nguyên nhân bệnh chứng: C o ù ti e á p xuùc Coù beänh Khoâng tie á p xuùc t0 T h ô ø i g ia n t1 C o ù ti e á p xuùc Khoâng beänh Khoâng tie á p xuùc t0 T h ô ø i g ia n t1 Giả sử chúng ta không có điều kiện theo dõi 34. Nếu nghiên cứu bệnh chứng không thoả mãn được 3 điều kiện trên sẽ bị sai lệch (biased). Tỉ số của hai số chênh này là 0.12= 3. Bệnh ung thư là một thí dụ kinh điển của loại bệnh thích hợp cho nghiên cứu bệnh chứng.6. Khi đó bằng phép tính số học đơn giản có thể chứng minh: s á h â h h ù th o cla ô n ö ø m é b ä h o c e n u t u á ùû g ô i a c e n s á h â h m é b ä hô n ö ø h ù th o ocen a c e n ûg ô i u t u = s á h â hh ù th o cla ô n ö ø k o n m é b ä h o c e n u t u á ùû g ô i h â g a c e n s á h â hm é b ä h ô n ö ø k o n h ù ocen ac en ûg ô i h â g u Và như vậy chúng ta có thể ước lượng được nguy cơ tương đối mà không cần phải quan sát trong thời gian dài. Con số này (3.

cộng hoà liên bang Ðức nhằm đánh giá tác động của bú sữa mẹ (trong thời kì nhũ nhi) lên nguy cơ béo phì (vào cuối tuổi nhà trẻ) bằng cách sử dụng các số liệu chiều cao.Chia nhóm ngẫu nhiên: sức mạnh của nghiên cứu thực nghiệm chính là việc chia nhóm ngẫu nhiên giúp loại bỏ yếu tố gây nhiễu. Nghiên cứu can thiệp được chia thành nghiên cứu thực nghiệm và nghiên cứu bán thực nghiệm Trong nghiên cứu thực nghiệm. Nghiên cứu thực nghiệm có 3 đặc tính: .Thử nghiệm lâm sàng: là nghiên cứu trên đối tượng bệnh nhân. Nghiên cứu can thiệp Trong nghiên cứu can thiệp nhà nghiên cứu tác động lên tình hình và đo lường kết quả của việc tác động. Tuy nhiên nó chỉ có thể áp dụng được cho các bệnh tật có tính chất định lượng. Thông thường có hai nhóm được so sánh. suy dinh dưỡng.Nghiên cứu cắt ngang Trở về thí dụ nghiên cứu sự liên hệ giữa hút thuốc là và ung thư phổi.Để nghiên cứu có tính xác hợp người ta thường chỉ sử dụng thử nghiệm thực địa để đánh giá các giải pháp can thiệp dự phòng cho các bệnh 54 .nhóm được can thiệp (thí dụ như được điều trị với một loại thuốc) và nhóm không được can thiệp (nhóm sử dụng giả dược). tăng huyết áp thể nhẹ hay trung bình). Ở trẻ không được bú mẹ. Một nghiên cứu cắt ngang được tiến hành ở Bavaria. Những bệnh thích hợp cho nghiên cứu cắt ngang bao gồm rối loạn có tính chất định lượng và ít gây tử vong (béo phì. cân nặng và bộ câu hỏi về dinh dưỡng của 9357 trẻ từ 5-6 tuổi được khám sức khoẻ trước khi nhập học 5. ghi nhận thông tin về hút thuốc và ung thư phổi và có được kết luận tương tự như nghiên cứu đoàn hệ nếu chúng ta giả định được rằng (a) Tất cả các trường hợp ung thư phổi chẩn đoán trong giai đoạn 1951 đến 1971 đều còn sống cho đến năm 1971 (b) Việc mắc ung thư phổi không làm thay đổi thói quen hút thuốc lá của bác sĩ mắc bệnh (nghĩa là nếu họ hút thuốc lá rồi bị ung thư phổi thì họ vẫn tiếp tục hút thuốc lá và nếu họ không hút thuốc lá thì sau khi ung thư phổi vẫn tiếp tục không hút thuốc lá). Nghiên cứu bán thực nghiệm là nghiên cứu có sự thao tác của nhà nghiên cứu nhưng thiếu một trong hai đặc tính còn lại của nghiên cứu thực nghiệm (thí dụ như không có nhóm chứng hay không được chia nhóm ngẫu nhiên. chúng ta có thể không cần thời gian theo dõi trong suốt thời gian từ 1951 đến 1971 mà chỉ cần tiến hành một cuộc điều tra ở thời điểm 1971. Loại nghiên cứu bao gồm việc thử nghiệm một điều trị mới hay một biện pháp dự phòng các di chứng trên bệnh nhân nhằm đánh giá hiệu quả của việc điều trị hay dự phòng kể trên. Mặc dù đây là nghiên cứu cắt ngang nhưng có tính giá trị tốt do thoả mãn được hai giả định của nghiên cứu cắt ngang (a) đứa trẻ bị béo phì không bị tăng nguy cơ tử vong và (b) việc trẻ bị béo phì không ảnh hưởng gì đến việc bú sữa mẹ ở giai đoạn nhũ nhi. phổ biến. Kết cuộc của can thiệp được tính từ việc so sánh kết quả ở hai nhóm. Loại nghiên cứu này chủ yếu đánh giá các biện pháp dự phòng. Tác giả kết luận rằng bú sữa mẹ làm giảm nguy cơ béo phì ở cuối tuổi nhà trẻ.Thử nghiệm thực địa là việc can thiệp trên người chưa có bệnh. Một nhóm được nhận can thiệp (nhóm thử nghiệm) và một nhóm không được nhận can thiệp (nhóm chứng). bệnh nhiễm trùng. Như vậy. các cá nhân được chia ngẫu nhiên thành (ít nhất) hai nhóm.5% trong khi đó ở trẻ được bú mẹ tỉ lệ béo phì là 2.8%.Thao tác . ít gây tử vong và các yếu tố nguy cơ ít biến động. Nghiên cứu thực nghiệm có thể được chia làm 3 loại: 1. 2. bất dung nạp đường huyết. Tóm lại nghiên cứu cắt ngang có ưu điểm là đơn giản và ít tốn kém. tỉ lệ béo phì là 4.Có nhóm chứng . tai nạn. nghiên cứu cắt ngang thường ít được sử dụng cho các bệnh nghiêm trọng như ung thư.

Can thiệp cộng đồng áp dụng khi biện pháp can thiệp này chỉ có thể áp dụng cho quy mô cộng đồng thí dụ như việc đánh giá hiệu quả của việc cải tạo vệ sinh môi trường trong việc phòng chống sốt rét. Giaù trò vaø chính xaùc Giaù trò .bệnh phổ biến hay trầm trọng. Do nghiên cứu thực nghiệm có chia làm 2 nhóm can thiệp và nhóm chứng bằng phương pháp chia nhóm ngẫu nhiên. Việc sai lệch thông tin trong nghiên cứu can thiệp có thể được giảm thiểu nếu với phương pháp mù đơn (có nghĩa là làm sao cho đối tượng không biết loại điều trị của cá nhân mình) hoặc mù đôi (cả đối tượng điều trị và nhà nghiên cứu đều không biết loại điều trị được thực hiện trên từng cá nhân). Đó là lí do tại sao những bằng chứng từ nghiên cứu thực nghiệm được đánh giá cao. 3.Can thiệp cộng đồng tương tự như thử nghiệm thực địa nhưng có đặc điểm là biện pháp can thiệp được áp dụng cho cả cộng đồng chứ không phải có một cá nhân đơn lẻ. đặc biệt khí cỡ mẫu đủ lớn.khoâng tin caäy 55 . Nghiên cứu can thiệp chính thống có 3 đặc điểm quan trọng: có việc can thiệp chủ động và đặc hiệu cho nghiên cứu. Tuy nhiên tính chất mù của nghiên cứu can thiệp không phải là yêu cầu tuyệt đối. Tính giá trị và tính tin cậy của kết quả nghiên cứu Tính giá trị nghĩa là kết luận của nghiên cứu là đúng Tính tin cậy là nếu ai đó sử dụng cùng phương pháp nghiên cứu trong cùng một hoàn cảnh sẽ có kết luận tương tự. sẽ phân bố đều yếu tố gây nhiễu trong 2 nhóm và hạn chế vai trò của yếu tố gây nhiễu.khoâng tin caäy Khoâng giaù trò . Các thử nghiệm vaccine là một loại thử nghiệm thực địa phổ biến nhất. Nghiên cứu can thiệp không có đủ 3 đặc tính trên được gọi là nghiên cứu bán can thiệp (quasi experiment). có nhóm đối chứng và sử dụng việc phân nhóm ngẫu nhiên để đưa các đối tượng vào nhóm can thiệp và hay nhóm đối chứng đối chứng.

Tỉ lệ nam giới trong dân số là 49%. tỉ suất Do dịch tễ học sử dụng các số đo tương đối. Ðây là các số đo tuyệt đối.000 người và sinh suất là 2% thì mỗi năm sẽ có khoảng 100 trẻ được sinh và trong 2 năm sẽ có khoảng 200 trẻ được sinh. II.000 lượt vận chuyển bằng đường sông. tử số không nhất thiết là một phần của mẫu số. Thí dụ nếu một xã có 5. Thí dụ: Người ta ước tính tại TP Hồ Chí Minh vào năm 1997 có khoảng 700. có phải dùng số đo tương đối thích hợp hơn số đo tuyệt đối. từ "suất" trong tiếng Việt cũng như từ "rate" trong tiếng Anh thường để chỉ một hiện tượng có liên quan đến thời gian. tỉ lệ hay tỉ suất: Tỉ số (ratio) là loại thương số đơn giản nhất do một tử số chia cho một mẫu số bất kì a/b Trong tỉ số. Tỉ số giới tính = nam:nữ= 49:51.000. các thương số này có thể là tỉ số. Tỉ suất khác với tỉ lệ ở chỗ giả sử tỉ lệ không có mối liên hệ nội tại với thời gian. Thí dụ: trong dân số của một xã người ta thâý có khoảng 49 người nam trong dân số 100 người. Nguy cơ bị tử vong trên mỗi lượt vận chuyển đường bộ vào khoảng 0. Thí dụ: lãi suất: tiền lời hàng tháng. các loại số đo sự phân bố bệnh tật là những khái niệm trung tâm của dịch tễ học. Từ các con số này. chúng ta thấy vận chuyển bằng đường sông nguy hiểm hơn vận chuyển bằng đường bộ Câu hỏi: Về phương diện y tế công cộng. sinh suất: số lần sinh sống xảy ra trong một năm trong một dân số gồm 100 người.000. Số đo tương đối là tỉ số của hiện tượng sức khỏe bệnh tật so với dân số có nguy cơ có hiện tượng sức khỏe đó.000 và nguy cơ bị tử vong trên mỗi lượt vận chuyển là 2/1. Tỉ lệ (proportion) là một thương số trong đó tử số là một bộ phận của mẫu số. Tỉ suất (rate). Tỉ số. Tùy theo mối quan hệ giữa tử số và mẫu số cũng như tùy theo ý nghĩa của số đo. tỉ lệ.000 lượt vận chuyển trên đường và 1. Mở đầu: Bởi vì Dịch tễ học là khoa học mô tả sự phân bố của bệnh tật và các hiện tượng sức khỏe trong dân số. Từ các con số này chúng ta có thể cho rằng giao thông đường bộ nguy hiểm hơn giao thông đường thủy. Nhận xét này có thể nhầm lẫn bởi vì chúng ta chưa xét đến quy mô của dân số nguy cơ.Các số đo dịch tễ học I.000. 56 . Thí dụ: trong dân số một xã gồm 100 người có 49 người nam.000.000. Thí dụ nếu ta biết tỉ lệ nam trong dân số là 49%. các số đo thường là một thương số gồm tử số và mẫu số. Số đo tuyệt đối và số đo tương đối Số đo tuyệt đối là số tuyệt đối của các hiện tượng sức khỏe và bệnh tật: Thí dụ: trong năm 1997 tại thành phồ Hồ Chí Minh có khoảng 600 người chết vì bị tai nạn giao thông đường bộ và 4 người chết do các phương tiện giao thông đường thủy. Tại sao? III.87/1. ta không thể tiên đoán gì về sự thay đổi của số người nam trong tương lai.

Minh họa khái niệm về bệnh tật: a. IV. Số ca mới mắc (Incidence): Là số lần mới vừa xảy ra của một bệnh. Tần suất 1. D . C . 3. G t r o n g s o á 1 0 0 ñ o á i t ö ô ïn g . F . Số đo dịch tễ A. B .Số mới mắc bệnh trong khoảng thời gian một năm là 4 . chấn thương hay tử vong trong dân số nghiên cứu trong khoảng thời gian xác định 2. Ñ ö ô ø n g ñ e n n a è m n g a n g la ø t h ô ø i g ia n m a é c b e ä n h c u û a c a ù c ñ o á i t ö ô ïn g v ô d a á u c h a á m ô û ñ a à u la ø th ô ø i ñ ie å m m a é c b e ä n h v a ø d a á u c h a á m ô û c u o á i la ø t h ô ø i ñ ie å m k e beänh. Sô ca hiện đang bệnh (Prevalence): Là số người trong một dân số xác định có một bệnh nhất định ở một thời điểm (thường là thời điểm điều tra).Số hiện đang bệnh tại thời điểm 1/9 là 4 4. M in h h o ïa v e à d ie ã n t ie á n b e ä n h t a ä t c u û a 7 ñ o á i t ö ô ïn g A .Số hiện đang bệnh tại thời điểm 1/1 là 3 . . E .A B C D E F G H ìn h 1 . số hiện đang bệnh được minh họa trong hình 2-1 dựa trên phương pháp được phát minh bởi Dorn (1957). Khái niệm về số mới mắc. Mối quan hệ giữa số hiện đang bệnh và số mới mắc: Số hiện đang bệnh = Số mới mắc x Thời gian mắc bệnh trung bình 57 .

C. .Tỉ lệ người bị nhiễm trùng có triệu chứng lâm sàng được gọi là tính sinh bệnh (pathogenicity) của vi sinh vật. c. bệnh. Nói cách khác chúng ta có thể ước tính tỉ suất bằng nguy cơ trong một đơn vị thời gian khi: . Ðịnh nghĩa a. Ðây là chỉ số của độc lực. tæ a t= s á u so b á c á a y tro g 1ñ n v th ø g n á ie n o x û ra n ô ò ô i ia d â s á g y c tru g b h a no n u ô n ìn 2. Tỉ suất còn có thể được định nghĩa là số biến cố xảy ra chia cho tổng thời gian nguy cơ. Ðịnh nghĩa: Tỉ suất là số biến cố xảy ra trong một đơn vị thời gian chia cho dân số nguy cơ trung bình. . 58 .Nguy cơ không hữu ích nếu một cá nhân có thể mắc bệnh (được quan tâm) nhiều lần hay khi có tỉ lệ đối tượng cùng mắc bệnh tại một thời điểm khá cao.Tỉ số bệnh-vong (case fatality) là tỉ lệ người bệnh bị chết do bệnh đó. chỉ có dân số nhạy cảm mới được kể trong mẫu số của nguy cơ nhưng trong thực tế mẫu số bao gồm tất cả mọi người bị phơi nhiễm chứ không chỉ những cá nhân nhạy cảm. Tỉ suất 1. mỗi người chỉ có thể có một lần mắc bệnh và . Khi đó ta nói tỉ suất sẽ xấp xỉ với nguy cơ trong một đơn vị thời gian. chấn thương) trong thời gian nghiên cứu.Trên lí thuyết.Mỗi đối tượng chỉ có bị ảnh hưởng bởi biến cố nguy cơ nhiều nhất một lần. Một số khái niệm thường gặp có bản chất là nguy cơ . Hạn chế của ý niệm nguy cơ: .B. b.Nếu nguy cơ được tính trong thời gian một năm và mỗi đối tượng chỉ có thể có một biến cố nguy cơ thì số người có biến cố nguy cơ sẽ bằng với số biến cố nguy cơ trong 1 đơn vị thời gian. . Nguy cơ là tỉ lệ người không bị ảnh hưởng ở đầu nghiên cứu và sau đó vướng phải một biến cố nguy cơ (chết. n u cô = g y so n ö ø x û ra b á co ágôi a y ie n á d â so n u c an ág y ô Nguy cơ rất hữu ích trong đo lường (tiên đoán) khả năng mắc bệnh của một cá nhân trong một khoảng thời gian nhất định.Khoảng thời gian nghiên cứu ngắn hay đối với bệnh hiếm. Liên hệ giữa tỉ suất và nguy cơ . Nguy cơ 1.Tỉ lệ người bị phơi nhiễm trở nên bị nhiễm trùng được gọi là tính truyền nhiễm của vi sinh vật (infectiousness). .Nếu số người bị ảnh hưởng bởi biến cố nguy cơ ít thì dân số nguy cơ trung bình sẽ bằng với dân số nguy cơ ở đầu nghiên cứu.

Một vấn đề y tế luôn luôn được gây ra bởi rất nhiều nguyên nhân và những nguyên nhân này chồng chéo lẫn nhau.02/năm. III. Số mới mắc có thể trình bày dưới dạng số tuyệt đối hay số tương đối.số đo hậu quả Bảng 2 x 2 đã được dùng từ rất lâu để chứng minh sự kết hợp thống kê giữa một yếu tố nguy cơ và sự xuất hiện của bệnh tật. dịch tễ học đã đề xuất việc sử dụng tỉ số và hiệu số của nguy cơ làm thước đo của sự kết hợp giữa nguyên nhân và hậu quả. Khoa học dịch tễ học nhận thức được hai vấn đề (1) Trong thực tế không có một nguyên nhân đơn lẻ là nguyên nhân duy nhất cho một vấn đề y tế.risk) Số chênh là một số không âm. Vì vậy. số chênh bằng 0 khi nguy cơ bằng 0. số chênh bằng 1 khi nguy cơ bằng 0. Do bản chất của nguy cơ là xác suất nên nguy cơ không có thứ nguyên và 0 < nguy cơ < 1 Số chênh (odds) la ø tỉ số giữa nguy cơ mắc bệnh và nguy cơ không mắc bệnh risk / (1 . Tỉ số nguy cơ nói lên người bị phơi nhiễm có nguy cơ bị mắc bệnh gấp bao nhiêu lần người không bị phơi nhiễm. Nhưng chỉ riêng sự kết hợp thống kê không nói lên được tầm quan trọng về mặt lâm sàng (hoặc y tế công cộng) của mối liên quan nhân quả giữa yếu tố nguy cơ và bệnh tật.RR). Một sự kết hợp dù không có tầm quan trọng lớn nhưng đều có thể được chứng minh là có ý nghĩa thống kê với cỡ mẫu đủ lớn. trung bình có hai người bị xuất hiện bệnh mạch vành sau thời gian theo dõi 1 năm. Thí dụ. tỉ suất mới mắc của một bệnh thường được gọi là tỉ suất của bệnh đó.5 và số chênh tiến đến vô cực khi nguy cơ bằng 1.RR). Như vậy. Nguy cơ (risk) là xác suất xuất hiện bệnh trong một khoảng thời gian nhất định. Tỉ số nguy cơ là tỉ số của nguy cơ trong nhóm phơi nhiễm (r1) trên nguy cơ trong nhóm không phơi nhiễm (r0). II. Tỉ suất mới mắc (incidence rate): nguy cơ mắc bệnh tức thời trong một đơn vị thời gian. Số đo tỉ số Số đo tỉ số thông dụng nhất là tỉ số nguy cơ (Risk ratio .Số đo hậu quả và số đo tác động I.02/năm ở những người có cholesterol ≥ 245 mg% nghĩa là trong 100 người có cholesterol ≥ 245 mg% và chưa bị bệnh mạch vành tim. nguy cơ và số chênh Số mới mắc (incidence) là đo lường của sự xuất hiện của bệnh. Thí dụ: 59 . Thứ nguyên của tỉ suất mới mắc là thời gian -1. Do đơn vị thời gian được chọn là tùy ý. thí dụ tỉ suất mới của bệnh mạch vành tim ở người có cholesterol ≥ 245 mg% là 0. Những đo số tương đối của sự xuất hiện bệnh thường gặp là nguy cơ. người ta gợi đó là mạng lưới nguyên nhân (web of causation) và (2) Ngành y tế không thể giải quyết được mọi nguyên nhân của một vấn đề y tế cùng một lúc mà nó chỉ có thể giải quyết được tận gốc rễ nếu dịch tễ học tìm ra được và giải quyết nguyên nhân quan trọng nhất. số chênh cũng là thước đo để đo lường sự xuất hiện của bệnh. Thông thường. hay số chênh. ta có thể nói tỉ suất bệnh mạch vành là 0. tỉ suất mới mắc không có giới hạn về giá trị. tỉ suất mới mắc. Số đo sự kết hợp . RR = r1 / r0 Tỉ số nguy cơ còn được gọi là nguy cơ tương đối (Relative risk . Nhắc lại về số đo sự xuất hiện của bệnh: tỉ suất.

244 ≥ 245 Tổng cộng Số người trong nhóm 454 455 422 1333 Số ca bệnh Nguy cơ Tỉ suất RR Nguy cơ quy trách 0.0352 0.0200 0. Ta nói. Ví dụ: Trong một dân số giả thuyết gồm 10.1203 (xác suất người có cholesterol ≥ 245 mg% bị bệnh mạch vành tim trong thời gian 6 năm là 12%).4. Nếu ta xem nhóm có cholesterol huyết thanh <210 mg% là nhóm không phơi nhiễm. Table 1. và tỉ số số hiện mắc (prevalence ratio).4 Như vậy.0352 (Ðiều này có nghĩa là xác suất mắc bệnh mạch vành tim ở người có cholesterol < 210 mg% trong thời gian 6 năm vào khoảng 3. tỉ số nguy cơ ước lượng độ lớn của hậu quả của yếu tố nguy cơ. gần bằng giá trị của tỉ số nguy cơ đã được tính ở trên.0285 0. còn có những số đo sự kết hợp khác như tỉ số tỉ suất (rate ratio).000 không hút thuốc. Khi bệnh tương đối phổ biến thì tỉ số nguy cơ sẽ bị sai lệch tiến tới giá trị đơn vị và người ta cho rằng tỉ số tỉ suất là ước lượng tốt hơn cho độ mạnh của sự kết hợp. Nếu chúng ta có thể theo dõi nhóm người này trong 5 năm liên tục ta có kết 60 .0000 0.0120 1.5%).0059 = 3. Tỉ số tỉ suất mắc bệnh mạch vành tim trong nhóm cholesterol cao (cholesterol ≥ 245 mg%) so với nhóm có cholesterol thấp (cholesterol < 210 mg%) = 0. và do đó.0106 0. Người ta đã chứng minh tùy theo bệnh được nghiên cứu là bệnh hiếm hay phổ biến và tùy theo cơ cấu lấy mẫu. trình bày số mới mắc bệnh mạch vành tim trong 6 năm theo dõi tùy theo nồng độ cholesterol huyết thanh ban đầu trên nam giới tuổi từ 40-59. Tỉ số tỉ suất thường được dùng trong những nghiên cứu đoàn hệ.0352 = 3. tỉ số nguy cơ là số đo của độ mạnh của sự kết hợp giữa yếu tố nguy cơ và bệnh tật. Ðối với bệnh tật không quá phổ biến.000 người hút thuốc lá và 6. Ðứa trẻ không được chủng ngừa vaccine bại liệt có nguy cơ mắc bệnh bại liệt hơn đứa trẻ được chủng ngừa tù 5 đến 10 lần.4 lần xác suất ở người có cholesterol < 210 mg%.0200 / 0.0637 0. Ta có tỉ số nguy cơ (RR) là tỉ số của 2 nguy cơ trên = 0. do đó. người ta thường dùng tỉ số chênh để ước lượng nguy cơ tương đối của việc phơi nhiễm với một yếu tố nguy cơ. tỉ số chênh (odds ratio). Ðiều này có nghĩa là xác suất bị bệnh mạch vành tim ở người có cholesterol ≥ 245 mg% cao gấp 3. Ta nói tỉ số nguy cơ mắc bệnh bại liệt trong nhóm không được chủng ngừa so với nhóm được chủng ngừa là từ 5 đến 10. trong y văn.4. Số mới mắc bệnh mạch vành tim trong 6 năm theo dõi tùy theo nồng độ cholesterol huyết thanh ban đầu trên nam giới tuổi từ 40-59 cholesterol huyết thanh mg/100 ml < 210 210 .0059 0. Với cơ cấu lấy mẫu cổ điển và RR > 1 thì OR ( RR trong trường hợp bệnh hiếm và 1 < RR < OR trong trường hợp bệnh phổ biến. Trong nghiên cứu bệnh-chứng (và cả trong nghiên cứu đoàn hệ nếu muốn).000 người trong đó có 4.1203 / 0. tỉ số nguy cơ là số đo hậu quả hay số đo sự kết hợp.1203 0.Bảng 1 trình bày một ví dụ rút ra từ nghiên cứu Framingham. người ta thường dùng lẫn lộn tỉ số nguy cơ và tỉ số tỉ suất.0720 0.0 1. Thí dụ: Trong số liệu của nghiên cứu Framingham được trình bày trong bảng 1. tỉ số nguy cơ bằng với tỉ số tỉ suất về mặt con số.8 3. thì nguy cơ mắc bệnh mạch vành tim ở nhóm không phơi nhiễm là 0.0851 16 29 51 96 0. Ngoài tỉ số nguy cơ. Nếu ta xem nhóm có cholesterol ≥ 245 mg% là nhóm phơi nhiễm thì nguy cơ ở nhóm phơi nhiễm là 0. tỉ số chênh có thể ước lượng cho tỉ số nguy cơ hay tỉ số tỉ suất và đều có thể nói lên độ mạnh của sự kết hợp.

nhà nghiên cứu chỉ lập bảng 2× 2 rồi tính giá trị χ 2 . sau đó ước lượng xác suất của sai lầm loại 1 (mức ý nghĩa p) và quyết định chấp nhận hay loại bỏ giả thuyết H0. Thí dụ: Nếu ta xét trở lại số liệu ở bảng 1 và tìm hiệu số nguy cơ ở nhóm phơi nhiễm (những người có cholesterol ≥ 245 mg%) và ở nhóm không phơi nhiễm (cholesterol < 210 mg%) ta có: 61 . Dù vậy trong nghiên cứu đoàn hệ cũng có thể dùng tỉ số số "chênh".1/0.02 Nguy cơ tương đối (hay tỉ số nguy cơ) RR= Risk1/Risk0 =0. 1 độ tự do do đó mức ý nghĩa p < 0. Số "Chênh" nhồi máu ở những người hút thuốc (Odds1) = 0.000 10. có sự liên hệ giữa hút thuốc lá và nhồi máu cơ tim.880 9.000 = 0.r0 Hiệu số nguy cơ nói lên người bị phơi nhiễm phải gánh chịu một nguy cơ thặng dư là bao nhiêu. Các bước tiến hành như sau: Giả thuyết H0: không có sự liên quan giữa hút thuốc lá và nguy cơ nhồi máu cơ tim Chi-square = 311. Và nếu không có sai lêch trong nghiên cứu thì OR tính được trong nghiên cứu bệnh chứng cũng bằng OR tính được trong nghiên cứu đoàn hệ.1 Nguy cơ nhồi máu ở những người không hút (Risk0) = 120/6. Tuy vậy theo dịch tễ học hiện đại. Ví dụ minh họa cho điều này sẽ được trình bày trong bài nghiên cứu bệnh chứng.600 5.02 Tỉ số số "Chênh" nhồi máu trong 2 nhóm tiếp xúc và không tiếp xúc OR= Odds1/Odds0 = (400/3600):120(5880)=(400*5880)/3600/120= 5. Nói cách khác.000 Trong những nguyên tắc của nghiên cứu thống kê cổ điển. IV. Trong nghiên cứu bệnh chứng cũng có thể tính được OR. bởi vì nó chỉ cho câu trả lời định tính là có sự kết hợp giữa hút thuốc lá và nhồi máu cơ tim mà không nêu rõ sự kết hợp đó có độ lớn là bao nhiêu.480 4. Số đo hiệu số Hiệu số nguy cơ (Risk difference) là hiệu số của nguy cơ ở nhóm phơi nhiễm và ở nhóm không phơi nhiễm RD = r1 . Ðể tính số đo kết hợp.000-400) = 0.10) =400/(4.02/(1-0. ta cần những tính toán thêm như sau: Nguy cơ nhồi máu ở những người hút thuốc (Risk1) = 400/4.11 Số "Chênh" nhồi máu ở những người không hút (Odds0) = 0.02=5 Ðó là những số đo sự kết hợp cổ điển trong nghiên cứu đoàn hệ.02) =120/(6.000-120) = 0.10/(1-0.44 Ta thấy OR ≈ RR và OR hơi lớn hơn RR (trong trường hợp RR lớn hơn 1).000 = 0. lời giải trên là không đầy đủ.000 6. Tình trạng bị nhồi máu cơ tim sau 5 năm theo dõi phân theo tình trạng hút thuốc lá Nhóm người Hút thuốc Không thuốc Tổng số Bị nhồi máu cơ tim trong 5 Không bị nhồi máu cơ tim sau Tổng số năm theo dõi 5 năm theo dõi 400 hút 120 520 3.quả sau (Bảng 2): Table 2.59.05 Như vậy ta bác bỏ giả thuyết H0.

nếu một người bị cholesterol cao và hoàn toàn không có một yếu tố nguy cơ nào khác (không hút thuốc lá.0352 = 1.RD = 0. Do đó tỉ số nguy cơ lớn hơn đơn vị (RR ≥ 1) là điều kiện cần. Sự tác động lên dân số không những phụ thuộc vào tỉ số nguy cơ mà còn phụ thuộc vào mức độ phổ biến của bệnh và mức độ phổ biến của yếu tố nguy cơ 2. Giả sử có một yếu tố nguy cơ là nguyên nhân của một bệnh tật nào đó (hay bệnh tật là hậu quả của yếu tố nguy cơ). Nói thêm một cách khác nữa.0851. Ta cũng có thể tính hiệu số tỉ suất ở trong nghiên cứu đoàn hệ. như trong thí dụ trình bày ở bảng 1. Nói cách khác. 3. Thí dụ: Xét việc truyền máu và vết lở ở cơ quan sinh dục với tư cách là yếu tố nguy cơ của nhiễm HIV. nguy cơ bệnh mạch vành tim ở mức phơi nhiễm nền tảng la 0. 4. nếu có một quần thể bị phơi nhiễm với yếu tố nguy cơ và một quần thể không bị phơi nhiễm thì nguy cơ (hoặc tỉ suất mới mắc) ở hai quần thể sẽ khác nhau. Trên đây. không bị tăng huyết áp v. Tuy vậy. loại bỏ những nguyên nhân khác. ta đã trình bày thí dụ về bệnh mạch vành tim là hiện tượng sức khỏe có sự phân biệt rạch ròi giữa bệnh và không bệnh (nói cách khác. Tóm lại.0352. Dù vậy nếu hiện tượng sức khỏe là biến liên tục (thí dụ như tình trạng dinh dưỡng của trẻ hoặc huyết áp tâm thu) ta không nên dùng RR hay RD mà nên dùng hệ số hồi quy để đánh giá sự kết hợp.Ta phải chọn một mức phơi nhiễm (thí dụ như cholesterol < 210 mg%) làm nền tảng và tính RR của những mức phơi nhiễm khác bằng cách tính nguy cơ ở mỗi mức và chia cho nguy cơ ở mức phơi nhiễm nền tảng.0352 = 0.0851 Ta nói người có cholesterol cao sẽ có một nguy cơ thặng dư bị bệnh mạch vành tim là 0.1203 .5% trong thời gian được theo dõi là 6 năm. Hậu quả của việc phơi nhiễm có thể được thấy bằng sự gia tăng nguy cơ (hoặc tỉ suất mới mắc) ở một quần thể khi so sánh với quần thể khác.0637 / 0. Nhưng nó không thể dùng để đánh giá sự tác động của yếu tố nguy cơ lên dân số. ARF= (r1-r0)/r1 = 1 .8. Trong trường hợp có nhiều mức độ phơi nhiễm. V. chỉ riêng cholesterol tăng cao sẽ tạo ra nguy cơ là 0. nếu chúng ta nghĩ rằng yếu tố nguy cơ làm cộng thêm tỉ suất mới mắc thì hiệu số là số đo lường tốt nhất (những yếu tố nguy cơ có tác dụng gây bệnh cộng . ) sẽ có xác suất bị bệnh mạch vành tim là 8. Hai nguy cơ (hoặc tỉ suất mới mắc) có thể được so sánh bằng cách tính tỉ số hay hiệu số của chúng. tỉ số nguy cơ hay hiệu số nguy cơ có thể dùng để đánh giá độ mạnh của sự kết hợp giữa yếu tố nguy cơ và sự xuất hiện bệnh. 62 . và đánh giá hậu quả của việc tiếp xúc với yếu tố nguy cơ. Tỉ số nguy cơ ở người có cholesterol từ 210 đên 245 mg% là 0.còn được gọi là phân số quy trách là tỉ số của hiệu số nguy cơ và nguy cơ của nhóm phơi nhiễm. Khi đó. 5.Additive). Bởi vì truyền máu là nguy cơ cộng thêm và sự hiện diện của vết lở ở cơ quan sinh dục là nguy cơ phối hợp nên người ta cho rằng nên dùng hiệu số nguy cơ để đánh giá hậu của dùng bao cao su và tỉ số nguy cơ để đánh giá hậu quả của dùng bao cao su.0. bệnh mạch vành tim được xem là biến nhị phân . Chọn lựa giữa tỉ số hay hiệu số phụ thuộc vào hiểu biết của chúng ta vào cơ chế làm tăng tỉ suất mới mắc của yếu tố nguy cơ: nếu chúng ta nghĩ yếu tố nguy cơ làm nhân lên tỉ suất mới mắc thì tỉ số là đo lường tốt nhất (những yếu tố nguy cơ có tác dụng gây bệnh phối hợp Synergic). Phân số nguy cơ quy trách (Attributable risk fraction) .0851.1/RR Phân số nguy cơ quy trách nói lên rằng việc phơi nhiễm chiếm bao nhiêu phần trong nguy cơ của người bị phơi nhiễm.rời rạc) và ta có thể dùng tỉ số nguy cơ (RR) hay hiệu số nguy cơ (RD) để đánh giá sự kết hợp.v. nhưng chưa đủ để chứng minh mối quan hệ nhân quả. Nếu yếu tố nguy cơ là nguyên nhân của bệnh tật thì tỉ số nguy cơ và hiệu số nguy cơ sẽ cho thấy sự kết hợp. Trở lại ví dụ ở bảng 1. Biện luận thêm về tỉ số nguy cơ và hiệu số nguy cơ 1. hiệu số số chênh không được sử dụng bởi vì nó không có ý nghĩa sinh học. Tỉ số nguy cơ và hiệu số nguy cơ là số đo sự kết hợp hay số đo hậu quả.

11 1.9). tình trạng vô toan ở dạ dày chỉ góp phần rất nhỏ trong những case bệnh 63 . VE được ước tính sẽ là 74%. Thí dụ.69 19. Có thể tính tỉ số tỉ suất tóm tắt bằng cách lấy trung bình cộng những tỉ số tỉ suất đặc hiệu theo tầng.83 21. Khi có nhiều mức độ phơi nhiễm. Hiệu lực vaccin (vaccine efficacy .20 14. Table 3 Tỉ suất chết do bệnh mạch vành tim ở những người hút thuốc và không hút thuốc theo nhóm tuổi Tuổi 35-44 45-54 55-64 65-74 75-84 85 + Tính chung Tỉ suất ở người hút thuốc 0. trong khi ở nhóm tuổi từ 55-64 nguy cơ tương đối chỉ khoảng 1. VI. tình trạng vô toan ở dạ dày là một yếu tố nguy cơ của bệnh dịch tả (RR từ 10 đến 20) tuy vậy. 6.93 3.1 1.1 1.61 2. Có nhiều cách gán trọng số.VE) là tỉ lệ số mới mắc được giảm bớt do việc chủng ngừa vaccin. Có thể tính tỉ số tỉ suất tóm tắt (summary rate ratio).5 1.20 35.SMR). thì VE = 1 . 9.52 4.ta có thể tính tỉ số nguy cơ đặc hiệu theo tầng (stratum specific ratio) bằng cách xem xét nguy cơ ở từng tầng riêng biệt. Khi cả hai nhóm phơi nhiễm và không phơi nhiễm có thể được chia thành những tầng (strata) theo một biến số khác -thí dụ như tuổi .0352 = 3. Số đo tác động Một số yếu tố nguy cơ có nguy cơ tương đối cao chưa hẳn có tác động quan trọng lên sức khỏe của cộng đồng. người hút thuốc có nguy cơ bị chết do bệnh mạch vành tim cao gấp 5 lần người không hút thuốc.9 10. Nhóm được chọn làm nền tảng thường là nhóm có nguy cơ thấp nhất. 7.40 7.1203 / 0.9 1.5 lần.18 39. Nhưng người ta thường gán trọng số (weight) cho tỉ số tỉ suất đặc hiệu.7). Ở bệnh viện người ta thấy rằng 70% đứa trẻ bị sởi dưới 3 tuổi đã được chủng ngừa sởi (P C = 0.29 Tỉ suất ở người không hút thuốc 0. hai cách phổ biến là nguy cơ tương đối tóm tắt của Mantel-Hanenszel và tỉ số tử vong chuẩn hóa (Standardized mortality ratio .4.3 8. Ở nhóm tuổi 35-44. người ta có thể chọn nhóm đông nhất làm nhóm nền tảng để làm tăng tính chính xác của ước lượng. Thí dụ: Bảng 3 trỉnh bày tỉ suất chết do bệnh mạch vành tim ở những người hút thuốc và không hút thuốc theo nhóm tuổi.RR = 1 . Nếu xem nhóm không tiêm chủng vaccin là nhóm không phơi nhiễm có tỉ suất mới mắc là r0 và nhóm có tiêm chủng có tỉ suất mắc bệnh r1.30 Tỉ số tỉ suất 5.4 0.12 4.5 2.(r1 / r0) Nếu ta có tỉ lệ chủng ngừa trong dân số PN và tỉ lệ chủng ngừa trong những trường hợp bệnh PC ta có thể ước tính hiệu lực vaccin theo công thức sau: VE = (PN .Tỉ số nguy cơ ở người có cholesterol ≥ 245 mg% là 0.PC) / [PN (1-PC)] Thí dụ: Chương trình tiêm chủng mở rộng được thực hiện ở Huyện A và người ta báo cáo rằng 90% đứa trẻ dưới 3 tuổi đã được tiêm chủng phòng sởi (PN = 0.

Phân số nguy cơ quy trách dân số còn được gọi là phân số căn nguyên (etiological fraction .032 Phân số nguy cơ quy trách dân số PAF = 0. Thực vậy. Hiệu số nguy cơ dân số (Population Risk Difference .r0) Nguy cơ quy trách dân số nói lên nguy cơ thặng dư gây nên do sự hiện diện của yếu tố nguy cơ trong dân số. Nguy cơ quy trách dân số là tích số của tỉ lệ dân số bị phơi nhiễm và hiệu số nguy cơ.p)r0 Do đó PRD = pr1 + (1 . ta có thể tiên đoán nếu hút thuốc lá bị loại bỏ hoàn toàn. Vì vậy người làm y tế công cộng không quan tâm lắm đến tình trạng vô toan dạ dày như là một yếu tố nguy cơ của bệnh dịch tả.dịch tả ở cộng đồng.pr0 .PRD) là hiệu số giữa nguy cơ (hay tỉ suất) của toàn bộ dân số r và nguy cơ (hay tỉ suất) của nhóm không phơi nhiễm (r0). ở bệnh viện truyền nhiễm chúng ta rất hiếm khi (có thể nói là không bao giờ) gặp được một bệnh nhân dịch tả do tình trạng vô toan mà chúng ta thường gặp bệnh nhân bị bệnh dịch tả do không có nguồn nước sạch. ta có thể tính được PAF dựa trên kết quả của một nghiên cứu bệnh chứng (lưu ý rằng đối với bệnh hiếm OR là ước lượng khá tốt cho RR). Phân số nguy cơ quy trách dân số (Population Attributable Risk Fraction . PRD = r .r0)/ [pr1 + (1 .r0 = pr1 + r0 .2 × (2.032/0. Kết quả này có nghĩa là 80% những tử vong do ung thư phổi là do hút thuốc lá.r0 = pr1 .02 = 0.r0 Nếu ta kí hiệu p là tỉ lệ trong dân số bị phơi nhiễm thì r = pr1 + (1 .pr0 = p(r1 .25 64 . Giả sử phân số nguy cơ quy trách dân số (PAF) tương ứng giữa hút thuốc lá và tử vong do ung thư phổi là 0.052 Hiệu số nguy cơ dân số PRD = 0.67 -1) + 1] = 0.02 x 0.p)r0] = p(RR .AF) PAF = PRD / r = p (r1 . Tình trạng vô toan dạ dày có nguy cơ quy trách dân số thấp bởi vì tỉ lệ dân số bị phơi nhiễm với yếu tố nguy cơ đó (tỉ lệ dân số bị vô toan dạ dày) thấp.1)/[pRR + 1 .EF).PAF): là tỉ lệ của những trường hợp bị bệnh trong toàn thể dân số nghiên cứu có thể quy kết cho sự phơi nhiễm (với giả định là sự kết hợp nhân quả).p)r0 .052-0. Ðể lượng hóa tác động của yếu tố nguy cơ ta sử dụng nguy cơ quy trách dân số và phân số nguy cơ quy trách dân số. Ta tính được những số đo tác động như sau: Nguy cơ nhồi máu trong dân số Risk =520 / 10. phần trăm nguy cơ quy trách dân số (percentage population attributable fraction) hay phân số quy trách (attributable fraction . Dựa vào kết quả được trình bày trong bảng 4. Hơn nữa. Ta nói yếu tố nguy cơ này có tác động nhỏ lên bệnh trạng của dịch tả.80.032 = Risk0 × p × (RR-1) = 0. tỉ suất tử vong do ung thư phổi sẽ giảm đi 80% 2.1)/[0.p] = p(RR .000 = 0. Xem lại số liệu được trình bày trong bảng 2.62 = 62% 3.2 PAF = 0.67 .052 = 0. ta có thể tính được: RR ≈ OR = 40 × 320 / (80 × 60) = 2. Ðối với bệnh hiếm. bởi vì việc loại bỏ hoàn toàn yếu tố nguy cơ này chỉ có thể giảm một phần rất nhỏ số case bệnh dịch tả.1)/[p(RR .4 x (5-1) = 0.1) + 1] Thí dụ: 1.2 (2.67 Tỉ lệ phơi nhiễm trong dân số = tỉ lệ phơi nhiễm trong nhóm chứng = 80/400 = 0.

Bàn luận thêm về phân số nguy cơ quy trách dân số 1. Công thức tính toán này chỉ đúng khi áp dụng cho một yếu tố nguy cơ duy nhất và những yếu tố nguy cơ không tương tác với nhau. 2. 65 . Số các đối tượng chia theo tình trạng phơi nhiễm và tình trạng bệnh trong một nghiên cứu bệnh chứng (Số liệu giả lập) Phơi nhiễm Bệnh Chứng Tổng số 40 80 120 Không phơi nhiễm 60 320 380 Tổng số 100 400 500 VII. Nếu áp dụng cho nhiều yếu tố nguy cơ có thể xảy ra trường hợp tổng số những phân số nguy cơ quy trách dân số lớn hơn 100%. Việc sử dụng phân số nguy cơ quy trách đòi hỏi một số những giả định: (1) sự kết hợp giữa yếu tố nguy cơ và bệnh tật là nhân quả (2) RR và p được đo lường chính xác (3) việc loại bỏ nguy cơ loại bỏ hoàn toàn nguy cơ do nó gây ra (điều này chưa chắn đúng bởi vì người bỏ thuốc lá sẽ không thể có nguy cơ bị ung thư phổi bằng người chưa từng hút thuốc lá) và (4) có thể loại bỏ hoàn toàn yếu tố nguy cơ.Table 4.

Phương pháp thu thập số liệu
Có nhiều phương pháp chính để thu thập số liệu: hồi cứu hồ sơ tài liệu, quan sát, sử dụng bộ câu hỏi tự điền, phỏng vấn mặt đối mặt, thảo luận nhóm tập trung như sử dụng nhóm danh định (nomial group), kĩ thuật delphi, vẽ bản đồ (mapping). Cần phân biệt phương pháp thu thập số liệu và công cụ thu thập số liệu (công cụ thu thập số liệu chỉ là một phần của phương pháp). Thí dụ bộ câu hỏi chỉ là công cụ thu thập số liệu và có thể sử dụng trong nhiều phương pháp thu thập số liệu khác nhau như bộ câu hỏi tự điền, phỏng vấn cá nhân mặt đối mặt, phỏng vấn nhóm, v.v. Nhìn chung có hai kĩ thuật nghiên cứu chính: nghiên cứu định tính và nghiên cứu định lượng. Nghiên cứu định tính nhằm mục đích tìm hiểu bản chất, nguyên nhân và hậu quả của vấn đề của vấn đề nghiên cứu (để trả lời cho các câu hỏi tại sao, như thế nào) trong khi đó nghiên cứu định lượng nhằm tìm hiểu quy mô của vấn đề (Trong một nghiên cứu có thể kết hợp cả hai loại kĩ thuật nghiên cứu định tính và định lượng) Do các phương pháp thu thập số liệu sẽ cho các thông tin khác nhau, việc chọn lựa kĩ thuật thu thập phù hợp phải dựa trên bản chất của nghiên cứu là định tính hay định lượng.

Sử dụng thông tin sẵn có
Sử dụn thông tin sẵn có còn được gọi là phương pháp hồi cứu. Nó có ưu điểm là ít tốn kém về mặt thời gian và nguồn lực và cho phép đánh giá các thông tin trong quá khứ. Tuy nhiên do bản chất của số liệu hồi cứu là không sử dụng cho mục đích nghiên cứu, chất lượng số liệu thường thấp, các biến số không được thu thập không hằng định và thường không có đủ các biến số mà nhà nghiên cứu quan tâm (đặc biệt là yếu tố gây nhiễu). Ðể cải thiện tính hằng định của số liệu có được nhờ hồi cứu, nhà nghiên cứu phải sử dụng các công cụ để hệ thống hoá các biến số cần thu thập như bản kiểm hay sổ cái.

Quan sát
Chọn lọc, quan sát và ghi nhận hành vi hay đặc tính của con người, vật thể hay hiện tượng. Các thí dụ của quan sát có thể bao gồm: quan sát hành vi rửa tay các cán bộ y tế trước khi làm thu thuật y khoa, đo lường huyết áp và lấy thân nhiệt của bệnh nhân, đánh giá phương tiện thanh khử trùng tại khoa phòng, theo dõi diễn tiến lâm sàng của bệnh nhân bị shock nhiễm trùng. Khi quan sát hành vi con người trong các hoạt động xã hội, quá trình quan sát có thể chia thành quan sát có tham gia và quan sát không tham gia. Các ưu điểm của phương pháp quan sát Cho thông tin chi tiết có liên quan tình huống: thí dụ giả sử chúng ta muốn quan sát hành vi rửa tay của điều dưỡng trước khi thay băng cho bệnh nhân, chúng ta có thể có thông tin về mức độ vô khuẩn của dụng cụ làm thủ thuật Cho thông tin nằm ngoài bộ câu hỏi: Có những thông tin chúng ta không dự định thu thập trong bộ câu hỏi (hoặc khó có thể thu thập được chính xác nhờ bộ câu hỏi) thí dụ như thông tin về kĩ thuật sử dụng bàn chải trong khi đang rửa tay có đúng hay không có thể có được một cách chính xác và đơn giản nhờ quan sát Cho phép kiểm tra tính tin cậy của trả lời câu hỏi: Nếu chúng ta quan sát một người điều dưỡng rửa tay trước khi làm thủ thuật, thông tin này sẽ đáng tin cậy hơn là việc phỏng vấn họ có rửa tay hay không? Rửa tay trong bao lâu? Rửa tay có đúng kĩ thuật hay không? Khuyết điểm Sai lệch do quan sát: đây là sai lệch do người quan sát. Phương pháp khắc phục là Cần đào tạo đúng mức những trợ lí nghiên cứu 66

HW Hawthorne: đây là sai lệch do người (hay hiện tượng) được quan sát sẽ thay đổi hành vi khi biết rằng đang được quan sát. Ðiều này có thể khắc phục bằng cách quan sát nhưng không cho biết nhưng điều này có thể có thể gặp phải một số vấn đề về đạo đức. Ðo lường là quan sát sử dụng một thang đo xác định từ trước

Phỏng vấn mặt đối mặt và bộ câu hỏi tự điền
Phương pháp phỏng vấn có thể áp dụng cho từng đối tượng hay cho một nhóm người. Phỏng vấn từng người được dùng để có được những kết quả định lượng; phỏng vấn một nhóm người nhằm mục đích để hiểu rõ suy nghĩ của người dân và ý kiến của họ trong điều kiện cuộc sống thực tế: phương pháp này thường được dùng trong các nghiên cứu định tính. Phỏng vấn có thể được tiến hành với các mức độ cấu trúc khác nhau. Phỏng vấn được gọi là có cấu trúc nếu nó tuân thủ theo một kế hoạch chặt chẽ và được hỏi theo những câu hỏi đã soạn sẵn. Phỏng vấn bán cấu trúc là phỏng vấn có tuân thủ nhưng không chặt chẽ theo kế hoạch định trước, câu hỏi cũng có thể được cải biên sao cho phù hợp với đối tượng. Phỏng vấn được gọi là không cấu trúc khi nó không theo một kế hoạch nào cả và việc đặt câu hỏi là tùy tiện: phỏng vấn không cấu trúc thường được coi là ít có tính khoa học. Bảng 1. Ưu và khuyết điểm của phương pháp sử dụng bộ câu hỏi và phỏng vấn. Khuyết điểm Kế hoạch phỏng vấn giúp - Tốn kém, cần phải sự giúp nhưngười phỏng vấn hỏi các đỡ của chuyên gia. câu hỏi - Sai lệch do người phỏng vấn - Thông tin riêng tư có thể bị sai lệch Ưu điểm - Phù hợp với đối tượng có trình độ văn hoá thấp - Tỉ lệ trả lời cao hơn - Có thể khêu gợi nhiều chi tiết hơn. - Có sự kiểm soát tốt hơn đối với câu trả lời (có thể làm sáng tỏ câu hỏi) - Rẻ tiền hơn - Ít nhạy cảm với sai lệch do người phỏng ván - Có thể dùng bưu điện để gửi bộ câu hỏi.

Bộ câu hỏi tự điền

- Tỉ lệ trả lời thấp hơn - Khó khêu gợi câu trả lời chi tiết - Kiểm soát kém hơn câu trả lời - Không dùng cho người có trình độ văn hoá thấp

Phỏng vấn có cấu trúc, bán cấu trúc hay thu thập số liệu bằng bộ câu hỏi tự điền đều cần phải sử dụng bộ câu hỏi. Bộ câu hỏi (questionnaire) là một văn bản gồm nhiều câu hỏi dùng để thu thập số liệu. Việc soạn thảo bộ câu hỏi tốt là một trong những khâu then chốt để đảm bảo chất lượng số liệu thu thập được.

Thiết kế bộ câu hỏi
Những điểm cần xem xét
Cần phải xem xét bộ câu hỏi sử dụng cho mục đích gì (dùng cho bộ câu hỏi tự điền hay bộ câu hỏi để phỏng vấn mặt đối mặt, sử dụng cho kĩ thuật nghiên cứu định tính hay định lượng, sử dụng cho chủ đề nào, v.v.), sử dụng trên đối tượng nào, những đối tượng này có trình độ học vấn như thế nào và bộ câu hỏi này sử dụng cho cỡ mẫu bao nhiêu. Bộ câu hỏi thường được phân loại là bộ câu hỏi có cấu trúc hay bộ câu hỏi mềm dẻo. Thông 67

thường bộ câu hỏi có cấu trúc được sử dụng cho nghiên cứu định lượng, sử dụng máy tính để phân tích và sử dụng cho cỡ mẫu lớn, bộ câu hỏi có tính mềm dẻo được sử dụng chủ yếu cho nghiên cứu định tính nhằm hiểu sâu hơn về một vấn đề chưa biết và không phù hợp để phân tích thống kê trên máy tính.

Cấu trúc bộ câu hỏi
Cấu trúc bộ câu hỏi bao gồm quá trình thiết kế và tiến hành bộ câu hỏi Việc thiết kế bộ câu hỏi bao gồm các bước sau: 1. Nội dung: Nhà nghiên cứu xác định những thông tin cần thu thập: những thông tin này bao gồm những biến số độc lập, biến số phụ thuộc và các biến số gây nhiễu. Việc này cần rất nhiều suy nghĩ và thảo luận. Cảm hứng trong việc chọn lựa những thông tin cần thiết xuất phát từ mục tiêu của nhà nghiên cứu, từ việc thảo luận với những người khác và những nguồn khác. Kết quả của giai đoạn này là một danh sách những thong tin cần được chuyển thành dạng câu hỏi. 2. Ðặt câu hỏi: Sơ phác bộ câu hỏi. Nhà nghiên cứu xuất phát từ danh sách những thông tin cần thu thập và sơ phác bộ câu hỏi. Như sẽ được thảo luận sâu hơn, việc đặt câu và thiết kế bộ câu hỏi là rất quan trọng trong việc đạt được tính giá trị của thông tin. Nếu bộ thiết kế được thiết kế kém, câu trả lời sẽ không phản ánh chính xác tình trạng thực tế của nhà nghiên cứu. Có hai dạng thức câu hỏi chính, câu hỏi mở và và câu hỏi. Trong câu hỏi mở không có những câu trả lời định trước. Trong câu hỏi đóng có nhiều câu trả lời định trước mà người được hỏi chỉ việc lựa chọn trong đó. Ưu và khuyết điểm của những câu trả lời là như sau: Khuyết điểm Câu hỏi mở Ưu điểm

- Có tính cấu trúc thấp - Có nhiều chi tiết hơn - Khó mã hóa câu trả lời để có thể phân tích thống kê - Tốn nhiều thời gian - Khó trả lời hơn - Có ít chi tiết hơn - Có tính cấu trúc cao - Có thể khiến người được - Câu trả lời dễ mã hóa hơn hỏi khó chịu - Tốn ít thời gian hơn

Câu hỏi đóng

Tuy nhiên nếu nghiên cứu định tính, người ta thích dùng câu hỏi mở hơn bởi vì nó cho phép người trả lời có thể trình bày bằng ngôn từ của họ. Còn việc dùng bộ câu hỏi trong nghiên cứu định lượng người ta nhắm vào tiện lợi và tốc độ chứ không chú trọng đến phân tích sâu. Ðiều quan trọng trong danh sách những câu trả lời cho câu hỏi đóng cần phải được thiết kế cẩn thận. Nếu phạm vi các câu trả lời bị giới hạn thì câu trả lời sẽ bị sai lệch.

Thang đo Likert và thang đo buộc lựa chọn
Một loại câu hỏi đóng đặc biệt có giá trị là thang đo Likert. Thang đo Likert do một nhà tâm lí học người Mỹ tên là Likert phát minh. Thang đo này có ba ưu điểm chính: - Làm dễ dàng hơn việc xây dựng câu hỏi để xác định thái độ của người dân - Thuận tiện trong việc trả lời, phân tích câu hỏi - Cho phép phân biệt nhiều mức độ khác nhau của thái độ. Thang đo Likert truyền thống là một câu hỏi đóng gồm một mệnh đề và có 5 lựa chọn: có lựa chọn dương tính, lựa chọn âm tính và lựa chọn trung bình. Thí dụ: Bảng 3. Dạng thức Likert và dạng thức buộc lựa chọn 68

(Trong bảng trên câu hỏi 1 là thang đo Likert cổ điển.v. Phần kết thúc là phần cám ơn người được phỏng vấn về sự hợp tác của họ và cung cấp thông tin để họ có thể gửi trả bộ câu hỏi. Ưu và khuyết điểm của dạng thức Likert và buộc lựa chọn Dạng thức trả lời Likert Buộc lựa chọn Ưu điểm Khuyết điểm Luôn luôn cho phép trả lời trung Trả lời ba phải tính Người trả lời phải chọn hoặc đồng Không cho phép trả lời ba phải ý hoặc không đồng ý 3. giới tính. xin trả lời câu 10 nếu không xin trả lời câu 11". Câu hỏi 2 là thang đo 4 điểm buộc lựa chọn). Tiến hành thử bộ câu hỏi: Cần tiến hành thử bộ câu hỏi với một nhóm nhỏ những người mà ta sẽ tiến hành nghiên cứu và trên đồng nghiệp để làm sáng tỏ bộ câu hỏi và phát hiện các vấn đề. 3. 4. Chúng ta nên đưa thông tin này lên đầu bởi vì nó dễ trả lời và đóng vai trò "làm nóng" cho việc hỏi những thông tin tiếp theo. Thông tin về dân số học: thông thường chúng ta cần phải thu thập thông tin về dân số học của người được phỏng vấn như tuổi. Trong câu hỏi buộc lựa chọn không cho phép người trả lời trả lời không ý kiến và câu trả lời này để tránh tình trạng người trả lời luôn luôn ba phải (acquiescent response mode). 6. Sắp xếp cấu trúc bộ câu hỏi: Bộ câu hỏi thông thường có cấu trúc như sau: 1. v. 4. Câu hỏi về ý kiến 5. Bác sĩ của trạm y tế luôn luôn giải thích việc điều trị cho tôi (khoang một lựa chọn) Rất đồng ý 1 Ðồng ý 2 Không đồng ý 3 Rất không đồng ý 4 Tuy nhiên nếu những người dân có vẻ e dè khi dùng câu trả lời phủ định thì chúng ta có thể sử dụng thang đo buộc lựa chọn. Câu hỏi về sự kiện: Câu hỏi về sự kiện dễ hỏi (và trả lời) hơn câu hỏi về ý kiến nên thường được đặt ở trước. học vấn. Xây dựng hình thức bộ câu hỏi 5. nghề nghiệp. Soạn lại bộ câu hỏi: Nhờ vào việc tiến hành thử các bộ câu hỏi chúng ta có thể phát hiện được 69 . Bảng 4. Trong bộ câu hỏi tự điền nên tránh những cấu trúc phức tạp như "Nếu bạn trả lời có ở câu 6 và trả lời không ở câu trả lời 9. Phần kết thúc và hướng dẫn gửi trả lại bộ câu hỏi (nếu sử dụng bộ câu hỏi tự điền). thông tin cần thu thập và cách sử dụng bộ câu hỏi.Q1. Phần giới thiệu: phần giới thiệu mô tả mục đích của nghiên cứu. Bác sĩ của trạm y tế luôn luôn giải thích việc điều trị cho tôi (khoang một lựa chọn) Rất đồng ý 1 Ðồng ý 2 Không ý kiến 3 Không đồng ý 4 Rất không đồng ý 5 Q2. Nó cũng trình bày cho người được hỏi là thông tin này sẽ được giữ kín hay không? 2.

Những sai lầm cần phải tránh là: Câu hỏi 2 nội dung: Thí dụ "Ông có thích cách đối xử của bác sĩ và các điều dưỡng trong bệnh viện hay không". hoặc "Bà đưa cháu đi khám ở đâu nếu cháu bị tiêu chảy?" Hơn nữa cũng cần lưu ý. Câu hỏi mơ hồ: Thí dụ đối với học sinh phổ thông người già là người trên 30 tuổi. chúng ta sẽ tiến hành bộ câu hỏi trên dân số nghiên cứu. nhưng đối với người 50 tuổi người già là người trên 60 tuổi. chúng ta cần phải lập lại việc thử bộ câu hỏi. Tránh dùng từ quá chuyên môn: Thí dụ "Trong nhà bà có ai bị bệnh Trisomy 21 hay không?" Tránh những câu hỏi gợi ý: "Mỗi năm ông (hoặc bà) đi khám răng mấy lần?".vấn đề và cần phải sử chữa chúng bằng cách soạn lại bộ câu hỏi. ngay cả khi câu hỏi không gợi ý cũng có thể bị sai lệch. Cách dùng từ và việc thiết kế câu hỏi Viết được một câu hỏi tốt là một nghệ thuật và tốn nhiều thời gian. Câu hỏi này khiến cho người được gọi có cảm giác rằng mọi người đều khám đi khám răng và cảm thấy rất khó khăn khi trả lời "Không bao giờ tôi đi khám răng". Thí dụ nếu chúng ta hỏi ý kiến của người dân về trạm y tế mà chúng ta lại cử nhân viên trạm y tế đi phỏng vấn thì chắc chắn câu trả lời sẽ bị sai lệch. 7. 70 . Những câu hỏi như thế này cần được tách ra để người ttả lời có thể nhận thức câu hỏi một cách rõ ràng hơn. Ðể có được một câu trả lời có giá trị và đáng tin cậy chúng ta phải có cách dùng từ trong câu hỏi tốt. Sau khi bộ câu hỏi hoàn chỉnh. tùy thuộc vào cách sử dụng bộ câu hỏi. Tiến hành bộ câu hỏi. Nếu vấn đề là nhỏ thì nhà nghiên cứu chỉ cần thay đổi và có thể tiến hành nghiên cứu trên quy mô thực sự. Nếu vấn đề nay là nghiêm trọng. Các trả lời sẽ được phân tích theo mục tiêu của nghiên cứu.

Lấy mẫu hệ thống (systemic sampling) 3. Mẫu xác suất là mẫu rút từ dân số theo cách sao cho mọi phần tử trong dân số đều có một xác suất được đưa vào mẫu. Một điều may mắn là những phương pháp thống kê sẽ cho phép chúng ta có thể rút ra những kết luận có giá trị về dân số (với một độ tin cậy nhất định) mà chỉ cần khảo sát một phần dân số đó. Ðơn vị nghiên cứu (study unit) là đơn vị căn bản nhất hay nhỏ nhất mà cuộc nghiên cứu quan tâm. một làng. chúng ta chỉ có thể có những kết luận có giá trị về một dân số nào đó nếu chúng ta khảo sát hoàn toàn dân số đó. Trong cuộc điều tra. Trong nghiên cứu về tỉ lệ sử dụng các biện pháp sinh đẻ kế hoạch ở huyện Châu thành tỉnh Cần thơ. Ðơn vị nghiên cứu có thể là một bệnh nhận. đơn vị lấy mẫu là nơi mà người nhân viên điều tra phải đến thăm viếng để phỏng vấn. Những nguyên tắc thống kê đòi hỏi một mẫu có giá trị khi mẫu đó có kích thước đủ lớn (đủ cỡ mẫu) và mẫu đại diện cho dân số Có nhiều phương pháp để đảm bảo tính đại diện của mẫu: Chúng ta có thể dùng trực giác để kết luận về tính đại diện của mẫu. Lấy mẫu cụm (Cluster sampling) 5. hội thảo viên có khả năng: (i) Phân biệt được phương pháp lấy mẫu xác suất và lấy mẫu không xác suất (ii) Liệt kê 5 sơ đồ lấy mẫu xác suất thường dùng được và các ưu khuyết điểm của nó (iii) Trình bày được các bước tiến hành của 5 sơ đồ lấy mẫu xác suất (iv) Lập được một danh sách dân số nghiên cứu bằng cách rút chọn mẫu ngẫu nhiên đơn.Lấy mẫu điều tra Mục tiêu: Sáu khi nghiên cứu bài này. Trong nghiên cứu về số hộ có cầu tiêu hợp vệ sinh ở Tỉnh Sóc trăng. đơn vị nghiên cứu là những đứa trẻ sơ sinh. Ðại cương về phương pháp lấy mẫu: Trên nguyên tắc. Lấy mẫu ngẫu nhiên đơn (Single random Sampling) 2. đơn vị nghiên cứu là ngôi 71 . Khung mẫu là tất cả các đứa trẻ sơ sinh sinh trong năm 1997 của các gia đình cư ngụ tại Q11. Thí dụ như chúng ta có thể cho rằng huyện An Phú tỉnh An giang là đại diện cho vùng sinh thái lũ lụt của vùng đồng bằng sông Cửu Long. Thí dụ: Trong nghiên cứu về trọng lượng trung bình của trẻ sơ sinh trong năm 1997 của Quận 11. Ðơn vị nghiên cứu là các cặp vợ chồng. trước tiên ta cần phải xác định đơn vị nghiên cứu. tỉnh Cần thơ. một ngôi nhà. thành phố Hồ Chí Minh. Khung mẫu là tất cả các cặp vợ chồng cư ngụ tại huyện Châu thành. một hộ gia đình. Tập hợp tất cả những đơn vị nghiên cứu hợp lệ trong dân số được gọi là khung mẫu (sampling frame). Một cách khác tốt hơn để đảm bảo tính đại diện bằng cách chọn mẫu xác suất. khám lâm sàng và thu thập các thông tin khác. Tuy nhiên tính đại diện theo sự đánh giá trực giác có thể không được tất cả mọi người đồng ý. Năm phương pháp chọn mẫu xác suất thường được dùng phổ biến nhất trong những cuộc điều tra ở địa phương hay có quy mô nhỏ là: 1. thành phố Hồ Chí Minh. Lấy mẫu nhiều bậc (Multistage sampling) Trước khi tiến hành lấy mẫu. một xã hay có thể là một đơn vị hành chánh lớn hơn. Lấy mẫu phân tầng (Stratified sampling) 4. điều này sẽ gây ra một số những hạn chế về nguồn tài nguyên và về vấn đề về đạo đức. Tuy vậy. Phương pháp lấy mẫu là phương pháp rút chọn một phần của dân số sao cho việc khảo sát mẫu đó cho phép cho phép chúng ta rút ra những kết luận về dân số.

Ðặt tất cả các mảnh giấy đã gấp vào hộp và lắc kĩ vài lần. những phần tử được rút chọn rồi sẽ không được chọn một lần nữa. Chọn số ngẫu nhiên đơn dùng bảng số ngẫu nhiên Cách dùng bảng số ngẫu nhiên Ða số các bảng số ngẫu nhiên gồm nhiều khối. Thao tác sử dụng các bảng số ngẫu nhiên: Bước 1: Xác định các chữ số có trong số lớn nhất của bản danh sách điều tra. 2. Sau khi gấp kĩ và riêng rẽ các tờ giấy để không ai có thể nhìn thấy số. Ðôi khi người đọc được số trong bảng số ngẫu nhiên lớn hơn số lớn nhất có trong danh sách (ngoài danh sách. Những số này có thể biến đổi thành số nhỏ hơn bằng cách loại bỏ một số các chữ số. trên mảnh giấy thứ ba ghi “3” và tiếp tục như thế cho đến số cuối cùng trong bản danh sách điều tra. lên hoặc xuống theo cột hay qua hay qua trái của hàng. thì một số 5 chữ số (như 44983) có thể trở thành số có 3 chữ số bằng những phương pháp sau: (i) loại bỏ 2 chữ số cuối (trở thành 449) (ii) loại bỏ chữ số đầu và chữ số cuối (trở thành 498) (iii) loại bỏ 2 chữ số đầu (như 983) 72 . Ðôi khi số ngẫu nhiên được bắt gặp 2 hay nhiều lần nhưng khi đó người nghiên cứu bỏ qua số này. Khi đã lắc xong. Khung mẫu là tất cả các ngôi nhà trong tỉnh Sóc Trăng. số lớn nhất là 317 và số này có 3 chữ số. 3 hay nhiều hơn lần. Mẫu ngẫu nhiên đơn: Mẫu có cỡ mẫu n được rút từ trong dân số có N phần tử sao cho mọi cách lấy mẫu cỡ n đều có một xác suất lựa chọn như nhau. Bước 2: Bảng chữ số ngẫu nhiên thường chứa 5 chữ số.như vậy. Phương pháp chọn mẫu ngẫu nhiên đơn bằng cách rút thăm: Cắt giấy thành những hình vuông đủ lớn để viết (thường dùng gấy vuông có cạnh từ 4 đến 5 cm). nếu có 317 đối tượng trong khung mẫu. Trong phương pháp lấy mẫu không hoàn lại. Phương pháp lẫy mẫu còn được chia theo 2 loại: phương pháp lấy mẫu có hoàn lại và lấy mẫu không hoàn lại. Ở mảnh giấy đầu ghi “1”.nhà.Cần lưu ý: Mảnh giấy chỉ có một số. số trên tờ giấy phải tương ứng với số trong danh sách không thêm số nào và bớt số nào. trước tiên ta cần xây dựng danh sách các đơn vị nghiên cứu trong dân số (khung mẫu). Những số này có thể đọc theo bất kì thứ tự nào. mảnh giấy thứ nhì ghi “2”. như vậy nó thường lớn hơn cần thiết cho các cuộc điều tra.một phần tử sau khi được rút chọn để đưa vào mẫu vẫn có khả năng được rút chọn thêm . mỗi số có 5 chữ số. Do đó một phần tử có thể được đưa vào mẫu tối đa 1 lần. một phần tử có thể làm đại diện cho dân số 1. để một người nào đó rút những mảnh giấy đã gập tùy theo yêu cầu của cỡ mẫu. Thí dụ nếu ta cần 3 chữ số. "lớn quá cỡ thợ mộc") thì người nghiên cứu cũng không xét đến số này. mẫu đó được gọi là mẫu ngẫu nhiên đơn. Mở các mảnh giấy đã được rút và chọn trong bản danh sách điều tra những tên có số giống với số trên tờ giấy được rút chọn. Mỗi tên trên danh sách phải có một con số và con số này không được dùng cho các tên khác. Các phương pháp lẫy mẫu xác suất: 1. Người ta chọn các số trong bảng này và tiếp theo đó đưa vào nghiên cứu những tên trong danh sách có số trùng với số được chọn. mỗi khối có 5 số. Trong phương pháp lấy mẫu hoàn lại. Ðể có thể lấy mẫu nhiên đơn. Thí dụ.

Chúng ta cũng có thể tạo ra bảng số ngẫu nhiên bằng cách dùng chương trình Epi-Info. thí dụ như 3. Trước tiên chúng ta vào chương trình Epitable. _ Describe Compare Study Sample Probability Setup ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ _________+----------------------------------------------------------+___________ _________¦ +----------. chúng ta sẽ có kết quả sau. chọn trình đơn Sample rồi chọn trình đơn con Random number table (Bảng số ngẫu nhiên).Tất cả 3 số này đều là những số ngẫu nhiên 3 chữ số hợp lệ Lưu ý: Chúng ta có thể tìm một bảng số ngẫu nhiên bằng cách tra cứu trong sách thống kê.Random number table generator ------------+¦___________ _________¦ ¦ ¦¦___________ _________¦ ¦ How many random numbers 60 ¦¦___________ _____+-[_] Files Edit Search []-+_____ _____¦454 712 771 345 042 124 978 077 899 904 914 680 374 784 925 ¦_____ _____¦133 359 974 535 150 661 443 010 944 509 897 462 692 565 277 -_____ _____¦487 622 044 787 542 892 801 795 586 689 510 109 682 209 261 ______ _____¦456 577 455 221 199 460 010 198 588 416 215 216 098 291 423 ______ _____¦ ______ _____¦ ______ _____¦ ______ _____¦ ______ _____¦ ______ _____¦ _____ _____+-¤---. Khi đó trên màn hình sẽ có kết quả như sau _ Describe Compare Study Sample Probability Setup ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ _________+----------------------------------------------------------+___________ _________¦ +-[_]------.Random number table generator ------------+¦___________ _________¦ ¦ ¦¦___________ _________¦ ¦ How many random numbers 550 ¦¦___________ _________¦ ¦ How many digits per number 5 ¦¦___________ _________¦ ¦ ¦¦___________ _________¦ ¦ ¦¦___________ _________¦ ¦ Calculate _ Reset _ Quit _ ¦¦___________ _________¦ ¦ ____________ ____________ ____________ ¦¦___________ _________¦ ¦ ¦¦___________ _________¦ +------------------------------------------------------+¦___________ _________+----------------------------------------------------------+___________ ________________________________________________________________________________ ________________________________________________________________________________ ____________________________________________________________________¦¦__________ ___________________________________________________________________¦¦¦¦_________ __________________________________________________________________¦¦¦¦¦¦________ _________________________________________________________________¦¦¦¦¦¦¦¦_______ F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:224824 Chúng ta nhập vào số các số ngẫu nhiên mà chúng ta muốn tạo ra (How many random numbers): thí dụ như 60 và nhập vào số các chữ số có trong số ngẫu nhiên (How many digits per number).5:2 ------________________________________________________-+_____ __________________________________________________________________¦¦¦¦¦¦________ _________________________________________________________________¦¦¦¦¦¦¦¦_______ F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:223680 Bước 3: Chọn một số có chữ số mong muốn. Chọn đối tượng tương ứng trên bản danh sách điều tra để đưa vào nghiên cứu trừ khi: (i) số được chọn đã được chọn từ trước 73 .

(ii) Số được chọn lớn hơn số lớn nhất có trong danh sách. số tiếp theo có thể được chọn bất kì chỗ nào trong bảng số ngẫu nhiên. Chọn mẫu ngẫu nhiên dùng chương trình Epi-Info Trước tiên chúng ta vào chương trình Epitable. Ðiểm cần lưu ý là chọn hàng và cột đầu tiên phải ngẫu nhiên. Cách đơn giản nhất là đi xuống dọc theo cột (nếu hết cột này thì lại đếm qua cột bên cạnh) cho đến khi số nghiên cứu được chọn từ danh sách điều tra bằng với số mẫu cần thiết. Khi đó trên màn hình sẽ có kết quả như sau (Xem hình 3). chọn trình đơn Sample rồi chọn trình đơn con Random number list (Bảng số ngẫu nhiên). Bước 4: Khảo sát số bên cạnh trong bảng số ngẫu nhiên và tiến hành như trong bước 2 và 3. _ Describe Compare Study Sample Probability Setup ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ _________+--+-[_]-------.Random number List generator ------------++___________ _________¦ ¦ ¦¦___________ _________¦ ¦ How many random numbers 100 ¦¦___________ _________¦ ¦ Minimum range of numbers 0 ¦¦___________ _________¦ ¦ Maximum range of numbers 1000 ¦¦___________ _________¦ ¦ ¦¦___________ _________¦ ¦ [ ] Drawing with replacement ¦¦___________ _________¦ ¦ ¦¦___________ _________¦ ¦ Calculate _ Reset _ Quit _ ¦¦___________ _________¦ ¦ ____________ ____________ ____________ ¦¦___________ _________¦ ¦ ¦¦___________ _________+--+------------------------------------------------------++___________ ________________________________________________________________________________ ________________________________________________________________________________ ____________________________________________________________________¦¦__________ ___________________________________________________________________¦¦¦¦_________ __________________________________________________________________¦¦¦¦¦¦________ _________________________________________________________________¦¦¦¦¦¦¦¦_______ F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:224504 Nếu chúng ta muốn có danh sách gồm 50 số ngẫu nhiên trong phạm vi từ 1 đến 457 ta nhập giá trị 30 vào ô How many radom numbers. Ta sẽ có kết quả sau: 74 . 1 vào ô Minimumrange of numbers và 457 vào ô Maximum range of number.

Thí dụ như chúng ta có thể lấy mẫu hệ thống để chọn những bệnh nhân có số hồ sơ nhập viện cách nhau một khoảng nhất định. 17. khi có hay khi có thể lập danh sách của toàn bộ dân số một cách dễ dàng thì phương pháp này là phương pháp lấy mẫu đơn giản và có tính đại diện cao.. Thí dụ. Phương pháp lấy mẫu hệ thống: Thay vì rút chọn ngẫu nhiên người ta có thể chọn những đối tượng có một khoảng cách nhất định. Dù vậy. 53. nghĩa là có cùng chung một phân số lấy mẫu (sampling fraction) cho các tầng.. 2. Tuy vậy. 15. đôi khi cũng cần phải thay đổi để cỡ mâu của mỗi tầng không quá nhỏ. 10. Phương pháp lấy mẫu hệ thống đặc biệt có giá trị khi chúng ta không thể có được toàn bộ danh sách lấy mẫu ở vào thời điểm lấy mẫu. Phương pháp lấy mẫu hệ thống cũng có giá trị như lấymẫu ngẫu nhiên nếu không có tính tuần hoàn của các đối tượng. khác nhau về các đặc tính nghiên cứu và bản thân sự khác biệt này cũng cần quan tâm. 44. Ðây là khuyết điểm chính của phương pháp lẫy mẫu này. Danh sách này có thể không có hoặc có nhưng không hoàn toàn và lỗi thời. Chiến lược thường dùdng là chọn các cá nhân trong tầng với tỉ lệ như nhau. cần biết rằng phương pháp mẫu ngẫu nhiên đơn luôn luôn tốt hơn bởi vì nó không cần thiết giả định này. 26. 35._ Describe Compare Study Sample Probability Setup ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ _________+--+-----------.. Những thí dụ thường gặp là các nhóm tuổi.10:2 ------________________________________________________-+_____ __________________________________________________________________¦¦¦¦¦¦________ _________________________________________________________________¦¦¦¦¦¦¦¦_______ F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:223360 Như vậy chúng ta sẽ chọn các đối tượng số 6. Nếu không có được danh sách hay chi phí lập danh sách rất tốn kém thì không thể sử dụng phương pháp ngẫu nhiên được.. vào mẫu.Random number List generator ------------++___________ _________¦ ¦ ¦¦___________ _________¦ ¦ How many random numbers 50 ¦¦___________ _________¦ ¦ Minimum range of numbers 1 ¦¦___________ _____+-[_] Files Edit Search []-+_____ _____¦ 6 10 15 22 35 43 ¦_____ _____¦ 50 80 81 83 105 105 -_____ _____¦ 126 157 158 164 191 194 ______ _____¦ 215 221 224 227 234 236 ______ _____¦ 243 243 255 256 283 285 ______ _____¦ 295 319 324 326 333 343 ______ _____¦ 347 355 369 377 378 384 ______ _____¦ 393 414 421 434 435 435 ______ _____¦ 447 449 ______ _____¦ _____ _____+-¤--. 22.. . . nhóm giới tính hay những vùng địa lí hay sinh thái khác nhau trong quốc gia. lấy mẫu hệ thống là chọn các đối tượng mang số 8. Ưu và khuyết của phương pháp lấy mẫu ngẫu nhiên đơn: Phương pháp lấy mẫu ngẫu nhiên đơn đòi hỏi phải có danh sách của toàn bộ dân số khảo sát. Một mẫu ngẫu nhiên đơn được rút ra từ mỗi tầng để đảm bảo rằng chúng đủ đại diện. 3. phương pháp này được gọi là phương pháp rút chọn hệ thống. 75 . Ước lượng chung cũng sẽ chính xác hơn dựa vào phương pháp lấy mẫu ngẫu nhiên đơn không xét đến cấu trúc của các nhóm nhỏ trong dân số. Phương pháp lấy mẫu phân tầng Lấy mẫu phân tầng được dùng khi dân số bao gồm các nhóm khác biệt hay tầng (strata). và 449 trong khung mẫu để đưa vào mẫu.. Tuy vậy.

Việc tính toán sai số chuẩn của tỉ suất mắc hiện mắc cho toàn bộ dân số dựa trên sự kết hợp các sai số chuẩn của các tỉ suất hiện mắc của mỗi vùng.6 0. 4. Tỉ suất bệnh hiện mắc chung được tính bằng cách cộng số các người bệnh ước lượng được trong mỗi vùng và chia cho tổng số dân (Câu hỏi thảo luận: Các tầng có cùng một phân số lấy mẫu hay không?) Khu vực Ðồng bằng ven biển Vùng núi Bán hoang mạc Tổng số Dân số 1500000 150000 300000 1950000 Cỡ mẫu 200 50 50 300 Số bị bệnh 120 5 15 140 Tỉ suất hiện mắc bệnh tổng số bệnh ước lượng 0. lấy mẫu 2 bậc (two stage sampling) có thể bao gồm lần thứ nhất lấy một mẫu ngẫu nhiên các trường học và sau đó lấy mẫu ngẫu nhiên các trẻ em trong các trường đã được chọn. Các trường hợp được gọi là đơn vị bậc một (first stage units hay primary sampling units) và trẻ em là đơn vị bậc hai (second stage units . Hai con số này chỉ giống nhau khi dùng phân số lấy mẫu giống nhau cho mỗi tầng (nhưng điều này không đúng trong trường hợp này).52.Bảng 1.secondary sampling units).000 = 90.000/1. Thí dụ. Lấy mẫu cụm được dùng nếu có ích lợi được phân phát cho mọi người tham gia và nếu chỉ phân phát quyền lợi cho một số thành viên của đơn vị là không thích hợp và không đạo đức. Có thể sử dụng phần mềm Epi-Info hoặc xem Moser và Kalton để biết thêm chi tiết. 5. người ta sẽ khám cho tất cả các học sinh trong các trường được chọn chứ không khám một mẫu trong đó. vùng núi và vùng bán hoang mạc.1 0.950. Bảng 1 trình bày kết quả thu được với tỉ suất mắc toàn bộ trong mỗi vùng. Tổng số người mắc bệnh trong toàn quốc gia là 1. trog khi lấy mẫu trường để ước lượng tỉ suất hiện mắc của bệnh khi muốn sử dụng một phương pháp điều trị có hiệu quả cho tất cả người bị bệnh.3 0. người ta chọn mẫu phân tầng. Ðiều đó được gọi là lấy mẫu cụm (cluster sampling) và đơn vị lấy mẫu bậc một được gọi là cụm (cluster) trong trường hợp này.52* 900000 15000 90000 1005000 Thí dụ: Người ta muốn ước lượng tỉ suất hiện mắc của một bệnh trong một quốc gia với 3 vùng sinh thái chính. Lấy mẫu nhiều bậc Lấy mẫu nhiều bậc được tiến hành trong trong nhiều bậc dùng các cấu trúc đẳng cấp (hierarchical structure) của dân số. Kết quả một mẫu phân tầng được tiến hành để ước lượng tỉ suất bệnh hiện mắc của một bệnh trong một quốc gia có ba vùng địa lí chính.000. Thí dụ. Lưu ý rằng con số này không giống với tỉ suất hiện mắc của mẫu là 140/300 = 0.47. Áp dụng số này cho tổng số dân số trong vùng đồng bằng ven biển cho số ước lượng 0. Có thể đạt được lược đồ xác suất bằng nhau bằng cách lấy mẫu ngẫu nhiên đơn các cụm bất kể chúng có kích thươc bằng nhau hay không.000 cho nên tỉ số mắc toàn bộ chung là 1. Tỉ suất mắc toàn bộ chung được tính bằng cách ước lượng số người bị bệnh trong mỗi vùng. và bởi vì người ta nghĩ rằng đặc trưng sinh thái có thể ảnh hưởng đến tỉ suất hiện mắc của bệnh. Bởi vì dân số phân phối đồng đều trong quốc gia.950.6.000. vùng đồng bằng ven biển.050.5 x 150.000 = 0. Kích thước dân số là 1. Lấy mẫu cụm Nếu chi phí phụ trội không nhiều. Ưu điểm là tài nguyên có thể tập trung tại một số địa điểm và không cần cơ cấu lấy mẫu 76 . Thí dụ trong vùng đồng bằng ven biển tỉ suất hiện mắc của mẫu là 120/200 hay 0. Số người bị bệnh của vùng núi và vùng hoang mạc được tính theo cách tương tự là 15000 và 90000.050. nên điều tra tất cả các đơn vị bậc hai từ một đơn vị bậc một được chọn trong lược đồ lấy mẫu hai bậc.

Lấy mẫu PPS được tiến hành bằng cách thay thế (with replacement). để đạt được cùng độ chính xác như lấy mẫu ngẫu nhiên đơn cần một cỡ mẫu lớn hơn. Nếu chúng có cỡ mẫu khác nhau.Tính số hồ sơ lũy tích . thí dụ như chọn tỉnh. Phương pháp lấy mẫu bậc một phụ thuộc vào chúng có cùng số các đơn vị lấy mẫu bậc hai hay không.Rút chọn ngẫu nhiên 4 số từ 1 đến 50056: thí dụ như 36699. Các bước tiến hành để lấy mẫu PPS được minh hạo trong ví dụ sau: Giả sử chúng ta có 10 bệnh viện với số hồ sơ trong mỗi bệnh viện được trình bày trong bảng sau: Cụm 1 2 3 4 5 6 7 8 9 10 Tổng số Số hồ sơ 4288 5036 1178 638 27010 1122 2134 1824 4672 2154 50056 Số hồ sơ tích Số ngãu nhiên tương ứng lũy 4288 9324 10502 11140 38150 39272 41406 43230 47902 50056 50056 1-4288 4289-9324 9325-10502 10503-11140 11141-38150 38151-39272 39273-41406 41407-43230 43231-47902 47903-50056 Ðể chọn 4 cụm và điều tra 100 hồ sơ trong mỗi cụm (như vậy tổng cỡ mẫu là 400 hồ sơ) có thể tuân theo các sau: . Cần danh sách các đơn vị bậc một nhưng chỉ cần danh sách các đơn vị bậc hai của các đơn vị bậc một được chọn. 35700. chọn mẫu đơn vị bậc hai nhiều gấp đôi. Khuyết điểm là ước lượng chung kém chính xác hơn khi dựa trên lấy mẫu ngẫu nhiên đớn có cùng một cỡ mẫu. quận.cho toàn dân số. Lấy mẫu ở bậc hai gồm lấy các mẫu ngẫu nhiên đơn có cùng kích thước từ các các đơn vị bậc một. Nếu có. Khi một đơn vị bậc một được chọn hai lần. nếu một trường học có nhiều gấp đôi học sinh so với trường kia thì nó có cơ hội được chọn gấp đôi. Cũng cần lưu ý chúng ta có thể chọn các số ngẫu nhiên bằng phương pháp lấy mẫu hệ thống như thường được thực hiện trong chương trình tiêm chủng mở rộng (EPI program). đường phố và cuối cùng là nhà. Phương pháp lấy mẫu này được gọi là lấy mẫu nhiều bậc (multi-stage sampling).Gán một cụm cho các số ngẫu nhiên từ số hồ sơ lũy tích của cụm trước đó +1 đến số hồ sơ lũy tích của cụm đó. 4285 và ứng với mỗi số chọn 100 hồ sơ từ cụm tương ứng với các số này. Tác dụng chung là cho mỗi đơn vị bậc hai trong dân số một cơ hội được chọn bằng nhau. 77 . Thí dụ. có nghĩa là sau khi một đơn vị bậc một được chọn nó vần còn được rút chọn và có thể được chọn lần nữa. 11883. có thể đạt được lược đồ epsem. có thể lấy mẫu ngẫu nhiên đơn. Trong trường hợp này chúng ta sẽ điều tra 300 hồ sơ của bệnh viện 5 và 100 hồ sơ từ cụm số 1. Có thể có lược đồ lấy mẫu có nhiều bậc hơn. bằng cách lấy mẫu xác suất tỉ lệ với kích thước (probability proportional to size _ PPS). . Nói cách khác.

Lấy mẫu ngẫu nhiên đơn Lấy mẫu hệ thống Lấy mẫu cụm Lấy mẫu phân tầng Thí dụ 2 Lấy mẫu phân tầng được đề nghị trong thí dụ 1 để ước lượng tỉ suất hiện mắc toàn bộ trong một quốc gia với 3 vùng chính có thể được cải tiến thành cộng đồng thứ nhất (thành phố. ấp) và các nhà trong vùng. khám tất cả các thành viên trong nhà. Lược đồ sẽ là sự kết hợp giữa lấy mẫu phần tầng (khu vực) lấy mẫu hai bậc (cộng đồng và nhà) và lấy mẫu cụm (tất cả các thành viên trong nhà). làng. 78 .

nếu cỡ mẫu nhỏ chúng ta không thể ước lượng một cách chính xác. Câu hỏi chìa khóa của cách tiếp cận này là khoảng tin cậy sẽ là bao nhiêu? (b) Dựa trên kiểm định giả thuyết. Thí dụ. Thí dụ. để ước lượng tỉ leẹ trẻ em trong lứa từ 12-23 tháng tuổi được tiêm chủng đầy đủ (với độ chính xác) trong vòng 10%. nguy cơ tương đối với một mức độ chính xác nhất định. (v) Ðánh giá được những vấn đề khác của cỡ mẫu Giới thiệu Cỡ mẫu sẽ có ảnh hưởng lớn đến độ chính xác của ước lượng thống kê. Tuy vậy khi chúng ta đã đi vào giai đoạn phân tích số liệu thì lúc đó là quá chậm trễ để có thể thay đổi được cỡ mẫu. Nếu độ phân tán lớn thì khoảng tin cậy 95% sẽ rộng và chúng ta khó lòng thực sự biết được trung bình của dân số sẽ nằm ở đâu trong khoảng này. hiệu số. Ngược lại nếu chúng ta lấy một cỡ mẫu quá lớn thì chúng ta rõ ràng lãng phì tiền bạc và thời gian.Câu hỏi chìa khóa trong cách tiếp cận này là xác suất kết luận sai lầm trong kiểm định giả thuyết là bao nhiêu? Ước lượng một hậu quả với một độ chính xác nhất định Ðộ chính xác của một ước lượng (với khoảng tin cậy 95%) = d có nghĩa là sai số tối đa của ước lượng là d (với độ tin cậy 95% hay xác suất điều trên không bị sai là 95%) Công thức tính cỡ mẫu để ước lượng khoảng tin cậy (1-α ) của một tỉ lệ p với sai số d là như sau: z12−α / 2 p (1 − p) d2 Một thắc mắc hay nẩy sinh trong khi nghiên cứu công thức này là trong khi chúng ta muốn n= 79 . bao gồm khái niệm về năng lực nghiên cứu (ii) Biết được những yếu tố nào ảnh hưởng đến việc tính toán cỡ mẫu và ảnh hưởng như thế nào (iiI) Biết được cách tính cỡ mẫu cho những tình huống khác nhau (iv) Biết được ảnh hưởng của cỡ mẫu lên những khía cạnh thiết kế khác.Cách tính cỡ mẫu Mục tiêu Sau khi nghiên cứu bài này. hội thảo viên có khả năng: (i) Hiểu được hai cách tiếp cận trong cách tính cỡ mẫu. một trung bình. Hai cách tiếp cận trong tính cỡ mẫu Trên cơ bản có hai cách tiếp cận trong tính cỡ mẫu: (a) dựa tên sự ước lượng của một tỉ lệ. sự thất bại trong chứng minh giả thuyết.so sánh thời gian bú sữa mẹ hoàn toàn ở 2 nhóm có giáo dục sức khỏe và nhóm chứng. Người ta có thể trình bày mức độ phân tán theo khoảng tin cậy 95%. đến giai đoạn phân tích ta có thể thấy được điều đó qua sự không chính xác của uớc lượng. chúng ta không thể chứng minh sự khác biệt giữa hai nhóm là không có ý nghĩa. Từ định lí giới hạn trung tâm chúng ta hi vọng rằng con số trung bình được ước lượng từ một mẫu sẽ tập trung tại trung bình của dân số đó. Nếu chúng ta lấy mẫu quá nhỏ. Tuy vậy chúng ta cũng biết rằng con số ước lượng sẽ không chính xác bằng trung bình của dân số đó mà mức độ phân tán phụ thuộc vào cỡ mẫu: Nếu cỡ mẫu nhỏ độ phân tán lớn. Vấn đề xác định cỡ mẫu trong nghiên cứu khoa học là một vấn đề quan trọng. nếu cỡ mấu lớn thì độ phân tán nhỏ và ta hi vọng số trung bình của mẫu sẽ bằng trung bình của dân số. Nói rộng ra.

điều này phụ thuộc vào mục đích của nghiên cứu và vào tài nguyên hiện có. sau nghiên cứu chúng ta có thể ước lượng p một cách chính xác hơn nhiều. Ta có thể ước lượng p sử dụng phán đoán của chúng ta. Sau khi tiến hành phân tích chúng ta có thể bác bỏ hay không bác bỏ giả thuyết này. Không có quy tắc cứng nhắc độ chính xác d. Trong trường hợp chúng ta không thể ước đoán p. sai lầm chúng ta mắc phải khi không bác bỏ được gọi là sai lầm loại II. ta có thể ước đoán p =0.nghiên cứu ước lượng p nhưng trong khi tính toán để tính cỡ mẫu chúng ta phải có giá trị của tỉ lệ p! Toàn bộ logic của vấn đề là ở chỗ chúng ta có thể ước lượng p trước lúc nghiên cứu một cách không chính xác. Về phương diện thống kê. ta có thể điều chỉnh để có cỡ mẫu nhỏ hơn. Năng lực là xác suất đạt được kết quả có ý nghĩa thống kê nếu thực sự có sự khác biệt giữa p1 và p2. chúng ta có cơ hội tốt để tìm thấy sự khác biệt có ý nghĩa thống kê trong 2 nhóm.Công thức tính cỡ mẫu trên là dành lấy mẫu từ một dân số vô hạn hay khá lớn. chúng ta đều có khả năng bị sai lầm: sai lầm mà chúng ta mắc phải khi bác bỏ giả thuyết được gọi là sai lầm loại I. Kiểm định một giả thuyết. nói cách khác kiểm định xem hiệu số của hai tỉ lệ này có khác một cách có ý nghĩa với zero khay không. dù khi chúng ta bác bỏ hay không bác bỏ. so sánh 2 nhóm Giả sử chúng ta muốn so sánh hai tỉ lệ (thí dụ tỉ lệ trẻ em được bú sữa non trong hai nhóm bà mẹ: một nhóm được giáo dục sức khỏe và một nhóm không). một ước đoán an toàn nhất và sẽ cho một cỡ mẫu an toàn nhất (lớn nhất). Nếu nghiên cứu sử dụng phương pháp lấy mẫu cụm cần phải hiệu chỉnh tác động làm giảm độ chính xác của việc chọn cụm bằng cách tăng cỡ mẫu. Nếu không có điều kiện tính hệ số thiết kế có thể chọn hệ số thiết kế là 3. RR=1 . P là kích thước của dân số đích và Nhc là cỡ mẫu sau khi đã hiệu chỉnh. những trường hợp từ chối nghiên cứư bằng cách tăng cỡ mẫu. Lưu ý: . Hệ số thiết kế có thể tính được từ việc nghiên cứu thử. Nếu trong giai đoạn phân tích nếu kết quả 80 . Cỡ mẫu trong nghiên cứu lấy mẫu cụm thường được nhân lên với một hệ số (được gọi là hệ số thiết kế) có giá trị từ 2 đến 4. OR=1 . . sử dụng những nghiên cứu trước đó.5. Chúng ta có thể kiểm định xem hai tỉ lệnày có khác nhau đáng kể hay không. . chúng ta muốn giảm thiểu cả hai loại sai lầm trong nghiên cứu. Khi kiểm định H0: Không có sự khác biệt (p1=p2.Công thức được trình bày là dành cho phép lấy mẫu ngẫu nhiên đơn. Lưu ý rằng chúng ta đã định nghĩa cái gọi là năng lực (power) của nghiên cứu=1-sai lầm loại II. Mục tiêu của chúng ta khi chọn cỡ mẫu là nếu có sự khác biệt về lâm sàng quan trọng giữa hai nhóm.Chúng ta cũng nên phải trù liệu cho những số liệu bị mất. β =0) Chân lí là Ho đúng (Không có sự khác biệt) Bác bỏ giả thuyết H0 Sai lầm loại (Xác suất = α ) Kết luận (Xác suất = 1-α ) Chân lí là Ha đúng (Không có sự khác biệt) 1 Kết luận đúng (Xác suất = 1-β = Power của nghiên cứu) đúng Sai lầm loại (Xác suất = β ) II Không bác bỏ giả thuyết H0 Lí tưởng. Ðiều này là một ý niệm hết sức quan trọng trong thiết kế nghiên cứu và lí giải. Nếu cỡ mẫu vào khoảng từ 10% dân số trở lên. có thể tiến hành nghiên cứu dẫn đường. N×P N hc = N+P Với N là cỡ mẫu chưa hiệu chỉnh.

thì hầu hết mọi người đều thỏa mãn. Tính cỡ mẫu bằng phần mềm Epi Info: Ðầu tiên ta vào phần mềm Epitable bằng 1 trong 2 cách (giả sử thư mục chứa Epi Info trong là c:\epi6) . năng lực. Mặt khác nếu kết quả không có ý nghĩa thông kê thì điều này có thể xảy ra do (a) không có sự khác biệt thực sự giữa hai nhóm và (b) có sự khác biệt nhưng mẫu của chúng ta không cho thấy sự khác biệt bởi vì năng lực của mẫu thấp (cỡ mẫu nhỏ) do đó chúng ta không có kết luận rõ ràng. . Công thức tính cỡ mẫu (cho mỗi nhóm) để so sánh hai tỉ lệ π 1 và π 2 của hai nhóm: n= {z1− β π 1 (1 − π 1 ) + π 2 (1 − π 2 ) + z1−α / 2 2π (1 − π )}2 (π 1 − π 2 ) 2 Các điểm cần lưu ý trong tính cỡ mẫu . Thí dụ nếu chúng ta có một kinh phí hạn chế để thực hiện một nghiên cứu nên chỉ có một cỡ mẫu nhất định.Tính cỡ mẫu không khó.Tỉ lệ trong một nhóm cơ bản (thí dụ tỉ lệ tiếp xúc với yếu tố nguy cơ trong nhóm chứng của một nghiên cứu bệnh chứng) . tốt nhất phải chú trọng vào biến số (hoặc những biến số quan trọng nhất).Nếu một nghiên cứu có nhiều mục tiêu thì cỡ mẫu đủ cho một mục tiêu này có thể không đủ cho mục tiêu khác. cách tính cỡ mẫu chỉ cho chúng ta một ước lượng thô của cõ mẫu cần thiết bởi vì nó dựa trên sự ước đoán về giá trị của thông số.Thông qua trình đơn chính của epi6 c:\>c:\epi6\epi6 <enter> Khi đã vào trình đơn chính của Epi6 chọn program Epitable trong trình đơn Programs bằng cách 81 . quyết định chủ quan của chúng ta về hậu quả mà chúng ta muốn phát hiện và công thức được sử dụng là công thức gần đúng.Sai lầm loại II chúng ta muốn có trong nghiên cứu (Sai lầm loại hai khoảng 10-20% tương ứng với năng lực từ 80-90%) . Chúng ta có thể tính ngược lại từ cỡ mẫu để biết năng lực của nghiên cứu.là có ý nghĩa thống kê. nếu chúng ta chọn mẫu để có năng lực cao và kết quả không có ý nghĩa thống kê thì chúng ta có thể chắc hơn về sự khác biệt. cái khó là phải cung cấp những giả định của nghiên cứu: sai lầm loại một. . Do đó. Nếu hóa ra năng lực của nghiên cứu rất thấp (thí dụ như 20%) tốt nhất chung ta không nên tiến hành nghiên cứu vì chúng ta đã nắm chắc kết quả thất bại.Như đã nói ở trên. Do đó con số tính ra giúp chúng ta phân biệt giữa cỡ mẫu 50 và 100 chứ không phân biệt cỡ mẫu 50 và 53. sự khác biệt mà chúng ta muốn phát hiện.Tỉ lệ trong một nhóm khác (thí dụ tỉ lệ tiếp xúc với yếu tố nguy cơ trong nhóm bệnh của một nghiên cứu bệnh chứng). . Đôi khi chúng ta không trình bày tỉ lệ của nhóm này một cách cụ thể mà trình bày nguy cơ tương đối hay tỉ số số chênh mà chúng ta mong muốn phát hiện trong một nghiên cứu đoàn hệ hay nghiên cứu bệnh chứng. chúng ta phải có 4 tham số . Ðôi khi có thể dùng công thức tính cỡ mẫu để đi ngược lại năng lực của nghiên cứu. Ðể tính cỡ mẫu. Ðể chọn cỡ mẫu (trong trường hợp cỡ mẫu của 2 nhóm so sánh bằng nhau).Vào trực tiếp: c:\>c:\epi6\epitable <enter> .Sai lầm loại I hay còn gọi là mức ý nghĩa mà chúng ta muốn có trong nghiên cứu (thường là 5%) .Chúng ta phải cân đối giữa điều chúng ta mong muốn và tính khả thi.

Nghiên cứu đoàn hệ (cohort study) và nghiên cứu bệnh chứng (Case-control study). nhấn <Enter> để xem kết quả tính toán. chúng ta thấy có một tham số Design effect.+----------------------+ -------------+___________ _________¦ ¦___________ _________¦ _____¦ _¦ _¦ __¦ __¦ ¦___________ _________¦ _¦ _¦ _¦ _¦ ¦___________ _________¦ _¦ _¦___¦ __¦ ____¦ ___¦ _¦ _¦ ___¦ ¦___________ _________¦ ___¦ _¦ _¦ _¦ _¦ _¦ ____¦ _¦ _¦ _¦ ¦___________ _________¦ _¦ _¦ _¦ _¦ _¦ ____¦ _¦ _¦ _¦ _____¦ ¦___________ _________¦ _¦ ____¦ _¦ _¦_¦ _¦ _¦ _¦ _¦ _¦ _¦ ¦___________ _________¦ _____¦ _¦ ___¦ _¦ ___¦_¦ _¦___¦ ___¦ ___¦ ¦___________ _________¦ ___¦ ¦___________ _________¦ ¦___________ _________+----------------------------------------------------------+___________ ________________________________________________________________________________ ________________________________________________________________________________ ____________________________________________________________________¦¦__________ ___________________________________________________________________¦¦¦¦_________ __________________________________________________________________¦¦¦¦¦¦________ _________________________________________________________________¦¦¦¦¦¦¦¦_______ F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:228552 Sau đó chọn Samle size bằng cách dùng chuột hay nhấn Alt-S rồi di chuyển con trỏ vào sample size rổi nhấn <Enter>. Nếu chúng ta có kinh nghiệm chúng ta có thể dùng trực giác để phán đoán design effect. Khi đó màn hình sẽ hiện lên một cửa số có nhiều trường.dùng chuột hoặc nhấn Alt-P rồi kéo con trỏ xuống EPITABLE Calculator rồi nhấn <enter> _ Describe Compare Study Sample Probability Setup _____________________________ +----------------------+ _________________________ _____________________________ ¦ Sample size > ¦ _________________________ _____________________________ ¦ Power calculation > ¦ _________________________ _____________________________ ¦ Random number table ¦ _________________________ _____________________________ ¦ Random number list ¦ _________________________ _________+------------------. Nếu chúng ta lấy mẫu theo cụm thì chọn Design effect là bao nhiêu? Thông thường chúng ta có thể tham khảo các nghiên cứu trước hoặc làm nghiên cứu pilot để xác định mức độ không đồng nhất. Chương trình Epi Info cho phép tính cỡ mẫu trong 4 trường hợp: Ước lượng một tỉ lệ (single proportion). Di chuyển con trỏ đến ô Calculate. Lưu ý: Trong cách tính cỡ mẫu ước lượng một tỉ lệ. Nếu chúng ta lấy mẫu theo cụm thì tham số này sẽ lớn hơn 1 và độ lớn cụ thể thì phụ thuộc vào mức độ không đồng nhất giữa các cụm. Chọn loại thích hợp bằng cách di chuyển trỏ rồi nhấn <Enter>. Tham số dùng để điều chỉnh nếu chúng ta lấy mẫu theo cụm. chúng ta chọn Design effect = 2 để có cỡ mẫu đảm bảo an toàn (Design effect hiếm khi nào lớn hơn 2). 82 . Trong cửa số này chúng ta có thể di chuyển con trỏ giữa các trường bằng cách nhấn phím <Tab> hoặc phím <Shift><Tab>. Nhập các giả định cần thiết vào các trường thích hợp. không tìm được tài liệu tham khảo và không thể tiến hành nghiên cứu pilot. Do đó nếu ta lấy mẫu ngẫu nhiên đơn thì Design effect=1. So sánh 2 tỉ lệ trong hai nhóm (Two proportions). Nếu chúng ta không có kinh nghiệm.

nhóm có tiếp xúc= nhóm không tiếp xúc tỉ suất mắc bệnh trong nhóm không tiếp xúc với yếu tố nguy cơ RR 1. Hãy tính cỡ mẫu khi có nhóm không tiếp xúc = nhóm tiếp xúc. mức ý nghĩa =5% OR= 2 và tỉ suất mắc bệnh là 5%. Nếu phòng y tế quyết định chọn mẫu bằng phương pháp chọn mẫu ngẫu nhiên thì cỡ mẫu cần thiết là bao nhiêu? Nếu chọn theo cụm thì cỡ mẫu cần thiết là bao nhiêu? 83 .5 2 5 10 5% 2346 244 46 50 20% 50% 70% 90% 1. 2 chứng: 1 bệnh. mức ý nghĩa =5% OR= 2 và tỉ lệ tiếp xúc với yếu tố nguy cơ là 30%. độ tin cậy = 95%). 2.5 2 3 5 0.1% 108. muốn kiểm tra báo cáo về tỉ lệ tiêm chủng của một xã là 80% bằng cách tiến hành một cuộc điều tra (với sai số tuyệt đối dưới 5%. mức ý nghĩa = 5%. sử dụng những giả định sau để tính cỡ mẫu cho từng trường hợp Năng lực của nghiên cứu = 90%.904 3300 207 15 1% 5% 15% 30% 1. Hãy tính cỡ mẫu khi có 1 chứng: 1 bệnh. nhóm không tiếp xúc = 3 nhóm tiếp xúc Thí dụ 3: Phòng y tế huyện A.Thí dụ Thí dụ 1: Cho một nghiên cứu bệnh chứng. Dựa trên phép tính cỡ mẫu hãy đưa ra khuyến cáo khi nào nên dùng nghiên cứu bệnh chứng và khi nào không. Dựa trên phép tính cỡ mẫu hãy đưa ra khuyến cáo khi nào nên dùng nghiên cứu đoàn hệ và khi nào không. 1 bệnh cho một chứng % chứng tiếp xúc với yếu tố nguy cơ OR 1. Hãy tính cỡ mẫu trong một nghiên cứu bệnh chứng có năng lực =90%. 3 chứng: 1 bệnh. Thí dụ 2: Cho một nghiên cứu đoàn hệ. sử dụng những giả định sau để tính cỡ mẫu cho từng trường hợp Năng lực của nghiên cứu = 90%. nhóm không tiếp xúc = 2 nhóm tiếp xúc. mức ý nghĩa = 5%. Hãy tính cỡ mẫu trong một nghiên cứu bệnh chứng có năng lực =90%. 2.

"gây nhiễu" và "thay đổi tác động". Việc kiểm tra cần phải được tiến hành riêng biệt cho nhóm mắc bệnh và nhóm không mắc bệnh bởi vì phân phối của 2 nhóm này có thể hoàn toàn khác nhau. rất khó quyết định thao tác nào được áp dụng và áp dụng theo trình tự như thế nào. Khi thực hiện nghiên cứu bệnh chứng. Trong một số trường hợp cần phải điều chỉnh lại số liệu. Biên tập số liệu Kiểm tra và biên tập cẩn thận bộ số liệu là rất cần thiết trước khi bắt đầu phân tích thống kê. Thí dụ. Trong phần này. để đảm bảo rằng tất cả các số liệu đều đã được sắp xếp phù hợp và thứ hai để có một cảm giác về số liệu. giá trị bằng số thường được chia thành các nhóm trước khi phân tích và do đó một hay hai giá trị bất thường khó có thể có ảnh hưởng đáng kể đến kết quả. điều này thực hiện bằng bảng phân phối tần suất để xem rằng các bản ghi đều ở trong các nhóm đã được xác định và tần suất của mỗi nhóm là hợp lí. thí dụ chúng ta có thể vẽ phân tán đồ của trọng lượng theo tuổi. Biến số kết cuộc và biến số phơi nhiễm là các biến số trung tâm của nghiên cứu trong đó biến số kết cuộc mô tả vấn đề nghiên cứu và biến số phơi nhiễm là biến số mà chúng ta muốn xem xét và ước lượng tác động của nó lên biến số kết cuộc. Phân loại biến số Nói chung sẽ rất hữu ích nếu chúng ta phân biệt các loại biến số "kết cuộc". 4. Thứ nhất. Một số trường hợp khác cần phải đưa mã số giá trị khuyết (missing value) nếu chắc chắn rằng số liệu sai (thí dụ một bà mẹ có trọng lượng trước khi sinh là 45 kg và đã tăng cân 35kg trong thời gian có thai). Giới thiệu Chúng ta đã biết qua những kĩ thuật thống kê chuyên biệt cho các tình huống dịch tễ nhất đinh. Những giá trị bất thường cũng có thể được phát hiện bằng cách này. chúng ta cần phải xem xét số liệu một cách riêng biệt. khi số liệu là bất thường nhưng không bị xem là không thể xảy ra. Mô tả số liệu Sau khi số liệu đã được làm sạch. Đối với biến số phân loại. chúng ta có thể sử dụng bảng chéo để chắc rằng không có người nam giới nào có số lần mang thai là một hay nhiều hơn. Bước tiếp theo là tiến hành kiểm tra tính hàng định. Trong bối cảnh của một nghiên cứu dịch tễ thực sự bao gồm số liệu của rất nhiều các biến số. Phân tán đồ cũng có thể được sử dụng để kiểm tra tính hằng định của số liệu số. Tổ chức đồ cũng có thể dùng để tìm kiếm các giá trị bất thường (outliers) không phù hợp với phần số liệu còn lại. Điều này được thực hiện cho 2 mục đích. Một cách chặt chẽ. 3. phân phối của từng biến số phải được rà soát lại. dung tích sống theo chiều cao. nếu có 2 biến số giới tính và số lần mang thai trong bộ số liệu. để tìm kiếm những trường hợp mà 2 hay nhiều biến số là không hằng định. việc phân tích sau đó phải được kiểm tra để đảm bảo là kết luận không bị ảnh hưởng quá mức vì giá trị cực đoan này. Biến số thay đổi tác động là biến số thay đổi tác động của biến số phơi nhiễm lên 84 . Cảm giác vế số liệu là sự hiểu biét về đặc tính của dân số đối với biến số phơi nhiễm và các giá trị khác cần đo lường. "phơi nhiễm". Trong trường hợp còn chưa rõ. 2. Trên thực tiễn. Biến số gây nhiễu là biến số làm biến dạng quan hệ giữa biến số phơi nhiễm và két cuộc. tốt nhất là để số liệu giữ nguyên. chúng ta sẽ trình bày một số nguyên tắc chiến lược để phân tích số liệu từ nghiên cứu dịch tễ.Chiến lược phân tích số liệu 1. Những sai sót có thể được kiểm tra so với tài liệu gốc. kiểm tra phạm vi cần được tiến hành để phát hiện những giá trị nằm ngoài phạm vi mong đợi. Chúng ta thu thập số liệu của các biến số gây nhiễu để loại bỏ tác động của yếu tố gây nhiễu trong khi phân tích. Bước đầu tiên là xem sự phân phối của từng biến số để phát hiện các sai lầm có thể. trọng lượng theo chiều cao. Đối với biến số định lượng.

Ngoài ra trong nghiên cứu có thể có các yếu tố thăm dò. 6. Các lựa chọn bao gồm: Thiết kế nghiên cứu Đoàn hệ (người thời gian) Đo lường tần suất bệnh Tỉ suất Đo lường tác động Tỉ số tỉ suất Hiệu số tỉ suất Tỉ số nguy cơ Hiệu số nguy cơ Tỉ số số chênh Tỉ số nguy cơ (hiện mắc) Hiệu số nguy cơ Tỉ số số chênh 85 Đoàn hệ (không có số liệu Nguy cơ người thời gian) Số chênh Hiện mắc Tỉ lệ hiện mắc Số chênh . Nếu sự quan hệ này là yếu thì chúng ta có thể kết hợp nhiều nhóm lại với nhau. có thể chia các giá trị của biến số làm 5 nhóm có tần suất bằng nhau (được gọi là quintiles – ngũ vị). Dù vậy nếu biến số gây nhiễu mạnh (thí dụ như tuổi) thì có thể phân thành nhiều nhóm hơn. Đối với biến số liên tục như tăng huyết áp. có thể vần phân nhóm giá trị của các biến số. Rút gọn số liệu Trước khi bắt đầu phân tích chính thức. mối liên hệ giữa các biến số có thể phức tạp hơn. Thí dụ một biến số có thể gây nhiễu tác động của một yếu tố phơi nhiễm cần quan tâm nhung bản thân nó có thể là biến số phơi nhiễm quan tâm. Điều này giúp cho độ chính xác của ước lượng tác động lên mỗi nhóm nhưng đôi khi có thể sai lầm do nếu có một ít đối tượng có mức phơi nhiễm rất cao bị ghép chung với các đối tượng có độ phơi nhiễm vừa phải.nguy cơ. khi chúng ta muốn xem xét sự phụ thuộc của nguy cơ vào mức độ phơi nhiễm (quan hệ liều lượng – đáp ứng). Đối với biến số phơi nhiễm. Việc phân nhóm cũng cần thiết cho biến số phân loại hay biến số rời rạc nếu các biến số này có chứa một số lớn các nhóm (thí dụ như nghề nghiệp. Một cách khác là chọn các điểm cắt dựa trên nền tảng của các nghiên cứu trước đó. chúng ta sẽ mắc sai lầm nếu chúng ta sử dụng quá ít nhóm. Nguyên tắc chung là nhóm không phơi nhiễm nên đặt riêng (thí dụ nhóm không hút thuốc) và nhóm phơi nhiễm nên chia thành nhiều nhóm (thường là 4 hay 5 nhóm là đủ để có thể xem xét mối quan hệ liều lượng đáp ứng). Một biến số khác có thể gây nhiễu cho một biến sô phơi nhiễm này nhưng làm thay đổi tác động cho một biến số phơi nhiễm khác. Số nhóm được phân chia phụ thuộc vào từng loại biến số: đối với biến số phơi nhiễm cần phân chia thành nhiều nhóm hơn đối với biến số gây nhiễu hay biến số thay đổi tác động. nó có thể được xem là biến số gây nhiễu hay thay đổi tác động. số lần mang thai). Trên thực tiễn. Trước khi quyết định số nhóm cần dùng trong phân tích. Đo lường tác động Có các lựa chọn khác nhau để đo lường tác động cho các thiết kế nghiên cứu. Bởi vì phương pháp "cổ điển" dựa trên việc phân tầng là cần thiết cho giai đoạn đầu của nghiên cứu. việc phân nhóm là quan trọng cho các biến số liên tục. số liệu của biến số này có thể trở thành biến số phơi nhiễm quan trọng hoặc nếu nó không trở thành biến số phơi nhiễm quan trọng. 5. hai hay ba nhóm là đủ đối với phần lớn các yếu tố gây nhiễu. Đối với biến sô gây nhiễu. Chúng ta thu thập số liệu của các biến số thay đổi tác động để xem xét tác động của biến số phơi nhiễm lên nguy cơ thay đổi như thế nào tuỳ theo giá trị của biến số thay đổi tác động. mục đích là xác định các nhóm mà nguy cơ tương đối ít thay đổi trong từng nhóm. chúng ta có thể đánh giá sức mạnh quan hệ giữa biến số gây nhiễu và biến số kết cuộc.

sử dụng các phương pháp cổ điển để xem xét sự liên quan giữa kết cuộc và các yếu tố phơi nhiễm quan tâm và bỏ qua các biến số khác. tỉ số số chênh thưưòng được dung để đo lường tác động mặc dù nó có thể ước lượng cho tỉ số nguy cơ hay tỉ số tỉ suất. Phân tích đơn biến Thông thường nên bắt đầu với phân tích thô đơn biến. Mặc dù phân tích này sẽ bị thay thế bởi các phân tích phức tạp hơn và có xem xét đến tác động của các biến số khác. Thông thường người ta chọn mức nền là mức không có phơi nhiễm (hoặc phơi nhiễm ít nhất nếu ai đó đều bị phơi nhiễm ít nhiều). thí dụ nó có thể cho thấy có rất ít bản ghi hay rất ít trường hợp tử vong ở một nhóm phơi nhiễm nhất định. Đối với nghiên cứu đoàn hệ dựa trên nguy cơ và cho nghiên cứu bệnh hiện mắc. phân tích đơn biến vẫn có ích lợi vì: i) xem xét các bảng phân tích đơn cho người nghiên cứu những thông tin hữu ích về bộ số liệu. tỉ số nguy cơ sẽ được xem là dễ lí giải hơn tỉ số số chênh. ii) Phương pháp cổ điển đòi hỏi ít giả định nên có thể phát hiện được các mối liên quan phức tạp. phương trình hồi quy là một hộp đen có thể gây ra những sai số tai họa khi mô hình hoá. so sánh các mức độ phơi nhiễm với nhóm nền ii) Xem xét các ước lượng của tác động có theo một khuynh hướng nào hay không? iii) Nếu phù hợp. Trong nghiên cứu bệnh chứng. Chúng ta nên dùng phương pháp cổ điển trong bước đầu của phân tích vì các lí do sau: i) Các bảng số liệu đơn giản giúp nhà nghiên cứu có liên hệ với số liệu. thực hiện một kiểm định khuynh hướng (test for trend) để tìm bằng chứng về sự tăng giảm nguy cơ theo mức độ phơi nhiễm tăng dần. Kiểm soát các yếu tố gây nhiễu Yếu tố gây nhiễu hiện diện ít nhiều trong các nghiên cứu quan sát và cần phải thực hiện loại bỏ các yếu tố gây nhiễu trong các phân tích của biến số phơi nhiễm quan tâm. 7.Bệnh chứng Tỉ số số chênh Đối với nghiên cứu đoàn hệ. Bởi vì hồi quy logistic thường được sử dụng để ước lượng tỉ số số chênh. nếu có số liệu về người thời gian phơi nhiễm. Tuy nhiên tỉ số số chênh thường được sử dụng do tính chất thống kê của các thao tác dựa trên tỉ số số chênh là tốt hơn. Phânt ích phơi nhiễm với 2 hoặc hơn các mức độ (cả khi phân tích thô và phân tích phân tầng) sẽ bao gồm: i) Các bảng 2x2. Ngược lại. ii) Nó cho chúng ta khái niệm ban đầu về các biến số có thể liên quan mạnh đến kết cuộc iii) Mức độ thay đổi của ước lượng tho so với ước lượng khi các biến số khác được đưa vào để sử dụng trong phân tầng flà một chỉ số quan trọng để đánh giá sự hiện diện của yếu tố gây nhiễu. phụ thuộc vào phương pháp chọn lựa nhóm chứng. Chúng ta đã có 2 công cụ cho nhiệm vụ này: phương pháp cổ điển (Mantel-Haenszel) dựa trên phân tầng và phương pháp mô hình hoá với các phương trình hồi quy. một mức độ phơi nhiễm được chọn làm mức nền. Tuy nhiên nếu nhóm này có ít người thì ước lượng sẽ có sai số chuẩn lớn và chúgn ta có thể có lợi khi chọn nhóm lớn hơn làm nền tảng. tỉ số số chênh cũng được sử dụng do nó cho kế quả hằng định với kết quả của phân tích hồi quy logistic. tỉ suất mới mắc thường là số đo tần suất được chọn lựa và tỉ số tỉ suất là số đo tác động được chọn lựa. Phương pháp mô hình hoá có thể bỏ qua một số tương tác. 8. Khi phơi nhiễm có trên 2 mức độ. Tuy nhiên phương pháp cổ điển gập khó khăn khi có một số lớn các biến số gây nhiễu và khi muốn kiểm soát các yếu tố gây nhiễu này đồng thời thì do sự hiện diện của quá nhiều tầng sẽ khiến cho số liệu của mỗi tầng trở thành quá nhỏ và sẽ khiến sức mạnh thống kê bị kém và 86 .

Sau đó có thể xây dựng các mô hình phức tạp hơn bao gồm: . Tránh việc đưa vào các biến số không phải là yếu tố gây nhiễu cho bệnh đặc biệt là nếu biến số này có liên quan mạnh đến phơi nhiễm quan tâm bởi vì nó sẽ tạo ra sai số chuẩn lớn và khiến ước lượng kém chính xác. Kiểm soát từng biến số một và xem có làm thay đổi con số ước lượng tác động hay không.khoảng tin cậy của ước lượng sẽ rộng ra. Bước đầu tiên của phương pháp mô hình là lập lại những phân tích đơn giản và kiểm tra xem kết quả có phù hợp với phân tích phân tầng đơn giản hay không. Điều này giúp chúng ta tránh được các sai lầm tai hoạ do sử dụng phương pháp hộp đen. Trong trường hợp này. Theo các quy tắc chung.Biến số phơi nhiễm hoặc các biến số phơi nhiễm quan tâm . Phương trình hồi quy ngoài ra còn có một số lợi ích sau: i) Giả định rằng không có tương tác giữa các biến số gây nhiễu. chúng ta có thể làm giảm số tham số cần thiết ii) Có thể xác định được tác động của từng biến số. Cần lưu ý rằng các biến số được xem là gây nhiễu phụ thuộc một phần vào quyết định trù định (a priori decision) và một phần vào mức độ của ước lượng bị thay đổi sau khi kiểm soát cho yếu 87 . Điều này đúng cho hầu hết các loại nghiên cứu ngoại trừ nghiên cứu bệnh chứng bắt cặp cá nhân trong đó kĩ thuật phân tầng cổ điển có rất ít giá trị. Không cần thiết phải đưa tất cả các biến số tất cả các biến số gây nhiễu bổ sung vào phân tích cuối cùng bởi vì một số biến số gây nhiễu không làm thay đổi ước lượng tác động của biến số phơi nhiễm quan tâm nếu đã được kiểm soát cho các biến số gây nhiễu khác. những biến số này phải được kiểm soát trong phân tích.a priori confounders) những bCác biến số này thường là tuổi và một hay hai yếu tố nguy cơ quan trọng của bệnh và được cho là có thể có liên quan đến biến số phơi nhiễm quan tâm. Khi đó phân tích cuối cùng thưc hiện việc kiểm soát các biến số gây nhiễu trù định với các biến số gây nhiễu bổ sung có tác động. Khi số các biến số gây nhiễu là quá lớn và không thể kiểm soát bằng phương pháp phân tầng đơn thuần. Nếu có 3 hay ít hơn các biến số gây nhiễu thì chỉ cần sử dụng phương pháp cổ điển là đủ. 9. được kiểm soát cho tác động của các biến số khác. iii) Đôi khi chỉ có môt hoặc hai biến số gây nhiễu có làm thay đổi ước lượng tác động.Tất cả các biến số được cho là yếu tố gây nhiễu từ trước (yếu tố gây nhiễu trù định) .Tất cả các biến số khác được cho là có thể gây nhiễu và số liệu cho thấy có tác động gây nhiễu đáng kể. ii) Chúng ta có xem xét các biến số có thể gây nhiễu khác. Chúng ta đã thấy rằng phương pháp hồi quy cho tác động của hai biến số phân loại có giả định giống như giả định trong phương pháp phân tầng và do đó cho kết quả hoàn toàn đồng nhất. phương trình hồi quy (giả định không có hay chỉ có ít tương tác giữa các biến số gây nhiễu) sẽ có giá trị. iii) Có thể xem xét tác động liều lượng hậu quả một cách linh hoạt hơn. Mặc dù vậy. lần lượt phân tầng cho từng biến số và sau đó phân tầng cho đồng thời các biến số để xem các ước lượng tác động thay đổi như thế nào. Cách đưa vào biến số gây nhiễu i) Thông thường sẽ có hai hay ba biến số đượccho là các biến số gây nhiễu quan trọng (những biến số này đuợc gọi là biến số gây nhiễu trù định . Chiến lược này đủ để loại bỏ hầu hết các ảnh hưởng gây nhiễu. nếu phương pháp cổ điển được áp dụng một cách sáng suốt sẽ cho một ước lượng có giá trị và loại bỏ các sai lệch do yếu tố gây nhiễu gây ra.

Nghiên cứu bệnh chứng bắt cặp Phân tích bệnh chứng đúng cách sẽ kiểm soát các tác động gây nhiễu do biến số bắt cặp. có thể là tác động sẽ thay đổi ít nhiều giữa các nhóm gnhĩa là ít nhiều có sự tương tác của phơi nhiễm quan tâm và yếu tố gây nhiễu được kiểm soát trong phân tích. mặc dù điều này đòi hỏi thêm các giả định. Nên xem xét từng yếu tố tương tác một để tránh những mô hình quá phức tạp với nhiều tham số. Nếu bệnh và chứng chỉ được bắt cặp dựa trên các biến số đã được đo lường trong nghiên cứu (thí dụ như tuổi và giới). Điều may mắn là trên thực thế. việc tính toán con số ước lượng tác động chính xác. sau khi hiệu chỉnh cho các yếu tố gây nhiễu chỉ cần thiết nếu tác động là đồng nhất ở các mức khác nhau của yếu tố gây nhiễu. 10. Sử dụng hồi quy logistic có điều kiện. ii) Tương tác giữa biến số gây nhiễu và biến số phơi nhiễm chúng ta quan tâm: Trên lí thuyết thống kê. 88 .tố gây nhiễu đó. 11. tuổi và giới sẽ được kiểm soát như là một tầng trong phân tích. 2. đặc biệt chú ý đến những yếu tố tương tác trù định đáng được nghiên cứu. Cách tiếp cận này rất ích lợi cho phép sử dụng toàn bộ số liệu và phân tích nhiều yếu tố gây nhiễu cùng một lúc. bản thân điều này không có ý nghĩa quan trọng lắm cho nên việc tính toán ước lượng gộp của tác động cho từng phơi nhiễm là sự xấp xỉ hợp lí cho sự thật. Điều này sẽ khiến cho các tầng này có rất ít số liệu nên sẽ tạo ra các ước lượng kém tin cậy. Kiểm định thống kê cho sự tương tác được chứng minh là có lực rất kém và nếu chúng ta lần lượt tìm kiếm sự tương tác có ý nghĩa thống kê của tất cả các biến số sẽ dễ dàng bỏ qua những tương tác thực sự và tình cờ đưa ra các phát hiện giả tạo. Có hai cách để giải quyết vấn đề này: 1. Phân tích tương tác Hồi quy là một công cụ rất phù hợp cho phân tích sự tương tác. Có 3 loại tương tác cần được phân biệt i) tương tác giữa các biến số gây nhiễu Sự khác biệt chính giữa phương pháp mô hình hoá và phương páp cổ điển là phương pháp cổ điển cho phép xem xét sự tương tác giữa các biến số gây nhiễu. Nếu có tương tác yếu. tác động đặc hiệu của từng tầng phải được báo cáo. Tuy nhiên nếu có những biến số gây nhiễu khác không được bắt cặp sẽ có thể là biến số gây nhiễu. Vì những lí do này. iii) Tương tác giữa các biến số phơi nhiễm quan tâm Nếu có sự tương tác giữa các biến số phơi nhiễm quan tâm thì điều này là rất quan trọng cho việc lí giải khoa học của kết quả phân tích và cho việc ứng dụng các can thiệp dự phòng. Việc phân tầng có thể được sử dụng để kiểm soát những yếu tố gây nhiễu bổ sung nếu chúng ta chú ý rằng các tập hợp của ca bệnh và chứng (các tầng) phải đồng nhất về phương diện yếu tố gây nhiễu quan tâm. Tuy nhiên việc tích cực tìm kiếm sự tương tác với tất cả các biến số có thể là không có ích lợi. Tuy nhiễn trên thực tế. Chúng ta có thể sử dụng phương pháp phân tầng hay hồi quy logistic không điều kiện để tiếp tục phân tích. Khi có sự hiện diện đáng kể của tương tác. Do đó các nhà thống kê và dịch tễ hang đầu thường không khuyến cáo sử dụng phương pháp hồi quy từng bước (stepwise) trong phân tích dịch tễ. nên trì hoãn việc phân tích tương tác vào giai đoạn cuối của phân tích và chỉ nên xem xét tương tác phơi nhiễm-phơi nhiễm và phơi nhiễm-gây nhiễu. Chúng ta cũng nên nhớ rằng mục tiêu của nghiên cứu dịch tễ là tìm ra một bức trạnh đơn giản nhưng chân thật và hữu dụng của thực tế. Trong trường hợp này. Chúng ta hoàn toàn không dựa vào kết quả của kiểm định ý nghĩa. cách tiếp cận khác là phá vỡ việc bắt cặp và phân tích số liệu như là nghiên cứu bắt cặp tần suất. hầu như không bao cần xem xét sự tương tác giữa các biến số gây nhiễu.

Điều này không có nghĩa là tất cả các nghiên cứu dịch tễ phải có giả thuyết nghiên cứu và phương pháp phân tích được chỉ định từ trước khi tiến hành thu thập số liệu. Tìm kiếm tất cả các liênq uan với một biến số kết cuộc được các nhà thống kê gọi là "nạo vét số liệu" (ii) Phân tích từng nhóm nhỏ: Cần phải đặc biệt cẩn thận khi lí giải kết quả về sự liên quan "biểu kiến" trong các nhóm số liệu. nhóm 3. Nếu nghiên cứu đủ lớn thì việc ngẫu nhiên hoá sẽ đảm bảo 2 nhóm cân bằng với nhau về tất cả các biến số gây nhiễu và việc phân tích kết quả sẽ rất đơn giản. 4. chúng ta sẽ hi vọng sẽ có 1 trong 20 so sánh sẽ có ý nghĩa thống kê ở mức 5%. Chúng ta thường dễ bị cám dỗ và cho rằng đó là một kết quả lí thú của nghiên cứu. Những lí do cho sự cẩn trọng trong phân tích và lí giải số liệu bao gồm: (i) Nhiều so sánh: Ngay cả khi không có sự liên quan giữa biến phơi nhiễm và kết cuộc. đặc biệt là khi không có bằng chứng về mối liên quan chung. ngay cả khi chúng ta đã xác định biến số phơi nhiễm quan tâm từ trước. nhất là khi nếu loại bỏ nó ra nghiên cứu này là một nghiên cứu âm tính. Nếu chúng ta tìm được một mối liên quan có ý nghĩa trong 50 mối liên quan được kiểm định thì điều này sẽ phải được khẳng định rõ rang.…10 và tiếp tục. Sự so sánh đã được thiết lập trong đề cương nghiên cứu và đã được thống nhất trước khi nghiên cứu được tiến hành. Việc lí giải kết quả phải bị ảnh hưởng bởi việc phân tích. Lẽ ra chúng ta phải quyết định việc phân nhóm càng sớm càng tốt trước khi xem sự khác biệt trong phân nhóm tuổi ảnh hưởng đến kết luận của nghiên cứu. Những trở ngại trong phân tích và lí giải số liệu Nếu chúng ta có một nghiên cứu thử nghiệm ngẫu nhiên lớn so sánh 2 can thiệp. Sự khác biệt trong việc quyết định phân nhóm số liệu và chiến lược mô hình hoá sẽ cho những kết luận có thể rất khác biệt. Chúng ta chỉ nên xem mối liên hệ này chỉ nhằm tạo ra giả thuyết để được kiểm định trong tương lai. Cách này là cách so sánh chỉ định do kết quả phân tích. …. Chúng ta có 9 so sánh như vậy và sau đó chúng ta sẽ chọn cách so sánh nào có sự khác biệt nhiều nhất và có ý nghĩa thống kê nhất giữa nhóm trẻ và nhóm già. (iii) So sánh được chỉ định do kết quả phân tích Chúng ta không nên phân nhóm số liệu để có thể tạo ra một sự khác biệt thống kê rồi lí giải giá trị p này như thể giá trị p này là của một so sánh có trù định. Nghiên cứu dịch tễ thường gặp thường có liên quan đến nhiều biến số. nhóm 10 rồi so sánh nhóm tuổi 1 và 2 với nhóm 3. Có nhũng quan điểm khác nhau về cách xử lí số liệu từ các nghiên cứu thăm dò. 89 . Thí dụ nếu chúng ta có 10 nhóm tuổi và chúng ta so sánh nhóm tuổi 1 với nhóm 2. Do đó lí giải mối liên quan trong nghiên cứu mà tác động nhiều yếu tố phơi nhiễm được đo lường sẽ cần phải cẩn thận hơn trong một nghiên cứu với một giả thuyết được trù định từ trước.12.

Tập tin này sẽ thực hiện việc khởi động cài đặt trong vòng vài giây. . Dưới đấy sẽ trình bày cách cài đặt chương trình Stata 8.Tìm tập tin Stata8Setup. Và tiếp theo.Vào thư mục Statistic softwares của đĩa CD . Cài đặt chương trình Stata Có nhiều cách để cài đặt chương trình Stata. cửa sổ chào mừng (Welcome) sẽ hiện ra Nhấp vào nút lệnh Next để sang cửa sổ tiếp theo. Ready to Install) để tiến hành việc cài đặt 90 .Cài đặt chương trình Stata 8.0 khi có đĩa CD của bộ môn Thống kê Y học. Cũng tiếp tục làm như vậy cho 2 cửa sổ tiếp theo (Choose Destination Location.Đưa đĩa CD vào đầu đọc CD của máy tính (thí dụ vào đầu đọc E:) .exe và nhấp đúp vào tập tin này.0 và số liệu mẫu 1.

Việc cài đặt cũng được thực hiện bằng cách sử dụng đĩa CD của bộ môn Thống kê Y học.0 sử dụng đĩa CD của của bộ môn Thống kê Y học.exe và nhấp đúp vào tập tin này. Tiếp theo là cửa sổ Choose Destination Location sẽ hiện ra. 2.Tìm tập tin StataData. 3. Tập tin này sẽ thực hiện việc khởi động cài đặt trong vòng vài giây. các bạn nên cài đặt các tập tin số liệu.04. Epi-Info for Windows.Đưa đĩa CD vào đầu đọc CD của máy tính (thí dụ vào đầu đọc E:) . Nếu muốn cài đặt số liệu vào thư mục khác hãy nhấp vào nút lệnh Browse trong khung Destination Directory để chọn thư mục cài đặt rồi nhấp vào nút lệnh Next. Cài đặt chương trình chuyển đổi số liệu Đôi khi chúng ta có số liệu được nhập bằng chương trình Epi-Info 6. Lúc này có thể nhấp vào nút lệnh Close để kết thúc. Nếu chấp nhận thư mục cài đặt mặc định là C:\DATA. cửa sổ Finished sẽ hiện ra. Cài đặt tập tin số liệu mẫu Để có thể thực tập các bài tập có trong tài liệu này. Access hay Excel nhưng chúng ta lại muốn phân tích số liệu bằng Stata chúng ta cần phải sử dụng chương trình chuyển đổi số liệu như DBMSCopy for Win hay StatTransfer. Sau đây là hướng dẫn cài đặt chương trình StatTransfer 7.Sau khi cài đặt. .Vào thư mục Statistic softwares của đĩa CD .Vào thư mục Statistic softwares của đĩa CD 91 . hãy nhấp vào nút lệnh Next để tiếp tục. .Đưa đĩa CD vào đầu đọc CD của máy tính (thí dụ vào đầu đọc E:) . Khi đó chương trình sẽ tiếp tục thực hiện việc cài đặt và tự chấm dứt.

Sau khi nhấp vào nút lệnh Next của cửa sổ Ready to Install. Ở tất cả các cửa số này bạn nên nhấp vào nút lệnh Next để tiếp tục.. Choose Destination Location. Tập tin này sẽ thực hiện việc khởi động cài đặt trong vòng vài giây. Lúc này có thể nhấp vào nút lệnh Close để kết thúc. 2 chương trình này sẽ nằm trong MediStat trong “All Programs” của Windows. Tiếp theo các cửa sổ Welcome. cửa sổ Finished sẽ hiện ra. Ready to Install sẽ hiện ra. 92 . Khi cài đặt các chương trình StatTransfer và Stata theo cách trên.exe và nhấp đúp vào tập tin này. Sau khi cài đặt chương trình StatTransfer. chương trình sẽ cài đặt.Tìm tập tin StatTransfer7Setup.

Khởi động Stata Để khởi động Stata trong Windows XP hãy thực hiện • • • • Nhấp chuột vào Start Nhấp chuột vào “All Programs” Di chuyển chuột thư mục MediStat và Nhấp chuột vào mục Stata 8 Hoặc nếu đã có biểu tượng của Stata trên desktop của máy tính có thể khởi động Stata bằng cách nhấp đúp chuột vào biểu tượng của Stata 8 (Stata icon) Người dùng sẽ nhìn thấy màn hình như sau khi khởi động Stata 8.0 93 .Khởi động và kết thúc Stata 1.

verinst You are running Stata/SE 8. 3. Stata is correctly installed. Lệnh verinst là một lệnh cần nhớ.lic. máy tính sẽ hỏi chúng ta rằng 94 .Nhấp vào ô đóng nằm ở phía trên phải của cửa sổ Stata Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng chưa được lưu vào đĩa thì khi chúng nhấp vào ô đóng. nguyên nhân thông thường nhất là người sử dụng chưa đăng kí và mở khoá để sử dụng Stata. Trong trường hợp này người sử dụng cần liên hệ với công ty Stata để có được số hiệu (serial number) mã chương trình (code) và chìa khoá chủ quyền (Authorization key).0 for Windows chúng ta có thể thực hiện một trong 2 việc sau: .0 for Windows. 2.Nếu màn hình Stata không khởi động được. Trong trường hợp này có thể chép lại tập tin Stata. Thoát khỏi Stata Để thoát khỏi Stata/SE 8. Hãy gõ lệnh verinst và bạn sẽ thấy kết xuất tương tự như sau: . bạn có thể muốn kiểm tra rằng bạn đã cài đặt đúng. Kiểm tra tính hợp lệ của Stata Trong lần khởi động Stata đầu tiên. chúng ta có thể gõ verinst để được trấn an rằng Stata vẫn còn được cài đặt đúng.lic của người đã có khóa hợp lệ. You can type exit to exit Stata. Cũng có thể xảy ra trường hợp người sử dụng đã mở khoá rồi nhưng do vô ý đã xoá file Stata. Giả sử nếu chúng ta thay đổi cấu hình của máy tính và không biết mình đã làm tổn thương cho Stata hay không.

chúng ta có muốn thoát mà không lưu lại số liệu hay không.192 800 18. Nếu Stata đã được cài đặt và bạn muốn biết bạn đang dùng Stata gì thì có thể gõ lệnh about: . Tuỳ theo loại máy Intercooled Stata có thể nhanh hơn Stata nhỏ từ 50 đến 600%. data in memory would be lost”.000 99 200 40 1. và do đó một số kết quả trung gian phải tính toán lại nhiều lần và điều này làm Stata nhỏ bị chậm . chính xác đến số lẻ tận cùng.000 1. Stata cho RS/6000. Intercooled Stata và Stata bản đặc biệt (Stata SE) Stata cho Windows và Stata cho Macintosh có hai kiểu: Stata nhỏ và Intercooled Stata (trên hệ điều hành Unix chỉ có Intercooled Stata).648 Tại sao Intercooled Stata chạy nhanh hơn Stata nhỏ? Điều này là do sự khác biệt trong việc lập chương trình. Dù sao. Ngay cả các tập tin cũng có thể chia xẻ. Intercooled Stata sẽ sử dụng bộ nhớ để có thể ghi nhớ kết quả tạm thời là ma trân T=RZ rồi sau đó tính TR’. tập tin đồ hoạ của Stata cho Macintosh có thể dùng trên các máy tính khác mà không cần phải chuyển đổi. Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng chưa được lưu vào đĩa thì khi chúng gõ exit. Tuy nhiên bất kể bạn dùng loại hình Stata nào. sự khác biệt của Intercooled Stata và Stata nhỏ mang tính kĩ thuật và nội bộ. Trong trường hợp này nếu chúng muốn thoát mà không lưu lại số liệu thì chúng ta hãy gõ exit. 4. Thí dụ để có tích số của các ma trận RZR’. Stata vẫn là Stata và bạn có thể sử dụng cùng một câu lệnh và Stata sẽ cho ra cùng một kết quả. Stata nhỏ do không có thể sử dụng nhiều bộ nhớ nên phải tính toán trực tiếp RZR’.632 18. clear.Gõ lệnh exit trong cửa sổ Stata Command. Nếu chúng ta muốn lưu lại số liệu hãy sử dụng lệnh save.v.1. đối với người dùng.047 8. Thí dụ tập tin số liệu. nếu không thì chúng ta lại trở lại Stata để chúng ta có thể lưu lại số liệu. Stata nhỏ. máy tính sẽ không đồng ý cho chúng ta thoát và sẽ thông báo “no. Stata cho Linux. Stata cho 680x0 Macintosh. Stata cho Windows 3. 5.0 for Windows Born 30 Jan 2003 95 . . Sau đây là sự khác biệt giữa về giới hạn kích thước giữa Intercooled Stata và Stata nhỏ Stata nhỏ Số quan sát Số các biến số Chiều rộng số liệu Kích thước ma trận tối đa Số kí tự trong một macro Số kí tự trong một dòng lệnh 1. Nếu chúng ta đồng ý thì Stata sẽ thoát. Stata cho Power Macintosh. Cả hai kiểu Stata này đều có những nét chung nhưng Intercooled Stata có thể làm việc với tập tin dữ liệu lớn hơn và nhanh hơn.100 Intercooled Stata Tuỳ thuộc vào bộ nhớ 2. v. Các loại hình của Stata Có một số loại hình của Stata chạy trên các hệ điều hành khác nhau: Stata cho Windows 98/95/NT. việc sử dụng Intercooled Stata và Stata nhỏ không có gì khác biệt. tập tin chương trình. about Stata/SE 8.

96 .Copyright (C) 1985-2003 Total physical memory: 261616 KB Available physical memory: 37056 KB Single-user Stata for Windows perpetual license: Serial number: 196201410 Licensed to: Do Van Dung Univ of Medicine & Pharm Như vậy.0 cho Windows. chúng ta đang sử dụng Stata Phiên bản đặc biệt 8.

15 4. 18 3.260986 Residual | 800. Stata có thể chạy trên nhiều hệ điều hành nhưng bất kể ở hệ điều hành nào.785503 12 41 weight | 74 3019. 26 2.8072 1. được mô tả dưới dạng là một bảng với các hàng là các đối tượng và các cột là các biến số: . 22 2. 71) Prob > F R-squared Adj R-squared Root MSE = = = = = = 74 72.459 777.000 39. correlate mpg weight (obs=74) | mpg weight ---------+-----------------mpg | 1.038 7.0141581 .57e-06 _cons | 51.dta".4720474 Number of obs F( 2.116 0.0064145 w_sq | 1.32e-06 6.26e-07 2.0000 . regress mpg weight w_sq Source | SS df MS ---------+-----------------------------Model | 1642. 20 3.930 2. Stata c ó thể cho phép điều khiển bởi dòng lệnh (command-driven) và điều khiển bằng menu (menu-driven)khác với SPSS chỉ được phép điều khiển bằng menu (menu-driven).80 0.18308 5.646 0.6722 0. use "C:\Program Files\STATA8\auto.230 97 .874 0. Dev.Mô tả ngắn gọn về Stata Stata là một bộ phần mềm thống kê để quản lí. summarize mpg weight Variable | Obs Mean Std. tương tự như của phần lớn các phần mềm thống kê khác.0038835 -3. clear .68225 62.937487 71 11.001 -. Min Max ---------+----------------------------------------------------mpg | 74 21.67e-08 2.0000 0.767884 8. Std. Sau đây là một đoạn sử dụng Stata với . 22 2. Một số lệnh khác có thể tạo ra kết quả khác: .52197 2 821.45946 73 33.640 4.2973 5. Interval] ---------+-------------------------------------------------------------------weight | -.080 6.670 7.1936 1760 4840 Ở đây người dùng gõ vào summarize mpg weight và Stata trả lời bằng một bảng thống kê mô tả. Err.68392 Số liệu của Stata. phân tích và vẽ đồ thị của số liệu.0219016 -. t P>|t| [95% Conf. list mpg weight in 1/10 mpg weight 1. 17 3.2808097 ---------+-----------------------------Total | 2443.350 3.0000 weight | -0.250 5.3587 mpg | Coef.6630 3. gen w_sq=weight^2 .

10. Để Stata có thể hoạt động tối ưu. Do số liệu được đưa vào bộ nhớ nên kích thước của số liệu bị giới hạn bởi kích thước bộ nhớ.8. v.280 3.880 3. Nếu chúng ta muốn dành cho Stata 64 megabyte hãy gõ: set memory 64m Nếu muốn chúng ta có thể biết được lượng bộ nhớ tự do bằng cách gõ vào: memory. 98 . Do đó chúng ta có thể thoải mái làm việc mà không sợ bị ảnh hưởng lên số liệu gốc trừ khi chúng ta ra lệnh cho Stata ghi số liệu trở lại vào đĩa. 20 16 19 3. Thông thường 32 megabyte bộ nhớ được dành cho Stata và ta có thể tăng lượng bộ nhớ dành cho Stata bằng cách dùng lệnh set memory.v) Stata có đặc điểm là chạy rất nhanh. Do đó khi chúng ta làm việc với số liệu có kích thước lớn chúng ta cần dành nhiều bộ nhớ cho Stata. weight. Tốc độ nhanh một phần là do chương trình được viết hết sức khôn khéo và một phần là do Stata giữ số liệu trong bộ nhớ. biến đổi mà không ảnh hưởng gì đến số liệu được giữ trong đĩa cứng. 9.400 Trong đó các quan sát được đánh số và các biến số được đặt tên (như mpg. Tương tự như winword: khi làm vieej số liệu được nạp vào trong bộ nhớ và được phân tích. sau khi đã nạp số liệu nên còn khoảng 1 megabyte bộ nhớ tự do.

chúng ta có thể thêm lệnh more vào chương trình. Mô tả Khi chúng ta gõ một câu lệnh và Stata có một câu trả lời dài quá một cửa sổ màn hình chúng ta sẽ thấy—more-. phím trắng hay q dù rằng cửa số kết xuất có đầy hay chưa. Nếu chúng ta gõ set more off thì—more—sẽ không bao giờ hiện ra và câu trả lời của Stata sẽ trôi nhanh hết tốc độ. 99 . Nếu chúng ta gõ lại set more on thì—more—sẽ được phục hồi trở lại. Trong do-file chúng ta thường sử dụng lệnh set more off bởi vì chúng ta không quan tâm đến sự tương tác với kết quả và muốn Stata thực hiện càng nhanh càng tốt nhằm kết quả được đưa vào log-file và file này sẽ được đọc sau.ở cuối màn hình.Lệnh more 1. Khi đó chúng ta có thể: • Gõ phím trắng để xem câu trả lời ở màn hình kết tiếp • Gõ l (chữ el-lờ) hay Enter để xem dòng tiếp • Gõ q để ngưng hiện ra câu trả lời --Break-• more—là cách của Stata để cho biết rằng nó còn tiếp tục trả lời nhưng nó cũng có ý là nói còn có những thông tin khác để đẩy các thông tin có sẵn trên màn hình đi. Trong do file nếu chúng ta muốn chương trình dừng tại một nơi nào đó. Khi chương trình gập lệnh này nó sẽ dừng lại và đợi chúng ta đánh Enter.

Nhờ có thể đọc trực tiếp mã trả về và biết có lỗi xảy ra hay không và lỗi gì.cuối của myfile.đầu của myfile. bạn sẽ thấy . xem do-file sau đây: ------------------------------------------------. Stata trả lời bằng thông báo “no variables defined” và dòng thông báo “r(111)” “no variables defined” là thông báo lỗi (error message). nếu có lỗi thì chúng ta mở tập số liệu A ra. list myvar no variables defined r(111). Nghĩa là sau khi ra thông báo lỗi và mã trả về. tất cả các lỗi đều được tha thứ.chúng ta muốn mô tả (describe) nhưng lại gõ sai là decribe.Thông báo lỗi và mã phản hồi 1. decribe Decribe tạo ra thông báo lỗi và mã trả về 111. 111 được gọi là mã trả về (return code). decribe unrecognized command: r(199). Bỏ qua lỗi lầm trong lập trình Thí dụ một câu lệnh có thể là đúng trong một tập số liệu A nhưng lại là sai ở một tập số liệu B. Mã trả về để biết thời gian tính toán Ngoài thông báo lỗi và mã trả về. Thí dụ. sum mpg 100 . Trong chế độ chương trình khi có một lỗi xảy ra. Stata tạo ra một thông báo lỗi và một mã trả về. Stata còn có thể có thông báo trả về (return message) cho biết thời gian thực hiện một lệnh và thời điểm lệnh đó hoàn thành. Thí dụ nếu bạn gõ sum mpg. 2.do---------------use auto decribe list ------------------------------------------------. Lỗi Khi có một lỗi xảy ra. do-file sẽ ra thông báo lỗi và mã trả về đồng thời với việc ngưng thực hiện ngay lập tức. Chúng ta yêu cầu Stata liệt kê giá trị của biến myvar. Thí du: . Thông thường thì Stata không cung cấp thông báo trả về trừ khi chúng ta yêu cầu bằng lệnh set rmsg on. Stata xem như lỗi chưa hề xảy ra. use auto (1978 Automobile Data) . Như vậy người lập trình có thể yêu cầu Stata không ra thông báo lỗi bằng cách dùng lệnh capture. lập trình viên có thể có những hành động thích hợp. do myfile . Sau đây là những gì xảy ra khi chúng ta thực hiện do-file bằng cách gõ do myfile: (1978 Automobile Data) . Và những lỗi như vậy có thể được tiên liệu từ trước: Trong trường hợp đó nếu câu lệnh không lỗi thì chúng ta cứ tiếp tục. Điều này sẽ làm chấm dứt việc thực hiện do-file và khi đó lệnh list (dù rằng đúng) vẫn không được thực hiện. 3. Trong chế độ tương tác.do--------------- Lưu ý dòng số hai .

Min Max ---------+----------------------------------------------------mpg | 74 21. Dev. Dev.785503 12 41 Nếu chúng ta đã gõ lệnh ở đâu đó trong chương trình . t=0. set rmsg on thì Stata sẽ trình bày thông báo trả về như sau: . Nếu chúng ta không muốn xuất hiện thông báo trở về nữa.11 7:52:45” là thông báo trả về cho biết thời gian Stata thực hiện lệnh này là 0.11 giây và lệnh này hoàn thành lúc 7 giờ 52 sáng. set rmsg off 101 .2973 5. sum mpg Variable | Obs Mean Std. t=0.Variable | Obs Mean Std. Min Max ---------+----------------------------------------------------mpg | 74 21.2973 5.785503 12 41 r. chúng ta hãy gõ: .11 7:52:45 Dòng “r.

Tuy nhiên có hai trường hợp ngoại lệ: 1. 2. thì khi bạn nhấn ^Break Stata sẽ ngưng công việc nhưng bạn không trở về trạng thái cũ mà các số liệu đã đọc sẽ còn lại trong bộ nhớ. Điểm cần lưu ý trong lập trình Có những trường hợp trong chương trình bạn muốn chương trình phải thực hiện toàn bộ một nhóm lệnh mà không ngừng bởi vì nếu ngừng số liệu ở ở trạng thái bất định. infile. Trong trường hợp này Stata cung cấp cấu trúc: no break { . Khi đó số liệu sẽ không còn sắp xếp cho age và cũng không còn sắp xếp cho sex nữa: nó ở trạng thái không sắp xếp (unsorted). } 102 . Nếu số liệu đang được sắp xếp cho biến số sex và bạn muốn sắp xếp lại cho biến số age .Phím break 1. . Nếu bạn nhấn ^Break trong khi chúng ta đang gõ một dòng lệnh. Việc này được thực hiện bằng cách nhấn và giữ phím Ctrl và đồng thời nhấn phím Pause/Break. . Nếu bạn nhấn ^Break khi Stata đang làm điều gì đó thì Stata sẽ ngưng việc đang làm. Giả sử trong khi Stata đang sắp xếp cho age thì bạn đổi ý kiến và nhấn ^Break. trở về trạng thái cũ và đưa ra một dấu chấm nhắc. Stata sẽ bỏ qua dòng lệnh đó bởi vì bạn đã ở trong tình trạng kiểm soát. Làm Stata ngưng thực hiện việc đang làm Khi chúng ta muốn Stata ngưng thực hiện việc nó đang làm và trả về dấu chấm nhắc (dot prompt). Điều này là có ích nếu bạn muốn xem xét quá trình nhập số liệu có đúng hay không trước khi bạn nhập vào toàn bộ. Nếu không bạn có thể gõ lệnh drop _all 2. hay infix. chúng ta nhấn phím Control-Break (Thường được viết là ^Break hay Ctrl-Break). Nếu bạn đang đọc số liệu từ đĩa bằng các lệnh insheet. Ở trạng thái cũ có nghĩa Stata hoàn trả lại tình trạng như là bạn chưa hề ra câu lệnh.

Dấu chấm phẩy (. Sau use cũng phải có tên tập tin. 2. Cách khôn ngoan hơn là gõ 2 lệnh này trong 103 . • Chúng ta có thể sử dụng các phím chức năng (F-keys) có các ý nghĩa đặc biệt và chúng ta có thể thay đổi các định nghĩa này tuỳ theo sở thích của chúng ta.)ở cuối định nghĩa của F5 sẽ thay chúng ta nhấn phím Return. global F3 "summarize" Cần lưu ý ở trên F3 là chữ F và số 3 chứ không phải là phím F3. thí dụ nếu bạn muốn F3 có nghĩa là summarize bạn có thể gõ: .Sử dụng bàn phím trong Stata 1.nếu chúng ta muốn có hướng dẫn về một lệnh nào đó (thí dụ như lệnh summarize) chúng ta có thể gõ help summarize hoặc nhấn F1. Nếu chúng ta muốn thay đổi định nghĩa của F3 và F5 mỗi khi chúng ta khởi động Stata. Bạn có thể thay đổi những định nghĩa mặc định này. use. Bàn phím Vì Stata được điều khiển theo dòng lệnh (command-driven) nên bàn phím là rất cần thiết trong việc sử dụng ngoại trừ 2 trường hợp sau: • Để có được những câu lệnh mà chúng ta đã nhập từ trước. global F5 "summarize. #review là câu lệnh nhằm hiển thị một số câu lệnh bạn vừa sử dụng. Bạn có thể gõ vào #review rồi Enter hoặc bạn có thể nhấn F2 describe là câu lệnh yêu cầu Stata báo cáo nội dung số liệu có trong bộ nhớ." Như vậy chúng ta có hai cách để tóm tắt tất cả các biến số : (1) nhấn F3 và sau đó nhấn Return hoặc (2) nhấn F5. Ngoài ra chúng ta có thể đưa con chuột đến dòng lệnh đó trong cửa sổ hồi kiểm (review window) và nhấp để nạp câu lệnh đó vào cửa sổ dòng lệnh. Lưu ý F là chữ in hoa và có khoảng trống giữa global và F3 cũng như có khoảng trống giữa F3 và “summarize “ Sau chữ summarize nên có một dấu trắng khi cần có thể nhanh chóng gõ vào tên các biến số cần được summarize Nếu chúng ta muốn gán phím F5 để summarize tất cả các biến số ta có thể gõ: . Thông thường bạn có thể gõ describe rồi Enter hoặc nhấn F3 save nhằm lưu lại số liệu trong bộ nhớ vào trong tập tin. nhằm đưa số liệu từ tập tin vào bộ nhớ. F7 save F8 use Dấu chấm phẩy (. Chúng ta có thể gõ câu lệnh hoặc nhấn F7 rồi gõ tên tập tin. rồi gõ summarize và nhấn Enter. F3 describe. Phím chức năng Stata mặc định các phím chức năng các ý nghĩa sau: F-keys F1 help F2 #review.) ở sau #review và describe chỉ định rằng các phím này đã bao gồm phím Enter help gọi hướng dẫn của Stata . chúng ta có thể nhấn các phím PgUp và PgDn. Cần lưu ý cú pháp của save là sau nó phải có tên tập tin. chúng ta có thể gõ hai lệnh trên mỗi khi chúng ta vào Stata. ngược lại.

nó sẽ nạp là thực hiện lệnh đó ngay. và bạn có thể hiện chỉnh nó. Nếu bạn nhấp đúp vào một lệnh ở cửa sổ Review. bạn có thể đưa các câu lệnh từ cửa sổ Review vào cửa sổ Command. Nhấp vào một lệnh ở cửa sổ Review sẽ nạp lệnh đó và cửa sổ Command. gõ PgUp và Stata sẽ nạp lệnh cuối cùng bạn vừa gõ lên cửa sổ Cọmmand. Gõ PgDn có tác dụng ngược lại. phím này có tác dụng xoá sạch cửa sổ Command. đặt tên là profile. Stata sẽ thực hiện các lệnh trong profile. Phím hiệu chỉnh Người dùng Windows sẽ có quyền sử dụng những phím hiệu chỉnh tiêu chuẩn của Windows. Một phím hiệu chỉnh khác làm phím Esc. Tóm lại: Gõ PgUp PgDn Esc Hiệu quả Đi lùi từng lệnh và chuyển các lệnh từ cửa sổ Review sang cửa sổ Command Đi tới từng lệnh và chuyển các lệnh từ cửa sổ Review sang cửa sổ Command Xoá cửa sổ Command 104 .do mỗi khi nó được thực hiện. Hơn nữa. Gõ PgUp thêm lần nữa nó sẽ nạp thêm lệnh trước đó và tiếp tục.một tập tin văn bản. 3.do và đặt trong thư mục “khởi động”. Một cách khác để nạp các lệnh ở cửa sổ Review là dùng phím PgUp và PgDn. Cho nên Stata cho Windows sẽ hiệu chỉnh những gì bạn gõ vào một cách tư nhiên như một cửa sổ hiệu chỉnh tiêu chuan.

Edit (hiệu chỉnh).Save. 9-Data Editor. 2. 10-Data Browser.Break) Ý nghĩa của từng công cụ như sau: 1. thêm bớt số liệu) 10-Data Browser: Duyệt số liệu (xem nhưng không sửa chữa) 11-Clear . 6. Prefs (Tùy chọn).Print Results (In kết quả) 4.Condition và 12.Start Viewer (Bring Viewer to Front) : Bắt đầu sử dụng cửa sổ Viewer 6. Thanh công cụ (toolbar) Thanh công cụ gồm 12 nút công cụ (1. Thanh menu với các menu File (đóng mở tập tin).Bring results window to Front 7-Bring graph windows to Front.Condition (Xóa lệnh more để tiếp tục thực hiện chương trình) 12. 4.Print Results.Begin (Close) log: (Bắt đầu (Kết thúc) ghi biên bản kết quả) 5. 5. Mô tả giao diện của chương trình Stata Giao diện của Stata sẽ hiện ra với 3 thanh và 4 cửa sổ: 3 thanh bao gồm: 1.Bring results window to Front : (Đưa cửa sổ kết quả ra trước) 7-Bring graph windows to Front (Đưa cửa sổ đồ họa ra trước) 8. Khởi động Stata Khởi động chương trình STATA bằng cách nhấp vào nút Start :: All Programs :: Medistat :: Stata 8 hoặc nhấp vào biểu tượng (icon) Stata 8 trên màn hình Desktop.Khởi động Stata 1.0" 2.Open file.Begin (Close) log.Open file (mở tập tin) 2. 3. Thanh tiêu đề với dòng chữ "Intercooled Stata 6.Save (Lưu tập tin) 3. Data (Số liệu) Graphics (Đồ họa) Statistics (Thống kê) User (Người dùng) Window (mở ra các cửa sổ) và Help (Trợ giúp) 3.Do-file Editor.Break: (Ngưng tập tin chương trình) Bốn cửa sổ liệt kê theo ngược chiều kim đồng hồ bao gồm 105 .Do-file Editor: (Biên soạn tập tin chương trình . 2.more . 8.do file) 9-Data Editor: Biên tập số liệu (sửa chữa.Start Viewer (Bring Viewer to Front) . 11-Clear more .

Cách cách để thực hiện lệnh trong chương trình Stata Có hai cách để thực hiện lệnh trong chương trình Stata: Dùng bàn phím để gõ lệnh vào cửa sổ lệnh (Stata Command) hay sử dụng con trỏ chuột để chọn các trình đơn (menu) giao diện đồ họa (Graphic Interface) Dùng bàn phím để gõ lệnh Dùng bàn phím để gõ lệnh vào cửa sổ lệnh (Stata Command). Lưu lại kết quả phân tích Kết quả của phân tích được thể hiện trên cửa sổ Stata Result và cửa sổ này có một thanh trượt dọc cho phép xem lại những kết quả phân tích cũ. Phương pháp sử dụng chuột và menu là phương pháp dễ sử dụng nên sẽ được ưu tiên trình bày trong tài liệu này. Cửa sổ Result (cửa sổ Kết quả) 3. cửa sổ này chỉ lưu lại những kết quả gần nhất. 106 . Tuy nhiên phương pháp này có thể không thích hợp cho người mới sử dụng do nó đòi hỏi người dùng phải thuộc các câu lệnh và cú pháp của nó Con trỏ chuột với giao diện đồ họa (Graphic Interface) Có thể dùng chuột thực hiện các lệnh nhằm thao tác số liệu (menu Data). Đây là cách sử dụng Stata của người chuyên nghiệp vì nó cho phép thực hiện tất cả các lệnh của Stata một cách nhanh chóng với đầy đủ các chức năng phụ của lệnh. Tuy nhiên để tránh gây nhầm lẫn cho người phân tích. Do đó nếu chúng ta muốn lưu trữ lại toàn bộ kết quả phân tích chúng ta cần phải mở cửa sổ log bằng cách nhấp vào nút công cụ Stata Log nằm vị trí thứ tư từ trái ở trên thanh công cụ . Cửa sổ Command (cửa sổ lệnh) 2. vẽ đồ thị (menu Graphics) và phân tích số liệu (menu Statistics). Cửa sổ Variables (cửa số Biến số) 3. Khi đó cửa sổ Open Stata Log mở ra. Cửa sổ Review (cửa sổ Lưu trữ) 4. 4.1. chúng ta có thể nhập tên của tập tin lưu trữ (log file) vào hộp văn bản File name.

smcl log type: smcl opened on: 10 Oct 2004. Khi muốn xem lại biên bản (kết quả phân tích) hãy nhấp vào nút công cụ log để hiện ra cửa sổ Stata Log Options. Khi muốn chấm dứt việc ghi biên bản (kết quả phân tích) hãy nhấp vào nút công cụ log để hiện ra cửa sổ Stata Log Options.smcl" . một lần nữa Sau đó chọn vào nút chọn View snapshot of log file và nhấp vào nút lệnh OK để xem biên bản.smcl" hãy gõ "baitap" vào hộp File Name rồi nhấp OK. 12:01:34 Sau đó bạn có thể thực hiện các bước phân tích.smcl" -----------------------------------------------------------------------------log: D:\Dung\Science\BSCK2_Hieu_mat\baitap. 107 . Khi đó trên cửa số kết quả (Stata results) sẽ hiện ra thông báo để cho biết rằng biên bản kết quả phân tích sẽ được lưu tại tập tin "D:\Dung\Science\BSCK2_Hieu_mat\baitap. log using "D:\Dung\Science\BSCK2_Hieu_mat\baitap.Giả sử chúng ta chọn tập tin này là "baitap.

Sau đó chọn vào nút chọn Close log file và nhấp vào nút OK. Lời khuyên: Người sử dụng Stata có kinh nghiệm sau khi mở tập tin số liệu luôn luôn mở tập tin log trước khi tiến hành các phân tích thống kê để không bỏ mất các kết quả của quá trình phân tích. 108 .

dta có trong thư mục C:\DATA sau khi bạn cài đặt các tập tin số liệu mẫu. nhấp đúp vào tên tập tin này để mở tập tin (hoặc nhấp vào tập tin này để tên tập tin rơi vào hộp File Name rồi sau đó nhấp vào nút lệnh Open để mở tập tin). tạo biến số mới theo yêu cầu của phân tích và tiến hành việc dán nhãn số liệu để giúp cho việc hiểu rõ hơn số liệu và đọc kết quả của phân tích thống kê.Mở tập tin ivf_v.0 for Windows Chương này sẽ hướng dẫn bạn phương pháp mô tả số liệu với phần mềm Stata 8. Công tác chuẩn bị bao gồm việc mở tập tin số liệu. Tìm tập tin số liệu ivf_v. cần nhớ nhấp vào nút công cụ Stata 109 .dta. Để lưu trữ lại toàn bộ kết quả phân tích sẽ được thực hiện.dta và mở tập tin log Khởi động cửa sổ Use New Data bằng cách 1 trong 2 cách: . 1. Sau đó thực hiện các bài tập 1 đến 3 cho công tác chuẩn bị và các bài tập 4 đến 6 cho công tác thao tác số liệu. Thông thường trước khi mô tả số liệu chúng ta cần thực hiện bước chuẩn bị và việc thao tác số liệu (data processing). Nhấp vào mũi tên bên phải hộp Look in để chọn ổ đĩa thích hợp và dùng con chuột nhấp vào các thư mục để chọn thư mục có chứa số liệu (thông thường tập tin số liệu nằm ở thư mục C:\Data).Nhấn nút công cụ mở file ( . Trước tiên chúng ta hãy khởi động Stata theo cách đã hướng dẫn ở chương Khởi động Stata. khảo sát số liệu có bao nhiêu bản ghi và có những biến số nào cũng như nghiên cứu đề cương nghiên cứu (chủ yếu là mục tiêu nghiên cứu) để giúp việc phân loại biến số. mở tập tin log (Open log file).0 sử dụng bộ số liệu ivf.Chọn menu File :: Open vị trí đầu tiên trên thanh công cụ). Sau khi cửa sổ Use New Data sẽ hiện ra. Việc thao tác số liệu là việc rà soát số liệu có bị sai sót hay nhầm lẫn gì hay không.Mô tả số liệu với Stata 8.

Thí dụ chúng ta muốn lưu tập tin log với tên là ivf_v. Khảo sát các biến số của tập tin và nghiên cứu mục tiêu nghiên cứu để phân loại biến số Hướng dẫn: Để xem liệt kê các biến số chúng ta có thể nhấn phím chức năng F3 hay sử dụng menu (nhấp vào menu Data :: Describe data :: Describe variable in memory) để xem các biến số của số liệu Chúng ta có thể xem danh sách các biến số liệt kê ở sau: 110 . Máy tính sẽ hiện ra hộp thoại Begin Logging Stata Output để chúng ta chọn tên tập tin (File name) và thư mục lưu (Save In) của tập tin log.Log nằm vị trí thứ tư từ trái ở trên thanh công cụ để bắt đầu log kết quả (begin log).smcl vào thư mục c:\data. chúng ta nhập vào các thông tin như trên. 2.

1=trai. 0=gai trong luong so sinh (gram) nghe nghiep me ..0g %9.0g %9.1=tang ha.0g %9.0g ma so tuoi me (nam) tang huyet ap thai ki .0g %9.Dùng nút lệnh Data Browser (vị trí 11 tính từ bên trái của thanh công cụ) .dta obs: 641 vars: size: 7 20. Cách lí giải số liệu được minh họa STT Tên biến Ý nghĩa của biến Phân loại biến số: (Độc lập hay Phụ thuộc) – (Định tính hay định lượng) 1 2 3 4 5 6 7 Maso Tuoime Tangha Tuoithai Gioi Tlsosinh Mã số Tuổi của mẹ (năm tuổi) Tăng huyết áp thai kì 1= có 0= không Tuổi thai (tính theo tuần) Giới tính của trẻ 1=trai 0=gái Trọng lượng sinh tính theo grams Nghenghiep Nghề nghiệp của mẹ 1=tự do 2=công nhân 3=viên chức 3.Dùng menu Data :: Data browser (read-only editor) 111 . 3=vien chuc ------------------------------------------------------------------------------Sorted by: maso Giả sử từ đề cương nghiên cứu chúng ta biết đây là tập tin của số liệu 641 đứa trẻ được sinh từ bà mẹ thụ thai trong ống nghiệm (in-vitro fertilisation) với mục tiêu nghiên cứu là xem tuổi thai và tăng huyết áp trong thai kì có ảnh hưởng lên trọng lượng thai hay không. 2=cong nhan.1=tu do. describe Contains data from C:\DATA\ivf_v. Làm thế nào để xem số liệu Hướng dẫn: Có thể xem số liệu bằng 2 cách: .0g %9.0g %9.8% of memory free) 15 Aug 2006 15:27 ------------------------------------------------------------------------------storage display value variable name type format label variable label ------------------------------------------------------------------------------maso tuoime tangha tuoithai gioi tlsosinh nghenghiep float float float float float float float %9.512 (99. 0=khong tang ha tuoi thai (tuan) gioi tinh tre .

và nhấp vào các biến cần mô tả thống kê (tuoime. tlsosinh là biến định lượng. 4. tables. đối với biến định tính thực hiện lệnh tab1 để có bảng phân phối tần suất của các biến số. tuoithai. thực hiện các bước sau: Bước 1: Đặt con trỏ vào hộp văn bản Variables Bước 2: Di chuyển con trỏ vào cửa sổ Variables. Hãy thực hiện thống kê mô tả tất cả các biến số trong bộ số liệu này: Hướng dẫn: trước tiên chúng ta phải xác định biến số nào là biến số định lượng và biến số nào là biến số định tính. tuoithai. Sau khi hộp thoại Summarize hiện ra. Để mô tả biến số này chúng ta sử dụng menu Statistics :: Summaries. tlsosinh) để tên các biến này xuất hiện trên hộp văn bản Variables Bước 3: Nhấp vào nút lệnh OK 112 .Sử dụng Data Browser cho phép nhìn số liệu trong lưới (như các ô của chương trình Excel) nhưng nó không cho phép in số liệu. & tests :: Summary Statistics. thực hiện lệnh summarize để để có trung bình và độ lệch chuẩn. Muốn nhìn số liệu ra của sổ kết xuất (output) để sau đó in ra hãy sử dụng menu Data:: Describe Data :: List data. Sau đó thực hiện thống kê mô tả cho các biến số: đối với biến định lượng. Trong bộ số liệu này có các biến tuoime.

gioi. Min Max -------------+-------------------------------------------------------tuoime | 641 33. gioi (giới tính của trẻ).68725 2.329931 24. Để tóm tắt các biến số định tính này (tang_ha.7827 630 4650 Các biến số định tính bao gồm tang_ha (tăng huyết áp).35 tlsosinh | 641 3129.87046 23 43 tuoithai | 641 38.137 652.Kết quả được trình bày nhưu sau: . nghenghiep (nghề nghiệp của mẹ). nghenghiep) chúng ta sử dụng menu Statistics :: Summaries. Dev.97192 3. summarize tuoime tuoithai tlsosinh Variable | Obs Mean Std. tables & test :: Tables :: Multiple one-way tables. 113 .69 42.

Các bước thực hiện gồm: .1=tang | ha. nghenghiep để đưa các tên biến này vào hộp văn bản Categorical variables(s) .00 -> tabulation of nghenghiep 114 . ------------+----------------------------------0 | 315 49.88 100. gioi. 0=khong | tang ha | Freq.12 86.14 1 | 326 50.00 ------------+----------------------------------Total | 641 100.Bước 3: nhấp nút lệnh OK để hoàn tất .Bước 1: đưa con trỏ vào hộp văn bản categorical variable(s) . Percent Cum.12 1 | 89 13.00 ------------+----------------------------------Total | 641 100. tab1 tang_ha gioi nghenghiep -> tabulation of tang_ha tang huyet | ap thai ki | .| 1=trai. | 0=gai | Freq. ------------+----------------------------------0 | 552 86.14 49.Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào các biến tang_ha.00 -> tabulation of gioi gioi tinh | tre .86 100. Percent Cum.

00 ------------+----------------------------------Total | 641 100. Giả sử chúng ta muốn tạo nhãn sex theo quy tắc 1 =nam và 2=nữ.1=tu | do. | 3=vien chuc | Freq.13 53. tang_ha. Việc dán nhãn giá trị biến số được thực hiện qua 2 bước: tạo nhãn (define label value) và dán nhãn cho giá trị (Assign value label to variable). Percent Cum.00 5. Cửa sổ Define value label sẽ được hiện ra. Tuy nhiên việc mã hoá các giá trị của biến số khiến cho việc đọc bảng bảng tần suất của biến số danh định (như gioi và nghenghiep) bị khó khăn (nhất là cho những người không trực tiếp làm thống kê hay phải đọc lại kết quả sau một khoảng thời gian dài).nghe nghiep | me . Hướng dẫn: Việc dán nhãn cho các giá trị mã hóa là việc làm tốn công nhưng nó giúp phân biệt người làm thống kê chuyên nghiệp và người làm thống kê không chuyên nghiệp. Mặc dù tốn công nhưng lợi ích do nó đem lại vượt qua công sức bỏ ra vì vậy chúng ta cần phải thực hiện việc dán nhãn này.Tạo nhãn sex. Do đó những người làm thống kê chuyên nghiệp luôn luôn thực hiện ghi chú (dán nhãn) cho các biến số định tính. Các tóm tắt số liệu như trên là đạt yêu cầu.22 16. . nhãn nghenghiep Để tạo nhãn sử dụng menu Data :: Labels & Notes :: Define value label.35 3 | 299 46. 2=cong | nhan. các bước cụ thể như sau: -Bước 1: nhấp vào nút lệnh Define để hiện ra hộp nhập liệu Define new lable 115 . Hãy thực hiện việc dán nhãn số liệu.22 2 | 238 37. ------------+----------------------------------1 | 104 16.65 100.

Các bước cụ thể để tạo nhãn tang_ha gồm: -Bước 1: nhấp vào nút lệnh Define để hiện ra hộp nhập liệu Define new lable .Bước 8: Nhấp vào nút lệnh Add để hộp nhập liệu Add value sẽ hiện ra . Khi đó hộp nhập liệu Add Value biến mất .Bước 4: Nhập 1 vào hộp văn bản value . Khi đó hộp nhập liệu Add Value biến mất Sau đó có thể nhấp vào nút lệnh Close (của hộp thoại Define value labels) để thoát ra hay nhấp vào nút lệnh Define (của hộp thoại Define value labels) để tiếp tục tạo nhãn tang_ha.Bước 2: gõ sex vào hộp văn bản Label name .Bước 6: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value.Bước 2: gõ tang_ha vào hộp văn bản Label name .Bước 3: nhấp vào nút lệnh OK khi đó hộp nhập liệu Add value sẽ hiện ra 116 .Bước 7: Nhấp vào nhãn sex trong hộp văn bản Defien label names .Bước 3: nhấp vào nút lệnh OK khi đó hộp nhập liệu Add value sẽ hiện ra ..Bước 10: nhập nữ vào hộp văn bản Text .Bước 9: Nhập 0 vào hộp văn bản value .Bước 11: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value.Bước 5: nhập nam vào hộp văn bản Text .

Bước 8: Nhấp vào nút lệnh Add để hộp nhập liệu Add value sẽ hiện ra 117 .Bước 4: Nhập 1 vào hộp văn bản value .Cần lưu ý: tên nhãn có thể khác với tên biến (thí du như trường hợp trên ta đặt tên nhãn là sex trong khi tên biến là giới) hoặc tên nhãn có thể trùng với tên biến (thí dụ ta có thể đặt tên nhãn là tang_ha cho biến tăng ha). .Bước 7: Nhấp vào nhãn tang_ha trong hộp văn bản Define label names .Bước 6: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add Value biến mất .Bước 5: nhập huyet ap tang vào hộp văn bản Text .

- Bước 9: Nhập 0 vào hộp văn bản value - Bước 10: nhập huyet ap bt vào hộp văn bản Text - Bước 11: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add Value biến mất Để tiếp tục tạo nhãn nghenghiep ta nhấp vào nút lệnh Define (của hộp thoại Define value labels).

-Bước 1: nhấp vào nút lệnh Define để hiện ra hộp nhập liệu Define new lable - Bước 2: gõ nghenghiep vào hộp văn bản Label name - Bước 3: nhấp vào nút lệnh OK khi đó hộp nhập liệu Add value sẽ hiện ra

- Bước 4: Nhập 1 vào hộp văn bản value 118

- Bước 5: nhập tu do vào hộp văn bản Text - Bước 6: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add Value biến mất

- Bước 7: Nhấp vào nhãn nghenghiep trong hộp văn bản Define label names - Bước 8: Nhấp vào nút lệnh Add để hộp nhập liệu Add value sẽ hiện ra - Bước 9: Nhập 2 vào hộp văn bản value - Bước 10: nhập cong nhan vào hộp văn bản Text - Bước 11: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add Value biến mất

119

- Bước 12: Ở hộp Define label names vẫn tiếp tục chọn nhãn nghenghiep, nhấp vào nút lệnh Add để hộp nhập liệu Add value sẽ hiện ra - Bước 13: Nhập 3 vào hộp văn bản value - Bước 14: nhập vien chuc vào hộp văn bản Text - Bước 15: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add Value biến mất. Ta có kết quả như sau:

- Bước 16: Để hoàn tất việc tạo nhãn ta nhấn vào nút lệnh Close Dán nhãn giá trị (Assign value label) cho các biến gioi, tang_ha, và nghenghiep Sau khi dã tạo được nhãn, chúng ta hãy dán nhãn giá trị cho biến số bằng cách dùng menu Data :: Labels & Notes :: Assign value label to variable 120

Bước 2: Đưa con trỏ vào cửa sổ Variable và nhấp vào biến gioi để tên biến này xuất hiện trên 121 .Khi hộp thoại labels value – Attach value label hiện ra để dán nhãn cho mỗi biến số cần thực hiện 4 bước sau: .Bước 1: Đặt con trỏ vào hộp văn bản Variable .

Bước 7: Đưa con trỏ vào nhãn sex trong hộp văn bản Attach value label để dán nhãn sex vào tên biến sex . Để tiếp tục thực hiện tương tự để dán nhãn tang_ha cho biến tang_ha.Bước 5: Đặt con trỏ vào hộp văn bản Variable . hãy tiến hành các bước sau: 122 . Để tiếp tục thực hiện tương tự để dán nhãn nghenghiep cho biến nghenghiep.Bước 3: Đưa con trỏ vào nhãn sex trong hộp văn bản Attach value label để dán nhãn sex vào tên biến sex .Bước 4: Nhấp vào nút lệnh Submit để thực hiện việc dán nhãn.hộp văn bản Variable. . hãy tiến hành các bước sau: .Bước 6: Đưa con trỏ vào cửa sổ Variable và nhấp vào biến gioi để tên biến này xuất hiện trên hộp văn bản Variable.Bước 8: Nhấp vào nút lệnh Submit để thực hiện việc dán nhãn. .

6.Bước 12: Nhấp vào nút lệnh OK để thực hiện việc dán nhãn.Bước 9: Đặt con trỏ vào hộp văn bản Variable . trong những lần dán nhãn trước chúng ta nhấp vào nút lệnh submit để hoàn thành việc dán nhãn nhưng không đóng cửa sổ label values.. Cần lưu ý. chúng ta không cần dán nhãn tiếp tục nên chúng ta nhấp vào nút lệnh OK để đóng cửa sổ label values sau khi hoàn thành việc dán nhãn. Sau khi dán nhãn nghenghiep cho biến nghenghiep. . tables & test :: Tables :: Multiple one-way tables.Bước 10: Đưa con trỏ vào cửa sổ Variable và nhấp vào biến gioi để tên biến này xuất hiện trên hộp văn bản Variable. Hướng dẫn: Các biến số định tính đã được dán nhãn bao gồm tang_ha sex matagegp gestcat. Lập bảng phân phối tần suất cho các biến số định tính sau khi đã dán nhãn cho các biến này. Để tóm tắt các biến số định tính này (tang_ha sex matagegp gestcat) chúng ta sử dụng menu Statistics :: Summaries.Bước 11: Đưa con trỏ vào nhãn sex trong hộp văn bản Attach value label để dán nhãn sex vào tên biến sex . 123 .

Khi hộp thoại tab1 – One-way tables hiện ra. ------------+----------------------------------gai | 315 49.| 1=tang ha.88 100. Percent Cum.14 trai | 326 50.00 ------------+----------------------------------Total | 641 100. Percent Cum. Kết quả sẽ xuất hiện như sau: .12 86. | 0=gai | Freq.86 100.| 1=trai. tab1 gioi tang_ha nghenghiep -> tabulation of gioi gioi tinh | tre .14 49.12 huyet ap tang | 89 13.00 -> tabulation of tang_ha tang huyet ap | thai ki .00 --------------+----------------------------------- 124 . | 0=khong tang | ha | Freq. chúng ta tiến hành 3 bước (1) đặt con trỏ vào hộp Categorical value (2) Nhấp vào cửa sổ variable để chọn các biến số tiến hành phân tích và (3) Nhấp vào nút lệnh OK. --------------+----------------------------------huyet ap bt | 552 86.

00 7.13 53.35 vien chuc | 299 46. ta phải sử dụng menu Graphics :: Histogram Khi hộp thoại histogram hiện ra. chúng ta thực hiện các bước sau: 125 .00 ------------+----------------------------------Total | 641 100.22 16.1=tu | do. Vẽ tổ chức đồ (histogram) của biến trọng lượng sơ sinh (tlsosinh) Hướng dẫn: Để vẽ tổ chức đồ. ------------+----------------------------------tu do | 104 16.65 100.Total | 641 100. | 3=vien chuc | Freq. Percent Cum. 2=cong | nhan.22 cong nhan | 238 37.00 -> tabulation of nghenghiep nghe nghiep | me .

Nếu muốn thể hiện mật độ của phân phối. 126 . nhấp vào nút chọn Density. nếu muốn thể hiện tần suất thì nhấp vào nút chọn Frequency.Bước 1: đặt con trỏ vào hộp văn bản Variable Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn bản Variable. Mối liên hệ giữa các hàm phân phối này như sau: Tỉ lệ (Fraction) = Tần suất (Frequency) / Cỡ mẫu (N) Mật độ (Density) = Tỉ lệ (Fraction) / Độ rộng của khoảng chia (Width of bins) Kết quả tiếp theo sẽ được trình bày trong hình sau. Bước 3 – Bước 4: nhằm để xác định tổ chức đồ sẽ bắt đầu từ giá trị 600 (Lower limit of first bin) và mỗi khoảng tiếp theo (bin) có độ rộng là 300 (Width of bins) Bước 5: Cho biết tổ chức đồ sẽ ghi nhận tỉ lệ của các khoảng giá trị bằng cách nhấp vào nút chọn Fraction.

chia khoảng cho trục tung và ghi chú cho trục tung.1 • Trục tung được ghi chú là "tỉ lệ" (chứ không phải là fraction). Chúng ta cũng muốn ghi giá trị từ 600 đến 4200 và mỗi nhãn giá trị cách nhau 600 gram.15 .2 . tuy nhiên chúng ta cũng có thể thay đổi thưc hiện việc chia khoảng cho trục hoành. ghi chú cho trục hoành.3. 127 .1 Fraction .25 1000 2000 3000 trong luong so sinh (gram) 4000 5000 8.0 . Giả sử chúng ta muốn thực hiện các yêu cầu chia khoảng và ghi chú như sau: • Trục hoành phải có khoảng giá trị từ 600 đến 4800 (biên độ là 4200). Chúng ta muốn chia làm mỗi khoảng có độ lớn là 300 như vậy cần thiết phải có 14 khoảng. • Trục hoành được ghi chú là "trong luong so sinh (gram) cua 641 tre" • Trục tung có khoảng giá trị là 0 đến 0. Đồ thị này cho chúng ta thấy hình dạng của phân phối số liệu. ghi nhãn cho các giá trị và các nhãn này cách nhau 0.05 .

nhập vào ghi chú là "trong luong so sinh (gram) cua 641 tre" Bước 3: Để chia khoảng cho trục hoành. Bước 7: Nhấp vào nút lệnh OK ở cuối cửa sổ để hoàn tất 128 . nhập vào ghi chú là "Ti le" Bước 6: Để chia khoảng cho trục hoành.Các bước để thực hiện chia khoảng và ghi chú cho trục hoàng (trục X) như sau: Bước 1: Nhấp vào Tab X-axis Bước 2: Để nhập ghi chú cho trục hoành. Các bước để thực hiện chia khoảng và ghi chú cho trục hoàng (trục Y) như sau: Bước 4: Nhấp vào Tab Y-axis Bước 5: Để nhập ghi chú cho trục tung. Nguyên tắc của quy tắc này là: Số đầu thang đo (Độ rộng khoảng chia) Số cuối thang đo. nhập vào 0(0. Ở hộp văn bản Title. Ở hộp văn bản Title.1)0. Nguyên tắc của quy tắc này là: Số đầu thang đo (Độ rộng khoảng chia) Số cuối thang đo. ở hộp văn bản Rule. ở hộp văn bản Rule. nhập vào 600(600)4800.3.

chúng ta tiến hành các bước sau: Bước 1: đặt con trỏ vào hộp văn bản Variable Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn 129 .2 . Chúng ta cũng có thể vẽ đồ thị xuất (p-p plot) để xem biến số tlsosinh có tuân theo phân phối bình thường Hướng dẫn: Sử dụng menu Graph – Distributional graph .1 T leä æ .3 1200 1800 2400 3000 3600 4200 4800 Troï g löôï g sô sinh (gram) c uû 641 tre û n n a 9.0 600 .normal quantile plot Khi cửa sổ qnorm hiện ra.

bản Variable. Bước 3: Đánh dấu vào hộp kiểm: Show grid at percentiles: Bước 4: Nhấp vào nút lệnh OK Kết quả như sau: Nếu phân phối bình thường thì đường cong phân phối (đường nét đậm) sẽ trùng với đường chéo 130 .

15 0 . .5 đường cong phân phối sẽ nằm ở bên phải đường chéo. phân phối của trọng sơ sinh bị lệch trái và ở khoảng trọng lượng thấp. phân phối trọng lượng sơ sinh tăng chậm hơn phân phối chuẩn.05 Frac tion .1 1000 2000 3000 tro ng luong so sinh (gram) 4000 5000 10. Ở khoảng trọng lượng cao trọng lương sơ sinh tăng hơi nhanh hơn phân phối chuẩn. Như vậy.5 đường cong phân phối nằm ở bên trái đường chéo. Nếu độ dốc của đường cong phân phối lớn hơn một (1) có nghĩa là phân phối thực nghiệm tăng chậm hơn phân phối bình thường.của hình chữ nhật (đường thẳng mảnh). Hãy vẽ biểu đồ hình thanh (bar chart) của nhóm nghề nghiệp Hướng dẫn: Trước tiên sử dụng menu Graphics :: Easy graphs :: Bar chart Để hiện ra cửa sổ graph bar – Chúng ta hãy để ý 2 thẻ Main và thẻ Over là 2 thẻ nằm bên trái của cửa sổ. 131 . Nếu phân phối lệch âm thì ở xác suất 0. Nếu phân phối lệch dương thì ở xác suất 0. nếu đường cong phân phối nhỏ hơn một (1) có nghĩa là đường cong thực nghiệm tăng nhanh hơn phân phối bình thường.

Ở thẻ Main tiến hành các bước sau: Bước 1: Chọn mục count nonmissing trong hộp Combo Statistic Bước 2: Đặt con trỏ vào hộp văn bản variable(s) Bước 3: Đưa con trỏ chuột vào cửa sổ variable và nhấp vào biến maso để biến này xuất hiện trên hộp văn bản Variable(s) Bước 4: Nhấp vào thẻ (tab) Over để hiện thẻ này ra

132

Bước 5: Khi đã ở thẻ Over, đưa con trỏ chuột vào hộp văn bản Variable Bước 6: Đưa con trỏ chuột vào cửa sổ Variables và nhấp vào tên biến nghenghiep để tên biến này xuất hiện trên hộp văn bản Variable. Bước 7: Nhấp vào nút lệnh OK để xem biểu đồ hình thanh được tạo ra.

133

11. Hãy vẽ biểu đồ hình thanh (bar chart) trung bình trọng lượng sơ sinh của các đứa trẻ con của những bà mẹ có nghề nghiệp khác nhau. Hướng dẫn: Trước tiên sử dụng menu Graphics :: Easy graphs :: Bar chart

Để hiện ra cửa sổ graph bar – Chúng ta hãy để ý 2 thẻ Main và thẻ Over là 2 thẻ nằm bên trái của cửa sổ.

Ở thẻ Main tiến hành các bước sau: Bước 1: Chọn mục mean trong hộp Combo Statistic Bước 2: Đặt con trỏ vào hộp văn bản variable(s) 134

135 .Bước 3: Đưa con trỏ chuột vào cửa sổ variable và nhấp vào biến tlsosinh (trọng lượng sơ sinh) để biến này xuất hiện trên hộp văn bản Variable(s) Bước 4: Nhấp vào thẻ (tab) Over để hiện thẻ này ra Bước 5: Khi đã ở thẻ Over. đưa con trỏ chuột vào hộp văn bản Variable Bước 6: Đưa con trỏ chuột vào cửa sổ Variables và nhấp vào tên biến nghenghiep để tên biến này xuất hiện trên hộp văn bản Variable. Bước 7: Nhấp vào nút lệnh OK để xem biểu đồ hình thanh được tạo ra.

12. Bước 4: Nhấp vào nút lệnh OK Chúng ta sẽ có được biểu đồ hình bánh như sau: 136 . chúng ta tiếp tục các bước sau: Bước 1: Đánh dấu kiểm (v) vào hộp kiểm (check box) Slices are distinct values of variable Bước 2: Đặt con trỏ vào hộp văn bản Slices are distinct values of variable ở dưới hộp kiểm Bước 3: Đưa con trỏ chuột vào cửa sổ variable và nhấp vào biến nghenghiep (nghề nghiệp mẹ) để biến này xuất hiện trên hộp văn bản Slices are distinct values of variable. Hãy vẽ biểu đồ hình bánh (Pie chart) phân phối biến số nghề nghiệp mẹ (nghenghiep). Hướng dẫn: Trước tiên sử dụng menu Graphics :: Pie Chart Để thực hiện biểu đồ hình bánh.

35 và 40. 0 30 29-30 1 34-35 2 39-40 3 Cách thực hiện việc tạo biến mới được thực hiện với menu Create or Change variables :: Create new variable Sau khi cửa sổ generate .13. Điều này có thể thực hiện bằng cách tạo biến mới với hàm irecode. Hãy tạo biến mới nhomtuoi. biến này có giá trị 0 tương ứng với tuổi của mẹ từ thấp nhất đến 29 1 tưong ứng với tuổi mẹ từ 30 đến 34 2 tưong ứng với tuổi mẹ từ 35 đến 39 3 tưong ứng với tuổi mẹ từ 40 trở lên Điều này có nghĩa là chúng ta chia tuổi mẹ làm 4 nhóm với 3 điểm chia là 30.Generate a new variable thực hiện việc tạo biến mới với các bước sau: 137 .

3 là 40+) 14..29.39) Bước 3: Nhấp vào nút lệnh OK để hoàn tất Sau khi tạo ra biến mới nhomtuoi. (0 là dưới 30. 1 là 30 den 34. 2 là 35-39. Điều này có thể thực hiện bằng cách tạo biến mới và sử dụng biểu thức boolean (biểu thức thể hiện một mệnh đề có giá trị là đúng hay sai) Việc thực hiện cụ thể bao gồm việc tạo biến mới được thực hiện với menu Create or Change variables :: Create new variable 138 .34. biến này có giá trị 1 tương ứng với tuổi thai <37 0 tưong ứng với tuổi thai >=37 tuần Yêu cầu có nghĩa là chúng ta cần tạo ra một biến nhị giá với 2 giá trị 0 và 1. Hãy tạo biến mới sinh non. chúng ta nên thực hiện thêm 2 bước: tạo nhãn (define label value) và dán nhãn giá trị cho biến số (Assign value label to variable) như được trình bày ở bưới 5.Bước 1: Nhập tên biến mới (nhomtuoi) vào hộp văn bản Generate variable Bướic 2: Nhập công thức tạo biến mới irecode(tuoime.

khi đó hộp thoại "Save Stata Data File" sẽ hiện ra. 0 là không sinh non) 15. Gõ tên mới vào hộp File Name (thí dụ nếu chúng ta muốn đặt tên tập tin là ivf_v2.Generate a new variable thực hiện việc tạo biến mới với các bước sau: Bước 1: Nhập tên biến mới (sinhnon) vào hộp văn bản Generate variable Bướic 2: Nhập công thức tạo biến mới tuoithai<37 Bước 3: Nhấp vào nút lệnh OK để hoàn tất Sau khi tạo ra biến mới sinhnon. Nếu đồng ý chúng ta hãy nhấp vào nút OK để đồng ý.Sau khi cửa sổ generate . Lưu lại số liệu Hướng dẫn: Để lưu số liệu chúng ta có thể sử dụng menu File :: Save (hay Ctrl-S) hoặc nhấn vào nút save file (vị trí thứ hai của thanh công cụ).dta thì chúng ta gõ vào hộp văn bản File name: ivf_v2. chúng ta nên thực hiện thêm 2 bước: tạo nhãn (define label value) và dán nhãn giá trị cho biến số (Assign value label to variable) như được trình bày ở bưới 5. Một hộp thoại sẽ bật lên và hỏi chúng ta có muốn chép chồng vào tập tin số liệu hay không. (1 là sinh non.dta) 139 . chúng ta nên nhấp vào nút Cancel và lưu số liệu với tên mới sử dụng menu File :: Save As. Nếu chúng ta không muốn thay đổi tập tin số liệu cũ.

Nhấp vào ô đóng nằm ở phía trên phải của cửa sổ Stata Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng chưa được lưu vào đĩa thì khi chúng nhấp vào ô đóng. Nếu chúng ta muốn xem lại các kết quả phân tích đã được thực hiện chúng ta có thể xem lại tập tin log. Nếu chúng ta đồng ý bằng cách nhấp vào nút lệnh Yes thì Stata sẽ thoát. Nếu chúng ta muốn lưu lại số liệu hãy sử dụng lệnh save. máy tính sẽ hỏi chúng ta rằng chúng ta có muốn thoát mà không lưu lại số liệu hay không. máy tính sẽ không đồng ý cho chúng ta thoát và sẽ thông báo “no.nhấp nút lệnh Save để hoàn tất. Hãy thoát khỏi chương trình Stata Hướng dẫn: Để thoát khỏi Stata/SE 8. 16. Trong trường hợp này nếu chúng muốn thoát mà không lưu lại số liệu thì chúng ta hãy gõ exit.Gõ lệnh exit trong cửa sổ Stata Command. clear. data in memory would be lost”.0 for Windows chúng ta có thể thực hiện một trong 2 việc sau: . . Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng chưa được lưu vào đĩa thì khi chúng gõ exit. Cách xem lại tập tin log gồm các bước sau: 140 . 17. nếu không (nhấp nút lệnh No) thì chúng ta lại trở lại Stata để chúng ta có thể lưu lại số liệu.

chọn thưmục chứa tập tin log trong hộp thoại Log gin Bước 4: Chọn tập tin log cần xem lại (thí dụ tập tin pt_ivf.smcl Bước 5: Nhấp vào nút lệnh Open để đóng cửa sổ Choose file Name và trở về hộp thoại Choose file to view Bước 6: Nhấp vào nút lệnh OK để xem tập tin log 141 .Bước 1: Vào menu File:: Log :: View Bước 2: Khi hiện ra hộp thoại Choose file to View. nhấp vào nút lệnh Browse. khi đó cửa sổ Choose file Name sẽ hiện ra Bước 3: Trên cửa sổ Choose file Name.

142 .

Độ tự do của kiểm định t: df = n1 + n2 .2 . Hai loại kiểm định này có chung nguyên lí nhưng khác nhau trong cách tính toán độ tự do (của kiểm định t) và cách tính sai số chuẩn. Có hai loại kiểm định t không bắt cặp (khi so sánh trung bình của 2 nhóm độc lập). Thông thường nếu p <0.Các giá trị của biến số của cả 2 dân số có phân phối bình thường Nếu chúng ta kí hiệu: x1 : giá trị trung bình ở nhóm 1 x2 : giá trị trung bình ở nhóm 2 n1 : cỡ mẫu của nhóm 1 n2 : cỡ mẫu của nhóm 2 2 s1 : phương sai ở nhóm 1 2 s2 : phương sai ở nhóm 2 143 .Các giá trị của biến số của cả 2 dân số có phân phối bình thường .2) độ tự do và tính được xác suất p. Kiểm định t có giả định 2 phương sai bằng nhau và kiểm định t không có giả định phương sai bằng nhau.Ðộ lệch chuẩn ở 2 nhóm dân số là bằng nhau.Thống kê phân tích biến số định lượng với Stata Sơ lược lí thuyết về so sánh 2 trung bình Kiểm định t dùng để so sánh 2 trung bình của của biến số định lương có phân phối bình thường. người ta tra bảng phân phối t với (n1 +n1 . Nếu chúng ta kí hiệu: x1 : giá trị trung bình ở nhóm 1 x2 : giá trị trung bình ở nhóm 2 n1 : cỡ mẫu của nhóm 1 n2 : cỡ mẫu của nhóm 2 2 s1 : phương sai ở nhóm 1 2 s2 : phương sai ở nhóm 2 Chúng ta có thể xác định độ tự do. .Sai số chuẩn: se = s p 1 / n1 +1 / n2 với sp = 2 (n1 −1) s12 + (n2 −1) s2 (n1 −1) + (n2 −1) . sai số chuẩn và giá trị của thống kê t theo công thức sau: . . Kiểm định t gồm có (a) Kiểm định t bắt cặp để so sánh trung bình trước và sau khi can thiệp trên một nhóm và (b) kiểm định t không bắt cặp để so sánh trung bình của 2 nhóm độc lập.Giá trị thống kê t: t = x1 − x2 x1 − x2 = se s p 1 / n1 + 1 / n2 Sau khi tính được giá trị thống kê t.05 người ta bác bỏ giả thuyết H0. Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung bình của 2 nhóm độc lập và đòi hỏi 2 giả định. Kiểm định t không bắt cặp không có giả định 2 phương sai bằng nhau Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung bình của 2 nhóm độc lập và chỉ đòi hỏi 1 giả định.

. Kiểm định t bắt cặp Giả sử để so sánh hiệu quả của thuốc A và thuốc B trong cải thiện thể tích thở ra gắng sức trong 1 giây đầu tiên (FEV1) người ta cho các bệnh nhân tham gia nghiên cứu dùng thuốc A (hay thuốc B) trong một thời gian và cuối thời gian này đo lường FEV1 của bệnh nhân (gọi là FEV1A). sai số chuẩn và giá trị của thống kê t theo công thức sau: . Và nếu không có sự khác biệt về hiệu quả của 2 loại thuốc. Kiểm định phi tham số Nếu phân phối không phải là bình thường (thí dụ như bị lệch dương). Khi chúng ta cần so sánh trung bình của nhiều nhóm. Thông thường nếu p <0.Trong nghiên cứu này có 2 biến số đo lường trên cùng dân số: FEV1A và FEV1B . f . đó là như không thể ước lượng khoảng tin cậy 95% hiệu số của trung bình giữa 2 nhóm.05 người ta bác bỏ giả thuyết H0.Các giá trị của biến số FEV1A và FEV1B là của cùng một bệnh nhân nên hiệu số (FEV1A FEV1B) cũng là biến số của bệnh nhân đó. . Sau đó cho lại đổi cho bệnh nhân dùng thuốc B (hay thuốc A) trong một khoảng thời gian và cuối thời gian này lại đo lường FEV1 của bệnh nhân (gọi là FEV1B).FEV1B)=0 . Tóm lại kiểm định t bắt cặp là kiểm định được sử dụng khi thiết kế nghiên cứu cho một đối tượng (hay 2 đối tượng rất giống nhau) được thử nghiệm 2 loại thuốc khác nhau. Chúng ta lưu ý các đặc điểm sau khi phân tích thống kê cho các nghiên cứu có cùng loại thiết kế này. Test ANOVA (phân tích phương sai) được xem như là sự tổng quát hóa của test t (test t dùng cho 2 nhóm và test ANOVA dùng cho 2 hay nhiều hơn các nhóm). Kiểm định phi tham số có ưu điểm là không đòi hỏi giả định về phân phối của biến số định lượng nhưng có khuyết điểm là không thể ước lượng được tham số.Khi đó kiểm định so sánh hiệu quả của thuốc A và thuốc B cũng  kiểm định so sánh giá trị trung bình của FEV1A và FEV1B  kiểm định hiệu số (FEV1A . Phương pháp thích hợp để được dùng cho trường hợp này được gọi là test ANOVA.Chúng ta có thể xác định độ tự do. Ðiều kiện để test ANOVA hợp lệ 144 . =   4 4 s1 s2   + 2  n12 (n1 − 1) n2 (n2 − 1)    . Sơ lược lí thuyết về so sánh các trung bình của 3 nhóm.Sai số chuẩn: se = 2 s12 s2 + n1 n2 .Độ tự do của kiểm định t (theo công thức của Satterthwaite): 2 2    s12 s 2    +   n1 n2     d.Phép kiểm định này được gọi là kiểm định t bắt cặp. trung bình của hiệu số này bằng 0. người ta tra bảng phân phối t với độ tự do phù hợp (như tính toán ở trên) và tính được xác suất p. Thiết kế nghiên cứu này được gọi là thử nghiệm lâm sàng bắt chéo.Giá trị thống kê t: t= x1 − x2 x −x = 1 2 2 se s12 s2 + n1 n2 Sau khi tính được giá trị thống kê t. Kiểm định t bắt cặp là trường hợp đặc biệt của kiểm định t một mẫu. có thể sử dụng phép biến đổi (thường là biến đổi log) để đưa phân phối về bình thường hoặc dùng test phi tham số. chúng ta không thể dùng nhiều kiểm định t để so sánh từng cặp của nhóm vì như vậy chúng ta sẽ làm tăng nguy cơ của sai lầm loại 1.

thống kê F chính xác bằng bình phương của thống kê t và 2 phương pháp cho ra cùng một mức ý nghĩa. Trong trường hợp chỉ có 2 nhóm. Giả sử chúng ta có thông tin về nghiên cứu như sau: MRC Working Party on Children Conceived by In Vitro Fertilisation.là các giá trị có phân phối bình thường và phương sai của các nhóm xấp xỉ nhau. 145 . Giải thuật lựa chọn kiểm định phù hợp cho biến số phụ thuộc là biến định lượng Thực hành 1. Cần nhớ nhấp vào nút công cụ Stata Log nằm vị trí thứ tư từ trái ở trên thanh công cụ nếu muốn lưu trữ lại toàn bộ kết quả phân tích sẽ được thực hiện. mục tiêu và thiết kế nghiên cứu. nằm ở vị trí thứ hai của thanh công cụ. Khi đó hộp thoại Use New Data sẽ hiện ra. đặc biệt là số liệu (biến số và số các bản ghi).Mở tập tin ivf_v2.dta bằng cách sử dụng menu File :: Open hay nhấp vào nút công cụ Open file (Use). nhà nghiên cứu (hay chuyên viên thống kê) cần đọc lại đề cương nghiên cứu. Sau khi mở tập tin. 2. nhấp đúp vào tên tập tin này để mở tập tin (hoặc nhấp vào tập tin này để tên tập tin rơi vào hộp File Name rồi sau đó nhấp vào nút lệnh Open để mở tập tin). ến BPT: định lượng Đúng BPT: thứ tự Đúng BPT: danh định Đúng Kiểm định χ2 Không đồng nhất BPT: phân phối bình Phân phối bình thường thường Đúng Kiểm định phi tham số ≤ 2 nhóm Đúng Trên 3 nhóm Phương sai đồng nhất Phương sai đồng nhất Đồng nhất Không đồng nhất Đồng nhất Kiểm định t Kiểm định t PS không đồng nhất ANOVA Hình 1. Trong kết xuất của test ANOVA. chúng ta thấy có sự hiện diện của thống kê F (thống kê Fisher).dta. Births in Great Britain resulting from assisted conception. Nhấp vào mũi tên bên phải hộp Look in để chọn ổ đĩa thích hợp và dùng con chuột nhấp vào các thư mục để chọn thư mục có chứa số liệu. BMJ 1990. 1978-87. cần có thông tin gì trước khi phân tích số liệu: Trước khi phân tích số liệu. Mở tập tin ivf_v2. Chúng ta hãy khởi động Stata. Khi gập tập tin số liệu ivf_v2.300:1229-33.

One or more major congenital malformations were detected during the first week of life in 35 (2. due to the high frequency of multiple births. 0=no gestational age in weeks sex of baby 1=male. 0: đủ tháng 146 . 3=40+) gestational category (1= <37 Sinh non (1: dưới 37 tuần. CONCLUSIONS--Multiple pregnancies often result from assisted conception and are the main determinant of the outcome of the pregnancies and of the health of the children at the time of birth. gestational age at birth. This figure is comparable with population based estimates of the prevalence of congenital malformations. RESULTS--The ratio of male to female births was 1. but not entirely. stillbirth rate. 24% (278) of 1015 deliveries were preterm compared with 6% in England and Wales. Occupation of mother (1= self Nghề nghiệp mẹ (1= nghề tự do. and infant mortality were twice the national average. OBJECTIVE--To describe the characteristics at birth of children conceived by in vitro fertilisation (IVF) or by gamete intrafallopian transfer (GIFT) and to assess whether they differ from those of children conceived naturally. The health of the children was not evaluated beyond the perinatal period. which resulted in 1581 liveborn or stillborn children. multiplicity.07:1. 32% (406) of 1269 babies weighed less than 2500 g compared with 7% in England and Wales. Tập tin này bao gồm 641 đứa trẻ và gồm 8 biến số có chi tiết như sau: STT Tên biến 1 2 3 4 5 6 7 8 9 Maso tuoime tang_ha tuoithai gioi tlsosinh Giải thích tiếng Anh Giải thích tiếng Việt identity number of mother and Mã số baby maternal age in years hypertension 1=yes.300:1229-1233). perinatal and infant mortality. PMID: 2354290 [PubMed . 1978-87. Nghiên cứu này đã được báo cáo trong tạp chí BMJ (1990. 2=blue collar 2=công nhân. these excesses being due to the high frequency of multiple births.2=35-39. MAIN OUTCOME MEASURES--Sex ratio. 3=viên chức) worker. The types of malformations reported varied. Tuổi của mẹ phân nhóm (0=<30.Births in Great Britain resulting from assisted conception. SUBJECTS--1267 Pregnancies conceived by IVF or GIFT. 2=35-39. The high percentage of preterm deliveries and of low birthweight babies was largely. and Wales from 1978 to 1987. SETTING-England. MRC Working Party on Children Conceived by In Vitro Fertilisation. Congenital malformations are comparatively rare. perinatal mortality. nghenghiep employed.3=40+) 1=30-34. DESIGN--Survey of children resulting from IVF or GIFT and comparison of their characteristics at birth with national statistics. 23% (249/1092) of the deliveries were multiple births compared with 1% for natural conceptions. 0=female birth weight in gms Tuổi của mẹ (năm tuổi) Tăng huyết áp thai kì 1= có 0 = không Tuổi thai (tính theo tuần) Giới tính của trẻ 1=trai 0=gái Trọng lượng sinh tính theo grams. Scotland. and the number of each specific type was small.indexed for MEDLINE] Số liệu này bao gồm những biến số về những đứa trẻ sinh một của những bà mẹ được thụ thai trong ống nghiệm (in-vitro fertilisation). 3=white collar worker) nhomtuoi sinhnon maternal age groups(0=<30. 1=30-34. so larger numbers of children need to be studied before firm conclusions can be drawn. and prevalence of congenital malformations. The pooling of data from different countries is recommended.2%) of 1581 babies. The rate of stillbirth. birth weight.

Danh định .Nhị giá .Phụ thuộc 4.Danh định . Thực hiện lại các bước thao tác số liệu và thống kê mô tả như ở chương trước 5. chúng ta sử dụng menu Statistics :: Summaries.Định lượng .Độc lập .Độc lập . 0=37+tuần) – trên 37 tuần thai) Việc nhận biết số liệu cũng có thể thực hiện bằng cách sử dụng lệnh describe (nhấn phím F3).Thứ tự .Độc lập . biến nào là biến số phụ thuộc.Định lượng .Độc lập .Phụ thuộc .Nhị giá . Hãy so sánh trọng lượng của trẻ nam và trẻ nữ Hướng dẫn: Theo giải thuật được trình bày ở đầu chương. 3.Nhị giá .Nhị giá .Thứ tự .Thứ tự .Độc lập .Gây nhiễu . Kiểm định 1: So sánh 2 phương sai Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm.Danh định . biến số này là gây nhiễu. tables.Độc lập . Như vậy trong các biến số kể trên. & tests :: Classical tests of hypothesis :: Group variance comparison test.Gây nhiễu .Gây nhiễu .Định lượng .Nhị giá .Danh định .Độc lập .Định lượng .Danh định .Thứ tự .Gây nhiễu .Danh định .Gây nhiễu . Nếu phương sai 2 nhóm không tương đương. Điều này đặc biệt có ích nếu các biến số và giá trị của biến số đã được dán nhãn đầy đủ.Định lượng Quan hệ .Phụ thuộc . Nếu phương sai 2 nhóm tương đương chúng ta có thể sử dụng ttest thông thường (t-test phương sai đồng nhất). chúng ta phải sử dụng t-test phương sai không đồng nhất hay kiểm định phi tham số. biến nào là biến độc lập.Nhị giá .Phụ thuộc .Độc lập .Phụ thuộc .Thứ tự . để so sánh trọng lượng (biến phụ thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem phương sai của 2 nhóm có bằng nhau hay không.Định lượng .Gây nhiễu .Nhị giá .Thứ tự . Biến số tuoime tang_ha tuoithai gioi tlsosinh nghenghiep nhomtuoi sinhnon Thang đo biến số . Trước khi phân tích số liệu cần thực hiện thao tác số liệu và các thống kê mô tả.Gây nhiễu .Định lượng . Trong nghiên cứu này.tuần. 147 .Thứ tự . tác giả muốn xác định tác động của tăng huyết áp của mẹ và tuổi thai lên trọng lượng thai. Hướng dẫn: Bảng số liệu viewivf này có chứa những biến số khác nhau.Phụ thuộc .Danh định .Định lượng .Danh định . Trong bảng sau hãy xác định tính chất của từng biến số bằng cách khoanh tròn vào lựa chọn thích hợp.Thứ tự .Phụ thuộc .Nhị giá .Phụ thuộc .Gây nhiễu .

by(gioi) 148 . Kết quả được trình bày như sau: . sdtest tlsosinh. Bước 5: Nhấp vào nút lệnh OK.Sau khi cửa sổ sdtest – Two sample test of variance hiện ra tiến hành 5 bước sau: Bước 1: đặt con trỏ vào hộp văn bản Variable name Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn bản Variable name Bước 3: đặt con trỏ vào hộp văn bản Group name variable Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi để đưa biến này vào hộp văn bản Group name variable.

Interval] ---------+-------------------------------------------------------------------gai | 315 3044.325) upper tail = F_U = 1/F_obs = Ha: sd(gai) < sd(trai) P < F_obs = 0. Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm.Variance ratio test -----------------------------------------------------------------------------Group | Obs Mean Std.7827 3078.78336 652.891 0.1518 Ha: sd(gai) != sd(trai) P < F_L + P > F_U = 0. tables.434 3113.767 -----------------------------------------------------------------------------Ho: sd(gai) = sd(trai) F(314. Vì vậy chúng ta có thể sử dụng kiểm định t phương sai đồng nhát như ở bước 2. & tests :: Classical tests of hypothesis :: Group mean comparison test 149 . Err.325) observed = F_obs = F(314.137 25. [95% Conf.88521 665.819 trai | 326 3211.507 3179.3032 0.715 3283.843 ---------+-------------------------------------------------------------------combined | 641 3129.421 628.127 35.3032 chúng ta không thể bác bỏ giả thuyết Ho: độ lệch chuẩn của nhóm trẻ trai bằng độ lệch chuẩn của nhóm trẻ gái.279 36.6603 2974.8482 Với giá trị p = 0.122 Ha: sd(gai) > sd(trai) P > F_obs = 0.325) lower tail = F_L = F_obs = F(314. chúng ta sử dụng menu Statistics :: Summaries.891 1. Dev.9798 3138. Kiểm định 2: So sánh 2 trung bình sử dụng t-test phương sai đồng nhất. Std.

28 gram. của trẻ gái là 3044.127 35.63249 -----------------------------------------------------------------------------Degrees of freedom: 639 Ho: mean(gai) .0006 Ha: diff != 0 t = -3. ttest tlsosinh.2654 và mức ý nghĩa (p-value) là 0.819 trai | 326 3211.2654 P > t = 0.group mean comparision tests hiển ra. 6.9798 3138.767 ---------+-------------------------------------------------------------------diff | -167.279 36.78336 652. Nếu phương sai 2 nhóm không tương đương. . Err. [95% Conf.2654 P > |t| = 0.6718 -66.6603 2974. Std.137 25. chúng ta phải sử dụng t-test phương sai không đồng nhất hay kiểm định phi tham số. Nếu phương sai 2 nhóm tương đương chúng ta có thể sử dụng t-test thông thường (t-test phương sai đồng nhất).mean(trai) = diff = 0 Ha: diff < 0 t = -3.843 ---------+-------------------------------------------------------------------combined | 641 3129.0012 chúng ta kết luận có sự khác biệt về trọng lượng sơ sinh giữa trẻ trai và trẻ gái (p=0. 150 . Hãy so sánh trọng lượng sơ sinh của con bà mẹ tăng huyết áp và bà mẹ không tăng huyết áp.Cửa sổ ttest.1522 51.507 3179. để so sánh trọng lượng (biến phụ thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem phương sai của 2 nhóm mẹ tăng huyết áp và mẹ không tăng huyết áp có bằng nhau hay không.0012). by(gioi) Two-sample t test with equal variances -----------------------------------------------------------------------------Group | Obs Mean Std. Tiến hành các bước sau: Bước 1: đặt con trỏ vào hộp văn bản Variable name Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn bản Variable name Bước 3: đặt con trỏ vào hộp văn bản Group name variable Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi để đưa biến này vào hộp văn bản Group name variable.18935 -267. Dev. Interval] ---------+-------------------------------------------------------------------gai | 315 3044.13 gram. Với giá trị t = 3.2654 P < t = 0.9994 Trả lời: Trẻ trai có trọng lượng sơ sinh trung bình là 3211. Hướng dẫn: Theo giải thuật được trình bày ở đầu chương.88521 665.0012 Ha: diff > 0 t = -3.715 3283.421 628.434 3113.7827 3078. Bước 5: Nhấp vào nút lệnh OK.

Kiểm định 2A: so sánh 2 trung bình t-test phương sai không đồng nhất Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm.Kiểm định 1: So sánh 2 phương sai Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm. Sau khi cửa sổ sdtest .908 2913.0962 3141. biến tang_ha vào hộp văn bản Group name variable của cửa sổ ttest. Cần lưu ý đánh dấu vào hộp kiểm Unequal variances rồi nhấp vào nút OK. & tests :: Classical tests of hypothesis :: Group mean comparison test (xem lại câu 4) và biến tlsosinh vào hộp văn bản Variable name. tables.829 Ha: sd(1) > sd(2) P > F_obs = 1. sdtest tlsosinh. Err.88) observed = F_obs = F(551.group mean comparison.78336 652.88) upper tail = F_U = 1/F_obs = Ha: sd(1) < sd(2) P < F_obs = 0.137 25.547 0.17222 812.0000 Ha: sd(1) != sd(2) P < F_L + P > F_U = 0. Std. & tests :: Classical tests of hypothesis :: Group variance comparison test.786 Ha tang | 89 2742.531 25. chúng ta sử dụng menu Statistics :: Summaries.406 ---------+-------------------------------------------------------------------combined | 641 3129.0000 Kết quả cho thấy giá trị p = 0.276 3241. Interval] ---------+-------------------------------------------------------------------Ha bt | 552 3191. tables.7827 3078. Vì vậy chúng ta không thể dùng t-test phương sai đồng nhất mà phải sử dụng t-test phương sai không đồng nhất (kiểm định 2A) hay kiểm định phi tham số (kiểm định 2B). by( tang_ha ) Variance ratio test -----------------------------------------------------------------------------Group | Obs Mean Std.Group variance comparison test chúng ta đưa biến tlsosinh vào hộp văn bản Variable name và biến tang_ha vào hộp văn bản Group name variable rồi nhấp vào nút lệnh OK.507 3179. chúng ta sử dụng menu Statistics :: Summaries. Kết quả được trình bày như sau: . Dev.9471 2570.157 86.0003 0.88) lower tail = F_L = F_obs = F(551.0003 có nghĩa là phương sai của trọng lượng lúc sinh của 2 nhóm không đồng nhất.58435 601.547 1. [95% Conf. 151 .767 -----------------------------------------------------------------------------Ho: sd(huyet ap) = sd(huyet ap) F(551.

Interval] ---------+-------------------------------------------------------------------ha bt | 552 3191.767 ---------+-------------------------------------------------------------------diff | 449.0000 Ha: diff > 0 t = 4.17222 812.9991 P > t = 0.78336 652.Kết quả trình bày như sau: . Kiểm định 2B: so sánh 2 trung bình với phép kiểm phi tham số Mann-Whitney Thực hiện kiểm định phi tham số tổng sắp hạng Mann-Whitney (Mann-Whitney rank sum test) bằng dụng menu Statistics :: Summaries. [95% Conf.908 2913.7827 3078.9471 2570.0001.3735 89.0962 3141.9991 P < t = 1. 152 .157 86.137 25.9991 P > |t| = 0. Dev.276 3241.786 ha tang | 89 2742.0000 Ha: diff != 0 t = 4. & tests :: Non-parametric test of hypotheses :: Mann-Whitney two-sample ranksum test. tables.531 25.mean(ha tang) = diff = 0 Ha: diff < 0 t = 4.1197 627.0000 Trả lời: Con bà mẹ bị tăng huyết áp có trọng lượng sơ sinh trung bình là 2742 gram.069 Ho: mean(ha bt) .507 3179. ở con của bà mẹ không tăng huyết áp là 3192 gram.58435 601. by(tang_ha) unequal Two-sample t test with unequal variances -----------------------------------------------------------------------------Group | Obs Mean Std. ttest tlsosinh.6273 -----------------------------------------------------------------------------Satterthwaite's degrees of freedom: 104.88999 271. Sự khác biệt này có ý nghĩa thống kê với p<0. Std. Err.406 ---------+-------------------------------------------------------------------combined | 641 3129.

Sau đó cửa sổ ranksum . Kết quả như sau: . ranksum tlsosinh. by( tang_ha ) Two-sample Wilcoxon rank-sum (Mann-Whitney) test tang_ha | obs rank sum expected -------------+--------------------------------ha bt | 552 185203 177192 ha tang | 89 20558 28569 -------------+--------------------------------- 153 . Bước 5: Nhấp vào nút lệnh OK.Mann-Whitney two-sample statistic hiện ra. Tiến hành các bước sau: Bước 1: đặt con trỏ vào hộp văn bản Variable name Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn bản Variable name Bước 3: đặt con trỏ vào hộp văn bản Group name variable Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tang_ha để đưa biến này vào hộp văn bản Group name variable.

22 Ho: tlsosinh(tang_ha==ha bt) = tlsosinh(tang_ha==ha tang) z = 4.78 ---------2628203.0000 7. Hướng dẫn: Để so sánh trung bình của một biến định lượng ở nhiều nhóm. Bước 3: đặt con trỏ vào hộp văn bản Factor Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến nghenghiep để đưa biến này vào hộp văn bản Factor.941 Prob > |z| = 0.combined | unadjusted variance adjustment for ties adjusted variance 641 205761 205761 2628348. ta tiến hành các bước sau: Bước 1: đặt con trỏ vào hộp văn bản Response variable Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn bản Response Variable. Bước 5: Đánh dấu vào hộp kiểm Produce summary table để thể hiện thống kê mô tả trọng lượng sơ sinh trung bình ở các nhóm nghề nghiệp 154 . Hãy so sánh trọng lượng sơ sinh của trẻ sinh ra từ con của các nhóm nghề nghiệp khác nhau của người mẹ. Sử dụng menu Statistics :: ANOVA/MANOVA :: oneway analysis of variance Do chúng ta muốn phân tích tác động của yếu tố nghề nghiệp mẹ (nghenghiep) lên trọng lượng sinh của trẻ (tlsosinh) khi cửa sổ oneway hiện lên.00 -144. chúng ta phải sử dụng phương pháp phân tích ANOVA một chiều.

1373 652. của bà mẹ với nghề nghiệp là 3118 gram. 155 .19649 299 ------------+-----------------------------------Total | 3129.1=tu | do. Chúng ta biết kiểm định ANOVA có thể sử dụng để kiểm định sự khác biệt về trung bình của nhiều nhóm. Ta đọc kết quả của bảng ANOVA.875 -----------------------------------------------------------------------Total 272720122 640 426125. Dev. Analysis of Variance Source SS df MS F Prob > F -----------------------------------------------------------------------Between groups 3381483.4135 643.973.0558 Prob>chi2 = 0.69338 238 vien chuc | 3189. | (gram) 3=vien chuc | Mean Std. nhưng trước tiên chúng ta hãy kiểm tra các điều kiện của phân tích ANOVA là (a) biến số phụ thuộc có phân phối bình thường . trên cùng thống kê mô tả của số liệu về trọng lượng sơ sinh theo nhóm tuổi của mẹ: nghe nghiep | me .973 Vì vậy trong trường hợp này kiểm định ANOVA là có giá trị. ------------+-----------------------------------tu do | 2981. của bà mẹ với nghề nghiệp viên chức là là 3190 gram.56 2 1690741.19 Bartlett's test for equal variances: chi2(2) = 0.78265 641 Con bà mẹ nghề nghiệp tự do có trọng lượng trung bình là 2981 gram. Freq.76283 104 cong nhan | 3118.0187 Within groups 269338638 638 422160.Bước 6: Đánh dấu vào hộp kiểm Scheffe để có kiểm định so sánh trọng lượng trung bình ở từng cặp đôi nghề nghiệp khác nhau Bước 7: Nhấp vào nút lệnh OK Trên cửa sổ Output.điều này cũng được xác nhận qua thống kê Bartlett với p-value là 0.084 646.3177 654. 2=cong | Summary of trong luong so sinh nhan.00 0.78 4.điều này đã được xác nhận từ đồ thị của trọng lượng sơ sinh và (b) phương sai của biến phụ thuộc ở các nhóm bằng nhau .

Dựa vào giá trị p. không có mối liên hệ tuyến tính giữa hai biến số.2 d và 9. hệ số tương quan r âm chứng tỏ hai biến số là nghịch biến. Ðiều này có nghĩa là (1) không có mối liên hệ gì giữa hai biến số hoặc (2) mối liên hệ giữa hai biến số không phải là tuyến tính. Khi trị tuyệt đối của hệ số tương quan bằng một có nghĩa là hoàn toàn không có sai số ngẫu nhiên.9723 chúng ta kết luận không có sự khác biệt về trọng lượng sơ sinh ở con của những bà mẹ có nghề nghiệp khác nhau.Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số.Nếu r=0. nếu chúng có giá trị âm nghĩa là hai biến số nghịch biến.1] .1=tu do.Bình phương của hệ số tương quan (r2) thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả) .Hệ số tương quan luôn luôn nằm trong đoạn [-1. Nếu chúng có giá trị dương có nghĩa là hai biến số đồng biến với nhau. Để biết cặp đôi nào có sự khác biệt ta xem kết xuất của so sánh sau kiểm định (posthoc test) của Scheffe: Comparison of trong luong so sinh (gram) by nghe nghiep me .671 | 0.904 71.451 Kết quả của kiểm định Scheffe được trình bày theo bảng và ở mỗi ô của bảng có 2 con số: con số ở trên thể hiện sự khác biệt về trọng lượng của nghề nghiệp của hàng so với nghề nghiệp của cột và giá trị ở dưới thể hiện giá trịi p (mức ý nghĩa) của sự khác biệt này. 156 .9 gram.020 0. Có nhiều loại hệ số tương quan. Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r: r= ∑( x − x )( y − y ) ∑( x − x ) ∑( y − y ) i i 2 i i 2 Lí giải ý nghĩa của hệ số tương quan: . Với kết luận này chúng ta có thể kết luận là có ít nhất có 1 cặp đôi (2 nhóm) nghề nghiệp của mẹ có sự khác biệt về trọng lượng con nhưng chúng ta không biết là sự khác biệt này ở cặp đôi nghề nghiệp nào. Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu phân tán chung quanh đường hồi quy. Nếu hệ số tương quan có giá trị bằng zero có nghĩa là hai biến số độc lập và không quan hệ gì với nhau.202 | vien chu | 207. . 2=cong nhan. .Chúng ta có được giá trị F = 0.0187 và mức ý nghĩa (p-value) là 0.2f). Nếu trị tuyệt đối của r bằng 1 (r=1 hay r=-1). quan hệ hoàn toàn tuyến tính nghĩa là tất cả các điểm nằm trên đường hồi quy (Hình 9. hệ số tương quan bằng zero nếu hai biến không liên hệ. Nhắc lại lí thuyết về Tương quan và ước lượng Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. có thể kết luận có sự khác biệt về trọng lượng sơ sinh của con 2 nhóm nghề nghiệp viên chức và tự do (giá trị p=0. Bình phương của hệ số tương quan (r2) thể hiện tỉ lệ các biến thiên của biến số phụ thuộc có thể được giải thích bằng biến số độc lập. nhưng chúng đều có giá trị từ -1 đến 1.Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến. Giá trị tuyệt đối của hệ số tương quan càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai trò của sai số ngẫu nhiên sẽ ít hơn.2337 | 0.020) và nhóm nghề nghiệp viên chức có trọng lượng trung bình cao hơn nhóm nghề nghiệp tự do là 207. 3=vien chuc (Scheffe) Row Mean-| Col Mean | tu do cong nha ---------+---------------------cong nha | 136.

3 đến 0.85 + 0.Theo quy ước. Một phương trình hồi quy có thể có dạng như sau: cân nặng (kg) = 6. Ðiều quan trọng là sự tương quan giữa hai biến số cho thấy sự liên hệ nhưng không nhất thiết có nghĩa là cá quan hệ 'nhân quả'. hay còn gọi là điểm chặn (intercept) 0.18 x tháng tuổi (phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi) theo phương trình này người ta gọi: cân nặng: biến số phụ thuộc tháng tuổi: biến số độc lập 6.. Vẽ phân tán đồ (scattergram) giữa của biến số tuổi thai (tuoithai) và trọng lượng thai (tlsosinh).85: hệ số của hằng số (Constant). Hướng dẫn: sử dụng menu Graphics :: Overlaid twoway graph để hiện ra cửa sổ twoway – Twoway graphs 157 . Để kiểm định hệ số tương quan Pearson có thực sự khác 0 hay không. quan hệ với r từ 0.18: hệ số (Coeficient) của biến số tháng tuổi hay còn gọi là độ dốc (Slope) của đường hồi quy 9. từ 0.3 là quan hệ yếu. 1− r2 Hồi quy Hồi quy là một mô hình toán học mô tả sự biến đổi của một biến số này theo những biến số khác.5 quan hệ trung bình và trên 0.1 đến 0.5 là quan hệ mạnh. kiểm định t có thể được sử dụng t=r n−2 có phân phối student với n-2 độ tự do.

nhập tên biến số phụ thuộc vào hộp Y-axis variable và tên biến số độc lập vào hộp X-axis variable sau đó nhấp OK để xem biểu đồ phân tán. • Bổ sung tiêu đề “tuoi thai (tuan tuoi)" cho trục hoành • Cho các giá trị của trục x từ 24 tuần tuổi đến 42 tuần tuổi và chia làm các khoảng 4 tuần Bằng cách trong cửa sổ Trên cửa sổ twoway – Twoway graphs thực hiện các bước: Trên thẻ Plot 1: Bước 1: Trên hộp combo Type chọn Scatter Bước 2: Đặt tên biến số độc lập (tuoithai) vào ô văn bản X 158 .Trên cửa sổ twoway – Twoway graphs. Cách làm cụ thể từng bước như sau: Bước 1: Trên hộp combo Type chọn Scatter Bước 2: Đặt tên biến số độc lập (tuoithai) vào ô văn bản X Bước 3: Đặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y Bước 4: Nhấp nút lệnh OK Có thể cho đồ thị phân tán. Tuy nhiên chúng ta có thể thêm các tùy chọn để thực hiện các yêu cầu sau: • Bổ sung tiêu đề “trọng lượng trẻ sơ sinh (gam)" cho trục tung • Cho các giá trị trục y từ 500 đến 5000 gram và chia các khoảng 500 gram.

Mối tương quan này khá chặt do đám mây có tính chất đi lên (khi nó đi về phải) và có đường kính bé nhỏ hơn nhiều so với đường kính lớn. 10. tables.Bước 3: Đặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y Trên thẻ Y-Axis: Bước 4: Trên hộp văn bản Title gõ "Trong luong tre so sinh (gam)" Bước 5: Trên hộp văn bản Rule gõ quy tắc "500(500)5000" Bước 6: Trên hộp combo Angle chọn "Horizontal" Trên thẻ X-Axis: Bước 7: Trên hộp văn bản Title gõ "Tuoi thai (tuan)" Bước 8: Trên hộp văn bản Rule gõ quy tắc "24(2)42" Và nhấp vào nút lệnh OK. tuổi thai (tuoithai) và tuổi của mẹ (tuoime) Hướng dẫn: Sử dụng menu Statistics :: Summaries. & tests :: Summary statistics :: Pairwise correlations. Hãy xác định hệ số tương quan giữa trọng lượng sơ sinh (tlsosinh). Trả lời: Có sự tương quan thuận tuyến tính giữa trọng lượng sơ sinh và tuổi thai. 159 .

biến tuoithai và biến tuoime để tên 3 biến này xuất hiện ở hộp văn bản Variables. 160 .Khi đó hộp thoại pwcorr – Pairwise correlations of variables sẽ hiện ra. Tiến hành các bước sau: Bước 1: Nhấp con trỏ chuột vào hộp văn bản Variables Bước 2: Đưa con trỏ chuột vào cửa sổ Variables và nhấp vào các biến tlsosinh.

giữa trọng lượng thai và tuổi của mẹ là 0.0000 | | tuoithai | 0.0000 | tuoime | 0.7376* 1.3941). sig star(5) | tlsosinh tuoithai tuoime -------------+--------------------------tlsosinh | 1.0000 | 0. Kết quả được trình bày như sau: . Như vậy có sự tương quan mạnh có ý nghĩa thống kê giữa trọng lượng thai và tuổi thai trong khi đó sự tương quan giữa trọng lượng thai và tuổi mẹ rất yếu và không có ý nghĩa thống kê.0337 0.0000 | 0.3941 0. regress tlsosinh tuoithai 161 . 11.Bước 3: Đánh dấu vào hộp kiểm Print significance level for each entry Bước 4: Đánh dấu vào hộp kiểm Significance level for displaying with a star. Bước 5: Nhấp vào nút lệnh OK để xem kết quả.0337 (giá trị p = 0.0151 1. giữa trọng lượng thai và tuổi thai là 0.05) giữa trọng lượng thai và tuổi thai nên giá trị của hệ số tương quan được đánh dấu sao (*). .7026 Trả lời: Chương trình cho kết quả hệ số tương quan của trọng lượng thai với trọng lượng thai là 1. pwcorr tlsosinh tuoithai tuoime. Hãy xây dựng phương trình hồi quy của trọng lượng thai theo tuổi thai. Hướng dẫn: Sử dụng phương pháp hồi quy đơn bằng cách nhấp vào menu "Statistics :: Linear regression and related :: Linear regression" để hiện ra hộp thoại regress – Linear regression Nhập tên biến số phụ thuộc vào hộp Dependent variable và tên biến số độc lập vào hộp Independent variable rồi nhấn OK để tiếp tục. Do có sự liên hệ có ý nghĩa thống kê (giá trị p <0.7376 (giá trị p=0.0000).

45 chính là giá trị 148. 639) Prob > F R-squared Adj R-squared Root MSE = = = = = = 641 762. Bảng ANOVA cho biết có tổng các sai lệch của bình phương trọng lượng sơ sinh 272. Hệ số (coefficient) của biến số độc lập nói lên sự thay đổi của biến số phụ thuộc khi biến số độc lập thay đổi một đơn vị. rồi nhấn OK để tiếp tục.000 191.3 triệu của sự sai lệch này (như vậy còn 124.245 290.5433 441. Std. Mức ý nghĩa được trình bày trong bảng ANOVA cho biết mức ý nghĩa của phương trình.3386 _cons | -4865. Khi đó hộp thoại 162 .Source | SS df MS ---------+-----------------------------Model | 148354317 1 148354317 Residual | 124365805 639 194625.5440 0.873 -4295.4% sự thay đổi về trọng lượng sơ sinh. Hãy xây dựng phương trình hồi quy của trọng lượng thai theo tuổi thai.7 triệu) mà phương trình hồi quy có thể giải thích cho 148.0814 -16. Interval] ---------+-------------------------------------------------------------------tuoithai | 206.4% nói lên tuổi thai có thể giải thích cho 54.641 x tuổi thai (tính theo tuần).122 (272. Err.673 ---------+-----------------------------Total | 272720122 640 426125.544 = 54. t P>|t| [95% Conf.720.3/272.484572 27.000 -5434.19 Number of obs F( 1.4 triệu tổng bình phương sai lệch chưa được giải thích gọi là Residual Sum of Square và giá trị 0.25 0.6412 7.609 0.772 0.7).0000 0.641 gram.16 tlsosinh | Coef.245 + 206. Dựa vào bảng các hệ số chúng ta có thể xây dựng phương trình hồi quy như sau: Trọng lượng sơ sinh = -4865. Mức ý nghĩa (P-value) của biến số tuổi thai (Gestational age) là kết quả của kiểm định ý nghĩa của biến số này trong phương trình có thực sự khác không hay không.617 Trả lời: Hệ số tương quan bình phương R-squared = 0. 12. giới tính của trẻ và huyết áp cao của mẹ. Trong phương trình này (với biến số độc lập là TUOITHAI và biến số phụ thuộc là TLSOSINH) chúng ta có thể lí giải nếu đứa trẻ lớn hơn 1 tuần tuổi trọng lượng lúc sanh của nó sẽ tăng thêm 206.9439 221. Hướng dẫn: Sử dụng phương pháp hồi quy đơn bằng cách nhấp vào menu "Statistics :: Linear regression and related :: Linear regression" để hiện ra hộp thoại regress – Linear regression Nhập tên biến số phụ thuộc (tlsosinh) vào hộp Dpendent variable và tên các biến số độc lập (tuoithai gioi tang_ha) vào hộp Idependent variables.

Chúng ta nhớ lại quy ước của tập tin này: Biến tăng huyết áp (tang_ha) có giá trị =0 nếu mẹ không bị tăng huyết áp Biến giới tính (gioi) có giá trị =0 nếu trẻ là trẻ gái a) Do đó phương trình hồi quy đối với trẻ gái có mẹ không tăng huyết áp là: Trọng lượng thai = -4729.048 294.000 186.6157 216. Hướng dẫn: Bởi vì người không chuyên về thống kê hay người chưa được làm quen với phương pháp mã hoá sẽ không biết làm sao để nhân tăng huyết áp với 142.17884 4.19 Number of obs F( 3.19 + tuổi thai x 201.8685 -2.425 (a) b) Ở trẻ trai với mẹ không tăng huyết áp.048 + tuổi thai x 201. Tuy nhiên nếu chúng ta không quan tâm đến việc chẩn đoán các vấn đề trong phương trình hồi quy chúng ta hãy nhấp vào nút Cancel. 637) Prob > F R-squared Adj R-squared Root MSE = = = = = = 641 275.5626 431. Trả lời: Chúng ta có thể giả định yếu tố tăng huyết áp của mẹ là yếu tố gây nhiễu.14 50.71 -----------------------------------------------------------------------------tlsosinh | Coef.14 hay giới với 167. trọng biến số phụ thuộc của phương trình hồi quy sẽ sẽ giảm đi 142.659 -4151.05 nên tất cả các biến số độc lập của mô hình đều có ý nghĩa thống kê và không nên loại bỏ khỏi mô hình.000 100.0302 -42.43 0.37 + tuổi thai x 201.4248 7.048 + tuổi thai x 201.6999 234. Interval] -------------+---------------------------------------------------------------tuoithai | 201.14 + giới x 167.6).0000 0.5647 cho thấy phương trình hồi quy giải thích được 56. . Xét hai mô hình trọng lượng thai = tuổi thai + tăng huyết áp mẹ + giới tính (cho hệ số của biến số tuổi t hai là 201. 13.2339 gioi | 167.08 0. trọng biến số phụ thuộc của phương trình hồi quy sẽ tăng lên 167.chẩn đoán sẽ hiện ra.04 -------------+-----------------------------Total | 272720122 640 426125.14 gram so với phương trình (b) nên phương trình hồi quy cho nhóm này là Trọng lượng thai = -4703.24979 _cons | -4729.4) trong khi đó mô hình trọng lượng thai = tuổi thai (chohệ số của biến số tuổi thai là 206.tăng huyết áp x 142. regress tlsosinh tuoithai gioi tang_ha Source | SS df MS -------------+-----------------------------Model | 153998584 3 51332861.9335 tang_ha | -142.47% sự biến thiên của trọng lượng thai và điều này cho thấy mô hình có cả giới tính và tăng huyết áp giải thích tốt hơn so với mô hình chỉ có tuổi thai (r2=0.23 + tuổi thai x 201.71 0.005 -242.425 d) Ở trẻ trai với mẹ bị tăng huyết áp.817 10.438 ------------------------------------------------------------------------------ Trả lời: Chúng ta tìm được r2 (R-squared) là 0.79 0.817.425 (b) c) Ở trẻ gái với mẹ bị tăng huyết áp. Bạn có gợi ý gì để trình bày phương trình hồi quy một cách dễ hiểu hơn đối với người không chuyên về thống kê.000 -5306.817 gram nên phương trình hồi quy sẽ là Trọng lượng thai = -4561. Do tăng huyết áp của mẹ có thể làm giảm trọng lượng của con và trong tăng huyết áp của mẹ phổ biến hơn ở nhóm 163 .1447 -16.425 .425 Do các mức ý nghĩa (p-value) của biến số đều nhỏ hơn 0. Std.54). t P>|t| [95% Conf.14 gram so với phương trình (a) nên phương trình hồi quy cho nhóm này là Trọng lượng thai = -4871. Chúng ta cũng có thể viết được phương trình hồi quy theo kết quả ở trên: Trọng lượng thai = -4729.5647 0.541441 26. trọng biến số phụ thuộc của phương trình hồi quy sẽ sẽ giảm đi 142.91 0.8167 34.4 Residual | 118721538 637 186376. Err. Hệ số trong mô hình nào là phù hợp hơn để đánh giá sự tăng trưởng của trọng lượng thai.

taùc thoâ ñoäng hieäu chænh 449.3 7 g C ao huyeát aùp m eï S in h t h ie á u th a ù n g T r o ïn g lö ô ïn g c o n Như vậy % tác động do cơ chế sinh thiếu tháng trong tổng số tác động của tăng huyết áp mẹ lên trọng lượng của con là: taùc ñoäng . tuổi thai (và cả tác động của giới tính nhưng giả sử chúng ta biết rằng tác động gây nhiễu cao giới tính là không đáng kể).14 đều nói lên sự khác biệt do tình trạng tăng huyết áp của mẹ nhưng con số 449. Sự khác biệt về tuổi thai sẽ giải thích cho khoảng 200 gram/tuần x 1.4 gram và do đó con số 201.4 rất gần với con số 206. Tuy nhiên ở nhóm không bị tăng huyết áp trẻ sanh non một tuần chỉ bị mất có 201.14 gram.37-142.9 và sự khác biệt về tuổi thai là 1. Nhóm có mẹ bị tăng huyết áp có tuổi thai trung bình là 37. Trong khi mô hình của trọng lượng sinh theo tuổi thai.6 tuần.23 g 1 4 2 .37 − 142. • con các bà mẹ bị tăng huyết áp có trọng lượng nhẹ con những người không tăng huyết áp là 142.3 tuần trong khi đó nhóm mẹ không bị tăng huyết áp có tuổi thai trung bình là 38. Hãy lí giải những số liệu này? Trả lời: Cả hai con số 449.37 gram.37 là con số khác biệt thô và con số 142.14 = 307.68 = 68% taùc ñoäng thoâ 449.6 nên có thể bỏ qua tác động gây nhiễu của tăng huyết áp của mẹ lên tốc độ phát triển thai.4 là phù hợp hơn để đánh giá sự tăng trưởng của trọng lượng thai. tăng huyết áp mẹ và giới tính cho hệ số của biến tăng huyết áp là 142.22 = = = = 0.1 4 g C ô cheá khaùc 4 4 9 .14 307.6 =320 gram trọng lượng sơ sinh.37 449. 164 .37 và 142. Như vậy tác động do sinh thiếu tháng là 449. 14. Dựa vào nhận xét trên ta có giải thích những con số này như sau: • con các bà mẹ bị tăng huyết áp có trọng lượng nhẹ con những người không tăng huyết áp là 449.14 gram và điều này do tác động của cả tăng huyết áp khi không xét đến tác động của tuổi thai.6 gram nhưng điều này là cả do tác động của sanh non và cả tác động do tăng huyết áp ở một số bà mẹ. Trên thực tiễn do con số 201. Sử dụng kiểm định t chúng ta phát hiện trọng lượng trẻ con các bà mẹ bị tăng huyết áp thấp hơn con những người không tăng huyết áp là 449.37 gram và điều này do tác động của cả tăng huyết áp.37 Chúng ta có thể xem xét tác động của cơ chế sinh thiếu tháng trong khi so sánh trọng lượng sơ sinh của 2 nhóm mẹ tăng huyết áp và mẹ không tăng huyết áp bằng cách so sánh tuổi thai trung bình giữa 2 nhóm.sanh thiếu tháng nên ở đứa trẻ sinh sớm 1 tuần bị mất trọng lượng là 206.14 là con số khác biệt có hiệu chỉnh theo tháng tuổi và giới tính.

You're Reading a Free Preview

Tải về
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->