P. 1
Giáo trình nghiên cứu khoa học

Giáo trình nghiên cứu khoa học

|Views: 8|Likes:
Được xuất bản bởiNguyễn Tiến Lợi

More info:

Published by: Nguyễn Tiến Lợi on Apr 16, 2013
Bản quyền:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

04/20/2013

pdf

text

original

Sections

  • Phương pháp nghiên cứu khoa học
  • Nghiên cứu khoa học là gì:
  • Các đặc điểm của một nghiên cứu khoa học tốt
  • Một nghiên cứu khoa học tốt có các đặc điếm sau:
  • Ðại cương về thống kê và thống kê mô tả
  • Một số định nghĩa
  • Biến số và các loại biến số
  • Phương pháp mô tả tóm tắt và trình bày số liệu
  • Phương pháp trình bày số liệu
  • Ðại cương về phân tích số liệu
  • Suy luận thống kê
  • Xác định và chọn ưu tiên nghiên cứu
  • Mục tiêu
  • Xác định vấn đề
  • Tiêu chuẩn chọn ưu tiên cho vấn đề nghiên cứu
  • Thang điểm đánh giá các chủ đề nghiên cứu
  • Bảng điểm
  • Phương pháp phân tích và khẳng định vấn đề nghiên cứu
  • Phân tích vấn đề
  • Các bước để phân tích vấn đề
  • Xác định phạm vi và trọng tâm của nghiên cứu
  • Xây dựng phần đặt vấn đề
  • Các thông tin cần thiết trong phần đặt vấn đề
  • Tổng quan y văn
  • Tại sao cần phải tham khảo y văn khi chuẩn bị đề cương nghiên cứu
  • Những nguồn thông tin có thể tham khảo
  • Cách viết phần tổng quan
  • Sai lệch có thể
  • Mục tiêu nghiên cứu
  • Mục tiêu học tập:
  • Mục tiêu nghiên cứu là gì:
  • Tại sao phải xây dựng mục tiêu nghiên cứu
  • Yêu cầu của mục tiêu nghiên cứu
  • Giả thuyết nghiên cứu
  • Tên đề tài nghiên cứu
  • Thảo luận nhóm
  • Giới thiệu về phương pháp nghiên cứu khoa học y học
  • Biến số
  • Biến số định tính và biến số định lượng
  • Ðịnh nghĩa cụ thể
  • Biến số độc lập - phụ thuộc - gây nhiễu
  • Kiểm soát yếu tố gây nhiễu
  • Biến số nền (background variables)
  • Các loại nghiên cứu
  • Mở đầu
  • Một số loại nghiên cứu
  • Nghiên cứu không can thiệp
  • Nghiên cứu can thiệp
  • Tính giá trị và tính tin cậy của kết quả nghiên cứu
  • Các số đo dịch tễ học
  • I. Mở đầu:
  • II. Số đo tuyệt đối và số đo tương đối
  • III. Tỉ số, tỉ lệ, tỉ suất
  • IV. Số đo dịch tễ
  • Số đo hậu quả và số đo tác động
  • I. Nhắc lại về số đo sự xuất hiện của bệnh: tỉ suất, nguy cơ và số chênh
  • II. Số đo sự kết hợp - số đo hậu quả
  • III. Số đo tỉ số
  • IV. Số đo hiệu số
  • V. Biện luận thêm về tỉ số nguy cơ và hiệu số nguy cơ
  • VI. Số đo tác động
  • VII. Bàn luận thêm về phân số nguy cơ quy trách dân số
  • Phương pháp thu thập số liệu
  • Sử dụng thông tin sẵn có
  • Quan sát
  • Phỏng vấn mặt đối mặt và bộ câu hỏi tự điền
  • Thiết kế bộ câu hỏi
  • Lấy mẫu điều tra
  • Mục tiêu:
  • Ðại cương về phương pháp lấy mẫu:
  • Các phương pháp lẫy mẫu xác suất:
  • Cách tính cỡ mẫu
  • Giới thiệu
  • Hai cách tiếp cận trong tính cỡ mẫu
  • Các điểm cần lưu ý trong tính cỡ mẫu
  • Tính cỡ mẫu bằng phần mềm Epi Info:
  • Thí dụ
  • Chiến lược phân tích số liệu
  • Cài đặt chương trình Stata 8.0 và số liệu mẫu
  • Khởi động và kết thúc Stata
  • Mô tả ngắn gọn về Stata
  • Lệnh more
  • Thông báo lỗi và mã phản hồi
  • Phím break
  • Sử dụng bàn phím trong Stata
  • Khởi động Stata
  • 1. Khởi động Stata
  • 2. Mô tả giao diện của chương trình Stata
  • 3. Cách cách để thực hiện lệnh trong chương trình Stata
  • 4. Lưu lại kết quả phân tích
  • Mô tả số liệu với Stata 8.0 for Windows
  • Thống kê phân tích biến số định lượng với Stata
  • Thực hành

MỤC LỤC

Phương pháp nghiên cứu khoa học.................................................................................................1
Mục tiêu:.....................................................................................................................................1
Nghiên cứu khoa học là gì:.........................................................................................................1
Các đặc điểm của một nghiên cứu khoa học tốt .........................................................................1
Ðại cương về thống kê và thống kê mô tả.......................................................................................3
Một số định nghĩa........................................................................................................................3
Biến số và các loại biến số..........................................................................................................3
Phương pháp mô tả tóm tắt và trình bày số liệu..........................................................................3
Các số thống kê mô tả.................................................................................................................4
Phương pháp trình bày số liệu.....................................................................................................6
Ðại cương về phân tích số liệu......................................................................................................14
Suy luận thống kê......................................................................................................................15
Xác định và chọn ưu tiên nghiên cứu............................................................................................28
Mục tiêu....................................................................................................................................28
Xác định vấn đề.........................................................................................................................28
Tiêu chuẩn chọn ưu tiên cho vấn đề nghiên cứu.......................................................................28
Thang điểm đánh giá các chủ đề nghiên cứu............................................................................29
Bảng điểm.................................................................................................................................30
Phương pháp phân tích và khẳng định vấn đề nghiên cứu............................................................31
Mục tiêu....................................................................................................................................31
Phân tích vấn đề........................................................................................................................31
Các bước để phân tích vấn đề...................................................................................................31
Xác định phạm vi và trọng tâm của nghiên cứu........................................................................34
Xây dựng phần đặt vấn đề.........................................................................................................35
Các thông tin cần thiết trong phần đặt vấn đề...........................................................................35
Tổng quan y văn............................................................................................................................36
Mục tiêu ...................................................................................................................................36
Tại sao cần phải tham khảo y văn khi chuẩn bị đề cương nghiên cứu......................................36
Những nguồn thông tin có thể tham khảo.................................................................................36
Cách viết phần tổng quan..........................................................................................................37
Sai lệch có thể...........................................................................................................................37
Mục tiêu nghiên cứu......................................................................................................................39
Mục tiêu học tập:.......................................................................................................................39
Mục tiêu nghiên cứu là gì:........................................................................................................39
Tại sao phải xây dựng mục tiêu nghiên cứu..............................................................................39
Yêu cầu của mục tiêu nghiên cứu.............................................................................................39
Giả thuyết nghiên cứu...............................................................................................................40
Tên đề tài nghiên cứu................................................................................................................40
Thảo luận nhóm.........................................................................................................................40
Giới thiệu về phương pháp nghiên cứu khoa học y học................................................................41
i
Mục tiêu....................................................................................................................................41
Giới thiệu...................................................................................................................................41
Biến số...........................................................................................................................................43
Mục tiêu....................................................................................................................................43
Biến số.......................................................................................................................................43
Biến số định tính và biến số định lượng....................................................................................43
Ðịnh nghĩa cụ thể......................................................................................................................44
Biến số độc lập - phụ thuộc - gây nhiễu....................................................................................45
Kiểm soát yếu tố gây nhiễu.......................................................................................................45
Biến số nền (background variables)..........................................................................................46
Các loại nghiên cứu.......................................................................................................................50
Mục tiêu....................................................................................................................................50
Mở đầu......................................................................................................................................50
Một số loại nghiên cứu..............................................................................................................50
Nghiên cứu không can thiệp.....................................................................................................50
Nghiên cứu can thiệp................................................................................................................54
Tính giá trị và tính tin cậy của kết quả nghiên cứu...................................................................55
Các số đo dịch tễ học....................................................................................................................56
I. Mở đầu:..................................................................................................................................56
II. Số đo tuyệt đối và số đo tương đối.......................................................................................56
III. Tỉ số, tỉ lệ, tỉ suất.................................................................................................................56
IV. Số đo dịch tễ .......................................................................................................................57
Số đo hậu quả và số đo tác động...................................................................................................59
I. Nhắc lại về số đo sự xuất hiện của bệnh: tỉ suất, nguy cơ và số chênh.................................59
II. Số đo sự kết hợp - số đo hậu quả..........................................................................................59
III. Số đo tỉ số............................................................................................................................59
IV. Số đo hiệu số.......................................................................................................................61
V. Biện luận thêm về tỉ số nguy cơ và hiệu số nguy cơ............................................................62
VI. Số đo tác động.....................................................................................................................63
VII. Bàn luận thêm về phân số nguy cơ quy trách dân số.........................................................65
Phương pháp thu thập số liệu........................................................................................................66
Sử dụng thông tin sẵn có...........................................................................................................66
Quan sát.....................................................................................................................................66
Phỏng vấn mặt đối mặt và bộ câu hỏi tự điền...........................................................................67
Thiết kế bộ câu hỏi....................................................................................................................67
Lấy mẫu điều tra............................................................................................................................71
Mục tiêu:...................................................................................................................................71
Ðại cương về phương pháp lấy mẫu:........................................................................................71
Các phương pháp lẫy mẫu xác suất:..........................................................................................72
Cách tính cỡ mẫu...........................................................................................................................79
Mục tiêu....................................................................................................................................79
Giới thiệu...................................................................................................................................79
ii
Hai cách tiếp cận trong tính cỡ mẫu..........................................................................................79
Các điểm cần lưu ý trong tính cỡ mẫu......................................................................................81
Tính cỡ mẫu bằng phần mềm Epi Info:.....................................................................................81
Thí dụ........................................................................................................................................83
Chiến lược phân tích số liệu..........................................................................................................84
Cài đặt chương trình Stata 8.0 và số liệu mẫu..............................................................................90
Khởi động và kết thúc Stata .........................................................................................................93
Mô tả ngắn gọn về Stata................................................................................................................97
Lệnh more.....................................................................................................................................99
Thông báo lỗi và mã phản hồi.....................................................................................................100
Phím break..................................................................................................................................102
Sử dụng bàn phím trong Stata.....................................................................................................103
Khởi động Stata ..........................................................................................................................105
1. Khởi động Stata...................................................................................................................105
2. Mô tả giao diện của chương trình Stata..............................................................................105
3. Cách cách để thực hiện lệnh trong chương trình Stata........................................................106
4. Lưu lại kết quả phân tích....................................................................................................106
Mô tả số liệu với Stata 8.0 for Windows.....................................................................................109
Thống kê phân tích biến số định lượng với Stata .......................................................................144
Thực hành................................................................................................................................146
iii
Phương pháp nghiên cứu khoa học
Mục tiêu:
- Mô tả được các đặc tính của một nghiên cứu khoa học
- Trình bày được các đặc tính của một nghiên cứu khoa học tốt
Nghiên cứu khoa học là gì:
Nghiên cứu là công việc tìm kiếm một cách có hệ thống các kiến thức mới, dựa trên sự tò mò và
nhu cầu được cảm nhận.
1
Như vậy đặc điểm của nghiên cứu là tìm ra kiến thức mới. Có hai phương pháp chính để tìm
kiếm kiến thức: hoặc là xem xét các tài liệu, kiến thức sẵn có để tìm ra các kiến thức mới
(scholarship) hay dựa vào thực tế khách quan để phát hiện các kiến thức và hiểu biết mới
(scientific research). Phương pháp dựa vào thực tế khách quan để tìm tòi các kiến thức mới được
gọi là nghiên cứu khoa học.
2
Nghiên cứu khoa học là việc thu thập, phân tích và lí giải số liệu để giải quyết một vấn đề hay
trả lời một câu hỏi (Theo Varkevisser và cộng sự, 1991).
Nói cách khác, nghiên cứu khoa học phải bao gồm các bước thu thập số liệu trên thực địa (hay
từ các ca bệnh trong bệnh viện hay phòng thí nghiệm), phân tích số liệu để có thông tin và
và trình bày các thông tin này trong phần kết quả và trong phần bàn luận và kiến nghị, lí
giải các thông tin đó đề trả lời cho câu hỏi nghiên cứu hay đề xuất các biện pháp giải quyết
vấn đề.
Số liệu: Kết quả của việc thu thập có hệ thống các đại lượng và đặc tính của các đối tượng
Thông tin: Số liệu đã được phân tích
Kiến thức: thông tin được lí giải và được sử dụng để trả lời câu hỏi hay giải quyết một vấn đề
nào đó
Nhưng để quá trình thu thập, phân tích và lí giải số liệu diễn ra tốt đẹp và giải quyết được vấn đề
nghiên cứu, trước đó nhà nghiên cứu phải phân tích từ vấn đề, xem những kiến thức gì đã biết và
còn chưa biết về vấn đề đó. Quá trình này được gọi là đặt vấn đề, tổng quan y văn. Sau đó nhà
nghiên cứu phải xác định hỏi để có được kiến thức còn chưa biết đó, cần những thông tin gì và
để có những thông tin này cần thu thập những đại lượng và tính chất nào của đối tượng. Đây là
nội dung của phần phương pháp nghiên cứu trong đề cương nghiên cứu hay báo cáo khoa học.
Sau khi đã thu thập được số liệu (đại lượng hay tính chất của các đối tượng nghiên cứu), kết quả
của phân tích số liệu (thông tin) được trình bày trong phần kết quả nghiên cứu. Ở phần bàn luận,
tác giả sẽ đánh giá xem các thông tin có trả lời được câu hỏi nghiên cứu hay không và câu trả lời
của câu hỏi nghiên cứu chính nhằm giúp giải quyết vấn đề nghiên cứu là kiến thức mới được tạo
ra.
Như vậy, một báo cáo khoa học sẽ gồm các phần chính: 1) Đặt vấn đề và mục tiêu nghiên cứu 2)
Tổng quan tài liệu 3) Phương pháp và đối tượng 4) Kết quả nghiên cứu 5) Bàn luận và 6) Kết
luận.
Các đặc điểm của một nghiên cứu khoa học tốt
Một nghiên cứu khoa học tốt có các đặc điếm sau:
1
Last JM. A dictionary of Epidemiology. NewYork: International epidemiology association
1997; 146
2
Varkevisser C, Pathmanathan I, Brownlee A. Designing and conductiong health system
research projects. IDRC, Ottawa 1991
1
- Phải tập trung vào các vấn đề ưu tiên trong chăm sóc y tế
- Phải có tính định hướng vào hành động và đề ra các giải pháp
- Phải có tính thời sự: kết quả phải có kịp thời để đưa ra các quyết định đúng đắn.
- Thiết kế nghiên cứu đơn giản và thực hiện trong thời gian ngắn
- Nên có tính chất chi phí - hiệu quả. Tốt nhất nếu nghiên cứu được tiến hành với chi phí
thấp và do các nhân viên, cán bộ y tế thực hiện cùng với công việc hàng ngày.
- Kết quả phải được trình bày theo hình thức hữu dụng cho các nhà quản lí, nhà hoạch
định chính sách và cộng đồng: Cần có tóm tắt những kết quả chủ yếu của nghiên cứu và
nêu bật những điểm lí thú cho đối tượng của bản báo cáo. Dựa theo kết quả có thể trình
bày giải pháp để giải quyết một vấn đề và so sánh ưu khuyết điểm của việc tiến hành giải
pháp và không tiến hành giải pháp.
- Nghiên cứu cần phải được đánh giá không chỉ dựa vào số các bài báo được xuất bản mà
cần phải xem xét sự ảnh hưởng của nó đến chính sách y tế hay thay đổi cung cách phục
vụ và cuối cùng là tác động lên sức khoẻ người dân.
Đối với nghiên cứu y tế công cộng cần phải đặt them hai đặc điểm sau:
- Sẽ tốt hơn nếu có sự tham gia của nhiều ngành, nhiều khoa
- Nghiên cứu cần có tính chất tham gia của mọi thành viên có liên quan trong tất cả các
bước của quá trình tiến hành nghiên cứu
2
Ðại cương về thống kê và thống kê mô tả
Một số định nghĩa
Thống kê là phương pháp khoa học dùng đề thu thập, tóm tắt, trình bày và phân tích số liệu.
Số liệu: Kết quả có được do việc quan sát hay thu thập một biến số ở các đối tượng khác nhau
hay ở thời gian khác nhau.
Thí dụ: Khi tôi quan sát giới tính của các học viên trong lớp, tôi có số liệu là:
Nam, nam, nữ, nữ, nữ, nam, nữ, v.v
Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ có kết quả như sau:
10.2 13.7 10.4 14.9 11.5 12.0 11.0
13.3 12.9 12.1 9.4 13.2 10.8 11.7
10.6 10.5 13.7 11.8 14.1 10.3 13.6
12.1 12.9 11.4 12.7 10.6 11.4 11.9
9.3 13.5 14.6 11.2 11.7 10.9 10.4
12.0 12.9 11.1 8.8 10.2 11.6 12.5
13.4 12.1 10.9 11.3 14.7 10.8 13.3
11.9 11.4 12.5 13.0 11.6 13.1 9.7
11.2 15.1 10.7 12.9 13.4 12.3 11.0
14.6 11.1 13.5 10.9 13.1 11.8 12.2
và những con số này được gọi là số liệu.
Cần lưu ý số liệu phải liên kết với một biến số nhất định. Nếu tôi quan sát giới tính ở người này,
tuổi của người khác, quần áo của một người khác nữa thì kết quả quan sát được không phải là số
liệu.
Biến số và các loại biến số
Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này sang người khác
hay từ thời điểm này sang thời điểm khác.
Như vậy biến số có thể thể hiện đại lượng hay đặc tính.
- Nếu biến số thể hiện một đại lượng nó được gọi là biến số định lượng (quantitative
variable). Biến số định lượng có thể còn được chia thành biến số tỉ số - ratio variable(có giá trị
không tuyệt đối) và biến số khoảng – interval variable (không có giá trị không tuyệt đố)
- Nếu biến số nhằm thể hiện một đặc tính, biến số được gọi là biến số định tính. Biến số
định tính còn được chia làm 3 loại:
- Biến số nhị giá – binary variable (khi chỉ có 2 giá trị)
- Biến số danh định – nominal variable (khi có 3 hay nhiều hơn các giá trị và các
bản thân các giá trị không có tính chất thứ tụ)
- Biến số thứ tự - ordinal variable (khi có 3 hay nhiều hơn các giá trị và các bản
thân các giá trị có tính chất thứ tự
- Ngoài ra có khi biến cố không chỉ được quan tâm về phương diện nó có xảy ra hay
chưa xảy ra mà còn được quan tâm về phương diện biến cố xảy ra vào lúc nào. Thí dụ sau khi
điều trị bệnh nhân ung thư chúng ta không chỉ quan tâm bệnh nhân có tử vong hay không mà
còn quan tâm bệnh nhân bệnh nhân tử vong bao nhiêu lâu sau khi điều trị và nếu bệnh nhân chưa
tử vong, bệnh nhân đã sống được bao lâu.
Phương pháp mô tả tóm tắt và trình bày số liệu
3
-Tỉ lệ cho từng giá trị nếu
là biến thứ tự hay danh
định
- Tỉ lệ cho giá trị tiêu biểu
nếu là biến nhị giá
-Tỉ lệ cho từng giá trị nếu
là biến thứ tự hay danh
định
- Tỉ lệ cho giá trị tiêu biểu
nếu là biến nhị giá
Các số thống kê mô tả
Có hai loại thống kê mô tả: thống kê mô tả khuynh hướng tập trung và thống kê mô tả tính phân
tán.
Thống kê mô tả khuynh hướng tập trung
Thống kê mô tả khuynh hướng tập trung có thể là trung bình (mean), trung vị (median) và yếu vị
(mode). Những thống kê này cho biết giá trị tiêu biểu cho số liệu.
Thí dụ: có hai loại thuốc hạ áp A và B. Giả sử có 5 đối tượng sau khi sử dụng thuốc hạ áp A sẽ có huyết áp
110 - 115 -120 - 125 -130 và ở 5 đối tượng khác sau khi sử dụng thuốc hạ áp B sẽ có huyết áp 120 - 125 -
130 - 135 - 140. Con số tiêu biểu nhất để cho biết tác dụng của thuốc A là huyết áp trung bình sau khi sử
dụng thuốc A và là 120. Con số huyết áp trung bình này thấp hơn huyết áp trung bình sau khi sử dụng
thuốc B cho biết thuốc A có tác dụng mạnh hơn.
Trung bình của số liệu, được kí hiệu là (x (đọc là x gạch) là tổng các giá trị của số liệu chia cho
số lần quan sát (N).
N
x
x
i
Σ
·
Thí dụ: Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125, 130, 135, 150. Huyết áp tâm thu
trung bình sẽ là 132
132
5
150 125 130 125 120
·
+ + + +
·
Σ
·
N
x
x
i
Do không thể thực hiện các phép toán số học trên các biến số định tính (danh định và thứ tự)
chúng ta chỉ có thể tính trung bình cho số liệu của biến số định lượng.
Nếu chúng ta sắp xếp số liệu theo thứ tự, giá trị đứng ở giữa được gọi là trung vị. Nếu có hai giá
trị cùng đứng ở giữa, trung bình cộng của hai giá trị này là trung vị.
4
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trung vị
của huyết áp tâm thu là giá trị đứng ở giữa và bằng 130
Số liệu về chiều cao (cm) của 6 người là 153, 155, 160, 162, 165, 161. Ðể tính trung vị, trước tiên
chúng ta phải sắp xếp số liệu này: 153, 155, 160, 161, 162, 165. Do có hai giá trị 160 và 161 cùng
ở giữa, trung vị sẽ là (160+161)/2 = 160,5 cm
Do bản chất của biến số danh định không thể sắp được theo thứ tự, chúng ta chỉ có thể tính
trung vị của số liệu định lượng và số liệu của biến số thứ tự.
Ngoài ra yếu vị (mode) cũng được sử dụng làm con số thống kê tiêu biểu. Yếu vị là giá trị xuất
hiện phổ biến nhất (có tần suất cao nhất).
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trong
trường hợp này không có yếu vị.
Ðiểm số của 5 học sinh là 5, 5, 6, 7, 9. Yếu vị của điểm số là 5.
Trong một ấp có 361 gia đình người Kinh, 120 gia đình người Khmer và 27 gia đình người Hoa.
Yếu vị của biên số dân tộc là dân tộc Kinh.
Trong một số liệu cụ thể, có thể không có yếu vị, có thể có một yếu vị hoặc hai hay nhiều yếu vị.
Ðây là khuyết điểm chính của số thống kê này. Do vậy người ta thường chỉ dùng yếu vị cho biến
số danh định hay trong các trường hợp đặc biệt
Có thể sử dụng trung bình, trung vị hay yếu vị cho biến số định lượng. Khi biến số định lượng
có phân phối bình thường (hình chuông) thì ba con số này xấp xỉ bằng nhau và khi đó người ta
thường tính trung bình bởi vì trung bình có những đặc tính toán học mạnh. Tuy nhiên nếu số liệu
bị lệch thì con số trung vị phản ánh giá trị tiêu biểu một cách chính xác hơn.
Thí dụ: Bệnh nhân bị loét dạ dày - tá tràng được điều trị theo một phác đồ diệt vi khuẩn
Helicobacter. Sau điều trị, bệnh nhân được theo dõi và ghi nhận thời gian kể từ khi sử dụng thuốc
đến lúc bắt đầu cải thiện triệu chứng đau. Ở 10 bệnh nhân thời gian này (ngày ) là như sau: 1, 2, 2,
2, 2, 2, 3, 3, 3, 30. Bệnh nhân có thời gian từ lúc điều trị đến lúc giảm triệu chứng là 30 ngày trên
thực chất là bệnh nhân không đáp ứng với điều trị. Trung vị và trung bình của số liệu là 2 và 5
ngày. Con số trung vị phản ánh chân thực hơn bởi vì với tư cách là một bác sĩ lâm sàng từ số liệu
trên có thể nhận xét rằng một bệnh nhân tiêu biểu sẽ giảm đau sau 2 ngày dùng thuốc. Con sôs 30
trong thí dụ trên được gọi là số ngoại lai (outlier) và làm số liệu bị lệch. Nhìn chung, khi số liệu bị
lệch thì con số trung bình sẽ bị ảnh hưởng rất nhiều và không phản ánh giá trị tiêu biểu như con
số trung vị.
Thống kê mô tả tính phân tán:
Có 3 thống kê mô tả tính phân tán: độ lệch chuẩn, khoảng tứ phân vị và phạm vi của số liệu.
Việc lựa chọn thống kê mô tả tính phân tán được trình bày trong bảng 2.
Thống kê mô tả tính phân tán có tầm quan trọng thứ hai sau con số mô tả khuynh hướng tập
trung.
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110, 115,
120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100,
110, 120, 130, 140. Như vậy hai thuốc hạ áp này có hiệu quả hạ áp là tương đương (bởi vì trung bình của
hai số liệu là bằng nhau) nhưng kết quả của thuốc B phân tán hơn và điều này làm thuốc B trở nên kém an
toàn.
Ðộ lệch chuẩn (standard deviation - viết tắt là SD hay s) là con số đánh giá mức độ phân tán và
được tính theo công thức:
Như vậy độ lệch chuẩn phản ánh khoảng cách trung bình của số liệu so với
giá trị tiêu biểu. Khái niệm độ lệch chuẩn chỉ có thể áp dụng cho biến số định lượng bởi vì
chúng ta có thể thực hiện các phép toán số học trên các đại lượng nhưng không thể thực hiện
trên các giá trị của biến số định tính là các đặc tính.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Trung bình của
huyết áp là 132 và độ lệch chuẩn bằng

·


·
n
i
i
N
x x
s
1
2
1
) (
5
5 , 11 5 , 132
4
530
4
324 9 4 49 144
1 5
) 132 150 ( ) 132 135 ( ) 130 132 ( ) 132 125 ( ) 132 120 (
1
) (
2 2 2 2 2
1
2
· · ·
+ + + +
·

− + − + − + − + −
·


·

·
n
i
i
N
x x
s
Phương sai về mặt từ nguyên là bình phương của độ lệch chuẩn. Phương sai (variance) có thể
được kí hiệu và Var hay s
2
và được tính theo công thức sau:

·


·
n
i
i
N
x x
s
1
2
2
1
) (
Phạm vi của số liệu là tất cả các giá trị của số liệu từ giá trị nhỏ nhất đến giá trị lớn nhất.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Phạm vi của biến
số huyết áp là 120 đến 150.
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110, 115,
120, 125 và 130. Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100,
110, 120, 130, 140. Số liệu của thuốc B có tính phân tán cao hơn do phạm vi thay đổi từ 100-140 trong khi
đó phạm vị của số liệu thuốc A chỉ từ 110-130.
Khoảng tứ phân vị (inter-quartile): Nếu chúng ta chia số liệu sắp theo thứ tự làm 2 phần đều
nhau, khoảng tứ phân vị là khoảng cách của trung vị phần trên và trung vị phần dưới.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150. Số liệu này được
chia làm 2 phần: phần 1 gồm 120, 125, 130 và phần 2 gồm 130, 135, và 150. Trung vị của phần trên là 125
- trung vị của phần dưới là 135, do đó phạm tứ phân vị là 125-135.
Do bản chất của khoảng tứ phân vị là trung vị của phần số liệu trên và phần số liệu dưới, cũng
giống như trung vị, khoảng tứ phân vị không bị ảnh hưởng bởi các giá trị ngoại lai như trong
trường hợp của độ lệch chuẩn. Cũng như trung vị, khoảng tứ phân vị chỉ có thể áp dụng cho biến
số định lượng hay thứ tự.
Câu hỏi: Phân tích trên máy tính về biến số hemoglobin cho kết quả sau. Hãy thử đọc và lí giải
kết quả:
Variable | Obs Mean Std. Dev. Min Max
-----------+-----------------------------------------------------
hemoglobin | 70 11.98429 1.416122 8.8 15.1
Phương pháp trình bày số liệu
Số liệu có thể được trình bày thành bảng hoặc các đồ thị.
Trình bày bảng:
Phân phối tần suất của biến số định tính
Số liệu của biến số rời rạc có thể được trình bày dưới dạng một phân phối tần suất. Phân phối
tần suất là một bảng chỉ ra tần suất xuất hiện của từng giá trị rời rạc của biến số (Bảng 1). Như
vậy bảng phân phối tần suất gồm 2 cột, một cột liệt kê các giá trị của biến số và một cột trình
bày tần suất tương ứng của các giá trị đó.
Table 1. Phân phối giới tính của 69 học sinh lớp cơm thường trường mầm non 23 tháng 11, Huyện
Hóc môn
Giới Số trẻ Phần trăm
6
Nam 45 65%
Nữ 24 35%
Tổng số 69 100%
Bảng trên là bản phân phối tần suất của giới tính. Bởi vì giới tính có 2 giá trị nam và nữ nên ta
liệt kê 2 giá trị này ở một cột. Ở cột thứ nhì ta ghi tần suất tương ứng của các giá trị này. Ðôi khi
bảng phân phối tần suất có thêm cột phần trăm như trong thí dụ ở trên. Bảng 2 là một thí dụ
khác về bảng phân phối tần suất.
Table 2. Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện
Phương pháp đỡ
đẻ
Số sinh Phần trăm
Sinh thường 478 79,7
Sinh forceps 65 10,8
Sinh mổ 57 9,5
Tổng số 600 100,0
Phân phối tần suất của biến số định lượng
Nếu biến số là biến số liên tục chúng ta không thể liệt kê tất cả các giá trị của biến số. Trong
trường hợp này chúng ta có thể nhóm (làm tròn) giá trị của biến số lại.
Cụ thể các bước xây dựng bảng phân phối tần suất cho biến số định lượng như sau:
1- Tìm phạm vi (giá trị cực tiểu và giá trị cực đại) của số liệu. Trong thí dụ về hemoglobin của
70 phụ nữ phạm vi là 8,8 đến 15,1
2. Chia phạm vi số liệu ra làm n khoảng với độ rộng của mỗi khoảng là d. Cần lưu ý độ rộng
mỗi khoảng d nên là đại lượng chẵn như 1, 2, 5, 10 hay 0,5, 0,2 và số các khoảng n nên từ 5-12
(trung bình là 7-8). Trong thí dụ trên ta có thể chia phạm vi ra làm 8khoảng với chiều rộng
khoảng bằng 1 đơn vị. Khi đó các khoảng là: 8-8,9; 9-9,9; 10-10,9; 11-11,9; 12-12,9; 13-13,9;
14-14,9; 15-15,9.
3. Ðếm các giá trị thích hợp vào khoảng đã định trước
Hemoglobin
(g/100ml)
Ðếm
8-8,9 1
9-9,9 111
10-10,9 1111 1111 1111
11-11,9 1111 1111 1111 1111
12-12,9 1111 1111 1111
13-13,9 1111 1111 111
14-14,9 1111
15-15,9 1
4. Xây dựng bảng phân phối tần suất với biến số và các khoảng giá trị của biến số và tần suất
7
tương ứng với các khoảng giá trị đó. Chúng ta cũng có thể thêm vào cột phần trăm và cột phần
trăm tích lũy (nếu thích hợp)
Table 3. Hemoglobin của 70 phụ nữ
Hemoglobin Tần suất Phần trăm Phần trăm tích lũy
8-8,9 1 1.43 1.43
9-9,9 3 4.29 5.71
10-10,9 14 20.00 25.71
11-11,9 19 27.14 52.86
12-12,9 14 20.00 72.86
13-13,9 13 18.57 91.43
14-14,9 5 7.14 98.57
15-15,9 1 1.43 100.00
Thí dụ như nếu biên số là chu vi vòng cánh tay của trẻ chúng ta có thể làm tròn chu vi vòng cánh
tay đến 1 cm. Khi đó ta có thể xem thang đo của biến số là rời rạc và trình bày bảng phân phối
tần suất của biến số (bảng 2).
Table 4. Phân phối số đo vòng cánh tay của 69 trẻ lớp cơm thường nhà trẻ 23 tháng 11, Hóc môn.
Vòng cánh tay Tần suất Phần trăm Phần trăm tích lũy
13- <14 2 2.78 2.78
14- <15 31 43.06 45.83
15- <16 27 37.50 83.33
16- <17 9 12.50 95.83
17- <18 0 12.50 95.83
18- <19 2 2.78 98.61
19- <20 1 1.39 100.00
Biểu đồ và đồ thị
Số liệu cũng có thể được trình bày dưới dạng đồ thị hoặc biểu đồ. Mặc dù không có ranh giới
tuyệt đối hoàn toàn rõ rệt, nói chung đồ thị (graph) có tính chất toán học nhiều hơn, trong đó có
trục hoành và trục tung còn biểu đồ (chart) là hình ảnh mang tính chất tượng trưng.
Nếu biến số là biến rời rạc, có thể trình bày dưới dạng biểu đồ hình thanh (bar chart - hình 1)
hoặc biểu đồ hình bánh (pie chart). Nếu biến số là biến liên tục, thì phân phối của biến số có thể
trình bày dưới dạng tổ chức đồ (histogram - hình 2) hoặc đa giác tần suất.
Hình thức của bảng
-Có tựa ngắn gọn và rõ ràng
-Ðặt tên cho các hàng và cột
-Trình bày tổng số của hàng và cột
-Ðịnh nghĩa các kí hiệu và chữ viết tắt ở dưới bảng
8
-Ghi nguồn số liệu ở dưới bảng
Biểu đồ hình thanh
Biểu đồ hình thang là biểu đồ nhằm mô tả sự phân bố của biến số rời rạc. Biểu đồ hình thanh
gồm có trục hoành trên đó xác định những giá trị của biến số. Ứng với từng giá trị của biến số
người ta vẽ các thanh có chiều cao tỉ lệ với tần suất của giá trị đó. Cần lưu ý luôn luôn có
khoảng trống giữa các thanh.
45
24
0
10
20
30
40
50
Nam Nöõ
Hình 1. Biểu đồ hình thanh (bar chart) mô tả phân bố giới tính của những học sinh trong trường
mầm non 23/11, Hóc môn
Chúng ta cũng có thể xây dựng các thanh theo chiều ngang như trong ví dụ sau
478
65
57
0 100 200 300 400 500
Sinh thöôøng
Sinh forceps
Sinh moå
Hình 2. Phương pháp sinh của 600 trẻ sanh tại bệnh viện X trong năm 1998
Ðối với biến số thứ tự, điều cần lưu ý là các giá trị của biến số phải được sẵp xếp thứ tự theo
trục hoành.
9
T
a
àn

s
u
a
át
e d u m a t
m u øc h ö õ c a áp 1 c a áp 2 - 3 ñ a ïi h o ï
0
1 0 0 0
2 0 0 0
Hình 3. Trình độ học vấn của các bà mẹ trong nghiên cứu
4,3%
19,5%
0,8%
3,9%
0%
5%
10%
15%
20%
25%
Duøng ZDV† Khoâng duøng ZDV
Ñöôøng aâm ñaïo
Moålaáy thai
Hình 4. Tỉ suất lây truyền từ mẹ sang con ở những người mẹ bị nhiễm HIV theo điều trị
hóa dự phòng và phương pháp sinh (Nguồn: The European Mode of Delivery
Collaboration, Lancet, 27/3/1999)
Biểu đồ hình bánh
Biểu đồ hình bánh cũng được dùng để mô tả sự phân bố của biến số rời rạc. Biểu đô hình bánh
là một vòng tròn được chia làm nhiều cung tương ứng với các giá trị của biến số. Ðộ lớn của
cung tỉ lệ với tần suất của giá trị biến số.
10
Nöõ
35%
Nam
65%
Hình 5. Biểu đồ hình bánh (pie chart) mô tả phân bố giới tính của những học sinh trong trường
mầm non 23/11, Hóc môn
Sinh
thöôøng
Sinh moå
Sinh
forceps
Hình 6. Biểu đồ hình bánh thể hiện phương pháp sinh của 600 đứa trẻ sinh tại bệnh viện X
Tổ chức đồ và đa giác tần suất
Tổ chức đồ (histogram) và đa giác tần suất (polyline) được dùng trong mô tả phân bố của biến
số liên tục. Ðể vẽ tổ chức đồ, người ta chia biên độ của giá trị làm nhiều khoảng giá trị và tính
tần suất của những khoảng giá trị đó. Những khoảng giá trị này được biểu thị ở trên trục hoành.
Ứng với mỗi khoảng giá trị người ta vẽ những hình chữ nhật có diện tích tỉ lệ với tần suất của
khoảng giá trị đó. Bởi vì các khoảng giá trị này nằm sát nhau trên trục hoành, các hình chữ nhật
của tổ chức đồ cũng thường nằm sát nhau.
11

F
r
e
q
u
e
n
c
y
h e m o g l o b i n
8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6
0
5
1 0
1 5
2 0
Hình 7. Tổ chức đồ mức hemoglobin của 70 phụ nữ.

F
r
e
q
u
e
n
c
y
h e m o g l o b i n
8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6
0
5
1 0
1 5
2 0
Hình 8. Ða giác tần suất của hemoglobin của 70 phụ nữ.
Ðể vẽ đa giác tần suất, người ta thường vẽ tổ chức đồ và nối các trung điểm của các cạnh trên
của các hình chữ nhật. Ða giác tần suất thường không đẹp như các tổ chức đồ nhưng nó có ưu
điểm là có thể vẽ nhiều đa giác tần suất trên cùng một đồ thị để dễ so sánh các phân phối của
chúng.
12

h e m o g l o b i n
8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6
0
5
1 0
1 5
Hình 9. Ða giác tần suất hemoglobin của 28 phụ nữ nghèo (đường đỏ) so vơí 42 phụ nữ trung bình
và khá (đường xanh)
13
Ðại cương về phân tích số liệu
Phép ước lượng
Dân số và mẫu
Thông thường chúng ta không thể nghiên cứu toàn bộ dân số mà chúng ta quan tâm. Chúng ta
thường chỉ có thể nghiên cứu chỉ một phần dân số đó, phần này được gọi là mẫu (sample) và từ
đó ước đoán về những đặc tính của dân số.
Trong nghiên cứu khoa học, chúng ta đi từ đặc trưng của cá thể (biến số - variable) để có được
đặc trưng của mẫu (được gọi là thống kê - statistics) và từ đặc trưng của mẫu chúng ta sử dụng
phương pháp suy luận thống kê và lí giải để có được đặc trưng của dân số (được gọi là tham số -
parameter)
Một loại mẫu thường được gặp trong nghiên cứu là mẫu ngẫu nhiên đơn. Khi lấy mẫu ngẫu
nhiên đơn, chúng ta có thể tính được giá trị trung bình và độ lệch chuẩn của mẫu. Rõ ràng là
giá trị trung bình và độ lệch chuẩn sẽ khác nhau với những mẫu khác nhau. Tuy vậy các nhà
thống kê đã chứng minh rằng giá trị trung bình của mẫu sẽ có phân phối bình thường và các giá
trị trung bình này sẽ tập trung tại trung bình của dân số. Do đó nếu chúng ta tính trung bình của
mẫu thì chúng ta hi vọng trung bình của dân số sẽ nằm ngay tại hay ở lân cận trung bình của
mẫu. Ðộ phân tán của trung bình mẫu xung quanh chung bình dân số được gọi là sai số chuẩn
(standard error) và sẽ giảm đi khi cỡ mẫu càng lớn:

n
s
n
s
e s
2
. . · ·
Độ lệch chuẩn và sai số chuẩn là hai đại lượng thể hiện sự phân tán nhưng độ lệch chuẩn thể
hiện sự phân tán của cá thể chung quanh giá trình trung bình dân số còn sai số chuẩn là đại
lượng thể hiện sự phân tán của con số thống kê (trung bình mẫu hay tỉ lệ của mẫu) chung quanh
giá trị của tham số (trung bình dân số hay tỉ lệ của dân số).
Ước lượng khoảng tin cậy của trung bình
Như chúng ta đã trình bày, trung bình của mẫu sẽ dao động nhưng tập trung tại giá trị trung
bình của dân số, nên chúng ta có thể ước lượng trung bình dân số bằng cách tính trung bình của
mẫu.
Nhưng do trung bình mẫu có dao động, chúng ta không chắc là trung bình mẫu sẽ chính xác
bằng trung bình của dân số mà chỉ có thể tin là trung bình dân số nằm ở vị trí đâu đó chung
quanh trung bình của dân số. Các nhà thống kê cho rằng 95% các trường hợp trung bình dân số
không nằm xa quá 1,96 x SE so với trung bình mẫu: phạm vi này được gọi là khoảng tin cậy
95%. Như vậy khoảng tin cậy 95% của trung bình của biến sô định lượng
Khoảng tin cậy 95% (95% CI) : x t 1,96s/√n
Trong trường hợp cỡ mẫu nhỏ (n < 30), chúng ta không thể sử dụng giá trị 1,96 như trong công
thức trên mà cần phải sử dụng các giá trị hơi lớn hơn (và càng lớn nếu cỡ mẫu càng nhỏ), giá trị
này được gọi là giá trị của phân phối t với (cỡ mẫu – 1) độ tự do.
Khoảng tin cậy 95% (95% CI) : x t t
(1-α/2)
× s/√n
Bài tập:
1. Một nghiên cứu ghi nhận trên cỡ mẫu 1235 trẻ sơ sinh ở tỉnh Đồng Tháp cho thấy trọng lượng
trung bình của trẻ sơ sinh là 3121 gram và độ lệch chuẩn là 435 gram. Hãy ước lượng khoảng tin
cậy 95% của trọng lượng trung bình của trẻ sơ sinh tỉnh Đồng Tháp.
14
Sử dụng công thức trên ta tính được:
95%CI=3096.74 - 3145.26 gram.
2. Chiều cao của 10 thanh niên là 160; 162; 165; 166; 169; 170; 172; 172; 176; 176. Hãy ước
lượng khoảng tin cậy 95% của chiều cao trung bình.
Trước tiên chúng ta phải xác định trung bình của chiều cao là 168,8 cm và độ lệch chuẩn của
chiều cao là 5,493. Do cỡ mẫu là 10 chúng ta phải dò bảng phân phối t ở 9 độ tự do ta được giá
trị t (tương ứng với khoảng tin cậy 95%) là 2,26. Từ đó chúng ta tính được khoảng tin cậy 95%
95%CI=164.87 - 164.87.
Ước lượng khoảng tin cậy của tỉ lệ
Để ước lượng khoảng tin cậy của một tỉ lệ, chúng ta cần xác định tỉ lệ p sau đó dựa vào p để ước
lượng khoảng tin cậy 95% của p

n
) - (1 p p
p × − 96 , 1 đến
n
) - (1 p p
p × + 96 , 1
Bài tập
Điều tra trên 127 thanh niên có 45 thanh niên hút thuốc lá. Hãy tính tỉ lệ thanh niên hút thuốc lá
và khoảng tin cậy 95% của tỉ lệ hút thuốc lá.
Chúng ta tính được tỉ lệ hút thuốc lá ở thanh niên là 0.354 (35.4%). Dựa vào công thức trên
chúng ta tính được khoảng tin cậy 95% của tỉ lệ hút thuốc lá là 0,271 đến 0,438
Suy luận thống kê
Kiểm định ý nghĩa
Phương pháp kiểm định ý nghĩa được Fisher đề xuất và dựa trên căn bản của phép phản chứng.
Phép phản chứng trong logic học sử dụng bằng mệnh đề: Nếu A kéo theo B thì không B sẽ kéo
theo không A.
A⇒ B ⇔B⇒A
Một thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ tắc ruột và chúng
ta hỏi bệnh sử xem bệnh nhân có bí trung tiện hay không. Giả sử bệnh nhân không bí trung tiện
thì chúng ta sẽ bác cỏ chẩn đoán tắc ruột với suy luận sau: Nếu bệnh nhân bị tắc ruột sẽ bí trung
tiện thì bệnh nhân sẽ bí trung tiện, do bệnh nhân không bí trung tiện nên bệnh nhân không bị tắc
ruột.
Một cách tổng quan hơn, khi chúng ta đưa ra giả thuyết chẩn đoán (thí dụ như chẩn đoán tắc
ruột), chúng ta thường sẽ xem xét các hệ quả phổ biến giả thuyết này (Bệnh nhân tắc ruột
thường bị đau bụng,nôn ói, bí trung tiện và chướng bụng). Việc không có một trong các hậu quả
phổ biến của giả thuyết này (thí dụ như bệnh nhân không có đau bụng, không có nôn ói, không
bị bí trung tiện hay không có chướng bụng) thì chúng ta có thể bác bỏ chẩn đoán. Các biến cố
nằm ngoài các hệ quả phổ biến của giả thuyết (biến cố không có đau bụng, không có nôn ói,
không bị bí trung tiện hay không có chướng bụng) được gọi là miền bác bỏ của chẩn đoán.
Trong kiểm định thống kê người ta cũng sử dụng các lập luận tương tự. Để kiểm định một giả
thuyết thống kê (được gọi là giả thuyết Ho) cần phải xác định miền xảy ra phổ biến của các con
số thống kê (như trung bình, tỉ lệ, thống kê t, thống kê z, thống kê chi bình phương, v.v.) và nếu
con số thống kê này nằm ngoài miền xảy ra phổ biến thì chúng ta sẽ bác bỏ giả thuyết Ho. Miền
nằm ngoài miền xảy ra phổ biến của số thống kê được gọi miền bác bỏ.
15
Hình 1. Nguyên tắc kiểm định ý nghĩa theo Fisher. Đường cong phân phối hình chuông thể hiện
phân phối của thống kê của z khi µ=0 (giả thuyết Ho). Vùng diện tích dưới đường cong màu trắng
thể hiện miền các thống kê z thường xảy ra nếu giả thuyết Ho là đúng. Vùng diện tích dưới đường
cong màu sẫm là miền bác bỏ giả thuyết Ho và có diện tích là xác suất sai lầm loại 1 (5%).
Khi sử dụng kiểm định ý nghĩa chúng ta cần lưu ý các điểm sau:
- Kiểm định dựa trên nguyên tắc phản chứng nghĩa là chúng ta chỉ có thể bác bỏ chứ
không thể chứng minh được giả thuyết Ho. Vì vậy nếu chúng ta muốn chứng minh hút
thuốc lá là yếu tố nguy cơ của ung thư phổi thì phải đặt ra giả th.uyết thống kê Ho là hút
thuốc lá không phải là yếu tố nguy cơ của ung thư phổi và sử dụng phương pháp kiểm
định để bác bỏ điều này.
- Giả thuyết Ho phải thể hiện bằng đẳng thức (thí dụ như giả thuyết Ho: RR=1 hay Ho:
điểm trung bình về bệnh lây truyền qua đường tình dục ở nam thanh niên = điểm trung
bình về bệnh lây truyền qua đường tình dục ở nữ thanh niên ) thì mới có thể tính được
phân phối của thống kê. Giả thuyết Ho không thể thể hiện bằng bất đẳng thức (Ho: RR>1
là sai)
- Do diện tích miền bác bỏ là một con số cố định (thường là 0,05), để xác định con số
thống kê T có nằm trong miền bác bỏ hay không người ta tính xác suất xảy ra thống kê
cực đoan hơn giá trị T nếu giả thuyết Ho là đúng (được thể hiện bằng công thức: P (>T |
Ho) ). Xác suất này được gọi là giá trị p. Và nếu giá trị p nhỏ hơn ngưỡng bác bỏ nghĩa
là thống kê T nằm trong vùng bác bỏ và chúng ta có thể bác bỏ giả thuyết Ho.
Giá trị p được kí hiệu khác nhau trên các phần mềm thống kê. Thí dụ ở phần mềm Epi-Info, giá
trị p được kí hiệu là p-value, ở phần mềm SPSS, giá trị p được kí hiệu là Sig. Ở phần mềm
Stata, các giá trị p thường được kí hiệu khác nhau tùy theo thống kê được sử dụng là thống kê gì.
Cụ thể, trong phần mềm Stata, giá trị p được kí hiệu như sau:
P > |T| (nếu kiểm định t)
P > |z| (nếu kiểm định z)
Prob > chi2 (kiểm định chi bình phương)
Prob > F (Kiểm định F; Kiểm định ANOVA)
16
Kiểm định giả thuyết
Khuyết điểm của phương pháp kiểm định ý nghĩa khi không bác bỏ được giả thuyết H
0
chúng ta
không biết được xác suất H
0
đúng là bao nhiêu. Một nhà thống kê học khác tên là Neyman đã đề
ra phương pháp kiểm định giả thuyết trong đó có xét đến sai lầm loại 2.
Phaùt bieån H
0
; H
a
Tính soá thoáng keâ
(z; t; chi
2
; F)
Xaùc suaát sai
laàm loaïi 1
Nhoû
Baùc boû giaû thuyeát
Xaùc suaát sai
laàm loaïi 2
Khoâng nhoû
Nhoû
Chaáp nhaän giaû
thuyeát
Thöïc hieän nghieân
cöùu vôùi côõ maãu
lôùn hôn
Khoâng nhoû
tra baûng tính p
Sai lầm loại một và sai lầm loại hai
Sai lầm loại một: bác bỏ giả thuyết H
0
trong khi giả thuyết H
0
là đúng.
Sai lầm loại hai: Không bác bỏ giả thuyết H
0
trong khi giả thuyết H
0
sai.
Trong nghiên cứu thống kê người ta không bao giờ có thể chắc chắn. Do vậy, khi nhà nghiên
cứu đi đến kết luận bác bỏ giả thuyết H
0
, người nghiên cứu có thể bị sai lầm (sai lầm loại một -
với một xác suất nào đó). Khi nhà nghiên cứu không bác bỏ giả thuyết H
0
, nhà nghiên cứu cũng
có thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào đó). Một điều nên nhớ là bằng
kiểm định thống kê người ta có thể xác định được xác suất sai lầm loại một nhưng không thể
tính được xác suất sai lầm loại hai mà chỉ có thể tính được dựa vào đối thuyết Ha và cỡ mẫu của
nghiên cứu.
Ðôi khi người ta còn sử dụng khái niệm năng lực (power) của kiểm định thống kê. Năng lực của
kiểm định thống kê = 1 - xác suất sai lầm loại 2. Khái niệm năng lực của thống kê hay được
dùng trong tính cỡ mẫu.
Bảng 1. Tóm tắt về sai lầm loại 1, sai lầm loại 2 và giá trị ngưỡng của nó
Chân lí là Ho đúng
(Không có sự khác biệt)
Chân lí là Ha đúng
(Không có sự khác biệt)
Bác bỏ giả thuyết H
0
Sai lầm loại 1
(Xác suất = α)
Kết luận đúng
(Xác suất = 1-β =
Power của nghiên cứu)
Không bác bỏ giả thuyết H
0
Kết luận đúng
(Xác suất = 1-α)
Sai lầm loại II
(Xác suất = β)
Chọn lựa kiểm định phù hợp
Như vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như nhau). Các kiểm định
chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết H
0.
Việc lựa chọn này phụ thuộc
17
vào biến số của vấn đề quan tâm và thiết kế của nghiên cứu.
Bảng 10. Chọn lựa kiểm định phù hợp theo thiết kế nghiên cứu
Loại thiết kế nghiên cứu
Thang đo của biến số
phụ thuộc
Hai nhóm
điều trị
gồm các cá
nhân khác
nhau
Ba (hay
nhiêù)
nhóm điều
trị gồm các
cá nhân
khác nhau
Trước và
sau một
điều trị
(hoặc 2
điều trị) ở
trên cùng
các đối
tượng
Nhiều điều
trị trên cùng
các đối
tượng
Liên hệ
giữa hai
biến số
Ðịnh lượng (mẫu rút từ
một dân số có phân phối
bình thường và phương
sai hai nhóm đồng nhất
t-test không
bắt cặp
Phân tích
phương sai
t-test bắt
cặp
Phân tích
phương sai
đo lường
lập lại
Hồi quy
tuyến tính
và tương
quan
pearson
Ðịnh tính - Danh định χ
2
bảng 2 x
n
χ
2
bảng 3 x
n
test
McNemar
Cochrance
Q
Hệ số của
bảng n x m
(phi, OR,
RR)
Ðịnh tính -Thứ tự
(hay biến định lượng
không bình thường)
Kiểm định
tổng sắp
hạng
Mann-
Whitney
Kruskal-
Wallis
Kiểm định
sắp hạng có
dấu
Wilcoxon
Friedman hệ số tương
quan
Spearman
Bảng 11. Chọn lựa kiểm định phù hợp để tìm sự liên hệ giữa biến độc lập và biến phụ
thuộc
Biến phụ thuộc Biến độc lập
Nhị giá Danh định (hoặc thứ
tự)
Định lượng, đa biến
(hoặc thứ tự)
Định lượng phân phối bình
thường
T-test ANOVA Hồi quy tuyến tính
Biến định lượng phân phối không
bình thường – Biến thứ tự
Mann-Whitney Kruskal-Wallis TQ Spearman
Nhị giá Chi bình phương Chi bình phương Hồi quy logistic
Sống còn Wilcoxon tổng quát
Logrank
Wilcoxon tổng quát
Logrank
Hồi quy Cox
Phép kiểm t bắt cặp
Tiên lượng của bệnh nhân suy hô hấp mãn tính tăng carbonic thường kém (tỉ lệ tử vong trong 3
năm thay đổi từ 30% đến 100%) và hiện tại chưa có phương pháp điều trị hữu hiệu. Tilapur và
18
Mir (Am J Med 1984; 77:987) cho rằng chế độ ăn giảm carbonhydrate có thể cải thiện tình
trạng hô hấp. Các nhà nghiên cứu này tiến hành thực nghiệm trên 8 người suy hô hấp mãn tính
(có dấu hiệu của tim lớn, gan lớn, phù và tăng áp phổi) với chế độ điều trị bằng chế độ ăn 600
Kcal và ghi nhận PaO2 (phân áp oxy động mạch) và PaCO2 (phân áp carbon dioxide động
mạch) trước và sau điều trị. Kết quả nghiên cứu được trình bày trong Bảng 1. Hãy so sánh trung
bình của phân áp oxy động mạch trước và sau khi điều trị.
19
Bảng 1. Phân áp Oxy động mạch và phân áp CO2 động mạch trên 8 đối tượng trước và
sau chế độ điều trị với chế độ ăn giảm carbonhydrate
Đối tượng Pa02 trước Pa02 sau Hiệu số PaC02 trước PaC02 sau Hiệu số
1 70 82 12 49 45 -4
2 59 66 7 68 54 -14
3 53 65 12 65 60 -5
4 54 62 8 57 60 3
5 44 74 30 76 59 -17
6 58 77 19 62 54 -8
7 64 68 4 49 47 -2
8 43 59 16 53 50 -3
Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Phân áp oxy động mạch trước và sau điều trị không thay đổi
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hơp là kiểm định t bắt cặp với 7 độ tự do
Bước 3: Tính thống kê t
Tính trung bình và độ lệch chuẩn của biến số d (hiệu số của phân áp oxy động mạch trước và sau
điều trị) để tính thống kê t
66 , 4
/
; 2 , 8 ; 5 , 13 · · · ·
n s
d
t s d
d
Bước 4: tính xác suất của giá trị thống kê t
Để tính xác suất của giá trị thống kê t ta sử dụng hàm tdist(giá trị t, độ tự do, 2). Cụ thể để tính p
tương ứng với giá trị t = 4.63 ở 7 độ tự do chúng ta đánh công thức "=tdist(4.63, 7, 2) vào một ô.
Kết quả ta được giá trị p= 0.002397687.
Bước 5: Kết luận
Vì giá trị p= 0.002397687 nhỏ hơn 0.05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là phân áp oxy
động mạch có cải thiện sau khi điều trị.
Phép kiểm t (không bắt cặp)
Nhằm tìm hiểu vai trò của catecholamine trong tăng huyết áp vô căn, de Champlain (Circ Res
1976; 38:109) nghiên cứu 22 bênh nhân tăng huyết áp vô căn (gồm 13 người có nồng độ
catecholamine cao và 9 bình thường), ghi nhận nhịp tim, huyết áp tâm thu, huyết áp tâm trương.
Kết quả của nghiên cứu được trình bày trong bảng 2. Hãy so sánh nhịp tim ở hai nhóm, nhóm có
tăng catecholamine và nhóm không tăng catecholamine.
Bảng 1. Trung bình và độ lệch chuẩn của Luợng catecholamine huyết thanh, nhịp tim, huyết áp
tâm thu và huyết áp tâm trung ở 13 bệnh nhân tăng huyết áp tăng catecholamine và 9 bệnh nhân
tăng huyết áp không tăng catecholamine
Tăng catecholamine Không tăng
Số bệnh nhân 13 9
20
catecholamine huyết thanh (ug/mL) x=0.484 s=0.133 x=0.206 s=0.060
Nhịp tim x=90.7 s=11.5 x=77.8 s=13.2
Huyết áp tâm thu x=171.3 s=13.7 x=147.4 s=9.9
Huyết áp tâm trương x=103.0 s=8.3 x=95.6 s=12.9
Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Trung bình nhịp tim ở nhóm bệnh nhân có tăng catecholamine = nhịp tim trung bình ở
nhóm bệnh nhân không tăng catecholamine
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hơp là kiểm định t với (n
1
+n
2
-2) = 20 độ tự do
Bước 3: Tính thống kê t
Trước tiên chúng ta phải tính độ lệch chuẩn gộp
21 . 12
) 1 ( ) 1 (
) 1 ( ) 1 (
2 1
2
2 2
2
1 1
·
− + −
− + −
·
n n
s n s n
s
p
(Để dễ nhớ công thức tính độ lệch chuẩn gộp chúng ta cần lưu ý phương sai gộp là trung bình
của phương sai của mỗi nhóm với trọng số là độ tự do của phương sai đó)
Sau đó chúng ta tính thống kê t
44 . 2
/ 1 / 1
) (
2 1
2 1
·
+

·
n n s
x x
t
Bước 4: tính xác suất của giá trị thống kê t
Sử dụng máy vi tính chúng ta tính được giá trị p= 0,024123071 (nếu sử dụng bảng số thống kê
chúng ta sẽ tìm được p <0,05)
Bước 5: Kết luận
Vì giá trị p= 0,024123071 nhỏ hơn 0,05 nên chúng ta bác bỏ giả thuyết Ho nghĩa là giữa hai
nhóm bệnh nhân có sự khá biệt về nhịp tim trung bình.
Phân tích phương sai
Anionwo et al. (1981, BMJ; 282:283) muốn tìm hiểu xem mức hemoglobin trong 3 nhóm bệnh
hồng càu liềm có khác nhau hay không bằng cách ghi nhận mức hemoglobin ở 3 nhóm bệnh
nhân.
Bảng 7. Phân tích phương sai một chiều: sự khác biệt trong nồng độ hemoglobin giữa các bệnh
nhân bị các loại bệnh hồng cầu liềm khác nhau. Số liệu từ Anionwo et al. (1981) British Medical
Journal, 282, 283-6
(a) Số liệu
Loại bệnh hồng cầu
liềm
Số bệnh
nhân
(n
i
)
Trung bình
(x
i
)
s.d.
(s
i
)
Giá trị của các cá thể
hemoglobin g%
(x)
Hb SS 16 8,712 0,844 7,2; 7,7; 8,0; 8,1; 8,3; 8,4;
8,4; 8,5; 8,6; 8,7; 9,1; 9,1;
9,1; 9,8; 10,1; 10,3
21
Hb S/b-
thalassaemia
10 10,630 1,284 8,1; 9,2; 10,0; 10,4; 10,6;
10,9; 11,1; 11,9; 12,0; 12,1
Hb SC 15 13,300 0,942 10,7; 11,3; 11,5; 11,6; 11,7;
11,8; 12,0; 12,1; 12,3; 12,6;
12,6; 13,3; 13,8; 13,8; 13,9
Hãy sử dụng kiểm định thống kê phù hợp để so sánh nồng độ Hemoglobin trung bình ở 3 nhóm
bệnh nhân bị hồng cầu liềm.
Thực hành:
Bước 1: Xây dựng giả thuyết Ho:
Ho: Trung bình Nồng độ hemoglobin ở 3 nhóm bệnh HC liềm bằng nhau
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hợp là phương pháp phân tích phương sai (ANOVA) với thống kê F với (số
nhóm, số quan sát - số nhóm) = (2,38) độ tự do ; F tới hạn= 3,32
Bước 3: Lập bảng ANOVA và Tính thống kê F
Chúng ta lập thành bảng phân tích phương sai như sau:
Nguồn biến thiên SS d.f. MS=SS/d.f. MS giữa các nhóm
F= ----------------------------
MS bên trong nhóm
Giữa các nhóm 99,92 2 49,96 50.03 , P<0,001
Trong các nhóm 37,95 38 1,00
Tổng cộng 137,85 40
Các giá trị ở trên có thể tính theo công thức sau:
Giữa các nhóm
SS
b
= Σ n
i
×(x
i
-x)
2
= Σ n
i
x
i
2
-(Σx)
2
/N
= 16 × 8,7125
2
+10 × 10,6300
2
+15 × 12,300
2

- 430,2
2
/41=99,92
df
b
= k-1 = 2
MS
b
= SS/d.f.
Trong các nhóm
SS
w
= Σ (n
i
-1)s
i
2
=15 x 0,84452 + 9 x 1,28412 + 14 x 0,9419 = 37,96
df
w
= N - k = 41-3 = 38
MS
w
= SS/d.f.
Và giá trị thống kê F
F = MS
b
/MS
w
Bước 4: tính xác suất của giá trị thống kê F
Dựa vào máy tính chúng ta tính được giá trị p= 2.26 x 10
-11
. Chúng ta cũng có thể dựa vào bảng
thống kê F để tìm được p <0,001
Bước 5: Kết luận
Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho nghĩa là ba nhóm bệnh nhân bệnh hồng cầu
liềm có giá trị hemoglobin trung bình khác nhau có ý nghĩa thống kê.
22
Phép kiểm chi bình phương
Có 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm placebo. Trong
nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so
sánh tỉ lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức
độ liên hệ giữa vaccine cúm và bệnh cúm?
Thực hành
Bước 1: Xây dựng giả thuyết Ho:
Ho: Tỉ lệ mắc cúm ở nhóm tiêm vaccine = tỉ lệ mắc cúm ở nhóm không tiêm vaccine
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hợp là kiểm định chi bình phương với 1 độ tự do
Bước 3: Lập bảng 2 x 2 và Tính thống kê chi bình phương
Lập bảng 2 x 2 như sau
Kết quả Mắc bệnh cúm Không mắc Tổng
Tiêm chủng Có 20 a
(8,3%)
220 b 240 a+b
Placebo 80 c
(36,4%)
140 d 220 c+d
Tổng 100 a+c 360 b+d 460 N
Để tính thống kê chi bình phương có hai cách:
Phương pháp chính thức:
- Tính các giá trị kì vọng (E) ở các ô, giá trị kì vọng của một ô bằng tích các ô biên chia
cho tổng số chung (thí dụ giá trị kì vọng của ô a E
a
= (a+b) × (a+c) /N, giá trị kì vọng của ô c E
c
= (a+b) × (c+d) /N)
- Tính giá trị chi bình phương theo công thức
1) - coät (soá 1) - haøng soá × ·

Σ · ( . . ,
) (
2
2
f d
E
E O
χ
Trong thí dụ này
09 , 53 02 , 6 52 , 5 69 , 21 86 , 19
2 , 172
) 2 , 172 140 (
8 , 187
) 8 , 187 220 (
8 , 47
) 8 , 47 80 (
2 , 52
) 2 , 52 20 (
2 2 2 2
2
· + + + ·

+

+

+

· χ
Công thức tính tắt cho bảng 2 × 2
) )( )( )( (
) (
2
2
d b d c c a b a
N bc ad
+ + + +

· χ
Bước 4: tính xác suất của giá trị thống kê χ
2
Sử dụng máy vi tính chúng ta được giá trị p= 3,31 x 10
-13
nghĩa là giá trị của p rất nhỏ. Sử dụng
bảng số chúng ta biết được p < 0,001.
Bước 5: Kết luận
Vì giá trị rất nhỏ nên chúng ta bác bỏ giả thuyết Ho. Chúng ta có thể kết luận tỉ lệ mắc cúm ở
nhóm tiêm vaccine thấp hơn có ý nghĩa thống kê so với nhóm tiêm placebo.
23
Sự tương quan của hai biến số định tính
Mức độ liên hệ giữa tiêm chủng vaccine và mắc bệnh cúm
Mức độ liên hệ giữa hai biến số định tính được ước lượng bằng cách sử dụng RR (hoặc OR nếu
trong nghiên cứu bệnh chứng). Giả sử số liệu của bảng 2 x2 nằm ở vùng C2:D3 chúng ta có thể
tính RR bằng cách nhập công thức "=MHRR(C2:D3)" ta được RR=0,23 với khoảng tin cậy 95%
của RR từ 0,15 đến 0,36
So sánh tỉ lệ của biến số nhị giá : Kiểm định chi-bình phương
Khi hai biến số là biến số nhị giá người ta sử dụng giá trị RR hay OR để đo lường mức độ liên
hệ (xem lại phần các số đo dịch tễ).
Kết quả Mắc bệnh Không mắc
bệnh
Tổng
Biến số phơi
nhiễm
Phơi nhiễm
a
1
b
1
N
1
Không phơi
nhiễm
a
o
b
0
N
0
Tổng
a
1+
a
0
b
1+
b
0
N=N
1
+N
0
Tỉ số nguy cơ (RR) là tỉ số của nguy cơ của nhóm phơi nhiễm trên nguy cơ của nhóm không
phơi nhiễm:
RR = (a
1
/N
1
)/(a
0
/N
0
)
Khoảng tin cậy 95% của tỉ số nguy cơ:
0 0 1 1
1 1 1 1
96 , 1
N a N a
e RR
− + − ×
÷ ×
hay
2
96 , 1
1
χ
t
RR
(test-based CI)
Tỉ số số chênh (OR) là tỉ số của số chênh mắc bệnh của nhóm phơi nhiễm trên số chênh mắc
bệnh ở nhóm không phơi nhiễm. Trong trường hợp nghiên cứu bệnh chứng tỉ số số chênh là tỉ số
của số chênh phơi nhiễm của nhóm bệnh trên số chênh phơi nhiễm ở nhóm không chứng.
RR = (a
1
/b
1
)/(a
0
/b
0
)
Khoảng tin cậy 95% của tỉ số số chênh:
0 0 1 1
1 1 1 1
96 , 1
b a b a
e OR
+ + + ×
÷ ×
Bài tập
Một nghiên cứu bệnh chứng nhằm tìm mối liên hệ giữa sự ăn thịt và viêm ruột hoại tử đã tìm
được 61 trường hợp viêm ruột hoại tử và 57 trường hợp chứng. Trong nhóm bị viêm ruột hoại tử
có 50 trường hợp có tiền căn ăn thịt (gần đây) và trong nhóm chứng có 16 trường hợp có tiền
căn ăn thịt. Hãy tìm ước lượng số đo liên hệ giữa ăn thịt và viêm ruột hoại tử.
24
Table 5. Sự liên hệ giữa ăn thịt trong thời gian gần đầu và viêm ruột hoại tử ở Papua New Guinea
(OR=11,6)
Ăn thịt trong thời gian gần đây Không ăn thịt trong thời gian
gần đây
Tổng số
Nhóm bệnh 50 a
1
11 b
1
61
Nhóm chứng 16 a
0
41 b
0
57
Tổng số 66 52 118
Nếu tỉ lệ ăn thịt ở nhóm bệnh (50/61) cao hơn tỉ lệ ăn thịt trong nhóm chứng (16/57) có ý nghĩa
thống kê thì chúng ta có thể kết luận rằng có sự liên quan giữa ăn thịt và viêm ruột hoại tử. Đây
là bài toán so sánh tỉ lệ của một biến số định tính ở hai nhóm và được giải quyết bằng kiểm định
chi bình phương.
Tuy nhiên bằng việc kiểm định giả thuyết chúng ta chỉ xác định có mối liên hệ mà không biết độ
lớn của sự liên hệ. Bởi vì đây là nghiên cứu bệnh chứng chúng ta không tính được RR mà phải
sử dụng OR để đo lường sức mạnh liên hệ. Sử dụng công thức tính OR và khoảng tin cậy của
OR ta được:
OR = (a
1
/b
1
)/(a
0
/b
0
) = (a
1
× b
0
)/(a
0
× b
1
) = 11.65 và
khoảng tin cậy 95% của OR = 4.87 đến 27.85
Bài tập
Có 240 người được tiêm vaccine phòng bệnh cúm và 220 người được tiêm placebo. Trong
nhóm tiêm vaccine có 20 người bị cúm và trong nhóm tiêm placebo có 80 người bị cúm. Hãy so
sánh tỉ lệ mắc cúm giữa 2 nhóm: nhóm tiêm vaccine và nhóm tiêm placebo? Hãy cho biết mức
độ liên hệ giữa vaccine cúm và bệnh cúm?
Kết quả Mắc bệnh cúm Không mắc Tổng
Tiêm chủng Có 20 a
1
(8,3%)
220 b
1
240 N
1
Placebo 80 a
0
(36,4%)
140 d
220 N
0
Tổng 100 360 460 N
Ta tính được RR = (a
1
/N
1
)/(a
0
/N
0
) = (20/240)/(80/220) = 0.23
Khoảng tin cậy 95% của tỉ số nguy cơ:
0 0 1 1
1 1 1 1
96 , 1
N a N a
e RR
− + − ×
÷ ×
= 0.15 đến 0.36
Quan hệ giữa hai biến số định lượng
Tương quan
Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có nhiều loại hệ số
tương quan, nhưng chúng đều có giá trị từ -1 đến 1. Nếu chúng có giá trị bằng zero có nghĩa là
hai biến số độc lập và không quan hệ gì với nhau. Nếu chúng có giá trị dương có nghĩa là hai
biến số đồng biến với nhau, nếu chúng có giá trị âm nghĩa là hai biến số nghịch biến. Giá trị
tuyệt đối của hệ số tương quan càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai
trò của sai số ngẫu nhiên sẽ ít hơn. Khi trị tuyệt đối của hệ số tương quan bằng một có nghĩa là
hoàn toàn không có sai số ngẫu nhiên.
25
Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r:
1
/ ) (
) ( ) (
) )( (
2 2

×
×
× − Σ
·
− −
− −
·
∑ ∑

n
n y x n xy
y y x x
y y x x
r
y x
i i
i i
σ σ
Lí giải ý nghĩa của hệ số tương quan Pearson
- Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]
- Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm chứng tỏ
hai biến số là nghịch biến.
- Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số. Nếu trị tuyệt
đối của r bằng 1 (r=1 hay r=-1), quan hệ hoàn toàn tuyến tính nghĩa là tất cả các điểm nằm trên
đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu
phân tán chung quanh đường hồi quy (hình 9.2 c và 9.2e).
- Bình phương của hệ số tương quan (r
2
) thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải
thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả)
- Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1) không có
mối liên hệ gì giữa hai biến số hoặc (hình 9.2a) (2) mối liên hệ giữa hai biến số không phải là
tuyến tính (hình 9.2b)
- Theo quy ước, quan hệ với r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình
và trên 0,5 là quan hệ mạnh.
Hồi quy
Hồi quy là một mô hình toán học mô tả sự biến đổi của một biến số này theo những biến số
khác.
Một phương trình hồi quy có thể có dạng như sau:
cân nặng (kg) = 6,85 + 0,18 × tháng tuổi
(phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi)
theo phương trình này người ta gọi:
cân nặng: biến số phụ thuộc
tháng tuổi: biến số độc lập
6,85: hệ số của hằng số, hay còn gọi là điểm chặn (intercept)
0,18: hệ số của biến số tháng tuổi.
Một cách tổng quát phương trình hồi quy sẽ có dạng:
Y = b
0
+ b
1
x
1
+ b
2
x
2
+ b
3
x
3
Với y là biến số phụ thuộc
x
1
, x
2
, x
3
là các biến số độc lập
b
0
: điểm chặn của phương trình
b
1
, b
2
, b
3
: hệ số của các biến số độc lập
Hệ số của biến số độc lập nói lên nếu biến số độc lập tăng một đơn vị thì biến số phụ thuộc y sẽ
thay đổi bao nhiêu. Cụ thể hơn nếu biến số x
2
thay đổi một đơn vị thì biến số y sẽ tăng giá trị là
b
2
(biến số y sẽ giảm nếu giá trị b
2
âm).
Bài tập
1. Một nhà nghiên cứu ghi nhận lượng muối ăn và huyết áp tâm thu của 5 đối tượng trong bảng
4.
Đối tượng Lượng muối Huyết áp
26
1 5 110
2 10 120
3 12 110
4 18 120
5 20 140
Hãy tìm mối liên hệ giữa huyết áp tâm thu và lượng muối sử dụng.
Thực hành
Để tìm sự liên hệ giữa hai biến số định lượng chúng ta sử dụng hệ số tương quan. Dựa vào công
thức ta tính được
r = 0,771829.
Như vậy có mối liên quan thuận giữa lượng muối ăn và huyết áp tâm thu. Mối liên quan này là
mạnh và lượng muối ăn giải thích cho đến 60% (0.77 × 0.77) sự thay đổi của huyết áp tâm thu.
Chúng ta cũng tìm được phương trình của huyết áp theo lượng muối tiêu thụ sẽ là:
Huyết áp tâm thu = 99,8 mmHg + 1,55 x Lượng muối.
Giá trị 99,8 được gọi là điểm chặn của phương trình hồi quy và 1,55 là hệ số góc của biến số
lượng muối tiêu thụ. Điều này có nghĩa là nếu lượng muối ăn tăng thêm 1 gram/ngày thì huyết
áp tâm thu sẽ tăng trung bình 1,55 mmHg.
2. Lý giải ý nghĩa của phân tán đồ sau
Figure 8. Trọng lượng sơ sinh theo tuổi thai (tuần) của 641 trẻ sinh do thụ thai trong ống nghiệm ở
Anh quốc
t
r
o
n
g

l
u
o
n
g

t
r
e
tuoi thai
20 24 28 32 36 40 44
0
1000
2000
3000
4000
5000
27
Xác định và chọn ưu tiên nghiên cứu
Mục tiêu
Sau buổi thảo luận các hội thảo viên có thể:
- Xác định các tiêu chuẩn để chọn lựa các vấn đề y tế ưu tiên để nghiên cứu
- Làm việc theo nhóm nhỏ, dùng các tiêu chuẩn đã chọn để xác lập ưu tiên nghiên cứu
- Sử dụng các phương pháp đồng thuận nhóm để chọn một chủ đề thích hợp để thực hiện
đề cương nghiên cứu và đề cương này sẽ được sử dụng trong suốt khoá đào tạo
Xác định vấn đề
Vấn đề là một thiếu sót hay khoảng cách giữa hiện tại và điều mong đợi. Thí dụ nếu tỉ lệ tiêm
chủng đủ 6 loại vaccine của các bệnh Lao, Bạch hầu, Ho gà, Uốn ván, Bại liệt, Sởi ở trẻ em 12
tháng tuổi tại một địa phương là 60% trong khi chúng ta mong muốn tỉ lệ tiêm chủng đầy đủ là
90% thì tỉ lệ tiêm chủng thấp là một vấn đề.
Nếu tỉ lệ tiêm chủng vaccine viêm gan virus B ở trong dân số là 30% trong khi chúng ta không
đặt ra chỉ tiêu tiêm chủng của loại vaccine này thì tỉ lệ tiêm chủng vaccine viêm gan virus B
30% không phải là vấn đề.
Vấn đề có thể xảy ra do thiếu hụt trang thiết bị, do cơ cấu tổ chức thì vấn đề được gọi là vấn đề
quản lí. Thí dụ việc điều trị cho bệnh nhân sốt rét không tốt do trạm y tế không có đủ thuốc sốt
rét để điều trị sốt rét cho bệnh nhân thì vấn đề này được gọi là vấn đề quản lí và cần được giải
quyết bằng cách làm việc với chương trình sốt rét để cung cấp thêm thuốc. Đôi khi vấn đề xảy ra
do chúng ta không có đủ kiến thức về vấn đề đó. Thí dụ, nếu chúng ta không thể điều trị tốt bệnh
nhân sốt rét do chúng ta không biết được kí sinh trùng sốt rét đã kháng với loại thuốc nào và còn
nhạy cảm với thuốc chống sốt rét nào. nghiên cứu Khi đó vấn đề này là vấn đề nghiên cứu và
câu hỏi mà chúng ta cần phải trả lời để giải quyết vấn đề nghiên cứu được gọi là câu hỏi nghiên
cứu.
Các câu hỏi nghiên cứu có thể được phân thành ba loại tuỳ theo loại kiến thức cần tìm:
1- Mô tả vấn đề y tế để nhằm xây dựng kế hoạch can thiệp: mô tả có thể bao gồm các thông tin
về độ lớn và phân bố của nhu cầu sức khoẻ hoặc thông tin về nguồn lực nhằm xây dựng kế
hoạch can thiệp.
2. Kiến thức để đánh giá một chương trình can thiệp hay một phác đồ điều trị về các phương
diện: độ bảo phủ của nhu cầu sức khoẻ, độ bao phủ của dân số mục tiêu, chất lượng, hiệu quả,
chi phí, v.v
3. Kiến thức đề xác định các vấn đề y tế hay phân tích nguyên nhân của vấn đề để tìm giải pháp.
Một vấn đề cần được nghiên cứu phụ thuộc và ba điều kiện:
1. Phải có sự bất cập, khoảng cách giữa điều đang tồn tại và điều chúng ta mong muốn
2. Lí do của vấn đề đó (khoảng cách) là chưa rõ
3. Phải có nhiều hơn một câu trả lời cho vấn đề nghiên cứu đó
Tiêu chuẩn chọn ưu tiên cho vấn đề nghiên cứu
Có 7 tiêu chuẩn được sử dụng để hướng dẫn chọn ưu tiên cho các vấn đề nghiên cứu:
1. Tính xác hợp: Tính xác hợp của vấn đề nghiên cứu phụ thuộc vào quy mô và mức độ trầm
trọng của vấn đề. Cần lưu ý tính xác hợp của vấn đề phụ thuộc vào quan điểm của các bên.
2. Tránh trùng lắp: Cần phải kiểm tra xem nghiên cứu đã được thực hiện ở tại địa phương hay
không hay tại một địa phương có điều kiện tương tự hay không
3. Tính khả thi: Cần xem xét mức độ phực tạp của đề tài và nguồn lực cần thiết để tiến hành
28
nghiên cứu: nhân sự, thời gian, trang thiết bị và tiền bạc. Nếu vấn đề là quan trọng mà nguồn lực
không đủ có thể xem xét việc xin tài trợ từ các nguồn ở bên ngoài.
4. Tính được chấp nhận từ các nhà quản lí: Nói chung một nghiên cứu cần được sự quan tâm và
ủng hộ của các cấp có thẩm quyền. Khi đó nghiên cứu được tiến hành một cách thuận lợi hơn và
kết quả có thể được ứng dụng để đưa vào thực tiễn. Nếu một nghiên cứu được tiến hành nhằm
thay đổi một chính sách thì cần phải tranh thủ sự ủng hộ và sự tham gia của các nhà hoặch định
chính sách.
5. Tính ứng dụng của kết quả và các kiến nghị Các kiến nghị có thể được áp dựng hay không?
Điều này không chỉ phụ thuộc vào sự quan tâm của các cấp lãnh đạo mà còn phụ thuộc vào
nguồn lực hiện có tại địa phương.
6. Tính cấp thiết của đề tài: Kết quả của nghiên cứu có cần thiết để ra một quyết định khẩn cấp
hay không? Nghiên cứu nào cần phải làm trước và nghiên cứu nào có thể thực hiện sau.
7. Tính chấp nhận về đạo đức: Bao gồm sự chấp nhận của cộng đồng kể cả về mặt lợi ích và văn
hoá. Nghiên cứu này có sử dụng thư mời chấp nhận tham gia nghiên cứu hay không? Nếu kết
quả phát hiện bệnh tật ở người dân có cung cấp điều trị cho họ hay không?
Thang điểm đánh giá các chủ đề nghiên cứu
Tính xác hợp:
1. Không xác hợp: bệnh ít gặp và không trầm trọng
2. Xác hợp: bệnh phổ biến nhưng ít trầm trọng
3. Rất xác hợp: phổ biến có hậu quả xấu
Tránh trùng lắp
1. Đã đủ thông tin về vấn đề nghiên cứu
2. Có thông tin về vấn đề nghiên cứu nhưng chưa bao phủ vấn đề chính
3. Không có thông tin để giải quyết vấn đề
Tính khả thi
1. Nghiên cứu không khả thi với tài nguyên sẵn có
2. Nghiên cứu khả thi với nguồn lực sẵn có
3. Nghiên cứu rất khả thi với nguồn lực sẵn có
Tính chấp nhận của cấp lãnh đạo
1. Chủ đề không chấp nhận được với lãnh đạo
2. Chủ đề ít nhiều khó chấp nhận
3. Chủ đề được chấp nhận hoàn toàn
Tính ứng dụng
1. Khuyến cáo ít cơ hội được thực hiện
2. Khuyến cáo có ít nhiều cơ hội được thực hiện
3. Khuyến cáo có nhiều cơ hội được thực hiện
Tính cấp thiết
1. Thông tin không cấp thiết cần thiết
2. Thông tin cần thiết ngay nhưng có thể trì hoãn
3. Thông tin rất cần thiết để ra quyết định
29
Tính chấp nhận về đạo đức
1. Có vấn đề quan trọng về đạo đức
2. Có một ít trở ngại về đạo đức
3. Không có vấn đề đạo đưc
Bảng điểm
Vấn đề 1 Vấn đề 2 Vấn đề 3 Vấn đề 4
1. Tính xác hợp
2. Tránh trùng lắp
3. Khả thi
4. Được lãnh đạo
chấp nhận
5. Tính ứng dụng
6. Tính cấp thiết
7. Y đức
Tổng số
30
Phương pháp phân tích và khẳng định vấn đề nghiên cứu
Mục tiêu
Sau khi hoàn tất buổi tập huấn các hội thảo viên có thể:
1. Phân tích một vấn đề và các yếu tố ảnh hưởng đến nó
2. Viết phần đặt vấn đề cho đề cương nghiên cứu mà mình sẽ phải xây dựng
Phân tích vấn đề
Phân tích vấn đề là công việc xác định vấn đề cốt lõi từ vấn đề nghiên cứu và xác định các yếu
tố ảnh hưởng đến vấn đề cốt lõi đó.
Thí dụ: một bác sĩ hồi sức cấp cứu nhận xét tỉ lệ tử vong ở những bệnh nhân hôn mê do đái tháo
đường là rất cao do không xác định được phác đồ điều trị phù hợp cho các bệnh nhân này. Vấn
đề này có thể do nhiều vấn đề nhỏ khác nhau như: tăng áp lực thẩm thấu, nhiễm toan chuyển
hóa, do mất nước, do ổ nhiễm trùng tiềm ẩn, do bệnh nền, v.v. Giả sử người bác sĩ xác định
nhiễm toan chuyển hóa là nguyên nhân chủ yếu của tử vong ở các bệnh nhân hôn mê đái tháo
đường và ông ta liệt kê các các yếu tố ảnh hưởng đến toan chuyển hóa thì đây là việc phân tích
vấn đề
Bước này có thể đơn giản hay phức tạp tùy theo mức độ hiểu biết về vấn đề nghiên cứu của nhà
nghiên cứu. Việc phân tích vấn đề nhằm các mục đích:
1. Cho phép các thành viên nghiên cứu chia xẻ kiến thức về vấn đề nghiên cứu
2. Làm rõ vấn đề nghiên cứu và các yếu tố ảnh hưởng đến nó
3. Làm thuận lợi hơn việc quyết định về phạm vi và trọng tâm của nghiên cứu
Các bước để phân tích vấn đề
Bước 1: Làm rõ các quan điểm của các nhà quản lí, nhân viên y tế và nhà nghiên cứu có
liên quan đến vấn đề. Điều này là cần thiết bởi vì đôi khi quan điểm của nhà quản lí
không thể hiện một cách rõ ràng mà chỉ có thể là "Vấn đề chăm có bệnh nhân tiểu đường
cần phải xem lại". Do vậy nó cần được làm rõ
Bước 2: Chuyên biệt và mô tả vấn đề cốt lõi, bao gồm bản chất của vấn đề, phân bố của
vấn đề và quy mô và mức độ trầm trọng của vấn đề cốt lõi
Bước 3: Phân tích vấn đề: các yếu tố góp phần vào vấn đề và cần làm sáng tỏ mối quan
hệ giữa vấn đề và yếu tố góp phần. Bước này được chia làm 4 bước nhỏ:
- Viết ra vấn đề cốt lõi ở giữa tờ giấy
- Động não để tìm ra các yếu tố có ảnh hưởng đến vấn đề
- Xác định thêm các yếu tố góp phần vào vấn đề
- Phân các yếu tố có liên quan thành các nhóm: kinh tế xã hội, dịch vụ y tế và các yếu tố
bệnh tật.
Bước 1: Làm rõ quan điểm của nhà nghiên cứu, nhân viên y tế và nhà lãnh đạo
- Đôi khi quan điểm của nhà lãnh đạo được phát biểu chưa rõ ràng thí dụ như : “Cần xem xét lại
việc chăm sóc bệnh nhân tiểu đường”; “Cần nghiên cứu vấn đề bỏ tuyến”, “Khảo sát vấn đề điều
trị DOTS”. Khi đó chúng ta cần thảo luận và khẳng định dưới dạng vấn đề là khoảng cách giữa
“hiện tại” và “điều mong muốn”
- khi vấn đề dưới dạng trình bày rõ ràng, vấn đề trở thành nhiều vấn đề nhỏ:
Tỉ lệ chữa khỏi ở bệnh nhân điều trị bằng DOTS thấp
Nhân viên y tế không đảm bảo đúng chức năng giám sát
31
Bệnh nhân không tuân thủ lịch điều trị
Bệnh nhân tiểu đường và thân nhân không có nhận thức đủ về tiểu đường và tự chăm sóc
trong tiểu đường
Bệnh nhân tiểu đường có biến chứng cao
Bệnh nhân tiểu đường ít dung nạp với điều trị
Tỉ lệ tái nhập viện cao trong những bệnh nhân tiểu đường
Bước 2:
- chọn vấn đề cốt lõi từ các vấn đề nhỏ
Bệnh nhân tiểu đường có biến chứng cao
Tỉ lệ tái nhập viện cao trong những bệnh nhân tiểu đường
- Mô tả vấn đề cốt lõi theo:
Bản chất: sự khác biệt về “hiện tại” và “mong muốn”
Phân bố của vấn đề: Con người, thời gian, nơi chốn
Tầm cỡ và độ trầm trọng của vấn đề: quy mô của vấn đề, độ trầm trọng của vấn đề, hậu
quả vấn đề
Bước 3:
- Xác định yếu tố góp phần tạo ra vấn đề và mối quan hệ giữa vấn đề và vấn đề góp phần
Sử dụng sơ đồ cây vấn đề, trong đó vấn đề được đặt ở giữa và các yếu tố ảnh hưởng và góp phần
được đặt chung quanh và hướng mũi tên thể hiện sự tác động. Vấn đề thường được vẽ với 2
đường viền để phân biệt với các yếu tố ảnh hưởng.
Yeáu toá
Yeáu toá
Vaán ñeà
\
Quá trình này bao gồm các bước sau:
Bước 3.1: Viết vấn đề cốt lõi ở giữa
Bước 3.2: tìm ra các yếu tố ảnh hưởng
Beänh nhaân
khoâng dung
naïp ñieàu trò
Khoâng coù
ñieàu trò taïi
cô sôû
Tæ leä taùi nhaäp
vieän do beänh tieåu
ñöôøng cao
Tæ leä bieán
chöùng cao
Tæ leä bieán
chöùng cao
Bước 3.3: Tiếp tục tìm ra các yếu tố ảnh hưởng và góp phần sao cho các yếu tố này là
yếu tố có thể thay đổi. Ở dưới là một số cây vấn đề của vấn đề lao phổi và tăng huyết áp.
32
Nhöõng yeáu toá
dòch vuï khaùc
Tæ leä boû trò ôû
beänh nhaân lao
phoåi cao
BN khoâng
hieåu söï caàn
thieát
Nhöõng yeáu
toá caù nhaân
vaø xaõ hoäi
Khoâng ñuû
nhaân vieân
Khoâng tö
vaán cho BN
Nhaân vieân
khoâng huaán
luyeän
Khoâng ñuû
taøi lieäu ñeå
GDSK Lao
Thieáu hieåu bieát
veà caûm nhaän
cuûa BN Lao veà
lao phoåi
Chaát löôïng
dòch vuï keùm
Ñoä naëng
cuûa beänh
Tæ leä boû trò ôû
beänh nhaân lao
phoåi cao BN khoâng hieåu
söï caàn thieát
phaûi ñieàu trò
Tham vaán
khoâng ñuû
Thieáu söï hoã
trôï töø gia
ñìnhï
Ñaùp öùng
vôùi ñieàu trò
Ñieàu trò
thuoác nam
Kieán thöùc keùm
veà nguyeân
nhaân vaø haäu
quaû beänh
Tuoåi; Giôùi;
Giaùo duïc
Thieáu söï hoã
trôï chuû lao
ñoäng
Caáu truùc
gia ñình
Ngheà
nghieäp
Phoøng
khaùm xa
Tính phuïc vuï:
- Giôø môû cöûa
- Ñôïi laâu
- Khoâng ñuû nhaân vieân
- Khoâng ñuû huaán luyeän
- Thieáu hieåu bieát veà beänh nhaân
lao
- Khoâng ñuû taøi lieäu
- Thieáu giaùm saùt
- Phaùc ñoà khoâng thích hôïp
- Höôùng daãn khoâng thích hôïp
33
Tai bieán
maïch maùu
naõo
Dò daïng
maïch
Beänh tim
Taêng huyeát
aùp
Vaän ñoäng
haøng ngaøy
Löôïng muoái
tieâu thuï
Beùo phì
Cheá ñoä aên
Khoâng hieåu
bieát veà CHA
Khoâng tuaân
thuû ñieàu trò
Khoâng coù
giaùo duïc söùc
khoeû
Dòch vuï y teá
chöa toát
Beänh nhaân
khoâng bieát
soá ño HA
Taêng huyeát
aùp
Huùt thuoác laù
Uoáng röôïu
Roái loaïn lipid
maùu
Roái loaïn
ñöôøng huyeát
Bước 3.4: Sắp xếp các yếu tố thành các nhóm lớn và xây dựng sơ đồ:
Yếu tố kinh tế xã hội: Gồm tuổi, giới, học vấn, nghề nghiệp, kiến thức cộng đồng, các loại hình
điều trị ở cộng đồng, thái độ với các loại hình điều trị
Yếu tố dịch vụ y tế: tính có được và tiếp cận được của dịch vụ, quản lí dịch vụ y tế, chất lượng
cơ sở y tế
Yếu tố y sinh: độ trầm trọng của bệnh tật, đáp ứng với điều trị, hiện tượng kháng thuốc, độc lực
vi khuẩn
Chú ý:
- Nếu bản chất nghiên cứu là mô tả, sơ đồ phân tích không tìm kiếm nguyên nhân của vấn đề
- Thí dụ nếu chúng ta muốn nghiên cứu kiến thức, thái độ, hành vi của học sinh về giun sán để
xây dựng tài liệu giáo dục sức khoẻ ở trường học. Có 2 sơ đồ:
– Những yếu tố KAP gây nên bệnh giun sán
– Những yếu tố góp phần vào sự phát triển KAP ở thanh thiếu niên
Xác định phạm vi và trọng tâm của nghiên cứu
Sau khi phân tích vấn đề, cần phải xem xét lại trọng tâm và phạm vi của đề tài. Việc xác định
phạm vi và trọng tâm của đề tài phụ thuộc vào
1. Tính hữu dụng thông tin (thông tin về các yếu tố góp phần): Thông tin nào khi được
thu thập để giải quyết vấn đề sẽ giúp giải quyết vấn đề y tế và cải thiện chăm sóc y tế?
Thông tin này cần thiết cho ai? Thông tin sẽ giải quyết đến các yếu tố nào của vấn đề?
2. Tính khả thi: Có thể thu thập được những thông tin nào trong thời gian dự định dành
để thực hiện nghiên cứu?
3. tính lập lại: Có thông tin nào liên quan đến các yếu tố trong sơ đồ đã có rồi? vấn đề
nào của thông tin cần được nghiên cứu thêm.
34
Lưu ý:
- Cần tham khảo tài liệu hoặc hỏi ý kiến chuyên gia để xác định trọng tâm và phạm vi của
nghiên cứu
- Nếu chưa rõ sự liên hệ và tầm quan trọng của các yếu tố góp phần, khi xác định phạm vi
nghiên cứu dễ có nguy cơ bỏ qua những yếu tố góp phần quan trọng nhất.
- Để rõ mối liên hệ và tầm quan trọng của các yếu tố góp phần, sử dụng nghiên cứu thăm dò
nhằm phát hiện tối đa những yếu tố có liên quan bằng cách nghiên cứu một số ít đối tượng.
Xây dựng phần đặt vấn đề
Phần đầu tiên trong một đề cương nghiên cứu là phần đặt vấn đề. Phần này hết sức quan trọng
bởi vì nó đặt nền tảng cho sự xây dựng tiếp theo của đề cương nghiên cứu, giúp tìm kiếm thông
tin và báo cáo từ các nghiên cứu khác để có thể tham khảo và cho phép chỉ ra một cách có hệ
thống tại sao vấn đề này được nghiên cứu và chúng ta có thể gặt hái gì từ kết quả nghiên cứu.
Điều này là rất quan trọng khi chúng ta trình bày nghiên cứu của chúng ta cho các thành viên
của cộng đồng và các nhân viên, cán bộ và lãnh đạo ngành y tế.
Các thông tin cần thiết trong phần đặt vấn đề
1. Mô tả ngắn gọn về đặc điểm kinh tế xã hội, văn hoá , tình trạng sức khoẻ và y tế của địa
phương có liên quan đến vấn đề nghiên cứu.
2. Mô tả về bản chất của vấn đề (sự khác biệt giữa thực tiễn và điều mong muốn) nếu vấn đề còn
chưa rõ.
3. Phân tích các yếu tố chính ảnh hưởng đến vấn đề
4. Mô tả các giải pháp đã được sử dụng trước đây hoặc kết quả các nghiên cứu trước và nêu rõ lí
do tại sao cần giải pháp mới hay cần một nghiên cứu mới
5. Mô tả loại thông tin hi vọng sẽ có được từ nghiên cứu và thông tin này sẽ giúp giải quyết vấn
đề này như thế nào hay giúp trả lời câu hỏi nghiên cứu như thế nào?
6. Nếu cần thiết cần nêu ra định nghĩa của những khái niệm quan trọng của nghiên cứu.
35
Tổng quan y văn
Mục tiêu
Sau khi nghiên cứu phần này, học viên có khả năng
1. Trình bày những lí do để tham khảo các y văn có sẵn và các thông tin khác trong khi
chuẩn bị đề cương nghiên cứu
2. Trình bày các nguồn tài liệu có thể tham khảo
3. Chuẩn bị tổng quan y văn và những thông tin khác có liên quan đến đề cương nghiên
cứu, những thông tin này trình bày các số liệu nền tảng và những thông tin hỗ trợ cho
chủ đích nghiên cứu.
Tại sao cần phải tham khảo y văn khi chuẩn bị đề cương nghiên cứu
Việc tham khảo y văn sẽ giúp chúng ta tránh việc lập lại các công trình đã làm từ trước
Tham khảo y văn sẽ giúp bạn tìm hiểu các nhà nghiên cứu khác đã phát hiện và báo cáo
những gì về vấn đề bạn muốn nghiên cứu. Điều này giúp bạn hoàn thiện phần đặt vấn đề
Tham khảo y văn gúp bạn quen thuộc hơn với những loại thiết kế nghiên cứu đã được sử
dụng trong chủ đề nghiên cứu này
Tham khảo y văn cho bạn những lí lẽ thuyết phục tại sao đề tài nghiên cứu của bạn là cần
thiết.
Những nguồn thông tin có thể tham khảo
Chúng ta có thể tham khảo các nguồn thông tin khác nhau. Các nguồn thông tin này có thể là các
cá nhân, các nhóm người hay các tổ chức. Nguồn thông tin cũng có thể là từ những tài liệu đã
xuất bản như sách vở, tạp chí, bài báo, các thư mục hoặc những tài liệu chưa xuất bản như đề
cương nghiên cứu, báo cáo, hồ sơ, cơ sở dữ liệu trong máy tính. Hiện nay các website trên
internet là một nguồn thông tin quan trọng để có được các ý kiến của cá nhân, của các nhóm, các
tổ chức, các tài liệu đã xuất bản hoặc tài liệu chưa xuất bản.
Các nguồn thông tin có thể có ở nhiều cấp khác nhau, cấp độ địa phương, cấp độ quốc gia hay
cấp độ
Cấp độ Thí dụ về nguồn thông tin
Địa phương - Số liệu của bệnh viện hay phòng khám từ các thống kê định kì
- Ý kiến, niềm tin của các nhân vật chủ chốt
- Quan sát lâm sàng, báo cáo các tai biến
- Điều tra hay báo cáo hàng năm
- Niên giám thống kê của địa phương
- Sách, bài báo khoa học, báo chí, v.v
Quốc gia - Bài báo từ các tạp chí khoa học quốc gia, sách vở tìm kiếm được trong
thư viện của trường đại học, thư viện của WHO, UNICEF
- Văn bản, báo cáo, số liệu thô từ
- Bộ y tế
- Tổng cục thống kê
- Các tổ chức phi chính phủ
Quốc tế - Các tạp chí khoa học, tạp chí chuyên ngành
- Các ấn bản của WHO, UNICEF, UNFPA, v.v
36
- Các sách, tài liệu khoa học kinh điển
Cách viết phần tổng quan
Có một số bước phải thực hiện để chuẩn bị cho việc tổng quan y văn và các thông tin
1. Đầu tiên phải tổ chức các thẻ thư mục theo nhóm của các chủ đề tuỳ theo nó có liên
quan đến khía cạnh nào của vấn đề
2. Sau đó, quyết định trình tự trình bày các chủ đề. Nếu phát hiện rằng bạn đã không
tìm được y văn cho thông tin về một khía cạnh của vấn đề của bạn mà bạn cảm thấy rằng
nó quan trọng, cần phải nỗ lực để tìm kiếm y văn đó.
3. Cuối cùng, trình bày ý tưởng theo ngôn từ một cách mạch lạc trong vòng từ một đến
hai trang nhưng cần phải có tài liệu tham khảo.Có hai cách trích dẫn tài liệu tham khảo:
- Bạn có thể đánh số thứ tự trên văn bản để tham chiếu đến các tài liệu tham khảo. Sau
đó liệt kê các tài liệu tham khảo theo thứ tự và sử dụng các thông tin được mô tả trong
thẻ thư mục và phần liệt kê các tài liệu tham khảo này phải được đưa vào sau đề cương
để làm phụ lục (cách trích dẫn này thường được gọi là trích dẫn theo hệ thống
Vancouver).
- Một cách khác là bạn có thể viết họ của tác giả nước ngoài (toàn bộ tên và họ nếu là tác
giả trong nước), năm xuất bản và số trang được trích dẫn để tham chiếu đến tài liệu tham
khảo. Trong trường hợp này liệt kê các tài liệu tham khảo theo thứ tự bảng chữ cái và
phần liệt kê cũng được đưa vào sau đề cương để làm phụ lục (cách trính dẫn này được
gọi là trích dẫn theo hệ thống Havard)
4. Quy tắc liệt kê tài liệu tham khảo:
Tạp chí:
Altman Cho DG. Statistics in medical journals. Stat Med 1983;1:59-71.
[Họ - tên tắt].[Tên bài báo].[Tên tờ báo] [năm XB];[số]:[trg đầu]-[trg cuối]
Sách:
Andersen B. Methodological errors in medical research. An incomplete catalogue.
Oxford: Blackwell, 1990.
[Họ - tên tắt].[Nhan đề sách].[Nơi xuất bản]:[nhà xuất bản],[năm XB]
Một chương sách:
Bailar JC. Communicating with a scientific audience. In: Bailar JC, Mosteller F, eds.
Medical uses of statistics. Waltham, MA:NEJM Books, 1986:325-37.
[Họ - tên tắt].[Tên chương sách]. In: [Họ - tên tắt].[Nhan đề sách].[Nơi xuất bản]:[nhà
xuất bản],[năm XB]:[trg đầu]-[trg cuối]
Một Website
National Board of Health and Welfare, Sweden. Hospital discharge register.
http://www.sos.se/epc/par/pareng.htm (accessed 20 July 2001).
[Tên cơ quan chủ quản website]. [tên báo cáo].[địa chỉ website (ngày truy cập)]
Sai lệch có thể
Sai lệch trong y văn hay trong tổng quan y văn là sự biến dạng của những thông tin khiến cho
kết luận từ y văn hay tổng quan y văn không phản ánh tình hình thực tiễn. Chúng ta cần phải
cảnh giác với những loại sai lệch này và cần phải hết sức nghiêm túc với cácy văn hiện có. Nếu
bạn có nghi ngại về một số tài liệu tham khảo hay bạn có thể phát hiện những ý kiến khác nhau
chúng ta cần thảo luận một cách nghiêm túc và thẳng thắn. Thái độ nghiêm túc này sẽ giúp
37
chúng ta tránh khỏi các sai lệch trong nghiên cứu của chính chúng ta. Những sai lệch thường
thấy trong y văn bao gồm:
1. Che dấu những điểm tranh luận hay sự khác nhau trong kết quả nghiên cứu của chính
mình
2. Chỉ tham khảo tài liệu của những người ủng hộ quan điểm của tác giả.
3. Rút ra những kết luận hết sức mạnh bạo từ kết quả nghiên cứu sơ bộ hay nghiên cứu
mỏng manh hay khái quát hoá lan tràn từ một nghiên cứu trường hợp.
Việc mắc phải các loại sai lệch ở trên sẽ tạo nên các nghi ngờ về tính trung thực khoa học
(scientific integrity) của nhà nghiên cứu. Hơn nữa việc trình bày một cách không cẩn thận các
kết quả sẽ khiến cho độc giả ứng dụng kết quả nghiên cứu một cách sai lạc. Điều này không chỉ
gây tốn kém thời gian, tiền bạc mà còn có thể gây hậu quả xấu cho sức khoẻ của người dân.
Việc đạo văn – trình bày kết quả hay công trình của các nhà khoa học khác mà không trích dẫn –
cũng là một hành động thiếu đạo đức mà các nhà nghiên cứu cần phải tránh. Do đó nhà nghiên
cứu cần phải tuân thủ theo các hướng dẫn về trích dẫn tài liệu tham khảo trong khi viết đề cương
cũng như khi viết báo cáo khoa học. Ở một số quốc gia, hành động đạo văn có thể bị truy tố.
38
Mục tiêu nghiên cứu
Mục tiêu học tập:
Sau khi nghiên cứu phần này, học viên có khả năng:
- Khẳng định các lí do để viết mục tiêu cho một nghiên cứu
- Xác định và mô tả sự khác biệt giữa mục tiêu tổng quát và mục tiêu đặc hiệu
- Xác định đặc tính của mục tiêu nghiên cứu
- Xây dựng mục tiêu nghiên cứu cho nghiên cứu của bạn ở một hình thức phù hợp.
Mục tiêu nghiên cứu là gì:
Mục tiêu nghiên cứu nhằm tóm tắt những gì sẽ đạt được sau khi hoàn thành nghiên cứu. Thông
thường người ta chia mục tiêu làm mục tiêu tổng quát và mục tiêu đặc hiệu. Mục tiêu tổng quát
là những điều đạt được một cách chung nhất, còn mục tiêu đặc hiệu bao gồm các phần nhỏ hơn
và có liên hệ với nhau và với mục tiêu tổng quát một cách hợp lí. Trong mục tiêu đặc hiệun ên
cụ thể những điều sẽ làm trong nghiên cứu, làm ở đâu và với mục đích gì.
Thí dụ:
Nếu chúng ta có vấn đề nghiên cứu là mức độ sử dụng dịch vụ phòng khám trẻ em thấp tại
huyện CT. Và sau khi phân tích vấn đề nghiên cứu chúng ta nhận thấy để giải quyết các vấn đề
trên cần phải tìm hiểu các lí do khiến mức độ sử dụng dịch vụ phòng khám trẻ em thấp tại huyện
CT ta sẽ thiết lập mục tiêu tổng quát như sau:
- Xác định các lí do của mức độ sử dụng dịch vụ phòng khám trẻ em thấp tại huyện CT
Nhằm đặt được mục tiêu tổng quát kể trên, chúng ta phải hoàn thành các công việc sau. Các
công việc này được gọi là mục tiêu đặc hiệu:
- Xác định mức độ sử dụng dịch vụ phòng khám trẻ em ở huyện CT trong các năm 2000 và 2001
so với chỉ tiêu đặt ra
- Xác định có sự liên hệ giữa việc sử dụng dịch vụ phòng khám trẻ em với mùa trong năm, loại
hình phòng khám
- Xác định các yếu tố dịch vụ của phòng khám ảnh hưởng đến tính hấp đẫn đối với bà mẹ
- Xác định các yếu tố văn hoá và kinh tế xã hội ảnh hưởng đến việc sử dụng dịch vụ phòng
khám trẻ em.
- Kiến nghị các giải pháp để cải thiện sử dụng dịch vụ phòng khám trẻ em.
- Xây dựng kế hoạch thực hiện và các kiến nghị phối hợp với các ban ngành.
Như đã trình bày ở trên, trong các nghiên cứu ứng dụng, nên có mục tiêu xác định quy mô của
vấn đề và có các mục tiêu nhằm xây dựng kế hoạch ứng dụng kết quả của nghiên cứu.
Tại sao phải xây dựng mục tiêu nghiên cứu
Khi tiến hành nghiên cứu cần phải xây dựng mục tiêu nghiên cứu nhằm giúp cho chủ đề nghiên
cứu được tập trung và tránh việc thu thập các thông tin không cần thiết để giải quyết vấn đề.
Ngoài ra việc xây dựng mục tiêu cụ thể sẽ giúp cho việc thiết kế nghiên cứu bằng cách tổ chức
mục tiêu nghiên cứu thành các phần hay các giai đoạn xác định.
Yêu cầu của mục tiêu nghiên cứu
Mục tiêu nghiên cứu tốt cần phải đạt được các yêu cầu sau:
- Phải bao gồm các khía cạnh khác nhau của vấn đề nghiên cứu theo một trình tự hợp lí và mạch
lạc.
- Ðược hành văn rõ ràng, cụ thể chỉ rõ điều sẽ làm, làm ở đâu, trong thời gian nào và với mục
39
đích gì
- Mục tiêu phải phù hợp với điều kiện thực tiễn, khả thi.
- Mục tiêu phải bắt đầu bằng các từ hành động cụ thể và có thể đánh giá mức độ đạt được như:
xác định, so sánh, kiểm chứng, tính toán, mô tả
Giả thuyết nghiên cứu
Giả thuyết nghiên cứu là một mệnh đề khẳng định quan hệ giữa một hay nhiều yếu tố với vấn đề
nghiên cứu. Thí dụ "sử dụng dịch vụ phòng khám trẻ em thấp nhất trong thời gian thu hoạch" là
một giả thuyết nghiên cứu bởi vì nó khẳng định rằng trong thời gian thu hoạch thì mức độ sử
dụng dịch vụ phòng khám trẻ em sẽ thấp.
Việc kiểm định giả thuyết nghiên cứu có thể được xem là một mục tiêu nghiên cứu bởi vì nó sẽ
giúp cho giải quyết vấn đề nghiên cứu. Giả thuyết nghiên cứu thường được sử dụng để kiểm tra
một lí giải đã có và thường được sử dụng trong các nghiên cứu y sinh học nhưng thường không
phù hợp đối với nghiên cứu hệ thống y tế.
Tên đề tài nghiên cứu
Cần phân biệt tên đề tài nghiên cứu với vấn đề nghiên cứu: Vấn đề nghiên cứu là sự khác biệt
giữa hiện tại và điều mong đợi trong khi tên đề tài nghiên cứu lại tập trung và phương pháp giải
quyết vấn đề vì vậy tên đề tài nghiên cứu thường liên quan chặt chẽ với mục tiêu nghiên cứu.
Tuy nhiên khác với mục tiêu nghiên cứu, thường bắt đầu bằng một động từ hành động, tên đề tài
nghiên cứu thường là một ngữ danh từ (nên được gọi là tên). Tên đề tài nghiên cứu nên ngắn
gọn, bởi vì nó chiếm chỗ trong mục lục của tờ báo hay trong MEDLINE, nhưng phải chứa nhiều
thông tin. Bởi vì hiện nay do sự phổ biến của việc tìm kiếm bài báo trên Internet, tên đề tài nên
chứa những từ khoá (keyword) của bài báo. Phần từ khoá của bài báo hiện nay không phải là
phần bắt buộc vì vậy việc xây dựng tên đề tài nghiên cứu một cách hợp lí là cực kì quan trong.
Thảo luận nhóm
Chọn một chủ toạ và một thư kí
- Trình bày lại phần đặt vấn đề: tập trung vào
Lượng hoá và cụ thể hoá vấn đề
Thăm dò các yếu tố ảnh hưởng đến vấn đề
Các hoạt động nghiên cứu
- Xây dựng mục tiêu tổng quát và đặc hiệu
- Kiểm tra lại các yêu cầu của mục tiêu
- Trình bày trước lớp mục tiêu nghiên cứu.
40
Giới thiệu về phương pháp nghiên cứu khoa học y học
Mục tiêu
Sau phần này, học viên có khả năng:
1. Xác định những câu hỏi thích hợp cần phải đặt ra khi phát triển phương pháp cho đề cương
nghiên cứu
2. Mô tả được các thành phần thích hợp cần được giải quyết trong phần phương pháp của đề
cương nghiên cứu.
Giới thiệu
Câu hỏi Thành phần trong thiết kế nghiên cứu
Làm thế nào để thu thập số liệu Kế hoạch thu thập số liệu
Làm thế nào để có thể thu thập những
số liệu này
Chọn thiết kế nghiên cứu
Công cụ nào để thu thập số liệu
Chọn kĩ thuật thu thập số liệu
Thu thập số liệu ở đâu: Trên bao
nhiêu đối tượng, chọn như thế nào?
Lấy mẫu
Chúng ta cần những số liệu mới nào? Chọn biến số
Chúng ta làm gì với số liệu để có
thông tin
Kế hoạch phân tích
Chúng ta có làm hại ai khi tiến hành
nghiên cứu?
Khía cạnh đạo đức của nghiên
cứu
Làm sao biết được phương pháp thu
thập số liệu?
Thử nghiệm phương pháp
41
Giả sử sau khi bạn đã xác định được:
- Chọn chủ đề nghiên cứu
- Chuẩn bị một mô tả ngắn gọn về vấn đề nghiên cứu và tầm quan trọng của nó
- Tổng quan y văn và các thông tin đã biết được về vấn đề
- Phát triển các mục tiêu nêu lên một cách rõ ràng mục đích của nghiên cứu, chờ đợi gì ở kết quả
nghiên cứu và cách sử dụng các kết quả nghiên cứu
Ðể đặt được mục tiêu đã đặt ra, bạn phần phải quyết định bạn sẽ phải làm gì: thí dụ những số
liệu nào cần được thu thập, làm thế nào để thu thập các số liệu đó, xử lí đó như thế nào. Các câu
hỏi trong lưu đồ ở trang sau chỉ ra những đề mục chính cần phải xem xét khi phát triển thiết kế
nghiên cứu.
42
Biến số
Mục tiêu
1. Xác định biến số là gì và tại sao việc chọn lựa biến số là quan trọng
2. Phân biệt được biến số định tính (categorical) và biến số định lượng (numerical)
3. Phân biệt được sự khác biệt giữa biến số độc lập và biến số phụ thuộc và chúng được sử dụng
trong nghiên cứu như thế nào
4. Xác định được các biến số được đo lường trong dự án nghiên cứu đang được thiết kế và cho
biết:
- Biến số nào có thể đo lường trực tiếp
- Biến số nào không thể đo lường trực tiệp và phải sử dụng định nghĩa cụ thể(operation
definition)
- Biến số nào không thể đo lường được vào thời điểm hiện tại.
Biến số
Do nghiên cứu khoa học là việc thu thập, phân tích và lí giải số liệu để giải quyết vấn đề nghiên
cứu hay trả lời một câu hỏi nghiên cứu (Varkevisser et al., 1991) nên nghiên cứ khoa học cần
phải thu thập thông tin các đặc tính hay các đại lượng của đối tượng. Các đặc tính hay đại lượng
này được gọi là biến số. Nói cách khác:
Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này sang người khác
hay từ thời điểm này sang thời điểm khác.
Biến số định tính và biến số định lượng
Như vậy biến số có thể thể hiện đại lượng hay đặc tính. Nếu nó thể hiện một đại lượng nó được
gọi là biến số định lượng. Nếu nó nhằm thể hiện một đặc tính nó được gọi là biến số định tính.
Biến số định tính còn được chia làm 2 loại: biến số danh định và biến số thứ tự.
Biến số danh định là biến số mà giá trị của nó không thể biểu thị bằng số mà phải biểu diễn bằng
một tên gọi (danh: tên) và các giá trị này không thể sắp đặt theo một trật tự từ thấp đến cao.
Thí dụ: Biến số dân tộc với các giá trị: Kinh, Khmer, Hoa, Chăm, là biến số định tính vì chúng ta không …
thể sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay ngược lại.
Một số thí dụ khác của biến số danh định là tình trạng hôn nhân (có 4 giá trị: độc thân, có gia đình, li dị,
góa) nhóm máu (A, B, AB và O).
Trong phân tích thống kê, để tiện việc nhập số liệu hay lí giải kết quả, người ta có thể ánh xạ
(mapping) các giá trị của biến danh định vào các con số. Việc này được gọi là mã hóa và cần
hiểu rằng việc mã hóa này hoàn toàn có tính chất áp đặt và các con số được dùng trong mã hóa
không phản ánh bản chất của biến số danh định.
Giới tính là biến số danh định và có hai giá trị là nam và nữ. Chúng ta có thể mã hóa giới tính và quy ước
Nam là 1 và Nữ là 2. Tuy nhiên việc mã hóa này là áp đặt và chúng ta hoàn toàn có thể quy ước Nam là 1
và Nữ là 0. Việc mã hóa chỉ nhằm giúp việc nhập số liệu và xử lí số liệu trở nên dễ dàng hơn chứ không
nhằm phản ánh bản chất của biến số đó (do đó hoàn toàn vô căn cứ nếu cho rằng mã hóa Nam=1 và Nữ=0
là phản ánh thái độ phong kiến "Nhất nam viết hữu - Thập nữ viết vô).
Biến số thứ tự là biến số danh định nhưng có thể sắp xếp thứ tự được.
Thí dụ: tình trạng kinh tế xã hội (giàu, khá, trung bình, nghèo, rất nghèo) là biến số thứ tự bởi vì người
giàu có điều kiện kinh tế tốt hơn người khá, người khá hơn người trung bình, trung bình hơn nghèo, v.v
Những thí dụ khác là học lực của học sinh (giỏi, khá, trung bình, kém), tiên lượng (tốt, khá, xấu, tử vong).
Theo phân loại tăng huyết áp của Tổ chức Y tế Thế giới được trình bày như sau, thì phân loại huyết áp với
các giá trị huyết áp bình thường, huyết áp cao nhẹ, vừa và nặng là biến số thứ tự.
43
Huyết áp bình thường: HA tâm thu (139 và HA tâm trương ( 89
Tăng huyết áp nhẹ: HA tâm thu ( 179 hay HA tâm trương ( 104
Tăng huyết áp vừa: HA tâm thu ( 180 hay HA tâm trương (114
Tăng huyết áp nặng: HA tâm thu (180 và HA tâm trương ( 115 mmHg
Biến số định lượng nhằm thể hiện một đại lượng và do đó có giá trị là những con số.
Thí dụ: tuổi là biến số liên tục bởi vì ta có thể nói người này 20 tuổi, người kia 32 tuổi, v.v.
Những thí dụ khác là đường huyết, hemoglobin, hematocrite, chiều cao, cân nặng, thu nhập, v.v
Khi chúng ta quan tâm đến việc lí giải nguyên nhân của sự việc chúng ta chia biến số thành biến
số độc lập và biến số phụ thuộc.
Biến số dùng để mô tả hay đo lường vấn đề nghiên cứu được gọi là biến số phụ thuộc.
Biến số dùng để mô tả hay đo lường các yếu tố được cho là gây nên (hay gây ảnh hưởng đến)
vấn đề nghiên cứu được gọi là biến số độc lập
Cần phân biệt sự khác biệt giữa biến số và giá trị của biến số (còn gọi là yếu tố): Giới tính là
biến số nhưng Nữ không phải là biến số mà là một giá trị của biến số (hay còn gọi là yếu tố).
Thời gian chờ đợi để được sử dụng dịch vụ y tế là biến số nhưng thời gian chờ đợi lâu là giá trị
của biến số. Kiến thức về các cây con thuốc là biến số nhưng ít hiểu biết về các cây con thuốc là
yếu tố. Ta có thể nói biến số mức độ hút thuốc lá có liên quan đến nguy cơ ung thư phổi nhưng
phải nói hút thuốc lá nặng là yếu tố nguy cơ của ung thư phổi.
Biến số (đại lượng hay đặc tính được quan tâm) được chia làm 3 loại:
- Biến số có thể đo lường trực tiếp - chiều cao, cân nặng, tuổi, tình trạng hôn nhân.v.v
- Biến số không thể đo lường trực tiếp được như tình trạng dinh dưỡng, mức độ đắc khí, mức độ
hài lòng của bệnh nhân, kiến thức của bà mẹ về thực hành chăm sóc trẻ.
- Biến số không đo lường được trong nghiên cứu hiện tại. Trên nguyên tắc, mọi biến số đều có
thể đo lường được nhưng trong một nghiên cứu cụ thể có thể có một số biến số không đo lường
được do hạn chế của điều kiện kĩ thuật hay không thống nhất về định nghĩa cụ thể (thí dụ nồng
độ endorphine gia tăng sau khi châm cứu, mức độ hữu dụng của những bệnh nhân bị tàn tật, chất
lượng dân số)
Ðịnh nghĩa cụ thể
Thông thường, nhà nghiên cứu bắt đầu với một quan điểm tương đối mơ hồ về cách đo lường
các biến số nghiên cứu. Thí dụ, nếu nhà nghiên cứu muốn đo lường mức độ đau thì nhà nghiên
cứu phải chuyển đổi khái niệm đau thành một mệnh đề chặt chẽ xác định cách đo lường biến số
này. Phụ thuộc vào cách lí giải trừu tượng của khái niệm đau và yêu cầu cụ thể của nghiên cứu,
chúng ta có thể chọn lựa một phương pháp đo lương mức độ đau đớn.
Ðịnh nghĩa cụ thể của biến số là một mệnh đề về cách người nghiên cứu của một nghiên cứu nào
đó chọn cách đo lường biến số đó. Nó phải không được mơ hồ và chỉ có một cách lí giải duy
nhất. Thí dụ, một nhà nghiên cứu cho rằng việc điều trị của bà ta có thể giúp cải thiện việc "kiểm
soát vận động", câu hỏi chúng ta cần đặt ra ngay là "kiểm soát vận động" có ý nghĩa như thế
nào. Nhà nghiên cứu có thể trả lời là bà ta quan tâm đến việc kiểm soát vận động được đo lường
bởi Plunkett Motor Dexterity Task Score. Một nhà nghiên cứu khác có thể không chấp nhận
định nghĩa này và cho rằng việc kiểm soát vận động nên được tự đánh giá bởi bệnh nhân. Cả hai
định nghĩa này được gọi là định nghĩa cụ thể.
Một định nghĩa cụ thể tốt là định nghĩa cung cấp đủ thông tin để cho phép một nhà nghiên cứu
khác có thể lập lại kĩ thuật đo lường, nếu người đó muốn. Trong mô tả nghiên cứu nhà nghiên
cứu nên bao gồm trong định nghĩa cụ thể những công cụ đo lường và quy trình nghiên cứu để
người đọc có thể rõ ràng về những việc đã làm.
44
Biến số độc lập - phụ thuộc - gây nhiễu
Việc xác định biến số nào là biến số độc lập hay biến số phụ thuộc được xác định trong phần đặt
vấn đề và mục tiêu của nghiên cứu. Do đó trong khi thiết kế nghiên cứu cần phải xác định rõ
ràng biến số nào là độc lập và biến số nào là phụ thuộc.
Thí dụ nếu nghiên cứu mối quan hệ giữa ung thư phổi và hút thuốc lá thì hút thuốc lá là biến số
độc lập và ung thư phổi là biến số phụ thuộc
Nếu nhà nghiên cứu muốn tìm hiểu tại sao thanh niên hút thuốc thì hút thuốc là biến số phụ
thuộc và "áp lực của bạn bè" là biến số độc lập.
Biến số gây nhiễu (confounding variable) là biến số cung cấp một giải thích khác của mối liên
hệ giữa biến số độc lập và biến số phụ thuộc. Một biến số được đánh giá là biến số gây nhiễu khi
có 3 đặc tính sau:
- Có liên quan đến biến số phụ thuộc (là yếu tố nguy cơ của vấn đề nghiên cứu)
- Có liên quan đến biến số độc lập (phân bố không đều giữa các giá trị của biến độc lập)
- Không nằm trong cơ chế tác động của biến độc lập lên biến phụ thuộc
Thí dụ:
Có mối
liên hệ
giữa số lần khám tiền sản và sanh con nhẹ hơn 2500 gram. Tuy nhiên thu nhập của gia đình
cũng có thể ảnh hưởng đến số lần khám tiền sản và việc sanh con nhẹ cân. Như vậy thu nhập của
gia đình là yếu tố gây nhiễu.
Kiểm soát yếu tố gây nhiễu
Ðể khắc phục yếu tố gây nhiễu người ta có thể sử dụng:
- Phương pháp hạn chế: thí dụ chỉ nghiên cứu những bà mẹ trong gia đình có thu nhập trung
bình, không nghiên cứu những bà mẹ trong gia đình nghèo
- Phương pháp bắt cặp trong chọn mẫu và phân tầng trong phân tích mẫu:
- Phương pháp phần tầng: gồm tiến hành phân tích số liệu riêng biệt cho nhóm bà mẹ nghèo, cho
nhóm bà mẹ trung bình và nhóm bà mẹ giàu rồi tổng hợp kết quả lại. Thực chất phương pháp
phân tầng gồm là sự tổng hợp của nhiều nghiên cứu hạn chế (mỗi nghiên cứu được hạn chế cho
một giá trị của biến số gây nhiễu)
- Phương pháp mô hình hóa sử dụng phương pháp hồi quy đa biến để tách riêng tác động của
từng biến số có liên quan trong mô hình. Khi đó hệ số của các biến số trong mô hình đánh giá
tác động của biến số đó, không bị ảnh hưởng hay gây nhiễu bởi các yếu tố khác (bởi vì trong
hồi quy đa biến, hệ số B
1
của biến số X
1
nêu lên sự thay đổi của biến phụ thuộc Y khi X
1
thay
đổi một đơn vị và các biến số liên quan khác như X
1
, X
2
, … không thay đổi).
- Phương pháp chia nhóm ngẫu nhiên: chỉ sử dụng được cho nghiên cứu thực nghiệm nhưng đây
là phương pháp khử yếu tố gây nhiễu toàn diện nhất và không cần xác định hay đo lường toàn
bộ các yếu tố gây nhiễu.
Số lần khám thai
(Biến số độc lập)
Cân nặng con lúc sinh
(Biến số phụ thuộc)
Thu nhập - Học vấn gia đình
(biến số gây nhiễu)
45
Biến số nền (background variables)
Trong bất cứ nghiên cứu nào, có những biến số nền tảng thí dụ như tuổi, giới, trình độ giáo dục,
tình trạng kinh tế, tình trạng hôn nhân, tôn giáo, v.v. Những biến số này thường có ảnh hưởng
đến vấn đề nghiên cứu (biến số phụ thuộc) và có tác động như biến số gây nhiễu. Nếu biến số
nền có ảnh hưởng quan trọng đến nghiên cứu cần phải thu thập thông tin về biến số nền. Nhưng
không nên thu thập quá nhiều biến số nền để tránh làm tăng kinh phí nghiên cứu một cách vô
ích.
46
Bài tập:
1. Giả sử chúng ta có khung ý niệm (conceptual framework) về mối liên hệ giữ kém vận động và
bệnh mạch vành như sau:
Trong các yếu tố: Hút thuốc lá, Tăng LDL-cholesterol, Xem ti vi nhiều, yếu tố nào được xem là
yếu tố gây nhiễu?
2. Một nghiên cứu đoàn hệ được tiến hành ở Anh quốc, những người tham gia được ghi nhận
mức độ hoạt động tình dục cao ở đầu nghiên cứu (được đánh giá bằng tần suất có khoái cảm) có
nguy cơ tử vong trong 10 năm thấp hơn những người được ghi nhận có mức độ hoạt động tình
dục thấp.
1
Giả sử điều này là đúng, anh chị có lời khuyên gì về việc hoạt động tình dục để giảm
thiểu nguy cơ tử vong.
Một số nhà khoa học cho rằng kết luận của nghiên cứu có thể là không đúng. Họ giải thích rằng
những người có quan hệ tình dục thường xuyên là những người có sức khoẻ tổng quát tốt hơn,
do đó, có nguy cơ tử vong thấp hơn. Theo các anh chị, những nhà khoa học này cho rằng tình
trạng sức khoẻ tổng quát là yếu tố biến đổi hậu quả hay yếu tố gây nhiễu? Nếu điều này được
chứng minh là đúng thì anh chị sẽ có lời khuyên gì đối với mọi người để giảm thiểu nguy cơ tử
vong.
Các bác sĩ lâm sàng có kinh nghiệm lại đưa ra lời giải thích khác. Họ cho rằng ở những người
khoẻ mạnh, quan hệ tình dục thường xuyên là có lợi cho sức khoẻ và làm giảm nguy cơ tử vong
còn ở người ở tình trạng sức khoẻ tổng quát đã kém việc quan hệ tình dục thường xuyên lại
khiến đối tượng dễ bị tử vong hơn. Theo các anh chị, nếu kinh nghiệm lâm sàng này là đúng thì
tình trạng sức khoẻ tổng quát là yếu tố biến đổi hậu quả hay yếu tố gây nhiễu? Nếu điều này là
đúng thì anh chị sẽ có lời khuyên gì đối với mọi người để giảm thiểu nguy cơ tử vong.
1. Davey Smith G, Frankel S, Yarnell J. Sex and death: are they related? Findings from
the Caerphilly Cohort study. BMJ. 1997; 315: 1641-1644
2. Gần như tất cả các nghiên cứu quan sát cho thấy sự giảm nguy cơ tử vong bệnh tim ở các phụ
nữ sử dụng oestrogen. Một nghiên cứu gộp (meta-analysis) của 25 nghiên cứu đã xuất bản tìm
thấy nguy cơ tương đối chung là 0.70 đối với bệnh mạch tim ở các phụ nữ có sử dụng estrogen
(so với nhóm không dùng oestrogen); trong 7 nghiên cứu khác đánh giá hiệu quả của việc sử
dụng oestrogen và progestogen, nguy cơ ước lượng là 0.66.
2

Tuy nhiên, gần đây, Hemminki

and McPherson đã tổng kết 22 nghiên cứu thử nghiệm ngẫu
nhiên của việc sử dụng trị liệu oestrogen và thấy rằng các biến cố tim mạch lại là nguyên nhân
chủ yếu của việc bỏ cuộc hay phản ứng ngoại ý.
3
Tỉ số nguy cơ tóm tắt là (1.39) trong nhóm sử
dụng estrogen so với nhóm không sử dụng. Điều này cho thấy estrogen không có tác dụng


lợi, nếu không phải là có hại, lên nguy cơ bệnh tim mạch.
Anh chị tin vào kết quả nghiên cứu của loại nghiên cứu nào hơn? Anh chị cho rằng điều trị
hormone thay thế ở phụ nữ mãn kinh có lợi hay có hại cho sức khỏe tim mạch? Tại sao anh chị
lại tin như vậy?
Kém vận động Tăng LDL-cholesterol
Giảm HDL-cholesterol
Bệnh mạch vành
Hút thuốc lá
Xem ti vi nhiều
47
1. Barrett-Connor E. Hormone Replacement Therapy. BMJ 1998;317:457-461 .
2. Barrett-Connor E, Grady D. Hormone replacement therapy, heart disease, and other
considerations. Annu Rev Public Health 1998; 19: 55-72.
3. Hemminki E, McPherson K. Impact of postmenopausal hormone therapy on
cardiovascular events and cancer: pooled data from clinical trials. BMJ 1997; 315: 149-
153
4. Writing Group for the PEPI Trial. Effects of estrogen or estrogen/progestin regimens
on heart disease risk factors in postmenopausal women. JAMA 1995; 273: 199-208
3. Một nghiên cứu thực nghiệm trên khỉ chimpanzee cho thấy lượng estrogen giúp khỉ
chimpanzee cái được bảo vệ và có nguy cơ bị sốt rét thấp hơn so với khỉ đực. Một nhà nghiên
cứu quan tâm đến đề tài này và thực hiện một nghiên cứu bệnh chứng để xác định mối liên hệ
giữa giới tính và sốt rét. Nhà nghiên cứu này tìm được 150 trường hợp bệnh (trong đó có 88
nam) và 150 chứng (trong đó có 68 nam). Tỉ số số chênh thô tính được là 1,71.
Nhà nghiên cứu này cũng biết chút ít về dịch tễ và cho rằng những hoạt động nghề nghiệp ngoài
nhà là yếu tố gây nhiễu và do đó, thu thập thông tin về nghề nghiệp hoạt động ngoài nhà ở các
đối tượng, sử dụng phương pháp phân tầng và ghi nhận được các kết quả sau:
Nhóm nghề nghiệp ngoài nhà Nhóm nghề nghiệp trong nhà
Bệnh Chứng Tổng
số
Bệnh Chứng Tổng số
Nam 53 15 68 Nam 35 53 88
Nữ 10 3 13 Nữ 52 79 131
Tổng
số
63 18 81 Tổng
số
87 132 219
Theo các anh chị, nghề nghiệp (ngoài nhà và trong nhà) có phải là yếu tố gây nhiễu trong nghiên
cứu này hay không? tại sao?
Nhà nghiên cứu đang viết bài báo cáo và dự định sẽ công bố giá trị OR hiệu chỉnh theo nghề
nghiệp. Tình cờ có một chuyên viên dịch tễ của Tổ Chức Y tế Thế giới đọc được bản thảo của
nghiên cứu này và cho ý kiến phản biến. Theo ông, do nghề nghiệp là hậu quả của giới tính nên
chuỗi giới tính - nghề nghiệp - sốt rét có thể được xem như là cơ chế tác động của giới tính lên
nguy cơ mắc bệnh sốt rét. Do đó nghề nghiệp không phải là yếu tố gây nhiễu. Ông ta khuyên
nên báo cáo giá trị OR thô (không hiệu chỉnh cho nghề nghiệp). Theo anh chị, nhà nghiên cứu
có nên nghe theo lời khuyên của chuyên gia dịch tễ hay không?
Bias in studies of use of oestrogen and heart disease
1

Bias in who is prescribed oestrogen:
More educated
Higher social class
Osteoporosis*
No diabetes, heart disease, or
hypertension
Healthier before treated
Bias in who takes oestrogen:
Compliant women
48
49
Các loại nghiên cứu
Mục tiêu
1. Mô tả được những thiết kế thường được sử dụng trong nghiên cứu khoa học y học và hạn chế
của mỗi loại nghiên cứu
2. Trình bày được từng loại nghiên cứu có ảnh hưởng gì đến tính giá trị và tính tin cậy của kết
quả nghiên cứu
3. Xác định được loại nghiên cứu thích hợp cho đề cương nghiên cứu của chính học viên
Mở đầu
Phụ thuộc vào chúng ta đã biết gì về vấn đề nghiên cứu, có những câu hỏi khác nhau cần được
đặt ra và tương ứng với các thiết kế nghiên cứu khác nhau. Việc chọn lựa thiết kế nghiên cứu
phụ thuộc vào
- Vấn đề thuộc loại gì?
- Kiến thức đã biết được về vấn đề
- Nguồn lực có được dành cho nghiên cứu
Thí dụ trong những vấn đề về quản lí y tế (thí dụ như việc quá tải của bệnh viện) chỉ cần mô tả
rõ ràng vấn đề và xác định các yếu cố góp phần cũng đủ cung cấp những thông tin để hành động.
Ðối với một số vấn đề quản lí y tế và nhiều loại nghiên cứu khác, có thể chúng ta cần muốn biết
mối liên hệ giữa các biến số (thí dụ như ít ăn rau và ung thư đại tràng). Trong trường hợp này
chúng ta cần có nghiên cứu phân tích hay nghiên cứu thực nghiệm.
Một số loại nghiên cứu
Có nhiều cách phân loại nghiên cứu trong đó người ta thường chia làm 2 loại:
- Các nghiên cứu không can thiệp: trong đó nhà nghiên cứu chỉ mô tả và phân tích tình hình
nhưng không can thiệp
- Các nghiên cứu có can thiệp: nhà nghiên cứu tác động lên tình hình và đo lường kết quả của
việc tác động (thí dụ như tiến hành chương trình giáo dục sức khoẻ và xem nó có tác động gì lên
tỉ lệ tiêm chủng).
Nghiên cứu không can thiệp
Nghiên cứu không can thiệp bao gồm nghiên cứu thăm dò, nghiên cứu mô tả và nghiên cứu
phân tích
Nghiên cứu thăm dò
Nghiên cứu thăm dò là nghiên cứu trên quy mô nhỏ trong thời gian ngắn khi chúng ta chưa rõ về
vấn đề hay tình hình cần phải nghiên cứu
Thí dụ: Uỷ ban quốc gia phòng chống AIDS muốn xây dựng dịch vụ tham vấn cho bệnh nhân
AIDS và người nhiễm HIV nhưng không biết những nhu cầu của bệnh nhân cần được hỗ trợ.
Ðể thăm dò những nhu cầu này, một số cuộc phỏng vấn sâu đã được tiến hành với nhiều nhóm
bệnh nhân và với các nhân viên y tế đã làm trong lãnh vực này.
Trong nghiên cứu thăm dò người ta thường mô tả và so sánh. Thí dụ nhà nghiên cứu có thể mô
tả nhu cầu của từng nhóm bệnh nhân và so sánh nhu cầu về tham vấn của bệnh nhân nam và
bệnh nhân nữ. Nghiên cứu thăm dò sẽ có giá trị tốt hơn nếu nhà nghiên cứu cố gằng tiếp cận vấn
đề từ nhiều hướng khác nhau.
50
Nghiên cứu mô tả
Nghiên cứu mô tả bao gồm việc thu thập và trình bày có hệ thống các số liệu nhằm cung cấp
một bức tranh về một tình huống cụ thể.
Nghiên cứu mô tả có thể được tiến hành trên một quy mô lớn hoặc quy mô nhỏ. Ở quy mô nhỏ
nghiên cứu mô tả bao gồm việc mô tả sâu các đặc tính của một số bệnh nhân hay các trạm y tế
hoặc các dự án. Loại hình nghiên cứu này được gọi là nghiên cứu trường hợp (case study) hay
báo cáo ca bệnh (case report, case series). Ở quy mô lớn hơn và các cuộc điều tra cắt ngang
nhằm xác định sự phân bố của các biến số nhất định ở một thời điểm. Các đặc tính này có thể là
các đặc tính thực thể, kinh tế xã hội hay hành vi của cộng đồng.
Ðôi khi nhà nghiên cứu thường kết hợp sự mô tả dân số nghiên cứu với sự so sánh các nhóm
trong dân số. Mặc dù nghiên cứu này cũng sử dụng phương pháp so sánh tương tự như nghiên
cứu phân tích, khi chỉ so sánh các nhóm dân số khác nhau, bản chất của nghiên cứu này vẫn là
nghiên cứu mô tả.
Khác với các nghiên cứu phân tích nhằm tìm mối liên hệ giữa một yếu tố phơi nhiễm và tình
trạng bệnh tật, các nghiên cứu mô tả, Nghiên cứu mô tả nhằm báo động, tìm hiểu một số đặc
điểm hay ước lượng quy mô của một vấn đề sức khoẻ hay tìm hiểu kiến thức, thái độ, hành vi
của người dân về vấn đề đó để đề xuất các giải pháp can thiệp.
Những nghiên cứu mô tả bao gồm: nghiên cứu ca bệnh, nghiên cứu loạt ca bệnh trong nghiên
cứu lâm sàng và nghiên cứu trường hợp trong nghiên cứu sức khoẻ công cộng. Các nghiên cứu
kiến thức, thái độ, hành vi hay các điều tra cắt ngang cũng là các nghiên cứu mô tả quan trọng.
Các nghiên cứu mô tả tương đối phổ biến trong y văn và sau đây là một số thí dụ
Một báo cáo loạt ca bệnh (case series) dựa trên việc mô tả bệnh sử và bệnh cảnh lâm sàng của 4
người đàn ông được nhập viện tại trung tâmY khoa của Ðại học California ở Los Angeles
(UCLA) vì bệnh viêm phổi do Pneumocystic carinii. 6 Ðây là một vấn đề sức khoẻ cần phải báo
động vì loại viêm phổi này trước đây chỉ xuất hiện ở những người bị rối loạn hệ thống miễn
dịch. Những nhà nghiên cứu tiến hành một nghiên cứu để xem đây là một vấn đề sức khoẻ mới
hay chỉ là các trường hợp tương tự với những ca bệnh viêm phổi Pneumocystic carinii được phát
hiện từ trước? Vấn đề sức khoẻ này có những đặc điểm gì ?
Một nghiên cứu trường hợp được tiến hành dựa trên việc mô tả đặc điểm của một trạm y tế có
hoạt động tương đối tốt nhằm rút ra các bài học về quản lí cho các trạm y tế
7.
Ðây là một nghiên
cứu có ý nghĩa thực tiễn trong tình hình có nhiều trạm y tế còn hoạt động kém.
Ở Anh quốc nhóm chăm sóc ban đầu (primary care groups) được đưa vào hoạt động từ năm
1999 và có một ngân quỹ thống nhất để chi trả cho các hoạt động y tế của bệnh nhân bao gồm cả
chi phí nhập viện. Tuy nhiên người ta vẫn chưa rõ các thông tin nền (baseline) về sức khoẻ, kinh
tế xã hội và tỉ lệ nhập viện của 66 nhóm chăm sóc ban đầu nay ở thành phố Luân đôn. Vì vậy
một nghiên cứu cắt ngang mô tả được tiến hành và cho thấy sự khác biệt đáng kể về kinh tế xã
hội, y tế và thực hành của các nhóm và các thông tin này được sử dụng cho việc lập kế hoạch và
đánh giá dịch vụ y tế
8
.
Như vậy các nghiên cứu mô tả có một giá trị thực tiễn hết sức to lớn và hoàn toàn không kém
nghiên cứu phân tích về giá trị khoa học. Tuy nhiên một số nhà nghiên cứu vì không nắm rõ
mục tiêu nghiên cứu của mình nên thay vì thực hiện một nghiên cứu mô tả tốt họ tiến hành một
nghiên cứu phân tích kém. Thí dụ trong một nghiên cứu cắt ngang nhằm tìm hiểu mô hình bệnh
tật của một cộng đồng (đây là một nghiên cứu rất có giá trị để thiết kế chương trình can thiệp y
tế cho cộng đồng đó) nhà nghiên cứu không tập trung vào việc mô tả các vấn đề sức khoẻ mà lại
(thí dụ như) cố gắng tìm mối liên hệ giữa ung thư và hút thuốc lá và như vậy làm loãng giá trị
của đề tài nghiên cứu bằng một phân tích kém chất lượng và bị sai lệch.
Nghiên cứu so sánh hay nghiên cứu phân tích
Dịch tễ học phân tích (hoặc tìm nguyên nhân) có nội dung tìm nguyên nhân gây ra vấn đề sức
51
khỏe trong dân chúng.
Phương pháp áp dụng là phân tích các yếu tố ảnh hưởng làm gia tăng tỷ lệ bệnh trong một dân
số. Nguyên lí của phương pháp này là so sánh tỉ lệ mắc bệnh của hai nhóm dân số: một dân số
có tiếp xúc với yếu tố nguy cơ và một dân số không tiếp xúc với yếu tố nguy cơ. Nếu tỉ lệ mắc
bệnh này khác biệt giữa hai nhóm (nghĩa là nguy cơ tương đối khác 1) thì ta kết luận có thể có
mối liên hệ giữa yếu tố tiếp xúc và bệnh tật. Mặc dầu rất nhiều lãnh vực khoa học sinh học tham
gia vào khảo sát nguyên nhân bệnh tật con người nhưng vai trò của dịch tễ học là độc đáo và
không thể thay thế. Hơn nữa phương pháp dịch tễ học thường đi đầu tìm ra các nguyên nhân.
Các ngành khoa học khác sẽ đi theo để tìm thêm chứng cứ ủng hộ. Thí dụ John Snow đã tìm ra
cơ chế lây bệnh của dịch tả trước khi các nhà vi sinh học tìm ra phẩy khuẩn tả Doll và Hill tìm …
thấy vai trò của thuốc lá gây bệnh ung thư phổi trước khi các nhà khoa học tìm thấy hóa chất
sinh ung trong khói thuốc lá.
Ðể có số liệu cụ thể, dịch tễ học phân tích có thể dùng các phương pháp điều tra thu thập sau
đây:
Khảo sát nguyên nhân trong cohort
Coù tieáp
xuùc
Khoâng
beänh
Coù
beänh
Khoâng
beänh
Thôøi gian t
1
t
0
Khoâng
tieáp
xuùc
Khoâng
beänh
Coù
beänh
Khoâng
beänh
Thôøi gian t
1
t
0
Nghiên cứu đoàn hệ là nghiên cứu nhằm tìm ra sự liên hệ giữa một yếu tố phơi nhiễm và một
tình trạng sức khoẻ (thí dụ như một bệnh tật) bằng cách quan sát và so sánh nguy cơ mắc bệnh
giữa hai nhóm quần thể có tình trạng phơi nhiễm khác nhau. Một thí dụ kinh điển của nghiên
cứu đoàn hệ là nghiên cứu các bác sĩ Anh quốc (The British Doctor's study) được bắt đầu tiến
hành vào năm 1951 trong đó 34.440 nam bác sĩ được hỏi về tình trạng hút thuốc lá (có hay
không) và được theo dõi về tử vong do ung thư phổi trong vòng 20 năm 3. Kết quả cho thấy
nguy cơ tử vong hàng năm do ung thư phổi ở người không hút thuốc lá là 10/100.000 trong khi
nguy cơ tử vong hàng năm do ung thư phổi ở người hút thuốc lá là 140/100.000. Như vậy hút
thuốc lá làm tăng nguy cơ ung thư phổi lên 14 lần (nguy cơ tương đối là 14) và như vậy hút
thuốc lá được gọi là yếu tố nguy cơ (hay nguyên nhân) của ung thư phổi.
Tiền đề của nghiên cứu đoàn hệ là phải theo dõi đầy đủ một hiện tượng sức khoẻ của quần thể
trong thời gian khá dài (không có mất theo dõi - loss from follow-up). Ðây là khuyết điểm chính
của nghiên cứu đoàn hệ và các thiết kế nghiên cứu khác (bệnh chứng và cắt ngang) được đề xuất
để khắc phục. Nếu được theo dõi đầy đủ, nghiên cứu đoàn hệ có ưu điểm là trực quan và ít gây
ra sai lệch do chọn lựa và sẽ có tính thuyết phục cao.
52
Khảo sát nguyên nhân bệnh chứng:
Coù
beänh
Coù tieáp
xuùc
Khoâng
tieáp
xuùc
Thôøi gian t
0
t
1
Khoâng
beänh
Coù tieáp
xuùc
Khoâng
tieáp
xuùc
Thôøi gian t
0
t
1
Giả sử chúng ta không có điều kiện theo dõi 34.440 bác sĩ trong thời gian 20 năm nhưng chúng
ta có điều kiện (a) biết chắc chắn một người có phải là một nam bác sĩ hay không (b) ghi nhận
được thông tin của tất cả các trường hợp ung thư phổi xảy ra trên các nam bác sĩ và (c) chọn
một mẫu đại diện cho quần thể nam bác sĩ về phương diện hút thuốc lá. Khi đó bằng phép tính
số học đơn giản có thể chứng minh:
OR · ·
laù thuoác huùt khoâng ngöôøi ôû beänh maéc cheânh soá
laù thuoác huùt ngöôøi ôû beänh maéc cheânh soá
beänh maéc khoâng ngöôøi ôû laù thuoác huùt cheânh soá
beänh maéc ngöôøi ôû laù thuoác huùt cheânh soá
Và như vậy chúng ta có thể ước lượng được nguy cơ tương đối mà không cần phải quan sát
trong thời gian dài.
Nhằm tìm hiểu sự liên quan giữa sử dụng Oestrogen tổng hợp (OCE) và ung thư mội mạc tử
cung, một nghiên cứu bệnh chứng được tiến hành trong đó có 183 người bị ung thư nội mạc tử
cung (nhóm bệnh) và 183 người không bị ung thư nội mạc tử cung (nhóm chứng) được hỏi tiền
căn sử dụng OCE4 . Kết quả cho thấy trong nhóm bệnh có 55 người có tiền căn sử dụng OCE
(số chênh sử dụng OCE trong nhóm này là 55/128=0,43) và trong nhóm chứng có 19 người có
tiền căn sử dụng OCE (số chênh sử dụng OCE trong nhóm chứng là 19/164=0,12). Tỉ số của hai
số chênh này là 0,43/0,12= 3,6. Con số này (3,6) cũng chính là số chênh mắc ung thư mội mạc
tử cung của nhóm sử dụng OCE so với nhóm không sử dụng OCE hay là mức tăng nguy cơ ung
thư nội mạc tử cung nếu sử dụng OCE.
Nghiên cứu bệnh chứng tốt đòi hỏi phải thoả mãn 3 điều kiện đã nêu ở trên trong đó có điều
kiện là phải có thông tin về tất cả các trường hợp bệnh vì vậy nghiên cứu này thích hợp cho các
bệnh nghiêm trọng và tất cả các trường hợp bệnh đều phải nhập viện. Bệnh ung thư là một thí dụ
kinh điển của loại bệnh thích hợp cho nghiên cứu bệnh chứng. Nếu nghiên cứu bệnh chứng
không thoả mãn được 3 điều kiện trên sẽ bị sai lệch (biased). Hơn thế nữa, khi tiến hành nghiên
cứu bệnh chứng, nhà nghiên cứu phải chuẩn bị rất chu đáo về mặt kĩ thuật vì không dễ dàng
thuyết phục được cộng đồng khoa học đều đồng ý rằng nhóm chứng là thực sự đại diện cho quần
thể không mắc bệnh. Tuy nhiên nghiên cứu bệnh chứng có ưu điểm là tiến hành nhanh, ít tốn
kém đặc biệt trong nghiên cứu các bệnh hiếm và có thời gian tiềm tàng kéo dài.
53
Nghiên cứu cắt ngang
Trở về thí dụ nghiên cứu sự liên hệ giữa hút thuốc là và ung thư phổi, chúng ta có thể không cần
thời gian theo dõi trong suốt thời gian từ 1951 đến 1971 mà chỉ cần tiến hành một cuộc điều tra
ở thời điểm 1971, ghi nhận thông tin về hút thuốc và ung thư phổi và có được kết luận tương tự
như nghiên cứu đoàn hệ nếu chúng ta giả định được rằng (a) Tất cả các trường hợp ung thư phổi
chẩn đoán trong giai đoạn 1951 đến 1971 đều còn sống cho đến năm 1971 (b) Việc mắc ung thư
phổi không làm thay đổi thói quen hút thuốc lá của bác sĩ mắc bệnh (nghĩa là nếu họ hút thuốc lá
rồi bị ung thư phổi thì họ vẫn tiếp tục hút thuốc lá và nếu họ không hút thuốc lá thì sau khi ung
thư phổi vẫn tiếp tục không hút thuốc lá). Như vậy, nghiên cứu cắt ngang thường ít được sử
dụng cho các bệnh nghiêm trọng như ung thư, bệnh nhiễm trùng, tai nạn. Những bệnh thích hợp
cho nghiên cứu cắt ngang bao gồm rối loạn có tính chất định lượng và ít gây tử vong (béo phì,
suy dinh dưỡng, bất dung nạp đường huyết, tăng huyết áp thể nhẹ hay trung bình).
Một nghiên cứu cắt ngang được tiến hành ở Bavaria, cộng hoà liên bang Ðức nhằm đánh giá tác
động của bú sữa mẹ (trong thời kì nhũ nhi) lên nguy cơ béo phì (vào cuối tuổi nhà trẻ) bằng
cách sử dụng các số liệu chiều cao, cân nặng và bộ câu hỏi về dinh dưỡng của 9357 trẻ từ 5-6
tuổi được khám sức khoẻ trước khi nhập học 5. Ở trẻ không được bú mẹ, tỉ lệ béo phì là 4,5%
trong khi đó ở trẻ được bú mẹ tỉ lệ béo phì là 2,8%. Tác giả kết luận rằng bú sữa mẹ làm giảm
nguy cơ béo phì ở cuối tuổi nhà trẻ. Mặc dù đây là nghiên cứu cắt ngang nhưng có tính giá trị
tốt do thoả mãn được hai giả định của nghiên cứu cắt ngang (a) đứa trẻ bị béo phì không bị tăng
nguy cơ tử vong và (b) việc trẻ bị béo phì không ảnh hưởng gì đến việc bú sữa mẹ ở giai đoạn
nhũ nhi.
Tóm lại nghiên cứu cắt ngang có ưu điểm là đơn giản và ít tốn kém. Tuy nhiên nó chỉ có thể áp
dụng được cho các bệnh tật có tính chất định lượng, phổ biến, ít gây tử vong và các yếu tố nguy
cơ ít biến động.
Nghiên cứu can thiệp
Trong nghiên cứu can thiệp nhà nghiên cứu tác động lên tình hình và đo lường kết quả của việc
tác động. Thông thường có hai nhóm được so sánh,nhóm được can thiệp (thí dụ như được điều
trị với một loại thuốc) và nhóm không được can thiệp (nhóm sử dụng giả dược).
Nghiên cứu can thiệp được chia thành nghiên cứu thực nghiệm và nghiên cứu bán thực nghiệm
Trong nghiên cứu thực nghiệm, các cá nhân được chia ngẫu nhiên thành (ít nhất) hai nhóm. Một
nhóm được nhận can thiệp (nhóm thử nghiệm) và một nhóm không được nhận can thiệp (nhóm
chứng). Kết cuộc của can thiệp được tính từ việc so sánh kết quả ở hai nhóm.
Nghiên cứu thực nghiệm có 3 đặc tính:
- Thao tác
- Có nhóm chứng
- Chia nhóm ngẫu nhiên: sức mạnh của nghiên cứu thực nghiệm chính là việc chia nhóm ngẫu
nhiên giúp loại bỏ yếu tố gây nhiễu.
Nghiên cứu bán thực nghiệm là nghiên cứu có sự thao tác của nhà nghiên cứu nhưng thiếu một
trong hai đặc tính còn lại của nghiên cứu thực nghiệm (thí dụ như không có nhóm chứng hay
không được chia nhóm ngẫu nhiên.
Nghiên cứu thực nghiệm có thể được chia làm 3 loại:
1- Thử nghiệm lâm sàng: là nghiên cứu trên đối tượng bệnh nhân. Loại nghiên cứu bao gồm
việc thử nghiệm một điều trị mới hay một biện pháp dự phòng các di chứng trên bệnh
nhân nhằm đánh giá hiệu quả của việc điều trị hay dự phòng kể trên.
2- Thử nghiệm thực địa là việc can thiệp trên người chưa có bệnh. Loại nghiên cứu này chủ yếu
đánh giá các biện pháp dự phòng.Để nghiên cứu có tính xác hợp người ta thường chỉ sử
dụng thử nghiệm thực địa để đánh giá các giải pháp can thiệp dự phòng cho các bệnh
54
bệnh phổ biến hay trầm trọng. Các thử nghiệm vaccine là một loại thử nghiệm thực địa
phổ biến nhất.
3- Can thiệp cộng đồng tương tự như thử nghiệm thực địa nhưng có đặc điểm là biện pháp can
thiệp được áp dụng cho cả cộng đồng chứ không phải có một cá nhân đơn lẻ. Can thiệp
cộng đồng áp dụng khi biện pháp can thiệp này chỉ có thể áp dụng cho quy mô cộng
đồng thí dụ như việc đánh giá hiệu quả của việc cải tạo vệ sinh môi trường trong việc
phòng chống sốt rét.
Nghiên cứu can thiệp chính thống có 3 đặc điểm quan trọng: có việc can thiệp chủ động và đặc
hiệu cho nghiên cứu, có nhóm đối chứng và sử dụng việc phân nhóm ngẫu nhiên để đưa các đối
tượng vào nhóm can thiệp và hay nhóm đối chứng đối chứng. Nghiên cứu can thiệp không có
đủ 3 đặc tính trên được gọi là nghiên cứu bán can thiệp (quasi experiment). Việc sai lệch thông
tin trong nghiên cứu can thiệp có thể được giảm thiểu nếu với phương pháp mù đơn (có nghĩa là
làm sao cho đối tượng không biết loại điều trị của cá nhân mình) hoặc mù đôi (cả đối tượng điều
trị và nhà nghiên cứu đều không biết loại điều trị được thực hiện trên từng cá nhân). Tuy nhiên
tính chất mù của nghiên cứu can thiệp không phải là yêu cầu tuyệt đối.
Do nghiên cứu thực nghiệm có chia làm 2 nhóm can thiệp và nhóm chứng bằng phương pháp
chia nhóm ngẫu nhiên, sẽ phân bố đều yếu tố gây nhiễu trong 2 nhóm và hạn chế vai trò của yếu
tố gây nhiễu, đặc biệt khí cỡ mẫu đủ lớn. Đó là lí do tại sao những bằng chứng từ nghiên cứu
thực nghiệm được đánh giá cao.
Tính giá trị và tính tin cậy của kết quả nghiên cứu
Tính giá trị nghĩa là kết luận của nghiên cứu là đúng
Tính tin cậy là nếu ai đó sử dụng cùng phương pháp nghiên cứu trong cùng một hoàn cảnh sẽ có
kết luận tương tự.
Giaù trò vaø chính xaùc Giaù trò - khoâng tin caäy
Khoâng giaù trò - khoâng tin caäy
55
Các số đo dịch tễ học
I. Mở đầu:
Bởi vì Dịch tễ học là khoa học mô tả sự phân bố của bệnh tật và các hiện tượng sức khỏe trong
dân số, các loại số đo sự phân bố bệnh tật là những khái niệm trung tâm của dịch tễ học.
II. Số đo tuyệt đối và số đo tương đối
Số đo tuyệt đối là số tuyệt đối của các hiện tượng sức khỏe và bệnh tật:
Thí dụ: trong năm 1997 tại thành phồ Hồ Chí Minh có khoảng 600 người chết vì bị tai nạn giao
thông đường bộ và 4 người chết do các phương tiện giao thông đường thủy. Ðây là các
số đo tuyệt đối. Từ các con số này chúng ta có thể cho rằng giao thông đường bộ nguy
hiểm hơn giao thông đường thủy. Nhận xét này có thể nhầm lẫn bởi vì chúng ta chưa xét
đến quy mô của dân số nguy cơ.
Số đo tương đối là tỉ số của hiện tượng sức khỏe bệnh tật so với dân số có nguy cơ có hiện tượng
sức khỏe đó.
Thí dụ: Người ta ước tính tại TP Hồ Chí Minh vào năm 1997 có khoảng 700.000.000 lượt vận
chuyển trên đường và 1.000.000 lượt vận chuyển bằng đường sông. Nguy cơ bị tử vong
trên mỗi lượt vận chuyển đường bộ vào khoảng 0,87/1.000.000 và nguy cơ bị tử vong
trên mỗi lượt vận chuyển là 2/1.000.000. Từ các con số này, chúng ta thấy vận chuyển
bằng đường sông nguy hiểm hơn vận chuyển bằng đường bộ
Câu hỏi: Về phương diện y tế công cộng, có phải dùng số đo tương đối thích hợp hơn số đo
tuyệt đối. Tại sao?
III. Tỉ số, tỉ lệ, tỉ suất
Do dịch tễ học sử dụng các số đo tương đối, các số đo thường là một thương số gồm tử số và
mẫu số. Tùy theo mối quan hệ giữa tử số và mẫu số cũng như tùy theo ý nghĩa của số đo, các
thương số này có thể là tỉ số, tỉ lệ hay tỉ suất:
Tỉ số (ratio) là loại thương số đơn giản nhất do một tử số chia cho một mẫu số bất kì
a/b
Trong tỉ số, tử số không nhất thiết là một phần của mẫu số.
Thí dụ: trong dân số của một xã người ta thâý có khoảng 49 người nam trong dân số 100 người.
Tỉ số giới tính = nam:nữ= 49:51.
Tỉ lệ (proportion) là một thương số trong đó tử số là một bộ phận của mẫu số.
Thí dụ: trong dân số một xã gồm 100 người có 49 người nam. Tỉ lệ nam giới trong dân số là
49%.
Tỉ suất (rate). từ "suất" trong tiếng Việt cũng như từ "rate" trong tiếng Anh thường để chỉ một
hiện tượng có liên quan đến thời gian. Thí dụ: lãi suất: tiền lời hàng tháng, sinh suất: số lần sinh
sống xảy ra trong một năm trong một dân số gồm 100 người. Thí dụ nếu một xã có 5.000 người
và sinh suất là 2% thì mỗi năm sẽ có khoảng 100 trẻ được sinh và trong 2 năm sẽ có khoảng 200
trẻ được sinh. Tỉ suất khác với tỉ lệ ở chỗ giả sử tỉ lệ không có mối liên hệ nội tại với thời gian.
Thí dụ nếu ta biết tỉ lệ nam trong dân số là 49%, ta không thể tiên đoán gì về sự thay đổi của số
người nam trong tương lai.
56
IV. Số đo dịch tễ
A. Tần suất
1. Số ca mới mắc (Incidence):
Là số lần mới vừa xảy ra của một bệnh, chấn thương hay tử vong trong dân số nghiên cứu trong
khoảng thời gian xác định
2. Sô ca hiện đang bệnh (Prevalence):
Là số người trong một dân số xác định có một bệnh nhất định ở một thời điểm (thường là thời
điểm điều tra).
3. Minh họa khái niệm về bệnh tật:
a. Khái niệm về số mới mắc, số hiện đang bệnh được minh họa trong hình 2-1 dựa trên phương
pháp được phát minh bởi Dorn (1957).
- Số mới mắc bệnh trong khoảng thời gian một năm là 4
- Số hiện đang bệnh tại thời điểm 1/1 là 3
- Số hiện đang bệnh tại thời điểm 1/9 là 4
4. Mối quan hệ giữa số hiện đang bệnh và số mới mắc:
Số hiện đang bệnh = Số mới mắc x Thời gian mắc bệnh trung bình
Hình 1. Minh hoïa veà dieãn tieán beänh taät cuûa 7 ñoái töôïng A, B, C, D, E, F, G trong soá
100 ñoái töôïng. Ñöôøng ñen naèm ngang laø thôøi gian maéc beänh cuûa caùc ñoái töôïng vôùi
daáu chaám ôû ñaàu laø thôøi ñieåm maéc beänh vaø daáu chaám ôû cuoái laø thôøi ñieåm keát thuùc
beänh.
A
C
B
D
F
E
G
57
B. Nguy cơ
1. Ðịnh nghĩa
a. Nguy cơ là tỉ lệ người không bị ảnh hưởng ở đầu nghiên cứu và sau đó vướng phải một biến
cố nguy cơ (chết, bệnh, chấn thương) trong thời gian nghiên cứu.
cô nguy soá daân
coá bieán ra xaûy ngöôøi soá
cô nguy ·
Nguy cơ rất hữu ích trong đo lường (tiên đoán) khả năng mắc bệnh của một cá nhân trong một
khoảng thời gian nhất định.
b. Hạn chế của ý niệm nguy cơ:
- Trên lí thuyết, chỉ có dân số nhạy cảm mới được kể trong mẫu số của nguy cơ nhưng trong
thực tế mẫu số bao gồm tất cả mọi người bị phơi nhiễm chứ không chỉ những cá nhân nhạy
cảm.
- Nguy cơ không hữu ích nếu một cá nhân có thể mắc bệnh (được quan tâm) nhiều lần hay khi
có tỉ lệ đối tượng cùng mắc bệnh tại một thời điểm khá cao.
c. Một số khái niệm thường gặp có bản chất là nguy cơ
- Tỉ số bệnh-vong (case fatality) là tỉ lệ người bệnh bị chết do bệnh đó. Ðây là chỉ số của độc
lực.
- Tỉ lệ người bị nhiễm trùng có triệu chứng lâm sàng được gọi là tính sinh bệnh (pathogenicity)
của vi sinh vật.
- Tỉ lệ người bị phơi nhiễm trở nên bị nhiễm trùng được gọi là tính truyền nhiễm của vi sinh vật
(infectiousness).
C. Tỉ suất
1. Ðịnh nghĩa:
Tỉ suất là số biến cố xảy ra trong một đơn vị thời gian chia cho dân số nguy cơ trung bình.
Tỉ suất còn có thể được định nghĩa là số biến cố xảy ra chia cho tổng thời gian nguy cơ.
bình trung cô nguy soá daân
gian thôøi vò ñôn 1 trong ra xaûy coá bieán soá
suaát tæ ·
2. Liên hệ giữa tỉ suất và nguy cơ
- Nếu nguy cơ được tính trong thời gian một năm và mỗi đối tượng chỉ có thể có một biến cố
nguy cơ thì số người có biến cố nguy cơ sẽ bằng với số biến cố nguy cơ trong 1 đơn vị
thời gian.
- Nếu số người bị ảnh hưởng bởi biến cố nguy cơ ít thì dân số nguy cơ trung bình sẽ bằng với
dân số nguy cơ ở đầu nghiên cứu. Khi đó ta nói tỉ suất sẽ xấp xỉ với nguy cơ trong một
đơn vị thời gian. Nói cách khác chúng ta có thể ước tính tỉ suất bằng nguy cơ trong một
đơn vị thời gian khi:
- Mỗi đối tượng chỉ có bị ảnh hưởng bởi biến cố nguy cơ nhiều nhất một lần, mỗi người chỉ có
thể có một lần mắc bệnh và
- Khoảng thời gian nghiên cứu ngắn hay đối với bệnh hiếm.
58

Số đo hậu quả và số đo tác động
I. Nhắc lại về số đo sự xuất hiện của bệnh: tỉ suất, nguy cơ và số chênh
Số mới mắc (incidence) là đo lường của sự xuất hiện của bệnh. Số mới mắc có thể trình bày
dưới dạng số tuyệt đối hay số tương đối. Những đo số tương đối của sự xuất hiện bệnh thường
gặp là nguy cơ, tỉ suất mới mắc, hay số chênh.
Nguy cơ (risk) là xác suất xuất hiện bệnh trong một khoảng thời gian nhất định. Do bản chất của
nguy cơ là xác suất nên nguy cơ không có thứ nguyên và
0 < nguy cơ < 1
Số chênh (odds) la ø tỉ số giữa nguy cơ mắc bệnh và nguy cơ không mắc bệnh
risk / (1 - risk)
Số chênh là một số không âm, số chênh bằng 0 khi nguy cơ bằng 0, số chênh bằng 1 khi nguy cơ
bằng 0,5 và số chênh tiến đến vô cực khi nguy cơ bằng 1. Như vậy, số chênh cũng là thước đo
để đo lường sự xuất hiện của bệnh.
Tỉ suất mới mắc (incidence rate): nguy cơ mắc bệnh tức thời trong một đơn vị thời gian. Do đơn
vị thời gian được chọn là tùy ý, tỉ suất mới mắc không có giới hạn về giá trị. Thứ nguyên của tỉ
suất mới mắc là thời gian
-1
, thí dụ tỉ suất mới của bệnh mạch vành tim ở người có cholesterol ≥
245 mg% là 0,02/năm.
Thông thường, tỉ suất mới mắc của một bệnh thường được gọi là tỉ suất của bệnh đó. Thí dụ, ta
có thể nói tỉ suất bệnh mạch vành là 0,02/năm ở những người có cholesterol ≥ 245 mg% nghĩa là
trong 100 người có cholesterol ≥ 245 mg% và chưa bị bệnh mạch vành tim, trung bình có hai
người bị xuất hiện bệnh mạch vành sau thời gian theo dõi 1 năm.
II. Số đo sự kết hợp - số đo hậu quả
Bảng 2 x 2 đã được dùng từ rất lâu để chứng minh sự kết hợp thống kê giữa một yếu tố nguy cơ
và sự xuất hiện của bệnh tật. Nhưng chỉ riêng sự kết hợp thống kê không nói lên được tầm quan
trọng về mặt lâm sàng (hoặc y tế công cộng) của mối liên quan nhân quả giữa yếu tố nguy cơ và
bệnh tật. Một sự kết hợp dù không có tầm quan trọng lớn nhưng đều có thể được chứng minh là
có ý nghĩa thống kê với cỡ mẫu đủ lớn.
Khoa học dịch tễ học nhận thức được hai vấn đề (1) Trong thực tế không có một nguyên nhân
đơn lẻ là nguyên nhân duy nhất cho một vấn đề y tế. Một vấn đề y tế luôn luôn được gây ra bởi
rất nhiều nguyên nhân và những nguyên nhân này chồng chéo lẫn nhau, người ta gợi đó là mạng
lưới nguyên nhân (web of causation) và (2) Ngành y tế không thể giải quyết được mọi nguyên
nhân của một vấn đề y tế cùng một lúc mà nó chỉ có thể giải quyết được tận gốc rễ nếu dịch tễ
học tìm ra được và giải quyết nguyên nhân quan trọng nhất.
Vì vậy, dịch tễ học đã đề xuất việc sử dụng tỉ số và hiệu số của nguy cơ làm thước đo của sự kết
hợp giữa nguyên nhân và hậu quả.
III. Số đo tỉ số
Số đo tỉ số thông dụng nhất là tỉ số nguy cơ (Risk ratio - RR). Tỉ số nguy cơ là tỉ số của nguy cơ
trong nhóm phơi nhiễm (r
1
) trên nguy cơ trong nhóm không phơi nhiễm (r
0
).
RR = r
1
/ r
0
Tỉ số nguy cơ còn được gọi là nguy cơ tương đối (Relative risk - RR). Tỉ số nguy cơ nói lên
người bị phơi nhiễm có nguy cơ bị mắc bệnh gấp bao nhiêu lần người không bị phơi nhiễm.
Thí dụ:
59
Bảng 1 trình bày một ví dụ rút ra từ nghiên cứu Framingham, trình bày số mới mắc bệnh mạch
vành tim trong 6 năm theo dõi tùy theo nồng độ cholesterol huyết thanh ban đầu trên nam giới
tuổi từ 40-59. Nếu ta xem nhóm có cholesterol huyết thanh <210 mg% là nhóm không phơi
nhiễm, thì nguy cơ mắc bệnh mạch vành tim ở nhóm không phơi nhiễm là 0,0352 (Ðiều này có
nghĩa là xác suất mắc bệnh mạch vành tim ở người có cholesterol < 210 mg% trong thời gian 6
năm vào khoảng 3,5%). Nếu ta xem nhóm có cholesterol ≥ 245 mg% là nhóm phơi nhiễm thì
nguy cơ ở nhóm phơi nhiễm là 0,1203 (xác suất người có cholesterol ≥ 245 mg% bị bệnh mạch
vành tim trong thời gian 6 năm là 12%). Ta có tỉ số nguy cơ (RR) là tỉ số của 2 nguy cơ trên =
0,1203 / 0,0352 = 3,4. Ðiều này có nghĩa là xác suất bị bệnh mạch vành tim ở người có
cholesterol ≥ 245 mg% cao gấp 3,4 lần xác suất ở người có cholesterol < 210 mg%.
Ðứa trẻ không được chủng ngừa vaccine bại liệt có nguy cơ mắc bệnh bại liệt hơn đứa trẻ được
chủng ngừa tù 5 đến 10 lần. Ta nói tỉ số nguy cơ mắc bệnh bại liệt trong nhóm không được
chủng ngừa so với nhóm được chủng ngừa là từ 5 đến 10.
Như vậy, tỉ số nguy cơ ước lượng độ lớn của hậu quả của yếu tố nguy cơ, và do đó, tỉ số nguy cơ
là số đo của độ mạnh của sự kết hợp giữa yếu tố nguy cơ và bệnh tật. Ta nói, tỉ số nguy cơ là số
đo hậu quả hay số đo sự kết hợp. Ngoài tỉ số nguy cơ, còn có những số đo sự kết hợp khác như tỉ
số tỉ suất (rate ratio), tỉ số chênh (odds ratio), và tỉ số số hiện mắc (prevalence ratio).
Tỉ số tỉ suất thường được dùng trong những nghiên cứu đoàn hệ. Ðối với bệnh tật không quá phổ
biến, tỉ số nguy cơ bằng với tỉ số tỉ suất về mặt con số, do đó, trong y văn, người ta thường dùng
lẫn lộn tỉ số nguy cơ và tỉ số tỉ suất. Khi bệnh tương đối phổ biến thì tỉ số nguy cơ sẽ bị sai lệch
tiến tới giá trị đơn vị và người ta cho rằng tỉ số tỉ suất là ước lượng tốt hơn cho độ mạnh của sự
kết hợp.
Thí dụ: Trong số liệu của nghiên cứu Framingham được trình bày trong bảng 1. Tỉ số tỉ suất mắc
bệnh mạch vành tim trong nhóm cholesterol cao (cholesterol ≥ 245 mg%) so với nhóm có
cholesterol thấp (cholesterol < 210 mg%) = 0,0200 / 0,0059 = 3,4, gần bằng giá trị của tỉ số
nguy cơ đã được tính ở trên.
Trong nghiên cứu bệnh-chứng (và cả trong nghiên cứu đoàn hệ nếu muốn), người ta thường
dùng tỉ số chênh để ước lượng nguy cơ tương đối của việc phơi nhiễm với một yếu tố nguy cơ.
Người ta đã chứng minh tùy theo bệnh được nghiên cứu là bệnh hiếm hay phổ biến và tùy theo
cơ cấu lấy mẫu, tỉ số chênh có thể ước lượng cho tỉ số nguy cơ hay tỉ số tỉ suất và đều có thể nói
lên độ mạnh của sự kết hợp. Với cơ cấu lấy mẫu cổ điển và RR > 1 thì OR ( RR trong trường
hợp bệnh hiếm và 1 < RR < OR trong trường hợp bệnh phổ biến.
Ví dụ:
Trong một dân số giả thuyết gồm 10.000 người trong đó có 4.000 người hút thuốc lá và 6.000
Table 1. Số mới mắc bệnh mạch vành tim trong 6 năm theo dõi tùy theo nồng độ cholesterol huyết
thanh ban đầu trên nam giới tuổi từ 40-59
cholesterol
huyết thanh
mg/100 ml
Số người
trong nhóm
Số ca bệnh Nguy cơ Tỉ suất RR Nguy cơ quy
trách
< 210 454 16 0,0352 0,0059 1,0 0,0000
210 - 244 455 29 0,0637 0,0106 1,8 0,0285
≥ 245 422 51 0,1203 0,0200 3,4 0,0851
Tổng cộng 1333 96 0,0720 0,0120

60
không hút thuốc. Nếu chúng ta có thể theo dõi nhóm người này trong 5 năm liên tục ta có kết
quả sau (Bảng 2):
Table 2. Tình trạng bị nhồi máu cơ tim sau 5 năm theo dõi phân theo tình trạng hút thuốc lá
Nhóm người Bị nhồi máu cơ tim trong 5
năm theo dõi
Không bị nhồi máu cơ tim sau
5 năm theo dõi
Tổng số
Hút thuốc 400 3.600 4.000
Không hút
thuốc
120 5.880 6.000
Tổng số 520 9.480 10.000
Trong những nguyên tắc của nghiên cứu thống kê cổ điển, nhà nghiên cứu chỉ lập bảng 2×2 rồi
tính giá trị χ
2
, sau đó ước lượng xác suất của sai lầm loại 1 (mức ý nghĩa p) và quyết định chấp
nhận hay loại bỏ giả thuyết H
0
.
Các bước tiến hành như sau:
Giả thuyết H
0
: không có sự liên quan giữa hút thuốc lá và nguy cơ nhồi máu cơ tim
Chi-square = 311.59, 1 độ tự do do đó mức ý nghĩa p < 0,05
Như vậy ta bác bỏ giả thuyết H
0
. Nói cách khác, có sự liên hệ giữa hút thuốc lá và nhồi máu cơ
tim.
Tuy vậy theo dịch tễ học hiện đại, lời giải trên là không đầy đủ, bởi vì nó chỉ cho câu trả lời định
tính là có sự kết hợp giữa hút thuốc lá và nhồi máu cơ tim mà không nêu rõ sự kết hợp đó có độ
lớn là bao nhiêu. Ðể tính số đo kết hợp, ta cần những tính toán thêm như sau:
Nguy cơ nhồi máu ở những người hút thuốc (Risk
1
) = 400/4.000 = 0.1
Nguy cơ nhồi máu ở những người không hút (Risk
0
) = 120/6.000 = 0.02
Nguy cơ tương đối (hay tỉ số nguy cơ) RR= Risk
1
/Risk
0
=0.1/0.02=5
Ðó là những số đo sự kết hợp cổ điển trong nghiên cứu đoàn hệ. Dù vậy trong nghiên cứu đoàn
hệ cũng có thể dùng tỉ số số "chênh".
Số "Chênh" nhồi máu ở những người hút thuốc
(Odds
1
) = 0.10/(1-0.10) =400/(4.000-400) = 0.11
Số "Chênh" nhồi máu ở những người không hút
(Odds
0
) = 0.02/(1-0.02) =120/(6.000-120) = 0.02
Tỉ số số "Chênh" nhồi máu trong 2 nhóm tiếp xúc và không tiếp xúc
OR= Odds
1
/Odds
0
= (400/3600):120(5880)=(400*5880)/3600/120= 5.44
Ta thấy OR ≈ RR và OR hơi lớn hơn RR (trong trường hợp RR lớn hơn 1).
Trong nghiên cứu bệnh chứng cũng có thể tính được OR. Và nếu không có sai lêch trong nghiên
cứu thì OR tính được trong nghiên cứu bệnh chứng cũng bằng OR tính được trong nghiên cứu
đoàn hệ. Ví dụ minh họa cho điều này sẽ được trình bày trong bài nghiên cứu bệnh chứng.
IV. Số đo hiệu số
Hiệu số nguy cơ (Risk difference) là hiệu số của nguy cơ ở nhóm phơi nhiễm và ở nhóm không
phơi nhiễm
RD = r
1
- r
0
Hiệu số nguy cơ nói lên người bị phơi nhiễm phải gánh chịu một nguy cơ thặng dư là bao nhiêu.
Thí dụ:
Nếu ta xét trở lại số liệu ở bảng 1 và tìm hiệu số nguy cơ ở nhóm phơi nhiễm (những người có
61
cholesterol ≥ 245 mg%) và ở nhóm không phơi nhiễm (cholesterol < 210 mg%) ta có:
RD = 0,1203 - 0,0352 = 0,0851
Ta nói người có cholesterol cao sẽ có một nguy cơ thặng dư bị bệnh mạch vành tim là 0,0851.
Nói cách khác, loại bỏ những nguyên nhân khác, chỉ riêng cholesterol tăng cao sẽ tạo ra nguy cơ
là 0,0851. Nói thêm một cách khác nữa, nếu một người bị cholesterol cao và hoàn toàn không có
một yếu tố nguy cơ nào khác (không hút thuốc lá, không bị tăng huyết áp v.v. ) sẽ có xác suất bị
bệnh mạch vành tim là 8,5% trong thời gian được theo dõi là 6 năm.
Ta cũng có thể tính hiệu số tỉ suất ở trong nghiên cứu đoàn hệ. Tuy vậy, hiệu số số chênh không
được sử dụng bởi vì nó không có ý nghĩa sinh học.
Phân số nguy cơ quy trách (Attributable risk fraction) - còn được gọi là phân số quy trách là tỉ số
của hiệu số nguy cơ và nguy cơ của nhóm phơi nhiễm.
ARF= (r
1
-r
0
)/r
1
= 1 - 1/RR
Phân số nguy cơ quy trách nói lên rằng việc phơi nhiễm chiếm bao nhiêu phần trong nguy cơ
của người bị phơi nhiễm.
V. Biện luận thêm về tỉ số nguy cơ và hiệu số nguy cơ
1. Giả sử có một yếu tố nguy cơ là nguyên nhân của một bệnh tật nào đó (hay bệnh tật là
hậu quả của yếu tố nguy cơ). Khi đó, nếu có một quần thể bị phơi nhiễm với yếu tố nguy cơ và
một quần thể không bị phơi nhiễm thì nguy cơ (hoặc tỉ suất mới mắc) ở hai quần thể sẽ khác
nhau. Hậu quả của việc phơi nhiễm có thể được thấy bằng sự gia tăng nguy cơ (hoặc tỉ suất mới
mắc) ở một quần thể khi so sánh với quần thể khác. Hai nguy cơ (hoặc tỉ suất mới mắc) có thể
được so sánh bằng cách tính tỉ số hay hiệu số của chúng. Tóm lại, tỉ số nguy cơ hay hiệu số nguy
cơ có thể dùng để đánh giá độ mạnh của sự kết hợp giữa yếu tố nguy cơ và sự xuất hiện bệnh, và
đánh giá hậu quả của việc tiếp xúc với yếu tố nguy cơ. Tỉ số nguy cơ và hiệu số nguy cơ là số đo
sự kết hợp hay số đo hậu quả. Nhưng nó không thể dùng để đánh giá sự tác động của yếu tố
nguy cơ lên dân số. Sự tác động lên dân số không những phụ thuộc vào tỉ số nguy cơ mà còn
phụ thuộc vào mức độ phổ biến của bệnh và mức độ phổ biến của yếu tố nguy cơ
2. Nếu yếu tố nguy cơ là nguyên nhân của bệnh tật thì tỉ số nguy cơ và hiệu số nguy cơ sẽ
cho thấy sự kết hợp. Do đó tỉ số nguy cơ lớn hơn đơn vị (RR ≥ 1) là điều kiện cần, nhưng chưa
đủ để chứng minh mối quan hệ nhân quả.
3. Chọn lựa giữa tỉ số hay hiệu số phụ thuộc vào hiểu biết của chúng ta vào cơ chế làm tăng
tỉ suất mới mắc của yếu tố nguy cơ: nếu chúng ta nghĩ yếu tố nguy cơ làm nhân lên tỉ suất mới
mắc thì tỉ số là đo lường tốt nhất (những yếu tố nguy cơ có tác dụng gây bệnh phối hợp -
Synergic), nếu chúng ta nghĩ rằng yếu tố nguy cơ làm cộng thêm tỉ suất mới mắc thì hiệu số là
số đo lường tốt nhất (những yếu tố nguy cơ có tác dụng gây bệnh cộng - Additive).
Thí dụ: Xét việc truyền máu và vết lở ở cơ quan sinh dục với tư cách là yếu tố nguy cơ của
nhiễm HIV. Bởi vì truyền máu là nguy cơ cộng thêm và sự hiện diện của vết lở ở cơ quan sinh
dục là nguy cơ phối hợp nên người ta cho rằng nên dùng hiệu số nguy cơ để đánh giá hậu của
dùng bao cao su và tỉ số nguy cơ để đánh giá hậu quả của dùng bao cao su.
4. Trên đây, ta đã trình bày thí dụ về bệnh mạch vành tim là hiện tượng sức khỏe có sự
phân biệt rạch ròi giữa bệnh và không bệnh (nói cách khác, bệnh mạch vành tim được xem là
biến nhị phân - rời rạc) và ta có thể dùng tỉ số nguy cơ (RR) hay hiệu số nguy cơ (RD) để đánh
giá sự kết hợp. Dù vậy nếu hiện tượng sức khỏe là biến liên tục (thí dụ như tình trạng dinh
dưỡng của trẻ hoặc huyết áp tâm thu) ta không nên dùng RR hay RD mà nên dùng hệ số hồi quy
để đánh giá sự kết hợp.
5. Trong trường hợp có nhiều mức độ phơi nhiễm, như trong thí dụ trình bày ở bảng 1.Ta
phải chọn một mức phơi nhiễm (thí dụ như cholesterol < 210 mg%) làm nền tảng và tính RR của
những mức phơi nhiễm khác bằng cách tính nguy cơ ở mỗi mức và chia cho nguy cơ ở mức phơi
62
nhiễm nền tảng. Trở lại ví dụ ở bảng 1, nguy cơ bệnh mạch vành tim ở mức phơi nhiễm nền tảng
la 0,0352. Tỉ số nguy cơ ở người có cholesterol từ 210 đên 245 mg% là 0,0637 / 0,0352 = 1,8.
Tỉ số nguy cơ ở người có cholesterol ≥ 245 mg% là 0,1203 / 0,0352 = 3,4.
6. Nhóm được chọn làm nền tảng thường là nhóm có nguy cơ thấp nhất. Khi có nhiều mức
độ phơi nhiễm, người ta có thể chọn nhóm đông nhất làm nhóm nền tảng để làm tăng tính chính
xác của ước lượng.
7. Khi cả hai nhóm phơi nhiễm và không phơi nhiễm có thể được chia thành những tầng
(strata) theo một biến số khác -thí dụ như tuổi - ta có thể tính tỉ số nguy cơ đặc hiệu theo tầng
(stratum specific ratio) bằng cách xem xét nguy cơ ở từng tầng riêng biệt.
Thí dụ: Bảng 3 trỉnh bày tỉ suất chết do bệnh mạch vành tim ở những người hút thuốc và không
hút thuốc theo nhóm tuổi. Ở nhóm tuổi 35-44, người hút thuốc có nguy cơ bị chết do bệnh mạch
vành tim cao gấp 5 lần người không hút thuốc, trong khi ở nhóm tuổi từ 55-64 nguy cơ tương
đối chỉ khoảng 1,5 lần.
8. Có thể tính tỉ số tỉ suất tóm tắt (summary rate ratio). Có thể tính tỉ số tỉ suất tóm tắt bằng
cách lấy trung bình cộng những tỉ số tỉ suất đặc hiệu theo tầng. Nhưng người ta thường gán
trọng số (weight) cho tỉ số tỉ suất đặc hiệu. Có nhiều cách gán trọng số, hai cách phổ biến là
nguy cơ tương đối tóm tắt của Mantel-Hanenszel và tỉ số tử vong chuẩn hóa (Standardized
mortality ratio - SMR).
9. Hiệu lực vaccin (vaccine efficacy - VE) là tỉ lệ số mới mắc được giảm bớt do việc chủng
ngừa vaccin. Nếu xem nhóm không tiêm chủng vaccin là nhóm không phơi nhiễm có tỉ suất mới
mắc là r0 và nhóm có tiêm chủng có tỉ suất mắc bệnh r
1
, thì
VE = 1 - RR = 1 - (r
1
/ r
0
)
Nếu ta có tỉ lệ chủng ngừa trong dân số P
N
và tỉ lệ chủng ngừa trong những trường hợp bệnh P
C
ta có thể ước tính hiệu lực vaccin theo công thức sau:
VE = (P
N
- P
C
) / [P
N
(1-P
C
)]
Thí dụ: Chương trình tiêm chủng mở rộng được thực hiện ở Huyện A và người ta báo cáo rằng
90% đứa trẻ dưới 3 tuổi đã được tiêm chủng phòng sởi (P
N
= 0,9). Ở bệnh viện người ta thấy
rằng 70% đứa trẻ bị sởi dưới 3 tuổi đã được chủng ngừa sởi (P
C
= 0,7). VE được ước tính sẽ là
74%.
VI. Số đo tác động
Một số yếu tố nguy cơ có nguy cơ tương đối cao chưa hẳn có tác động quan trọng lên sức khỏe
Table 3 Tỉ suất chết do bệnh mạch vành tim ở những người hút thuốc và không hút thuốc theo
nhóm tuổi
Tuổi Tỉ suất ở người hút
thuốc
Tỉ suất ở người
không hút thuốc
Tỉ số tỉ suất
35-44 0,61 0,11 5.5
45-54 2,40 1.12 2,1
55-64 7,20 4,9 1,5
65-74 14,69 10,83 1,4
75-84 19,18 21,20 0,9
85 + 39,52 35,93 1,1
Tính chung 4,29 3,30 1,3
63
của cộng đồng. Thí dụ, tình trạng vô toan ở dạ dày là một yếu tố nguy cơ của bệnh dịch tả (RR
từ 10 đến 20) tuy vậy, tình trạng vô toan ở dạ dày chỉ góp phần rất nhỏ trong những case bệnh
dịch tả ở cộng đồng. Thực vậy, ở bệnh viện truyền nhiễm chúng ta rất hiếm khi (có thể nói là
không bao giờ) gặp được một bệnh nhân dịch tả do tình trạng vô toan mà chúng ta thường gặp
bệnh nhân bị bệnh dịch tả do không có nguồn nước sạch. Vì vậy người làm y tế công cộng
không quan tâm lắm đến tình trạng vô toan dạ dày như là một yếu tố nguy cơ của bệnh dịch tả,
bởi vì việc loại bỏ hoàn toàn yếu tố nguy cơ này chỉ có thể giảm một phần rất nhỏ số case bệnh
dịch tả. Ta nói yếu tố nguy cơ này có tác động nhỏ lên bệnh trạng của dịch tả. Ðể lượng hóa tác
động của yếu tố nguy cơ ta sử dụng nguy cơ quy trách dân số và phân số nguy cơ quy trách dân
số.
Hiệu số nguy cơ dân số (Population Risk Difference - PRD) là hiệu số giữa nguy cơ (hay tỉ suất)
của toàn bộ dân số r và nguy cơ (hay tỉ suất) của nhóm không phơi nhiễm (r0).
PRD = r - r
0
Nếu ta kí hiệu p là tỉ lệ trong dân số bị phơi nhiễm thì
r = pr
1
+ (1 - p)r
0
Do đó
PRD = pr
1
+ (1 - p)r
0
- r
0
= pr
1
+ r
0
- pr
0
- r
0
= pr
1
- pr
0
= p(r
1
- r
0
)
Nguy cơ quy trách dân số nói lên nguy cơ thặng dư gây nên do sự hiện diện của yếu tố nguy cơ
trong dân số. Nguy cơ quy trách dân số là tích số của tỉ lệ dân số bị phơi nhiễm và hiệu số nguy
cơ. Tình trạng vô toan dạ dày có nguy cơ quy trách dân số thấp bởi vì tỉ lệ dân số bị phơi nhiễm
với yếu tố nguy cơ đó (tỉ lệ dân số bị vô toan dạ dày) thấp.
Phân số nguy cơ quy trách dân số (Population Attributable Risk Fraction - PAF): là tỉ lệ của
những trường hợp bị bệnh trong toàn thể dân số nghiên cứu có thể quy kết cho sự phơi nhiễm
(với giả định là sự kết hợp nhân quả). Phân số nguy cơ quy trách dân số còn được gọi là phân số
căn nguyên (etiological fraction - EF), phần trăm nguy cơ quy trách dân số (percentage
population attributable fraction) hay phân số quy trách (attributable fraction - AF)
PAF = PRD / r = p (r
1
- r
0
)/ [pr
1
+ (1 - p)r
0
] = p(RR - 1)/[pRR + 1 - p]
= p(RR - 1)/[p(RR - 1) + 1]
Thí dụ:
1. Giả sử phân số nguy cơ quy trách dân số (PAF) tương ứng giữa hút thuốc lá và tử vong
do ung thư phổi là 0,80. Kết quả này có nghĩa là 80% những tử vong do ung thư phổi là do hút
thuốc lá. Hơn nữa, ta có thể tiên đoán nếu hút thuốc lá bị loại bỏ hoàn toàn, tỉ suất tử vong do
ung thư phổi sẽ giảm đi 80%
2. Xem lại số liệu được trình bày trong bảng 2. Ta tính được những số đo tác động như sau:
Nguy cơ nhồi máu trong dân số Risk =520 / 10.000 = 0.052
Hiệu số nguy cơ dân số PRD = 0.052-0.02 = 0.032
= Risk
0
× p × (RR-1) = 0.02 x 0.4 x (5-1) = 0.032
Phân số nguy cơ quy trách dân số PAF = 0.032/0.052 = 0.62 = 62%
3. Ðối với bệnh hiếm, ta có thể tính được PAF dựa trên kết quả của một nghiên cứu bệnh
chứng (lưu ý rằng đối với bệnh hiếm OR là ước lượng khá tốt cho RR). Dựa vào kết quả được
trình bày trong bảng 4, ta có thể tính được:
RR ≈ OR = 40 × 320 / (80 × 60) = 2,67
Tỉ lệ phơi nhiễm trong dân số = tỉ lệ phơi nhiễm trong nhóm chứng = 80/400 = 0,2
PAF = 0,2 × (2,67 - 1)/[0,2 (2,67 -1) + 1] = 0,25
64
Table 4. Số các đối tượng chia theo tình trạng phơi nhiễm và tình trạng bệnh trong một nghiên cứu
bệnh chứng (Số liệu giả lập)
Phơi nhiễm Không phơi
nhiễm
Tổng số
Bệnh 40 60 100
Chứng 80 320 400
Tổng số 120 380 500
VII. Bàn luận thêm về phân số nguy cơ quy trách dân số
1. Việc sử dụng phân số nguy cơ quy trách đòi hỏi một số những giả định: (1) sự kết hợp
giữa yếu tố nguy cơ và bệnh tật là nhân quả (2) RR và p được đo lường chính xác (3) việc loại
bỏ nguy cơ loại bỏ hoàn toàn nguy cơ do nó gây ra (điều này chưa chắn đúng bởi vì người bỏ
thuốc lá sẽ không thể có nguy cơ bị ung thư phổi bằng người chưa từng hút thuốc lá) và (4) có
thể loại bỏ hoàn toàn yếu tố nguy cơ.
2. Công thức tính toán này chỉ đúng khi áp dụng cho một yếu tố nguy cơ duy nhất và những
yếu tố nguy cơ không tương tác với nhau. Nếu áp dụng cho nhiều yếu tố nguy cơ có thể xảy ra
trường hợp tổng số những phân số nguy cơ quy trách dân số lớn hơn 100%.
65
Phương pháp thu thập số liệu
Có nhiều phương pháp chính để thu thập số liệu: hồi cứu hồ sơ tài liệu, quan sát, sử dụng bộ câu
hỏi tự điền, phỏng vấn mặt đối mặt, thảo luận nhóm tập trung như sử dụng nhóm danh định
(nomial group), kĩ thuật delphi, vẽ bản đồ (mapping). Cần phân biệt phương pháp thu thập số
liệu và công cụ thu thập số liệu (công cụ thu thập số liệu chỉ là một phần của phương pháp). Thí
dụ bộ câu hỏi chỉ là công cụ thu thập số liệu và có thể sử dụng trong nhiều phương pháp thu thập
số liệu khác nhau như bộ câu hỏi tự điền, phỏng vấn cá nhân mặt đối mặt, phỏng vấn nhóm, v.v.
Nhìn chung có hai kĩ thuật nghiên cứu chính: nghiên cứu định tính và nghiên cứu định lượng.
Nghiên cứu định tính nhằm mục đích tìm hiểu bản chất, nguyên nhân và hậu quả của vấn đề của
vấn đề nghiên cứu (để trả lời cho các câu hỏi tại sao, như thế nào) trong khi đó nghiên cứu định
lượng nhằm tìm hiểu quy mô của vấn đề (Trong một nghiên cứu có thể kết hợp cả hai loại kĩ
thuật nghiên cứu định tính và định lượng) Do các phương pháp thu thập số liệu sẽ cho các thông
tin khác nhau, việc chọn lựa kĩ thuật thu thập phù hợp phải dựa trên bản chất của nghiên cứu là
định tính hay định lượng.
Sử dụng thông tin sẵn có
Sử dụn thông tin sẵn có còn được gọi là phương pháp hồi cứu. Nó có ưu điểm là ít tốn kém về
mặt thời gian và nguồn lực và cho phép đánh giá các thông tin trong quá khứ. Tuy nhiên do bản
chất của số liệu hồi cứu là không sử dụng cho mục đích nghiên cứu, chất lượng số liệu thường
thấp, các biến số không được thu thập không hằng định và thường không có đủ các biến số mà
nhà nghiên cứu quan tâm (đặc biệt là yếu tố gây nhiễu).
Ðể cải thiện tính hằng định của số liệu có được nhờ hồi cứu, nhà nghiên cứu phải sử dụng các
công cụ để hệ thống hoá các biến số cần thu thập như bản kiểm hay sổ cái.
Quan sát
Chọn lọc, quan sát và ghi nhận hành vi hay đặc tính của con người, vật thể hay hiện tượng. Các
thí dụ của quan sát có thể bao gồm: quan sát hành vi rửa tay các cán bộ y tế trước khi làm thu
thuật y khoa, đo lường huyết áp và lấy thân nhiệt của bệnh nhân, đánh giá phương tiện thanh
khử trùng tại khoa phòng, theo dõi diễn tiến lâm sàng của bệnh nhân bị shock nhiễm trùng. Khi
quan sát hành vi con người trong các hoạt động xã hội, quá trình quan sát có thể chia thành quan
sát có tham gia và quan sát không tham gia.
Các ưu điểm của phương pháp quan sát
Cho thông tin chi tiết có liên quan tình huống: thí dụ giả sử chúng ta muốn quan sát hành
vi rửa tay của điều dưỡng trước khi thay băng cho bệnh nhân, chúng ta có thể có thông
tin về mức độ vô khuẩn của dụng cụ làm thủ thuật
Cho thông tin nằm ngoài bộ câu hỏi: Có những thông tin chúng ta không dự định thu
thập trong bộ câu hỏi (hoặc khó có thể thu thập được chính xác nhờ bộ câu hỏi) thí dụ
như thông tin về kĩ thuật sử dụng bàn chải trong khi đang rửa tay có đúng hay không có
thể có được một cách chính xác và đơn giản nhờ quan sát
Cho phép kiểm tra tính tin cậy của trả lời câu hỏi: Nếu chúng ta quan sát một người điều
dưỡng rửa tay trước khi làm thủ thuật, thông tin này sẽ đáng tin cậy hơn là việc phỏng
vấn họ có rửa tay hay không? Rửa tay trong bao lâu? Rửa tay có đúng kĩ thuật hay
không?
Khuyết điểm
Sai lệch do quan sát: đây là sai lệch do người quan sát. Phương pháp khắc phục là Cần
đào tạo đúng mức những trợ lí nghiên cứu
66
HW Hawthorne: đây là sai lệch do người (hay hiện tượng) được quan sát sẽ thay đổi
hành vi khi biết rằng đang được quan sát. Ðiều này có thể khắc phục bằng cách quan sát
nhưng không cho biết nhưng điều này có thể có thể gặp phải một số vấn đề về đạo đức.
Ðo lường là quan sát sử dụng một thang đo xác định từ trước
Phỏng vấn mặt đối mặt và bộ câu hỏi tự điền
Phương pháp phỏng vấn có thể áp dụng cho từng đối tượng hay cho một nhóm người. Phỏng
vấn từng người được dùng để có được những kết quả định lượng; phỏng vấn một nhóm người
nhằm mục đích để hiểu rõ suy nghĩ của người dân và ý kiến của họ trong điều kiện cuộc sống
thực tế: phương pháp này thường được dùng trong các nghiên cứu định tính.
Phỏng vấn có thể được tiến hành với các mức độ cấu trúc khác nhau. Phỏng vấn được gọi là có
cấu trúc nếu nó tuân thủ theo một kế hoạch chặt chẽ và được hỏi theo những câu hỏi đã soạn
sẵn. Phỏng vấn bán cấu trúc là phỏng vấn có tuân thủ nhưng không chặt chẽ theo kế hoạch định
trước, câu hỏi cũng có thể được cải biên sao cho phù hợp với đối tượng. Phỏng vấn được gọi là
không cấu trúc khi nó không theo một kế hoạch nào cả và việc đặt câu hỏi là tùy tiện: phỏng vấn
không cấu trúc thường được coi là ít có tính khoa học.
Bảng 1. Ưu và khuyết điểm của phương pháp sử dụng bộ câu hỏi và phỏng vấn.
Khuyết điểm Ưu điểm
Kế hoạch phỏng vấn giúp
nhưngười phỏng vấn hỏi các
câu hỏi
- Tốn kém, cần phải sự giúp
đỡ của chuyên gia.
- Sai lệch do người phỏng
vấn
- Thông tin riêng tư có thể bị
sai lệch
- Phù hợp với đối tượng có
trình độ văn hoá thấp
- Tỉ lệ trả lời cao hơn
- Có thể khêu gợi nhiều chi
tiết hơn.
- Có sự kiểm soát tốt hơn đối
với câu trả lời (có thể làm
sáng tỏ câu hỏi)
Bộ câu hỏi tự điền - Tỉ lệ trả lời thấp hơn
- Khó khêu gợi câu trả lời chi
tiết
- Kiểm soát kém hơn câu trả
lời
- Không dùng cho người có
trình độ văn hoá thấp
- Rẻ tiền hơn
- Ít nhạy cảm với sai lệch do
người phỏng ván
- Có thể dùng bưu điện để gửi
bộ câu hỏi.
Phỏng vấn có cấu trúc, bán cấu trúc hay thu thập số liệu bằng bộ câu hỏi tự điền đều cần phải sử
dụng bộ câu hỏi. Bộ câu hỏi (questionnaire) là một văn bản gồm nhiều câu hỏi dùng để thu thập
số liệu. Việc soạn thảo bộ câu hỏi tốt là một trong những khâu then chốt để đảm bảo chất lượng
số liệu thu thập được.
Thiết kế bộ câu hỏi
Những điểm cần xem xét
Cần phải xem xét bộ câu hỏi sử dụng cho mục đích gì (dùng cho bộ câu hỏi tự điền hay bộ câu
hỏi để phỏng vấn mặt đối mặt, sử dụng cho kĩ thuật nghiên cứu định tính hay định lượng, sử
dụng cho chủ đề nào, v.v.), sử dụng trên đối tượng nào, những đối tượng này có trình độ học vấn
như thế nào và bộ câu hỏi này sử dụng cho cỡ mẫu bao nhiêu.
67
Bộ câu hỏi thường được phân loại là bộ câu hỏi có cấu trúc hay bộ câu hỏi mềm dẻo. Thông
thường bộ câu hỏi có cấu trúc được sử dụng cho nghiên cứu định lượng, sử dụng máy tính để
phân tích và sử dụng cho cỡ mẫu lớn, bộ câu hỏi có tính mềm dẻo được sử dụng chủ yếu cho
nghiên cứu định tính nhằm hiểu sâu hơn về một vấn đề chưa biết và không phù hợp để phân tích
thống kê trên máy tính.
Cấu trúc bộ câu hỏi
Cấu trúc bộ câu hỏi bao gồm quá trình thiết kế và tiến hành bộ câu hỏi
Việc thiết kế bộ câu hỏi bao gồm các bước sau:
1. Nội dung: Nhà nghiên cứu xác định những thông tin cần thu thập: những thông tin này bao
gồm những biến số độc lập, biến số phụ thuộc và các biến số gây nhiễu. Việc này cần rất nhiều
suy nghĩ và thảo luận. Cảm hứng trong việc chọn lựa những thông tin cần thiết xuất phát từ mục
tiêu của nhà nghiên cứu, từ việc thảo luận với những người khác và những nguồn khác. Kết quả
của giai đoạn này là một danh sách những thong tin cần được chuyển thành dạng câu hỏi.
2. Ðặt câu hỏi: Sơ phác bộ câu hỏi. Nhà nghiên cứu xuất phát từ danh sách những thông tin cần
thu thập và sơ phác bộ câu hỏi. Như sẽ được thảo luận sâu hơn, việc đặt câu và thiết kế bộ câu
hỏi là rất quan trọng trong việc đạt được tính giá trị của thông tin. Nếu bộ thiết kế được thiết kế
kém, câu trả lời sẽ không phản ánh chính xác tình trạng thực tế của nhà nghiên cứu. Có hai dạng
thức câu hỏi chính, câu hỏi mở và và câu hỏi. Trong câu hỏi mở không có những câu trả lời định
trước. Trong câu hỏi đóng có nhiều câu trả lời định trước mà người được hỏi chỉ việc lựa chọn
trong đó. Ưu và khuyết điểm của những câu trả lời là như sau:
Khuyết điểm Ưu điểm
Câu hỏi mở - Có tính cấu trúc thấp
- Khó mã hóa câu trả lời để
có thể phân tích thống kê
- Tốn nhiều thời gian
- Khó trả lời hơn
- Có nhiều chi tiết hơn
Câu hỏi đóng - Có ít chi tiết hơn
- Có thể khiến người được
hỏi khó chịu
- Có tính cấu trúc cao
- Câu trả lời dễ mã hóa hơn
- Tốn ít thời gian hơn
Tuy nhiên nếu nghiên cứu định tính, người ta thích dùng câu hỏi mở hơn bởi vì nó cho phép
người trả lời có thể trình bày bằng ngôn từ của họ. Còn việc dùng bộ câu hỏi trong nghiên cứu
định lượng người ta nhắm vào tiện lợi và tốc độ chứ không chú trọng đến phân tích sâu.
Ðiều quan trọng trong danh sách những câu trả lời cho câu hỏi đóng cần phải được thiết kế cẩn
thận. Nếu phạm vi các câu trả lời bị giới hạn thì câu trả lời sẽ bị sai lệch.
Thang đo Likert và thang đo buộc lựa chọn
Một loại câu hỏi đóng đặc biệt có giá trị là thang đo Likert. Thang đo Likert do một nhà tâm lí
học người Mỹ tên là Likert phát minh. Thang đo này có ba ưu điểm chính:
- Làm dễ dàng hơn việc xây dựng câu hỏi để xác định thái độ của người dân
- Thuận tiện trong việc trả lời, phân tích câu hỏi
- Cho phép phân biệt nhiều mức độ khác nhau của thái độ.
Thang đo Likert truyền thống là một câu hỏi đóng gồm một mệnh đề và có 5 lựa chọn: có lựa
chọn dương tính, lựa chọn âm tính và lựa chọn trung bình. Thí dụ:
Bảng 3. Dạng thức Likert và dạng thức buộc lựa chọn
68
Q1. Bác sĩ của trạm y tế luôn luôn giải thích việc điều trị cho tôi (khoang một lựa chọn)
Rất đồng ý 1
Ðồng ý 2
Không ý kiến 3
Không đồng ý 4
Rất không đồng ý 5
Q2. Bác sĩ của trạm y tế luôn luôn giải thích việc điều trị cho tôi (khoang một lựa chọn)
Rất đồng ý 1
Ðồng ý 2
Không đồng ý 3
Rất không đồng ý 4
Tuy nhiên nếu những người dân có vẻ e dè khi dùng câu trả lời phủ định thì chúng ta có thể sử
dụng thang đo buộc lựa chọn. Trong câu hỏi buộc lựa chọn không cho phép người trả lời trả lời
không ý kiến và câu trả lời này để tránh tình trạng người trả lời luôn luôn ba phải (acquiescent
response mode). (Trong bảng trên câu hỏi 1 là thang đo Likert cổ điển. Câu hỏi 2 là thang đo 4
điểm buộc lựa chọn).
Bảng 4. Ưu và khuyết điểm của dạng thức Likert và buộc lựa chọn
Dạng thức trả lời Ưu điểm Khuyết điểm
Likert Luôn luôn cho phép trả lời trung
tính
Trả lời ba phải
Buộc lựa chọn Người trả lời phải chọn hoặc đồng
ý hoặc không đồng ý
Không cho phép trả lời ba phải
3. Sắp xếp cấu trúc bộ câu hỏi:
Bộ câu hỏi thông thường có cấu trúc như sau:
1. Phần giới thiệu: phần giới thiệu mô tả mục đích của nghiên cứu, thông tin cần thu thập
và cách sử dụng bộ câu hỏi. Nó cũng trình bày cho người được hỏi là thông tin này sẽ
được giữ kín hay không?
2. Thông tin về dân số học: thông thường chúng ta cần phải thu thập thông tin về dân số
học của người được phỏng vấn như tuổi, giới tính, nghề nghiệp, học vấn, v.v. Chúng ta
nên đưa thông tin này lên đầu bởi vì nó dễ trả lời và đóng vai trò "làm nóng" cho việc hỏi
những thông tin tiếp theo.
3. Câu hỏi về sự kiện: Câu hỏi về sự kiện dễ hỏi (và trả lời) hơn câu hỏi về ý kiến nên
thường được đặt ở trước.
4. Câu hỏi về ý kiến
5. Phần kết thúc và hướng dẫn gửi trả lại bộ câu hỏi (nếu sử dụng bộ câu hỏi tự điền).
Phần kết thúc là phần cám ơn người được phỏng vấn về sự hợp tác của họ và cung cấp
thông tin để họ có thể gửi trả bộ câu hỏi.
Trong bộ câu hỏi tự điền nên tránh những cấu trúc phức tạp như "Nếu bạn trả lời có ở
câu 6 và trả lời không ở câu trả lời 9, xin trả lời câu 10 nếu không xin trả lời câu 11".
4. Xây dựng hình thức bộ câu hỏi
5. Tiến hành thử bộ câu hỏi: Cần tiến hành thử bộ câu hỏi với một nhóm nhỏ những người mà ta
sẽ tiến hành nghiên cứu và trên đồng nghiệp để làm sáng tỏ bộ câu hỏi và phát hiện các vấn đề.
69
6. Soạn lại bộ câu hỏi: Nhờ vào việc tiến hành thử các bộ câu hỏi chúng ta có thể phát hiện được
vấn đề và cần phải sử chữa chúng bằng cách soạn lại bộ câu hỏi. Nếu vấn đề nay là nghiêm
trọng, chúng ta cần phải lập lại việc thử bộ câu hỏi. Nếu vấn đề là nhỏ thì nhà nghiên cứu chỉ
cần thay đổi và có thể tiến hành nghiên cứu trên quy mô thực sự.
7. Tiến hành bộ câu hỏi. Sau khi bộ câu hỏi hoàn chỉnh, chúng ta sẽ tiến hành bộ câu hỏi trên
dân số nghiên cứu. Các trả lời sẽ được phân tích theo mục tiêu của nghiên cứu.
Cách dùng từ và việc thiết kế câu hỏi
Viết được một câu hỏi tốt là một nghệ thuật và tốn nhiều thời gian. Ðể có được một câu trả lời
có giá trị và đáng tin cậy chúng ta phải có cách dùng từ trong câu hỏi tốt. Những sai lầm cần
phải tránh là:
Câu hỏi 2 nội dung: Thí dụ "Ông có thích cách đối xử của bác sĩ và các điều dưỡng trong bệnh
viện hay không". Những câu hỏi như thế này cần được tách ra để người ttả lời có thể nhận thức
câu hỏi một cách rõ ràng hơn.
Câu hỏi mơ hồ: Thí dụ đối với học sinh phổ thông người già là người trên 30 tuổi, nhưng đối
với người 50 tuổi người già là người trên 60 tuổi.
Tránh dùng từ quá chuyên môn: Thí dụ "Trong nhà bà có ai bị bệnh Trisomy 21 hay không?"
Tránh những câu hỏi gợi ý: "Mỗi năm ông (hoặc bà) đi khám răng mấy lần?". Câu hỏi này khiến
cho người được gọi có cảm giác rằng mọi người đều khám đi khám răng và cảm thấy rất khó
khăn khi trả lời "Không bao giờ tôi đi khám răng". hoặc "Bà đưa cháu đi khám ở đâu nếu cháu
bị tiêu chảy?"
Hơn nữa cũng cần lưu ý, ngay cả khi câu hỏi không gợi ý cũng có thể bị sai lệch, tùy thuộc vào
cách sử dụng bộ câu hỏi. Thí dụ nếu chúng ta hỏi ý kiến của người dân về trạm y tế mà chúng ta
lại cử nhân viên trạm y tế đi phỏng vấn thì chắc chắn câu trả lời sẽ bị sai lệch.
70
Lấy mẫu điều tra
Mục tiêu:
Sáu khi nghiên cứu bài này, hội thảo viên có khả năng:
(i) Phân biệt được phương pháp lấy mẫu xác suất và lấy mẫu không xác suất
(ii) Liệt kê 5 sơ đồ lấy mẫu xác suất thường dùng được và các ưu khuyết điểm của nó
(iii) Trình bày được các bước tiến hành của 5 sơ đồ lấy mẫu xác suất
(iv) Lập được một danh sách dân số nghiên cứu bằng cách rút chọn mẫu ngẫu nhiên đơn.
Ðại cương về phương pháp lấy mẫu:
Trên nguyên tắc, chúng ta chỉ có thể có những kết luận có giá trị về một dân số nào đó nếu
chúng ta khảo sát hoàn toàn dân số đó. Tuy vậy, điều này sẽ gây ra một số những hạn chế về
nguồn tài nguyên và về vấn đề về đạo đức. Một điều may mắn là những phương pháp thống kê
sẽ cho phép chúng ta có thể rút ra những kết luận có giá trị về dân số (với một độ tin cậy nhất
định) mà chỉ cần khảo sát một phần dân số đó. Phương pháp lấy mẫu là phương pháp rút chọn
một phần của dân số sao cho việc khảo sát mẫu đó cho phép cho phép chúng ta rút ra những kết
luận về dân số. Những nguyên tắc thống kê đòi hỏi một mẫu có giá trị khi mẫu đó có kích thước
đủ lớn (đủ cỡ mẫu) và mẫu đại diện cho dân số
Có nhiều phương pháp để đảm bảo tính đại diện của mẫu: Chúng ta có thể dùng trực giác để kết
luận về tính đại diện của mẫu. Thí dụ như chúng ta có thể cho rằng huyện An Phú tỉnh An giang
là đại diện cho vùng sinh thái lũ lụt của vùng đồng bằng sông Cửu Long. Tuy nhiên tính đại diện
theo sự đánh giá trực giác có thể không được tất cả mọi người đồng ý. Một cách khác tốt hơn để
đảm bảo tính đại diện bằng cách chọn mẫu xác suất.
Mẫu xác suất là mẫu rút từ dân số theo cách sao cho mọi phần tử trong dân số đều có một xác
suất được đưa vào mẫu. Năm phương pháp chọn mẫu xác suất thường được dùng phổ biến nhất
trong những cuộc điều tra ở địa phương hay có quy mô nhỏ là:
1. Lấy mẫu ngẫu nhiên đơn (Single random Sampling)
2. Lấy mẫu hệ thống (systemic sampling)
3. Lấy mẫu phân tầng (Stratified sampling)
4. Lấy mẫu cụm (Cluster sampling)
5. Lấy mẫu nhiều bậc (Multistage sampling)
Trước khi tiến hành lấy mẫu, trước tiên ta cần phải xác định đơn vị nghiên cứu. Ðơn vị nghiên
cứu (study unit) là đơn vị căn bản nhất hay nhỏ nhất mà cuộc nghiên cứu quan tâm. Trong cuộc
điều tra, đơn vị lấy mẫu là nơi mà người nhân viên điều tra phải đến thăm viếng để phỏng vấn,
khám lâm sàng và thu thập các thông tin khác. Ðơn vị nghiên cứu có thể là một bệnh nhận, một
hộ gia đình, một ngôi nhà, một làng, một xã hay có thể là một đơn vị hành chánh lớn hơn. Tập
hợp tất cả những đơn vị nghiên cứu hợp lệ trong dân số được gọi là khung mẫu (sampling
frame).
Thí dụ: Trong nghiên cứu về trọng lượng trung bình của trẻ sơ sinh trong năm 1997 của Quận
11, thành phố Hồ Chí Minh, đơn vị nghiên cứu là những đứa trẻ sơ sinh. Khung mẫu là tất cả
các đứa trẻ sơ sinh sinh trong năm 1997 của các gia đình cư ngụ tại Q11, thành phố Hồ Chí
Minh.
Trong nghiên cứu về tỉ lệ sử dụng các biện pháp sinh đẻ kế hoạch ở huyện Châu thành tỉnh Cần
thơ. Ðơn vị nghiên cứu là các cặp vợ chồng. Khung mẫu là tất cả các cặp vợ chồng cư ngụ tại
huyện Châu thành, tỉnh Cần thơ.
Trong nghiên cứu về số hộ có cầu tiêu hợp vệ sinh ở Tỉnh Sóc trăng. đơn vị nghiên cứu là ngôi
71
nhà. Khung mẫu là tất cả các ngôi nhà trong tỉnh Sóc Trăng.
Các phương pháp lẫy mẫu xác suất:
1. Mẫu ngẫu nhiên đơn:
Mẫu có cỡ mẫu n được rút từ trong dân số có N phần tử sao cho mọi cách lấy mẫu cỡ n đều có
một xác suất lựa chọn như nhau, mẫu đó được gọi là mẫu ngẫu nhiên đơn.
Phương pháp lẫy mẫu còn được chia theo 2 loại: phương pháp lấy mẫu có hoàn lại và lấy mẫu
không hoàn lại. Trong phương pháp lấy mẫu hoàn lại,một phần tử sau khi được rút chọn để đưa
vào mẫu vẫn có khả năng được rút chọn thêm - như vậy, một phần tử có thể làm đại diện cho
dân số 1, 2, 3 hay nhiều hơn lần. Trong phương pháp lấy mẫu không hoàn lại, những phần tử
được rút chọn rồi sẽ không được chọn một lần nữa. Do đó một phần tử có thể được đưa vào mẫu
tối đa 1 lần.
Ðể có thể lấy mẫu nhiên đơn, trước tiên ta cần xây dựng danh sách các đơn vị nghiên cứu trong
dân số (khung mẫu). Mỗi tên trên danh sách phải có một con số và con số này không được dùng
cho các tên khác.
Phương pháp chọn mẫu ngẫu nhiên đơn bằng cách rút thăm:
Cắt giấy thành những hình vuông đủ lớn để viết (thường dùng gấy vuông có cạnh từ 4 đến 5
cm). Ở mảnh giấy đầu ghi “1”, mảnh giấy thứ nhì ghi “2”, trên mảnh giấy thứ ba ghi “3” và tiếp
tục như thế cho đến số cuối cùng trong bản danh sách điều tra. Sau khi gấp kĩ và riêng rẽ các tờ
giấy để không ai có thể nhìn thấy số. Ðặt tất cả các mảnh giấy đã gấp vào hộp và lắc kĩ vài lần.
Khi đã lắc xong, để một người nào đó rút những mảnh giấy đã gập tùy theo yêu cầu của cỡ mẫu.
Mở các mảnh giấy đã được rút và chọn trong bản danh sách điều tra những tên có số giống với
số trên tờ giấy được rút chọn.Cần lưu ý: Mảnh giấy chỉ có một số, số trên tờ giấy phải tương ứng
với số trong danh sách không thêm số nào và bớt số nào.
Chọn số ngẫu nhiên đơn dùng bảng số ngẫu nhiên
Cách dùng bảng số ngẫu nhiên
Ða số các bảng số ngẫu nhiên gồm nhiều khối, mỗi khối có 5 số, mỗi số có 5 chữ số. Những số
này có thể đọc theo bất kì thứ tự nào, lên hoặc xuống theo cột hay qua hay qua trái của hàng.
Người ta chọn các số trong bảng này và tiếp theo đó đưa vào nghiên cứu những tên trong danh
sách có số trùng với số được chọn. Ðôi khi số ngẫu nhiên được bắt gặp 2 hay nhiều lần nhưng
khi đó người nghiên cứu bỏ qua số này. Ðôi khi người đọc được số trong bảng số ngẫu nhiên lớn
hơn số lớn nhất có trong danh sách (ngoài danh sách, "lớn quá cỡ thợ mộc") thì người nghiên
cứu cũng không xét đến số này.
Thao tác sử dụng các bảng số ngẫu nhiên:
Bước 1:
Xác định các chữ số có trong số lớn nhất của bản danh sách điều tra. Thí dụ, nếu có 317 đối
tượng trong khung mẫu, số lớn nhất là 317 và số này có 3 chữ số.
Bước 2:
Bảng chữ số ngẫu nhiên thường chứa 5 chữ số, như vậy nó thường lớn hơn cần thiết cho các
cuộc điều tra. Những số này có thể biến đổi thành số nhỏ hơn bằng cách loại bỏ một số các chữ
số. Thí dụ nếu ta cần 3 chữ số, thì một số 5 chữ số (như 44983) có thể trở thành số có 3 chữ số
bằng những phương pháp sau:
(i) loại bỏ 2 chữ số cuối (trở thành 449)
(ii) loại bỏ chữ số đầu và chữ số cuối (trở thành 498)
(iii) loại bỏ 2 chữ số đầu (như 983)
72
Tất cả 3 số này đều là những số ngẫu nhiên 3 chữ số hợp lệ
Lưu ý: Chúng ta có thể tìm một bảng số ngẫu nhiên bằng cách tra cứu trong sách thống kê.
Chúng ta cũng có thể tạo ra bảng số ngẫu nhiên bằng cách dùng chương trình Epi-Info. Trước
tiên chúng ta vào chương trình Epitable, chọn trình đơn Sample rồi chọn trình đơn con Random
number table (Bảng số ngẫu nhiên). Khi đó trên màn hình sẽ có kết quả như sau
Chúng ta nhập vào số các số ngẫu nhiên mà chúng ta muốn tạo ra (How many random
numbers): thí dụ như 60 và nhập vào số các chữ số có trong số ngẫu nhiên (How many digits
per number), thí dụ như 3, chúng ta sẽ có kết quả sau.
Bước 3:
Chọn một số có chữ số mong muốn. Chọn đố tượng tương ứng trên bản danh sách điều tra để
đưa vào nghiên cứu trừ khi:
(i) số được chọn đã được chọn từ trước
_ Describe Compare Study Sample Probability Setup
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
_________+----------------------------------------------------------+___________
_________¦ +-[_]------- Random number table generator ------------+¦___________
_________¦ ¦ ¦¦___________
_________¦ ¦ How many random numbers 550 ¦¦___________
_________¦ ¦ How many digits per number 5 ¦¦___________
_________¦ ¦ ¦¦___________
_________¦ ¦ ¦¦___________
_________¦ ¦ Calculate _ Reset _ Quit _ ¦¦___________
_________¦ ¦ ____________ ____________ ____________ ¦¦___________
_________¦ ¦ ¦¦___________
_________¦ +------------------------------------------------------+¦___________
_________+----------------------------------------------------------+___________
________________________________________________________________________________
________________________________________________________________________________
____________________________________________________________________¦¦__________
___________________________________________________________________¦¦¦¦_________
__________________________________________________________________¦¦¦¦¦¦________
_________________________________________________________________¦¦¦¦¦¦¦¦_______
F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:224824
_ Describe Compare Study Sample Probability Setup
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
_________+----------------------------------------------------------+___________
_________¦ +----------- Random number table generator ------------+¦___________
_________¦ ¦ ¦¦___________
_________¦ ¦ How many random numbers 60 ¦¦___________
_____+-[_] Files Edit Search []-+_____
_____¦454 712 771 345 042 124 978 077 899 904 914 680 374 784 925 ¦_____
_____¦133 359 974 535 150 661 443 010 944 509 897 462 692 565 277 -_____
_____¦487 622 044 787 542 892 801 795 586 689 510 109 682 209 261 ______
_____¦456 577 455 221 199 460 010 198 588 416 215 216 098 291 423 ______
_____¦ ______
_____¦ ______
_____¦ ______
_____¦ ______
_____¦ ______
_____¦ _____
_____+-¤---- 5:2 ------________________________________________________-+_____
__________________________________________________________________¦¦¦¦¦¦________
_________________________________________________________________¦¦¦¦¦¦¦¦_______
F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:223680
73
(ii) Số được chọn lớn hơn số lớn nhất có trong danh sách.
Bước 4:
Khảo sát số bên cạnh trong bảng số ngẫu nhiên và tiến hành như trong bước 2 và 3, số tiếp theo
có thể được chọn bất kì chỗ nào trong bảng số ngẫu nhiên. Cách đơn giản nhất là đi xuống dọc
theo cột (nếu hết cột này thì lại đếm qua cột bên cạnh) cho đến khi số nghiên cứu được chọn từ
danh sách điều tra bằng với số mẫu cần thiết. Ðiểm cần lưu ý là chọn hàng và cột đầu tiên phải
ngẫu nhiên.
Chọn mẫu ngẫu nhiên dùng chương trình Epi-Info
Trước tiên chúng ta vào chương trình Epitable, chọn trình đơn Sample rồi chọn trình đơn con
Random number list (Bảng số ngẫu nhiên). Khi đó trên màn hình sẽ có kết quả như sau (Xem
hình 3).
Nếu chúng ta muốn có danh sách gồm 50 số ngẫu nhiên trong phạm vi từ 1 đến 457 ta nhập giá
trị 30 vào ô How many radom numbers; 1 vào ô Minimumrange of numbers và 457 vào ô
Maximum range of number. Ta sẽ có kết quả sau:
_ Describe Compare Study Sample Probability Setup
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
_________+--+-[_]-------- Random number List generator ------------++___________
_________¦ ¦ ¦¦___________
_________¦ ¦ How many random numbers 100 ¦¦___________
_________¦ ¦ Minimum range of numbers 0 ¦¦___________
_________¦ ¦ Maximum range of numbers 1000 ¦¦___________
_________¦ ¦ ¦¦___________
_________¦ ¦ [ ] Drawing with replacement ¦¦___________
_________¦ ¦ ¦¦___________
_________¦ ¦ Calculate _ Reset _ Quit _ ¦¦___________
_________¦ ¦ ____________ ____________ ____________ ¦¦___________
_________¦ ¦ ¦¦___________
_________+--+------------------------------------------------------++___________
________________________________________________________________________________
________________________________________________________________________________
____________________________________________________________________¦¦__________
___________________________________________________________________¦¦¦¦_________
__________________________________________________________________¦¦¦¦¦¦________
_________________________________________________________________¦¦¦¦¦¦¦¦_______
F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:224504
74
Như vậy chúng ta sẽ chọn các đối tượng số 6, 10, 15, 22, ...., và 449 trong khung mẫu để đưa
vào mẫu.
Ưu và khuyết của phương pháp lấy mẫu ngẫu nhiên đơn:
Phương pháp lấy mẫu ngẫu nhiên đơn đòi hỏi phải có danh sách của toàn bộ dân số khảo sát.
Danh sách này có thể không có hoặc có nhưng không hoàn toàn và lỗi thời. Nếu không có được
danh sách hay chi phí lập danh sách rất tốn kém thì không thể sử dụng phương pháp ngẫu nhiên
được. Ðây là khuyết điểm chính của phương pháp lẫy mẫu này.
Tuy vậy, khi có hay khi có thể lập danh sách của toàn bộ dân số một cách dễ dàng thì phương
pháp này là phương pháp lấy mẫu đơn giản và có tính đại diện cao.
2. Phương pháp lấy mẫu hệ thống:
Thay vì rút chọn ngẫu nhiên người ta có thể chọn những đối tượng có một khoảng cách nhất
định, phương pháp này được gọi là phương pháp rút chọn hệ thống. Thí dụ, lấy mẫu hệ thống là
chọn các đối tượng mang số 8, 17, 26, 35, 44, 53, ... vào mẫu. Phương pháp lấy mẫu hệ thống
cũng có giá trị như lấymẫu ngẫu nhiên nếu không có tính tuần hoàn của các đối tượng. Tuy vậy,
cần biết rằng phương pháp mẫu ngẫu nhiên đơn luôn luôn tốt hơn bởi vì nó không cần thiết giả
định này. Phương pháp lấy mẫu hệ thống đặc biệt có giá trị khi chúng ta không thể có được toàn
bộ danh sách lấy mẫu ở vào thời điểm lấy mẫu. Thí dụ như chúng ta có thể lấy mẫu hệ thống để
chọn những bệnh nhân có số hồ sơ nhập viện cách nhau một khoảng nhất định.
3. Phương pháp lấy mẫu phân tầng
Lấy mẫu phân tầng được dùng khi dân số bao gồm các nhóm khác biệt hay tầng (strata), khác
nhau về các đặc tính nghiên cứu và bản thân sự khác biệt này cũng cần quan tâm. Những thí dụ
thường gặp là các nhóm tuổi, nhóm giới tính hay những vùng địa lí hay sinh thái khác nhau
trong quốc gia. Một mẫu ngẫu nhiên đơn được rút ra từ mỗi tầng để đảm bảo rằng chúng đủ đại
diện. Ước lượng chung cũng sẽ chính xác hơn dựa vào phương pháp lấy mẫu ngẫu nhiên đơn
không xét đến cấu trúc của các nhóm nhỏ trong dân số. Chiến lược thường dùdng là chọn các cá
nhân trong tầng với tỉ lệ như nhau, nghĩa là có cùng chung một phân số lấy mẫu (sampling
fraction) cho các tầng. Dù vậy, đôi khi cũng cần phải thay đổi để cỡ mâu của mỗi tầng không
quá nhỏ.
_ Describe Compare Study Sample Probability Setup
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
________________________________________________________________________________
_________+--+------------ Random number List generator ------------++___________
_________¦ ¦ ¦¦___________
_________¦ ¦ How many random numbers 50 ¦¦___________
_________¦ ¦ Minimum range of numbers 1 ¦¦___________
_____+-[_] Files Edit Search []-+_____
_____¦ 6 10 15 22 35 43 ¦_____
_____¦ 50 80 81 83 105 105 -_____
_____¦ 126 157 158 164 191 194 ______
_____¦ 215 221 224 227 234 236 ______
_____¦ 243 243 255 256 283 285 ______
_____¦ 295 319 324 326 333 343 ______
_____¦ 347 355 369 377 378 384 ______
_____¦ 393 414 421 434 435 435 ______
_____¦ 447 449 ______
_____¦ _____
_____+-¤--- 10:2 ------________________________________________________-+_____
__________________________________________________________________¦¦¦¦¦¦________
_________________________________________________________________¦¦¦¦¦¦¦¦_______
F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:223360
75
Bảng 1. Kết quả một mẫu phân tầng được tiến hành để ước lượng tỉ suất bệnh hiện mắc của một
bệnh trong một quốc gia có ba vùng địa lí chính. Tỉ suất bệnh hiện mắc chung được tính bằng
cách cộng số các người bệnh ước lượng được trong mỗi vùng và chia cho tổng số dân (Câu hỏi
thảo luận: Các tầng có cùng một phân số lấy mẫu hay không?)
Khu vực Dân số Cỡ mẫu Số bị bệnh Tỉ suất bệnh
hiện mắc
tổng số bệnh
ước lượng
Ðồng bằng ven
biển
1500000 200 120 0,6 900000
Vùng núi 150000 50 5 0,1 15000
Bán hoang mạc 300000 50 15 0,3 90000
Tổng số 1950000 300 140 0,52* 1005000
Thí dụ: Người ta muốn ước lượng tỉ suất hiện mắc của một bệnh trong một quốc gia với 3 vùng
sinh thái chính, vùng đồng bằng ven biển, vùng núi và vùng bán hoang mạc. Bởi vì dân số phân
phối đồng đều trong quốc gia, và bởi vì người ta nghĩ rằng đặc trưng sinh thái có thể ảnh hưởng
đến tỉ suất hiện mắc của bệnh, người ta chọn mẫu phân tầng. Bảng 1 trình bày kết quả thu được
với tỉ suất mắc toàn bộ trong mỗi vùng.
Tỉ suất mắc toàn bộ chung được tính bằng cách ước lượng số người bị bệnh trong mỗi vùng. Thí
dụ trong vùng đồng bằng ven biển tỉ suất hiện mắc của mẫu là 120/200 hay 0,6. Áp dụng số này
cho tổng số dân số trong vùng đồng bằng ven biển cho số ước lượng 0,5 x 150.000 = 90.000. Số
người bị bệnh của vùng núi và vùng hoang mạc được tính theo cách tương tự là 15000 và 90000.
Tổng số người mắc bệnh trong toàn quốc gia là 1.050.000. Kích thước dân số là 1.950.000 cho
nên tỉ số mắc toàn bộ chung là 1.050.000/1.950.000 = 0,52.
Lưu ý rằng con số này không giống với tỉ suất hiện mắc của mẫu là 140/300 = 0,47. Hai con số
này chỉ giống nhau khi dùng phân số lấy mẫu giống nhau cho mỗi tầng (nhưng điều này không
đúng trong trường hợp này). Việc tính toán sai số chuẩn của tỉ suất mắc hiện mắc cho toàn bộ
dân số dựa trên sự kết hợp các sai số chuẩn của các tỉ suất hiện mắc của mỗi vùng. Có thể sử
dụng phần mềm Epi-Info hoặc xem Moser và Kalton để biết thêm chi tiết.
4. Lấy mẫu cụm
Nếu chi phí phụ trội không nhiều, nên điều tra tất cả các đơn vị bậc hai từ một đơn vị bậc một
được chọn trong lược đồ lấy mẫu hai bậc. Ðiều đó được gọi là lấy mẫu cụm (cluster sampling)
và đơn vị lấy mẫu bậc một được gọi là cụm (cluster) trong trường hợp này. Có thể đạt được lược
đồ xác suất bằng nhau bằng cách lấy mẫu ngẫu nhiên đơn các cụm bất kể chúng có kích thươc
bằng nhau hay không.
Lấy mẫu cụm được dùng nếu có ích lợi được phân phát cho mọi người tham gia và nếu chỉ phân
phát quyền lợi cho một số thành viên của đơn vị là không thích hợp và không đạo đức. Thí dụ,
trog khi lấy mẫu trường để ước lượng tỉ suất hiện mắc của bệnh khi muốn sử dụng một phương
pháp điều trị có hiệu quả cho tất cả người bị bệnh, người ta sẽ khám cho tất cả các học sinh
trong các trường được chọn chứ không khám một mẫu trong đó.
5. Lấy mẫu nhiều bậc
Lấy mẫu nhiều bậc được tiến hành trong trong nhiều bậc dùng các cấu trúc đẳng cấp
(hierarchical structure) của dân số. Thí dụ, lấy mẫu 2 bậc (two stage sampling) có thể bao gồm
lần thứ nhất lấy một mẫu ngẫu nhiên các trường học và sau đó lấy mẫu ngẫu nhiên các trẻ em
trong các trường đã được chọn. Các trường hợp được gọi là đơn vị bậc một (first stage units hay
primary sampling units) và trẻ em là đơn vị bậc hai (second stage units - secondary sampling
units). Ưu điểm là tài nguyên có thể tập trung tại một số địa điểm và không cần cơ cấu lấy mẫu
76
cho toàn dân số. Cần danh sách các đơn vị bậc một nhưng chỉ cần danh sách các đơn vị bậc hai
của các đơn vị bậc một được chọn. Khuyết điểm là ước lượng chung kém chính xác hơn khi dựa
trên lấy mẫu ngẫu nhiên đớn có cùng một cỡ mẫu. Nói cách khác, để đạt được cùng độ chính xác
như lấy mẫu ngẫu nhiên đơn cần một cỡ mẫu lớn hơn.
Lấy mẫu ở bậc hai gồm lấy các mẫu ngẫu nhiên đơn có cùng kích thước từ các các đơn vị bậc
một. Phương pháp lấy mẫu bậc một phụ thuộc vào chúng có cùng số các đơn vị lấy mẫu bậc hai
hay không. Nếu có, có thể lấy mẫu ngẫu nhiên đơn. Nếu chúng có cỡ mẫu khác nhau, có thể đạt
được lược đồ epsem, bằng cách lấy mẫu xác suất tỉ lệ với kích thước (probability proportional to
size _ PPS). Thí dụ, nếu một trường học có nhiều gấp đôi học sinh so với trường kia thì nó có cơ
hội được chọn gấp đôi. Lấy mẫu PPS được tiến hành bằng cách thay thế (with replacement), có
nghĩa là sau khi một đơn vị bậc một được chọn nó vần còn được rút chọn và có thể được chọn
lần nữa. Khi một đơn vị bậc một được chọn hai lần, chọn mẫu đơn vị bậc hai nhiều gấp đôi. Tác
dụng chung là cho mỗi đơn vị bậc hai trong dân số một cơ hội được chọn bằng nhau.
Các bước tiến hành để lấy mẫu PPS được minh hạo trong ví dụ sau:
Giả sử chúng ta có 10 bệnh viện với số hồ sơ trong mỗi bệnh viện được trình bày trong bảng
sau:
Cụm Số hồ sơ Số hồ sơ tích
lũy
Số ngãu nhiên tương ứng
1 4288 4288 1-4288
2 5036 9324 4289-9324
3 1178 10502 9325-10502
4 638 11140 10503-11140
5 27010 38150 11141-38150
6 1122 39272 38151-39272
7 2134 41406 39273-41406
8 1824 43230 41407-43230
9 4672 47902 43231-47902
10 2154 50056 47903-50056
Tổng số 50056 50056
Ðể chọn 4 cụm và điều tra 100 hồ sơ trong mỗi cụm (như vậy tổng cỡ mẫu là 400 hồ sơ) có thể
tuân theo các sau:
- Tính số hồ sơ lũy tích
- Gán một cụm cho các số ngẫu nhiên từ số hồ sơ lũy tích của cụm trước đó +1 đến số
hồ sơ lũy tích của cụm đó.
- Rút chọn ngẫu nhiên 4 số từ 1 đến 50056: thí dụ như 36699; 35700; 11883; 4285 và
ứng với mỗi số chọn 100 hồ sơ từ cụm tương ứng với các số này. Trong trường hợp này
chúng ta sẽ điều tra 300 hồ sơ của bệnh viện 5 và 100 hồ sơ từ cụm số 1.
Cũng cần lưu ý chúng ta có thể chọn các số ngẫu nhiên bằng phương pháp lấy mẫu hệ thống như
thường được thực hiện trong chương trình tiêm chủng mở rộng (EPI program).
Có thể có lược đồ lấy mẫu có nhiều bậc hơn, thí dụ như chọn tỉnh, quận, đường phố và cuối
cùng là nhà. Phương pháp lấy mẫu này được gọi là lấy mẫu nhiều bậc (multi-stage sampling).
77
Thí dụ 2
Lấy mẫu phân tầng được đề nghị trong thí dụ 1 để ước lượng tỉ suất hiện mắc toàn bộ trong một
quốc gia với 3 vùng chính có thể được cải tiến thành cộng đồng thứ nhất (thành phố, làng, ấp) và
các nhà trong vùng, khám tất cả các thành viên trong nhà. Lược đồ sẽ là sự kết hợp giữa lấy mẫu
phần tầng (khu vực) lấy mẫu hai bậc (cộng đồng và nhà) và lấy mẫu cụm (tất cả các thành viên
trong nhà).
Lấy mẫu cụm Lấy mẫu phân tầng
Lấy mẫu hệ thống Lấy mẫu ngẫu nhiên đơn
78
Cách tính cỡ mẫu
Mục tiêu
Sau khi nghiên cứu bài này, hội thảo viên có khả năng:
(i) Hiểu được hai cách tiếp cận trong cách tính cỡ mẫu, bao gồm khái niệm về năng lực nghiên
cứu
(ii) Biết được những yếu tố nào ảnh hưởng đến việc tính toán cỡ mẫu và ảnh hưởng như thế nào
(iiI) Biết được cách tính cỡ mẫu cho những tình huống khác nhau
(iv) Biết được ảnh hưởng của cỡ mẫu lên những khía cạnh thiết kế khác.
(v) Ðánh giá được những vấn đề khác của cỡ mẫu
Giới thiệu
Cỡ mẫu sẽ có ảnh hưởng lớn đến độ chính xác của ước lượng thống kê. Từ định lí giới hạn trung
tâm chúng ta hi vọng rằng con số trung bình được ước lượng từ một mẫu sẽ tập trung tại trung
bình của dân số đó. Tuy vậy chúng ta cũng biết rằng con số ước lượng sẽ không chính xác bằng
trung bình của dân số đó mà mức độ phân tán phụ thuộc vào cỡ mẫu: Nếu cỡ mẫu nhỏ độ phân
tán lớn, nếu cỡ mấu lớn thì độ phân tán nhỏ và ta hi vọng số trung bình của mẫu sẽ bằng trung
bình của dân số. Người ta có thể trình bày mức độ phân tán theo khoảng tin cậy 95%. Nếu độ
phân tán lớn thì khoảng tin cậy 95% sẽ rộng và chúng ta khó lòng thực sự biết được trung bình
của dân số sẽ nằm ở đâu trong khoảng này. Nói rộng ra, nếu cỡ mẫu nhỏ chúng ta không thể ước
lượng một cách chính xác, chúng ta không thể chứng minh sự khác biệt giữa hai nhóm là không
có ý nghĩa.
Vấn đề xác định cỡ mẫu trong nghiên cứu khoa học là một vấn đề quan trọng. Nếu chúng ta lấy
mẫu quá nhỏ, đến giai đoạn phân tích ta có thể thấy được điều đó qua sự không chính xác của
uớc lượng, sự thất bại trong chứng minh giả thuyết. Tuy vậy khi chúng ta đã đi vào giai đoạn
phân tích số liệu thì lúc đó là quá chậm trễ để có thể thay đổi được cỡ mẫu. Ngược lại nếu
chúng ta lấy một cỡ mẫu quá lớn thì chúng ta rõ ràng lãng phì tiền bạc và thời gian.
Hai cách tiếp cận trong tính cỡ mẫu
Trên cơ bản có hai cách tiếp cận trong tính cỡ mẫu:
(a) dựa tên sự ước lượng của một tỉ lệ, một trung bình, hiệu số, nguy cơ tương đối với
một mức độ chính xác nhất định. Thí dụ, để ước lượng tỉ leẹ trẻ em trong lứa từ 12-23
tháng tuổi được tiêm chủng đầy đủ (với độ chính xác) trong vòng 10%. Câu hỏi chìa
khóa của cách tiếp cận này là khoảng tin cậy sẽ là bao nhiêu?
(b) Dựa trên kiểm định giả thuyết. Thí dụ,so sánh thời gian bú sữa mẹ hoàn toàn ở 2
nhóm có giáo dục sức khỏe và nhóm chứng.Câu hỏi chìa khóa trong cách tiếp cận này là
xác suất kết luận sai lầm trong kiểm định giả thuyết là bao nhiêu?
Ước lượng một hậu quả với một độ chính xác nhất định
Ðộ chính xác của một ước lượng (với khoảng tin cậy 95%) = d có nghĩa là sai số tối đa của ước
lượng là d (với độ tin cậy 95% hay xác suất điều trên không bị sai là 95%)
Công thức tính cỡ mẫu để ước lượng khoảng tin cậy (1-α) của một tỉ lệ p với sai số d là như
sau:
2
2
2 / 1
) 1 (
d
p p z
n

·
−α
Một thắc mắc hay nẩy sinh trong khi nghiên cứu công thức này là trong khi chúng ta muốn
79
nghiên cứu ước lượng p nhưng trong khi tính toán để tính cỡ mẫu chúng ta phải có giá trị của tỉ
lệ p! Toàn bộ logic của vấn đề là ở chỗ chúng ta có thể ước lượng p trước lúc nghiên cứu một
cách không chính xác, sau nghiên cứu chúng ta có thể ước lượng p một cách chính xác hơn
nhiều. Ta có thể ước lượng p sử dụng phán đoán của chúng ta, sử dụng những nghiên cứu trước
đó, có thể tiến hành nghiên cứu dẫn đường. Trong trường hợp chúng ta không thể ước đoán p, ta
có thể ước đoán p =0,5, một ước đoán an toàn nhất và sẽ cho một cỡ mẫu an toàn nhất (lớn
nhất).
Không có quy tắc cứng nhắc độ chính xác d, điều này phụ thuộc vào mục đích của nghiên cứu
và vào tài nguyên hiện có.
Lưu ý:
- Công thức được trình bày là dành cho phép lấy mẫu ngẫu nhiên đơn. Nếu nghiên cứu sử dụng
phương pháp lấy mẫu cụm cần phải hiệu chỉnh tác động làm giảm độ chính xác của việc chọn
cụm bằng cách tăng cỡ mẫu. Cỡ mẫu trong nghiên cứu lấy mẫu cụm thường được nhân lên với
một hệ số (được gọi là hệ số thiết kế) có giá trị từ 2 đến 4. Hệ số thiết kế có thể tính được từ việc
nghiên cứu thử. Nếu không có điều kiện tính hệ số thiết kế có thể chọn hệ số thiết kế là 3.
- Công thức tính cỡ mẫu trên là dành lấy mẫu từ một dân số vô hạn hay khá lớn. Nếu cỡ mẫu
vào khoảng từ 10% dân số trở lên, ta có thể điều chỉnh để có cỡ mẫu nhỏ hơn.
P N
P N
N
hc
+
×
·
Với N là cỡ mẫu chưa hiệu chỉnh, P là kích thước của dân số đích và N
hc
là cỡ mẫu sau
khi đã hiệu chỉnh.
- Chúng ta cũng nên phải trù liệu cho những số liệu bị mất, những trường hợp từ chối nghiên
cứư bằng cách tăng cỡ mẫu.
Kiểm định một giả thuyết, so sánh 2 nhóm
Giả sử chúng ta muốn so sánh hai tỉ lệ (thí dụ tỉ lệ trẻ em được bú sữa non trong hai nhóm bà
mẹ: một nhóm được giáo dục sức khỏe và một nhóm không). Chúng ta có thể kiểm định xem hai
tỉ lệnày có khác nhau đáng kể hay không, nói cách khác kiểm định xem hiệu số của hai tỉ lệ này
có khác một cách có ý nghĩa với zero khay không. Sau khi tiến hành phân tích chúng ta có thể
bác bỏ hay không bác bỏ giả thuyết này. Về phương diện thống kê, dù khi chúng ta bác bỏ hay
không bác bỏ, chúng ta đều có khả năng bị sai lầm: sai lầm mà chúng ta mắc phải khi bác bỏ giả
thuyết được gọi là sai lầm loại I, sai lầm chúng ta mắc phải khi không bác bỏ được gọi là sai
lầm loại II.
Khi kiểm định H
0
: Không có sự khác biệt (p
1
=p
2
; OR=1 ; RR=1 ; β=0)
Chân lí là Ho đúng
(Không có sự khác biệt)
Chân lí là Ha đúng
(Không có sự khác biệt)
Bác bỏ giả thuyết H
0
Sai lầm loại 1
(Xác suất = α)
Kết luận đúng
(Xác suất = 1-β =
Power của nghiên cứu)
Không bác bỏ giả thuyết H
0
Kết luận đúng
(Xác suất = 1-α)
Sai lầm loại II
(Xác suất = β)
Lí tưởng, chúng ta muốn giảm thiểu cả hai loại sai lầm trong nghiên cứu. Lưu ý rằng chúng ta đã
định nghĩa cái gọi là năng lực (power) của nghiên cứu=1-sai lầm loại II. Năng lực là xác suất
đạt được kết quả có ý nghĩa thống kê nếu thực sự có sự khác biệt giữa p
1
và p
2
. Mục tiêu của
chúng ta khi chọn cỡ mẫu là nếu có sự khác biệt về lâm sàng quan trọng giữa hai nhóm, chúng ta
có cơ hội tốt để tìm thấy sự khác biệt có ý nghĩa thống kê trong 2 nhóm. Ðiều này là một ý niệm
hết sức quan trọng trong thiết kế nghiên cứu và lí giải. Nếu trong giai đoạn phân tích nếu kết quả
80
là có ý nghĩa thống kê, thì hầu hết mọi người đều thỏa mãn. Mặt khác nếu kết quả không có ý
nghĩa thông kê thì điều này có thể xảy ra do (a) không có sự khác biệt thực sự giữa hai nhóm và
(b) có sự khác biệt nhưng mẫu của chúng ta không cho thấy sự khác biệt bởi vì năng lực của
mẫu thấp (cỡ mẫu nhỏ) do đó chúng ta không có kết luận rõ ràng. Do đó, nếu chúng ta chọn
mẫu để có năng lực cao và kết quả không có ý nghĩa thống kê thì chúng ta có thể chắc hơn về sự
khác biệt.
Ðể chọn cỡ mẫu (trong trường hợp cỡ mẫu của 2 nhóm so sánh bằng nhau), chúng ta phải có 4
tham số
- Sai lầm loại I hay còn gọi là mức ý nghĩa mà chúng ta muốn có trong nghiên cứu (thường là
5%)
- Sai lầm loại II chúng ta muốn có trong nghiên cứu (Sai lầm loại hai khoảng 10-20% tương ứng
với năng lực từ 80-90%)
- Tỉ lệ trong một nhóm cơ bản (thí dụ tỉ lệ tiếp xúc với yếu tố nguy cơ trong nhóm chứng của
một nghiên cứu bệnh chứng)
- Tỉ lệ trong một nhóm khác (thí dụ tỉ lệ tiếp xúc với yếu tố nguy cơ trong nhóm bệnh của một
nghiên cứu bệnh chứng). Đôi khi chúng ta không trình bày tỉ lệ của nhóm này một cách cụ thể
mà trình bày nguy cơ tương đối hay tỉ số số chênh mà chúng ta mong muốn phát hiện trong một
nghiên cứu đoàn hệ hay nghiên cứu bệnh chứng.
Công thức tính cỡ mẫu (cho mỗi nhóm) để so sánh hai tỉ lệ π
1
và π
2
của hai nhóm:
2
2 1
2
2 / 1 2 2 1 1 1
) (
} ) 1 ( 2 ) 1 ( ) 1 ( {
π π
π π π π π π
α β

− + − + −
·
− −
z z
n
Các điểm cần lưu ý trong tính cỡ mẫu
- Như đã nói ở trên, cách tính cỡ mẫu chỉ cho chúng ta một ước lượng thô của cõ mẫu cần thiết
bởi vì nó dựa trên sự ước đoán về giá trị của thông số, quyết định chủ quan của chúng ta về hậu
quả mà chúng ta muốn phát hiện và công thức được sử dụng là công thức gần đúng. Do đó con
số tính ra giúp chúng ta phân biệt giữa cỡ mẫu 50 và 100 chứ không phân biệt cỡ mẫu 50 và 53.
- Chúng ta phải cân đối giữa điều chúng ta mong muốn và tính khả thi. Ðôi khi có thể dùng
công thức tính cỡ mẫu để đi ngược lại năng lực của nghiên cứu. Thí dụ nếu chúng ta có một kinh
phí hạn chế để thực hiện một nghiên cứu nên chỉ có một cỡ mẫu nhất định. Chúng ta có thể tính
ngược lại từ cỡ mẫu để biết năng lực của nghiên cứu. Nếu hóa ra năng lực của nghiên cứu rất
thấp (thí dụ như 20%) tốt nhất chung ta không nên tiến hành nghiên cứu vì chúng ta đã nắm
chắc kết quả thất bại.
- Nếu một nghiên cứu có nhiều mục tiêu thì cỡ mẫu đủ cho một mục tiêu này có thể không đủ
cho mục tiêu khác. Ðể tính cỡ mẫu, tốt nhất phải chú trọng vào biến số (hoặc những biến số
quan trọng nhất).
- Tính cỡ mẫu không khó, cái khó là phải cung cấp những giả định của nghiên cứu: sai lầm loại
một, năng lực, sự khác biệt mà chúng ta muốn phát hiện.
Tính cỡ mẫu bằng phần mềm Epi Info:
Ðầu tiên ta vào phần mềm Epitable bằng 1 trong 2 cách (giả sử thư mục chứa Epi Info trong là
c:\epi6)
- Vào trực tiếp:
c:\>c:\epi6\epitable <enter>
- Thông qua trình đơn chính của epi6
c:\>c:\epi6\epi6 <enter>
Khi đã vào trình đơn chính của Epi6 chọn program Epitable trong trình đơn Programs bằng cách
81
dùng chuột hoặc nhấn Alt-P rồi kéo con trỏ xuống EPITABLE Calculator rồi nhấn <enter>
Sau đó chọn Samle size bằng cách dùng chuột hay nhấn Alt-S rồi di chuyển con trỏ vào sample
size rổi nhấn <Enter>.
Chương trình Epi Info cho phép tính cỡ mẫu trong 4 trường hợp: Ước lượng một tỉ lệ (single
proportion); So sánh 2 tỉ lệ trong hai nhóm (Two proportions); Nghiên cứu đoàn hệ (cohort
study) và nghiên cứu bệnh chứng (Case-control study). Chọn loại thích hợp bằng cách di chuyển
trỏ rồi nhấn <Enter>. Khi đó màn hình sẽ hiện lên một cửa số có nhiều trường. Trong cửa số này
chúng ta có thể di chuyển con trỏ giữa các trường bằng cách nhấn phím <Tab> hoặc phím
<Shift><Tab>. Nhập các giả định cần thiết vào các trường thích hợp. Di chuyển con trỏ đến ô
Calculate, nhấn <Enter> để xem kết quả tính toán.
Lưu ý: Trong cách tính cỡ mẫu ước lượng một tỉ lệ, chúng ta thấy có một tham số Design effect.
Tham số dùng để điều chỉnh nếu chúng ta lấy mẫu theo cụm. Do đó nếu ta lấy mẫu ngẫu nhiên
đơn thì Design effect=1. Nếu chúng ta lấy mẫu theo cụm thì tham số này sẽ lớn hơn 1 và độ lớn
cụ thể thì phụ thuộc vào mức độ không đồng nhất giữa các cụm.
Nếu chúng ta lấy mẫu theo cụm thì chọn Design effect là bao nhiêu? Thông thường chúng ta có
thể tham khảo các nghiên cứu trước hoặc làm nghiên cứu pilot để xác định mức độ không đồng
nhất. Nếu chúng ta có kinh nghiệm chúng ta có thể dùng trực giác để phán đoán design effect.
Nếu chúng ta không có kinh nghiệm, không tìm được tài liệu tham khảo và không thể tiến hành
nghiên cứu pilot, chúng ta chọn Design effect = 2 để có cỡ mẫu đảm bảo an toàn (Design effect
hiếm khi nào lớn hơn 2).
_ Describe Compare Study Sample Probability Setup
_____________________________ +----------------------+ _________________________
_____________________________ ¦ Sample size > ¦ _________________________
_____________________________ ¦ Power calculation > ¦ _________________________
_____________________________ ¦ Random number table ¦ _________________________
_____________________________ ¦ Random number list ¦ _________________________
_________+------------------- +----------------------+ -------------+___________
_________¦ ¦___________
_________¦ _____¦ _¦ _¦ __¦ __¦ ¦___________
_________¦ _¦ _¦ _¦ _¦ ¦___________
_________¦ _¦ _¦___¦ __¦ ____¦ ___¦ _¦ _¦ ___¦ ¦___________
_________¦ ___¦ _¦ _¦ _¦ _¦ _¦ ____¦ _¦ _¦ _¦ ¦___________
_________¦ _¦ _¦ _¦ _¦ _¦ ____¦ _¦ _¦ _¦ _____¦ ¦___________
_________¦ _¦ ____¦ _¦ _¦_¦ _¦ _¦ _¦ _¦ _¦ _¦ ¦___________
_________¦ _____¦ _¦ ___¦ _¦ ___¦_¦ _¦___¦ ___¦ ___¦ ¦___________
_________¦ ___¦ ¦___________
_________¦ ¦___________
_________+----------------------------------------------------------+___________
________________________________________________________________________________
________________________________________________________________________________
____________________________________________________________________¦¦__________
___________________________________________________________________¦¦¦¦_________
__________________________________________________________________¦¦¦¦¦¦________
_________________________________________________________________¦¦¦¦¦¦¦¦_______
F1-Help F3-Move F4-Zoom F5-Print F6-Next F9-_ F10-Quit Mem:228552
82
Thí dụ
Thí dụ 1: Cho một nghiên cứu bệnh chứng, sử dụng những giả định sau để tính cỡ mẫu
cho từng trường hợp
Năng lực của nghiên cứu = 90%; mức ý nghĩa = 5%; 1 bệnh cho một chứng
% chứng tiếp xúc với yếu tố nguy cơ
OR 5% 20% 50% 70% 90%
1.5 2346
2 244
5 46
10 50
1. Dựa trên phép tính cỡ mẫu hãy đưa ra khuyến cáo khi nào nên dùng nghiên cứu bệnh chứng
và khi nào không.
2. Hãy tính cỡ mẫu trong một nghiên cứu bệnh chứng có năng lực =90%, mức ý nghĩa =5%
OR= 2 và tỉ lệ tiếp xúc với yếu tố nguy cơ là 30%. Hãy tính cỡ mẫu khi có 1 chứng: 1 bệnh; 2
chứng: 1 bệnh; 3 chứng: 1 bệnh.
Thí dụ 2: Cho một nghiên cứu đoàn hệ, sử dụng những giả định sau để tính cỡ mẫu cho
từng trường hợp
Năng lực của nghiên cứu = 90%; mức ý nghĩa = 5%; nhóm có tiếp xúc= nhóm không tiếp xúc
tỉ suất mắc bệnh trong nhóm không tiếp xúc với yếu tố nguy cơ
RR 0,1% 1% 5% 15% 30%
1.5 108,904
2 3300
3 207
5 15
1. Dựa trên phép tính cỡ mẫu hãy đưa ra khuyến cáo khi nào nên dùng nghiên cứu đoàn hệ và
khi nào không.
2. Hãy tính cỡ mẫu trong một nghiên cứu bệnh chứng có năng lực =90%, mức ý nghĩa =5%
OR= 2 và tỉ suất mắc bệnh là 5%. Hãy tính cỡ mẫu khi có nhóm không tiếp xúc = nhóm tiếp
xúc; nhóm không tiếp xúc = 2 nhóm tiếp xúc; nhóm không tiếp xúc = 3 nhóm tiếp xúc
Thí dụ 3: Phòng y tế huyện A. muốn kiểm tra báo cáo về tỉ lệ tiêm chủng của một xã là
80% bằng cách tiến hành một cuộc điều tra (với sai số tuyệt đối dưới 5%, độ tin cậy = 95%).
Nếu phòng y tế quyết định chọn mẫu bằng phương pháp chọn mẫu ngẫu nhiên thì cỡ mẫu cần
thiết là bao nhiêu? Nếu chọn theo cụm thì cỡ mẫu cần thiết là bao nhiêu?
83
Chiến lược phân tích số liệu
1. Giới thiệu
Chúng ta đã biết qua những kĩ thuật thống kê chuyên biệt cho các tình huống dịch tễ nhất đinh.
Trong bối cảnh của một nghiên cứu dịch tễ thực sự bao gồm số liệu của rất nhiều các biến số, rất
khó quyết định thao tác nào được áp dụng và áp dụng theo trình tự như thế nào. Trong phần này,
chúng ta sẽ trình bày một số nguyên tắc chiến lược để phân tích số liệu từ nghiên cứu dịch tễ.
2. Biên tập số liệu
Kiểm tra và biên tập cẩn thận bộ số liệu là rất cần thiết trước khi bắt đầu phân tích thống kê.
Bước đầu tiên là xem sự phân phối của từng biến số để phát hiện các sai lầm có thể. Đối với biến
số phân loại, điều này thực hiện bằng bảng phân phối tần suất để xem rằng các bản ghi đều ở
trong các nhóm đã được xác định và tần suất của mỗi nhóm là hợp lí. Đối với biến số định
lượng, kiểm tra phạm vi cần được tiến hành để phát hiện những giá trị nằm ngoài phạm vi mong
đợi. Tổ chức đồ cũng có thể dùng để tìm kiếm các giá trị bất thường (outliers) không phù hợp
với phần số liệu còn lại.
Bước tiếp theo là tiến hành kiểm tra tính hàng định, để tìm kiếm những trường hợp mà 2 hay
nhiều biến số là không hằng định. Thí dụ, nếu có 2 biến số giới tính và số lần mang thai trong bộ
số liệu, chúng ta có thể sử dụng bảng chéo để chắc rằng không có người nam giới nào có số lần
mang thai là một hay nhiều hơn. Phân tán đồ cũng có thể được sử dụng để kiểm tra tính hằng
định của số liệu số; thí dụ chúng ta có thể vẽ phân tán đồ của trọng lượng theo tuổi, trọng lượng
theo chiều cao, dung tích sống theo chiều cao. Những giá trị bất thường cũng có thể được phát
hiện bằng cách này.
Những sai sót có thể được kiểm tra so với tài liệu gốc. Trong một số trường hợp cần phải điều
chỉnh lại số liệu. Một số trường hợp khác cần phải đưa mã số giá trị khuyết (missing value) nếu
chắc chắn rằng số liệu sai (thí dụ một bà mẹ có trọng lượng trước khi sinh là 45 kg và đã tăng
cân 35kg trong thời gian có thai). Trong trường hợp còn chưa rõ, khi số liệu là bất thường nhưng
không bị xem là không thể xảy ra, tốt nhất là để số liệu giữ nguyên. Một cách chặt chẽ, việc
phân tích sau đó phải được kiểm tra để đảm bảo là kết luận không bị ảnh hưởng quá mức vì giá
trị cực đoan này. Trên thực tiễn, giá trị bằng số thường được chia thành các nhóm trước khi
phân tích và do đó một hay hai giá trị bất thường khó có thể có ảnh hưởng đáng kể đến kết quả.
Việc kiểm tra cần phải được tiến hành riêng biệt cho nhóm mắc bệnh và nhóm không mắc bệnh
bởi vì phân phối của 2 nhóm này có thể hoàn toàn khác nhau.
3. Mô tả số liệu
Sau khi số liệu đã được làm sạch, phân phối của từng biến số phải được rà soát lại. Điều này
được thực hiện cho 2 mục đích. Thứ nhất, để đảm bảo rằng tất cả các số liệu đều đã được sắp
xếp phù hợp và thứ hai để có một cảm giác về số liệu. Cảm giác vế số liệu là sự hiểu biét về đặc
tính của dân số đối với biến số phơi nhiễm và các giá trị khác cần đo lường. Khi thực hiện
nghiên cứu bệnh chứng, chúng ta cần phải xem xét số liệu một cách riêng biệt.
4. Phân loại biến số
Nói chung sẽ rất hữu ích nếu chúng ta phân biệt các loại biến số "kết cuộc", "phơi nhiễm", "gây
nhiễu" và "thay đổi tác động". Biến số kết cuộc và biến số phơi nhiễm là các biến số trung tâm
của nghiên cứu trong đó biến số kết cuộc mô tả vấn đề nghiên cứu và biến số phơi nhiễm là biến
số mà chúng ta muốn xem xét và ước lượng tác động của nó lên biến số kết cuộc.
Biến số gây nhiễu là biến số làm biến dạng quan hệ giữa biến số phơi nhiễm và két cuộc. Chúng
ta thu thập số liệu của các biến số gây nhiễu để loại bỏ tác động của yếu tố gây nhiễu trong khi
phân tích. Biến số thay đổi tác động là biến số thay đổi tác động của biến số phơi nhiễm lên
84
nguy cơ. Chúng ta thu thập số liệu của các biến số thay đổi tác động để xem xét tác động của
biến số phơi nhiễm lên nguy cơ thay đổi như thế nào tuỳ theo giá trị của biến số thay đổi tác
động.
Trên thực tiễn, mối liên hệ giữa các biến số có thể phức tạp hơn. Thí dụ một biến số có thể gây
nhiễu tác động của một yếu tố phơi nhiễm cần quan tâm nhung bản thân nó có thể là biến số
phơi nhiễm quan tâm. Một biến số khác có thể gây nhiễu cho một biến sô phơi nhiễm này nhưng
làm thay đổi tác động cho một biến số phơi nhiễm khác.
Ngoài ra trong nghiên cứu có thể có các yếu tố thăm dò, số liệu của biến số này có thể trở thành
biến số phơi nhiễm quan trọng hoặc nếu nó không trở thành biến số phơi nhiễm quan trọng, nó
có thể được xem là biến số gây nhiễu hay thay đổi tác động.
5. Rút gọn số liệu
Trước khi bắt đầu phân tích chính thức, có thể vần phân nhóm giá trị của các biến số. Bởi vì
phương pháp "cổ điển" dựa trên việc phân tầng là cần thiết cho giai đoạn đầu của nghiên cứu,
việc phân nhóm là quan trọng cho các biến số liên tục. Việc phân nhóm cũng cần thiết cho biến
số phân loại hay biến số rời rạc nếu các biến số này có chứa một số lớn các nhóm (thí dụ như
nghề nghiệp, số lần mang thai). Số nhóm được phân chia phụ thuộc vào từng loại biến số: đối
với biến số phơi nhiễm cần phân chia thành nhiều nhóm hơn đối với biến số gây nhiễu hay biến
số thay đổi tác động.
Đối với biến số phơi nhiễm, khi chúng ta muốn xem xét sự phụ thuộc của nguy cơ vào mức độ
phơi nhiễm (quan hệ liều lượng – đáp ứng), chúng ta sẽ mắc sai lầm nếu chúng ta sử dụng quá ít
nhóm. Nguyên tắc chung là nhóm không phơi nhiễm nên đặt riêng (thí dụ nhóm không hút
thuốc) và nhóm phơi nhiễm nên chia thành nhiều nhóm (thường là 4 hay 5 nhóm là đủ để có thể
xem xét mối quan hệ liều lượng đáp ứng). Đối với biến số liên tục như tăng huyết áp, có thể chia
các giá trị của biến số làm 5 nhóm có tần suất bằng nhau (được gọi là quintiles – ngũ vị). Điều
này giúp cho độ chính xác của ước lượng tác động lên mỗi nhóm nhưng đôi khi có thể sai lầm
do nếu có một ít đối tượng có mức phơi nhiễm rất cao bị ghép chung với các đối tượng có độ
phơi nhiễm vừa phải. Một cách khác là chọn các điểm cắt dựa trên nền tảng của các nghiên cứu
trước đó, mục đích là xác định các nhóm mà nguy cơ tương đối ít thay đổi trong từng nhóm.
Đối với biến sô gây nhiễu, hai hay ba nhóm là đủ đối với phần lớn các yếu tố gây nhiễu. Dù vậy
nếu biến số gây nhiễu mạnh (thí dụ như tuổi) thì có thể phân thành nhiều nhóm hơn. Trước khi
quyết định số nhóm cần dùng trong phân tích, chúng ta có thể đánh giá sức mạnh quan hệ giữa
biến số gây nhiễu và biến số kết cuộc. Nếu sự quan hệ này là yếu thì chúng ta có thể kết hợp
nhiều nhóm lại với nhau.
6. Đo lường tác động
Có các lựa chọn khác nhau để đo lường tác động cho các thiết kế nghiên cứu. Các lựa chọn bao
gồm:
Thiết kế nghiên cứu Đo lường tần suất bệnh Đo lường tác động
Đoàn hệ (người thời gian) Tỉ suất Tỉ số tỉ suất
Hiệu số tỉ suất
Đoàn hệ (không có số liệu
người thời gian)
Nguy cơ
Số chênh
Tỉ số nguy cơ
Hiệu số nguy cơ
Tỉ số số chênh
Hiện mắc Tỉ lệ hiện mắc
Số chênh
Tỉ số nguy cơ (hiện mắc)
Hiệu số nguy cơ
Tỉ số số chênh
85
Bệnh chứng Tỉ số số chênh
Đối với nghiên cứu đoàn hệ, nếu có số liệu về người thời gian phơi nhiễm, tỉ suất mới mắc
thường là số đo tần suất được chọn lựa và tỉ số tỉ suất là số đo tác động được chọn lựa.
Đối với nghiên cứu đoàn hệ dựa trên nguy cơ và cho nghiên cứu bệnh hiện mắc, tỉ số nguy cơ sẽ
được xem là dễ lí giải hơn tỉ số số chênh. Tuy nhiên tỉ số số chênh thường được sử dụng do tính
chất thống kê của các thao tác dựa trên tỉ số số chênh là tốt hơn. Bởi vì hồi quy logistic thường
được sử dụng để ước lượng tỉ số số chênh, tỉ số số chênh cũng được sử dụng do nó cho kế quả
hằng định với kết quả của phân tích hồi quy logistic.
Trong nghiên cứu bệnh chứng, tỉ số số chênh thưưòng được dung để đo lường tác động mặc dù
nó có thể ước lượng cho tỉ số nguy cơ hay tỉ số tỉ suất, phụ thuộc vào phương pháp chọn lựa
nhóm chứng.
7. Phân tích đơn biến
Thông thường nên bắt đầu với phân tích thô đơn biến, sử dụng các phương pháp cổ điển để xem
xét sự liên quan giữa kết cuộc và các yếu tố phơi nhiễm quan tâm và bỏ qua các biến số khác.
Mặc dù phân tích này sẽ bị thay thế bởi các phân tích phức tạp hơn và có xem xét đến tác động
của các biến số khác, phân tích đơn biến vẫn có ích lợi vì:
i) xem xét các bảng phân tích đơn cho người nghiên cứu những thông tin hữu ích về bộ số liệu;
thí dụ nó có thể cho thấy có rất ít bản ghi hay rất ít trường hợp tử vong ở một nhóm phơi nhiễm
nhất định.
ii) Nó cho chúng ta khái niệm ban đầu về các biến số có thể liên quan mạnh đến kết cuộc
iii) Mức độ thay đổi của ước lượng tho so với ước lượng khi các biến số khác được đưa vào để
sử dụng trong phân tầng flà một chỉ số quan trọng để đánh giá sự hiện diện của yếu tố gây nhiễu.
Khi phơi nhiễm có trên 2 mức độ, một mức độ phơi nhiễm được chọn làm mức nền. Thông
thường người ta chọn mức nền là mức không có phơi nhiễm (hoặc phơi nhiễm ít nhất nếu ai đó
đều bị phơi nhiễm ít nhiều). Tuy nhiên nếu nhóm này có ít người thì ước lượng sẽ có sai số
chuẩn lớn và chúgn ta có thể có lợi khi chọn nhóm lớn hơn làm nền tảng. Phânt ích phơi nhiễm
với 2 hoặc hơn các mức độ (cả khi phân tích thô và phân tích phân tầng) sẽ bao gồm:
i) Các bảng 2x2, so sánh các mức độ phơi nhiễm với nhóm nền
ii) Xem xét các ước lượng của tác động có theo một khuynh hướng nào hay không?
iii) Nếu phù hợp, thực hiện một kiểm định khuynh hướng (test for trend) để tìm bằng chứng về
sự tăng giảm nguy cơ theo mức độ phơi nhiễm tăng dần.
8. Kiểm soát các yếu tố gây nhiễu
Yếu tố gây nhiễu hiện diện ít nhiều trong các nghiên cứu quan sát và cần phải thực hiện loại bỏ
các yếu tố gây nhiễu trong các phân tích của biến số phơi nhiễm quan tâm. Chúng ta đã có 2
công cụ cho nhiệm vụ này: phương pháp cổ điển (Mantel-Haenszel) dựa trên phân tầng và
phương pháp mô hình hoá với các phương trình hồi quy.
Chúng ta nên dùng phương pháp cổ điển trong bước đầu của phân tích vì các lí do sau:
i) Các bảng số liệu đơn giản giúp nhà nghiên cứu có liên hệ với số liệu. Ngược lại, phương trình
hồi quy là một hộp đen có thể gây ra những sai số tai họa khi mô hình hoá.
ii) Phương pháp cổ điển đòi hỏi ít giả định nên có thể phát hiện được các mối liên quan phức
tạp. Phương pháp mô hình hoá có thể bỏ qua một số tương tác.
Tuy nhiên phương pháp cổ điển gập khó khăn khi có một số lớn các biến số gây nhiễu và khi
muốn kiểm soát các yếu tố gây nhiễu này đồng thời thì do sự hiện diện của quá nhiều tầng sẽ
khiến cho số liệu của mỗi tầng trở thành quá nhỏ và sẽ khiến sức mạnh thống kê bị kém và
86
khoảng tin cậy của ước lượng sẽ rộng ra.
Mặc dù vậy, nếu phương pháp cổ điển được áp dụng một cách sáng suốt sẽ cho một ước lượng
có giá trị và loại bỏ các sai lệch do yếu tố gây nhiễu gây ra. Điều này đúng cho hầu hết các loại
nghiên cứu ngoại trừ nghiên cứu bệnh chứng bắt cặp cá nhân trong đó kĩ thuật phân tầng cổ điển
có rất ít giá trị.
Chúng ta đã thấy rằng phương pháp hồi quy cho tác động của hai biến số phân loại có giả định
giống như giả định trong phương pháp phân tầng và do đó cho kết quả hoàn toàn đồng nhất.
Phương trình hồi quy ngoài ra còn có một số lợi ích sau:
i) Giả định rằng không có tương tác giữa các biến số gây nhiễu, chúng ta có thể làm giảm số
tham số cần thiết
ii) Có thể xác định được tác động của từng biến số, được kiểm soát cho tác động của các biến số
khác.
iii) Có thể xem xét tác động liều lượng hậu quả một cách linh hoạt hơn.
9. Cách đưa vào biến số gây nhiễu
i) Thông thường sẽ có hai hay ba biến số đượccho là các biến số gây nhiễu quan trọng (những
biến số này đuợc gọi là biến số gây nhiễu trù định - a priori confounders) những bCác biến số
này thường là tuổi và một hay hai yếu tố nguy cơ quan trọng của bệnh và được cho là có thể có
liên quan đến biến số phơi nhiễm quan tâm. Theo các quy tắc chung, những biến số này phải
được kiểm soát trong phân tích.
ii) Chúng ta có xem xét các biến số có thể gây nhiễu khác. Kiểm soát từng biến số một và xem
có làm thay đổi con số ước lượng tác động hay không.
iii) Đôi khi chỉ có môt hoặc hai biến số gây nhiễu có làm thay đổi ước lượng tác động. Khi đó
phân tích cuối cùng thưc hiện việc kiểm soát các biến số gây nhiễu trù định với các biến số gây
nhiễu bổ sung có tác động. Không cần thiết phải đưa tất cả các biến số tất cả các biến số gây
nhiễu bổ sung vào phân tích cuối cùng bởi vì một số biến số gây nhiễu không làm thay đổi ước
lượng tác động của biến số phơi nhiễm quan tâm nếu đã được kiểm soát cho các biến số gây
nhiễu khác.
Nếu có 3 hay ít hơn các biến số gây nhiễu thì chỉ cần sử dụng phương pháp cổ điển là đủ. Trong
trường hợp này, lần lượt phân tầng cho từng biến số và sau đó phân tầng cho đồng thời các biến
số để xem các ước lượng tác động thay đổi như thế nào. Chiến lược này đủ để loại bỏ hầu hết
các ảnh hưởng gây nhiễu.
Khi số các biến số gây nhiễu là quá lớn và không thể kiểm soát bằng phương pháp phân tầng
đơn thuần, phương trình hồi quy (giả định không có hay chỉ có ít tương tác giữa các biến số gây
nhiễu) sẽ có giá trị.
Bước đầu tiên của phương pháp mô hình là lập lại những phân tích đơn giản và kiểm tra xem kết
quả có phù hợp với phân tích phân tầng đơn giản hay không. Điều này giúp chúng ta tránh được
các sai lầm tai hoạ do sử dụng phương pháp hộp đen. Sau đó có thể xây dựng các mô hình phức
tạp hơn bao gồm:
- Biến số phơi nhiễm hoặc các biến số phơi nhiễm quan tâm
- Tất cả các biến số được cho là yếu tố gây nhiễu từ trước (yếu tố gây nhiễu trù định)
- Tất cả các biến số khác được cho là có thể gây nhiễu và số liệu cho thấy có tác động gây nhiễu
đáng kể.
Tránh việc đưa vào các biến số không phải là yếu tố gây nhiễu cho bệnh đặc biệt là nếu biến số
này có liên quan mạnh đến phơi nhiễm quan tâm bởi vì nó sẽ tạo ra sai số chuẩn lớn và khiến
ước lượng kém chính xác.
Cần lưu ý rằng các biến số được xem là gây nhiễu phụ thuộc một phần vào quyết định trù định
(a priori decision) và một phần vào mức độ của ước lượng bị thay đổi sau khi kiểm soát cho yếu
87
tố gây nhiễu đó. Chúng ta hoàn toàn không dựa vào kết quả của kiểm định ý nghĩa. Do đó các
nhà thống kê và dịch tễ hang đầu thường không khuyến cáo sử dụng phương pháp hồi quy từng
bước (stepwise) trong phân tích dịch tễ.
10. Phân tích tương tác
Hồi quy là một công cụ rất phù hợp cho phân tích sự tương tác. Có 3 loại tương tác cần được
phân biệt
i) tương tác giữa các biến số gây nhiễu
Sự khác biệt chính giữa phương pháp mô hình hoá và phương páp cổ điển là phương pháp cổ
điển cho phép xem xét sự tương tác giữa các biến số gây nhiễu. Điều may mắn là trên thực thế,
hầu như không bao cần xem xét sự tương tác giữa các biến số gây nhiễu.
ii) Tương tác giữa biến số gây nhiễu và biến số phơi nhiễm chúng ta quan tâm:
Trên lí thuyết thống kê, việc tính toán con số ước lượng tác động chính xác, sau khi hiệu chỉnh
cho các yếu tố gây nhiễu chỉ cần thiết nếu tác động là đồng nhất ở các mức khác nhau của yếu tố
gây nhiễu. Tuy nhiễn trên thực tế, có thể là tác động sẽ thay đổi ít nhiều giữa các nhóm gnhĩa là
ít nhiều có sự tương tác của phơi nhiễm quan tâm và yếu tố gây nhiễu được kiểm soát trong
phân tích. Khi có sự hiện diện đáng kể của tương tác, tác động đặc hiệu của từng tầng phải được
báo cáo.
iii) Tương tác giữa các biến số phơi nhiễm quan tâm
Nếu có sự tương tác giữa các biến số phơi nhiễm quan tâm thì điều này là rất quan trọng cho
việc lí giải khoa học của kết quả phân tích và cho việc ứng dụng các can thiệp dự phòng.
Tuy nhiên việc tích cực tìm kiếm sự tương tác với tất cả các biến số có thể là không có ích lợi.
Kiểm định thống kê cho sự tương tác được chứng minh là có lực rất kém và nếu chúng ta lần
lượt tìm kiếm sự tương tác có ý nghĩa thống kê của tất cả các biến số sẽ dễ dàng bỏ qua những
tương tác thực sự và tình cờ đưa ra các phát hiện giả tạo. Chúng ta cũng nên nhớ rằng mục tiêu
của nghiên cứu dịch tễ là tìm ra một bức trạnh đơn giản nhưng chân thật và hữu dụng của thực
tế. Nếu có tương tác yếu, bản thân điều này không có ý nghĩa quan trọng lắm cho nên việc tính
toán ước lượng gộp của tác động cho từng phơi nhiễm là sự xấp xỉ hợp lí cho sự thật.
Vì những lí do này, nên trì hoãn việc phân tích tương tác vào giai đoạn cuối của phân tích và chỉ
nên xem xét tương tác phơi nhiễm-phơi nhiễm và phơi nhiễm-gây nhiễu, đặc biệt chú ý đến
những yếu tố tương tác trù định đáng được nghiên cứu. Nên xem xét từng yếu tố tương tác một
để tránh những mô hình quá phức tạp với nhiều tham số.
11. Nghiên cứu bệnh chứng bắt cặp
Phân tích bệnh chứng đúng cách sẽ kiểm soát các tác động gây nhiễu do biến số bắt cặp. Tuy
nhiên nếu có những biến số gây nhiễu khác không được bắt cặp sẽ có thể là biến số gây nhiễu.
Việc phân tầng có thể được sử dụng để kiểm soát những yếu tố gây nhiễu bổ sung nếu chúng ta
chú ý rằng các tập hợp của ca bệnh và chứng (các tầng) phải đồng nhất về phương diện yếu tố
gây nhiễu quan tâm. Điều này sẽ khiến cho các tầng này có rất ít số liệu nên sẽ tạo ra các ước
lượng kém tin cậy. Có hai cách để giải quyết vấn đề này:
1. Sử dụng hồi quy logistic có điều kiện. Cách tiếp cận này rất ích lợi cho phép sử dụng toàn bộ
số liệu và phân tích nhiều yếu tố gây nhiễu cùng một lúc, mặc dù điều này đòi hỏi thêm các giả
định.
2. Nếu bệnh và chứng chỉ được bắt cặp dựa trên các biến số đã được đo lường trong nghiên cứu
(thí dụ như tuổi và giới), cách tiếp cận khác là phá vỡ việc bắt cặp và phân tích số liệu như là
nghiên cứu bắt cặp tần suất. Trong trường hợp này, tuổi và giới sẽ được kiểm soát như là một
tầng trong phân tích. Chúng ta có thể sử dụng phương pháp phân tầng hay hồi quy logistic
không điều kiện để tiếp tục phân tích.
88
12. Những trở ngại trong phân tích và lí giải số liệu
Nếu chúng ta có một nghiên cứu thử nghiệm ngẫu nhiên lớn so sánh 2 can thiệp. Sự so sánh đã
được thiết lập trong đề cương nghiên cứu và đã được thống nhất trước khi nghiên cứu được tiến
hành. Nếu nghiên cứu đủ lớn thì việc ngẫu nhiên hoá sẽ đảm bảo 2 nhóm cân bằng với nhau về
tất cả các biến số gây nhiễu và việc phân tích kết quả sẽ rất đơn giản.
Nghiên cứu dịch tễ thường gặp thường có liên quan đến nhiều biến số, ngay cả khi chúng ta đã
xác định biến số phơi nhiễm quan tâm từ trước. Sự khác biệt trong việc quyết định phân nhóm
số liệu và chiến lược mô hình hoá sẽ cho những kết luận có thể rất khác biệt.
Có nhũng quan điểm khác nhau về cách xử lí số liệu từ các nghiên cứu thăm dò. Những lí do
cho sự cẩn trọng trong phân tích và lí giải số liệu bao gồm:
(i) Nhiều so sánh:
Ngay cả khi không có sự liên quan giữa biến phơi nhiễm và kết cuộc, chúng ta sẽ hi vọng sẽ có 1
trong 20 so sánh sẽ có ý nghĩa thống kê ở mức 5%. Do đó lí giải mối liên quan trong nghiên cứu
mà tác động nhiều yếu tố phơi nhiễm được đo lường sẽ cần phải cẩn thận hơn trong một nghiên
cứu với một giả thuyết được trù định từ trước. Tìm kiếm tất cả các liênq uan với một biến số kết
cuộc được các nhà thống kê gọi là "nạo vét số liệu"
(ii) Phân tích từng nhóm nhỏ:
Cần phải đặc biệt cẩn thận khi lí giải kết quả về sự liên quan "biểu kiến" trong các nhóm số liệu,
đặc biệt là khi không có bằng chứng về mối liên quan chung. Chúng ta thường dễ bị cám dỗ và
cho rằng đó là một kết quả lí thú của nghiên cứu, nhất là khi nếu loại bỏ nó ra nghiên cứu này là
một nghiên cứu âm tính.
(iii) So sánh được chỉ định do kết quả phân tích
Chúng ta không nên phân nhóm số liệu để có thể tạo ra một sự khác biệt thống kê rồi lí giải giá
trị p này như thể giá trị p này là của một so sánh có trù định. Thí dụ nếu chúng ta có 10 nhóm
tuổi và chúng ta so sánh nhóm tuổi 1 với nhóm 2, nhóm 3, …, nhóm 10 rồi so sánh nhóm tuổi 1
và 2 với nhóm 3, 4,…10 và tiếp tục. Chúng ta có 9 so sánh như vậy và sau đó chúng ta sẽ chọn
cách so sánh nào có sự khác biệt nhiều nhất và có ý nghĩa thống kê nhất giữa nhóm trẻ và nhóm
già. Cách này là cách so sánh chỉ định do kết quả phân tích. Lẽ ra chúng ta phải quyết định việc
phân nhóm càng sớm càng tốt trước khi xem sự khác biệt trong phân nhóm tuổi ảnh hưởng đến
kết luận của nghiên cứu.
Điều này không có nghĩa là tất cả các nghiên cứu dịch tễ phải có giả thuyết nghiên cứu và
phương pháp phân tích được chỉ định từ trước khi tiến hành thu thập số liệu. Việc lí giải kết quả
phải bị ảnh hưởng bởi việc phân tích. Nếu chúng ta tìm được một mối liên quan có ý nghĩa trong
50 mối liên quan được kiểm định thì điều này sẽ phải được khẳng định rõ rang. Chúng ta chỉ nên
xem mối liên hệ này chỉ nhằm tạo ra giả thuyết để được kiểm định trong tương lai.
89
Cài đặt chương trình Stata 8.0 và số liệu mẫu
1. Cài đặt chương trình Stata
Có nhiều cách để cài đặt chương trình Stata. Dưới đấy sẽ trình bày cách cài đặt chương trình
Stata 8.0 khi có đĩa CD của bộ môn Thống kê Y học.
- Đưa đĩa CD vào đầu đọc CD của máy tính (thí dụ vào đầu đọc E:)
- Vào thư mục Statistic softwares của đĩa CD
- Tìm tập tin Stata8Setup.exe và nhấp đúp vào tập tin này. Tập tin này sẽ thực hiện việc khởi
động cài đặt trong vòng vài giây.
Và tiếp theo, cửa sổ chào mừng (Welcome) sẽ hiện ra
Nhấp vào nút lệnh Next để sang cửa sổ tiếp theo. Cũng tiếp tục làm như vậy cho 2 cửa sổ tiếp
theo (Choose Destination Location, Ready to Install) để tiến hành việc cài đặt

90
Sau khi cài đặt, cửa sổ Finished sẽ hiện ra. Lúc này có thể nhấp vào nút lệnh Close để kết thúc.
2. Cài đặt tập tin số liệu mẫu
Để có thể thực tập các bài tập có trong tài liệu này, các bạn nên cài đặt các tập tin số liệu. Việc
cài đặt cũng được thực hiện bằng cách sử dụng đĩa CD của bộ môn Thống kê Y học.
- Đưa đĩa CD vào đầu đọc CD của máy tính (thí dụ vào đầu đọc E:)
- Vào thư mục Statistic softwares của đĩa CD
- Tìm tập tin StataData.exe và nhấp đúp vào tập tin này. Tập tin này sẽ thực hiện việc khởi động
cài đặt trong vòng vài giây.
Tiếp theo là cửa sổ Choose Destination Location sẽ hiện ra.
Nếu muốn cài đặt số liệu vào thư mục khác hãy nhấp vào nút lệnh Browse trong khung
Destination Directory để chọn thư mục cài đặt rồi nhấp vào nút lệnh Next. Nếu chấp nhận thư
mục cài đặt mặc định là C:\DATA, hãy nhấp vào nút lệnh Next để tiếp tục.
Khi đó chương trình sẽ tiếp tục thực hiện việc cài đặt và tự chấm dứt.
3. Cài đặt chương trình chuyển đổi số liệu
Đôi khi chúng ta có số liệu được nhập bằng chương trình Epi-Info 6.04, Epi-Info for Windows,
Access hay Excel nhưng chúng ta lại muốn phân tích số liệu bằng Stata chúng ta cần phải sử
dụng chương trình chuyển đổi số liệu như DBMSCopy for Win hay StatTransfer. Sau đây là
hướng dẫn cài đặt chương trình StatTransfer 7.0 sử dụng đĩa CD của của bộ môn Thống kê Y
học.
- Đưa đĩa CD vào đầu đọc CD của máy tính (thí dụ vào đầu đọc E:)
- Vào thư mục Statistic softwares của đĩa CD
91
- Tìm tập tin StatTransfer7Setup.exe và nhấp đúp vào tập tin này. Tập tin này sẽ thực hiện việc
khởi động cài đặt trong vòng vài giây.
Tiếp theo các cửa sổ Welcome, Choose Destination Location, Ready to Install sẽ hiện ra. Ở tất
cả các cửa số này bạn nên nhấp vào nút lệnh Next để tiếp tục. Sau khi nhấp vào nút lệnh Next
của cửa sổ Ready to Install, chương trình sẽ cài đặt.
Sau khi cài đặt chương trình StatTransfer, cửa sổ Finished sẽ hiện ra. Lúc này có thể nhấp vào
nút lệnh Close để kết thúc.
Khi cài đặt các chương trình StatTransfer và Stata theo cách trên, 2 chương trình này sẽ nằm
trong MediStat trong “All Programs” của Windows.
92
Khởi động và kết thúc Stata
1. Khởi động Stata
Để khởi động Stata trong Windows XP hãy thực hiện
• Nhấp chuột vào Start
• Nhấp chuột vào “All Programs”
• Di chuyển chuột thư mục MediStat và
• Nhấp chuột vào mục Stata 8
Hoặc nếu đã có biểu tượng của Stata trên desktop của máy tính có thể khởi động Stata bằng cách
nhấp đúp chuột vào biểu tượng của Stata 8 (Stata icon)
Người dùng sẽ nhìn thấy màn hình như sau khi khởi động Stata 8.0
93
Nếu màn hình Stata không khởi động được, nguyên nhân thông thường nhất là người sử dụng
chưa đăng kí và mở khoá để sử dụng Stata. Trong trường hợp này người sử dụng cần liên hệ với
công ty Stata để có được số hiệu (serial number) mã chương trình (code) và chìa khoá chủ quyền
(Authorization key). Cũng có thể xảy ra trường hợp người sử dụng đã mở khoá rồi nhưng do vô
ý đã xoá file Stata.lic. Trong trường hợp này có thể chép lại tập tin Stata.lic của người đã có
khóa hợp lệ.
2. Kiểm tra tính hợp lệ của Stata
Trong lần khởi động Stata đầu tiên, bạn có thể muốn kiểm tra rằng bạn đã cài đặt đúng. Hãy
gõ lệnh verinst và bạn sẽ thấy kết xuất tương tự như sau:
. verinst
You are running Stata/SE 8.0 for Windows.
Stata is correctly installed.
You can type exit to exit Stata.
Lệnh verinst là một lệnh cần nhớ. Giả sử nếu chúng ta thay đổi cấu hình của máy tính và không
biết mình đã làm tổn thương cho Stata hay không, chúng ta có thể gõ verinst để được trấn an
rằng Stata vẫn còn được cài đặt đúng.
3. Thoát khỏi Stata
Để thoát khỏi Stata/SE 8.0 for Windows chúng ta có thể thực hiện một trong 2 việc sau:
- Nhấp vào ô đóng nằm ở phía trên phải của cửa sổ Stata
Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng
chưa được lưu vào đĩa thì khi chúng nhấp vào ô đóng, máy tính sẽ hỏi chúng ta rằng
94
chúng ta có muốn thoát mà không lưu lại số liệu hay không. Nếu chúng ta đồng ý thì
Stata sẽ thoát, nếu không thì chúng ta lại trở lại Stata để chúng ta có thể lưu lại số liệu.
- Gõ lệnh exit trong cửa sổ Stata Command.
Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng
chưa được lưu vào đĩa thì khi chúng gõ exit, máy tính sẽ không đồng ý cho chúng ta
thoát và sẽ thông báo “no; data in memory would be lost”. Trong trường hợp này nếu
chúng muốn thoát mà không lưu lại số liệu thì chúng ta hãy gõ exit, clear. Nếu chúng ta
muốn lưu lại số liệu hãy sử dụng lệnh save.
4. Các loại hình của Stata
Có một số loại hình của Stata chạy trên các hệ điều hành khác nhau: Stata cho Windows
98/95/NT, Stata cho Windows 3.1, Stata cho Power Macintosh, Stata cho 680x0 Macintosh,
Stata cho Linux, Stata cho RS/6000, v.v. Tuy nhiên bất kể bạn dùng loại hình Stata nào, Stata
vẫn là Stata và bạn có thể sử dụng cùng một câu lệnh và Stata sẽ cho ra cùng một kết quả,
chính xác đến số lẻ tận cùng.
Ngay cả các tập tin cũng có thể chia xẻ. Thí dụ tập tin số liệu, tập tin chương trình, tập tin đồ
hoạ của Stata cho Macintosh có thể dùng trên các máy tính khác mà không cần phải chuyển
đổi.
5. Stata nhỏ, Intercooled Stata và Stata bản đặc biệt (Stata SE)
Stata cho Windows và Stata cho Macintosh có hai kiểu: Stata nhỏ và Intercooled Stata (trên
hệ điều hành Unix chỉ có Intercooled Stata). Cả hai kiểu Stata này đều có những nét chung
nhưng Intercooled Stata có thể làm việc với tập tin dữ liệu lớn hơn và nhanh hơn. Tuỳ theo
loại máy Intercooled Stata có thể nhanh hơn Stata nhỏ từ 50 đến 600%.
Sau đây là sự khác biệt giữa về giới hạn kích thước giữa Intercooled Stata và Stata nhỏ
Stata nhỏ Intercooled Stata
Số quan sát 1.000 Tuỳ thuộc vào bộ nhớ
Số các biến số 99 2.047
Chiều rộng số liệu 200 8.192
Kích thước ma trận tối đa 40 800
Số kí tự trong một macro 1.000 18.632
Số kí tự trong một dòng lệnh 1.100 18.648
Tại sao Intercooled Stata chạy nhanh hơn Stata nhỏ? Điều này là do sự khác biệt trong việc lập
chương trình. Thí dụ để có tích số của các ma trận RZR’, Intercooled Stata sẽ sử dụng bộ nhớ
để có thể ghi nhớ kết quả tạm thời là ma trân T=RZ rồi sau đó tính TR’. Stata nhỏ do không có
thể sử dụng nhiều bộ nhớ nên phải tính toán trực tiếp RZR’, và do đó một số kết quả trung gian
phải tính toán lại nhiều lần và điều này làm Stata nhỏ bị chậm .
Dù sao, sự khác biệt của Intercooled Stata và Stata nhỏ mang tính kĩ thuật và nội bộ, đối với
người dùng, việc sử dụng Intercooled Stata và Stata nhỏ không có gì khác biệt. Nếu Stata đã
được cài đặt và bạn muốn biết bạn đang dùng Stata gì thì có thể gõ lệnh about:
. about
Stata/SE 8.0 for Windows
Born 30 Jan 2003
95
Copyright (C) 1985-2003
Total physical memory: 261616 KB
Available physical memory: 37056 KB
Single-user Stata for Windows perpetual license:
Serial number: 196201410
Licensed to: Do Van Dung
Univ of Medicine & Pharm
Như vậy, chúng ta đang sử dụng Stata Phiên bản đặc biệt 8.0 cho Windows.
96
Mô tả ngắn gọn về Stata
Stata là một bộ phần mềm thống kê để quản lí, phân tích và vẽ đồ thị của số liệu.
Stata có thể chạy trên nhiều hệ điều hành nhưng bất kể ở hệ điều hành nào, Stata c ó thể cho
phép điều khiển bởi dòng lệnh (command-driven) và điều khiển bằng menu (menu-driven)khác
với SPSS chỉ được phép điều khiển bằng menu (menu-driven). Sau đây là một đoạn sử dụng
Stata với
. use "C:\Program Files\STATA8\auto.dta", clear
. summarize mpg weight
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------------------------
mpg | 74 21.2973 5.785503 12 41
weight | 74 3019.459 777.1936 1760 4840
Ở đây người dùng gõ vào summarize mpg weight và Stata trả lời bằng một bảng thống kê mô
tả. Một số lệnh khác có thể tạo ra kết quả khác:
. correlate mpg weight
(obs=74)
| mpg weight
---------+------------------
mpg | 1.0000
weight | -0.8072 1.0000
. gen w_sq=weight^2
. regress mpg weight w_sq
Source | SS df MS Number of obs = 74
---------+------------------------------ F( 2, 71) = 72.80
Model | 1642.52197 2 821.260986 Prob > F = 0.0000
Residual | 800.937487 71 11.2808097 R-squared = 0.6722
---------+------------------------------ Adj R-squared = 0.6630
Total | 2443.45946 73 33.4720474 Root MSE = 3.3587
mpg | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
weight | -.0141581 .0038835 -3.646 0.001 -.0219016 -.0064145
w_sq | 1.32e-06 6.26e-07 2.116 0.038 7.67e-08 2.57e-06
_cons | 51.18308 5.767884 8.874 0.000 39.68225 62.68392
Số liệu của Stata, tương tự như của phần lớn các phần mềm thống kê khác, được mô tả dưới
dạng là một bảng với các hàng là các đối tượng và các cột là các biến số:
. list mpg weight in 1/10
mpg weight
1. 22 2,930
2. 17 3,350
3. 22 2,640
4. 20 3,250
5. 15 4,080
6. 18 3,670
7. 26 2,230
97
8. 20 3,280
9. 16 3,880
10. 19 3,400
Trong đó các quan sát được đánh số và các biến số được đặt tên (như mpg, weight, v.v)
Stata có đặc điểm là chạy rất nhanh. Tốc độ nhanh một phần là do chương trình được viết hết
sức khôn khéo và một phần là do Stata giữ số liệu trong bộ nhớ. Tương tự như winword: khi làm
vieej số liệu được nạp vào trong bộ nhớ và được phân tích, biến đổi mà không ảnh hưởng gì đến
số liệu được giữ trong đĩa cứng. Do đó chúng ta có thể thoải mái làm việc mà không sợ bị ảnh
hưởng lên số liệu gốc trừ khi chúng ta ra lệnh cho Stata ghi số liệu trở lại vào đĩa.
Do số liệu được đưa vào bộ nhớ nên kích thước của số liệu bị giới hạn bởi kích thước bộ nhớ.
Do đó khi chúng ta làm việc với số liệu có kích thước lớn chúng ta cần dành nhiều bộ nhớ cho
Stata. Thông thường 32 megabyte bộ nhớ được dành cho Stata và ta có thể tăng lượng bộ nhớ
dành cho Stata bằng cách dùng lệnh set memory. Nếu chúng ta muốn dành cho Stata 64
megabyte hãy gõ: set memory 64m
Nếu muốn chúng ta có thể biết được lượng bộ nhớ tự do bằng cách gõ vào: memory. Để Stata
có thể hoạt động tối ưu, sau khi đã nạp số liệu nên còn khoảng 1 megabyte bộ nhớ tự do.
98
Lệnh more
1. Mô tả
Khi chúng ta gõ một câu lệnh và Stata có một câu trả lời dài quá một cửa sổ màn hình chúng ta
sẽ thấy—more-- ở cuối màn hình. Khi đó chúng ta có thể:
• Gõ phím trắng để xem câu trả lời ở màn hình kết tiếp
• Gõ l (chữ el-lờ) hay Enter để xem dòng tiếp
• Gõ q để ngưng hiện ra câu trả lời --Break--
• more—là cách của Stata để cho biết rằng nó còn tiếp tục trả lời nhưng nó cũng có ý là nói
còn có những thông tin khác để đẩy các thông tin có sẵn trên màn hình đi.
Nếu chúng ta gõ set more off thì—more—sẽ không bao giờ hiện ra và câu trả lời của Stata sẽ
trôi nhanh hết tốc độ. Nếu chúng ta gõ lại set more on thì—more—sẽ được phục hồi trở lại.
Trong do-file chúng ta thường sử dụng lệnh set more off bởi vì chúng ta không quan tâm đến sự
tương tác với kết quả và muốn Stata thực hiện càng nhanh càng tốt nhằm kết quả được đưa vào
log-file và file này sẽ được đọc sau. Trong do file nếu chúng ta muốn chương trình dừng tại một
nơi nào đó, chúng ta có thể thêm lệnh more vào chương trình. Khi chương trình gập lệnh này
nó sẽ dừng lại và đợi chúng ta đánh Enter, phím trắng hay q dù rằng cửa số kết xuất có đầy hay
chưa.
99
Thông báo lỗi và mã phản hồi
1. Lỗi
Khi có một lỗi xảy ra, Stata tạo ra một thông báo lỗi và một mã trả về. Thí du:
. list myvar
no variables defined
r(111);
Chúng ta yêu cầu Stata liệt kê giá trị của biến myvar. Stata trả lời bằng thông báo “no variables
defined” và dòng thông báo “r(111)”
“no variables defined” là thông báo lỗi (error message).
111 được gọi là mã trả về (return code).
Trong chế độ tương tác, tất cả các lỗi đều được tha thứ. Nghĩa là sau khi ra thông báo lỗi và mã
trả về, Stata xem như lỗi chưa hề xảy ra.
Trong chế độ chương trình khi có một lỗi xảy ra, do-file sẽ ra thông báo lỗi và mã trả về đồng
thời với việc ngưng thực hiện ngay lập tức.
Thí dụ, xem do-file sau đây:
------------------------------------------------- đầu của myfile.do----------------
use auto
decribe
list
------------------------------------------------- cuối của myfile.do---------------
Lưu ý dòng số hai - chúng ta muốn mô tả (describe) nhưng lại gõ sai là decribe. Sau đây là
những gì xảy ra khi chúng ta thực hiện do-file bằng cách gõ do myfile:
(1978 Automobile Data)
. do myfile
. use auto
(1978 Automobile Data)
. decribe
unrecognized command: decribe
r(199);
Decribe tạo ra thông báo lỗi và mã trả về 111. Điều này sẽ làm chấm dứt việc thực hiện do-file
và khi đó lệnh list (dù rằng đúng) vẫn không được thực hiện.
2. Bỏ qua lỗi lầm trong lập trình
Thí dụ một câu lệnh có thể là đúng trong một tập số liệu A nhưng lại là sai ở một tập số liệu B.
Và những lỗi như vậy có thể được tiên liệu từ trước: Trong trường hợp đó nếu câu lệnh không
lỗi thì chúng ta cứ tiếp tục, nếu có lỗi thì chúng ta mở tập số liệu A ra.
Như vậy người lập trình có thể yêu cầu Stata không ra thông báo lỗi bằng cách dùng lệnh
capture. Nhờ có thể đọc trực tiếp mã trả về và biết có lỗi xảy ra hay không và lỗi gì, lập trình
viên có thể có những hành động thích hợp.
3. Mã trả về để biết thời gian tính toán
Ngoài thông báo lỗi và mã trả về, Stata còn có thể có thông báo trả về (return message) cho biết
thời gian thực hiện một lệnh và thời điểm lệnh đó hoàn thành. Thông thường thì Stata không
cung cấp thông báo trả về trừ khi chúng ta yêu cầu bằng lệnh set rmsg on.
Thí dụ nếu bạn gõ sum mpg, bạn sẽ thấy
. sum mpg
100
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------------------------
mpg | 74 21.2973 5.785503 12 41
Nếu chúng ta đã gõ lệnh ở đâu đó trong chương trình
. set rmsg on
thì Stata sẽ trình bày thông báo trả về như sau:
. sum mpg
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------------------------
mpg | 74 21.2973 5.785503 12 41
r; t=0.11 7:52:45
Dòng “r; t=0.11 7:52:45” là thông báo trả về cho biết thời gian Stata thực hiện lệnh này là 0,11
giây và lệnh này hoàn thành lúc 7 giờ 52 sáng.
Nếu chúng ta không muốn xuất hiện thông báo trở về nữa, chúng ta hãy gõ:
. set rmsg off

101
Phím break
1. Làm Stata ngưng thực hiện việc đang làm
Khi chúng ta muốn Stata ngưng thực hiện việc nó đang làm và trả về dấu chấm nhắc (dot
prompt), chúng ta nhấn phím Control-Break (Thường được viết là ^Break hay Ctrl-Break). Việc
này được thực hiện bằng cách nhấn và giữ phím Ctrl và đồng thời nhấn phím Pause/Break.
Nếu bạn nhấn ^Break trong khi chúng ta đang gõ một dòng lệnh, Stata sẽ bỏ qua dòng lệnh đó
bởi vì bạn đã ở trong tình trạng kiểm soát.
Nếu bạn nhấn ^Break khi Stata đang làm điều gì đó thì Stata sẽ ngưng việc đang làm, trở về
trạng thái cũ và đưa ra một dấu chấm nhắc. Ở trạng thái cũ có nghĩa Stata hoàn trả lại tình trạng
như là bạn chưa hề ra câu lệnh. Tuy nhiên có hai trường hợp ngoại lệ:
1. Nếu bạn đang đọc số liệu từ đĩa bằng các lệnh insheet, infile, hay infix, thì khi bạn nhấn
^Break Stata sẽ ngưng công việc nhưng bạn không trở về trạng thái cũ mà các số liệu đã đọc sẽ
còn lại trong bộ nhớ. Điều này là có ích nếu bạn muốn xem xét quá trình nhập số liệu có đúng
hay không trước khi bạn nhập vào toàn bộ. Nếu không bạn có thể gõ lệnh drop _all
2. Nếu số liệu đang được sắp xếp cho biến số sex và bạn muốn sắp xếp lại cho biến số age . Giả
sử trong khi Stata đang sắp xếp cho age thì bạn đổi ý kiến và nhấn ^Break. Khi đó số liệu sẽ
không còn sắp xếp cho age và cũng không còn sắp xếp cho sex nữa: nó ở trạng thái không sắp
xếp (unsorted).
2. Điểm cần lưu ý trong lập trình
Có những trường hợp trong chương trình bạn muốn chương trình phải thực hiện toàn bộ một
nhóm lệnh mà không ngừng bởi vì nếu ngừng số liệu ở ở trạng thái bất định. Trong trường hợp
này Stata cung cấp cấu trúc:
no break {
. . .
}

102
Sử dụng bàn phím trong Stata
1. Bàn phím
Vì Stata được điều khiển theo dòng lệnh (command-driven) nên bàn phím là rất cần thiết trong
việc sử dụng ngoại trừ 2 trường hợp sau:
• Để có được những câu lệnh mà chúng ta đã nhập từ trước, chúng ta có thể nhấn các phím
PgUp và PgDn. Ngoài ra chúng ta có thể đưa con chuột đến dòng lệnh đó trong cửa sổ
hồi kiểm (review window) và nhấp để nạp câu lệnh đó vào cửa sổ dòng lệnh.
• Chúng ta có thể sử dụng các phím chức năng (F-keys) có các ý nghĩa đặc biệt và chúng
ta có thể thay đổi các định nghĩa này tuỳ theo sở thích của chúng ta.
2. Phím chức năng
Stata mặc định các phím chức năng các ý nghĩa sau:
F-keys
F1 help
F2 #review;
F3 describe;
F7 save
F8 use
Dấu chấm phẩy (;) ở sau #review và describe chỉ định rằng các phím này đã bao gồm phím
Enter
help gọi hướng dẫn của Stata - nếu chúng ta muốn có hướng dẫn về một lệnh nào đó (thí dụ như
lệnh summarize) chúng ta có thể gõ help summarize hoặc nhấn F1, rồi gõ summarize và nhấn
Enter.
#review là câu lệnh nhằm hiển thị một số câu lệnh bạn vừa sử dụng. Bạn có thể gõ vào #review
rồi Enter hoặc bạn có thể nhấn F2
describe là câu lệnh yêu cầu Stata báo cáo nội dung số liệu có trong bộ nhớ. Thông thường bạn
có thể gõ describe rồi Enter hoặc nhấn F3
save nhằm lưu lại số liệu trong bộ nhớ vào trong tập tin. Cần lưu ý cú pháp của save là sau nó
phải có tên tập tin. Chúng ta có thể gõ câu lệnh hoặc nhấn F7 rồi gõ tên tập tin.
use, ngược lại, nhằm đưa số liệu từ tập tin vào bộ nhớ. Sau use cũng phải có tên tập tin.
Bạn có thể thay đổi những định nghĩa mặc định này, thí dụ nếu bạn muốn F3 có nghĩa là
summarize bạn có thể gõ:
. global F3 "summarize"
Cần lưu ý ở trên F3 là chữ F và số 3 chứ không phải là phím F3. Lưu ý F là chữ in hoa và có
khoảng trống giữa global và F3 cũng như có khoảng trống giữa F3 và “summarize “
Sau chữ summarize nên có một dấu trắng khi cần có thể nhanh chóng gõ vào tên các biến số cần
được summarize
Nếu chúng ta muốn gán phím F5 để summarize tất cả các biến số ta có thể gõ:
. global F5 "summarize;"
Như vậy chúng ta có hai cách để tóm tắt tất cả các biến số : (1) nhấn F3 và sau đó nhấn Return
hoặc (2) nhấn F5. Dấu chấm phẩy (;)ở cuối định nghĩa của F5 sẽ thay chúng ta nhấn phím
Return.
Nếu chúng ta muốn thay đổi định nghĩa của F3 và F5 mỗi khi chúng ta khởi động Stata, chúng ta
có thể gõ hai lệnh trên mỗi khi chúng ta vào Stata. Cách khôn ngoan hơn là gõ 2 lệnh này trong
103
một tập tin văn bản, đặt tên là profile.do và đặt trong thư mục “khởi động”. Stata sẽ thực hiện
các lệnh trong profile.do mỗi khi nó được thực hiện.
3. Phím hiệu chỉnh
Người dùng Windows sẽ có quyền sử dụng những phím hiệu chỉnh tiêu chuẩn của Windows.
Cho nên Stata cho Windows sẽ hiệu chỉnh những gì bạn gõ vào một cách tư nhiên như một cửa
sổ hiệu chỉnh tiêu chuan.
Hơn nữa, bạn có thể đưa các câu lệnh từ cửa sổ Review vào cửa sổ Command. Nhấp vào một
lệnh ở cửa sổ Review sẽ nạp lệnh đó và cửa sổ Command, và bạn có thể hiện chỉnh nó. Nếu bạn
nhấp đúp vào một lệnh ở cửa sổ Review, nó sẽ nạp là thực hiện lệnh đó ngay.
Một cách khác để nạp các lệnh ở cửa sổ Review là dùng phím PgUp và PgDn. gõ PgUp và Stata
sẽ nạp lệnh cuối cùng bạn vừa gõ lên cửa sổ Cọmmand. Gõ PgUp thêm lần nữa nó sẽ nạp thêm
lệnh trước đó và tiếp tục. Gõ PgDn có tác dụng ngược lại.
Một phím hiệu chỉnh khác làm phím Esc, phím này có tác dụng xoá sạch cửa sổ Command.
Tóm lại:
Gõ Hiệu quả
PgUp Đi lùi từng lệnh và chuyển các lệnh từ cửa sổ Review sang cửa sổ Command
PgDn Đi tới từng lệnh và chuyển các lệnh từ cửa sổ Review sang cửa sổ Command
Esc Xoá cửa sổ Command
104
Khởi động Stata
1. Khởi động Stata
Khởi động chương trình STATA bằng cách nhấp vào nút Start :: All Programs :: Medistat ::
Stata 8 hoặc nhấp vào biểu tượng (icon) Stata 8 trên màn hình Desktop.
2. Mô tả giao diện của chương trình Stata
Giao diện của Stata sẽ hiện ra với 3 thanh và 4 cửa sổ:
3 thanh bao gồm:
1. Thanh tiêu đề với dòng chữ "Intercooled Stata 6.0"
2. Thanh menu với các menu File (đóng mở tập tin); Edit (hiệu chỉnh); Prefs (Tùy chọn); Data
(Số liệu) Graphics (Đồ họa) Statistics (Thống kê) User (Người dùng) Window (mở ra các cửa
sổ) và Help (Trợ giúp)
3. Thanh công cụ (toolbar)
Thanh công cụ gồm 12 nút công cụ (1- Open file; 2- Save; 3- Print Results; 4- Begin (Close)
log; 5- Start Viewer (Bring Viewer to Front) ; 6- Bring results window to Front 7-Bring
graph windows to Front; 8- Do-file Editor; 9-Data Editor; 10-Data Browser; 11-Clear -
more - Condition và 12- Break)
Ý nghĩa của từng công cụ như sau:

1- Open file (mở tập tin)
2- Save (Lưu tập tin)
3- Print Results (In kết quả)
4- Begin (Close) log: (Bắt đầu (Kết thúc) ghi biên bản kết quả)
5- Start Viewer (Bring Viewer to Front) : Bắt đầu sử dụng cửa sổ Viewer
6- Bring results window to Front : (Đưa cửa sổ kết quả ra trước)
7-Bring graph windows to Front (Đưa cửa sổ đồ họa ra trước)
8- Do-file Editor: (Biên soạn tập tin chương trình - do file)
9-Data Editor: Biên tập số liệu (sửa chữa, thêm bớt số liệu)
10-Data Browser: Duyệt số liệu (xem nhưng không sửa chữa)
11-Clear - more - Condition (Xóa lệnh more để tiếp tục thực hiện chương trình)
12- Break: (Ngưng tập tin chương trình)
Bốn cửa sổ liệt kê theo ngược chiều kim đồng hồ bao gồm
105
1. Cửa sổ Command (cửa sổ lệnh)
2. Cửa sổ Result (cửa sổ Kết quả)
3. Cửa sổ Review (cửa sổ Lưu trữ)
4. Cửa sổ Variables (cửa số Biến số)
3. Cách cách để thực hiện lệnh trong chương trình Stata
Có hai cách để thực hiện lệnh trong chương trình Stata: Dùng bàn phím để gõ lệnh vào cửa sổ
lệnh (Stata Command) hay sử dụng con trỏ chuột để chọn các trình đơn (menu) giao diện đồ họa
(Graphic Interface)
Dùng bàn phím để gõ lệnh
Dùng bàn phím để gõ lệnh vào cửa sổ lệnh (Stata Command). Đây là cách sử dụng Stata
của người chuyên nghiệp vì nó cho phép thực hiện tất cả các lệnh của Stata một cách
nhanh chóng với đầy đủ các chức năng phụ của lệnh. Tuy nhiên phương pháp này có
thể không thích hợp cho người mới sử dụng do nó đòi hỏi người dùng phải thuộc các câu
lệnh và cú pháp của nó
Con trỏ chuột với giao diện đồ họa (Graphic Interface)
Có thể dùng chuột thực hiện các lệnh nhằm thao tác số liệu (menu Data), vẽ đồ thị (menu
Graphics) và phân tích số liệu (menu Statistics). Phương pháp sử dụng chuột và menu là
phương pháp dễ sử dụng nên sẽ được ưu tiên trình bày trong tài liệu này.
4. Lưu lại kết quả phân tích
Kết quả của phân tích được thể hiện trên cửa sổ Stata Result và cửa sổ này có một thanh trượt
dọc cho phép xem lại những kết quả phân tích cũ. Tuy nhiên để tránh gây nhầm lẫn cho người
phân tích, cửa sổ này chỉ lưu lại những kết quả gần nhất. Do đó nếu chúng ta muốn lưu trữ lại
toàn bộ kết quả phân tích chúng ta cần phải mở cửa sổ log bằng cách nhấp vào nút công cụ Stata
Log nằm vị trí thứ tư từ trái ở trên thanh công cụ . Khi đó cửa sổ Open Stata Log mở ra,
chúng ta có thể nhập tên của tập tin lưu trữ (log file) vào hộp văn bản File name.
106
Giả sử chúng ta chọn tập tin này là "baitap.smcl" hãy gõ "baitap" vào hộp File Name rồi nhấp
OK.
Khi đó trên cửa số kết quả (Stata results) sẽ hiện ra thông báo để cho biết rằng biên bản kết quả
phân tích sẽ được lưu tại tập tin "D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl"
. log using "D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl"
------------------------------------------------------------------------------
log: D:\Dung\Science\BSCK2_Hieu_mat\baitap.smcl
log type: smcl
opened on: 10 Oct 2004, 12:01:34
Sau đó bạn có thể thực hiện các bước phân tích.
Khi muốn xem lại biên bản (kết quả phân tích) hãy nhấp vào nút công cụ log một lần nữa
để hiện ra cửa sổ Stata Log Options.

Sau đó chọn vào nút chọn View snapshot of log file và nhấp vào nút lệnh OK để xem biên bản.
Khi muốn chấm dứt việc ghi biên bản (kết quả phân tích) hãy nhấp vào nút công cụ log
để hiện ra cửa sổ Stata Log Options.
107

Sau đó chọn vào nút chọn Close log file và nhấp vào nút OK.
Lời khuyên: Người sử dụng Stata có kinh nghiệm sau khi mở tập tin số liệu luôn luôn mở tập tin
log trước khi tiến hành các phân tích thống kê để không bỏ mất các kết quả của quá trình phân
tích.
108
Mô tả số liệu với Stata 8.0 for Windows
Chương này sẽ hướng dẫn bạn phương pháp mô tả số liệu với phần mềm Stata 8.0 sử dụng bộ số
liệu ivf.dta có trong thư mục C:\DATA sau khi bạn cài đặt các tập tin số liệu mẫu.
Thông thường trước khi mô tả số liệu chúng ta cần thực hiện bước chuẩn bị và việc thao tác số
liệu (data processing). Công tác chuẩn bị bao gồm việc mở tập tin số liệu, mở tập tin log (Open
log file), khảo sát số liệu có bao nhiêu bản ghi và có những biến số nào cũng như nghiên cứu đề
cương nghiên cứu (chủ yếu là mục tiêu nghiên cứu) để giúp việc phân loại biến số. Việc thao tác
số liệu là việc rà soát số liệu có bị sai sót hay nhầm lẫn gì hay không, tạo biến số mới theo yêu
cầu của phân tích và tiến hành việc dán nhãn số liệu để giúp cho việc hiểu rõ hơn số liệu và đọc
kết quả của phân tích thống kê.
Trước tiên chúng ta hãy khởi động Stata theo cách đã hướng dẫn ở chương Khởi động Stata.
Sau đó thực hiện các bài tập 1 đến 3 cho công tác chuẩn bị và các bài tập 4 đến 6 cho công tác
thao tác số liệu.
1- Mở tập tin ivf_v.dta và mở tập tin log
Khởi động cửa sổ Use New Data bằng cách 1 trong 2 cách:
- Nhấn nút công cụ mở file ( vị trí đầu tiên trên thanh công cụ).
- Chọn menu File :: Open
Sau khi cửa sổ Use New Data sẽ hiện ra. Nhấp vào mũi tên bên phải hộp Look in để chọn ổ đĩa
thích hợp và dùng con chuột nhấp vào các thư mục để chọn thư mục có chứa số liệu (thông
thường tập tin số liệu nằm ở thư mục C:\Data). Tìm tập tin số liệu ivf_v.dta, nhấp đúp vào tên
tập tin này để mở tập tin (hoặc nhấp vào tập tin này để tên tập tin rơi vào hộp File Name rồi sau
đó nhấp vào nút lệnh Open để mở tập tin).
Để lưu trữ lại toàn bộ kết quả phân tích sẽ được thực hiện, cần nhớ nhấp vào nút công cụ Stata
109
Log nằm vị trí thứ tư từ trái ở trên thanh công cụ để bắt đầu log kết quả (begin log). Máy
tính sẽ hiện ra hộp thoại Begin Logging Stata Output để chúng ta chọn tên tập tin (File name)
và thư mục lưu (Save In) của tập tin log.
Thí dụ chúng ta muốn lưu tập tin log với tên là ivf_v.smcl vào thư mục c:\data; chúng ta nhập
vào các thông tin như trên.
2. Khảo sát các biến số của tập tin và nghiên cứu mục tiêu nghiên cứu để phân loại biến số
Hướng dẫn: Để xem liệt kê các biến số chúng ta có thể nhấn phím chức năng F3 hay sử dụng
menu (nhấp vào menu Data :: Describe data :: Describe variable in memory) để xem các biến
số của số liệu
Chúng ta có thể xem danh sách các biến số liệt kê ở sau:
110
. describe
Contains data from C:\DATA\ivf_v.dta
obs: 641
vars: 7 15 Aug 2006 15:27
size: 20,512 (99.8% of memory free)
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
maso float %9.0g ma so
tuoime float %9.0g tuoi me (nam)
tangha float %9.0g tang huyet ap thai ki - 1=tang
ha, 0=khong tang ha
tuoithai float %9.0g tuoi thai (tuan)
gioi float %9.0g gioi tinh tre - 1=trai, 0=gai
tlsosinh float %9.0g trong luong so sinh (gram)
nghenghiep float %9.0g nghe nghiep me - 1=tu do,
2=cong nhan, 3=vien chuc
-------------------------------------------------------------------------------
Sorted by: maso
Giả sử từ đề cương nghiên cứu chúng ta biết đây là tập tin của số liệu 641 đứa trẻ được sinh từ
bà mẹ thụ thai trong ống nghiệm (in-vitro fertilisation) với mục tiêu nghiên cứu là xem tuổi thai
và tăng huyết áp trong thai kì có ảnh hưởng lên trọng lượng thai hay không. Cách lí giải số liệu
được minh họa
STT Tên biến Ý nghĩa của biến Phân loại biến số:
(Độc lập hay Phụ thuộc) –
(Định tính hay định lượng)
1 Maso Mã số
2 Tuoime Tuổi của mẹ (năm tuổi)
3 Tangha Tăng huyết áp thai kì 1= có
0= không
4 Tuoithai Tuổi thai (tính theo tuần)
5 Gioi Giới tính của trẻ 1=trai 0=gái
6 Tlsosinh Trọng lượng sinh tính theo
grams
7 Nghenghiep Nghề nghiệp của mẹ 1=tự do
2=công nhân 3=viên chức
3. Làm thế nào để xem số liệu
Hướng dẫn: Có thể xem số liệu bằng 2 cách:
- Dùng nút lệnh Data Browser (vị trí 11 tính từ bên trái của thanh công cụ)
- Dùng menu Data :: Data browser (read-only editor)
111
Sử dụng Data Browser cho phép nhìn số liệu trong lưới (như các ô của chương trình Excel)
nhưng nó không cho phép in số liệu. Muốn nhìn số liệu ra của sổ kết xuất (output) để sau đó in
ra hãy sử dụng menu Data:: Describe Data :: List data.
4. Hãy thực hiện thống kê mô tả tất cả các biến số trong bộ số liệu này:
Hướng dẫn: trước tiên chúng ta phải xác định biến số nào là biến số định lượng và biến số nào là
biến số định tính. Sau đó thực hiện thống kê mô tả cho các biến số: đối với biến định lượng, thực
hiện lệnh summarize để để có trung bình và độ lệch chuẩn, đối với biến định tính thực hiện lệnh
tab1 để có bảng phân phối tần suất của các biến số.
Trong bộ số liệu này có các biến tuoime, tuoithai, tlsosinh là biến định lượng. Để mô tả
biến số này chúng ta sử dụng menu Statistics :: Summaries, tables, & tests :: Summary
Statistics.
Sau khi hộp thoại Summarize hiện ra, thực hiện các bước sau:
Bước 1: Đặt con trỏ vào hộp văn bản Variables
Bước 2: Di chuyển con trỏ vào cửa sổ Variables, và nhấp vào các biến cần mô tả thống kê
(tuoime, tuoithai, tlsosinh) để tên các biến này xuất hiện trên hộp văn bản Variables
Bước 3: Nhấp vào nút lệnh OK
112
Kết quả được trình bày nhưu sau:
. summarize tuoime tuoithai tlsosinh
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
tuoime | 641 33.97192 3.87046 23 43
tuoithai | 641 38.68725 2.329931 24.69 42.35
tlsosinh | 641 3129.137 652.7827 630 4650
Các biến số định tính bao gồm tang_ha (tăng huyết áp), gioi (giới tính của trẻ), nghenghiep
(nghề nghiệp của mẹ). Để tóm tắt các biến số định tính này (tang_ha, gioi, nghenghiep) chúng ta
sử dụng menu Statistics :: Summaries, tables & test :: Tables :: Multiple one-way tables.
113
Các bước thực hiện gồm:
- Bước 1: đưa con trỏ vào hộp văn bản categorical variable(s)
- Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào các biến tang_ha, gioi, nghenghiep để
đưa các tên biến này vào hộp văn bản Categorical variables(s)
- Bước 3: nhấp nút lệnh OK để hoàn tất
. tab1 tang_ha gioi nghenghiep
-> tabulation of tang_ha
tang huyet |
ap thai ki |
- 1=tang |
ha, 0=khong |
tang ha | Freq. Percent Cum.
------------+-----------------------------------
0 | 552 86.12 86.12
1 | 89 13.88 100.00
------------+-----------------------------------
Total | 641 100.00
-> tabulation of gioi
gioi tinh |
tre - |
1=trai, |
0=gai | Freq. Percent Cum.
------------+-----------------------------------
0 | 315 49.14 49.14
1 | 326 50.86 100.00
------------+-----------------------------------
Total | 641 100.00
-> tabulation of nghenghiep
114
nghe nghiep |
me - 1=tu |
do, 2=cong |
nhan, |
3=vien chuc | Freq. Percent Cum.
------------+-----------------------------------
1 | 104 16.22 16.22
2 | 238 37.13 53.35
3 | 299 46.65 100.00
------------+-----------------------------------
Total | 641 100.00
5. Các tóm tắt số liệu như trên là đạt yêu cầu. Tuy nhiên việc mã hoá các giá trị của biến số
khiến cho việc đọc bảng bảng tần suất của biến số danh định (như gioi và nghenghiep) bị khó
khăn (nhất là cho những người không trực tiếp làm thống kê hay phải đọc lại kết quả sau một
khoảng thời gian dài). Do đó những người làm thống kê chuyên nghiệp luôn luôn thực hiện ghi
chú (dán nhãn) cho các biến số định tính. Hãy thực hiện việc dán nhãn số liệu.
Hướng dẫn:
Việc dán nhãn cho các giá trị mã hóa là việc làm tốn công nhưng nó giúp phân biệt người làm
thống kê chuyên nghiệp và người làm thống kê không chuyên nghiệp. Mặc dù tốn công nhưng
lợi ích do nó đem lại vượt qua công sức bỏ ra vì vậy chúng ta cần phải thực hiện việc dán nhãn
này.
Việc dán nhãn giá trị biến số được thực hiện qua 2 bước: tạo nhãn (define label value) và dán
nhãn cho giá trị (Assign value label to variable).
- Tạo nhãn sex, tang_ha, nhãn nghenghiep
Để tạo nhãn sử dụng menu Data :: Labels & Notes :: Define value label. Cửa sổ Define value
label sẽ được hiện ra.
Giả sử chúng ta muốn tạo nhãn sex theo quy tắc 1 =nam và 2=nữ, các bước cụ thể như sau:
-Bước 1: nhấp vào nút lệnh Define để hiện ra hộp nhập liệu Define new lable
115
- Bước 2: gõ sex vào hộp văn bản Label name
- Bước 3: nhấp vào nút lệnh OK khi đó hộp nhập liệu Add value sẽ hiện ra
- Bước 4: Nhập 1 vào hộp văn bản value
- Bước 5: nhập nam vào hộp văn bản Text
- Bước 6: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add Value
biến mất
- Bước 7: Nhấp vào nhãn sex trong hộp văn bản Defien label names
- Bước 8: Nhấp vào nút lệnh Add để hộp nhập liệu Add value sẽ hiện ra
- Bước 9: Nhập 0 vào hộp văn bản value
- Bước 10: nhập nữ vào hộp văn bản Text
- Bước 11: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add
Value biến mất
Sau đó có thể nhấp vào nút lệnh Close (của hộp thoại Define value labels) để thoát ra hay nhấp
vào nút lệnh Define (của hộp thoại Define value labels) để tiếp tục tạo nhãn tang_ha.
Các bước cụ thể để tạo nhãn tang_ha gồm:
-Bước 1: nhấp vào nút lệnh Define để hiện ra hộp nhập liệu Define new lable
- Bước 2: gõ tang_ha vào hộp văn bản Label name
- Bước 3: nhấp vào nút lệnh OK khi đó hộp nhập liệu Add value sẽ hiện ra
116
Cần lưu ý: tên nhãn có thể khác với tên biến (thí du như trường hợp trên ta đặt tên nhãn là sex
trong khi tên biến là giới) hoặc tên nhãn có thể trùng với tên biến (thí dụ ta có thể đặt tên nhãn là
tang_ha cho biến tăng ha).
- Bước 4: Nhập 1 vào hộp văn bản value
- Bước 5: nhập huyet ap tang vào hộp văn bản Text
- Bước 6: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add Value
biến mất
- Bước 7: Nhấp vào nhãn tang_ha trong hộp văn bản Define label names
- Bước 8: Nhấp vào nút lệnh Add để hộp nhập liệu Add value sẽ hiện ra
117
- Bước 9: Nhập 0 vào hộp văn bản value
- Bước 10: nhập huyet ap bt vào hộp văn bản Text
- Bước 11: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add
Value biến mất
Để tiếp tục tạo nhãn nghenghiep ta nhấp vào nút lệnh Define (của hộp thoại Define value
labels).
-Bước 1: nhấp vào nút lệnh Define để hiện ra hộp nhập liệu Define new lable
- Bước 2: gõ nghenghiep vào hộp văn bản Label name
- Bước 3: nhấp vào nút lệnh OK khi đó hộp nhập liệu Add value sẽ hiện ra
- Bước 4: Nhập 1 vào hộp văn bản value
118
- Bước 5: nhập tu do vào hộp văn bản Text
- Bước 6: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add Value
biến mất
- Bước 7: Nhấp vào nhãn nghenghiep trong hộp văn bản Define label names
- Bước 8: Nhấp vào nút lệnh Add để hộp nhập liệu Add value sẽ hiện ra
- Bước 9: Nhập 2 vào hộp văn bản value
- Bước 10: nhập cong nhan vào hộp văn bản Text
- Bước 11: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add
Value biến mất
119
- Bước 12: Ở hộp Define label names vẫn tiếp tục chọn nhãn nghenghiep, nhấp vào nút lệnh
Add để hộp nhập liệu Add value sẽ hiện ra
- Bước 13: Nhập 3 vào hộp văn bản value
- Bước 14: nhập vien chuc vào hộp văn bản Text
- Bước 15: Nhấp vào nút lệnh OK của hộp nhập liệu Add Value. Khi đó hộp nhập liệu Add
Value biến mất. Ta có kết quả như sau:
- Bước 16: Để hoàn tất việc tạo nhãn ta nhấn vào nút lệnh Close
Dán nhãn giá trị (Assign value label) cho các biến gioi, tang_ha, và nghenghiep
Sau khi dã tạo được nhãn, chúng ta hãy dán nhãn giá trị cho biến số bằng cách dùng menu
Data :: Labels & Notes :: Assign value label to variable
120
Khi hộp thoại labels value – Attach value label hiện ra để dán nhãn cho mỗi biến số cần thực
hiện 4 bước sau:
- Bước 1: Đặt con trỏ vào hộp văn bản Variable
- Bước 2: Đưa con trỏ vào cửa sổ Variable và nhấp vào biến gioi để tên biến này xuất hiện trên
121
hộp văn bản Variable.
- Bước 3: Đưa con trỏ vào nhãn sex trong hộp văn bản Attach value label để dán nhãn sex vào
tên biến sex
- Bước 4: Nhấp vào nút lệnh Submit để thực hiện việc dán nhãn.
Để tiếp tục thực hiện tương tự để dán nhãn tang_ha cho biến tang_ha, hãy tiến hành các bước
sau:
- Bước 5: Đặt con trỏ vào hộp văn bản Variable
- Bước 6: Đưa con trỏ vào cửa sổ Variable và nhấp vào biến gioi để tên biến này xuất hiện trên
hộp văn bản Variable.
- Bước 7: Đưa con trỏ vào nhãn sex trong hộp văn bản Attach value label để dán nhãn sex vào
tên biến sex
- Bước 8: Nhấp vào nút lệnh Submit để thực hiện việc dán nhãn.
Để tiếp tục thực hiện tương tự để dán nhãn nghenghiep cho biến nghenghiep, hãy tiến hành các
bước sau:
122
- Bước 9: Đặt con trỏ vào hộp văn bản Variable
- Bước 10: Đưa con trỏ vào cửa sổ Variable và nhấp vào biến gioi để tên biến này xuất hiện trên
hộp văn bản Variable.
- Bước 11: Đưa con trỏ vào nhãn sex trong hộp văn bản Attach value label để dán nhãn sex vào
tên biến sex
- Bước 12: Nhấp vào nút lệnh OK để thực hiện việc dán nhãn. Cần lưu ý, trong những lần dán
nhãn trước chúng ta nhấp vào nút lệnh submit để hoàn thành việc dán nhãn nhưng không đóng
cửa sổ label values. Sau khi dán nhãn nghenghiep cho biến nghenghiep, chúng ta không cần dán
nhãn tiếp tục nên chúng ta nhấp vào nút lệnh OK để đóng cửa sổ label values sau khi hoàn thành
việc dán nhãn.
6. Lập bảng phân phối tần suất cho các biến số định tính sau khi đã dán nhãn cho các biến này.
Hướng dẫn:
Các biến số định tính đã được dán nhãn bao gồm tang_ha sex matagegp gestcat. Để tóm tắt các
biến số định tính này (tang_ha sex matagegp gestcat) chúng ta sử dụng menu Statistics ::
Summaries, tables & test :: Tables :: Multiple one-way tables.
123
Khi hộp thoại tab1 – One-way tables hiện ra, chúng ta tiến hành 3 bước (1) đặt con trỏ vào hộp
Categorical value (2) Nhấp vào cửa sổ variable để chọn các biến số tiến hành phân tích và (3)
Nhấp vào nút lệnh OK. Kết quả sẽ xuất hiện như sau:
. tab1 gioi tang_ha nghenghiep
-> tabulation of gioi
gioi tinh |
tre - |
1=trai, |
0=gai | Freq. Percent Cum.
------------+-----------------------------------
gai | 315 49.14 49.14
trai | 326 50.86 100.00
------------+-----------------------------------
Total | 641 100.00
-> tabulation of tang_ha
tang huyet ap |
thai ki - |
1=tang ha, |
0=khong tang |
ha | Freq. Percent Cum.
--------------+-----------------------------------
huyet ap bt | 552 86.12 86.12
huyet ap tang | 89 13.88 100.00
--------------+-----------------------------------
124
Total | 641 100.00
-> tabulation of nghenghiep
nghe nghiep |
me - 1=tu |
do, 2=cong |
nhan, |
3=vien chuc | Freq. Percent Cum.
------------+-----------------------------------
tu do | 104 16.22 16.22
cong nhan | 238 37.13 53.35
vien chuc | 299 46.65 100.00
------------+-----------------------------------
Total | 641 100.00
7. Vẽ tổ chức đồ (histogram) của biến trọng lượng sơ sinh (tlsosinh)
Hướng dẫn:
Để vẽ tổ chức đồ, ta phải sử dụng menu Graphics :: Histogram
Khi hộp thoại histogram hiện ra, chúng ta thực hiện các bước sau:
125
Bước 1: đặt con trỏ vào hộp văn bản Variable
Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn
bản Variable.
Bước 3 – Bước 4: nhằm để xác định tổ chức đồ sẽ bắt đầu từ giá trị 600 (Lower limit of first bin)
và mỗi khoảng tiếp theo (bin) có độ rộng là 300 (Width of bins)
Bước 5: Cho biết tổ chức đồ sẽ ghi nhận tỉ lệ của các khoảng giá trị bằng cách nhấp vào nút
chọn Fraction.
Nếu muốn thể hiện mật độ của phân phối, nhấp vào nút chọn Density, nếu muốn thể hiện
tần suất thì nhấp vào nút chọn Frequency. Mối liên hệ giữa các hàm phân phối này như
sau:
Tỉ lệ (Fraction) = Tần suất (Frequency) / Cỡ mẫu (N)
Mật độ (Density) = Tỉ lệ (Fraction) / Độ rộng của khoảng chia (Width of bins)
Kết quả tiếp theo sẽ được trình bày trong hình sau.
126
0
.
0
5
.
1
.
1
5
.
2
.
2
5
F
r
a
c
t
i
o
n
1000 2000 3000 4000 5000
trong luong so si nh (gram)
8. Đồ thị này cho chúng ta thấy hình dạng của phân phối số liệu, tuy nhiên chúng ta cũng có thể
thay đổi thưc hiện việc chia khoảng cho trục hoành, ghi chú cho trục hoành, chia khoảng cho
trục tung và ghi chú cho trục tung. Giả sử chúng ta muốn thực hiện các yêu cầu chia khoảng và
ghi chú như sau:
• Trục hoành phải có khoảng giá trị từ 600 đến 4800 (biên độ là 4200). Chúng ta muốn chia
làm mỗi khoảng có độ lớn là 300 như vậy cần thiết phải có 14 khoảng. Chúng ta cũng muốn
ghi giá trị từ 600 đến 4200 và mỗi nhãn giá trị cách nhau 600 gram.
• Trục hoành được ghi chú là "trong luong so sinh (gram) cua 641 tre"
• Trục tung có khoảng giá trị là 0 đến 0.3, ghi nhãn cho các giá trị và các nhãn này cách nhau
0.1
• Trục tung được ghi chú là "tỉ lệ" (chứ không phải là fraction).
127
Các bước để thực hiện chia khoảng và ghi chú cho trục hoàng (trục X) như sau:
Bước 1: Nhấp vào Tab X-axis
Bước 2: Để nhập ghi chú cho trục hoành, Ở hộp văn bản Title, nhập vào ghi chú là "trong
luong so sinh (gram) cua 641 tre"
Bước 3: Để chia khoảng cho trục hoành, ở hộp văn bản Rule, nhập vào 600(600)4800.
Nguyên tắc của quy tắc này là: Số đầu thang đo (Độ rộng khoảng chia) Số cuối thang đo.
Các bước để thực hiện chia khoảng và ghi chú cho trục hoàng (trục Y) như sau:
128
Bước 4: Nhấp vào Tab Y-axis
Bước 5: Để nhập ghi chú cho trục tung, Ở hộp văn bản Title, nhập vào ghi chú là "Ti le"
Bước 6: Để chia khoảng cho trục hoành, ở hộp văn bản Rule, nhập vào 0(0.1)0.3. Nguyên
tắc của quy tắc này là: Số đầu thang đo (Độ rộng khoảng chia) Số cuối thang đo.
Bước 7: Nhấp vào nút lệnh OK ở cuối cửa sổ để hoàn tất
0
.
1
.
2
.
3
T
æ

l
e
ä
600 1200 1800 2400 3000 3600 4200 4800
Troïng löôïng sô sinh (gram) cuûa 641 treû
9. Chúng ta cũng có thể vẽ đồ thị xuất (p-p plot) để xem biến số tlsosinh có tuân theo phân phối
bình thường
Hướng dẫn:
129
Sử dụng menu Graph – Distributional graph - normal quantile plot
Khi cửa sổ qnorm hiện ra, chúng ta tiến hành các bước sau:
Bước 1: đặt con trỏ vào hộp văn bản Variable
Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn
bản Variable.
Bước 3: Đánh dấu vào hộp kiểm: Show grid at percentiles:
Bước 4: Nhấp vào nút lệnh OK
130
Kết quả như sau:
Nếu phân phối bình thường thì đường cong phân phối (đường nét đậm) sẽ trùng với đường chéo
của hình chữ nhật (đường thẳng mảnh). Nếu phân phối lệch âm thì ở xác suất 0,5 đường cong
phân phối nằm ở bên trái đường chéo. Nếu phân phối lệch dương thì ở xác suất 0,5 đường cong
phân phối sẽ nằm ở bên phải đường chéo.
Nếu độ dốc của đường cong phân phối lớn hơn một (1) có nghĩa là phân phối thực nghiệm tăng
131
chậm hơn phân phối bình thường, nếu đường cong phân phối nhỏ hơn một (1) có nghĩa là đường
cong thực nghiệm tăng nhanh hơn phân phối bình thường.
Như vậy, phân phối của trọng sơ sinh bị lệch trái và ở khoảng trọng lượng thấp, phân phối trọng
lượng sơ sinh tăng chậm hơn phân phối chuẩn. Ở khoảng trọng lượng cao trọng lương sơ sinh
tăng hơi nhanh hơn phân phối chuẩn.
0
.
0
5
.
1
.
1
5
F
r
a
c
t
i
o
n
1000 2000 3000 4000 5000
trong luong so sinh (gram)
10. Hãy vẽ biểu đồ hình thanh (bar chart) của nhóm nghề nghiệp
Hướng dẫn:
Trước tiên sử dụng menu Graphics :: Easy graphs :: Bar chart
Để hiện ra cửa sổ graph bar – Chúng ta hãy để ý 2 thẻ Main và thẻ Over là 2 thẻ nằm bên trái
của cửa sổ.
132
Ở thẻ Main tiến hành các bước sau:
Bước 1: Chọn mục count nonmissing trong hộp Combo Statistic
Bước 2: Đặt con trỏ vào hộp văn bản variable(s)
Bước 3: Đưa con trỏ chuột vào cửa sổ variable và nhấp vào biến maso để biến này xuất hiện trên
hộp văn bản Variable(s)
Bước 4: Nhấp vào thẻ (tab) Over để hiện thẻ này ra
133
Bước 5: Khi đã ở thẻ Over, đưa con trỏ chuột vào hộp văn bản Variable
Bước 6: Đưa con trỏ chuột vào cửa sổ Variables và nhấp vào tên biến nghenghiep để tên biến
này xuất hiện trên hộp văn bản Variable.
Bước 7: Nhấp vào nút lệnh OK để xem biểu đồ hình thanh được tạo ra.
134
11. Hãy vẽ biểu đồ hình thanh (bar chart) trung bình trọng lượng sơ sinh của các đứa trẻ con của
những bà mẹ có nghề nghiệp khác nhau.
Hướng dẫn:
Trước tiên sử dụng menu Graphics :: Easy graphs :: Bar chart
Để hiện ra cửa sổ graph bar – Chúng ta hãy để ý 2 thẻ Main và thẻ Over là 2 thẻ nằm bên trái
của cửa sổ.
Ở thẻ Main tiến hành các bước sau:
Bước 1: Chọn mục mean trong hộp Combo Statistic
Bước 2: Đặt con trỏ vào hộp văn bản variable(s)
135
Bước 3: Đưa con trỏ chuột vào cửa sổ variable và nhấp vào biến tlsosinh (trọng lượng sơ sinh)
để biến này xuất hiện trên hộp văn bản Variable(s)
Bước 4: Nhấp vào thẻ (tab) Over để hiện thẻ này ra
Bước 5: Khi đã ở thẻ Over, đưa con trỏ chuột vào hộp văn bản Variable
Bước 6: Đưa con trỏ chuột vào cửa sổ Variables và nhấp vào tên biến nghenghiep để tên biến
này xuất hiện trên hộp văn bản Variable.
Bước 7: Nhấp vào nút lệnh OK để xem biểu đồ hình thanh được tạo ra.
136
12. Hãy vẽ biểu đồ hình bánh (Pie chart) phân phối biến số nghề nghiệp mẹ (nghenghiep).
Hướng dẫn:
Trước tiên sử dụng menu Graphics :: Pie Chart
Để thực hiện biểu đồ hình bánh, chúng ta tiếp tục các bước sau:
Bước 1: Đánh dấu kiểm (v) vào hộp kiểm (check box) Slices are distinct values of variable
Bước 2: Đặt con trỏ vào hộp văn bản Slices are distinct values of variable ở dưới hộp kiểm
Bước 3: Đưa con trỏ chuột vào cửa sổ variable và nhấp vào biến nghenghiep (nghề nghiệp mẹ)
để biến này xuất hiện trên hộp văn bản Slices are distinct values of variable.
Bước 4: Nhấp vào nút lệnh OK
Chúng ta sẽ có được biểu đồ hình bánh như sau:
137
13. Hãy tạo biến mới nhomtuoi, biến này có giá trị
0 tương ứng với tuổi của mẹ từ thấp nhất đến 29
1 tưong ứng với tuổi mẹ từ 30 đến 34
2 tưong ứng với tuổi mẹ từ 35 đến 39
3 tưong ứng với tuổi mẹ từ 40 trở lên
Điều này có nghĩa là chúng ta chia tuổi mẹ làm 4 nhóm với 3 điểm chia là 30, 35 và 40. Điều
này có thể thực hiện bằng cách tạo biến mới với hàm irecode.
Cách thực hiện việc tạo biến mới được thực hiện với menu Create or Change variables :: Create
new variable
Sau khi cửa sổ generate - Generate a new variable thực hiện việc tạo biến mới với các bước sau:
30
29-30 34-35 39-40
0 1 2 3
138
Bước 1: Nhập tên biến mới (nhomtuoi) vào hộp văn bản Generate variable
Bướic 2: Nhập công thức tạo biến mới irecode(tuoime,29,34,39)
Bước 3: Nhấp vào nút lệnh OK để hoàn tất
Sau khi tạo ra biến mới nhomtuoi, chúng ta nên thực hiện thêm 2 bước: tạo nhãn (define label
value) và dán nhãn giá trị cho biến số (Assign value label to variable) như được trình bày ở bưới
5. (0 là dưới 30; 1 là 30 den 34; 2 là 35-39; 3 là 40+)
14. Hãy tạo biến mới sinh non, biến này có giá trị
1 tương ứng với tuổi thai <37
0 tưong ứng với tuổi thai >=37 tuần
Yêu cầu có nghĩa là chúng ta cần tạo ra một biến nhị giá với 2 giá trị 0 và 1.. Điều này có thể
thực hiện bằng cách tạo biến mới và sử dụng biểu thức boolean (biểu thức thể hiện một mệnh đề
có giá trị là đúng hay sai)
Việc thực hiện cụ thể bao gồm việc tạo biến mới được thực hiện với menu Create or Change
variables :: Create new variable
139
Sau khi cửa sổ generate - Generate a new variable thực hiện việc tạo biến mới với các bước sau:
Bước 1: Nhập tên biến mới (sinhnon) vào hộp văn bản Generate variable
Bướic 2: Nhập công thức tạo biến mới tuoithai<37
Bước 3: Nhấp vào nút lệnh OK để hoàn tất
Sau khi tạo ra biến mới sinhnon, chúng ta nên thực hiện thêm 2 bước: tạo nhãn (define label
value) và dán nhãn giá trị cho biến số (Assign value label to variable) như được trình bày ở bưới
5. (1 là sinh non, 0 là không sinh non)
15. Lưu lại số liệu
Hướng dẫn: Để lưu số liệu chúng ta có thể sử dụng menu File :: Save (hay Ctrl-S) hoặc nhấn
vào nút save file (vị trí thứ hai của thanh công cụ). Một hộp thoại sẽ bật lên và hỏi chúng
ta có muốn chép chồng vào tập tin số liệu hay không. Nếu đồng ý chúng ta hãy nhấp vào nút
OK để đồng ý.

Nếu chúng ta không muốn thay đổi tập tin số liệu cũ, chúng ta nên nhấp vào nút Cancel và lưu
số liệu với tên mới sử dụng menu File :: Save As. khi đó hộp thoại "Save Stata Data File" sẽ
hiện ra. Gõ tên mới vào hộp File Name (thí dụ nếu chúng ta muốn đặt tên tập tin là ivf_v2.dta thì
chúng ta gõ vào hộp văn bản File name: ivf_v2.dta)
140
nhấp nút lệnh Save để hoàn tất.
16. Hãy thoát khỏi chương trình Stata
Hướng dẫn:
Để thoát khỏi Stata/SE 8.0 for Windows chúng ta có thể thực hiện một trong 2 việc sau:
- Nhấp vào ô đóng nằm ở phía trên phải của cửa sổ Stata
Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng
chưa được lưu vào đĩa thì khi chúng nhấp vào ô đóng, máy tính sẽ hỏi chúng ta rằng
chúng ta có muốn thoát mà không lưu lại số liệu hay không.
Nếu chúng ta đồng ý bằng cách nhấp vào nút lệnh Yes thì Stata sẽ thoát, nếu không (nhấp
nút lệnh No) thì chúng ta lại trở lại Stata để chúng ta có thể lưu lại số liệu.
- Gõ lệnh exit trong cửa sổ Stata Command.
Lưu ý: Trong trường hợp có dữ liệu trong bộ nhớ và dữ liệu đó đã được thay đổi nhưng
chưa được lưu vào đĩa thì khi chúng gõ exit, máy tính sẽ không đồng ý cho chúng ta
thoát và sẽ thông báo “no; data in memory would be lost”. Trong trường hợp này nếu
chúng muốn thoát mà không lưu lại số liệu thì chúng ta hãy gõ exit, clear. Nếu chúng ta
muốn lưu lại số liệu hãy sử dụng lệnh save.
17. Nếu chúng ta muốn xem lại các kết quả phân tích đã được thực hiện chúng ta có thể xem lại
tập tin log.
Cách xem lại tập tin log gồm các bước sau:
141
Bước 1: Vào menu File:: Log :: View
Bước 2: Khi hiện ra hộp thoại Choose file to View, nhấp vào nút lệnh Browse, khi đó cửa sổ
Choose file Name sẽ hiện ra
Bước 3: Trên cửa sổ Choose file Name, chọn thưmục chứa tập tin log trong hộp thoại Log gin
Bước 4: Chọn tập tin log cần xem lại (thí dụ tập tin pt_ivf.smcl
Bước 5: Nhấp vào nút lệnh Open để đóng cửa sổ Choose file Name và trở về hộp thoại Choose
file to view
Bước 6: Nhấp vào nút lệnh OK để xem tập tin log
142
143
Thống kê phân tích biến số định lượng với Stata
Sơ lược lí thuyết về so sánh 2 trung bình
Kiểm định t dùng để so sánh 2 trung bình của của biến số định lương có phân phối bình thường.
Kiểm định t gồm có (a) Kiểm định t bắt cặp để so sánh trung bình trước và sau khi can thiệp trên
một nhóm và (b) kiểm định t không bắt cặp để so sánh trung bình của 2 nhóm độc lập.
Có hai loại kiểm định t không bắt cặp (khi so sánh trung bình của 2 nhóm độc lập). Kiểm định t
có giả định 2 phương sai bằng nhau và kiểm định t không có giả định phương sai bằng nhau.
Hai loại kiểm định này có chung nguyên lí nhưng khác nhau trong cách tính toán độ tự do (của
kiểm định t) và cách tính sai số chuẩn.
Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau
Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung bình của 2
nhóm độc lập và đòi hỏi 2 giả định.
- Các giá trị của biến số của cả 2 dân số có phân phối bình thường
- Ðộ lệch chuẩn ở 2 nhóm dân số là bằng nhau.
Nếu chúng ta kí hiệu:
x
1
: giá trị trung bình ở nhóm 1
x
2
: giá trị trung bình ở nhóm 2
n
1
: cỡ mẫu của nhóm 1
n
2
: cỡ mẫu của nhóm 2
s
1
2
: phương sai ở nhóm 1
s
2
2
: phương sai ở nhóm 2
Chúng ta có thể xác định độ tự do, sai số chuẩn và giá trị của thống kê t theo công thức sau:
- Độ tự do của kiểm định t: df = n
1
+ n
2
- 2
- Sai số chuẩn: 2 1
/ 1 / 1 n n s se
p
+ ·
với
) 1 ( ) 1 (
) 1 ( ) 1 (
2 1
2
2 2
2
1 1
− + −
− + −
·
n n
s n s n
s
p
- Giá trị thống kê t:
2 1
2 1 2 1
/ 1 / 1 n n s
x x
se
x x
t
p
+

·

·
Sau khi tính được giá trị thống kê t, người ta tra bảng phân phối t với (n1 +n1 - 2) độ tự do và
tính được xác suất p. Thông thường nếu p <0,05 người ta bác bỏ giả thuyết H
0
.
Kiểm định t không bắt cặp không có giả định 2 phương sai bằng nhau
Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung bình của 2
nhóm độc lập và chỉ đòi hỏi 1 giả định.
- Các giá trị của biến số của cả 2 dân số có phân phối bình thường
Nếu chúng ta kí hiệu:
x
1
: giá trị trung bình ở nhóm 1
x
2
: giá trị trung bình ở nhóm 2
n
1
: cỡ mẫu của nhóm 1
n
2
: cỡ mẫu của nhóm 2
s
1
2
: phương sai ở nhóm 1
s
2
2
: phương sai ở nhóm 2
144
Chúng ta có thể xác định độ tự do, sai số chuẩn và giá trị của thống kê t theo công thức sau:
- Độ tự do của kiểm định t (theo công thức của Satterthwaite):
¹
¹
¹
¹
¹
;
¹
¹
¹
¹
¹
¹
'
¹

+

1
]
1

¸

+
·
) 1 ( ) 1 (
. .
2
2
2
4
2
1
2
1
4
1
2
2
2
2
1
2
1
n n
s
n n
s
n
s
n
s
f d
- Sai số chuẩn:
2
2
2
1
2
1
n
s
n
s
se + ·
- Giá trị thống kê t:
2
2
2
1
2
1
2 1 2 1
n
s
n
s
x x
se
x x
t
+

·

·
Sau khi tính được giá trị thống kê t, người ta tra bảng phân phối t với độ tự do phù hợp (như tính
toán ở trên) và tính được xác suất p. Thông thường nếu p <0,05 người ta bác bỏ giả thuyết H
0
.
Kiểm định t bắt cặp
Giả sử để so sánh hiệu quả của thuốc A và thuốc B trong cải thiện thể tích thở ra gắng sức trong
1 giây đầu tiên (FEV1) người ta cho các bệnh nhân tham gia nghiên cứu dùng thuốc A (hay
thuốc B) trong một thời gian và cuối thời gian này đo lường FEV1 của bệnh nhân (gọi là
FEV1
A
). Sau đó cho lại đổi cho bệnh nhân dùng thuốc B (hay thuốc A) trong một khoảng thời
gian và cuối thời gian này lại đo lường FEV1 của bệnh nhân (gọi là FEV1
B
). Thiết kế nghiên
cứu này được gọi là thử nghiệm lâm sàng bắt chéo. Chúng ta lưu ý các đặc điểm sau khi phân
tích thống kê cho các nghiên cứu có cùng loại thiết kế này.
- Trong nghiên cứu này có 2 biến số đo lường trên cùng dân số: FEV1
A
và FEV1
B
- Các giá trị của biến số FEV1
A
và FEV1
B
là của cùng một bệnh nhân nên hiệu số (FEV1
A
-
FEV1
B
) cũng là biến số của bệnh nhân đó. Và nếu không có sự khác biệt về hiệu quả của 2 loại
thuốc, trung bình của hiệu số này bằng 0.
- Khi đó kiểm định so sánh hiệu quả của thuốc A và thuốc B cũng  kiểm định so sánh giá trị
trung bình của FEV1
A
và FEV1
B
 kiểm định hiệu số (FEV1
A
- FEV1
B
)=0
- Phép kiểm định này được gọi là kiểm định t bắt cặp. Kiểm định t bắt cặp là trường hợp đặc biệt
của kiểm định t một mẫu.
Tóm lại kiểm định t bắt cặp là kiểm định được sử dụng khi thiết kế nghiên cứu cho một đối
tượng (hay 2 đối tượng rất giống nhau) được thử nghiệm 2 loại thuốc khác nhau.
Kiểm định phi tham số
Nếu phân phối không phải là bình thường (thí dụ như bị lệch dương), có thể sử dụng phép biến
đổi (thường là biến đổi log) để đưa phân phối về bình thường hoặc dùng test phi tham số. Kiểm
định phi tham số có ưu điểm là không đòi hỏi giả định về phân phối của biến số định lượng
nhưng có khuyết điểm là không thể ước lượng được tham số, đó là như không thể ước lượng
khoảng tin cậy 95% hiệu số của trung bình giữa 2 nhóm.
Sơ lược lí thuyết về so sánh các trung bình của 3 nhóm.
Khi chúng ta cần so sánh trung bình của nhiều nhóm, chúng ta không thể dùng nhiều kiểm định
t để so sánh từng cặp của nhóm vì như vậy chúng ta sẽ làm tăng nguy cơ của sai lầm loại 1.
Phương pháp thích hợp để được dùng cho trường hợp này được gọi là test ANOVA. Test
ANOVA (phân tích phương sai) được xem như là sự tổng quát hóa của test t (test t dùng cho 2
nhóm và test ANOVA dùng cho 2 hay nhiều hơn các nhóm). Ðiều kiện để test ANOVA hợp lệ
là các giá trị có phân phối bình thường và phương sai của các nhóm xấp xỉ nhau.
145
Trong kết xuất của test ANOVA, chúng ta thấy có sự hiện diện của thống kê F (thống kê Fisher).
Trong trường hợp chỉ có 2 nhóm, thống kê F chính xác bằng bình phương của thống kê t và 2
phương pháp cho ra cùng một mức ý nghĩa.
ến
Hình 1. Giải thuật lựa chọn kiểm định phù hợp cho biến số phụ thuộc là biến định lượng
Thực hành
1- Mở tập tin ivf_v2.
Chúng ta hãy khởi động Stata. Mở tập tin ivf_v2.dta bằng cách sử dụng menu File :: Open hay
nhấp vào nút công cụ Open file (Use), nằm ở vị trí thứ hai của thanh công cụ. Khi đó hộp
thoại Use New Data sẽ hiện ra. Nhấp vào mũi tên bên phải hộp Look in để chọn ổ đĩa thích hợp
và dùng con chuột nhấp vào các thư mục để chọn thư mục có chứa số liệu. Khi gập tập tin số
liệu ivf_v2.dta, nhấp đúp vào tên tập tin này để mở tập tin (hoặc nhấp vào tập tin này để tên tập
tin rơi vào hộp File Name rồi sau đó nhấp vào nút lệnh Open để mở tập tin). Cần nhớ nhấp vào
nút công cụ Stata Log nằm vị trí thứ tư từ trái ở trên thanh công cụ nếu muốn lưu trữ lại
toàn bộ kết quả phân tích sẽ được thực hiện.
2. Sau khi mở tập tin, cần có thông tin gì trước khi phân tích số liệu:
Trước khi phân tích số liệu, nhà nghiên cứu (hay chuyên viên thống kê) cần đọc lại đề cương
nghiên cứu, đặc biệt là số liệu (biến số và số các bản ghi), mục tiêu và thiết kế nghiên cứu. Giả
sử chúng ta có thông tin về nghiên cứu như sau:
MRC Working Party on Children Conceived by In Vitro Fertilisation. Births in Great Britain
resulting from assisted conception, 1978-87. BMJ 1990;300:1229-33.
Births in Great Britain resulting from assisted conception, 1978-87. MRC Working Party on
Children Conceived by In Vitro Fertilisation.
BPT: phân phối bình
thường
≤ 2 nhóm
Phương sai đồng nhất
BPT: định lượng
Phân phối bình thường
BPT: thứ tự
Kiểm định phi tham số
BPT: danh định
Kiểm định χ
2
Kiểm định t Kiểm định t
PS không đồng nhất
Phương sai đồng nhất
ANOVA
Đúng
Đúng
Đúng
Trên 3 nhóm
Không đồng nhất
Đồng nhất
Đồng nhất
Không đồng nhất
Đúng Đúng
146
OBJECTIVE--To describe the characteristics at birth of children conceived by in vitro
fertilisation (IVF) or by gamete intrafallopian transfer (GIFT) and to assess whether they differ
from those of children conceived naturally. DESIGN--Survey of children resulting from IVF or
GIFT and comparison of their characteristics at birth with national statistics. SETTING--
England, Scotland, and Wales from 1978 to 1987. SUBJECTS--1267 Pregnancies conceived by
IVF or GIFT, which resulted in 1581 liveborn or stillborn children. MAIN OUTCOME
MEASURES--Sex ratio, multiplicity, gestational age at birth, birth weight, stillbirth rate,
perinatal and infant mortality, and prevalence of congenital malformations. RESULTS--The
ratio of male to female births was 1.07:1; 23% (249/1092) of the deliveries were multiple births
compared with 1% for natural conceptions; 24% (278) of 1015 deliveries were preterm
compared with 6% in England and Wales; 32% (406) of 1269 babies weighed less than 2500 g
compared with 7% in England and Wales. The high percentage of preterm deliveries and of low
birthweight babies was largely, but not entirely, due to the high frequency of multiple births. The
rate of stillbirth, perinatal mortality, and infant mortality were twice the national average, these
excesses being due to the high frequency of multiple births. One or more major congenital
malformations were detected during the first week of life in 35 (2.2%) of 1581 babies. This
figure is comparable with population based estimates of the prevalence of congenital
malformations. The types of malformations reported varied, and the number of each specific
type was small. The health of the children was not evaluated beyond the perinatal period.
CONCLUSIONS--Multiple pregnancies often result from assisted conception and are the main
determinant of the outcome of the pregnancies and of the health of the children at the time of
birth. Congenital malformations are comparatively rare, so larger numbers of children need to be
studied before firm conclusions can be drawn. The pooling of data from different countries is
recommended.
PMID: 2354290 [PubMed - indexed for MEDLINE]
Số liệu này bao gồm những biến số về những đứa trẻ sinh một của những bà mẹ được thụ thai
trong ống nghiệm (in-vitro fertilisation). Nghiên cứu này đã được báo cáo trong tạp chí BMJ
(1990;300:1229-1233). Tập tin này bao gồm 641 đứa trẻ và gồm 8 biến số có chi tiết như sau:
STT Tên biến Giải thích tiếng Anh Giải thích tiếng Việt
1 Maso
identity number of mother and
baby
Mã số
2 tuoime maternal age in years Tuổi của mẹ (năm tuổi)
3 tang_ha hypertension 1=yes, 0=no Tăng huyết áp thai kì 1= có 0 = không
4 tuoithai gestational age in weeks Tuổi thai (tính theo tuần)
5 gioi sex of baby 1=male, 0=female Giới tính của trẻ 1=trai 0=gái
6 tlsosinh birth weight in gms Trọng lượng sinh tính theo grams.
7 nghenghiep
Occupation of mother (1= self
employed; 2=blue collar
worker; 3=white collar worker)
Nghề nghiệp mẹ (1= nghề tự do;
2=công nhân; 3=viên chức)
8 nhomtuoi
maternal age groups(0=<30;
1=30-34;2=35-39;3=40+)
Tuổi của mẹ phân nhóm (0=<30;
1=30-34; 2=35-39; 3=40+)
9 sinhnon
gestational category (1= <37
tuần; 0=37+tuần)
Sinh non (1: dưới 37 tuần; 0: đủ tháng
– trên 37 tuần thai)
147
Việc nhận biết số liệu cũng có thể thực hiện bằng cách sử dụng lệnh describe (nhấn phím F3).
Điều này đặc biệt có ích nếu các biến số và giá trị của biến số đã được dán nhãn đầy đủ.
Trong nghiên cứu này, tác giả muốn xác định tác động của tăng huyết áp của mẹ và tuổi thai lên
trọng lượng thai.
3. Như vậy trong các biến số kể trên, biến nào là biến độc lập, biến nào là biến số phụ thuộc,
biến số này là gây nhiễu.
Hướng dẫn:
Bảng số liệu viewivf này có chứa những biến số khác nhau. Trong bảng sau hãy xác định tính
chất của từng biến số bằng cách khoanh tròn vào lựa chọn thích hợp.
Biến số Thang đo biến số Quan hệ
tuoime
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
tang_ha
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
tuoithai
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
gioi
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
tlsosinh
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
nghenghiep
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
nhomtuoi
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
sinhnon
- Nhị giá - Danh định
- Thứ tự - Định lượng
- Độc lập - Phụ thuộc
- Gây nhiễu
4. Trước khi phân tích số liệu cần thực hiện thao tác số liệu và các thống kê mô tả. Thực hiện lại
các bước thao tác số liệu và thống kê mô tả như ở chương trước
5. Hãy so sánh trọng lượng của trẻ nam và trẻ nữ
Hướng dẫn: Theo giải thuật được trình bày ở đầu chương, để so sánh trọng lượng (biến phụ
thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem phương sai của 2
nhóm có bằng nhau hay không. Nếu phương sai 2 nhóm tương đương chúng ta có thể sử dụng t-
test thông thường (t-test phương sai đồng nhất). Nếu phương sai 2 nhóm không tương đương,
chúng ta phải sử dụng t-test phương sai không đồng nhất hay kiểm định phi tham số.
Kiểm định 1: So sánh 2 phương sai
Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu
Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group variance
comparison test.
148
Sau khi cửa sổ sdtest – Two sample test of variance hiện ra tiến hành 5 bước sau:
Bước 1: đặt con trỏ vào hộp văn bản Variable name
Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn
bản Variable name
Bước 3: đặt con trỏ vào hộp văn bản Group name variable
Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi để đưa biến này vào hộp văn
bản Group name variable.
Bước 5: Nhấp vào nút lệnh OK.
Kết quả được trình bày như sau:
. sdtest tlsosinh, by(gioi)
149
Variance ratio test
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
gai | 315 3044.127 35.421 628.6603 2974.434 3113.819
trai | 326 3211.279 36.88521 665.9798 3138.715 3283.843
---------+--------------------------------------------------------------------
combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767
------------------------------------------------------------------------------
Ho: sd(gai) = sd(trai)
F(314,325) observed = F_obs = 0.891
F(314,325) lower tail = F_L = F_obs = 0.891
F(314,325) upper tail = F_U = 1/F_obs = 1.122
Ha: sd(gai) < sd(trai) Ha: sd(gai) != sd(trai) Ha: sd(gai) > sd(trai)
P < F_obs = 0.1518 P < F_L + P > F_U = 0.3032 P > F_obs = 0.8482
Với giá trị p = 0,3032 chúng ta không thể bác bỏ giả thuyết Ho: độ lệch chuẩn của nhóm trẻ trai
bằng độ lệch chuẩn của nhóm trẻ gái. Vì vậy chúng ta có thể sử dụng kiểm định t phương sai
đồng nhát như ở bước 2.
Kiểm định 2: So sánh 2 trung bình sử dụng t-test phương sai đồng nhất.
Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu
Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group mean comparison
test
150
Cửa sổ ttest- group mean comparision tests hiển ra. Tiến hành các bước sau:
Bước 1: đặt con trỏ vào hộp văn bản Variable name
Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn
bản Variable name
Bước 3: đặt con trỏ vào hộp văn bản Group name variable
Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến gioi để đưa biến này vào hộp văn
bản Group name variable.
Bước 5: Nhấp vào nút lệnh OK.
. ttest tlsosinh, by(gioi)
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
gai | 315 3044.127 35.421 628.6603 2974.434 3113.819
trai | 326 3211.279 36.88521 665.9798 3138.715 3283.843
---------+--------------------------------------------------------------------
combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767
---------+--------------------------------------------------------------------
diff | -167.1522 51.18935 -267.6718 -66.63249
------------------------------------------------------------------------------
Degrees of freedom: 639
Ho: mean(gai) - mean(trai) = diff = 0
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
t = -3.2654 t = -3.2654 t = -3.2654
P < t = 0.0006 P > |t| = 0.0012 P > t = 0.9994
Trả lời: Trẻ trai có trọng lượng sơ sinh trung bình là 3211.28 gram, của trẻ gái là 3044.13 gram.
Với giá trị t = 3,2654 và mức ý nghĩa (p-value) là 0.0012 chúng ta kết luận có sự khác biệt về
trọng lượng sơ sinh giữa trẻ trai và trẻ gái (p=0.0012).
6. Hãy so sánh trọng lượng sơ sinh của con bà mẹ tăng huyết áp và bà mẹ không tăng huyết áp.
Hướng dẫn: Theo giải thuật được trình bày ở đầu chương, để so sánh trọng lượng (biến phụ
thuộc có phân phối bình thường) ở 2 nhóm trước tiên chúng ta cần phải xem phương sai của 2
nhóm mẹ tăng huyết áp và mẹ không tăng huyết áp có bằng nhau hay không. Nếu phương sai 2
nhóm tương đương chúng ta có thể sử dụng t-test thông thường (t-test phương sai đồng nhất).
Nếu phương sai 2 nhóm không tương đương, chúng ta phải sử dụng t-test phương sai không
đồng nhất hay kiểm định phi tham số.
151
Kiểm định 1: So sánh 2 phương sai
Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu
Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group variance
comparison test.
Sau khi cửa sổ sdtest - Group variance comparison test chúng ta đưa biến tlsosinh vào hộp văn
bản Variable name và biến tang_ha vào hộp văn bản Group name variable rồi nhấp vào nút lệnh
OK.
Kết quả được trình bày như sau:
. sdtest tlsosinh, by( tang_ha )
Variance ratio test
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
Ha bt | 552 3191.531 25.58435 601.0962 3141.276 3241.786
Ha tang | 89 2742.157 86.17222 812.9471 2570.908 2913.406
---------+--------------------------------------------------------------------
combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767
------------------------------------------------------------------------------
Ho: sd(huyet ap) = sd(huyet ap)
F(551,88) observed = F_obs = 0.547
F(551,88) lower tail = F_L = F_obs = 0.547
F(551,88) upper tail = F_U = 1/F_obs = 1.829
Ha: sd(1) < sd(2) Ha: sd(1) != sd(2) Ha: sd(1) > sd(2)
P < F_obs = 0.0000 P < F_L + P > F_U = 0.0003 P > F_obs = 1.0000
Kết quả cho thấy giá trị p = 0,0003 có nghĩa là phương sai của trọng lượng lúc sinh của 2 nhóm
không đồng nhất. Vì vậy chúng ta không thể dùng t-test phương sai đồng nhất mà phải sử dụng
t-test phương sai không đồng nhất (kiểm định 2A) hay kiểm định phi tham số (kiểm định 2B).
Kiểm định 2A: so sánh 2 trung bình t-test phương sai không đồng nhất
Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, chúng ta sử dụng menu
Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group mean comparison
test (xem lại câu 4) và biến tlsosinh vào hộp văn bản Variable name; biến tang_ha vào hộp văn
bản Group name variable của cửa sổ ttest- group mean comparison. Cần lưu ý đánh dấu vào hộp
kiểm Unequal variances rồi nhấp vào nút OK.
152
Kết quả trình bày như sau:
. ttest tlsosinh, by(tang_ha) unequal
Two-sample t test with unequal variances
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
ha bt | 552 3191.531 25.58435 601.0962 3141.276 3241.786
ha tang | 89 2742.157 86.17222 812.9471 2570.908 2913.406
---------+--------------------------------------------------------------------
combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767
---------+--------------------------------------------------------------------
diff | 449.3735 89.88999 271.1197 627.6273
------------------------------------------------------------------------------
Satterthwaite's degrees of freedom: 104.069
Ho: mean(ha bt) - mean(ha tang) = diff = 0
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
t = 4.9991 t = 4.9991 t = 4.9991
P < t = 1.0000 P > |t| = 0.0000 P > t = 0.0000
Trả lời: Con bà mẹ bị tăng huyết áp có trọng lượng sơ sinh trung bình là 2742 gram, ở con của
bà mẹ không tăng huyết áp là 3192 gram. Sự khác biệt này có ý nghĩa thống kê với p<0,0001.
Kiểm định 2B: so sánh 2 trung bình với phép kiểm phi tham số Mann-Whitney
Thực hiện kiểm định phi tham số tổng sắp hạng Mann-Whitney (Mann-Whitney rank sum test)
bằng dụng menu Statistics :: Summaries, tables, & tests :: Non-parametric test of hypotheses ::
Mann-Whitney two-sample ranksum test.
153
Sau đó cửa sổ ranksum - Mann-Whitney two-sample statistic hiện ra.
Tiến hành các bước sau:
Bước 1: đặt con trỏ vào hộp văn bản Variable name
Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn
bản Variable name
Bước 3: đặt con trỏ vào hộp văn bản Group name variable
Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tang_ha để đưa biến này vào hộp
văn bản Group name variable.
Bước 5: Nhấp vào nút lệnh OK.
Kết quả như sau:
. ranksum tlsosinh, by( tang_ha )
Two-sample Wilcoxon rank-sum (Mann-Whitney) test
tang_ha | obs rank sum expected
-------------+---------------------------------
ha bt | 552 185203 177192
ha tang | 89 20558 28569
-------------+---------------------------------
154
combined | 641 205761 205761
unadjusted variance 2628348.00
adjustment for ties -144.78
----------
adjusted variance 2628203.22
Ho: tlsosinh(tang_ha==ha bt) = tlsosinh(tang_ha==ha tang)
z = 4.941
Prob > |z| = 0.0000
7. Hãy so sánh trọng lượng sơ sinh của trẻ sinh ra từ con của các nhóm nghề nghiệp khác nhau
của người mẹ.
Hướng dẫn: Để so sánh trung bình của một biến định lượng ở nhiều nhóm, chúng ta phải sử
dụng phương pháp phân tích ANOVA một chiều. Sử dụng menu Statistics ::
ANOVA/MANOVA :: oneway analysis of variance
Do chúng ta muốn phân tích tác động của yếu tố nghề nghiệp mẹ (nghenghiep) lên trọng lượng
sinh của trẻ (tlsosinh) khi cửa sổ oneway hiện lên, ta tiến hành các bước sau:
Bước 1: đặt con trỏ vào hộp văn bản Response variable
Bước 2: đưa con trỏ vào cửa sổ Variables và nhấp vào biến tlsosinh để đưa biến này vào hộp văn
bản Response Variable.
Bước 3: đặt con trỏ vào hộp văn bản Factor
Bước 4: đưa con trỏ vào cửa sổ Variables và nhấp vào biến nghenghiep để đưa biến này vào hộp
văn bản Factor.
Bước 5: Đánh dấu vào hộp kiểm Produce summary table để thể hiện thống kê mô tả trọng lượng
sơ sinh trung bình ở các nhóm nghề nghiệp
155
Bước 6: Đánh dấu vào hộp kiểm Scheffe để có kiểm định so sánh trọng lượng trung bình ở từng
cặp đôi nghề nghiệp khác nhau
Bước 7: Nhấp vào nút lệnh OK

Trên cửa sổ Output, trên cùng thống kê mô tả của số liệu về trọng lượng sơ sinh theo nhóm tuổi
của mẹ:
nghe nghiep |
me - 1=tu |
do, 2=cong | Summary of trong luong so sinh
nhan, | (gram)
3=vien chuc | Mean Std. Dev. Freq.
------------+------------------------------------
tu do | 2981.4135 643.76283 104
cong nhan | 3118.084 646.69338 238
vien chuc | 3189.3177 654.19649 299
------------+------------------------------------
Total | 3129.1373 652.78265 641
Con bà mẹ nghề nghiệp tự do có trọng lượng trung bình là 2981 gram, của bà mẹ với nghề
nghiệp là 3118 gram, của bà mẹ với nghề nghiệp viên chức là là 3190 gram. Chúng ta biết kiểm
định ANOVA có thể sử dụng để kiểm định sự khác biệt về trung bình của nhiều nhóm, nhưng
trước tiên chúng ta hãy kiểm tra các điều kiện của phân tích ANOVA là (a) biến số phụ thuộc có
phân phối bình thường - điều này đã được xác nhận từ đồ thị của trọng lượng sơ sinh và (b)
phương sai của biến phụ thuộc ở các nhóm bằng nhau - điều này cũng được xác nhận qua thống
kê Bartlett với p-value là 0,973.
Analysis of Variance
Source SS df MS F Prob > F
------------------------------------------------------------------------
Between groups 3381483.56 2 1690741.78 4.00 0.0187
Within groups 269338638 638 422160.875
------------------------------------------------------------------------
Total 272720122 640 426125.19
Bartlett's test for equal variances: chi2(2) = 0.0558 Prob>chi2 = 0.973
Vì vậy trong trường hợp này kiểm định ANOVA là có giá trị. Ta đọc kết quả của bảng ANOVA.
156
Chúng ta có được giá trị F = 0.0187 và mức ý nghĩa (p-value) là 0.9723 chúng ta kết luận không
có sự khác biệt về trọng lượng sơ sinh ở con của những bà mẹ có nghề nghiệp khác nhau. Với
kết luận này chúng ta có thể kết luận là có ít nhất có 1 cặp đôi (2 nhóm) nghề nghiệp của mẹ có
sự khác biệt về trọng lượng con nhưng chúng ta không biết là sự khác biệt này ở cặp đôi nghề
nghiệp nào. Để biết cặp đôi nào có sự khác biệt ta xem kết xuất của so sánh sau kiểm định (post-
hoc test) của Scheffe:
Comparison of trong luong so sinh (gram)
by nghe nghiep me - 1=tu do, 2=cong nhan, 3=vien chuc
(Scheffe)
Row Mean-|
Col Mean | tu do cong nha
---------+----------------------
cong nha | 136.671
| 0.202
|
vien chu | 207.904 71.2337
| 0.020 0.451
Kết quả của kiểm định Scheffe được trình bày theo bảng và ở mỗi ô của bảng có 2 con số: con
số ở trên thể hiện sự khác biệt về trọng lượng của nghề nghiệp của hàng so với nghề nghiệp của
cột và giá trị ở dưới thể hiện giá trịi p (mức ý nghĩa) của sự khác biệt này. Dựa vào giá trị p, có
thể kết luận có sự khác biệt về trọng lượng sơ sinh của con 2 nhóm nghề nghiệp viên chức và tự
do (giá trị p=0,020) và nhóm nghề nghiệp viên chức có trọng lượng trung bình cao hơn nhóm
nghề nghiệp tự do là 207,9 gram.
Nhắc lại lí thuyết về Tương quan và ước lượng
Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có nhiều loại hệ số
tương quan, nhưng chúng đều có giá trị từ -1 đến 1. Nếu chúng có giá trị dương có nghĩa là hai
biến số đồng biến với nhau, nếu chúng có giá trị âm nghĩa là hai biến số nghịch biến. Giá trị
tuyệt đối của hệ số tương quan càng gần một nghĩa là hai biến số có liên hệ chặt với nhau và vai
trò của sai số ngẫu nhiên sẽ ít hơn. Nếu hệ số tương quan có giá trị bằng zero có nghĩa là hai
biến số độc lập và không quan hệ gì với nhau. Khi trị tuyệt đối của hệ số tương quan bằng một
có nghĩa là hoàn toàn không có sai số ngẫu nhiên. Bình phương của hệ số tương quan (r
2
) thể
hiện tỉ lệ các biến thiên của biến số phụ thuộc có thể được giải thích bằng biến số độc lập.
Loại hệ số tương quan được sử dụng phổ biến nhất là hệ số tương quan Pearson r:
∑ ∑

− −
− −
·
2 2
) ( ) (
) )( (
y y x x
y y x x
r
i i
i i
Lí giải ý nghĩa của hệ số tương quan:
- Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]
- Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; hệ số tương quan r âm chứng tỏ
hai biến số là nghịch biến; hệ số tương quan bằng zero nếu hai biến không liên hệ.
- Trị số tuyệt đối của hệ số tương quan r nói lên mức độ liên quan giữa hai biến số. Nếu trị tuyệt
đối của r bằng 1 (r=1 hay r=-1), quan hệ hoàn toàn tuyến tính nghĩa là tất cả các điểm nằm trên
đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có các điểm số liệu
phân tán chung quanh đường hồi quy.
- Bình phương của hệ số tương quan (r
2
) thể hiện tỉ lệ biến thiên của biến số phụ thuộc được giải
thích bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả)
- Nếu r=0, không có mối liên hệ tuyến tính giữa hai biến số. Ðiều này có nghĩa là (1) không có
mối liên hệ gì giữa hai biến số hoặc (2) mối liên hệ giữa hai biến số không phải là tuyến tính.
157
- Theo quy ước, quan hệ với r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung bình
và trên 0,5 là quan hệ mạnh. Ðiều quan trọng là sự tương quan giữa hai biến số cho thấy sự liên
hệ nhưng không nhất thiết có nghĩa là cá quan hệ 'nhân quả'.
Để kiểm định hệ số tương quan Pearson có thực sự khác 0 hay không, kiểm định t có thể được
sử dụng
t r
n
r
·


2
1
2
có phân phối student với n-2 độ tự do.
Hồi quy
Hồi quy là một mô hình toán học mô tả sự biến đổi của một biến số này theo những biến số
khác.
Một phương trình hồi quy có thể có dạng như sau:
cân nặng (kg) = 6,85 + 0,18 x tháng tuổi
(phương trình hồi quy tính cân nặng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi)
theo phương trình này người ta gọi:
cân nặng: biến số phụ thuộc
tháng tuổi: biến số độc lập
6,85: hệ số của hằng số (Constant), hay còn gọi là điểm chặn (intercept)
0,18: hệ số (Coeficient) của biến số tháng tuổi hay còn gọi là độ dốc (Slope) của đường hồi
quy
9. Vẽ phân tán đồ (scattergram) giữa của biến số tuổi thai (tuoithai) và trọng lượng thai
(tlsosinh).
Hướng dẫn: sử dụng menu Graphics :: Overlaid twoway graph
để hiện ra cửa sổ twoway – Twoway graphs
158
Trên cửa sổ twoway – Twoway graphs, nhập tên biến số phụ thuộc vào hộp Y-axis variable và
tên biến số độc lập vào hộp X-axis variable sau đó nhấp OK để xem biểu đồ phân tán. Cách làm
cụ thể từng bước như sau:
Bước 1: Trên hộp combo Type chọn Scatter
Bước 2: Đặt tên biến số độc lập (tuoithai) vào ô văn bản X
Bước 3: Đặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y
Bước 4: Nhấp nút lệnh OK
Có thể cho đồ thị phân tán. Tuy nhiên chúng ta có thể thêm các tùy chọn để thực hiện các yêu
cầu sau:
• Bổ sung tiêu đề “trọng lượng trẻ sơ sinh (gam)" cho trục tung
• Cho các giá trị trục y từ 500 đến 5000 gram và chia các khoảng 500 gram.
• Bổ sung tiêu đề “tuoi thai (tuan tuoi)" cho trục hoành
• Cho các giá trị của trục x từ 24 tuần tuổi đến 42 tuần tuổi và chia làm các khoảng 4 tuần
Bằng cách trong cửa sổ Trên cửa sổ twoway – Twoway graphs thực hiện các bước:
Trên thẻ Plot 1: Bước 1: Trên hộp combo Type chọn Scatter
Bước 2: Đặt tên biến số độc lập (tuoithai) vào ô văn bản X
159
Bước 3: Đặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y
Trên thẻ Y-Axis: Bước 4: Trên hộp văn bản Title gõ "Trong luong tre so sinh (gam)"
Bước 5: Trên hộp văn bản Rule gõ quy tắc "500(500)5000"
Bước 6: Trên hộp combo Angle chọn "Horizontal"
Trên thẻ X-Axis: Bước 7: Trên hộp văn bản Title gõ "Tuoi thai (tuan)"
Bước 8: Trên hộp văn bản Rule gõ quy tắc "24(2)42"
Và nhấp vào nút lệnh OK.
Trả lời: Có sự tương quan thuận tuyến tính giữa trọng lượng sơ sinh và tuổi thai. Mối tương
quan này khá chặt do đám mây có tính chất đi lên (khi nó đi về phải) và có đường kính bé nhỏ
hơn nhiều so với đường kính lớn.
10. Hãy xác định hệ số tương quan giữa trọng lượng sơ sinh (tlsosinh), tuổi thai (tuoithai) và
tuổi của mẹ (tuoime)
Hướng dẫn: Sử dụng menu Statistics :: Summaries, tables, & tests :: Summary statistics ::
Pairwise correlations.
160
Khi đó hộp thoại pwcorr – Pairwise correlations of variables sẽ hiện ra.
Tiến hành các bước sau:
Bước 1: Nhấp con trỏ chuột vào hộp văn bản Variables
Bước 2: Đưa con trỏ chuột vào cửa sổ Variables và nhấp vào các biến tlsosinh, biến tuoithai và
biến tuoime để tên 3 biến này xuất hiện ở hộp văn bản Variables.
161
Bước 3: Đánh dấu vào hộp kiểm Print significance level for each entry
Bước 4: Đánh dấu vào hộp kiểm Significance level for displaying with a star.
Bước 5: Nhấp vào nút lệnh OK để xem kết quả.
. pwcorr tlsosinh tuoithai tuoime, sig star(5)
| tlsosinh tuoithai tuoime
-------------+---------------------------
tlsosinh | 1.0000
|
|
tuoithai | 0.7376* 1.0000
| 0.0000
|
tuoime | 0.0337 0.0151 1.0000
| 0.3941 0.7026
Trả lời: Chương trình cho kết quả hệ số tương quan của trọng lượng thai với trọng lượng thai là
1, giữa trọng lượng thai và tuổi thai là 0.7376 (giá trị p=0,0000), giữa trọng lượng thai và tuổi
của mẹ là 0,0337 (giá trị p = 0,3941). Như vậy có sự tương quan mạnh có ý nghĩa thống kê giữa
trọng lượng thai và tuổi thai trong khi đó sự tương quan giữa trọng lượng thai và tuổi mẹ rất yếu
và không có ý nghĩa thống kê. Do có sự liên hệ có ý nghĩa thống kê (giá trị p <0,05) giữa trọng
lượng thai và tuổi thai nên giá trị của hệ số tương quan được đánh dấu sao (*).
11. Hãy xây dựng phương trình hồi quy của trọng lượng thai theo tuổi thai.
Hướng dẫn: Sử dụng phương pháp hồi quy đơn bằng cách nhấp vào menu "Statistics :: Linear
regression and related :: Linear regression" để hiện ra hộp thoại regress – Linear regression
Nhập tên biến số phụ thuộc vào hộp Dependent variable và tên biến số độc lập vào hộp
Independent variable rồi nhấn OK để tiếp tục.
Kết quả được trình bày như sau:
. regress tlsosinh tuoithai
162
Source | SS df MS Number of obs = 641
---------+------------------------------ F( 1, 639) = 762.25
Model | 148354317 1 148354317 Prob > F = 0.0000
Residual | 124365805 639 194625.673 R-squared = 0.5440
---------+------------------------------ Adj R-squared = 0.5433
Total | 272720122 640 426125.19 Root MSE = 441.16
tlsosinh | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
tuoithai | 206.6412 7.484572 27.609 0.000 191.9439 221.3386
_cons | -4865.245 290.0814 -16.772 0.000 -5434.873 -4295.617
Trả lời: Hệ số tương quan bình phương R-squared = 0.544 = 54.4% nói lên tuổi thai có thể giải
thích cho 54.4% sự thay đổi về trọng lượng sơ sinh. Bảng ANOVA cho biết có tổng các sai lệch
của bình phương trọng lượng sơ sinh 272.720.122 (272.7 triệu) mà phương trình hồi quy có thể
giải thích cho 148.3 triệu của sự sai lệch này (như vậy còn 124.4 triệu tổng bình phương sai lệch
chưa được giải thích gọi là Residual Sum of Square và giá trị 0.45 chính là giá trị 148.3/272.7).
Mức ý nghĩa được trình bày trong bảng ANOVA cho biết mức ý nghĩa của phương trình.
Dựa vào bảng các hệ số chúng ta có thể xây dựng phương trình hồi quy như sau:
Trọng lượng sơ sinh = -4865.245 + 206.641 x tuổi thai (tính theo tuần).
Mức ý nghĩa (P-value) của biến số tuổi thai (Gestational age) là kết quả của kiểm định ý nghĩa
của biến số này trong phương trình có thực sự khác không hay không.
Hệ số (coefficient) của biến số độc lập nói lên sự thay đổi của biến số phụ thuộc khi biến số
độc lập thay đổi một đơn vị. Trong phương trình này (với biến số độc lập là TUOITHAI và biến
số phụ thuộc là TLSOSINH) chúng ta có thể lí giải nếu đứa trẻ lớn hơn 1 tuần tuổi trọng lượng
lúc sanh của nó sẽ tăng thêm 206.641 gram.
12. Hãy xây dựng phương trình hồi quy của trọng lượng thai theo tuổi thai, giới tính của trẻ và
huyết áp cao của mẹ.
Hướng dẫn: Sử dụng phương pháp hồi quy đơn bằng cách nhấp vào menu "Statistics :: Linear
regression and related :: Linear regression" để hiện ra hộp thoại regress – Linear regression
Nhập tên biến số phụ thuộc (tlsosinh) vào hộp Dpendent variable và tên các biến số độc lập
(tuoithai gioi tang_ha) vào hộp Idependent variables, rồi nhấn OK để tiếp tục. Khi đó hộp thoại
163
chẩn đoán sẽ hiện ra. Tuy nhiên nếu chúng ta không quan tâm đến việc chẩn đoán các vấn đề
trong phương trình hồi quy chúng ta hãy nhấp vào nút Cancel.
. regress tlsosinh tuoithai gioi tang_ha
Source | SS df MS Number of obs = 641
-------------+------------------------------ F( 3, 637) = 275.43
Model | 153998584 3 51332861.4 Prob > F = 0.0000
Residual | 118721538 637 186376.04 R-squared = 0.5647
-------------+------------------------------ Adj R-squared = 0.5626
Total | 272720122 640 426125.19 Root MSE = 431.71
------------------------------------------------------------------------------
tlsosinh | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
tuoithai | 201.4248 7.541441 26.71 0.000 186.6157 216.2339
gioi | 167.8167 34.17884 4.91 0.000 100.6999 234.9335
tang_ha | -142.14 50.8685 -2.79 0.005 -242.0302 -42.24979
_cons | -4729.048 294.1447 -16.08 0.000 -5306.659 -4151.438
------------------------------------------------------------------------------
Trả lời: Chúng ta tìm được r
2
(R-squared) là 0.5647 cho thấy phương trình hồi quy giải thích
được 56.47% sự biến thiên của trọng lượng thai và điều này cho thấy mô hình có cả giới tính và
tăng huyết áp giải thích tốt hơn so với mô hình chỉ có tuổi thai (r
2
=0.54).
Chúng ta cũng có thể viết được phương trình hồi quy theo kết quả ở trên:
Trọng lượng thai = -4729.048 + tuổi thai x 201.425 - tăng huyết áp x 142.14 + giới x 167.817
10. Bạn có gợi ý gì để trình bày phương trình hồi quy một cách dễ hiểu hơn đối với người không
chuyên về thống kê.
Hướng dẫn: Bởi vì người không chuyên về thống kê hay người chưa được làm quen với phương
pháp mã hoá sẽ không biết làm sao để nhân tăng huyết áp với 142.14 hay giới với 167,817.
Chúng ta nhớ lại quy ước của tập tin này:
Biến tăng huyết áp (tang_ha) có giá trị =0 nếu mẹ không bị tăng huyết áp
Biến giới tính (gioi) có giá trị =0 nếu trẻ là trẻ gái
a) Do đó phương trình hồi quy đối với trẻ gái có mẹ không tăng huyết áp là:
Trọng lượng thai = -4729.048 + tuổi thai x 201.425 (a)
b) Ở trẻ trai với mẹ không tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ
tăng lên 167,817 gram nên phương trình hồi quy sẽ là
Trọng lượng thai = -4561.23 + tuổi thai x 201.425 (b)
c) Ở trẻ gái với mẹ bị tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ sẽ
giảm đi 142,14 gram so với phương trình (a) nên phương trình hồi quy cho nhóm này là
Trọng lượng thai = -4871.19 + tuổi thai x 201.425
d) Ở trẻ trai với mẹ bị tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ sẽ
giảm đi 142,14 gram so với phương trình (b) nên phương trình hồi quy cho nhóm này là
Trọng lượng thai = -4703.37 + tuổi thai x 201.425
Do các mức ý nghĩa (p-value) của biến số đều nhỏ hơn 0.05 nên tất cả các biến số độc lập của
mô hình đều có ý nghĩa thống kê và không nên loại bỏ khỏi mô hình.
13. Xét hai mô hình
trọng lượng thai = tuổi thai + tăng huyết áp mẹ + giới tính (cho hệ số của biến số tuổi t hai là
201.4) trong khi đó mô hình
trọng lượng thai = tuổi thai (chohệ số của biến số tuổi thai là 206.6). Hệ số trong mô hình nào là
phù hợp hơn để đánh giá sự tăng trưởng của trọng lượng thai.
Trả lời:
Chúng ta có thể giả định yếu tố tăng huyết áp của mẹ là yếu tố gây nhiễu. Do tăng huyết áp của
mẹ có thể làm giảm trọng lượng của con và trong tăng huyết áp của mẹ phổ biến hơn ở nhóm
164
sanh thiếu tháng nên ở đứa trẻ sinh sớm 1 tuần bị mất trọng lượng là 206.6 gram nhưng điều này
là cả do tác động của sanh non và cả tác động do tăng huyết áp ở một số bà mẹ. Tuy nhiên ở
nhóm không bị tăng huyết áp trẻ sanh non một tuần chỉ bị mất có 201.4 gram và do đó con số
201.4 là phù hợp hơn để đánh giá sự tăng trưởng của trọng lượng thai.
Trên thực tiễn do con số 201.4 rất gần với con số 206.6 nên có thể bỏ qua tác động gây nhiễu
của tăng huyết áp của mẹ lên tốc độ phát triển thai.
14. Sử dụng kiểm định t chúng ta phát hiện trọng lượng trẻ con các bà mẹ bị tăng huyết áp thấp
hơn con những người không tăng huyết áp là 449.37 gram. Trong khi mô hình của trọng lượng
sinh theo tuổi thai, tăng huyết áp mẹ và giới tính cho hệ số của biến tăng huyết áp là 142.14
gram. Hãy lí giải những số liệu này?
Trả lời: Cả hai con số 449.37 và 142.14 đều nói lên sự khác biệt do tình trạng tăng huyết áp của
mẹ nhưng con số 449.37 là con số khác biệt thô và con số 142.14 là con số khác biệt có hiệu
chỉnh theo tháng tuổi và giới tính. Dựa vào nhận xét trên ta có giải thích những con số này như
sau:
• con các bà mẹ bị tăng huyết áp có trọng lượng nhẹ con những người không tăng huyết áp là
449.37 gram và điều này do tác động của cả tăng huyết áp, tuổi thai (và cả tác động của giới
tính nhưng giả sử chúng ta biết rằng tác động gây nhiễu cao giới tính là không đáng kể).
• con các bà mẹ bị tăng huyết áp có trọng lượng nhẹ con những người không tăng huyết áp là
142.14 gram và điều này do tác động của cả tăng huyết áp khi không xét đến tác động của
tuổi thai. Như vậy tác động do sinh thiếu tháng là 449.37-142.14 = 307.23 g
Cao huyeát
aùp meï
Troïng
löôïng con
Sinh thieáu
thaùng
Cô cheá
khaùc
142.14g
449.37g
Như vậy % tác động do cơ chế sinh thiếu tháng trong tổng số tác động của tăng huyết áp mẹ lên
trọng lượng của con là:
% 68 68 . 0
37 . 449
22 . 307
37 . 449
14 . 142 37 . 449
· · ·

· ·
thoâ ñoäng taùc
chænh hieäu ñoäng taùc - thoâ ñoäng taùc

Chúng ta có thể xem xét tác động của cơ chế sinh thiếu tháng trong khi so sánh trọng lượng sơ
sinh của 2 nhóm mẹ tăng huyết áp và mẹ không tăng huyết áp bằng cách so sánh tuổi thai trung
bình giữa 2 nhóm. Nhóm có mẹ bị tăng huyết áp có tuổi thai trung bình là 37.3 tuần trong khi đó
nhóm mẹ không bị tăng huyết áp có tuổi thai trung bình là 38.9 và sự khác biệt về tuổi thai là 1.6
tuần. Sự khác biệt về tuổi thai sẽ giải thích cho khoảng 200 gram/tuần x 1.6 =320 gram trọng
lượng sơ sinh.
165

You're Reading a Free Preview

Tải về
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->