You are on page 1of 14

THỐNG KÊ SINH HỌC

nguyên bản tiếng Anh: Nguyễn Văn Tuấn

Chủ đề 2: THỐNG KÊ MÔ TẢ
Lượng thông tin thống kê phổ biến đến công chúng và thật ra cả trong y văn, vì lí do này hay
khác đôi khi không hiểu nổi, và trong số đó phần nào là thống kê "tốt" và phần nào là thống kê
“tồi" là tuỳ vào sự đồ đoán của mỗi người. Chắc chắn, chúng ta không thể chấp nhận tất cả
thông tin đó một cách không phê phán. Nhiều kết luận sai lầm hoàn toàn đôi khi do dựa trên
các dữ liệu thiếu vững chắc. Trên thực tế, việc sử dụng số liệu thống kê đã bị lạm dụng hay sử
dụng bừa. Nhiều sách báo và bài viết dựa trên việc vận dụng không đúng thống kê. Alvan
Feinstein mới đây nhận xét: "một số trong những tác giả như thế rất được nhiều người biết đến
vì họ không ngại đưa ra các lời giải cho các vấn đề chưa được giải quyết." Tất nhiên chúng ta
không muốn đi theo con đường đó. Chúng ta cần phải sử dụng thống kê một cách khôn ngoan.

Trong chủ đề này chúng ta sẽ bàn về việc sử dụng một vài chỉ số thống kê cơ bản thường gọi
là thống kê mô tả. Cụ thể, chúng ta sẽ quan tâm đến việc tổng kết các dữ liệu liên tục. Khi thu
thập dữ liệu, ta thường quan tâm tới sự phân bố của chúng: tập trung ở các giá trị nào, mức độ
phân tán ra sao so với giá trị tập trung đó, phân bố có dáng dấp thế nào và ứng dụng của
chúng ra sao. Tương ứng chúng ta sẽ thảo luận bốn đề mục chính:

Độ đo về vị trí (khuynh hướng) trung tâm


Độ đo về sự khác biệt (sự phân tán)
Độ đo về hình dạng của phân bố
Ứng dụng của thống kê mô tả

I. ĐỘ ĐO VỀ VỊ TRÍ TRUNG TÂM

1.1. Trung vị (Median):


Trung vị (kí hiệu là Md) của một dãy số là giá trị ở vị trí chính giữa khi dãy số được sắp
xếp theo thứ tự từ nhỏ đến lớn (hay ngược lại).
● Nếu số phần tử n của dãy số là lẻ thì trung vị là số ở vị trí thứ (n+1)/2.
● Trường hợp n là chẵn thì số trung vị sẽ là trung bình của 2 số ở vị trí ở thứ n/2 và n/2
+1.

Như vậy, trung vị là trung tâm của dãy số về mặt vị trí.

Ví dụ, đối với dãy số (14, 17, -13, 41, 12) ta có thể tìm số trung vị như sau:
- Sắp xếp lại các con số theo thứ tự từ bé tới lớn: -13 12 14 17 41
- Có tất cả 5 số nên trung vị là 14 (ở vị trí thứ 3 = (5+1)/2).

1.2. Yếu vị (Mode):


Yếu vị (kí hiệu là m) là giá trị có tần số xuất hiện thường xuyên nhất (nhiều lần nhất)
của dãy số đang xét.
Yếu vị có thể không duy nhất. Trường hợp có duy nhất một yếu vị được gọi là đơn yếu vị
(unimodal) ngược lại là đa yếu vị (multimodal).

Do đó, trong trường hợp đơn yếu vị,thì yếu vị là trung tâm của dãy số xét về mức độ tập
trung số liệu.

Ví dụ, đối với bộ các dữ liệu (4, 5, 3, 2, 4, 1, 7, 4, 2, 4) thì yếu vị sẽ là 4 vì nó xuất hiện
thường xuyên nhất (3 lần).

1.3. Trung bình cộng (Arithmetic Mean):


Trung bình cộng của dãy số x1, x2, … , xn được định nghĩa là

Khi dữ liệu được cho theo dạng tần số (có trọng số), giả sử x1, x2, …, xk. lần lượt có tần số
(số lần lập lại) là w1, w2, w3, … , wk, theo đó tập dữ liệu có cỡ là N = w1 + w2 + w3 + … + wk
thì trung bình cộng được tính bởi:

Khi dữ liệu thu thập có phân ra thành từng loại, ta có thể tính trung bình dữ liệu tổng thể từ
trung bình của dữ liệu từng loại số lượng các quan sát cho mỗi thể. Giả sử chúng ta có k
loại, mỗi loại với n1, n2,.. , nk số quan sát (cỡ của mẫu tổng hợp là N = n1 + n2+… + nk .) và
các trung bình tương ứng là thì trung bình tổng thể được cho bởi:

Như vậy, trung bình cộng là trung tâm của dãy số xét về mặt giá trị.
Trong thống kê người ta thường kí hiệu trung bình quần thể là μ.

Ví dụ 1: Số lượng chủ thể và trung bình cộng của mật độ khoáng trong xuơng (BMD) cột
sống ở thắt lưng của họ cho ba kiểu gen như sau:

Kiểu gen n TB
_________________________
TT 40 1,25 g / cm²
Tt 45 1,10 g / cm²
tt 15 1,00 g / cm²

BMD trung bình của 100 đối tuợng này sẽ được tính bằng:
= (40 × 1,25 + 45 × 1,10 + 15 × 1,00)/100 = 1,145g/cm²

1.4. Trung bình nhân (Geometric Mean):


Trung bình nhân của dãy số x1, x2, … , xn được định nghĩa là
G = (x1.x2. … xn)1/n

Từ định nghĩa ta có:

Hay nói khác đi:


G là trung bình nhân của dãy số x1, x2, … , xn khi và chỉ khi logG là trung bình cộng
của logx1, logx2, …, logxn.

Trung bình nhân là một số đo hữu ích về vị trí cho các dữ liệu liên quan đến tỉ lệ. Như có
thể thấy từ công thức trên, trung bình nhân không xác định cho một tập các giá trị có chứa
số 0 hay số âm.

Ví dụ 2: Tỉ lệ gia tăng osteocalcin trong một nhóm 10 bệnh nhân giữa các lần khám như
sau:
Giữa lần khám 2 và 1: 5,4%
Giữa lần khám 3 và 2: 8,9%
Giữa lần khám 4 và 3: 9,6%
Giữa lần khám 5 và 4: 6,4%.

Để tính số phần trăm gia tăng trung bình của 5 lần khám, ta cần
- chuyển các số phần trăm thành tỉ số,
- áp dụng công thức trung bình nhân.
4 số phần trăm có thể viết dưới dạng tỉ số như sau: 1,054; 1,089; 1,096; 1.,64
Theo đó, tỉ lệ gia tăng trung bình là (1,054×1,089×1,096×1.064)1/4 = 1,076 hay 7.6%.

1.5. Trung bình điều hoà (Harmonic Mean):


Trung bình điều hoà H của dãy số x1, x2, … , xn là nghịch đảo của trung bình cộng các
nghịch đảo của x1, x2, … , xn, tức là:
Hay
Khi một dãy số chứa các giá trị biểu thị cho mức thay đổi, trung bình điều hòa là một số đo
hữu dụng cho vị trí trung tâm.

Qua các ví dụ trên, các số trung bình cộng, nhân và điều hoà, trung vị, yếu vị cùng phản
ánh vị trí trung tâm của tập số tuỳ theo trường hợp. Như ta sẽ thấy trong phần 4.2., trung
bình cộng là điểm tập trung của phần lớn dữ liệu [có ít nhất 68% dữ liệu nằm trong khoảng
và (với σ là độ lệch chuẩn) ]

Để đơn giản và tiện cho việc trình bày, từ nay về sau ta quy ước dùng trung bình thay cho
trung bình cộng.

II. ĐỘ ĐO VỀ PHÂN TÁN (so với trung bình cộng)[1]

2.1. Phương sai (Variance)


Cho dãy số x1, x2, … , xn, với trung bình μ, phương sai của tập số này (kí hiệu σ²) là
trung bình cộng của bình phương độ lệch của các số xi so với trung bình μ, i=1, 2, 3, …,
n, tức là:

Tương đương với

Trường hợp có trọng số:

Trong đó .

Trường hợp các số x1, x2, … , xn chỉ là tập dữ liệu thu thập được từ một mẫu của một quần
thể mẹ lớn hơn thì phương sai được kí hiệu là s² là số có được sau khi điều chỉnh[2] phương
sai theo định nghĩa trên bởi hệ số n / (n – 1), tức là:

Tương đương với


Đối với dữ liệu có trọng số:

Trong đó .

Trong thực hành ta thường phải tính toán phương sai s² của mẫu hơn là phương sai σ² của
quần thể nên các công thức sau sử dụng thường hơn.

Từ định nghĩa trên, dễ thấy rằng nếu các số xi, i=1, 2, 3, … , n, càng phân tán xa trung bình
thì phương sai càng lớn. Còn nếu không có sự phân tán nào tức là x1 = x2 = x3 = … = xn =
thì phương sai bằng 0 và ngược lại (xem bài tập 2).

Ví dụ 4, xem mẫu số liệu 5, 17, 12 và10, trung bình cộng của nó là = 11, phương sai
được tính như sau:

=
= 24,67

Ví dụ 1 (tiếp theo): Đối với các dữ liệu trong ví dụ 1, chúng ta có thể coi số đối tượng trong
mỗi kiểu gen như tỉ trọng. Việc tính toán phương sai có thể được minh họa bằng bảng sau:

Kiểu gen n(wi) Mean (xi) wixi² wixi


━━━━━━━━━━━━━━━━━━━━━━━━
TT 40 1,25 62,50
50,0
Tt 45 1,10 54,45
49,5
Tt 15 1.00 15,00
15,0
━━━━━━━━━━━━━━━━━━━━━━━━
Tổng 100 131,95 114,5

= 0,00856 g² /cm²
2.2. Độ lệch chuẩn (Standard Deviation):
Độ lệch chuẩn được định nghĩa là căn bậc 2 của phương sai σ² (hay s²)và được kí hiệu
là σ (hay tương ứng là s).

Phương sai có đơn vị bằng bình phương đơn vị của các số đo đang xét, còn độ lệch chuẩn
do là căn bậc hai của phương sai nên có cùng đơn vị với các số đo này.

Trong ví dụ 4, độ lệch chuẩn là s = = 4,97 g/cm².

Nếu tập dữ liệu bao gồm một số lượng lớn các quan sát và tương đối đối xứng, thì độ lệch
chuẩn có thể được tính xấp xỉ bằng cách sử dụng giá trị lớn nhất (max) và giá trị nhỏ nhất
(min) như sau:
s = (max – min) / với n < 12
s = (max – min) / 4 với 20 < n < 40
s = (max – min) / 5 với n gần với 100
s = (max – min) / 6 với n > 400

2.3. Sai số chuẩn (Standard Error):


Sai số chuẩn là độ lệch chuẩn của các trung bình các mẫu cùng cỡ rút ra từ một quần
thể mẹ, kí hiệu là SE.
Nếu n là cỡ của các mẫu, N và σ lần lượt là cỡ và độ lệch chuẩn của quần thể mẹ thì sai số
chuẩn có thể ước lượng bằng công thức:

Vì thế, với một quần thể mẹ lớn hay với việc lấy mẫu có thay thế thì ta có thể dùng công
thức sau:
SE ≈ σ /
Tuy nhiên, trong một mẫu dữ liệu, SE được ước tính bằng:
SE ≈ s /
SE là một thước đo về sự khác biệt hợp lí giữa trung bình mẫu và trung bình quần thể mẹ
và được dùng để kiểm tra xem một mẫu cụ thể có thể đã rút ra từ một quần thể mẹ đã cho
hay không. Nó được sử dụng để tính toán giới hạn tin cậy.
SE cho các dữ liệu trong ví dụ 4 là: SE = s / = = 24,67/ = 12,3 g/cm².

2.4. Hệ số biến thiên (Coefficient of Variation):


Độ lệch chuẩn là thước đo của sự biến thiên tuyệt đối trong một tập các quan sát. Tuy
nhiên, đối với một số bài toán, sự biến thiên tương đối là một thước đo có ý nghĩa hơn.
Số đo về sự thay đổi tương đối được dùng phổ biến nhất là hệ số biến thiên(biến sai ):
CV = 100 s / (%)
CV được sử dụng khi tất cả các giá trị của một biến đều dương. Khi các giá tri có cả
dương lẫn âm thì CV hầu như vô nghĩa.

CV cho các dữ liệu thiết lập trong ví dụ 4 được là ước tính bởi:
CV = 100 × 4,97 /11 = 45,2 %

2.5. Phần trăm hay bách phân (Percentiles):


Phần trăm thứ p của một dãy các quan sát (dữ liệu) đã được sắp xếp theo thứ tự độ lớn
là giá trị sao cho có nhiều nhất là p% quan sát phía dưới nó và nhiều nhất là (100 - p)%
ở trên nó.
Hình dưới đây minh họa phần trăm thứ 25, 50 và 75 thường được gọi tương ứng là tứ phân
dưới, tứ phân giữa (trung vị) và tứ phân trên…

Ví dụ 5: Xét tập dữ liệu sau đây với 10 quan sát:


-15 -9 1 3 5 9 13 17 23 92,
trong đó trung vị là: (5 +9) / 2 = 7. Vì vậy, phần trăm thứ 50 là 7. Tương tự, phần trăm
thứ 25 phần trăm là 1 và phần trăm thứ 75 là 17. và cứ thế tiếp tục.

III. ĐỘ ĐO VỀ HÌNH DẠNG


Độ nghiêng (Skewness): Một cách để nghiên cứu độ nghiêng của một phân bố tần số là
so sánh các giá trị của yếu vị (m), trung vị (Md) và trung bình ( ). Ta biết rằng yếu vị là vị
trí có sự tập trung lớn nhất của các quan sát, trung vị là giá trị mà một nửa số các quan sát
nằm bên dưới và ở trên, và trung bình là có xu hướng bị kéo về hướng các giá trị cực
đoan. Do đó, với một phân bố đơn yếu vị và đối xứng, tất cả các giá trị trung bình, trung vị
và yếu vị phải giống hệt nhau, nếu trái lại, thì phân bố không đối xứng hay không đơn yếu
vị. Độ nghiêng (S) được định nghĩa bởi:

S = 3( – Md) / s hoặc S=( – m) / s

trong đó s là độ lệch chuẩn của mẫu.

Nếu S > 0 (yếu vị < trung bình), phân bố lài về phía phải, nếu S < 0 (yếu vị > trung bình),
phân bố lài về phía trái.
IV. CÁC ỨNG DỤNG CỦA THỐNG KÊ MÔ TẢ

4.1. QUAN HỆ THỰC NGHIỆM GIỮA TRUNG BÌNH, TRUNG VỊ VÀ YẾU VỊ

Chúng ta đã khảo sát ba độ đo chính của xu hướng trung tâm. Thế thì trong 3 độ đo đó, độ
đo nào là thích hợp và đáng tin cậy nhất? Câu trả lời cho câu hỏi này phụ thuộc vào phân
bố của các dữ liệu quan sát. Tuy nhiên, có thể nói rằng, giống như bất kì số đo vật lí nào,
không có độ đo thống kê nào trên đây là hoàn hảo trong việc mô tả vị trí trung tâm của một
phân bố.

Về mặt lí thuyết, có thể nói trung bình là độ đo tốt nhất cho xu hướng trung tâm của phân
bố. Điều này là do nó có thể tính toán được từ các dữ liệu số, sử dụng hết tất cả các quan
sát và đơn nhất. Hơn nữa, nó là dễ hiểu đối với hầu hết mọi người. Trung bình chịu ảnh
hưởng của các giá trị cực đoan, còn trung vị thì không bị ảnh hưởng đó. Tuy nhiên, trung vị
hầu như không tiêu biểu khi số quan sát nhỏ vì nó là một trung bình vị trí, nó cũng không
duy nhất. Mặt khác yếu vị cũng không có ý nghĩa mấy trừ khi số lượng các quan sát đủ lớn
và sự phân bố dữ liệu cho thấy một hình ảnh rõ ràng về xu hướng trung tâm.

Nếu sự phân bố của một tập hợp dữ liệu là đối xứng như trong hình 1, trung bình, trung vị
và yếu vị là như nhau (hoặc ít nhất là gần như nhau). Nếu phân bố lài về phía phải (như
trong hình 2), trung bình lớn hơn trung vị. Nếu phân phối lài về phía trái (hình 3), trung bình
nhỏ hơn trung vị.

Đối với một tập dữ liệu đủ lớn gần đối xứng, quan hệ thực nghiệm giữa trung bình, trung vị
và yếu vị như sau:

Trung bình – Yếu vị ≈ 3 (Trung bình – Trung vị)


Từ đó, nếu biết trung bình và trung vị thì yếu vị có thể tính gần đúng bằng công thức:

Yếu vị ≈ 3 Trung vị – 2 Trung bình

4.2. ĐINH LÍ CHEBYSHEV VÀ ƯỚC TÍNH MIỀN GIÁ TRỊ VÀ KHOẢNG TIN
CẬY.

Cần hết sức lưu ý ở đây rằng một tập dữ liệu là một mẫu lấy từ quần thể của tất cả các số đo
có thể có. Vì vậy, các trung bình mẫu , độ lệch chuẩn s… có thể không bằng với trung
bình và độ lệch chuẩn... thực sự của quần thể (quần thể), thường được biểu thị lần lượt bằng
các kí tự Hi Lạp μ và σ… Mục đích của việc ước lượng tham số không phải chỉ để có được
ước lượng của trung bình của quần thể nói chung, mà còn chỉ ra "độ không chắc chắn" của
nó, tức là các ước lượng có thể gần hoặc xa mức nào so với các giá trị thật. Liên quan đến
việc ước lượng này là khái niệm giới hạn tin cậy và được giới thiệu ở đây thông qua định lí
Chebyshev, một trong những định lí lớn trong Xác suất đã được đặt tên theo nhà toán học
vĩ đại người Nga. Phát biểu chính xác của định lí này là khá phức tạp về mặt toán học[3], tuy
nhiên, có thể hiểu như sau:

(a) khoảng từ - 3s đến +-3s chứa ít nhất 89% (= 8/9) các số đo,
(b) khoảng từ – 2s đến + 2s chứa ít nhất 75% (=3/4) các số đo;
(c) khoảng từ - s đến + s chứa ít nhất 0% các số đo.

Thực ra, phát biểu trên là khá dè dặt. Đối với bộ dữ liệu lớn và tương đối đối xứng, các quy
tắc thực nghiệm phát biểu rằng:

(a) 68.3% các số đo có thể nằm giữa -s và +s,


(b) 95.5% các số đo có thể nằm giữa -2s và +2s,
(c) 99.7% của số đo có thể nằm giữa -3s và +3s .

SỬ DỤNG ĐỘ LỆCH CHUẨN. Đối với bất kì tập dữ liệu đối xứng với trung bình và độ
lệch chuẩn s, chúng ta có thể ước tính tầm giá trị (range) của các số đo riêng lẻ với một độ
chính xác nhất định. Ví dụ, trung bình và độ lệch tiêu chuẩn của logarit (tự nhiên)
osteocalcin của một mẫu của các đối tượng ở Sydney tương ứng là 2,86 và 0,45 , điều đó
có thể suy ra rằng có khoảng 95% của các đối tượng trong mẫu này có ln(osteocalcin) từ
2,86 - 2 × 0,45 đến 2,86 + 2 × 0,45 (hay 1,96 tới 3,76).

SỬ DỤNG SAI SỐ CHUẨN. Sai số chuẩn (SE) mà chúng ta thảo luận bên trên thường
được gọi là độ lệch chuẩn của trung bình, vì nó chỉ ra sự khác biệt giữa trung bình của mẫu
và trung bình của quần thể mẹ. Trung bình quần thể thường không thể biết được. Tuy
nhiên, người ta có thể áp dụng định lí của Chebyshev để ước tính tầm của các giá trị có thể
có của trung bình của quần thể với một độ tin cậy nhất định.
Ví dụ, trung bình và sai số chuẩn của BMD cổ xương đùi trong số 20 vụ gãy xương ở phụ
nữ từ một cộng đồng tại Sydney đã được tìm thấy tương ứng là 0,70 g/cm² và 0,02 g/cm².
Trung bình thật BMD cổ xương đùi của mọi đối tượng gãy xương ở Sydney là chưa biết.
Tuy nhiên, có thể nói rằng trung bình thật có thể nằm từ 0,70 - 2 × 0,02 = 0,66 g/cm² đến
0,70 + 2 × 0,02 = 0.74g/cm². Phát biểu này hàm ý là nếu chúng ta tiếp tục lấy mẫu 20 phụ
nữ gãy xương từ dân Sydney nhiều lần (mỗi lần với các đối tượng khác nhau) và mỗi lần
đều tính trung bình của 20 phụ nữ, khi đó chúng ta hi vọng rằng trong 95% các lần, trung
bình sẽ nằm giữa 0,66 g/cm² đển 0,74g/cm².

4.3. PHÉP BIẾN ĐỔI:


Đối với một dãy số x1, x2, … , xn ,..., có trung bình là và phương sai là , khi đó với bất
kì hằng số a, b nào, chúng ta cũng có có các tính chất sau đây:

4.3.1. Phép biến đổi tuyến tính:


yi = a + bxi.
Trung bình và phương sai của y sẽ được định bởi:
= a + b( )

Ví dụ, trung bình và phương sai của một biến X lần lượt là 10 và 8. Nếu một biến mới
Y = 12 + 2X, khi đó trung bình và phương sai của Y là:
TB (Y) = 12 + 2TB (X) = 12 + 2 ×10 = 32
và phương sai (Y) = 2² × phương sai (X) = 4×8 = 32.

4.3.2. Phép biến đổi-Z:

Có thể chứng minh trung bình và phương sai của z là:

4. 4. TRÌNH BÀY THỐNG KÊ MÔ TẢ

Không có gì là không bình thường khi ngày nay trong các tạp chí y sinh học cách trình bày
có dạng a ± b ngày càng trở nên phổ biến. Một số nhà nghiên cứu đã chỉ ra hai giá trị như
là trung bình ± SE hay trung bình ± SEM hoặc trung bình ± SD, một số nhà nghiên cứu khác
chẳng quan tâm nêu ra các con số này thực sự tượng trưng cho điều gì.

Dĩ nhiên, theo thói quen sử dụng trong khoa học, số b trong biểu thức a ± b nói đến độ
chính xác của phép đo. Do đó, nếu một ai đó báo báo rằng một mẫu vật nặng 27 ± 2 mg, ý
họ muốn nói là trọng lượng của nó có thể là bất cứ giá trị nào giữa 25mg và 29mg. Trong
thống kê, việc sử dụng ± có cùng ý nghĩa này nếu nó dùng để chỉ một khoảng tin cậy xung
quanh một trung bình. Một phát biểu như "khoảng tin cậy 95% là 250 ± 10" có nghĩa là
trong hàng loạt các mẫu ngẫu nhiên được lấy từ cùng một quần thể, 95% các số đo sẽ nằm
giữa 240 và 260. Nhưng giá trị của dấu ± sẽ là gì khi nó đề cập đến độ lệch chuẩn hay sai
số chuẩn. Một độc giả muốn sử dụng thông tin này không thể sử dụng trực tiếp được. Có lẽ
một biểu thức "trung bình (SD)" sẽ hữu ích hơn.

[1] Để có một ý niệm về độ phân tán của tập số x1, x2, … , xn (so với trung bình cộng ) ta có thể dùng một độ đo
tự nhiên hơn, đó là trung bình cộng của các số |xi - |, i =1,2,3,….,n (độ lệch của mỗi xi so với ), nhưng độ đo
này ít thông dụng chỉ dùng trong tính tỉ Geary (dùng kiểm nghiệm tính bình thường của một phân bố).
[2] Dùng lập luận toán học, người ta biên minh rằng nhờ điều chỉnh này mà phương sai của mẫu là một ước lượng
gần với phương sai thật (phương sai của cả quần thể đang xét) hơn khi cỡ mẫu đủ lớn.
[3] Định lí này có thể phát biểu dưới dạng đơn giản như sau: với mọi k ≥ 1, tỉ lệ dữ liệu nằm trong khoảng từ – ks

đến + ks ít nhất là 1 - .

BÀI TẬP
1. Hãy viết một chuỗi 5 chữ số đáp ứng cả hai tiêu chuẩn sau đây:
(a) trung vị < trung bình (b) yếu vị < trung vị.
2. Chứng tỏ rằng tổng của các độ lệch của một tập hợp các sốđo, xi, so với trung

bình của chúng bằng 0, tức là .


3. Chi phí nằm viện do gãy xương (tính bằng $ AUS) cho 29 bệnh nhân ở Dubbo như sau:

5373, 15984, 7478, 3446, 11004, 9116, 3213, 5418, 16386


2857, 3656, 61876, 2972, 3057, 14449, 9400, 27518, 23278
23548, 3016, 12921, 4640, 4644, 23098, 2654, 7975, 10245
4045, 5018.

Lập biểu đồ phân bố của chi phí (có thể sử dụng khoảng-5000 như 5000-1000,
10001-15000, 15001-20000, vv…) Tính trung bình, độ lệch chuẩn, trung vị, độ
nghiêng… và bình luận về phân bố của các dữ liệu này.

4. Có thể nói gì về một tập hợp các số đo có độ lệch chuẩn bằng 0?


5. Một tập hợp 10 số với trung bình là 13 và độ lệch chuẩn là 2. Sau đó, người ta
phát hiện rằng số 12 trong tập đó thật ra là số 21. Tìm trung bình và độ lệch chuẩn đúng
của tập số đó.

6. Khi săn bắt côn trùng , dơi phát ra âm thanh tần số cao và sau đó lắng nghe
tiếng dội lại. Một vấn đề đáng quan tâm là khoảng cách (tính bằng cm) giữa dơi và con
mồi dự kiến của nó khi hệ thống vị trí - tiếng dội của dơi đầu tiên phát hiện ra con mồi.
Các dữ liệu sau đây bao gồm các khoảng cách phát hiện từ dơi tới con mồi trong 11 lần
bắt mồi:
62 52 68 23 34 45 27 42 83 56 40

(a) Tìm trung bình của dữ liệu.


(b) Tính độ lệch chuẩn của các dữ liệu, sử dụng:
(i) trung bình chính xác (đến 2 chữ số thập phân)
(ii) trung bình làm tròn.
(c) Tìm khoảng tin cậy 95% (KTC) cho các phép đo và KTC 95% cho trung bình. Bình
luận về sự khác biệt giữa các kết quả.

7. Osteocalcin của 5 chủ thể như sau: 4, 3, 7, 11 và 10.

(a) Tính trung bình ( ),phương sai (s²), độ lệch chuẩn và sai số chuẩn (SE) bằng tay.
Nêu đầy đủ các bước tính toán.
(b) Biến đổi các số liệu quan sát ban đầu bằng cách trừ đi giá trị trung bình từ mỗi quan

sát (tức là ( ).) Chứng tỏ trung bình của các số liệu mới ( ) bằng 0.

(c) Cho . Chứng tỏ rằng trung bình và phương sai của z tương ứng là 0 và
1.

8. Một tập hợp 340 điểm thể hiện một phân bố tần số tương đối hình chuông có
trung bình = 72 và độ lệch chuẩn s = 8. Bạn mong đợi sẽ có bao nhiêu điểm rơi vào
khoảng 64 tới 80? 56 tới 88?

9. Các tần số lí thuyết và giá trị kiểu hình của một bộ gen 2 alen (A và a) với tần số
tương ứng là p và q, thường được cho như sau:

Kiểu gen Tỉ lệ đối tượng Kiểu hình


______________________________________
AA p² μ+a
Aa 2pq μ+d
aa q² μ-a
Trong đó q = 1 - p.

Biểu thị trung bình tổng thể và phương sai của các kiểu hình theo μ, a, d, p và q.
10. Dữ liệu về BMD cột sống thắt lưng từ 123 cặp song sinh ở Sydney phân tầng theo kiểu
gen VDR như sau:

Kiểu gen n BMD cột sống thắt lưng


_______________________________________
TT 32 1,25 g / cm²
Tt 61 1,17 g / cm²
tt 30 1,07 g / cm²
n: số lượng cá nhân trong mỗi kiểu gen.

Tìm trị trung bình và phương sai của BMD cột sống thắt lưng cho các cặp song sinh
trên.

11. Cho một tập hợp các quan sát X = {3, 5, 6, 7, 9}.
(a) Tìm trung bình,độ lệch chuẩn và trung vị.
(b) Tìm trung bình và phương sai của y khi:

(i) (ii) (iii) (iv)

Bạn có thể suy ra quan hệ nào từ các trường hợp này?

12. Sử dụng kĩ thuật biến đổi để tính trung bình và phương sai (và do đó SD) của các mẫu
sau: 997, 995, 998, 992 và 995, mà không sử dụng máy tính.

13. Cho X = { 4, 3, 7, 10, 11}. Biến đổi các quan sát này bằng lôgarit tự nhiên của .
Tìm trung bình và phương sai của X và ln(X). Các chỉ số thống kê này giữa hai biến có
tương tự hay không? Trung bình của ln (X) bằng log của trung bình của X
không? Tại sao?

14. Osteocalcin trong một mẫu gồm 100 đối tượng từ Đan Mạch đã có những đặc điểm sau
đây:
Trung bình: 6,9 ng / ml
Độ lệch chuẩn: 5.1 ng / ml
Trung vị: 6,2 ng / ml.

Nhận xét về sự phân bố của dữ liệu.

15. Một số đặc điểm của lượng chất khoáng trong xương (BMC) của người da đen và da
trắng như sau:
Trung bình Trung vị SD
_________________________________________
Đen: 2872 2812 374
Trắng: 2744 2805
250

Tính hệ số nghiêng đối với từng nhóm và nhận xét về các kết quả.

16. Những thay đổi trong mức vitamin D 1,25 của một bệnh nhân trong 4 ngày liên tục như
sau:
Ngày 1: 35; Ngày 2: 36; Ngày 3: 38; Ngày 4: 40
(a) Tỉm tỉ lệ của sự thay đổi trong một ngày nào đó so với ngày trước cho các ngày 2, 3
và 4.
(b) Tìm trung bình nhân của ba tỉ số đó. Chứng tỏ sự thay đổi trong ngày thứ 4 có thể
tính được khi biết sự thay đổi trong ngày 1 và trung bình nhân.

17. Dữ liệu về BMD cột sống thắt lưng từ một mẫu của 10 đối tượng như sau: 0,98, 1,05,
1,01, 0,97, 0,95, 0,87, 0,50, 0,89, 1,05 và 1,08. Chú ý rằng có một đối tượng có BMD rất
thấp. Bạn có loại trừ đối tượng này ra khi tính toán trung bình hay không?

18. Trong một thí nghiệm được thiết kế để trả lời câu hỏi "môi trường có ảnh hưởng đến
giải phẫu học của bộ não hay không”, chuột từ một chủng biến đổi di truyền thuần khiết
đã được phân bổ ngẫu nhiên thành hai nhóm: một nhóm điều trị và một nhóm đối
chứng. Những con trong nhóm điều trị được đặt trong lồng lớn với đồ chơi mới mỗi
ngày. Những con trong nhóm đối chứng bị cô lập trong lồng riêng biệt mà không có đồ
chơi. Sau một tháng, người ta cân vỏ não (chất xám của não) . Các trọng lượng tính
bằng mg như sau:

Nhóm điều trị : 707 740 745 652 649 676 699 696 712 708 749
690
Nhóm đối chứng: 669 650 651 627 656 642 698 648 676 657 692 621

(a) Trình bày các dữ liệu dưới hình thức biểu đồ sao cho có thể hình dung dễ dàng.
(b) Tính các thống kê liên quan và bàn luận về giá trị của chúng.

You might also like