You are on page 1of 17

http://vnmaths3.wordpress.

com

Chương 3. THỐNG KÊ
3.1. LÝ THUYẾT MẪU
3.1.1. Khái niệm về tập đám đông và mẫu
1. Tập đám đông (Tổng thể)
a. Định nghĩa. Toàn bộ tập hợp các phần tử đồng nhất theo một dấu hiệu nghiên cứu
định tính hoặc định lượng nào đó được gọi là tổng thể nghiên cứu hay tổng thể.
b. Các khái niệm
- N: Số phần tử của tổng thể được gọi là kích thước của tổng thể.
- A: Dấu hiệu mà ta khảo sát.
- x i , i = 1..k: Những giá trị của dấu hiệu A đo được trên các phần tử của tổng thể.
- N i , i = 1..k: Tần số của x i (là số phần tử có chung giá trị x i ).
- p i , i = 1..k: Tần suất của x i , là tỷ số giữa tần số của x i và kích thước tổng thể

om
Ni
pi = i = 1; k
N

s.c
c. Các tham số đặc trưng của tổng thể
● Trung bình tổng thể: kí hiệu là m và được tính bởi công thức:

r es
N k k
1 1
m=
N
∑ xi =
i =1 N
∑ xi N i =
i =1
∑ p .x
dp
i=1
i i
or
Nếu xem dấu hiệu nghiên cứu như BNN X thì trung bình tổng thể chính là kỳ
.w

vọng toán của BNN đó.


● Phương sai tổng thể: kí hiệu σ2 được tính bởi công thức:
hs3

N 2
1 k k
N k

∑ (x − m) = N i ( xi - m) 2 = ∑ i (xi − m ) 2 = ∑ (x i - m) 2 . pi
1

at

σ =
2
i
N i =1 N i =1 i =1 N i =1
nm

Trong thực tế, để tiện cho việc tính toán, phương sai tổng thể thường được tính
/v

bằng công thức:


:/

k
1
σ2 = ∑ N .x 2
− m2
tp

i i
N i =1

● Độ lệch chuẩn tổng thể: kí hiệu là σ và được tính bởi công thức:
ht

k
σ= σ2 = ∑ (x
i =1
i - m) 2 . pi

●Tần suất của tổng thể: ký hiệu: p, là tỷ số giữa số phần tử mang dấu hiệu
nghiên cứu và kích thước của tổng thể:
M
p=
N
2. Mẫu ngẫu nhiên
Trong thực tế phương pháp nghiên cứu toàn bộ thường chỉ được áp dụng đối với
các tập hợp có quy mô nhỏ, còn chủ yếu người ta áp dụng phương pháp nghiên cứu
không toàn bộ, đặc biệt là phương pháp mẫu bằng cách chọn ra từ tổng thể n phần tử
http://vnmaths3.wordpress.com

và chỉ tập trung nghiên cứu các phần tử đó. Tập hợp n phần tử này được gọi là mẫu
kích thước n.
Phương pháp chọn mẫu:
- Mỗi lần lấy vào mẫu chỉ một phần tử.
- Lấy phần tử nào đưa vào mẫu là hoàn toàn ngẫu nhiên.
- Các phần tử được lấy vào mẫu theo phương thức hoàn lại.
Có thể coi mẫu ngẫu nhiên kích thước n là tập hợp của n BNN độc lập X 1 ,
X 2 ,…X n được thành lập từ BNN X trong tổng thể và có cùng quy luật phân phối xác
suất với X, ký hiệu: W = (X 1 , X 2 ,…X n )
E(X 1 ) = E(X 2 ) =…= E(X n ) = E(X) = m
D(X 1 ) = D(X 2 ) =…= D(X n ) = D(X) = σ 2 Lúc đó
việc thực hiện một phép thử đối với mẫu ngẫu nhiên W chính là thực hiện một phép
thử đối với mỗi thành phần của mẫu. Giả sử X 1 nhận giá trị x 1 ; X 2 nhận giá trị
x 2 ;…X n nhận giá trị x n . Tập hợp n giá trị x 1 ,x 2 ,…x n tạo thành một giá trị của mẫu

om
ngẫu nhiên, hay còn gọi là một mẫu cụ thể, ký hiệu: w = (x 1 ,x 2 ,…x n ).

s.c
Như vậy mẫu ngẫu nhiên là tập hợp của n BNN, còn mẫu cụ thể lại là tập hợp
của n giá trị cụ thể quan sát được khi thực hiện một phép thử đối với mẫu ngẫu nhiên.

r es
3.1.2. Các đặc trưng quan trọng về mẫu dp
or
1. Trung bình mẫu:
● Định nghĩa: Giả sử từ BNN gốc X trong tổng thể lập mẫu ngẫu nhiên kích
.w

thước n: W = (X 1 , X 2 ,…X n ). Trung bình của mẫu là một thống kê, kí hiệu X được xác
hs3

định bởi công thức:


at

1 1 n
X= (X1 + X 2 + ... + X n ) = ∑ X i
nm

n n i =1
Khi mẫu ngẫu nhiên nhận một giá trị cụ thể w = (x 1 ,x 2 ,…x n ) thì trung bình mẫu
/v

cũng nhận một giá trị cụ thể bằng:


:/

1 n 1 k
∑ i n∑ ni .xi trong đó n i là tần số xuất hiện giá trị x i .
tp

x= x =
n i =1
ht

i =1

● Tính chất: Nếu BNN gốc X có kỳ vọng toán E(X) = m, phương sai D(X) = σ2
σ2
thì X có E( X ) = m và D( X ) =
n
2. Phương sai mẫu S2 :
● Định nghĩa: Phương sai mẫu ký hiệu là S2 và được xác định bởi công thức:
1 n
S2 = ∑
n − 1 i =1
(X i - X) 2

Khi mẫu ngẫu nhiên nhận một giá trị cụ thể w = (x 1 ,x 2 ,…x n ) thì phương sai mẫu
cũng nhận giá trị cụ thể bằng:
( ) [ ()]
2
1 n n 1 k
∑ xi − x trong đó: x 2 = ∑ ni .xi2
2
s =
2
= x2 − x ,
n − 1 i =1 n −1 n i =1
http://vnmaths3.wordpress.com

● Tính chất: Nếu BNN X có kỳ vọng là E(X) = m, phương sai D(X) = σ2 thì
E(S2) = σ 2 .
3. Độ lệch chuẩn mẫu:
Độ lệch chuẩn mẫu kí hiệu S = S 2 .
Ví dụ 2.1: : Một máy tự động đóng b ột vào bao. Cân ngẫu nhiên 15 bao được các
trọng lượng sau:
39,75 40,25 39,50 40,25 40,50
40,00 39,75 40,00 40,00 39,25
39,25 39,50 40,00 39,50 39,50
a) Lập bảng phân phối thực nghiệm của trọng lượng các bao bột.
b) Tính giá trị trung bình và phương sai của trọng lượng các bao bột.
Giải.
a) Bảng phân phối thực nghiệm:

om
Trọng 39,25 39,50 39,75 40,00 40,25 40,50
lượng(kg)

s.c
Số bao 2 4 2 4 2 1

es
2.39,25 + 4.39,5 + 2.39,75 + 4.40 + 2.40,25 + 1.40,50
b) Ta có: x = = 39,73

r
15
dp
2.39,25 2 + 4.39,5 2 + 2.39,75 2 + 4.40 2 + 2.40,25 2 + 1.40,50 2
x2 = = 1584,175
or
15
[ ()]
.w

15 2 2
s2 = x − x = 6,1094.
hs3

14
at

3.1.3. Thống kê
nm

Thống kê là một hàm của các BNN X 1 , X 2 ,…X n , ký hiệu : G = f(X 1 ,X 2 ,…X n ),
nó cũng là một BNN tuân theo một quy luật phân phối xác suất nhất định và có các
/v

tham số đặc trưng như E(X), D(X).


:/

Khi mẫu ngẫu nhiên W nhận một giá trị cụ thể w = (x 1 ,x 2 ,…x n ) thì G cũng nhận
tp

một giá trị cụ thể là g = f(x 1 ,x 2 ,…x n ).


ht

3.2. BÀI TOÁN ƯỚC LƯỢNG THAM SỐ:


3.2.1. Bài toán: Cho BNN X với quy luật phân phối xác suất đã biết nhưng chưa biết
tham số θ nào đó của nó. Phải ước lượng (xác định một cách gần đúng) giá trị của θ.
Có hai phương pháp là phương pháp ước lượng điểm và phương pháp ước lượng
bằng khoảng tin cậy.
3.2.2. Phương pháp ước lượng điểm:
1. Phương pháp hàm ước lượng (phương pháp mômen)
a. Khái niệm. Giả sử cần ước lượng tham số θ của BNN gốc X. Từ tổng thể lập
mẫu ngẫu nhiên kích thước n: W = (X 1 ,X 2 ,…X n ). Chọn lập thống kê θ *=
f(X 1 ,X 2 ,…X n ) mà thực chất là một thống kê đặc trưng mẫu tương ứng với tham số θ
http://vnmaths3.wordpress.com

cần ước lượng. Chẳng hạn, để ước lượng kỳ vọng toán m của BNN gốc thì chọn thống
kê trung bình mẫu X , để ước lượng phương sai σ 2 của BNN gốc thì chọn thống kê S2
…Nếu lập một mẫu cụ thểvà tính được giá trị θ*=f(x 1 ,x 2 ,…x n ) của thống kê θ * trên
mẫu cụ thể đó thì nó là ước lượng của θ.
Thống kê θ* được gọi là hàm ước lượng của θ.
b. Các tiêu chuẩn lựa chọn hàm ước lượng
● Ước lượng không chệch: Thống kê θ* của mẫu được gọi là ước lượng không
chệch của tham số θ nếu E( θ*) = θ.
Ngược lại nếu E( θ*) ≠ θ thì θ* được gọi là ước lượng chệch của θ.
Nhận xét:
- Trung bình mẫu X là ước lượng không chệch của kỳ vọng toán m của BNN
gốc ( E( X ) = m).
- Tần suất mẫu f là ước lượng không chệch của xác suất p của BNN gốc (E( f) =

om
p).
- Phương sai mẫu S2 là ước lượng không chệch của phương sai σ2 .

s.c
● Ước lượng hiệu quả: Thống kê của mẫu được gọi là ước lượng hiệu quả nhất

es
của tham số θ của BNN gốc X nếu nó là ước lượng không chệch và có phương sai nhỏ

r
nhất so với mọi ước lượng không chệch khác được xây dựng trên cùng mẫu đó.
dp
Khi hai ước lượng θ 1 * và θ 2 * nào đó đều là các ước lượng không chệch của θ
or
song không phải là ước lượng hiệu quả nhất thì có thể so sánh phương sai của hai ước
.w

lượng đó để tìm ra ước lượng hiệu quả hơn. Giả sử V(θ 1 *) < V(θ 2 *), lúc đó độ hiệu quả
hs3

của θ 1 * so với θ 2 * được xác định bằng biểu thức:


V(θ 2 *)
at

EF =
V(θ1 *)
nm

● Ước lượng vững: Thống kê θ* của mẫu được gọi là ước lượng vững của tham
/v

số θ của BNN gốc X nếu θ* hội tụ theo xác suất đến θ khi n→∞.
:/

● Ước lượng đủ: Một ước lượng θ* được gọi là ước lượng đủ nếu nó chứa đựng
tp

toàn bộ các thông tin trong mẫu về tham số θ của ước lượng.
ht

c. Một vài kết luận của phương pháp hàm ước lượng
-Dùng X để ước lượng m.
-Dùng f để ước lượng p.
-Dùng S2 để ước lượng σ2.
2. Phương pháp ước lượng hợp lý tối đa
Giả sử đã biết quy luật phân phối xác suất của BNN gốc X dưới dạng hàm mật
độ f(x,θ) hoặc biểu thức xác suất nếu X là BNN rời rạc. Cần phải ước lượng tham số θ
nào đó của X.
Lập mẫu ngẫu nhiên kích thước n: W = (X 1 ,X 2 ,…X n ) và xây dựng hàm hợ p lý
tại một giá trị cụ thể của mẫu:
L(x 1 ,x 2 ,…x n ,θ) = f(x 1 ,θ).f(x 2 ,θ )…f(x n ,θ ).
http://vnmaths3.wordpress.com

Giá trị của thống kê θ tại điểm đó:θ*= f(x 1 ,x 2 ,…x n ) được gọi là ước lượng hợp lý
tối đa của θ nếu ứng với giá trị này hàm hợp lý đạt cực đại.
Cách tìm giá trị của θ để hàm hợp lý đạt cực đại:
− Tìm đạo hàm bậc nhất của lnL theo θ.
d ln L
− Giải phương trình: = 0 , giả sử nó có nghiệm θ = θ = f(x 1 x 2 ,…x n ).
*

d 2 ln L
− Tìm đạo hàm bậc hai , nếu tại điểm θ = θ * đạo hàm bậc hai âm thì
dθ 2

tại điểm này hàm lnL đạt cực đại, do đó θ *= f(x 1 ,x 2 ,…x n ) là ước lượng
điểm hợp lý tối đa cần tìm của θ.
3.2.3. Phương pháp ước lượng bằng khoảng tin cậy
1.Khái niệm
● Khoảng (G 1 ,G 2 ) của thống kê G được gọi là khoảng tin cậy của tham số θ nếu

om
với xác suất bằng (1−α) cho trước thoả mãn điều kiện:
P(G 1 < θ <G 2 ) = 1 – α.

s.c
●Xác suất (1−α) được gọi là độ tin cậy của ước lượng.

es
●I = G 2 – G 1 gọi là độ dài khoảng tin cậy.

r
3.2.4. Các bài toán ước lượng tham số dp
or
1. Bài toán ước lượng tham số μ (giá trị trung bình)
Giả sử trong tổng thể BNN gốc X phân phối chuẩn N (µ , σ 2 ) nhưng chưa biết
.w

tham số μ của nó. Để ước lượng μ từ tổng thể ta lập mẫu ngẫu nhiên kích thước n: W
hs3

= (X 1 ,X 2 ,…X n ). Nếu BNN gốc X không có phân phối chuẩn thì ta coi như phân phối
at

xấp xỉ chuẩn khi lấy kích thước mẫu n ≥ 30.


nm

a. Đã biết σ2
 σ 2
Do X ~ N (µ , σ )
/v

2
nên X ~ N  µ , 
 n 
:/

(X − µ ).
tp

~ N (0,1) .
n
Chọn thống kê : G = U =
ht

σ
Do đó với độ tin cậy bằng (1−α) cho trước tìm được cặp giá trị α 1 và α 2 sao cho
α 1 + α 2 = α từ đó tìm được hai giá trị tới hạn tương ứng của phân phối chuẩn hoá là
u1−α và uα thoả mãn: P (U > u1−α ) = 1 − α 1 và P (U > uα ) = α 2 .
( )
1 2 1 2

⇒ P u1−α1 < U < uα 2 = 1 − α .


⇒ P (− u α1 < U < uα 2 ) = 1 − α.
Thay biểu thức của U vào và biến đổi ta được:
 σ σ 
P X − uα 2 < µ < X + uα1  = 1 − α
 n n 
Với độ tin cậy bằng (1−α) tham số μ của BNN gốc X sẽ nằm trong khoảng
http://vnmaths3.wordpress.com
 σ σ 
 X − uα 2 ; X + uα1  gọi là khoảng tin cậy tổng quát.
 n n 
Trong thực tế người ta thường dùng các trường hợp đặc biệt sau:
α  σ σ 
− Khoảng tin cậy đối xứng: Chọn α 1 = α 2 = :  X − uα 2 ; X + uα 2 
2  n n 
σ
ε= uα 2 gọi là sai số của ước lượng.
n
  σ
− Khoảng tin cậy tối thiểu:Chọn α 1 =0, α 2 =α:  X − uα ;+∞  .
 n 
 σ 
− Khoảng tin cậy tối đa:Chọn α 1 =α, α 2 =0:  − ∞; X + uα  .
 n 
Với cùng độ tin cậy (1−α), khoảng tin cậy nào ngắn hơn sẽ tốt hơn. Trong trường
hợp này độ dài khoảng tin cậy I sẽ là ngắn nhất khi khoảng tin cậy là đối xứng.Khi đó I

om
= 2ε.
Ví dụ 2.2 Trọng lượng một loại sản phẩm là BNN phân phối chuẩn với độ lệch

s.c
chuẩn là 1gam. Cân thử 25 sản phẩm loại này ta thu được kết quả sau:

es
Trọng lượng(gam) 18 19 20 21

r
Số sản phẩm 3 5 dp 15 2
Với độ tin cậy 0,95 hãy tìm khoảng tin cậy đối xứng của trọng lượng trung bình
or
của loại sản phẩm nói trên.
.w

Giải.
Gọi X là trọng lượng sản phẩm ⇒ X ~ N (µ , σ 2 = 12 ) .
hs3

Trọng lượng trung bình của sản phẩm chính là tham số μ.


at

Đây là bài toán ước lượng tham số μ của BNN phân phối chuẩn bằng khoảng tin cậy
nm

đối xứng khi đã biết σ2.


/v

 σ σ 
Ta có khoảng tin cậy là:  X − uα 2 ; X + uα 2  .
:/

 n n 
tp

n=25, σ=1.
ht

α
1 − α = 0,95 ⇒ α = 0,05 ⇒ = 0,025 .
2
Tra bảng giá trị tới hạn chuẩn có: uα 2 = u 0,025 = 1,96
3.18 + 5.19 + 15.20 + 2.21
x= = 19,64
25
Thay vào ta được khoảng tin cậy đối xứng là: (19,248 ; 20,032).
Nhận xét:
-Khi tăng kích thước mẫu n lên và gi ữ nguyên độ tin cậy (1−α) cho trước thì ε
giảm đi tức là ước lượng tốt hơn.
-Khi tăng độ tin cậy (1−α) lên mà giữ nguyên kích thước mẫu n thì giá trị tới hạn
chuẩn cũng tăng lên theo do đó ε cũng tăng lên tức là ước lượng kém chính xác hơn.
http://vnmaths3.wordpress.com

●Công thức xác định kích thước mẫu tối thiểu n sao cho với độ tin cậy bằng
(1−α) cho trước thì sai số của ước lượng không vượt quá giá trị ε 0 cho trước:
2
σ 
n ≥  uα 2  .
ε 0 
b. Chưa biết σ2
Chọn thống kê: G = T =
(X − µ ) n
~ T (n − 1).
S
Với độ tin cậy bằng (1−α) cho trước ta có các khoảng tin cậy:
α  S S 
− Khoảng tin cậy đối xứng: Chọn α 1 = α 2 = :  X − tα(n −21) ; X + tα(n −21) 
2  n n 
S
ε= tα(n −21)
n
  S
− Khoảng tin cậy tối thiểu:Chọn α 1 =0, α 2 =α:  X − tα(n −21) ;+∞  .

om
 n 
 S (n −1) 

s.c
− Khoảng tin cậy tối đa:Chọn α 1 =α, α 2 =0:  − ∞; X + tα 2  .
 n 

es
●Công thức xác định kích thước mẫu tối thiểu n sao cho với độ tin cậy bằng (1−α)

r
dp
cho trước thì sai số của ước lượng không vượt quá giá trị ε 0 cho trước:
or
2
S 
n ≥  tα(n −21) 
.w

ε 0 
Ví dụ 2.3 Để xác định kích thước trung bình của chi tiết do một máy sản xuất
hs3

người ta lấy ngẫu nhiên 200 chi tiết để đo kích thước và thu được bảng số liệu sau:
at

Kích thước chi tiết (cm) Số chi tiết tương ứng


nm

54,795 – 54,805 6
/v

54,805 – 54,815 14
:/

54,815 – 54,825 33
tp

54,825 – 54,835 47
ht

54,835 – 54,845 45
54,845 – 54,855 33
54,855 – 54,865 15
54,865 – 54,875 7
Với độ tin cậy 95% hãy ước lượng bằng khoảng tin cậy tin cậy đối xứng kích
thước trung bình của chi tiết do máy đó sản xuất. Giả thiết kích thước chi tiết là BNN
phân phối chuẩn.
Giải.
Gọi X là kích thước chi tiết do máy đó sản xuất ⇒ X ~ N(μ,σ2).
Kích thước trung bình của chi tiết chính là tham số μ.
Đây là bài toán ước lượng tham số μ của BNN phân phối chuẩn bằng khoảng tin
cậy tin cậy đối xứng khi chưa biết σ2.
http://vnmaths3.wordpress.com
 S S 
Ta có khoảng tin cậy là:  X − tα(n −21) ; X + tα(n −21)  .
 n n 
n = 200
1 − α = 0,95 ⇒ α = 0,05 ⇒ tα(n −21) = t 0(199 )
, 025 ≈ u 0 , 025 = 1,96 .

Lập bảng tính x và s:


xi ni nixi nixi2
54,80 6 328,80 18018,240
54,81 14 767,34 42057,905
54,82 33 1809,06 99172,669
54,83 47 2577,01 14197,450
54,84 45 1467,80 135334,150
54,85 33 1810,05 99281,242
54,86 15 822,90 45144,294

om
54,87 7 384,09 21075,018
n = 200 10967,05 601380,950

s.c
es
10967,05
x= = 54,83525

r
x2 =
200
601380,95
= 3006,9047
dp
or
200
.w

s2 =
200
[ 2
]
3006,9074 − (54,83525) = 0,0002689 ⇒ s = 0,0164.
hs3

199
Thay vào ta được khoảng tin cậy đối xứng là: (54,83294 ; 54,83752).
at

2. Bài toán ước lượng phương sai σ2


nm

Giả sử trong tổng thể BNN gốc X phân phối chuẩn N (µ , σ 2 ) nhưng chưa biết
/v

tham số σ2 của nó.Từ tổng thể ta lập mẫu ngẫu nhiên kích thước n: W = (X 1 ,X 2 ,…X n ).
(n − 1)S 2
:/

Chọn thống kê: G = χ2 = ~ χ 2 (n − 1).


tp

σ 2
ht

Với độ tin cậy bằng (1−α) cho trước ta có các khoảng tin cậy:
 (n − 1)S 2 (n − 1)S 2
α 
− Khoảng tin cậy hai phía: Chọn α 1 = α 2 = :  ; 2(n −1) 
2  χ α2(2n −1) χ 1−α 2 
 
 (n − 1)S 2 
− Khoảng tin cậy tối thiểu:Chọn α 1 =0, α 2 =α:  2(n −1) ;+∞  .
 χα 
 (n − 1)S 
− Khoảng tin cậy tối đa: Chọn α 1 =α, α 2 =0:  − ∞; 2(n −1)  .
2

 χα 
Ví dụ 2.4 Với độ tin cậy 95% hãy ước lượng phương sai của kích thước các chi tiết
trong ví dụ 1.3.
Giải.
http://vnmaths3.wordpress.com

Đây là bài toán ước lượng phương sai σ 2 của BNN phân phối chuẩn bằng khoảng
tin cậy hai phía.
 (n − 1)S 2 (n − 1)S 2 
Ta có khoảng tin cậy là:  ; 2(n −1) .
 χ α2(2n −1) χ 1−α 2 
 
s2 = 0,0002689
n = 200
1 − α = 0,95 ⇒ α = 0,05 ⇒ χ 02,(025
199 )
≈ 198,98; χ 02,(975
199 )
≈ 284,8.
Thay vào ta được khoảng tin cậy là: (0,000188 ; 0,000269).
Để tìm khoảng tin cậy của σ ta chỉ cần lấy căn bậc hai .
3. Bài toán ước lượng tỷ lệ
Giả sử trong tổng thể kích thước N có M phần tử mang dấu hiệu nghiên cứu.
M
Đặt p = : là tỷ lệ các phần tử mang dấu hiệu nghiên cứu trong tổng thể.
N

om
m
f = : là tỷ lệ các phần tử mang dấu hiệu nghiên cứu trong mẫu.

s.c
n
Ta phải dựa vào tỷ lệ mẫu f để ước lượng tỷ lệ tổng thể p.

es
Với n ≥100, ta chọn thống kê: G = U =
(f − p) n
~ N (0,1)

r
dp f ( f − p)
or
Với độ tin cậy bằng (1−α) cho trước ta có các khoảng tin cậy:
α
.w

− Khoảng tin cậy đối xứng: Chọn α 1 = α 2 = :


2
hs3

 f (1 − f ) f (1 − f )  f (1 − f )
f − uα 2 ; f + uα 2  , ε= uα 2 .
at

 
 n n  n
nm

 f (1 − f ) 
− Khoảng tin cậy tối thiểu:Chọn α 1 =0, α 2 =α:  f − uα ;+∞  .
/v


 n 
:/

 f (1 − f ) 
− Khoảng tin cậy tối đa:Chọn α 1 =α, α 2 =0:  − ∞; f + uα  .
tp


ht

 n 
●Công thức xác định kích thước mẫu tối thiểu n sao cho với độ tin cậy bằng (1−α)
cho trước thì sai số của ước lượng không vượt quá giá trị ε 0 cho trước:
 f (1 − f ) 2 
n≥ uα 2  .
 ε0
2

Ví dụ 2.5 . Kiểm tra ngẫu nhiên 400 sản phẩm do một máy sản xuất thấy có 20
phế phẩm. Với độ tin cậy 0,95 hãy ước lượng tỷ lệ phế phẩm tối đa của máy đó.
Giải.
Gọi p là tỷ lệ phế phẩm của máy đó.
Đây là bài toán ước lượng tham số p bằng khoảng tin cậy tối đa.
http://vnmaths3.wordpress.com

 f (1 − f ) 
Khoảng tin cậy là:  − ∞; f + uα  .

 n 
n = 400
20
f = = 0,05 .
400
1 −α = 0,05⇒ u α = u 0,05 =1,645.
Thay vào ta được khoảng tin cậy là: (−∞ ; 0,0679).
Hay tỷ lệ phế phẩm của máy đó là 6,79%.
3.3 BÀI TOÁN KIỂM ĐỊNH GIẢ THIẾT
3.3.1 Các khái niệm
1. Giả thiết thống kê
Giả thiết thống kê là giả thiết về quy luật phân phối xác suất hoặc các tham số
đặc trưng, hoặc tính độc lập của các biến ngẫu nhiên.

om
Giả thiết thống kê có thể là đúng hoặc sai nên phải kiểm định gọi là phép kiểm

s.c
định giả thiết thống kê.
Giả thuyết thống kê đưa ra được gọi là giả thuyết gốc, ký hiệu là H 0 . Để kiểm

es
định giả thuyết H 0 người ta thành lập giả thuyết mâu thuẫn với nó gọi là giả thuyết

r
dp
đối, ký hiệu là H 1 . H 0 và H 1 tạo nên cặp giả thuyết thống kê.
or
Phương pháp chung để kiểm định giả thuyết thống kê như sau: Trước hết giả sử
.w

H 0 đúng và từ đó dựa vào thông tin của mẫu rút ra từ tổng thể có thể tìm được biến cố
A nào đó, sao cho xác suất xảy ra biến cố A bằng α rất bé mà có thể coi A không xảy
hs3

ra trong phép thử về biến cố này. Lúc đó trên một mẫu cụ thể thực hiện một phép thử
at

đối với biến cố A, nếu A xảy ra thì chứng tỏ H 0 sai và ta bác bỏ nó, còn nếu A không
nm

xảy ra thì ta chưa có cơ sở để bác bỏ H 0 .


/v

2. Tiêu chuẩn kiểm định giả thuyết thống kê


:/

Từ biến ngẫu nhiên gốc X trong tổng thể lập mẫu ngẫu nhiên kích thước n:
tp

W = (X 1 , X 2 ,…, X n )
ht

và chọn lập thống kê: G = f(X 1 , X 2 ,…, X n , θ 0 ), trong đó θ 0 là tham số liên quan đến
giả thuyết cần kiểm định. Điều kiện đặt ra đối với thống kê G là nếu H 0 đúng thì quy
luật phân phối xác suất của G hoàn toàn xác định. Thống kê G được gọi là tiêu chuẩn
kiểm định.
3. Mức ý nghĩa - Miền bác bỏ
Sau khi đã chọn được tiêu chuẩn kiểm định G, do quy luật phân phối xác suất
của G đã biết nên với một xác suất khá bé bằng α cho trước (thường α được lấy bằng
0,05 hoặc 0,01) có thể tìm được miền W α tương ứng sao cho với điều kiện giả thuyết
H 0 đúng xác suất để G nhận giá trị thuộc miền W α bằng α:
P(G∈W α / H 0 ) = α
Khi đó xác suất α gọi là mức ý nghĩa của kiểm định.
http://vnmaths3.wordpress.com

Miền W α được gọi là miền bác bỏ giả thiết H 0 với mức ý nghĩa α.
Hiển nhiên với một mức ý nghĩa α cho trước có thể tìm được vô số miền bác bỏ
tương ứng.
4. Giá trị quan sát của tiêu chuẩn kiểm định
Thực hiện một phép thử đối với mẫu ngẫu nhiên W = (X 1 , X 2 ,…, X n ) thu được
một mẫu cụ thể w = (x 1 , x 2 ,…, x n ) và qua đó tính đư
ợc một giá trị cụ thể của tiêu
chuẩn kiểm định G gọi là giá trị quan sát của tiêu chuẩn kiểm định, ký hiệu là G qs =
f(x 1 , x 2 ,…, x n , θ 0 ).
5. Quy tắc kiểm định giả thuyết thống kê
Sau khi đã tính được giá trị quan sát G qs của tiêu chuẩn kiểm định, ta so sánh giá
trị này với miền W α và kết luận theo quy tắc sau:
 Nếu G qs ∈ W α thì bác bỏ H 0 , thừa nhận H 1 .
 Nếu G qs ∉ W α thì chưa có cơ sở để bác bỏ H 0 (trên thực tế vẫn thừa nhận H 0 ) .

om
3.3.2 Một số bài toán về kiểm định.

s.c
1. Kiểm định giả thiết về tham số µ của biến ngẫu nhiên phân phối chuẩn

es
(kiểm định một giá trị trung bình).

r
dp
Giả sử biến ngẫu nhiên gốc X trong tổng thể phân phối theo quy luật chuẩn:
or
X ~ N(µ, σ2)
.w

Trong đó tham số µ là chưa biết, song có cơ sở cho rằng giá trị của nó bằng µ 0 , người
ta đưa ra giả thuyết H 0 : µ = µ 0 . Để kiểm định giả thuyết trên từ tổng thể lập mẫu kích
hs3

thước n: W = (X 1 , X 2 ,…, X n ). (Nếu X không có phân phối chuẩn thì yêu cầu kích
at

thước mẫu n > 30). Ta xét hai trường hợp sau:


nm

a. Đã biết σ2 :
(X − µ )
/v

n
Chọn tiêu chuẩn kiểm định: G = U = 0

σ
:/

H 0 : µ = µ 0
tp

 → Wα = (uα ;+∞ ).
ht

H 1 : µ > µ o
H 0 : µ = µ 0
 → Wα = (− ∞;−uα ).
H 1 : µ < µ o
H 0 : µ = µ 0
 → Wα = (− ∞;−uα 2 ) ∪ (uα 2 ;+∞ ).
H 1 : µ ≠ µ o

Lập mẫu cụ thể và tính giá trị quan sát: U qs =


(x − µ )0 n
và so sánh với W α để
σ
kết luận.
Ví dụ 2.7: Trong năm trước trọng lượng trung bình trước khi xuất chuồng ở một
trại chăn nuôi là 380kg. Năm nay người ta áp dụng thử một chế độ chăn nuôi mới với
hy vọng là bò sẽ tăng trọng nhanh hơn. Sau thời gian áp dụng thử người ta lấy ngẫu
http://vnmaths3.wordpress.com

nhiên 50 con bò trước khi xuất chuồng đem cân và tính được trọng lượng trung bình
của chúng là 390kg. Vậy với mức ý nghĩa α = 0,01 có thể cho rằng trọng lượng trung
bình của bò trước khi xuất chuồng đã tăng lên hay không? Giả thiết trọng lượng của bò
là biến ngẫu nhiên phân phối chuẩn với độ lệch chuẩn là 35,2kg.
Giải.
Gọi X là trọng lượng của bò trước khi xuất chuồng → X ~ N(µ,σ =35,2).
Trọng lượng xuất chuồng trung bình là µ.
Đây là bài toán kiểm định giá trị của tham số µ của biến ngẫu nhiên phân phối
chuẩn khi đã biết σ2.
 H 0 : µ = 380
Cặp giả thuyết thống kê có dạng: 
 H 1 : µ > 380
α = 0,01 ⇒ u α = 2,33 ⇒ W α = (2,33; +∞).
n = 50
x = 390

om
σ = 35,2

s.c
Giá trị quan sát: U qs =
(390 − 380) 50
= 2,01 ∉ Wα .

es
35,2

r
Kết luận: Chưa có cơ sở để bác bỏ H 0 . dp
b. Chưa biết σ2
or
Chọn tiêu chuẩn kiểm định: G = T =
(X − µ ) n
.w

S
hs3

H 0 : µ = µ 0
 → ( )
Wα = tα(n −1) ;+∞ .
H 1 : µ > µ o
at

H 0 : µ = µ 0
( )
nm

 → Wα = − ∞;−tα(n −1) .
H 1 : µ < µ o
/v

H 0 : µ = µ 0
→ ( ) (
Wα = − ∞;−tα(n −21) ∪ tα(n −21) ;+∞ . )
:/


H 1 : µ ≠ µ o
tp

(x − µ )
ht

n
Lập mẫu cụ thể và tính giá trị quan sát: Tqs = 0
và so sánh với W α để
s
kết luận.
2. Kiểm định giả thiết về hai tham số µ của hai biến ngẫu nhiên phân phối chuẩn
(kiểm định hai giá trị trung bình)
Giả sử có hai tổng thể với biến ngẫu nhiên gốc X 1 ~ N(µ 1 ,σ 1 2); biến ngẫu nhiên
gốc X 2 ~ N(µ 2 ,σ 2 2). Trong đó µ 1 và µ 2 chưa biết song có cơ sở để giả thiết rằng giá trị
của chúng bằng nhau người ta đưa ra giả thuyết H 0 : µ 1 = µ 2 và từ tổng thể rút ra hai
mẫu độc lập kích thước n 1 và n 2 . (Nếu X 1 và X 2 không có phân phối chuẩn thì yêu cầu
hai kích thước mẫu n 1 và n 2 lớn hơn 30).
a. Đã biết σ 1 2, σ 2 2
http://vnmaths3.wordpress.com

X1 − X 2
Chọn tiêu chuẩn kiểm định: G = U =
σ 12 σ 22
+
n1 n2
 H 0 : µ1 = µ 2
 → Wα = (uα ;+∞ ).
 H 1 : µ1 > µ 2
 H 0 : µ1 = µ 2
 → Wα = (− ∞;−uα ).
 H 1 : µ1 < µ 2
 H 0 : µ1 = µ 2
 → Wα = (− ∞;−uα 2 ) ∪ (uα 2 ;+∞ ).
 H 1 : µ1 ≠ µ 2
x 1 − x2
Lập mẫu cụ thể và tính giá trị quan sát: U qs = và so sánh với W α để
σ 12 σ 22
+
n1 n2

om
kết luận.
Ví dụ 2.9 Tại hai xí nghiệp người ta xây dựng hai phương án gia công cùng một

s.c
loại chi tiết. Để đánh giá xem chi phí trung bình về nguyên liệu theo hai phương án đó

es
có khác nhau hay không người ta tiến hành sản xuất thử và thu được các kết quả sau:

r
Phương án 1: 2,5 3,2 3,5 3,8 dp 3,5
Phương án 2: 2,0 2,7 2,5 2,9 2,3 2,6
or
Với mức ý nghĩa 0,05, hãy kết luận về vấn đề trên biết rằng chi phí nguyên liệu
.w

theo cả hai phương án gia công đều là các biến ngẫu nhiên phân phối chuẩn với σ 1 2
hs3

=σ 2 2 = 0,16.
at

Giải.
Gọi X 1 và X 2 tương ứng là chi phí nguyên liệu theo hai phương án gia công trên
nm

⇒ X 1 ~ N(µ 1 ,σ 1 2); X 2 ~ N(µ 2 ,σ 2 2).


/v

Chi phí nguyên liệu trung bình theo các phương án đó là µ 1 và µ 2 .


:/

Đây là bài toán kiểm định hai tham số µ 1 , µ 2 khi đã biết σ 1 2, σ 2 2.


tp

 H 0 : µ1 = µ 2
Cặp giả thuyết thống kê: 
ht

 H 1 : µ1 ≠ µ 2
α = 0,05 ⇒ uα 2 = u 0,025 = 1,96 ⇒ Wα = (− ∞;−1,96) ∪ (1,96;+∞ ).
Từ mẫu cụ thể: n 1 = 5; n 2 = 6 tính được:
2,5 + 3,2 + 3,5 + 3,8 + 3,5
x1 = = 3,3
5
2,0 + 2,7 + 2,5 + 2,9 + 2,3 + 2,6
x2 = = 2,5
6
3,3 − 2,5
Giá trị quan sát: U qs = = 3,33 ∈ Wα .
0,16 0,16
+
5 6
http://vnmaths3.wordpress.com

Kết luận: Bác bỏ H 0 , thừa nhận H 1 , tức là chi phí nguyên liệu theo hai phương án
gia công trên là khác nhau.
b. Chưa biết σ 1 2, σ 2 2
X1 − X 2
Chọn tiêu chuẩn kiểm định: G = T =
S12 S 22
+
n1 n2
 H 0 : µ1 = µ 2
 → Wα = (uα ;+∞ ).
 H 1 : µ1 > µ 2
 H 0 : µ1 = µ 2
 → Wα = (− ∞;−uα ).
 H 1 : µ1 < µ 2
 H 0 : µ1 = µ 2
 → Wα = (− ∞;−uα 2 ) ∪ (uα 2 ;+∞ ).
 H 1 : µ1 ≠ µ 2
x 1 − x2

om
Lập mẫu cụ thể và tính giá trị quan sát: Tqs = và so sánh với W α để kết
s12 s 22

s.c
+
n1 n2

es
luận.

r
Ví dụ 2.10 Người ta cân trẻ sơ sinh ở hai khu vực thành thị và nông thôn, thu
dp
được kết quả như sau:
or
Khu vực Số trẻ được Trọng lượng trung Phương sai
.w

cân bình
hs3

Nông 2500 3,0 200


at

thôn
nm

Thành thị 500 3,1 5


Với mức ý nghĩa 0,01 có thể coi trọng lượng trung bình của trẻ sơ sinh ở hai khu
/v

vực bằng nhau được hay không?


:/

Giải.
tp

Gọi trọng trẻ sơ sinh ở nông thôn và thành thị tương ứng là X 1 và X 2 .
ht

Trọng lượng trẻ sơ sinh trung bình chính là µ 1 và µ 2 .


Đây là bài toán kiểm định hai tham số µ 1 , µ 2 khi chưa biết σ 1 2, σ 2 2.
 H 0 : µ1 = µ 2
Cặp giả thuyết thống kê: 
 H 1 : µ1 ≠ µ 2
α = 0,01 ⇒ uα 2 = u 0,005 = 2,576 ⇒ Wα = (− ∞;−2,576 ) ∪ (2,576;+∞ ).
n 1 = 2500; n 2 = 500
x1 = 3,0; x 2 = 3,1
s12 = 200; s 22 = 5
3,0 − 3,1
Giá trị quan sát: U qs = = −0,33 ∉ Wα .
200 5
+
2500 500
http://vnmaths3.wordpress.com

Kết luận: Chưa có cơ sở bác bỏ H 0 , tức là có thể coi trọng lượng trẻ sơ sinh ở
nông thôn và thành thị là như nhau.
3. Kiểm định giả thuyết về tham số p (kiểm định một tỷ lệ)
Giả sử trong tổng thể có N phần tử, trong đó có M phần tử mang dấu hiệu nghiên
M
cứu. Đặt p = .
N
Nếu p chưa biết song có cơ sở giả thiết rằng giá trị của nó bằng p 0 , người ta đưa
ra giả thuyết thống kê: H 0 : p = p 0 . Từ tổng thể lập mẫu ngẫu nhiên kích thước n
(f − p0 ) n
Chọn tiêu chuẩn kiểm định: G = U =
p 0 (1 − p 0 )
H 0 : p = p0
 → Wα = (uα ;+∞ ).
H 1 : p > p0
H 0 : p = p0
 → Wα = (− ∞;−uα ).

om
H 1 : p < p0
H 0 : p = p0
Wα = (− ∞;−uα 2 ) ∪ (uα 2 ;+∞ ).

s.c
 →
H 1 : p ≠ p0

es
(f − p0 ) n

r
Lập mẫu cụ thể và tính giá trị quan sát: U qs = dp và so sánh với W α để
p 0 (1 − p 0 )
or
kết luận.
.w

Ví dụ 2.11: Tỷ lệ khách hàng tiêu dung một loại sản phẩm ở địa phương A là
60%. Sau một chiến dịch quảng cáo người ta muốn đánh giá xem chiến dịch q uảng
hs3

cáo này có thực sự mang lại hiệu quả hay không. Phỏng vấn ngẫu nhiên 400 khách
at

hàng thì thấy có 250 người tiêu dùng loại sản phẩm này. Với mức ý nghĩa 0,05 hãy kết
nm

luận về hiệu quả của chiến dịch quảng cáo đó.


/v

Giải
Gọi p là tỷ lệ khách hàng tiêu dùng loại sản phẩm đó ở địa phương A.
:/

 H 0 : p = 0,6
tp

Đây là bài toán kiểm định tham số p với cặp giả thuyết thống kê: 
ht

 H 1 : p > 0,6
α = 0,05 ⇒ uα = u 0,05 = 1,645 ⇒ Wα = (1,645;+∞ ).
n = 400
250
f= = 0,625
400

U qs =
(0,625 − 0,6) 400 = 1,02 ∉ Wα .
0,6(1 − 0,6 )
Kết luận: Chưa có cơ sở bác bỏ H 0 , tức là chưa thể nói rằng chiến dịch quảng cáo
có hiệu quả.
4. Kiểm định giả thuyết về hai tham số p (kiểm định hai tỷ lệ)
http://vnmaths3.wordpress.com

Giả sử có hai tổng thể nghiên cứu với các tham số p 1 và p 2 tương ứng. Nếu p 1 và
p 2 chưa biết song có cơ sở cho rằng giá trị của chúng bằng nhau, ta đưa ra giả thuyết
H 0 : p 1 = p 2 . Từ tổng thể rút ra hai mẫu kích thước n 1 , n 2 và chọn tiêu chuẩn kiểm định:
f1 − f 2 n1 f1 + n2 f 2
G =U = trong đó f =
1 1  n1 + n2
f (1 − f ) + 
 n1 n2 
 H 0 : p1 = p 2
 → Wα = (uα ;+∞ ).
 H 1 : p1 > p 2
 H 0 : p1 = p 2
 → Wα = (− ∞;−uα ).
 H 1 : p1 < p 2
 H 0 : p1 = p 2
 → Wα = (− ∞;−uα 2 ) ∪ (uα 2 ;+∞ ).
 H 1 : p1 ≠ p 2
f1 − f 2

om
Lập mẫu cụ thể và tính giá trị quan sát: U qs = và so sánh với
1 1 
f (1 − f ) + 

s.c
 n1 n2 

es
W α để kết luận.

r
Ví dụ 2.12 Kiểm tra ngẫu nhiên các sản phẩm cùng loại do hai nhà máy sản xuất
dp
thu được các số liệu sau:
or
Nhà máy Số sản phẩm được kiểm Số phế phẩm
.w

tra
hs3

A 1000 20
at

B 900 30
Với mức ý nghĩa 0,05 có thể coi tỷ lệ phế phẩm của hai nhà máy là như nhau hay
nm

không?
/v

Giải
:/

Gọi p 1 , p 2 tương ứng là tỷ lệ phế phẩm của hai nhà máy A và B.


tp

Đây là bài toán kiểm định giả thuyết hai tham số p.


ht

 H 0 : p1 = p 2
Cặp giả thuyết thống kê: 
 H 1 : p1 ≠ p 2
α = 0,05 ⇒ uα 2 = u 0,025 = 1,96 ⇒ Wα = (− ∞;−1,96)  (1,96;+∞ ).
n 1 = 1000; n 2 =900
20 30
f1 = = 0,02; f 2 = = 0,033
1000 900
20 + 30
f = = 0,0263
1000 + 900
0,02 − 0,033
Giá trị quan sát: U qs = = -1,81∉ Wα .
 1 1 
0,0263(1 − 0,0263) + 
 1000 900 
http://vnmaths3.wordpress.com

Kết luận: Chưa có cơ sở bác bỏ H 0 , tức là có thể coi tỷ lệ phế phẩm ở hai nhà
máy là như nhau.

om
s.c
r es
dp
or
.w
hs3
at
nm
/v
:/
tp
ht

You might also like