You are on page 1of 13

Trường Đại học Bách Khoa TPHCM

---  ---

BÀI TẬP LỚN XÁC XUẤT THỐNG KÊ

Tên :Phạm Thanh Tùng


MSSV :50802688
Lớp :MT08KH05 – Tiết 1-3 ,thứ 2
Nhóm : 7

TPHCM Ngay 30 thang 05 năm 2011

1
Bài 1 : Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A, B, C, D, E
yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành
phố mà họ đang sống. Kết quả như sau :

Thành phố Mức độ thỏa mãn


Rất thỏa mãn Tương đối Không
A 220 121 63
B 130 207 75
C 84 54 24
D 156 95 43
E 122 164 73
Với mức ý nghĩa α =5%, kiểm định xem mức độ thỏa mãn cuộc sống có phân bố
giống nhau trong 5 thành phố trên hay không ?

 Dạng bài :

- So sánh các phân số

 Lời giải :

Dữ liệu trong Excel :

2
Tính các tống số :
• Tổng hàng :Chọn ô E3 và nhập biểu thức = SUM(B3:D3). Dùng con trỏ để
kéo nút tự điền từ ô E3 đến ô E7.
• Tổng cột: Chọn ô B8 và nhập biểu thức = SUM(B3:B7). Dùng con trỏ để
kéo nút tự điền từ ô B8 đến ô D8 .
• Tổng cộng :Chọn ô E8 và nhập biểu thức = SUM(E3:E7).

Tính các tần số lý thuyết :


Tần số lý thuyết = ( tổng hàng * tổng cột ) / tổng cộng
- Trạng thái rất thỏa mãn của TP A: Chọn ô B10 và nhập biểu thức = E3*B8/E8.

- Trạng thái tương đối của TP A: Chọn ô C10 và nhập biểu thức = E3*C8/E8.

- Trạng thái không của TP A: Chọn ô D10 và nhập biểu thức = E3*D8/E8.

- Trạng thái rất thỏa mãn của TP B: Chọn ô B11 và nhập biểu thức = E4*B8/E8.

- Trạng thái tương đối của TP B: Chọn ô C11 và nhập biểu thức = E4*C8/E8.

- Trạng thái không của TP B: Chọn ô D11 và nhập biểu thức = E4*D8/E8.

3
- Trạng thái rất thỏa mãn của TP C: Chọn ô B12 và nhập biểu thức = E5*B8/E8.

- Trạng thái tương đối của TP C: Chọn ô C12 và nhập biểu thức = E5*C8/E8.

- Trạng thái không của TP C: Chọn ô D12 và nhập biểu thức = E5*D8/E8.

- Trạng thái rất thỏa mãn của TP D: Chọn ô B13 và nhập biểu thức = E6*B8/E8.

- Trạng thái tương đối của TP D: Chọn ô C13 và nhập biểu thức = E6*C8/E8.

- Trạng thái không của TP D: Chọn ô D13 và nhập biểu thức = E6*D8/E8.

- Trạng thái rất thỏa mãn của TP E: Chọn ô B14 và nhập biểu thức = E7*B8/E8.

- Trạng thái tương đối của TP E: Chọn ô C14 và nhập biểu thức = E7*C8/E8.

- Trạng thái không của TP E: Chọn ô D14 và nhập biểu thức = E7*D8/E8.

Áp dụng hàm số “CHITEST” trong Excel :


Tính xác xuất P(X > x2) bằng cách chọn ô B15 và nhập biểu thức như sau:
=CHITEST(B3:D7,B10:D14)
Kết quả : P(X > x2) = 3.5299E-13 < α =0.05  bác bỏ giả thiết H0
Vậy mức độ thỏa mãn cuộc sống có phân bố Khác nhau trong 5 thành phố trên

Bài 2 :Ở một bệnh viện lớn, số ca cấp cứu trong 5 ngày chọn ngẫu nhiên được ghi
lại như sau:

Buổi sáng 44 53 56 49 38
Buổi chiều 33 42 15 30 45
Buổi tối 39 24 30 27 30
Với mức ý nghĩa 5%, có thể cho rằng số ca cấp cứu trung bình trong 3 buổi
sáng, chiều, tối là như nhau được không?

 Dạng bài :

- Phân tích phương sai một nhân tố

 Lời giải :

Nhập dữ liệu vào Excel :

4
A B C D E F
1 Ngày
2 Buổi 1 2 3 4 5
3 Buổi sáng 44 53 56 49 38
4 Buổi chiều 33 42 15 30 45
5 Buổi tối 39 24 30 27 30

Dùng phần mềm “Anova: Single Factor”:


a. Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis.(đối với office 2003,
còn đối với office 2007 thì Nhấp lần lượt đơn lệnh Data và lệnh Data
Analysis )

b. Chọn chương trình Anova: Single Factor trong hộp thoại Data Analysis rồi
nhấp nút OK .

c. Trong hộp thoại Anova: Single Factor lần lượt ấn định :

 Phạm vi đầu vào (Input Rangle) .

 Cách sắp xếp theo hàng hay cột (Group By) .

 Nhãn dữ liệu (Label in First / Column).

 Ngưỡng tin cậy (Alpha) .

 Chọn đầu ra (Output Option) .

 Hình ảnh cách làm như sau (trong office 2007) :

5
Kết quả trong Excel :

Anova: Single
Factor

SUMMARY
Groups Count Sum Average Variance
Buổi sáng 5 240 48 51.5
Buổi chiều 5 165 33 139.5
Buổi tối 5 150 30 31.5

ANOVA
Source of
Variation SS df MS F P-value F crit
6.26966292 0.01367450
Between Groups 930 2 465 1 8 3.885293835
74.1666666
Within Groups 890 12 7

Total 1820 14

6
Biện luận :
F = 6.269 > F0.05 = 3.885  bác bỏ giả thiết H0 .
Vậy số ca cấp cứu trung bình trong 3 buổi sáng, chiều, tối là khác nhau.

Bài 3 :Một nghiên cứu đước tiến hành ở Mỹ để xác định mối quan hệ giữa chiều cao
của một người và cỡ giày của họ. Nhà nghiên cứu đã thu được số liệu sau:
X 66 6 6 7 62
3 7 1
Y 9 7 8 1 6
0

X 66 63 67 71 62
Y 6 8 5 12 5
Trong đó X là chiều cao (đơn vị inches) còn Y là cỡ giày. Tính tỷ số tương
quan hệ số tương quan và hệ số xác định của Y đối với X. Với mức ý nghĩa α = 5%,
có kết luận gì về mối tương quan giữa X, Y( phi tuyến hay tuyến tính) ? Tìm đường
hồi quy của Y đối với X. Tính sai số tiêu chuẩn của đường hồi quy.

 Dạng bài :

- Xác định mối tương quan giữa X, Y.

- Tìm đường hồi quy và sai số tiêu chuẩn.

 Lời giải :

x 62 63 66 67 71
y
6 7 9 8 10
5 8 6 5 12
ni 2 2 2 2 2 n = 10
Ti 11 15 15 13 22 T=76

7
∑ x =2.62+2.63+2.66+2.67+2.71 = 658
∑ y= T =76

∑x 2 = 662+632+672+712+622+662+632+672+712+622 = 43398

∑y 2 =92 + 72 + 82 + 102 + 62 + 62 + 82 + 52 + 122 + 52 = 624

∑ xy = 5050
• Hệ số tương quan r (1) :

n(∑ xy ) − (∑ x)(∑ y )
r=
n∑ x 2 −(∑ x )2 n∑ y 2 − (∑ y )2

r=0.7166

• Hệ số xác định :
r2 =0.5135
T2
• Tổng bình phương chung SST = ∑ ∑y − n 2
ij

SST=46,4
k
Ti 2 T 2
• Tổng bình phương do nhân tố SSF = ∑
i =1 ni

n

SSF=34,4
• Tỉ số tương quan : nY$ / X = SSF/SST

8
=0.7414
• Với α = 5%, ta dùng test thống kê sau :

F=
(η − r ) ( n − k )
$ 2

( 1 −η ) ( k − 2 )
$

F=1.4687

Tra bảng phân phối Fisher với bậc tự do (3,5) ta được c=5.14.

• F<c nên không có tương quan phi tuyến giữa X và Y, chỉ có tương quan
tuyến tính.

• Hàm hồi quy sẽ có dạng : y = ax+b, các hệ số a, b được xác định:

N ∑ ( xy)− ∑( x) ∑( y) 1 0 * 5 0 5−0 6 5 8 * 7 6
a= = = 0.4843
N (∑ x2 )− ( ∑ x) 2 1 0 * 4 3 3 9−8 62 5 8

b= ∑ y −a∑ x =
76 *− 0.4843 * 658
= -24.2638
N 10
Vậy phương trình đường hồi quy : y = 0.4843*X - 24.2638

• Tính sai số tiêu chuần của đường hồi quy:

s2Y.X =
∑y− 2
a( )x ∑y b − y ∑
N−2
=> sY.X = 1.6798

sY.X chính là sai số tiêu chuẩn của đường hồi quy

9
Bài 4 :Hãy phân tích vai trò ngành nghề (chính, phụ) trong hoạt động kinh tế của
các hộ gia đình ở vùng nông thôn trên cơ sở bảng số liệu về thu nhập trung bình
của một hộ tương ứng với các ngành nghề nói trên như sau (mức ý nghĩa 5%) :

Nghề chính Nghề phụ


(1) (2) (3) (4)
Trồng lúa(1) 3.5 7.4 8.0 3.5
Trồng cây ăn quả(2) 5.6 4.1 6.1 9.6
Chăn nuôi(3) 4.1 2.5 1.8 2.1
Dịch vụ(4) 7.2 3.2 2.2 1.5

 Dạng bài :

- Phân tích phương sai hai nhân tố (không lặp)

 Lời giải :

Sử dụng phần mềm excel để giải:

Nhập bảng giá trị: như hình vẽ

10
a. Tạo bảng anova:

- Nhấp lần lượt đơn lệnh Data và lệnh Data Analysis (đối với Office 2007, còn
đối với Office 2003 thì Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis).

- Chọn chương trình Anova: Two-Factor Without Replication trong hộp thoại
Data Analysis rồi nhấp nút OK .

- Trong hộp thoại Anova: Two-Factor Without Replication lần lượt ấn định các
chi tiết:

 Phạm vi đầu vào (Input Rangle).

 Nhãn dữ liệu (Labels in First Row / Column).

 Ngưỡng tin cậy (Alpha).

 Chọn đầu ra (Output Option)điền thông tin mong muốn hoặc check
newWorksheet Ply.

 Nhấp OK.

11
b. Bảng inova sau khi hoàn thành

Kết quả và biện luận :

12
• F(rows) = 1,99661<F crit=3,862548 => chấp nhận giả thiết H0 (các nghề
chính tạo ra thu nhập trung bình như nhau.)
• F(columns) = 0,110573 < F crit => chấp nhận giả thiết H0 ( các nghề phụ tạo
ra thu nhập trung bình như nhau.)

Tài liệu tham khảo :

 Phân tích phương sai – Nguyễn Đình Huy

 Phụ lục sử dụng excel ở SGK .

13

You might also like