P. 1
Xu ly du lieu - spss

Xu ly du lieu - spss

|Views: 662|Likes:
Được xuất bản bởiPhuong Nguyen

More info:

Published by: Phuong Nguyen on Jun 17, 2011
Bản quyền:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

08/09/2013

pdf

text

original

Chương 5.

Nhập và xử lý dữ liệu
Môn học: Phương pháp nghiên cứu kinh tế Khoa Kinh tế Phát triển Đại học Kinh Tế TP. Hồ Chí Minh

5.1 Giới thiệu
Nhằm hướng dẫn sinh viên cách: † Cách nhập liệu, xử lý và phân tích dữ liệu. † Các kỹ thuật phân tích dữ liệu mang tính khám phá (exploratory data analysis). † Cách sử dụng bảng chéo (cross-tabulation) để trắc nghiệm mối quan hệ giữa các biến phân loại (categorical variables). † Cách sử dụng các thống kê phân tích trắc nghiệm giả thiết.
2

5.2 Quy trình phân tích dữ liệu
Hình 5.1 Các bước khám phá, trắc nghiệm và phân tích trong quá trình nghiên cứu
Lập đề cương NC Kế hoạch phân tích sơ khởi
Xác định lại giả thiết
Thể hiện trực quan dữ liệu

5.3 Nhập số liệu
5.3.1 Cách bố trí dữ liệu trên máy tính † Mục tiêu:
„ Nhằm tạo điều kiện thuận tiện cho việc nhập liệu „ Nhằm tạo sự thuận lợi cho việc chỉnh sửa dữ liệu

Thu thập và chuẩn bị dữ liệu

Phân tích và diễn giải dữ liệu
Phân tích mô tả các biến số Lập bảng chéo cho các biến số Trình bày dữ liệu (histogram, boxplots, Pareto, stem-andleaf, AID, etc.) Phân tích dữ liệu

Trắc nghiệm giả thiết

Báo cáo nghiên cứu

Ra quyết định

3

4

5.3 Nhập số liệu
† Thực hiện:
„ Nguyên tắc chung: đặt tên biến ngắn gọn, viết tắt (tiếng Việt không dấu hoặc tiếng Anh). Tên biến nên được đặt theo quy định. Dùng Excel: dễ thao tác và chỉnh sửa, không gian lưu trữ hạn chế, công cụ thống kê và kinh tế lượng không đủ cho phân tích. Dùng SPSS: không gian lưu trữ gần như không hạn chế, công cụ thống kê và kinh tế lượng phát triển đầy đủ cho nhu cầu phân tích. Khai báo dữ liệu bắt buộc, mất thời gian.
5

5.3 Nhập số liệu

„

Hình 5. 2 Cách nhập dữ liệu vào bảng tính SPSS

„

6

5.3 Nhập số liệu

Định nghĩa kiểu biến

Hình 5.3 Cách định nghĩa các thuộc tính của các biến số định tính và định lượng
7 8

Sử dụng Excel: hàm Max và Min.1 Phát hiện giá trị dị biệt trong dữ liệu a.Xác định nhãn (giải thích) của biến Xác định giá trị phân loại của biến 9 10 Xác định thang đo của biến 5.4 Làm sạch dữ liệu 5. công cụ Auto Filter.4. đồ thị Scatter 11 12 .

4 Làm sạch dữ liệu Hình 5. Pie Chart.4 Làm sạch dữ liệu 5. Sử dụng SPSS: đồ thị Scatter.4 Làm sạch dữ liệu b. công cụ Frequency.4 Làm sạch dữ liệu b. Explore 70 40 Number of used days in a month 15 Hình 5.1 Phát hiện giá trị dị biệt trong dữ liệu b. Sử dụng SPSS: công cụ Frequency.4.6 Công cụ Frequency và Explore trong SPSS 16 . Bar Chart. và Box Plot trong Explore 13 14 5. Sử dụng SPSS: đồ thị Scatter 80 Others Honda @ Honda Dream 60 SYM Attila 50 Yamaha Cygnus Honda Wave Yamaha Jupiter 30 Yamaha Sirius 20 10 0 10 20 30 40 Honda Future Neo Honda AirBlade 5.4 Công cụ đồ thị Scatter trong Excel 5.5.

0 13.0 13.0 30 Others Honda AirBlade 10. Sử dụng SPSS: công cụ Frequency Frequency Honda Air Blade Honda Future Neo 5.0 7.0 11.0 83. Sử dụng SPSS: công cụ Pie Chart và Bar Chart %Valid 10. 20 .4 Làm sạch dữ liệu b.0% Yamaha Cygnus 4.0% Honda Dream Yamaha Sirius 6.0 10.0 6.0 17 Motobike Names 18 5.0 Cumulative Percent 10.0 SYM Attila 11.0% 7. † Ghi chú: Biểu đồ histogram không dùng được cho các biến danh nghĩa.0% Honda @ 20 Honda Future Neo 7.0 7.0% 0 SYM Attila Honda Dream Honda @ Others Total 11 6 7 10 100 11.0 6.0 4.0 100.0% 10 10 8 Yamaha Sirius Yamaha Jupiter 7 13 7. Sử dụng SPSS: công cụ Histogram † Biểu đồ histogram là một giải pháp quy ước dùng để thể hiện các dữ liệu tỷ lệ hoặc khoảng cách. † Biểu đồ histogram được sử dụng để phân nhóm các giá trị dữ liệu của các biến số (variable) thành các khoảng cách.0 8.5.0 7.0 90.0% Honda Wave 24.0 4.0 10.0 38.0 Percent 10.0 18. 19 † Biểu đồ histogram rất hữu dụng cho việc: (1) thể hiện tất cả các khoảng cách trong một phân phối (distribution).4 Làm sạch dữ liệu b.0% Yamaha Jupiter 13.0 62.0 25.0% 8. và (2) trắc nghiệm dạng hình của phân phối như độ méo (skewness).0 66.4 Làm sạch dữ liệu b.0% 10. † Biểu đồ histogram được xây dựng dưới dạng các thanh thể hiện giá trị dữ liệu. Sử dụng SPSS: công cụ Histogram 5.0 s er th O @ am da e r on D Hda us on na l H ygti t CA aM Y ah S e am Y av r e W it p daJu on a H ah uso i ri e am SN Y e ha r autu amF Yda de la on H irB A da on H Honda Wave Yamaha Cygnus 24 4 24.4 Làm sạch dữ liệu b.0 8.0 77.0 100. độ nhọn (kurtosis).0 100.0 24.

00 4. Sử dụng SPSS: công cụ Histogram 30 5. 6.4 Làm sạch dữ liệu b.00 Age of motorbike user 21 22 5. dạng hình.00 10. 3.00 13. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays) Ví dụ 5. 7. và các giá trị quan sát lớn nhất và nhỏ nhất 6 23 24 10 1 case(s) . 4. Sử dụng SPSS: biểu đồ hộp (Box-Plots) 5. † Khi biểu đồ thân-và-lá được quay trái 900 . Dev = 14. độ phân tán.00 .00 9.4 Làm sạch dữ liệu b. và mỗi số liệu thể hiện trên một thân gọi là một lá. hay còn gọi là biểu đồ hộp-và-râu (boxand-whisker plot). 2. cho ta một hình ảnh trực quan khác về vị trí. 889999 000111122222233344 55677788 0012233334444 5556 123333334444 5555566777789 0123344444 566667779 03 5567 5.3 Biểu đồ Thân-và Lá của biến số Tuổi của người sử dụng xe máy † Biểu đồ hộp.42 Mean = 39 0 20 25 30 35 40 45 50 55 60 65 70 75 N = 100. 7. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays) Age of motorbike user Stem-and-Leaf Plot Frequency 6. 6. † Biểu đồ hộp thể hiện tóm tắt 5 giá trị thống kê của một phân phối là trung vị (median). 2.00 Stem width: Each leaf: Stem & Leaf 1.00 1.00 2.2 Phân phối biến số tuổi của người sử dụng xe máy 20 † Mỗi dòng của biểu đồ được gọi là một thân. 4.00 18.5. độ dài đuôi và các giá trị bất thường (outliers) của phân phối. nó sẽ có dạng hình tương tự như biểu đồ histogram. hai tứ phân vị trên và dưới (the upper and lower quartiles). 10 Std. 5.00 4.4 Làm sạch dữ liệu b.00 8.00 12. 5. 3.00 13.4 Làm sạch dữ liệu b.

5 lần khoảng cách giữa các tứ phân vị tính từ lề của hộp.4 Làm sạch dữ liệu b.5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (outliers) Giá trị lớn nhất quan sát được không phải là giá trị bất thường Tứ phân vị thứ 3 (75th PERCENTILE) † Các thành phần chủ yếu của biểu đồ hộp là: „ Hộp hình chữ nhật chứa đựng 50% các giá trị dữ liệu. Explore trong chức năng Descriptive Statistics của SPSS. „ Các “râu” kéo dài từ lề phía trên và phía dưới của hộp thể hiện giá trị lớn nhất và nhỏ nhất.5. Sử dụng SPSS: biểu đồ hộp (Box-Plots) Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (extremes) Các giá trị lớn hơn 1. Sử dụng SPSS: biểu đồ hộp (Box-Plots) 5.4 Biểu đồ hộp của biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng 20 0 N= 100 100 Age of motorbike use Number of used days 27 28 .5 Phân tích thống kê mô tả 5. „ Hai lề của hộp thể hiện hai giá trị tứ phân vị thứ 1 và thứ 3 (tương ứng với giá trị thứ 25% (25th percentile) và giá trị thứ 75% (75th percentile) của dãy số liệu. Sử dụng SPSS: biểu đồ hộp (Box-Plots) 100 5.4 Làm sạch dữ liệu b. „ Đường thẳng ở trung tâm hộp là giá trị trung vị.5. 40 5. 25 50% trường hợp có giá trị nằm trong hộp Trung vị (MEDIAN) Tứ phân vị thứ 1 (25th PERCENTILE) Giá trị lớn nhất quan sát được không phải là giá trị bất thường Các giá trị lớn hơn 1. Descriptives.1 Phân tích thống kê mô tả định lượng 80 60 † Sử dụng Excel: công cụ Descriptives Statistics trong chức năng Data Analysis. Các giá trị này nằm trong khoảng tối đa 1.4 Làm sạch dữ liệu b. † Sử dụng SPSS: công cụ Frequency.5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (outliers) Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (extremes) 26 5.

† Mode là giá trị của quan sát có tần suất xuất hiện nhiều nhất trong bộ dữ liệu.1 Phân tích thống kê mô tả định lượng 5. † Trung vị (median) là giá trị của số liệu có vị trí nằm giữa bộ số liệu sắp xếp theo trật tự.1 Phân tích thống kê mô tả định lượng 5.1 Phân tích thống kê mô tả định lượng Đo lường dạng hình của phân phối (Measures of Shape) † Độ méo (skewness) đo lường độ lệch của phân phối về một trong hai phía.5 Phân tích thống kê mô tả 5.1 Phân tích thống kê mô tả định lượng Đo lường xu hướng trung tâm (Measures of Central Tendency) † Giá trị trung bình (mean) là tổng tất cả giá trị của các dữ liệu chia cho số lượng của dữ liệu. khi lệch trái.5. σ2) là trung bình tổng các sai số bình phương giữa các giá trị của các quan sát và giá trị trung bình. † Phân phối méo phải (positive sknew. † Độ lệch chuẩn (Standard deviation. và phần lớn số liệu tập trung ở phía phải của phân phối.5 Phân tích thống kê mô tả 5. 29 30 Các chỉ tiêu thống kê mô tả : † xu hướng trung tâm. † Khi lệch phải. left-skewed) khi đuôi phía trái dài hơn. † Sai số chuẩn của giá trị trung bình (Standard error of the mean. 31 . Đây chính là điểm giữa của phân phối. † tính biến thiên và † dạng hình phân phối của dữ liệu. giá trị skewness âm. σ) đo lường mức độ phân tán của số liệu xung quanh giá trị trung bình.5 Phân tích thống kê mô tả 5.5.5 Phân tích thống kê mô tả 5.5.5. right-skewed) khi đuôi phía phải dài hơn. Khi số quan sát là chẵn.) đo lường phạm vi mà giá trị trung bình của quần thể (μ) có thể xuất hiện với một xác suất cho trước dựa trên giá trị trung bình của mẫu (mean). Độ méo càng lớn thì giá trị sknewness càng lớn hơn 0.e. † Phân phối méo trái (negative skew. giá trị sknewness dương. 32 Đo lường tính biến thiên (Measures of Variability) † Phương sai (Variance. 5. trung vị là giá trị trung bình của hai quan sát ở vị trí trung tâm. và phần lớn số liệu tập trung ở phía trái của phân phối. † Khoảng cách (range) là giá trị khác biệt giữa con số lớn nhất và nhỏ nhất trong bộ dữ liệu. SD.5. s.

11 Các dạng phân phối lệch trái và lệch phải so với phân phối bình thường 34 5. Phân phối có dạng nhọn khi giá trị kurtosis dương và có dạng bẹt khi giá trị kurtosis âm.5 Phân tích thống kê mô tả Phân tích thống kê mô tả với SPSS: công cụ Descriptive † † Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của phân phối so với phân phối bình thường (có độ nhọn bằng 0).1 Phân tích thống kê mô tả định lượng Đo lường dạng hình của phân phối (Measures of Shape) 5.1 Phân tích thống kê mô tả định lượng Hình 5. giá trị của độ méo và độ nhọn bằng 0. 35 Hình 5.5 Phân tích thống kê mô tả 5.5. phân phối là không bình thường). Căn cứ trên tỷ số giữa giá trị skewness và kurtosis và sai số chuẩn của nó.5 Phân tích thống kê mô tả 5.5. Với phân phối bình thường. ta có thể đánh giá phân phối có bình thường hay không (khi tỷ số này nhỏ hơn 2 và lớn hơn +2.13 Các chức năng thống kê mô tả của công cụ Descriptives 36 .5.10 Đường phân phối chuẩn và các đặc tính 33 Hình 5.1 Phân tích thống kê mô tả định lượng 5.5.5 Phân tích thống kê mô tả 5.

Deviation 39.79 1. Deviation Minimum Maximum 15.74 21.478 37 38 5.311 Maximum Range Interquartile Range Skewness Kurtosis 65 46 23.07 5% Trimmed Mean Median Variance 38.00 60.00 183.311 27 15.909 . Minimum Maximum 18 76 Mean Std. Deviation Minimum 13.87 7 Range Interquartile Range Skewness 58 28.292 .118 -1.089 .74 38.7 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng phân theo giới tính male Mean 95% Confidence Interval for Mean Lower Bound Upper Bound 39.948 . Error 1.71 18. Error 2.01 User gender female Mean 95% Confidence Interval for Mean Lower Bound Statistic 38.271 .97 19.460 Upper Bound 5% Trimmed Mean Median Variance 42.39 35.46 34.44 Variance Skewness 207.13 41.95 22.11 18 76 7.724 Kurtosis -.00 228.42 1.5.241 Kurtosis -.33 1.00 -.87 42.01 14.00 .6 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy Statistic Age of motorbike user N Range 100 58 Std.5 Phân tích thống kê mô tả Phân tích thống kê mô tả với SPSS: công cụ Explore Công cụ Explore rất thích hợp để thống kê mô tả chi tiết các biến số phân nhóm theo một biến phân loại khác (factor variable).5 Phân tích thống kê mô tả Phân tích thống kê mô tả với SPSS: công cụ Descriptive Bảng 5.369 39 .173 19.932 .205 22.45 43.613 40 .19 Std.513 -.90 21.7 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng phân theo giới tính Age of motorbike user Number of used days in a month 5.00 .838 .00 47.54 Std.00 -.76 17.212 Std.242 .11 Statistic 20. Error 5.54 19 6.613 -1.88 20.724 30 23 11.369 .78 5 32 Std.175 .

Sử dụng công cụ Basic Table trong SPSS 5. Phân bố nhóm tuổi của người sử dụng xe máy theo nhãn hiệu under 20 Count Row % 2 20. ta gọi chúng là bảng contingency (contingency tables).0% 4 50.5 Phân tích thống kê mô tả 5.0% 1 25.0% 1 9.1% 16.2% 9.3% 4 30. và loại trắc nghiệm dùng để đánh giá liệu các biến phân loại có độc lập với nhau hay không là χ2 (Chi bình phương / chi-square).0% older than 60 Count Row % Motobike Names Honda AirBlade Honda Future Neo Yamaha Sirius Yamaha Jupiter Honda Wave Yamaha Cy gnus SYM Attila Honda Dream Honda @ Others † 3 1 1 1 42.5 Phân tích thống kê mô tả 5.1% 1 43 44 .9% 4.0% 2 28. Khi bảng chéo được xây dựng để trắc nghiệm thống kê.0% 2 28.0% under 30 Count Row % 3 30. Bảng chéo là bước đầu tiên để xác định các quan hệ giữa các biến.3% 1 7.8% 8 33.0% 5 50.0% 2 25.7% 1 16.5.8% 1 25.5.7% 4 30.5.8% 5 20. Bảng chéo sử dụng các bảng có các cột và dòng thể hiện các mức độ hoặc các giá trị mã hóa của từng biến phân loại hoặc danh nghĩa.5.0% 1 10. Sử dụng công cụ Basic Table trong SPSS 5.2% 1 16.0% 4 36.5 Phân tích thống kê mô tả 5.2 Phân tích thống kê mô tả định tính a.3% 2 20.3% 1 25.8% 2 8.5.0% 1 14. Bảng.5 Phân tích thống kê mô tả 5.7% 10.0% 2 25.6% 4 30.3% 7 29.0% 1 3 4.2 Phân tích thống kê mô tả định tính a.4% 3 50. Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS † Bảng chéo là một kỹ thuật dùng để so sánh dữ liệu từ hai hoặc nhiều hơn các biến phân loại hoặc danh nghĩa (categorical or nominal variables).2% 27.0% under 60 Count Row % 1 10.0% Age groups under 40 under 50 Count Row % Count Row % 3 30.0% 1 14. ví dụ như là giới tính.2 Phân tích thống kê mô tả định tính b.1% 2 18.3% 4 57.2 Phân tích thống kê mô tả định tính a.7% 1 14. Sử dụng công cụ Basic Table trong SPSS 41 42 5.2% 1 25.6% 2 20.

0% 11.5 2.0% 6.1 3.5% 33.0% 10 10.0% 4.7 % within User gender 11.8% 53.0% 8.0% 59.5 4. Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS 5.7% 57.4 6.0% 2.0% 4 4.9 10.0% 13.0% 59 59.6 4.0% 4.0% 11.0% % of Total 7.0% 3.0% Yamaha Sirius 3 2.2 2.0% Total 41 41.0% 13 24 4 11 6 7 13.0% 100.5 Phân tích thống kê mô tả 5.0 7.0 8.5.1 9.0% Mot obike Names Honda AirBlade Honda Fut ure Neo Yamaha Sirius Yamaha Jupiter Honda Wav e Yamaha Cy gnus SYM Att ila Honda D ream Honda @ Others Tot al Honda Honda AirBlade Future Neo User gender f emale Count 3 4 Expected Count 4.5.0 100.8% 62.4% 3.9 4.2% 4.2 Phân tích thống kê mô tả định tính b.3% 46.5.0% 4.0 100.9% 3.0 4.0% 100 100.0% 4.9% 12.5 2.0% 15.0% 100.0% % of Total 3.8% % within Motobike Names 30.0% 24.0 100.0% 100.0% 7.0% 100.5 3.0 24.9% 6.0% 5.3% 42.8% 57.0% 4.5 Phân tích thống kê mô tả 5.2 Phân tích thống kê mô tả định tính b.1 11.0% 10.0 11.1 6.9% 25.2% 60.0% % within Motobike Names 100. Phân bố giới tính của người sử dụng xe máy theo nhãn hiệu User gender * Motobike Names Crosstabulation Motobike Names Yamaha Yamaha Jupiter Honda Wave Cy gnus SYM Attila Honda Dream Honda @ 6 9 2 5 2 3 5.0% 100.0% 7.0% 100.0% 7 7.0 6.0% 2.1% 7.0% 6 5.0% 7 15 2 6 4 4 7.0% 54.0% male Count 7 4 Expected Count 5.5% 50.0% 8.0% 47 48 .8 1.5 Phân tích thống kê mô tả Bảng.8% 6.5 Phân tích thống kê mô tả Bảng. Phân bố giới tính của người sử dụng xe máy theo nhãn hiệu Motobike Names * User gender Crosstabulation Count User gender f emale male 3 7 4 4 3 4 6 7 9 15 2 2 5 6 2 4 3 4 4 6 41 59 Tot al 10 8 7 13 24 4 11 6 7 10 100 5.0% 2.4% 10.0% 59.0 7.0% 100.6% 22.0% 50.1% 4.0% 100.0% 6.0% 6.0% 4.0 10.0% 41.0% 7.9% 7.0 % within User gender 10.5% 66.9 7.0% 50.0% Total Count 10 8 Expected Count 10.0% 24.0% 100.0% % of Total 10.0% 45.9% 6. Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS 45 46 5.8% 40.9 14.0% 4.0 13.5% 50.0% 9.0% 6.0% Others 4 4.0% 41.3 9.0% 100.0% 4.3% 42.2% 6.3% 9.2% 37.3 % within User gender 7.0% 100.8% % within Motobike Names 70.7 14.

nó sẽ bị bác bỏ hoặc chấp nhận dựa trên mẫu dữ liệu thu thập.d. tỷ lệ) 50 5. hồi quy) Tóm lược dữ liệu Kiểu câu hỏi/ giả thiết Khác biệt Thống kê khác biệt (v. Phát biểu giả thiết Có sự khác biệt về tuổi giữa nam và nữ? Có liên hệ gì giữa giới tính và nhãn hiệu xe? Không có sự khác biệt về tuổi giữa nam và nữ.5.6 Phân tích trắc nghiệm giả thiết 5. Một giả thiết được xây dựng. Có liên hệ giữa giới tính và nhãn hiệu xe. 5.6 Phân tích trắc nghiệm giả thiết Xây dựng giả thiết H0 và giả thiết thay thế Câu hỏi NC Giả thiết H0 Biểu diễn giả thiết H0 Giả thiết H1 Biểu diễn giả thiết H1 5. Chọn mức ý nghĩa mong muốn H0: рGM = 0 H0: рGM ≠ 0 4.d. H0: μuth = μuth Có khác biệt giữa các nhóm tuổi về mức độ sử dụng xe. H0: μnam = μnữ Có sự khác biệt về tuổi giữa nam và nữ. tương quan. và đánh giá tầm quan trọng của sự khác biệt có ý nghĩa thống kê. Có được giá trị trắc nghiệm 6. Chọn loại trắc nghiệm thống kê 3. H0: μnam ≠ μnữ 2.6 Phân tích trắc nghiệm giả thiết Mục tiêu và kiểu của các câu hỏi nghiên cứu Mục tiêu chung Quan hệ giữa các biến Thuần Mô tả Mục tiêu cụ thể So sánh nhóm Mức độ liên quan.1 Trắc nghiệm giả thiết † Mục tiêu của trắc nghiệm giả thiết là nhằm quyết định tính chính xác của giả thiết dựa trên các số liệu mẫu thu thập được. trung bình. ANOVA) Mô tả Kiểu thống kê Thống kê mô tả (v.6. † Cách tiếp cận cổ điển hay là lý thuyết lấy mẫu thể hiện cách nhìn mục tiêu theo xác suất dựa trên phân tích dữ liệu mẫu. Diễn giải kết quả trắc nghiệm 51 52 . t-test. các biến liên quan Liên quan Thống kê liên quan (v. Chúng ta đánh giá tính chính xác của các giả thiết bằng cách áp dụng các kỹ thuật thống kê. Tính giá trị khác biệt H1: μuth ≠ μuth Mức độ sử dụng xe có khác biệt giữa các nhóm tuổi không? Không có khác biệt giữa các nhóm tuổi về mức độ sử dụng xe.2 Quy trình trắc nghiệm giả thiết 1.6.d. 49 5.6 Phân tích trắc nghiệm giả thiết 5. Không có liên hệ gì giữa giới tính và nhãn hiệu xe.

giả thiết bị bác bỏ (p value < α. hoặc cao hơn giá trị được quan sát trong thực tế. bác bỏ giả thiết H0). với điều kiện cho trước là giả thiết H0 là đúng.6. Có được giá trị xác suất p 4. 56 . 53 54 5.6 Phân tích trắc nghiệm giả thiết Kiểm định ý nghĩa: các kiểu kiểm định † Giá trị p value được so sánh với mức ý nghĩa (significant level .6 Phân tích trắc nghiệm giả thiết 5. † Nếu giá trị p value nhỏ hơn mức ý nghĩa.α).6 Phân tích trắc nghiệm giả thiết Giá trị xác suất (p Values) 3.5. và dựa trên kết quả này để bác bỏ hay không bác bỏ giả thiết. 55 † Có hai loại: parametric (tham số) và nonparametric (phi tham số). ratio). Diễn giải kết quả trắc nghiệm † Hầu hết các phần mềm thống kê đều cho kết quả với giá trị xác suất (p values). So sánh giá trị xác suất p và mức ý nghĩa và ra quyết định 5.6 Phân tích trắc nghiệm giả thiết Giá trị xác suất (p Values) 5. † Parametric tests là công cụ mạnh vì xử lý các dữ liệu dạng scale (interval. † Giá trị xác suất p value là xác suất để đạt được một kết quả.2 Quy trình trắc nghiệm giả thiết 1. Chọn mức ý nghĩa mong muốn 5. Phát biểu giả thiết và giả thiết thay thế 2. † Nếu giá trị p value bằng hoặc lớn hơn mức ý nghĩa. ít nhất cao bằng. † Nonparametric tests là công cụ xử lý các dữ liệu dạng nominal và ordinal. không bác bỏ giả thiết (p value > α. không bác bỏ giả thiết H0).

One-way ANOVA . „ Không đòi hỏi các dân số phải có phương sai tương đương. 58 5.Fisher exact test .χ2 twosample test -Median test Mann-Whitney U .T-test for paired samples .Sign test . 57 † Nonparametric tests ít đòi hỏi các giả định: „ Không đòi hỏi các quan sát phải được rút ra từ các dân số phân phối bình thường chuẩn.Wilcoxon matched-pairs test -Friedman twoway ANOVA .χ2 one-sample test . „ Thang đo phải ở dạng scale để các tính toán có thể thực hiện được. 2 mẫu hay nhiều hơn 2 mẫu (k)? „ Nếu có 2 mẫu hay nhiều hơn 2 mẫu (k).T-test .6 Phân tích trắc nghiệm giả thiết Parametric tests † Parametric tests đòi hỏi một số giả định: „ Các quan sát phải độc lập với nhau.Z test † Để chọn một trắc nghiệm thống kê phù hợp. nên suy nghĩ đến 3 câu hỏi: „ Trắc nghiệm liên quan đến 1 mẫu.KolmogorovSmirnov Wald-Wolfowitz .6 Phân tích trắc nghiệm giả thiết Làm sao chọn một trắc nghiệm thống kê phù hợp? 5. „ Là cách duy nhất để xử lý dữ liệu nominal.Z test .KolmogorovSmirnov onesample test .Median extension .T-test .χ2 for ksamples Nominal .Cochran Q Independent Samples . chúng có độc lập với nhau hay không? „ Dữ liệu thuộc loại nào (nominal.McNemar Independent Samples .N-way ANOVA 60 Interval and Ratio .KruskalWallis one-way ANOVA . ordinal. „ Dễ hiểu và dễ sử dụng. scale)? 59 k-Samples Tests Related Samples .6 Phân tích trắc nghiệm giả thiết Parametric tests 5.Binomial .Runs test Ordinal .5.6 Phân tích trắc nghiệm giả thiết Các kỹ thuật phân tích thống kê nên dùng theo loại dữ liệu và trắc nghiệm Measurement scale One-sample Case Two-Samples Tests Related Samples .Repeatedmeasured ANOVA . „ Các dân số nên có phương sai tương đương. „ Các quan sát phải được rút ra từ các dân số phân phối bình thường chuẩn. „ Là cách đúng đắn để xử lý dữ liệu ordinal. mặc dù parametric có thể áp dụng được.

One-Sample T Test † One-sample tests được dùng khi ta có 1 mẫu và muốn kiểm định giả thiết là liệu mẫu này có đến từ 1 dân số cụ thể nào đó không? Ví dụ: „ Liệu có sự khác biệt giữa tần suất quan sát và 1 tần suất chuẩn nào đó dựa trên lý thuyết? „ Liệu có sự khác biệt giữa tỷ phần quan sát với 1 tỷ phần kỳ vọng nào đó không? † Ví dụ 1 (Parametric test) „ Có số liệu tốc độ tăng doanh số của 9 doanh nghiệp.3 Phân tích dữ liệu b.3 Phân tích dữ liệu 5.7 Một số áp dụng cụ thể 1.6 Phân tích trắc nghiệm giả thiết 5.6.7 Một số áp dụng cụ thể 1. Anova và Regression trong chức năng Data Analysis b. „ Tốc độ tăng trưởng chuẩn là 6.5%/năm. SPSS: các công cụ Compare Means và Nonparametric Tests a.5. Excel: công cụ Correlation.6. SPSS: các công cụ Compare Means và Nonparametric Tests 61 62 5. One-Sample T Test 5. 64 63 .5%/năm).6 Phân tích trắc nghiệm giả thiết 5. „ Giả thiết: tốc độ tăng trưởng doanh số bình quân của 9 doanh nghiệp không khác biệt với tốc độ chuẩn (6.

67 68 .7 Một số áp dụng cụ thể 1.7 Một số áp dụng cụ thể 1.7 Một số áp dụng cụ thể 1. One-Sample T Test. 2 tailed) > 0. One-Sample T Test Analyze Æ Compare Means Æ One-Sample T Test † Diễn giải kết quả phân tích Ví dụ 1 (Parametric test) „ P value (Sig. „ Khác biệt giữa tốc độ tăng trưởng doanh số bình quân của 9 doanh nghiệp và tốc độ chuẩn không có ý nghĩa thống kê ở mức ý nghĩa 0.7 Một số áp dụng cụ thể 1. One-Sample T Test Analyze Æ Compare Means Æ One-Sample T Test 5. One-Sample T Test Analyze Æ Compare Means Æ One-Sample T Test (TẠI SAO?) 65 66 5.5%/năm).05.5. Ví dụ 1 (parametric test) 5. „ Chấp nhận giả thiết (không bác bỏ): tốc độ tăng trưởng doanh số bình quân của 9 doanh nghiệp không khác biệt với tốc độ chuẩn (6.05.

v. 72 Với P value < 0.v.7 Một số áp dụng cụ thể 3.7 Một số áp dụng cụ thể Ta có 100 quan sát và 10 nhãn xe máy. nữ. Two-Sample T Test † Có hai kiểu T Test cho hai mẫu: „ Không bắt cặp (unpaired. One-Sample Chi-Square Test 5. . và số lượng kỳ vọng là 10 xe/nhãn hiệu. Cơ hội để mỗi nhãn xe được chọn là 10%.7 Một số áp dụng cụ thể 2. Analyze Æ Nonparametric Tests Æ Chi-Square 69 70 5. One-Sample Chi-Square Test † Ví dụ 2 (Nonparametric test) „ Số liệu điều tra sử dụng xe máy. ví dụ 1 nhóm người trước và sau khi bị một yếu tố tác động. nhóm nghề nghiệp.05.7 Một số áp dụng cụ thể 2. 5. Tuy nhiên. các nhóm người.5. ta bác bỏ giả thiết Ho và phát biểu là các nhãn hiệu xe máy được người sử dụng lựa 71 chọn khác biệt nhau. „ Giả thiết H0: tất cả các nhãn hiệu xe máy đều có cơ hội được người sử dụng xe lựa chọn như nhau. ví dụ nam.) „ Bắt cặp (paired T Test): cho hai mẫu có liên hệ với nhau. sự khác biệt giữa N quan sát và N kỳ vọng cho từng nhãn xe là lớn. independent T Test): cho hai mẫu độc lập với nhau.

Số liệu điều tra sử dụng xe máy „ Giả thiết: tuổi trung bình của người sử dụng xe máy nam và nữ là như nhau.7 Một số áp dụng cụ thể 3. Two-Sample T Test 5.7 Một số áp dụng cụ thể 3. Two-Sample T Test Chọn biến Age cho ô Test Variable(s) Grouping Variable: Group 1 = 1 (male).7 Một số áp dụng cụ thể 3. Group 2 = 0 (female) 75 76 . Two-Sample T Test † Ví dụ 3. Analyze Æ Compare Means Æ Independent-Samples T Test 73 74 5.5. Two-Sample T Test 5.7 Một số áp dụng cụ thể 3.

05 rất nhiều. Số liệu điều tra sử dụng xe máy „ Giả thiết: sự lựa chọn nhãn hiệu xe máy giữa người sử dụng nam và nữ là như nhau.749 Mean Std. Error Dif f erence Dif f erence -.000 Z -. .268 t -.7 Một số áp dụng cụ thể 4. Grouping Variable: User gender Two-Sample Kolmogorov-Smirnov Test a Test Statistics Most Extreme Dif f erences Kolmogorov-Smirnov Z Asy mp.81 † Ví dụ 4.93 -. Sig.045 -.7 Một số áp dụng cụ thể 3. (2-tailed) Absolute Positiv e Negativ e Motobike Names . Two-Sample Nonparametric Test 5.000 Wilcoxon W 2970.7 Một số áp dụng cụ thể 4.785 Sig.92 4. Two-Sample Nonparametric Test Mann-Whitney Test Test Statisticsa Mot obike Names Mann-Whit ney U 1200.946 a.315 -.018 . (2-tailed) .89 P values (Sig. Analyze Æ Nonparametric Test Æ Two-Independent Samples 79 80 . Grouping Variable: User gender Kết luận: chấp nhận giả thiết và phát biểu rằng sự lựa chọn nhãn hiệu xe máy giữa người sử dụng nam và nữ là như nhau. 77 78 5.66 4.77 -6.754 .045 .239 Sig. Two-Sample Nonparametric Test t-test f or Equality of Means 95% Conf idence Interv al of the Dif f erence Lower Upper -6. Ta chấp nhận giả thiết và diễn giải là không có sự khác biệt về tuổi trung bình giữa người sử dụng xe máy là Nam và Nữ. Two-Sample T Test Independent Samples Test Lev ene's Test for Equality of Variances 5. Analyze Æ Nonparametric Test Æ Two-Independent Samples F Age of motorbike user Equal variances assumed Equal variances not assumed 1.7 Một số áp dụng cụ thể 4. (2-t ailed) . Sig.5.224 1. (2-tailed)) cao hơn α = 0.321 df 98 91.95 2. 067 Asy mp.93 2.000 a.

7 Một số áp dụng cụ thể 5. † One-way ANOVA sử dụng các mô hình 1 yếu tố. One-Way ANOVA (Parametric Test) † Phương pháp thống kê để kiểm định giả thiết là các trung bình của các dân số bằng nhau là Phân tích phương sai . One-Way ANOVA (Parametric Test) 83 84 .7 Một số áp dụng cụ thể 5.analysis of variance (ANOVA).7 Một số áp dụng cụ thể 5. 81 † Ví dụ 5. Analyze Æ Compare Means Æ One-Way ANOVA… 82 5. One-Way ANOVA (Parametric Test) 5. các ảnh hưởng cố định để so sánh ảnh hưởng của một nghiệm thức (treatment) hoặc một yếu tố (factor) trên một biến phụ thuộc và liên tục. Số liệu điều tra sử dụng xe máy † Giả thiết: Không có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng.7 Một số áp dụng cụ thể 5.5. One-Way ANOVA (Parametric Test) 5.

175 .7 Một số áp dụng cụ thể 5. The harm onic mean of the group sizes is used.7 Một số áp dụng cụ thể 5. 12 26.944 3987. Ty pe I error lev els are not guarant eed.198 . 423 F 6. 62 22. Phát biểu rằng có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng 85 Age groups a. 62 24. Kết luận: bác bỏ giả thiết.215 Between Groups Within Groups Tot al P value < 0.5 17. 33 18. 12 26. Uses Harmonic Mean Sam ple Size = 12. N 19 25 6 26 17 7 19 25 6 26 17 7 Means f or groups in homogeneous subs ets are display ed. 86 5.05 1 2 3 14. The group sizes are unequal.769 14. 62 24. 47 17. 96 17.013. 96 18. One-Way ANOVA (Parametric Test) Nu mb er o f used d ays in a mo n th Subset f or alpha = . 96 17. 14 . One-Way ANOVA (Parametric Test) 5.b Duncan under 60 under 50 under 20 under 30 under 40 older t han 60 Sig.695 . 62 22.7 Một số áp dụng cụ thể 5. b.05.6 Grouping a ab ab abc Under 40 Older than 60 24. One-Way ANOVA (Parametric Test) Hình.1 abc abc 87 88 .789 42.1 26.000 5.5.750 df 5 94 99 Mean Square 285.7 Một số áp dụng cụ thể 5. 33 18. a. 12 24. One-Way ANOVA (Parametric Test) ANOVA Number of used day s in a month Sum of Squares 1428. a.9 18. 737 Sig. 33 22.b Tuk ey HSD under 60 under 50 under 20 under 30 under 40 older t han 60 Sig. 33 22. Phân bố số ngày sử dụng xe máy bình quân trong tháng theo độ tuổi của người sử dụng Age Group Under 60 Under 50 Under 20 Under 30 Value 14. 47 17. 14 . 96 18.3 22.101 . .806 5416.

b Mot obike Names 1. 62 55. 87 52.7 Một số áp dụng cụ thể 6. Nonparametric Test for k-Independent Samples Kruskal-Wallis Test Ranks Age groups under 20 under 30 under 40 under 50 under 60 older t han 60 Tot al N 6 26 17 25 19 7 100 Mean Rank 46.5. Nonparametric Test for k-Independent Samples † Ví dụ 6. Sig. 91 . 40 50.7 Một số áp dụng cụ thể 6. Krusk al Wallis Test b. Analyze Æ Nonparametric Tests Æ k Independent Samples 89 90 5. 493 5 . 66 45. Grouping Variable: Age groups P value > 0.05 Æ Kết luận: chấp nhận giả thiết. 07 Test Statisticsa. Số liệu điều tra sử dụng xe máy † Giả thiết: Không có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về nhãn hiệu xe.914 Mot obike Names Chi-Square df Asy mp. 25 49. a. Phát biểu rằng sự lựa chọn các nhãn hiệu xe máy giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau là như nhau.7 Một số áp dụng cụ thể 6. Nonparametric Test for k-Independent Samples 5.

You're Reading a Free Preview

Tải về
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->