Chương 5.

Nhập và xử lý dữ liệu
Môn học: Phương pháp nghiên cứu kinh tế Khoa Kinh tế Phát triển Đại học Kinh Tế TP. Hồ Chí Minh

5.1 Giới thiệu
Nhằm hướng dẫn sinh viên cách: † Cách nhập liệu, xử lý và phân tích dữ liệu. † Các kỹ thuật phân tích dữ liệu mang tính khám phá (exploratory data analysis). † Cách sử dụng bảng chéo (cross-tabulation) để trắc nghiệm mối quan hệ giữa các biến phân loại (categorical variables). † Cách sử dụng các thống kê phân tích trắc nghiệm giả thiết.
2

5.2 Quy trình phân tích dữ liệu
Hình 5.1 Các bước khám phá, trắc nghiệm và phân tích trong quá trình nghiên cứu
Lập đề cương NC Kế hoạch phân tích sơ khởi
Xác định lại giả thiết
Thể hiện trực quan dữ liệu

5.3 Nhập số liệu
5.3.1 Cách bố trí dữ liệu trên máy tính † Mục tiêu:
„ Nhằm tạo điều kiện thuận tiện cho việc nhập liệu „ Nhằm tạo sự thuận lợi cho việc chỉnh sửa dữ liệu

Thu thập và chuẩn bị dữ liệu

Phân tích và diễn giải dữ liệu
Phân tích mô tả các biến số Lập bảng chéo cho các biến số Trình bày dữ liệu (histogram, boxplots, Pareto, stem-andleaf, AID, etc.) Phân tích dữ liệu

Trắc nghiệm giả thiết

Báo cáo nghiên cứu

Ra quyết định

3

4

5.3 Nhập số liệu
† Thực hiện:
„ Nguyên tắc chung: đặt tên biến ngắn gọn, viết tắt (tiếng Việt không dấu hoặc tiếng Anh). Tên biến nên được đặt theo quy định. Dùng Excel: dễ thao tác và chỉnh sửa, không gian lưu trữ hạn chế, công cụ thống kê và kinh tế lượng không đủ cho phân tích. Dùng SPSS: không gian lưu trữ gần như không hạn chế, công cụ thống kê và kinh tế lượng phát triển đầy đủ cho nhu cầu phân tích. Khai báo dữ liệu bắt buộc, mất thời gian.
5

5.3 Nhập số liệu

„

Hình 5. 2 Cách nhập dữ liệu vào bảng tính SPSS

„

6

5.3 Nhập số liệu

Định nghĩa kiểu biến

Hình 5.3 Cách định nghĩa các thuộc tính của các biến số định tính và định lượng
7 8

4 Làm sạch dữ liệu 5.Xác định nhãn (giải thích) của biến Xác định giá trị phân loại của biến 9 10 Xác định thang đo của biến 5.1 Phát hiện giá trị dị biệt trong dữ liệu a. đồ thị Scatter 11 12 . Sử dụng Excel: hàm Max và Min.4. công cụ Auto Filter.

4 Làm sạch dữ liệu 5. Explore 70 40 Number of used days in a month 15 Hình 5.4 Làm sạch dữ liệu b. Sử dụng SPSS: công cụ Frequency.4 Công cụ đồ thị Scatter trong Excel 5. Bar Chart.6 Công cụ Frequency và Explore trong SPSS 16 .5.4 Làm sạch dữ liệu Hình 5. Pie Chart. Sử dụng SPSS: đồ thị Scatter 80 Others Honda @ Honda Dream 60 SYM Attila 50 Yamaha Cygnus Honda Wave Yamaha Jupiter 30 Yamaha Sirius 20 10 0 10 20 30 40 Honda Future Neo Honda AirBlade 5.4 Làm sạch dữ liệu b.1 Phát hiện giá trị dị biệt trong dữ liệu b.4. Sử dụng SPSS: đồ thị Scatter. và Box Plot trong Explore 13 14 5. công cụ Frequency.

0 62. Sử dụng SPSS: công cụ Histogram 5. 19 † Biểu đồ histogram rất hữu dụng cho việc: (1) thể hiện tất cả các khoảng cách trong một phân phối (distribution).0 83.0% Yamaha Jupiter 13.4 Làm sạch dữ liệu b.0% Honda Wave 24. độ nhọn (kurtosis).0 6.0 SYM Attila 11.0 38. † Biểu đồ histogram được sử dụng để phân nhóm các giá trị dữ liệu của các biến số (variable) thành các khoảng cách.0 25.0% Honda Dream Yamaha Sirius 6.0 7.0% Yamaha Cygnus 4.0 13.0 7.0 Percent 10. † Biểu đồ histogram được xây dựng dưới dạng các thanh thể hiện giá trị dữ liệu.0 24.0 100. Sử dụng SPSS: công cụ Frequency Frequency Honda Air Blade Honda Future Neo 5.0 30 Others Honda AirBlade 10. Sử dụng SPSS: công cụ Histogram † Biểu đồ histogram là một giải pháp quy ước dùng để thể hiện các dữ liệu tỷ lệ hoặc khoảng cách.5.4 Làm sạch dữ liệu b.0 8.4 Làm sạch dữ liệu b.0 17 Motobike Names 18 5.0 Cumulative Percent 10. Sử dụng SPSS: công cụ Pie Chart và Bar Chart %Valid 10.0% 0 SYM Attila Honda Dream Honda @ Others Total 11 6 7 10 100 11. 20 .0% 8.0 4.0 11.0 6.0% 10.0 100.0 7.0 77.0% 10 10 8 Yamaha Sirius Yamaha Jupiter 7 13 7.0 10.0% Honda @ 20 Honda Future Neo 7.0 10.0 90.0 4.0 66.0 8.4 Làm sạch dữ liệu b.0 s er th O @ am da e r on D Hda us on na l H ygti t CA aM Y ah S e am Y av r e W it p daJu on a H ah uso i ri e am SN Y e ha r autu amF Yda de la on H irB A da on H Honda Wave Yamaha Cygnus 24 4 24. † Ghi chú: Biểu đồ histogram không dùng được cho các biến danh nghĩa.0 18.0 100.0 13. và (2) trắc nghiệm dạng hình của phân phối như độ méo (skewness).0% 7.

4 Làm sạch dữ liệu b. 4.00 . 6. Dev = 14.4 Làm sạch dữ liệu b. nó sẽ có dạng hình tương tự như biểu đồ histogram. † Biểu đồ hộp thể hiện tóm tắt 5 giá trị thống kê của một phân phối là trung vị (median). hay còn gọi là biểu đồ hộp-và-râu (boxand-whisker plot). và mỗi số liệu thể hiện trên một thân gọi là một lá.42 Mean = 39 0 20 25 30 35 40 45 50 55 60 65 70 75 N = 100. 7. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays) Age of motorbike user Stem-and-Leaf Plot Frequency 6.00 1.00 18. 5. độ dài đuôi và các giá trị bất thường (outliers) của phân phối.00 4. 4. 889999 000111122222233344 55677788 0012233334444 5556 123333334444 5555566777789 0123344444 566667779 03 5567 5.00 2. và các giá trị quan sát lớn nhất và nhỏ nhất 6 23 24 10 1 case(s) . hai tứ phân vị trên và dưới (the upper and lower quartiles). độ phân tán. 6. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays) Ví dụ 5. cho ta một hình ảnh trực quan khác về vị trí.00 8. 2.4 Làm sạch dữ liệu b.00 Age of motorbike user 21 22 5.00 9. 5.2 Phân phối biến số tuổi của người sử dụng xe máy 20 † Mỗi dòng của biểu đồ được gọi là một thân. 7. † Khi biểu đồ thân-và-lá được quay trái 900 .3 Biểu đồ Thân-và Lá của biến số Tuổi của người sử dụng xe máy † Biểu đồ hộp.00 13. 2. 3.00 13. Sử dụng SPSS: công cụ Histogram 30 5. 3.00 10.00 Stem width: Each leaf: Stem & Leaf 1. dạng hình.00 12.4 Làm sạch dữ liệu b.00 4.5. 10 Std. Sử dụng SPSS: biểu đồ hộp (Box-Plots) 5.

„ Các “râu” kéo dài từ lề phía trên và phía dưới của hộp thể hiện giá trị lớn nhất và nhỏ nhất.5 lần khoảng cách giữa các tứ phân vị tính từ lề của hộp.5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (outliers) Giá trị lớn nhất quan sát được không phải là giá trị bất thường Tứ phân vị thứ 3 (75th PERCENTILE) † Các thành phần chủ yếu của biểu đồ hộp là: „ Hộp hình chữ nhật chứa đựng 50% các giá trị dữ liệu.5 Phân tích thống kê mô tả 5. „ Hai lề của hộp thể hiện hai giá trị tứ phân vị thứ 1 và thứ 3 (tương ứng với giá trị thứ 25% (25th percentile) và giá trị thứ 75% (75th percentile) của dãy số liệu. Sử dụng SPSS: biểu đồ hộp (Box-Plots) Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (extremes) Các giá trị lớn hơn 1.4 Làm sạch dữ liệu b. 25 50% trường hợp có giá trị nằm trong hộp Trung vị (MEDIAN) Tứ phân vị thứ 1 (25th PERCENTILE) Giá trị lớn nhất quan sát được không phải là giá trị bất thường Các giá trị lớn hơn 1.1 Phân tích thống kê mô tả định lượng 80 60 † Sử dụng Excel: công cụ Descriptives Statistics trong chức năng Data Analysis. Sử dụng SPSS: biểu đồ hộp (Box-Plots) 100 5.5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (outliers) Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (extremes) 26 5. Explore trong chức năng Descriptive Statistics của SPSS. „ Đường thẳng ở trung tâm hộp là giá trị trung vị. † Sử dụng SPSS: công cụ Frequency. Sử dụng SPSS: biểu đồ hộp (Box-Plots) 5.4 Làm sạch dữ liệu b.5. 40 5.5.4 Biểu đồ hộp của biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng 20 0 N= 100 100 Age of motorbike use Number of used days 27 28 .4 Làm sạch dữ liệu b. Descriptives. Các giá trị này nằm trong khoảng tối đa 1.

e.) đo lường phạm vi mà giá trị trung bình của quần thể (μ) có thể xuất hiện với một xác suất cho trước dựa trên giá trị trung bình của mẫu (mean).1 Phân tích thống kê mô tả định lượng 5. 5.1 Phân tích thống kê mô tả định lượng Đo lường dạng hình của phân phối (Measures of Shape) † Độ méo (skewness) đo lường độ lệch của phân phối về một trong hai phía. † Khi lệch phải.5 Phân tích thống kê mô tả 5. † Trung vị (median) là giá trị của số liệu có vị trí nằm giữa bộ số liệu sắp xếp theo trật tự. và phần lớn số liệu tập trung ở phía phải của phân phối. σ) đo lường mức độ phân tán của số liệu xung quanh giá trị trung bình. † Sai số chuẩn của giá trị trung bình (Standard error of the mean.5. SD.5.5. giá trị skewness âm. left-skewed) khi đuôi phía trái dài hơn. khi lệch trái. giá trị sknewness dương.5. † Mode là giá trị của quan sát có tần suất xuất hiện nhiều nhất trong bộ dữ liệu. σ2) là trung bình tổng các sai số bình phương giữa các giá trị của các quan sát và giá trị trung bình. 29 30 Các chỉ tiêu thống kê mô tả : † xu hướng trung tâm. † Khoảng cách (range) là giá trị khác biệt giữa con số lớn nhất và nhỏ nhất trong bộ dữ liệu. † Độ lệch chuẩn (Standard deviation. Độ méo càng lớn thì giá trị sknewness càng lớn hơn 0. 31 . Đây chính là điểm giữa của phân phối. s.5. right-skewed) khi đuôi phía phải dài hơn.5 Phân tích thống kê mô tả 5.5 Phân tích thống kê mô tả 5.1 Phân tích thống kê mô tả định lượng Đo lường xu hướng trung tâm (Measures of Central Tendency) † Giá trị trung bình (mean) là tổng tất cả giá trị của các dữ liệu chia cho số lượng của dữ liệu. † Phân phối méo phải (positive sknew. † Phân phối méo trái (negative skew.5 Phân tích thống kê mô tả 5. trung vị là giá trị trung bình của hai quan sát ở vị trí trung tâm. và phần lớn số liệu tập trung ở phía trái của phân phối.1 Phân tích thống kê mô tả định lượng 5. Khi số quan sát là chẵn. 32 Đo lường tính biến thiên (Measures of Variability) † Phương sai (Variance. † tính biến thiên và † dạng hình phân phối của dữ liệu.

5 Phân tích thống kê mô tả Phân tích thống kê mô tả với SPSS: công cụ Descriptive † † Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của phân phối so với phân phối bình thường (có độ nhọn bằng 0).11 Các dạng phân phối lệch trái và lệch phải so với phân phối bình thường 34 5. ta có thể đánh giá phân phối có bình thường hay không (khi tỷ số này nhỏ hơn 2 và lớn hơn +2.5.1 Phân tích thống kê mô tả định lượng 5.5 Phân tích thống kê mô tả 5.5. 35 Hình 5.1 Phân tích thống kê mô tả định lượng Đo lường dạng hình của phân phối (Measures of Shape) 5.5 Phân tích thống kê mô tả 5. Căn cứ trên tỷ số giữa giá trị skewness và kurtosis và sai số chuẩn của nó.13 Các chức năng thống kê mô tả của công cụ Descriptives 36 .5 Phân tích thống kê mô tả 5. phân phối là không bình thường).5. Với phân phối bình thường.10 Đường phân phối chuẩn và các đặc tính 33 Hình 5.5. giá trị của độ méo và độ nhọn bằng 0. Phân phối có dạng nhọn khi giá trị kurtosis dương và có dạng bẹt khi giá trị kurtosis âm.1 Phân tích thống kê mô tả định lượng Hình 5.

613 -1.271 .00 .11 Statistic 20.33 1.44 Variance Skewness 207. Error 2.478 37 38 5.01 User gender female Mean 95% Confidence Interval for Mean Lower Bound Statistic 38.513 -. Error 1.13 41.5 Phân tích thống kê mô tả Phân tích thống kê mô tả với SPSS: công cụ Explore Công cụ Explore rất thích hợp để thống kê mô tả chi tiết các biến số phân nhóm theo một biến phân loại khác (factor variable).460 Upper Bound 5% Trimmed Mean Median Variance 42.118 -1.95 22.76 17.212 Std. Minimum Maximum 18 76 Mean Std.909 .089 .00 -.292 .78 5 32 Std.71 18.54 19 6.01 14.838 .74 21.79 1.311 Maximum Range Interquartile Range Skewness Kurtosis 65 46 23.39 35.00 60.00 228.54 Std.369 .948 . Deviation Minimum Maximum 15.00 47.932 .90 21.45 43.97 19. Deviation 39.6 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy Statistic Age of motorbike user N Range 100 58 Std.205 22.87 7 Range Interquartile Range Skewness 58 28.5 Phân tích thống kê mô tả Phân tích thống kê mô tả với SPSS: công cụ Descriptive Bảng 5.5. Deviation Minimum 13.00 .00 183.88 20.241 Kurtosis -.07 5% Trimmed Mean Median Variance 38.369 39 .724 Kurtosis -.175 .74 38.613 40 .46 34.42 1.19 Std.7 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng phân theo giới tính Age of motorbike user Number of used days in a month 5.724 30 23 11.7 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng phân theo giới tính male Mean 95% Confidence Interval for Mean Lower Bound Upper Bound 39.311 27 15.11 18 76 7. Error 5.173 19.242 .87 42.00 -.

1% 1 43 44 .4% 3 50. Sử dụng công cụ Basic Table trong SPSS 5.3% 1 7. Bảng chéo là bước đầu tiên để xác định các quan hệ giữa các biến.2 Phân tích thống kê mô tả định tính a.0% 1 25.6% 4 30.1% 16.0% older than 60 Count Row % Motobike Names Honda AirBlade Honda Future Neo Yamaha Sirius Yamaha Jupiter Honda Wave Yamaha Cy gnus SYM Attila Honda Dream Honda @ Others † 3 1 1 1 42.6% 2 20.8% 1 25.5.3% 2 20.0% 1 14.5. và loại trắc nghiệm dùng để đánh giá liệu các biến phân loại có độc lập với nhau hay không là χ2 (Chi bình phương / chi-square).0% 4 36.5.7% 10. Sử dụng công cụ Basic Table trong SPSS 5. Khi bảng chéo được xây dựng để trắc nghiệm thống kê. Bảng.0% under 60 Count Row % 1 10.2 Phân tích thống kê mô tả định tính b.3% 7 29. Bảng chéo sử dụng các bảng có các cột và dòng thể hiện các mức độ hoặc các giá trị mã hóa của từng biến phân loại hoặc danh nghĩa.2% 27.0% under 30 Count Row % 3 30.2% 1 25.2 Phân tích thống kê mô tả định tính a.0% 2 25.0% Age groups under 40 under 50 Count Row % Count Row % 3 30.5.0% 4 50.8% 8 33.0% 1 3 4.7% 1 16. Phân bố nhóm tuổi của người sử dụng xe máy theo nhãn hiệu under 20 Count Row % 2 20.2% 1 16.0% 1 9.9% 4. ta gọi chúng là bảng contingency (contingency tables).7% 4 30.0% 5 50.0% 2 25.0% 1 14.5 Phân tích thống kê mô tả 5.0% 2 28.0% 2 28.5 Phân tích thống kê mô tả 5.5 Phân tích thống kê mô tả 5.3% 4 57.7% 1 14.2 Phân tích thống kê mô tả định tính a. Sử dụng công cụ Basic Table trong SPSS 41 42 5.5. Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS † Bảng chéo là một kỹ thuật dùng để so sánh dữ liệu từ hai hoặc nhiều hơn các biến phân loại hoặc danh nghĩa (categorical or nominal variables). ví dụ như là giới tính.0% 1 10.5 Phân tích thống kê mô tả 5.8% 2 8.8% 5 20.3% 1 25.2% 9.1% 2 18.3% 4 30.

9 7.0% 41.0% 100.0% 100.0 6.3% 46.2 2.5.0% male Count 7 4 Expected Count 5.3 9.8% 57.8% 53.0% 5.0 4.8% % within Motobike Names 30.0% 7.0% Total 41 41.8% % within Motobike Names 70.5.0 7.0 7.8% 62.0% 7.7 14.0% 7 15 2 6 4 4 7.5 Phân tích thống kê mô tả 5.6 4.0% % of Total 7.0% 4.5 Phân tích thống kê mô tả 5.5 Phân tích thống kê mô tả Bảng.5% 66.0% % within Motobike Names 100.0 100.2% 37.0% 10.0% 4.0% 100.0% 6.2% 4.0 8.0% Others 4 4.0% 6.1 9.0 24.0% 13.0% 2.1% 7. Phân bố giới tính của người sử dụng xe máy theo nhãn hiệu User gender * Motobike Names Crosstabulation Motobike Names Yamaha Yamaha Jupiter Honda Wave Cy gnus SYM Attila Honda Dream Honda @ 6 9 2 5 2 3 5.0% 6.5% 50.0% 4.0% 3.0% 4. Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS 5.0% 100.0% 4.6% 22.0% 50.9% 6.0% % of Total 10.7% 57.5.0% 100.0 % within User gender 10.0% 59.3% 42.0 10.9 14.0% 41.9% 12.0% 100.9% 7.0% 50.5 3.0% Yamaha Sirius 3 2. Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS 45 46 5.0% 100. Phân bố giới tính của người sử dụng xe máy theo nhãn hiệu Motobike Names * User gender Crosstabulation Count User gender f emale male 3 7 4 4 3 4 6 7 9 15 2 2 5 6 2 4 3 4 4 6 41 59 Tot al 10 8 7 13 24 4 11 6 7 10 100 5.0% 8.0% 9.2% 60.1 3.4 6.0% 59 59.7 % within User gender 11.0% 100 100.0% 11.0% 8.0% 4.0% 4.0% 2.4% 3.4% 10.0% % of Total 3.0 100.2 Phân tích thống kê mô tả định tính b.5% 33.0% 15.0% 7.9% 6.0% 100.2% 6.1% 4.5 2.0% 24.0% 47 48 .0% 4.8% 6.0% Mot obike Names Honda AirBlade Honda Fut ure Neo Yamaha Sirius Yamaha Jupiter Honda Wav e Yamaha Cy gnus SYM Att ila Honda D ream Honda @ Others Tot al Honda Honda AirBlade Future Neo User gender f emale Count 3 4 Expected Count 4.3% 9.9 4.0% 100.3 % within User gender 7.1 11.0% 6.0% 2.0% 100.0% 13 24 4 11 6 7 13.0% 4 4.5 4.0% 11.0% 10 10.2 Phân tích thống kê mô tả định tính b.0 13.0 100.0% 7 7.0% 59.0% 54.9% 3.8 1.8% 40.3% 42.5 2.0% Total Count 10 8 Expected Count 10.0% 100.0% 6 5.5 Phân tích thống kê mô tả Bảng.9% 25.0% 24.1 6.0% 45.9 10.0 11.5% 50.

tương quan. Có liên hệ giữa giới tính và nhãn hiệu xe. H0: μuth = μuth Có khác biệt giữa các nhóm tuổi về mức độ sử dụng xe. Phát biểu giả thiết Có sự khác biệt về tuổi giữa nam và nữ? Có liên hệ gì giữa giới tính và nhãn hiệu xe? Không có sự khác biệt về tuổi giữa nam và nữ.6. ANOVA) Mô tả Kiểu thống kê Thống kê mô tả (v. H0: μnam ≠ μnữ 2. 5. Không có liên hệ gì giữa giới tính và nhãn hiệu xe.6 Phân tích trắc nghiệm giả thiết 5. Diễn giải kết quả trắc nghiệm 51 52 . H0: μnam = μnữ Có sự khác biệt về tuổi giữa nam và nữ. trung bình. Có được giá trị trắc nghiệm 6. Chúng ta đánh giá tính chính xác của các giả thiết bằng cách áp dụng các kỹ thuật thống kê.6 Phân tích trắc nghiệm giả thiết Mục tiêu và kiểu của các câu hỏi nghiên cứu Mục tiêu chung Quan hệ giữa các biến Thuần Mô tả Mục tiêu cụ thể So sánh nhóm Mức độ liên quan. t-test.2 Quy trình trắc nghiệm giả thiết 1. Một giả thiết được xây dựng.6. các biến liên quan Liên quan Thống kê liên quan (v. Chọn loại trắc nghiệm thống kê 3. tỷ lệ) 50 5. 49 5. và đánh giá tầm quan trọng của sự khác biệt có ý nghĩa thống kê.1 Trắc nghiệm giả thiết † Mục tiêu của trắc nghiệm giả thiết là nhằm quyết định tính chính xác của giả thiết dựa trên các số liệu mẫu thu thập được.6 Phân tích trắc nghiệm giả thiết 5. nó sẽ bị bác bỏ hoặc chấp nhận dựa trên mẫu dữ liệu thu thập. Chọn mức ý nghĩa mong muốn H0: рGM = 0 H0: рGM ≠ 0 4.d. † Cách tiếp cận cổ điển hay là lý thuyết lấy mẫu thể hiện cách nhìn mục tiêu theo xác suất dựa trên phân tích dữ liệu mẫu.6 Phân tích trắc nghiệm giả thiết Xây dựng giả thiết H0 và giả thiết thay thế Câu hỏi NC Giả thiết H0 Biểu diễn giả thiết H0 Giả thiết H1 Biểu diễn giả thiết H1 5. Tính giá trị khác biệt H1: μuth ≠ μuth Mức độ sử dụng xe có khác biệt giữa các nhóm tuổi không? Không có khác biệt giữa các nhóm tuổi về mức độ sử dụng xe.5.d.d. hồi quy) Tóm lược dữ liệu Kiểu câu hỏi/ giả thiết Khác biệt Thống kê khác biệt (v.

và dựa trên kết quả này để bác bỏ hay không bác bỏ giả thiết. 56 . Chọn mức ý nghĩa mong muốn 5.6 Phân tích trắc nghiệm giả thiết Giá trị xác suất (p Values) 3. Phát biểu giả thiết và giả thiết thay thế 2.2 Quy trình trắc nghiệm giả thiết 1. † Nếu giá trị p value bằng hoặc lớn hơn mức ý nghĩa.6. Có được giá trị xác suất p 4. † Nếu giá trị p value nhỏ hơn mức ý nghĩa. với điều kiện cho trước là giả thiết H0 là đúng. So sánh giá trị xác suất p và mức ý nghĩa và ra quyết định 5. † Nonparametric tests là công cụ xử lý các dữ liệu dạng nominal và ordinal. 53 54 5. bác bỏ giả thiết H0). hoặc cao hơn giá trị được quan sát trong thực tế.6 Phân tích trắc nghiệm giả thiết Kiểm định ý nghĩa: các kiểu kiểm định † Giá trị p value được so sánh với mức ý nghĩa (significant level .5.6 Phân tích trắc nghiệm giả thiết 5. † Parametric tests là công cụ mạnh vì xử lý các dữ liệu dạng scale (interval. 55 † Có hai loại: parametric (tham số) và nonparametric (phi tham số). ít nhất cao bằng. không bác bỏ giả thiết H0). † Giá trị xác suất p value là xác suất để đạt được một kết quả. ratio). giả thiết bị bác bỏ (p value < α.6 Phân tích trắc nghiệm giả thiết Giá trị xác suất (p Values) 5. Diễn giải kết quả trắc nghiệm † Hầu hết các phần mềm thống kê đều cho kết quả với giá trị xác suất (p values). không bác bỏ giả thiết (p value > α.α).

2 mẫu hay nhiều hơn 2 mẫu (k)? „ Nếu có 2 mẫu hay nhiều hơn 2 mẫu (k). chúng có độc lập với nhau hay không? „ Dữ liệu thuộc loại nào (nominal. „ Không đòi hỏi các dân số phải có phương sai tương đương.Z test . „ Các quan sát phải được rút ra từ các dân số phân phối bình thường chuẩn.KolmogorovSmirnov Wald-Wolfowitz .T-test for paired samples .N-way ANOVA 60 Interval and Ratio . „ Các dân số nên có phương sai tương đương.Median extension .6 Phân tích trắc nghiệm giả thiết Parametric tests 5.T-test .Repeatedmeasured ANOVA . scale)? 59 k-Samples Tests Related Samples .χ2 one-sample test .6 Phân tích trắc nghiệm giả thiết Các kỹ thuật phân tích thống kê nên dùng theo loại dữ liệu và trắc nghiệm Measurement scale One-sample Case Two-Samples Tests Related Samples . „ Dễ hiểu và dễ sử dụng.McNemar Independent Samples .Binomial .Z test † Để chọn một trắc nghiệm thống kê phù hợp. mặc dù parametric có thể áp dụng được.Cochran Q Independent Samples . „ Là cách duy nhất để xử lý dữ liệu nominal.5. ordinal.One-way ANOVA .6 Phân tích trắc nghiệm giả thiết Parametric tests † Parametric tests đòi hỏi một số giả định: „ Các quan sát phải độc lập với nhau.Wilcoxon matched-pairs test -Friedman twoway ANOVA .6 Phân tích trắc nghiệm giả thiết Làm sao chọn một trắc nghiệm thống kê phù hợp? 5. „ Là cách đúng đắn để xử lý dữ liệu ordinal.Runs test Ordinal .KolmogorovSmirnov onesample test . „ Thang đo phải ở dạng scale để các tính toán có thể thực hiện được. 57 † Nonparametric tests ít đòi hỏi các giả định: „ Không đòi hỏi các quan sát phải được rút ra từ các dân số phân phối bình thường chuẩn.Sign test .T-test .χ2 for ksamples Nominal . 58 5.χ2 twosample test -Median test Mann-Whitney U . nên suy nghĩ đến 3 câu hỏi: „ Trắc nghiệm liên quan đến 1 mẫu.KruskalWallis one-way ANOVA .Fisher exact test .

3 Phân tích dữ liệu b. 64 63 . One-Sample T Test † One-sample tests được dùng khi ta có 1 mẫu và muốn kiểm định giả thiết là liệu mẫu này có đến từ 1 dân số cụ thể nào đó không? Ví dụ: „ Liệu có sự khác biệt giữa tần suất quan sát và 1 tần suất chuẩn nào đó dựa trên lý thuyết? „ Liệu có sự khác biệt giữa tỷ phần quan sát với 1 tỷ phần kỳ vọng nào đó không? † Ví dụ 1 (Parametric test) „ Có số liệu tốc độ tăng doanh số của 9 doanh nghiệp.5%/năm).7 Một số áp dụng cụ thể 1. One-Sample T Test 5.6 Phân tích trắc nghiệm giả thiết 5.3 Phân tích dữ liệu 5. SPSS: các công cụ Compare Means và Nonparametric Tests a. Anova và Regression trong chức năng Data Analysis b. SPSS: các công cụ Compare Means và Nonparametric Tests 61 62 5.6.6 Phân tích trắc nghiệm giả thiết 5.7 Một số áp dụng cụ thể 1.6. Excel: công cụ Correlation.5.5%/năm. „ Giả thiết: tốc độ tăng trưởng doanh số bình quân của 9 doanh nghiệp không khác biệt với tốc độ chuẩn (6. „ Tốc độ tăng trưởng chuẩn là 6.

7 Một số áp dụng cụ thể 1. 2 tailed) > 0.5. „ Chấp nhận giả thiết (không bác bỏ): tốc độ tăng trưởng doanh số bình quân của 9 doanh nghiệp không khác biệt với tốc độ chuẩn (6. 67 68 . „ Khác biệt giữa tốc độ tăng trưởng doanh số bình quân của 9 doanh nghiệp và tốc độ chuẩn không có ý nghĩa thống kê ở mức ý nghĩa 0.05. One-Sample T Test.7 Một số áp dụng cụ thể 1.7 Một số áp dụng cụ thể 1. One-Sample T Test Analyze Æ Compare Means Æ One-Sample T Test 5.05. One-Sample T Test Analyze Æ Compare Means Æ One-Sample T Test (TẠI SAO?) 65 66 5.5%/năm).7 Một số áp dụng cụ thể 1. Ví dụ 1 (parametric test) 5. One-Sample T Test Analyze Æ Compare Means Æ One-Sample T Test † Diễn giải kết quả phân tích Ví dụ 1 (Parametric test) „ P value (Sig.

5.05. independent T Test): cho hai mẫu độc lập với nhau. các nhóm người. Cơ hội để mỗi nhãn xe được chọn là 10%. nữ.) „ Bắt cặp (paired T Test): cho hai mẫu có liên hệ với nhau. Analyze Æ Nonparametric Tests Æ Chi-Square 69 70 5. ví dụ nam. „ Giả thiết H0: tất cả các nhãn hiệu xe máy đều có cơ hội được người sử dụng xe lựa chọn như nhau.v. ta bác bỏ giả thiết Ho và phát biểu là các nhãn hiệu xe máy được người sử dụng lựa 71 chọn khác biệt nhau.7 Một số áp dụng cụ thể 3. One-Sample Chi-Square Test 5. nhóm nghề nghiệp. ví dụ 1 nhóm người trước và sau khi bị một yếu tố tác động. Two-Sample T Test † Có hai kiểu T Test cho hai mẫu: „ Không bắt cặp (unpaired. v. và số lượng kỳ vọng là 10 xe/nhãn hiệu. One-Sample Chi-Square Test † Ví dụ 2 (Nonparametric test) „ Số liệu điều tra sử dụng xe máy. 72 Với P value < 0.7 Một số áp dụng cụ thể 2.7 Một số áp dụng cụ thể Ta có 100 quan sát và 10 nhãn xe máy. . sự khác biệt giữa N quan sát và N kỳ vọng cho từng nhãn xe là lớn.7 Một số áp dụng cụ thể 2. Tuy nhiên. 5.

Analyze Æ Compare Means Æ Independent-Samples T Test 73 74 5. Two-Sample T Test † Ví dụ 3. Two-Sample T Test 5.5. Two-Sample T Test 5. Số liệu điều tra sử dụng xe máy „ Giả thiết: tuổi trung bình của người sử dụng xe máy nam và nữ là như nhau. Group 2 = 0 (female) 75 76 .7 Một số áp dụng cụ thể 3.7 Một số áp dụng cụ thể 3. Two-Sample T Test Chọn biến Age cho ô Test Variable(s) Grouping Variable: Group 1 = 1 (male).7 Một số áp dụng cụ thể 3.7 Một số áp dụng cụ thể 3.

Analyze Æ Nonparametric Test Æ Two-Independent Samples 79 80 .77 -6.95 2.5. Grouping Variable: User gender Two-Sample Kolmogorov-Smirnov Test a Test Statistics Most Extreme Dif f erences Kolmogorov-Smirnov Z Asy mp.000 a.045 . Two-Sample Nonparametric Test 5. Grouping Variable: User gender Kết luận: chấp nhận giả thiết và phát biểu rằng sự lựa chọn nhãn hiệu xe máy giữa người sử dụng nam và nữ là như nhau.045 -. Sig. 77 78 5.018 .754 .946 a.785 Sig. 067 Asy mp. Analyze Æ Nonparametric Test Æ Two-Independent Samples F Age of motorbike user Equal variances assumed Equal variances not assumed 1.93 2.89 P values (Sig.321 df 98 91. Two-Sample Nonparametric Test Mann-Whitney Test Test Statisticsa Mot obike Names Mann-Whit ney U 1200.7 Một số áp dụng cụ thể 4. Số liệu điều tra sử dụng xe máy „ Giả thiết: sự lựa chọn nhãn hiệu xe máy giữa người sử dụng nam và nữ là như nhau.224 1.268 t -. (2-t ailed) .05 rất nhiều.000 Z -.239 Sig. . (2-tailed)) cao hơn α = 0. Two-Sample Nonparametric Test t-test f or Equality of Means 95% Conf idence Interv al of the Dif f erence Lower Upper -6.81 † Ví dụ 4. Error Dif f erence Dif f erence -. Ta chấp nhận giả thiết và diễn giải là không có sự khác biệt về tuổi trung bình giữa người sử dụng xe máy là Nam và Nữ. Sig. (2-tailed) Absolute Positiv e Negativ e Motobike Names .7 Một số áp dụng cụ thể 4.93 -. Two-Sample T Test Independent Samples Test Lev ene's Test for Equality of Variances 5.7 Một số áp dụng cụ thể 4.749 Mean Std.92 4.7 Một số áp dụng cụ thể 3.66 4. (2-tailed) .315 -.000 Wilcoxon W 2970.

5. One-Way ANOVA (Parametric Test) 5. One-Way ANOVA (Parametric Test) 5.7 Một số áp dụng cụ thể 5. One-Way ANOVA (Parametric Test) † Phương pháp thống kê để kiểm định giả thiết là các trung bình của các dân số bằng nhau là Phân tích phương sai . † One-way ANOVA sử dụng các mô hình 1 yếu tố. One-Way ANOVA (Parametric Test) 83 84 . các ảnh hưởng cố định để so sánh ảnh hưởng của một nghiệm thức (treatment) hoặc một yếu tố (factor) trên một biến phụ thuộc và liên tục. 81 † Ví dụ 5. Số liệu điều tra sử dụng xe máy † Giả thiết: Không có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng.7 Một số áp dụng cụ thể 5. Analyze Æ Compare Means Æ One-Way ANOVA… 82 5.7 Một số áp dụng cụ thể 5.7 Một số áp dụng cụ thể 5.analysis of variance (ANOVA).

33 22. 12 26. 33 18.215 Between Groups Within Groups Tot al P value < 0. The group sizes are unequal. 47 17. 96 17.198 .b Tuk ey HSD under 60 under 50 under 20 under 30 under 40 older t han 60 Sig.05. 33 22.7 Một số áp dụng cụ thể 5. N 19 25 6 26 17 7 19 25 6 26 17 7 Means f or groups in homogeneous subs ets are display ed. 96 17. Kết luận: bác bỏ giả thiết.b Duncan under 60 under 50 under 20 under 30 under 40 older t han 60 Sig.806 5416.05 1 2 3 14. .000 5.1 26. One-Way ANOVA (Parametric Test) ANOVA Number of used day s in a month Sum of Squares 1428.013. 96 18. 62 24. One-Way ANOVA (Parametric Test) 5.5. 47 17. a. Phân bố số ngày sử dụng xe máy bình quân trong tháng theo độ tuổi của người sử dụng Age Group Under 60 Under 50 Under 20 Under 30 Value 14. b.789 42. One-Way ANOVA (Parametric Test) Hình. 14 .3 22. 12 26. 12 24. The harm onic mean of the group sizes is used.944 3987.5 17.175 . a. One-Way ANOVA (Parametric Test) Nu mb er o f used d ays in a mo n th Subset f or alpha = . 62 22.9 18.750 df 5 94 99 Mean Square 285.695 . Phát biểu rằng có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng 85 Age groups a.6 Grouping a ab ab abc Under 40 Older than 60 24. 96 18. 62 22. 737 Sig. Ty pe I error lev els are not guarant eed. 62 24. 33 18.769 14. Uses Harmonic Mean Sam ple Size = 12.1 abc abc 87 88 . 14 .7 Một số áp dụng cụ thể 5.7 Một số áp dụng cụ thể 5.7 Một số áp dụng cụ thể 5. 423 F 6.101 . 86 5.

25 49. Nonparametric Test for k-Independent Samples † Ví dụ 6. 91 . 40 50. 66 45.5. a. 07 Test Statisticsa. Sig. 87 52. Krusk al Wallis Test b. Nonparametric Test for k-Independent Samples 5.914 Mot obike Names Chi-Square df Asy mp. 493 5 . Grouping Variable: Age groups P value > 0. Analyze Æ Nonparametric Tests Æ k Independent Samples 89 90 5.7 Một số áp dụng cụ thể 6.7 Một số áp dụng cụ thể 6.05 Æ Kết luận: chấp nhận giả thiết. Số liệu điều tra sử dụng xe máy † Giả thiết: Không có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về nhãn hiệu xe.b Mot obike Names 1. Nonparametric Test for k-Independent Samples Kruskal-Wallis Test Ranks Age groups under 20 under 30 under 40 under 50 under 60 older t han 60 Tot al N 6 26 17 25 19 7 100 Mean Rank 46. Phát biểu rằng sự lựa chọn các nhãn hiệu xe máy giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau là như nhau. 62 55.7 Một số áp dụng cụ thể 6.

Sign up to vote on this title
UsefulNot useful