You are on page 1of 40

Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

Khai thác dữ liệu khảo sát mức sống hộ gia đình Việt Nam (VHLSS)
để làm đề tài nghiên cứu với phần mềm STATA

Thời lượng: 2 tiết học

Mục tiêu:
• Giới thiệu về khảo sát mức sống hộ gia đình Việt Nam
• Giới thiệu các thao tác cơ bản trong Stata 10 để khai thác dữ liệu VHLSS

Nội dung:

1. Giới thiệu về khảo sát mức sống hộ gia đình


2. Những thao tác cơ bản nhất trên Stata
3. Tạo bảng tần số một chiểu
4. Tạo bảng tần số hai chiều
5. Tính các thống kê cơ bản
6. Kết hợp lệnh tab và sum
7. Nối hai file dữ liệu bằng lệnh merge
8. Bài tập thực hành nối file
9. Cấu trúc lệnh trong Stata - vấn đề trọng số khi phân tích VHLSS
10. Các toán tử và hàm số
Bài tập lớn (bài tập về nhà)
Phụ lục
Các vấn đề khác (sẽ giới thiệu thêm trong lớp học)

Nguyễn Khánh Duy Ghi chú bài giảng 1


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

1. Giíi thiÖu vÒ kh¶o s¸t møc sèng hé gia ®×nh

§Ó cung cÊp th«ng tin vÒ møc sèng d©n c− phôc vô viÖc x©y dùng, ®¸nh gi¸ chÝnh s¸ch … §Õn nay,
tæng côc thèng kª ®· tiÕn hμnh 5 cuéc ®iÒu tra møc sèng lín víi 2 tªn gäi kh¸c nhau: 1993-1994,
1997-1998 (kh¶o s¸t møc sèng d©n c−); 2002, 2004, 2006 (kh¶o s¸t møc sèng hé gia ®×nh)

GÇn ®©y nhÊt lμ cuéc kh¶o s¸t/®iÒu tra møc sèng (th−êng ®−îc viÕt t¾t lμ KSMS) hé gia ®×nh n¨m
2006. D÷ liÖu ®iÒu tra tõ cuéc ®iÒu tra nμy ®−îc l−u tr÷ trong bé d÷ liÖu kh¶o s¸t møc sèng hé gia
®×nh n¨m 2006 (th−êng gäi lμ VHLSS 2006). Chóng ta cã thÓ khai th¸c bé d÷ liÖu nμy ®Ó lμm ®Ò tμi
nghiªn cøu/ bμi viÕt chÝnh s¸ch.

§Ó t×m hiÓu chi tiÕt vÒ cuéc ®iÒu tra nμy, vÒ c¸ch chän mÉu, tæ chøc ®iÒu tra, phiÕu ®iÒu tra, c¸c
kh¸i niÖm …, chóng ta cÇn ®äc thªm tμi liÖu “Sæ tay kh¶o s¸t møc hé gia ®×nh 2006” do Tæng côc
thèng kª biªn so¹n (tμi liÖu nμy ®· göi ®Õn häc viªn).

Chóng ta t×m hiÓu s¬ l−îc mét sè th«ng tin chung vÒ KSMS 2006

1.1 Môc ®Ých cña KSMS 2006

Kh¶o s¸t møc sèng hé gia ®×nh 2006 (KSMS 2006) nh»m thu thËp c¸c th«ng tin lμm c¨n cø ®¸nh
gi¸ møc sèng, ®¸nh gi¸ t×nh tr¹ng nghÌo ®ãi vμ ph©n ho¸ giμu nghÌo ®Ó phôc vô c«ng t¸c ho¹ch
®Þnh c¸c chÝnh s¸ch, kÕ ho¹ch vμ c¸c ch−¬ng tr×nh môc tiªu quèc gia cña §¶ng vμ Nhμ n−íc nh»m
kh«ng ngõng n©ng cao møc sèng d©n c− trong c¶ n−íc, c¸c vïng vμ c¸c ®Þa ph−¬ng.

Ngoμi ra, KSMS 2006 cßn thu thËp c¸c th«ng tin phôc vô nghiªn cøu, ph©n tÝch mét sè chuyªn ®Ò
vÒ y tÕ, gi¸o dôc, viÖc lμm, cung cÊp sè liÖu ®Ó tÝnh quyÒn sè chØ sè gi¸ tiªu dïng vμ phôc vô tÝnh
to¸n tμi kho¶n quèc gia.

1.2 Néi dung cña KSMS 2006

KSMS 2006 gåm nh÷ng néi dung chñ yÕu ph¶n ¸nh møc sèng cña c¸c hé gia ®×nh trªn c¶ n−íc vμ
nh÷ng ®iÒu kiÖn kinh tÕ x· héi c¬ b¶n cña x· thuéc khu vùc n«ng th«n cã t¸c ®éng ®Õn møc sèng cña
ng−êi d©n n¬i hä sinh sèng. C¸c néi dung cô thÓ bao gåm:
a. §èi víi hé gia ®×nh
- Mét sè ®Æc ®iÓm vÒ nh©n khÈu häc cña c¸c thμnh viªn trong hé, gåm: Tuæi, giíi tÝnh, d©n téc, t×nh
tr¹ng h«n nh©n.
- Tr×nh ®é häc vÊn, tr×nh ®é chuyªn m«n kü thuËt cña tõng thμnh viªn hé gia ®×nh.
- Thu nhËp cña hé gia ®×nh, gåm: Møc thu nhËp; thu nhËp ph©n theo nguån thu (tiÒn c«ng, tiÒn
l−¬ng; ho¹t ®éng s¶n xuÊt tù lμm n«ng nghiÖp, l©m nghiÖp, thuû s¶n; ho¹t ®éng ngμnh nghÒ s¶n
xuÊt kinh doanh dÞch vô tù lμm cña hé gia ®×nh; thu kh¸c); thu nhËp ph©n theo khu vùc kinh tÕ vμ
ngμnh kinh tÕ.
- Chi tiªu hé gia ®×nh: møc chi tiªu, chi tiªu ph©n theo môc ®Ých chi vμ kho¶n chi (chi cho ¨n, mÆc,
ë, ®i l¹i, gi¸o dôc, y tÕ, v¨n ho¸, v.v… vμ chi kh¸c).
- T×nh tr¹ng èm ®au, bÖnh tËt vμ sö dông c¸c dÞch vô y tÕ.
- T×nh tr¹ng viÖc lμm, thêi gian lμm viÖc.
- Tμi s¶n, nhμ ë vμ c¸c tiÖn nghi nh− ®å dïng, ®iÖn, n−íc, ®iÒu kiÖn vÖ sinh.
- Tham gia ch−¬ng tr×nh xo¸ ®ãi gi¶m nghÌo, t×nh h×nh tÝn dông.

Nguyễn Khánh Duy Ghi chú bài giảng 2


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

b. §èi víi x·
- Mét sè t×nh h×nh chung vÒ nh©n khÈu, d©n téc.
- KÕt cÊu h¹ tÇng, gåm: HiÖn tr¹ng ®iÖn, ®−êng, tr−êng häc, tr¹m y tÕ, chî, b−u ®iÖn, nguån n−íc.
- T×nh tr¹ng kinh tÕ, gåm: T×nh h×nh s¶n xuÊt n«ng nghiÖp (®Êt ®ai, xu h−íng vμ nguyªn nh©n t¨ng
gi¶m s¶n luîng c¸c c©y trång chÝnh, c¸c ®iÒu kiÖn hç trî ph¸t triÓn s¶n xuÊt nh− t−íi tiªu, khuyÕn
n«ng); c¬ héi viÖc lμm phi n«ng nghiÖp.
- Mét sè th«ng tin c¬ b¶n vÒ trËt tù an toμn x· héi.

1.3. MÉu kh¶o s¸t

§èi t−îng kh¶o s¸t gåm c¸c hé gia ®×nh, c¸c thμnh viªn hé gia ®×nh vμ c¸c x· cã c¸c hé gia ®×nh ®−îc
kh¶o s¸t. §¬n vÞ kh¶o s¸t gåm hé gia ®×nh vμ x· ®−îc chän kh¶o s¸t.

Ph¹m vi kh¶o s¸t bao gåm tÊt c¶ c¸c ®Þa bμn, c¸c x· ®−îc chän thuéc 64 tØnh, thμnh phè trùc thuéc
trung −¬ng (sau ®©y gäi t¾t lμ tØnh/thμnh phè).

Thêi ®iÓm kh¶o s¸t gåm hai kú vμo th¸ng 5 vμ th¸ng 9 n¨m 2006. Thêi gian thu thËp th«ng tin t¹i
®Þa bμn mçi kú kÐo dμi 1 th¸ng.

MÉu cña KSMS 2006 ®−îc chän ®¹i diÖn cho c¶ n−íc (trong ®ã: thμnh thÞ/n«ng th«n), 8 vïng (trong
®ã: thμnh thÞ/n«ng th«n) vμ tØnh, thμnh phè. MÉu nμy chän tõ mÉu chñ thiÕt kÕ cho c¸c cuéc KSMS
giai ®o¹n 2000-2010 gåm 3.063 x·/ph−êng, mçi x·/ph−êng chän 3 ®Þa bμn cña Tæng ®iÒu tra D©n
sè vμ Nhμ ë n¨m 1999.
Cì mÉu cña KSMS 2006 gåm 45.945 hé ®−îc chän tõ 3.063 ®Þa bμn cña mÉu chñ, chia lμm 2 mÉu
®éc lËp: mÉu thu nhËp gåm 36.756 hé ®Ó thu thËp c¸c néi dung th«ng tin ®· nªu trªn, trõ chi tiªu
cña hé gia ®×nh, ®Ó ®¸nh gi¸ møc sèng ë cÊp quèc gia, vïng vμ tØnh/thμnh phè; mÉu thu nhËp chi
tiªu gåm 9.189 hé ®Ó thu thËp ®Çy ®ñ c¸c néi dung th«ng tin ®¸nh gi¸, ph©n tÝch møc sèng mét c¸ch
s©u h¬n ë cÊp quèc gia vμ vïng.

MÉu thu nhËp vμ mÉu thu nhËp chi tiªu ®−îc ph©n bæ cho 2 thêi ®iÓm kh¶o s¸t nh− sau:
Thêi gian MÉu kh¶o s¸t MÉu kh¶o s¸t thu
Céng
thu thËp sè liÖu thu nhËp vμ chi tiªu nhËp
Tæng sè 9.189 36.756
45.945
Chia ra:
Th¸ng 5/2006 4.593 18.372 22.965
Th¸ng 9/2006 4.596 18.384 22.980

1.4. Ph−¬ng ph¸p thu thËp sè liÖu


Cuéc kh¶o s¸t nμy sö dông hai lo¹i phiÕu pháng vÊn: PhiÕu pháng vÊn hé gia ®×nh vμ PhiÕu pháng
vÊn x·. PhiÕu pháng vÊn hé gia ®×nh sÏ gåm hai lo¹i: PhiÕu pháng vÊn thu nhËp chi tiªu (¸p dông
cho mÉu thu nhËp chi tiªu) bao gåm tÊt c¶ c¸c th«ng tin cña néi dung kh¶o s¸t vμ PhiÕu pháng vÊn
thu nhËp (¸p dông cho mÉu thu nhËp) gåm c¸c th«ng tin cña néi dung kh¶o s¸t trõ c¸c th«ng tin vÒ
chi tiªu cña hé. PhiÕu pháng vÊn ®−îc thiÕt kÕ t−¬ng ®èi chi tiÕt gióp ®iÒu tra viªn ghi chÐp thuËn
lîi, ®ång thêi tr¸nh bá sãt c¸c kho¶n môc vμ t¨ng tÝnh thèng nhÊt gi÷a c¸c ®iÒu tra viªn, tõ ®ã n©ng
cao chÊt l−îng sè liÖu kh¶o s¸t.

Nguyễn Khánh Duy Ghi chú bài giảng 3


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

KSMS 2006 ¸p dông ph−¬ng ph¸p pháng vÊn trùc tiÕp. §iÒu tra viªn ®Õn hé, gÆp chñ hé vμ nh÷ng
thμnh viªn trong hé cã liªn quan ®Ó pháng vÊn vμ ghi th«ng tin vμo phiÕu pháng vÊn hé gia ®×nh.
§éi tr−ëng ®éi kh¶o s¸t sÏ gÆp l·nh ®¹o x· vμ c¸c c¸n bé ®Þa ph−¬ng cã liªn quan ®Ó pháng vÊn vμ
ghi th«ng tin vμo phiÕu pháng vÊn x·. §Ó b¶o ®¶m chÊt l−îng th«ng tin thu thËp, cuéc kh¶o s¸t møc
sèng hé gia ®×nh kh«ng chÊp nhËn ph−¬ng ph¸p kh¶o s¸t gi¸n tiÕp hoÆc sao chÐp c¸c th«ng tin tõ
c¸c nguån cã s½n kh¸c vμo phiÕu pháng vÊn.

1.5 D÷ liÖu

Cã 2 lo¹i d÷ liÖu chÝnh: d÷ liÖu kh¶o s¸t x·, vμ d÷ liÖu kh¶o s¸t hé. Chóng ta sÏ t×m hiÓu vÒ d÷ liÖu
kh¶o s¸t hé, v× nã ®−îc sö dông kh¸ phæ biÕn. D÷ liÖu kh¶o s¸t x·, tr−êng häc, tr¹m y tÕ còng ®−îc
khai th¸c t−¬ng tù.

Trong d÷ liÖu kh¶o s¸t hé, nh÷ng ng−êi lμm nghiªn cøu th−êng hay sö dông mÉu thu nhËp vμ chi
tiªu (9189 hé) ®Ó thùc hiÖn ph©n tÝch v× cã ®Çy ®ñ d÷ liÖu vÒ tÊt c¶ c¸c biÕn.

D÷ liÖu VHLSS2006 do tæng côc thèng kª cung cÊp th−êng ®−îc l−u trong ®Üa CD. Sau khi chÐp
sang æ ®Üa C cña m¸y tÝnh, cã d¹ng nh− H×nh 1.
H×nh 1

B¶ng c©u hái x·, tr−êng häc, tr¹m y tÕ

Trong th− môc nμy, Cã c¸c file Excel ®Ó


biÕt néi dung b¶ng c©u hái cÊp hé (vμ c¸c
thμnh viªn trong hé)

Nguyễn Khánh Duy Ghi chú bài giảng 4


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

H×nh 2

Trong th− môc nμy, Cã c¸c file cña


stata (tªn file víi phÇn më réng lμ
.dta) l−u tr÷ th«ng tin ®iÒu tra hé
gia ®×nh trong KSMS 2006

B¹n cã thÊy quy luËt ®Æt tªn file d÷ liÖu?

- B¶ng c©u hái ®−îc chia thμnh nhiÒu môc: Môc 1, Môc 2, Môc 3... Trong Mçi môc cßn chia nhá
h¬n thμnh tiÓu môc a, b, c

- C¸c file d÷ liÖu còng ®−îc ®Æt tªn t−¬ng øng víi c¸c môc hái. VÝ dô. File muc 1a.dta sÏ l−u tr÷
c¸c th«ng tin liªn quan ®Õn c¸c c©u hái ë Môc 1a trong b¶ng c©u hái.

- Ngoμi ra, cßn cã file hhexp06.dta (l−u tr÷ mét sè biÕn do tæng côc thèng kª tÝnh to¸n thªm tõ d÷
liÖu ®iÒu tra nh− chi tiªu cho g¹o, chi tiªu l−¬ng thùc thùc phÈm…, Vïng, träng sè), file
ttchung.dta l−u tr÷ c¸c biÕn thu nhËp, chi tiªu tæng hîp, file weight06_new.dta l−u tr÷ c¸c biÕn
träng sè.

Nguyễn Khánh Duy Ghi chú bài giảng 5


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

H×nh 3. Më file Excel tªn lμ Muc1.xls ®Ó xem môc nμy cña B¶ng c©u hái

- B¹n h·y chän Ph«ng ch÷ tcvn3-abc, vÝ dô nh− Vntime, ®Ó thÊy râ néi dung tiÕng ViÖt.

B¹n h·y thö tr¶ lêi mét sè c©u hái sau

- Môc 1 a cã bao nhiªu c©u hái?

- NÕu b¹n lμ ®iÒu tra viªn, b¹n sÏ ®iÒn th«ng tin vμo phiÕu nh− thÕ nμo ®èi víi hé mμ b¹n kh¶o s¸t?

- NÕu b¹n lμ ng−êi nhËp liÖu, b¹n sÏ nhËp d÷ liÖu cho môc nμy nh− thÕ nμo? Mçi mét dßng
trong file d÷ liÖu mμ b¹n nhËp sÏ lμ th«ng tin vÒ mét thμnh viªn trong hé, hay lμ th«ng tin vÒ 1 hé?
mét hé sÏ cã nhiÒu thanh viªn, nh− vËy theo b¹n sè dßng trong file d÷ liÖu sÏ lín h¬n 9189 ph¶i
kh«ng? Theo b¹n kho¶ng bao nhiªu?

- C¸c sheet bmdtoc, tinh, 1a, 1b cho ta biÕt ®iÒu g×?

Nguyễn Khánh Duy Ghi chú bài giảng 6


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

2. Nh÷ng thao t¸c c¬ b¶n nhÊt trªn Stata


Khëi ®éng?
H×nh 4

Mét sè cöa sæ?


H×nh 5

Cöa sæ Review: C¸c


lÖnh cò sau khi gâ ë Cöa sæ Results (kÕt
cöa sæ lÖnh qu¶): c¸c kÕt qu¶
(command) sÏ hiÓn tÝnh to¸n sÏ hiÖn ë
®©y

Cöa sæ Variables
(biÕn): C¸c biÕn
trong file d÷ liÖu sÏ
hiÓn thÞ ë ®©y

Cöa sæ Command (lÖnh): gâ


c¸c lÖnh vμo cöa sæ nμy

Nguyễn Khánh Duy Ghi chú bài giảng 7


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

Khai b¸o dung l−îng bé nhí cho stata?

Gâ lÖnh sau vμo cöa sæ lÖnh: set mem 300m

Më file d÷ liÖu?

Chän File\Open Æ Khai b¸o ®−êng dÉn ®Õn file cÇn më


H×nh 6

VÝ dô, më file muc1a.dta

Trong cöa sæ Results (Xem H×nh 7), sau khi më file d÷ liÖu, b¹n cã thÊy xuÊt hiÖn dßng ch÷:

use "C:\VHLSS2006\Data\hhold\muc1a.dta", clear

C¸c thao t¸c ®−îc thùc hiÖn tõ menu, hay thanh c«ng cô, hay tõ viÖc gâ lÖnh sÏ ph¸t sinh c©u lÖnh
t−¬ng øng. C¸c lÖnh nμy còng sÏ xuÊt hiÖn trªn cöa sæ Results. B¹n còng cã thÓ gâ lÖnh
use "C:\VHLSS2006\Data\hhold\muc1a.dta", clear

vμo cöa sæ lÖnh ®Ó më file d÷ liÖu muc1a.dta

Nguyễn Khánh Duy Ghi chú bài giảng 8


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

H×nh 7

Më file cöa sæ so¹n th¶o d÷ liÖu?


Gâ lÖnh: edit
C¸ch kh¸c: T¹i thanh c«ng cô cña Stata, chän nót Data Editor
H×nh 8

- Th«ng tin t−¬ng øng víi c¸c c©u hái ë Môc 1a cña tõng thμnh viªn trong tõng hé ®−îc thÓ hiÖn
nh− H×nh 9, vμ H×nh 10

- Trong cöa sæ Data Editor, b¹n cã thÓ nhËp, chØnh söa d÷ liÖu, xem d÷ liÖu …

- NÕu b¹n chØ muèn xem d÷ liÖu, h·y bÊm nót Data Browser (bªn c¹nh nót Data Editor), ®Ó më cöa
sæ Data Browser, hoÆc gâ lÖnh Browse vμo cöa sæ lÖnh

Nguyễn Khánh Duy Ghi chú bài giảng 9


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

H×nh 9

Thanh tr−ît cho phÐp b¹n xem ®Çy ®ñ h¬n th«ng tin
H×nh 10

Nguyễn Khánh Duy Ghi chú bài giảng 10


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

- Mét sè biÕn ë H×nh 9, vμ H×nh 10 (vÝ dô biÕn m1ac2, m1ac3, m1ac6) ®ang thÓ hiÖn nh·n cña c¸c
gi¸ trÞ. T¹i cöa sæ Data Editor, b¹n cã thÓ click ph¶i chuét, chän Hide All value lables ®Ó kh«ng
hiÓn thÞ nh·n cña c¸c gi¸ trÞ n÷a, mμ chØ hiÓn thÞ c¸c con sè (Xem H×nh 12)
H×nh 11

H×nh 12

- Nh×n vμo H×nh 10, vμ H×nh 12, b¹n cã ®o¸n ®−îc t×nh tr¹ng h«n nh©n cña ng−êi ë dßng 1? Ng−êi
nμy lμ nam hay n÷, sinh n¨m nμo, ®Õn n¨m 2006 lμ bao nhiªu tuæi? Ng−êi nμy cã mèi quan hÖ g×
víi chñ hé?

Nguyễn Khánh Duy Ghi chú bài giảng 11


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

M« t¶ ®Æc ®iÓm cña c¸c biÕn?


Gâ lÖnh: des , hoÆc describe ®Ó m« t¶ ®Æc ®iÓm cña vÒ tÊt c¶ c¸c biÕn trong file d÷ liÖu

Contains data from C:\VHLSS2006\Data\hhold\muc1a.dta


obs: 39,071
vars: 17 12 Mar 2008 20:26
size: 1,211,201 (99.6% of memory free)
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
tinh str3 %9s
huyen str2 %9s
xa str2 %9s
diaban str3 %9s
hoso byte %8.0g
matv byte %8.0g M· hiÖu
m1ac2 byte %8.0g M1AC2 2. Giíi tÝnh
m1ac3 byte %14.0g M1AC3 3. Quan hª
m1ac4a byte %8.0g 4. Th¸ng sinh
m1ac4b int %8.0g N¨m sinh
m1ac5 int %8.0g 5. Tuæi
m1ac6 byte %10.0g M1AC6 6. H«n nh©n
m1ac7 byte %8.0g 7. Th¸ng ë hé
m1ac8 byte %16.0g M1AC8 8. Hé khÈu
m1ac9 int %8.0g 9. Noi dang ky HK
m1ac10a int %8.0g 10. N¨m ë tØnh
m1ac10b byte %8.0g 10. Th¸ng ë tØnh
-------------------------------------------------------------------------------
Sorted by: tinh huyen xa diaban hoso

Gâ lÖnh: des [danh s¸ch tªn biÕn] ®Ó m« t¶ ®Æc ®iÓm cña c¸c biÕn cã tªn trong danh s¸ch tªn biÕn
VÝ dô
des m1ac2 m1ac3 m1ac5 m1ac6

-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
m1ac2 byte %8.0g M1AC2 2. Giíi tÝnh
m1ac3 byte %14.0g M1AC3 3. Quan hª
m1ac5 int %8.0g 5. Tuæi
m1ac6 byte %10.0g M1AC6 6. H«n nh©n

Khi xem kÕt qu¶ trªn cöa sæ Results, NÕu kÕt qu¶ qu¸ dμi, mÆc ®Þnh STATA sÏ t¹m dõng l¹i, vμ chê
b¹n bÊm chuét vμo ch÷ More ®Ó hiÓn thÞ c¸c kÕt qu¶ tiÕp theo.

Nguyễn Khánh Duy Ghi chú bài giảng 12


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

LÖnh codebook

LÖnh nμy cho ta biÕt chi tiÕt h¬n ®Æc ®iÓm cña tõng biÕn
VÝ dô:
codebook m1ac2

-------------------------------------------------------------------------------
m1ac2 2. Giíi tÝnh
-------------------------------------------------------------------------------

type: numeric (byte)


label: M1AC2

range: [1,2] units: 1


unique values: 2 missing .: 0/39071

tabulation: Freq. Numeric Label


19157 1 Nam
19914 2 N÷

codebook m1ac6

-------------------------------------------------------------------------------
m1ac6 6. H«n nh©n
-------------------------------------------------------------------------------

type: numeric (byte)


label: M1AC6

range: [1,5] units: 1


unique values: 5 missing .: 7734/39071

tabulation: Freq. Numeric Label


10880 1 Ch−a VC
18029 2 §ang cã VC
2028 3 Go¸
265 4 Ly h«n
135 5 Ly th©n
7734 .

codebook m1ac5

-------------------------------------------------------------------------------
m1ac5 5. Tuæi
-------------------------------------------------------------------------------

type: numeric (int)

range: [0,108] units: 1


unique values: 104 missing .: 0/39071

mean: 30.9772
std. dev: 20.2848

percentiles: 10% 25% 50% 75% 90%


7 15 27 45 59

B¹n cã thÊy r»ng chóng ta copy kÕt qu¶ d¹ng text tõ Stata sang Word, cÇn ph¶i chØnh l¹i ph«ng ch÷
cho ®Ñp? Ph«ng ch÷ mμ tæng côc thèng kª th−êng xμi trong VHLSS lμ g×? VnCourier víi cì ch÷ 8,
hoÆc 9, hoÆc 10 (ph«ng tcvn3 - abc)

Nguyễn Khánh Duy Ghi chú bài giảng 13


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

LÖnh Count?
LÖnh nμy cho ta ®Õm sè quan s¸t trong file d÷ liÖu
. count
39071

File muc1a.dta l−u tr÷ th«ng tin cña 39071 thμnh viªn

Theo b¹n nh÷ng kÕt qu¶ tõ c¸c lÖnh sau cho ta biÕt th«ng tin g×?

count if ( m1ac5>=18 & m1ac5 <=35) & tinh=="701"


361

count if ( m1ac5>=18 & m1ac5 <=35) & tinh=="501"


146

count if ( m1ac5>=18 & m1ac5 <=35) & (tinh=="501" | tinh =="701")


507

LÖnh clear?
B¹n h·y thö gâ lÖnh nμy vμo cöa sæ lÖnh! (l−u l¹i file, nÕu cÇn thiÕt, tr−íc khi thùc hiÖn lÖnh nμy)

3. T¹o b¶ng tÇn sè mét chiÒu

B¹n muèn t¹o b¶ng tÇn sè cho biÕn giíi tÝnh?

tab m1ac2
2. Giíi |
tÝnh | Freq. Percent Cum.
------------+-----------------------------------
Nam | 19,157 49.03 49.03
N÷ | 19,914 50.97 100.00
------------+-----------------------------------
Total | 39,071 100.00

B¶ng tÇn sè cho biÕn t×nh tr¹ng h«n nh©n?

tab m1ac6
6. H«n nh©n | Freq. Percent Cum.
------------+-----------------------------------
Ch−a VC | 10,880 34.72 34.72
§ang cã VC | 18,029 57.53 92.25
Go¸ | 2,028 6.47 98.72
Ly h«n | 265 0.85 99.57
Ly th©n | 135 0.43 100.00
------------+-----------------------------------
Total | 31,337 100.00

tab m1ac6, missing


6. H«n nh©n | Freq. Percent Cum.
------------+-----------------------------------
Ch−a VC | 10,880 27.85 27.85
§ang cã VC | 18,029 46.14 73.99
Go¸ | 2,028 5.19 79.18
Ly h«n | 265 0.68 79.86
Ly th©n | 135 0.35 80.21
. | 7,734 19.79 100.00
------------+-----------------------------------
Total | 39,071 100.00

Nguyễn Khánh Duy Ghi chú bài giảng 14


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

Option missing sau dÊu phÈy trong c©u lÖnh cho ta liÖt kª nh÷ng quang s¸t bÞ lçi (missing) nh− lμ 1
lo¹i.

Cã c¸ch nμo biÕt ®−îc t×nh tr¹ng h«n nh©n cña nh÷ng ng−êi trong ®é tuæi tõ 18 ®Õn 35?

tab m1ac6 if m1ac5 >=18 & m1ac5<=35


6. H«n nh©n | Freq. Percent Cum.
------------+-----------------------------------
Ch−a VC | 5,442 49.75 49.75
§ang cã VC | 5,351 48.92 98.67
Go¸ | 41 0.37 99.05
Ly h«n | 68 0.62 99.67
Ly th©n | 36 0.33 100.00
------------+-----------------------------------
Total | 10,938 100.00

T×nh tr¹ng h«n nh©n cña nh÷ng ng−êi trÎ tuæi ë TPHCM?
tab m1ac6 if m1ac5 >=18 & m1ac5<=35 & tinh==701
type mismatch
r(109);

tab m1ac6 if m1ac5 >=18 & m1ac5<=35 & tinh=="701"


6. H«n nh©n | Freq. Percent Cum.
------------+-----------------------------------
Ch−a VC | 207 57.34 57.34
§ang cã VC | 146 40.44 97.78
Ly h«n | 6 1.66 99.45
Ly th©n | 2 0.55 100.00
------------+-----------------------------------
Total | 361 100.00

-Trong VHLSS2006, biÕn tØnh, huyÖn, x·, ®Þa bμn cã kiÓu d÷ liÖu string. Nªn trong phÐp kiÓm tra
®iÒu kiÖn so s¸nh tinh==”701” cÇn ®−îc ®Æt trong 2 dÊu ngoÆc kÐp. NÕu kh«ng, m¸y tÝnh sÏ b¸o lçi.
- File Excel Muc1.xls, sheet tinh cho ta biÕt m· cña c¸c tØnh. TPHCM cã m· tØnh lμ 701, §μ N½ng
501

T×nh tr¹ng h«n nh©n cña nh÷ng ng−êi trÎ tuæi ë TPHCM, Hμ Néi, vμ §μ N½ng?

tab m1ac6 if (m1ac5 >=18 & m1ac5<=35) & (tinh=="701" & tinh=="501")
no observations

Theo b¹n, t¹i sao khi gâ lÖnh trªn th× m¸y tÝnh b¸o lμ no observations?

tab m1ac6 if (m1ac5 >=18 & m1ac5<=35) & (tinh=="701" | tinh=="501")

6. H«n nh©n | Freq. Percent Cum.


------------+-----------------------------------
Ch−a VC | 297 58.58 58.58
§ang cã VC | 201 39.64 98.22
Ly h«n | 6 1.18 99.41
Ly th©n | 3 0.59 100.00
------------+-----------------------------------
Total | 507 100.00

Nguyễn Khánh Duy Ghi chú bài giảng 15


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

4. T¹o b¶ng tÇn sè 2 chiÒu

tab m1ac3 m1ac2

| 2. Giíi tÝnh
3. Quan hª | Nam N÷ | Total
---------------+----------------------+----------
Chñ hé | 6,933 2,256 | 9,189
Vî chång | 751 6,597 | 7,348
Con | 9,800 8,475 | 18,275
Bè mÑ | 221 731 | 952
«ng bμ | 6 39 | 45
Ch¸u néi ngo¹i | 1,121 1,082 | 2,203
Kh¸c | 325 732 | 1,057
Missing | 0 2 | 2
---------------+----------------------+----------
Total | 19,157 19,914 | 39,071

tab m1ac3 m1ac2, col

+-------------------+
| Key |
|-------------------|
| frequency |
| column percentage |
+-------------------+

| 2. Giíi tÝnh
3. Quan hª | Nam N÷ | Total
---------------+----------------------+----------
Chñ hé | 6,933 2,256 | 9,189
| 36.19 11.33 | 23.52
---------------+----------------------+----------
Vî chång | 751 6,597 | 7,348
| 3.92 33.13 | 18.81
---------------+----------------------+----------
Con | 9,800 8,475 | 18,275
| 51.16 42.56 | 46.77
---------------+----------------------+----------
Bè mÑ | 221 731 | 952
| 1.15 3.67 | 2.44
---------------+----------------------+----------
«ng bμ | 6 39 | 45
| 0.03 0.20 | 0.12
---------------+----------------------+----------
Ch¸u néi ngo¹i | 1,121 1,082 | 2,203
| 5.85 5.43 | 5.64
---------------+----------------------+----------
Kh¸c | 325 732 | 1,057
| 1.70 3.68 | 2.71
---------------+----------------------+----------
Missing | 0 2 | 2
| 0.00 0.01 | 0.01
---------------+----------------------+----------
Total | 19,157 19,914 | 39,071
| 100.00 100.00 | 100.00

Nguyễn Khánh Duy Ghi chú bài giảng 16


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

tab m1ac3 m1ac2, row

+----------------+
| Key |
|----------------|
| frequency |
| row percentage |
+----------------+

| 2. Giíi tÝnh
3. Quan hª | Nam N÷ | Total
---------------+----------------------+----------
Chñ hé | 6,933 2,256 | 9,189
| 75.45 24.55 | 100.00
---------------+----------------------+----------
Vî chång | 751 6,597 | 7,348
| 10.22 89.78 | 100.00
---------------+----------------------+----------
Con | 9,800 8,475 | 18,275
| 53.63 46.37 | 100.00
---------------+----------------------+----------
Bè mÑ | 221 731 | 952
| 23.21 76.79 | 100.00
---------------+----------------------+----------
«ng bμ | 6 39 | 45
| 13.33 86.67 | 100.00
---------------+----------------------+----------
Ch¸u néi ngo¹i | 1,121 1,082 | 2,203
| 50.89 49.11 | 100.00
---------------+----------------------+----------
Kh¸c | 325 732 | 1,057
| 30.75 69.25 | 100.00
---------------+----------------------+----------
Missing | 0 2 | 2
| 0.00 100.00 | 100.00
---------------+----------------------+----------
Total | 19,157 19,914 | 39,071
| 49.03 50.97 | 100.00

tab m1ac3 m1ac2, row nof

| 2. Giíi tÝnh
3. Quan hª | Nam N÷ | Total
---------------+----------------------+----------
Chñ hé | 75.45 24.55 | 100.00
Vî chång | 10.22 89.78 | 100.00
Con | 53.63 46.37 | 100.00
Bè mÑ | 23.21 76.79 | 100.00
«ng bμ | 13.33 86.67 | 100.00
Ch¸u néi ngo¹i | 50.89 49.11 | 100.00
Kh¸c | 30.75 69.25 | 100.00
Missing | 0.00 100.00 | 100.00
---------------+----------------------+----------
Total | 49.03 50.97 | 100.00

NÕu cã thªm option nof (hay nofreq) trong c©u lÖnh, kÕt qu¶ sÏ kh«ng thÓ hiÖn tÇn sè

Nguyễn Khánh Duy Ghi chú bài giảng 17


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

5. TÝnh c¸c thèng kª m« t¶ c¬ b¶n

LÖnh sum dïng ®Ó c¸c thèng kª m« t¶ cho biÕn ®Þnh l−îng

sum m1ac5

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
m1ac5 | 39071 30.9772 20.28479 0 108

- LÖnh sum cã thªm option detail cho phÐp ta tÝnh thªm mét sè chØ tiªu kh¸c. VÝ dô:

sum m1ac5, detail

5. Tuæi
-------------------------------------------------------------
Percentiles Smallest
1% 0 0
5% 4 0
10% 7 0 Obs 39071
25% 15 0 Sum of Wgt. 39071

50% 27 Mean 30.9772


Largest Std. Dev. 20.28479
75% 45 100
90% 59 101 Variance 411.4726
95% 70 102 Skewness .5985555
99% 82 108 Kurtosis 2.620944

Lμm sao biÕt ®−îc tuæi trung b×nh ph©n theo Nam vμ n÷?

®Çu tiªn, s¾p xÕp c¸c quan s¸t theo thø tù t¨ng dÇn cña gi¸ trÞ biÕn m1ac2, sau ®ã dïng lÖnh
by m1ac2: sum m1ac5

sort m1ac2 /*dïng ®Ó s¾p xÕp c¸c quan s¸t theo thø tù t¨ng dÇn cña m1ac2 */

by m1ac2: sum m1ac5

----------------------------------------------------------------------------
-> m1ac2 = Nam

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
m1ac5 | 19157 29.76896 19.62231 0 101

---------------------------------------------------------------------------
-> m1ac2 = N÷

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
m1ac5 | 19914 32.1395 20.83675 0 108

NÕu ta tiÕp tôc thùc hiÖn lÖnh sau th× sÏ cho ra kÕt qu¶ g×?

by m1ac2: sum m1ac5 if tinh=="701"

Nguyễn Khánh Duy Ghi chú bài giảng 18


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

------------------------------------------------------------------------------------
-> m1ac2 = Nam

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
m1ac5 | 607 32.2883 19.71884 0 90

------------------------------------------------------------------------------------
-> m1ac2 = N÷

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
m1ac5 | 650 35.75846 20.23122 0 93

6. KÕt hîp lÖnh tab vμ sum

B¹n còng cã thÓ tÝnh gi¸ trÞ trung b×nh cña biÕn tuæi ph©n theo giíi theo c¸ch sau:

tab m1ac2, sum(m1ac5)


2. Giíi | Summary of 5. Tuæi
tÝnh | Mean Std. Dev. Freq.
------------+------------------------------------
Nam | 29.768962 19.62231 19157
N÷ | 32.1395 20.836753 19914
------------+------------------------------------
Total | 30.977195 20.284786 39071

Cho ®Õn b©y giê, chóng ta míi chØ sö dông d÷ liÖu cña 1 file lμ muc1a.dta. B©y giê Chóng ta sÏ lμm
quen víi lÖnh exit (hoÆc chän File\Exit trªn thanh Menu cña STATA). Gâ lÖnh nμy, ®iÒu g× x¶y ra?
Æ Tho¸t khái Stata!

TiÕp tôc, Chóng ta sÏ khëi ®éng l¹i STATA, khai b¸o dung l−îng bé nhí cho Stata, më file
muc2a.dta

Nguyễn Khánh Duy Ghi chú bài giảng 19


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

set mem 300m


use "C:\VHLSS2006\Data\hhold\muc2a.dta", clear
des

Contains data from C:\VHLSS2006\Data\hhold\muc2a.dta


obs: 39,071
vars: 34 14 Nov 2007 09:47
size: 3,321,035 (98.9% of memory free)
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
tinh str3 %9s
huyen str2 %9s
xa str2 %9s
diaban str3 %9s
hoso byte %8.0g
matv byte %8.0g M· thμnh viªn
m2ac1 byte %8.0g 1.Häc hÕt líp
m2ac2 byte %8.0g M2AC2 2.BiÕt ®äc, biÕt viÕt
m2ac3a byte %11.0g M2AC3A 3.B»ng cÊp cao nhÊt - GDPT
m2ac3b byte %17.0g M2AC3B B»ng cÊp cao nhÊt - GDNN
m2ac4 byte %8.0g M2AC4 4.Lo¹i tr−êng ®· TN
m2ac5 byte %8.0g M2AC5 5.HiÖn cã ®i häc
m2ac6 byte %8.0g M2AC6 6.12 th¸ng qua cã ®i häc
m2ac7 byte %17.0g M2AC7 7.Lý do k« ®i häc
m2ac8 byte %17.0g M2AC8 8.HÖ/cÊp/bËc ®ang häc
m2ac9 byte %8.0g M2AC9 9.Lo¹i tr−êng
m2ac10 byte %8.0g M2AC10 10.Cã miÔn gi¶m
m2ac11a byte %18.0g M2AC11A 11.Lý do miÔn gi¶m häc phÝ
m2ac11b byte %18.0g M2AC11B Lý do miÔn gi¶m ®ãng gãp
m2ac12a int %8.0g 12.% miÔn gi¶m häc phÝ
m2ac12b int %8.0g % miÔn gi¶m ®ãng gãp
m2ac13a long %12.0g 13a.Chi häc phÝ
m2ac13b long %12.0g 13b.Chi tr¸i tuyÕn
m2ac13c long %12.0g 13c.Chi ®ãng gãp
m2ac13d long %12.0g 13d.Chi quü
m2ac13e long %12.0g 13e.Chi ®ång phôc
m2ac13f long %12.0g 13f.Chi s¸ch gi¸o khoa
m2ac13g long %12.0g 13g.Chi dông cô häc tËp
m2ac13h long %12.0g 13h.Chi häc thªm
m2ac13i long %12.0g 13i.Chi gi¸o dôc kh¸c
m2ac13k long %12.0g 13k.Tæng sè (a+b+...+i)
m2ac14 long %12.0g 14.C¸c kho¶n nhËn
m2ac15 long %12.0g 15.Gi¸ trÞ häc bæng
m2ac16 long %12.0g 16.Chi gi¸o dôc-®μo t¹o kh¸c
-------------------------------------------------------------------------------
Sorted by: tinh huyen xa diaban hoso

Theo b¹n, file d÷ liÖu muc2a.dta chøa ®ùng th«ng tin g×?
§Ó tr¶ lêi c©u hái trªn, chóng ta nªn më file excel thÓ hiÖn c¸c c©u hái liªn quan ®Õn file d÷ liÖu
nμy. VËy file b¶ng c©u hái nμo sÏ t−¬ng øng víi file d÷ liÖu nμy? muc2a.dta (§äc lμ Môc 2a chÊm
dta) sÏ nhËp cã d÷ liÖu cña nh÷ng c©u hái cã thÓ cã ë file b¶ng c©u hái Muc2_A.xls

Nguyễn Khánh Duy Ghi chú bài giảng 20


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

H×nh 13

- Tõ B¶ng c©u hái, ta biÕt ®−îc file muc2a.dta chøa ®ùng


th«ng tin chung (phÇn a) cña Môc 2. Gi¸o dôc, ®μo t¹o, vμ d¹y nghÒ

- Chóng ta cã thÓ xem cöa Sæ Data Editor, b¶ng c©u hái, xem xÐt mét vμi quan s¸t vμ kÕt hîp víi
c¸c lÖnh ®· ®−îc ®Ó cËp ë phÇn tr−íc ®Ó hiÓu xem d÷ liÖu ®−îc nhËp nh− thÕ nμo. Trong qu¸ tr×nh
t×m hiÒu nμy, còng cã khi chóng ta cÇn xem l¹i “Sæ tay kh¶o s¸t møc hé gia ®×nh 2006”.

Nguyễn Khánh Duy Ghi chú bài giảng 21


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

H×nh 14

H×nh 15

Nguyễn Khánh Duy Ghi chú bài giảng 22


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

7. Nèi 2 file d÷ liÖu b»ng lÖnh Merge

Gi¶ sö b¹n cã nhu cÇu vÒ viÖc nèi c¸c biÕn ë file muc2a.dta vμo file muc1a.dta ®Ó h×nh thμnh mét
file d÷ liÖu míi chøa ®ùng th«ng tin cña c¶ 2 file nμy. C«ng viÖc nμy còng th−êng xuyªn ®−îc thùc
hiÖn khi b¹n ph©n tÝch VHLSS.

Chóng ta cã thÓ quy −íc muc2a.dta lμ file sö dông (file using). Cßn muc1a.dta lμ file chñ (file
master). Cã thÓ tãm t¾t thμnh 3 b−íc sau.

7.1 B−íc 1. Më file sö dông (muc2a.dta), s¾p xÕp c¸c quan s¸t theo c¸c biÕn x¸c ®Þnh, l−u l¹i
file nμy.

sort tinh huyen xa diaban hoso matv

save "C:\VHLSS2006\Data\Temp\Vi du merge file\muc2a.dta"

file C:\VHLSS2006\Data\Temp\Vi du merge file\muc2a.dta saved

file muc2a.dta sau khi ®· s¾p xÕp c¸c quan s¸t theo biÕn tinh huyen xa diaban hoso matv ®· ®−îc
l−u l¹i trong mét th− môc kh¸c.

7.2 B−íc 2. Më file master, s¾p xÕp c¸c quan s¸t theo c¸c biÕn x¸c ®Þnh; sö dông lÖnh merge

use "C:\VHLSS2006\Data\hhold\muc1a.dta"

sort tinh huyen xa diaban hoso matv

merge tinh huyen xa diaban hoso matv using "C:\VHLSS2006\Data\Temp\Vi du merge file\muc2a.dta"

7.3 B−íc 3. Xem xÐt d÷ liÖu cña file míi, xo¸ biÕn merge míi t¹o ra, l−u l¹i file míi

des
Contains data from C:\VHLSS2006\Data\hhold\muc1a.dta
obs: 39,071
vars: 46 12 Mar 2008 20:26
size: 3,946,171 (98.7% of memory free)
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
tinh str3 %9s
huyen str2 %9s
xa str2 %9s
diaban str3 %9s
hoso byte %8.0g
matv byte %8.0g M· hiÖu
m1ac2 byte %8.0g M1AC2 2. Giíi tÝnh
m1ac3 byte %14.0g M1AC3 3. Quan hª
m1ac4a byte %8.0g 4. Th¸ng sinh
m1ac4b int %8.0g N¨m sinh
m1ac5 int %8.0g 5. Tuæi
m1ac6 byte %10.0g M1AC6 6. H«n nh©n
m1ac7 byte %8.0g 7. Th¸ng ë hé
m1ac8 byte %16.0g M1AC8 8. Hé khÈu
m1ac9 int %8.0g 9. Noi dang ky HK
m1ac10a int %8.0g 10. N¨m ë tØnh

Nguyễn Khánh Duy Ghi chú bài giảng 23


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

m1ac10b byte %8.0g 10. Th¸ng ë tØnh


m2ac1 byte %8.0g 1.Häc hÕt líp
m2ac2 byte %8.0g M2AC2 2.BiÕt ®äc, biÕt viÕt
m2ac3a byte %11.0g M2AC3A 3.B»ng cÊp cao nhÊt - GDPT
m2ac3b byte %17.0g M2AC3B B»ng cÊp cao nhÊt - GDNN
m2ac4 byte %8.0g M2AC4 4.Lo¹i tr−êng ®· TN
m2ac5 byte %8.0g M2AC5 5.HiÖn cã ®i häc
m2ac6 byte %8.0g M2AC6 6.12 th¸ng qua cã ®i häc
m2ac7 byte %17.0g M2AC7 7.Lý do k« ®i häc
m2ac8 byte %17.0g M2AC8 8.HÖ/cÊp/bËc ®ang häc
m2ac9 byte %8.0g M2AC9 9.Lo¹i tr−êng
m2ac10 byte %8.0g M2AC10 10.Cã miÔn gi¶m
m2ac11a byte %18.0g M2AC11A 11.Lý do miÔn gi¶m häc phÝ
m2ac11b byte %18.0g M2AC11B Lý do miÔn gi¶m ®ãng gãp
m2ac12a int %8.0g 12.% miÔn gi¶m häc phÝ
m2ac12b int %8.0g % miÔn gi¶m ®ãng gãp
m2ac13a long %12.0g 13a.Chi häc phÝ
m2ac13b long %12.0g 13b.Chi tr¸i tuyÕn
m2ac13c long %12.0g 13c.Chi ®ãng gãp
m2ac13d long %12.0g 13d.Chi quü
m2ac13e long %12.0g 13e.Chi ®ång phôc
m2ac13f long %12.0g 13f.Chi s¸ch gi¸o khoa
m2ac13g long %12.0g 13g.Chi dông cô häc tËp
m2ac13h long %12.0g 13h.Chi häc thªm
m2ac13i long %12.0g 13i.Chi gi¸o dôc kh¸c
m2ac13k long %12.0g 13k.Tæng sè (a+b+...+i)
m2ac14 long %12.0g 14.C¸c kho¶n nhËn
m2ac15 long %12.0g 15.Gi¸ trÞ häc bæng
m2ac16 long %12.0g 16.Chi gi¸o dôc-®μo t¹o kh¸c
_merge byte %8.0g
-------------------------------------------------------------------------------
Sorted by:
Note: dataset has changed since last saved

- File d÷ liÖu míi cã thªm biÕn _merge


H×nh 16

Nguyễn Khánh Duy Ghi chú bài giảng 24


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

- T¹o b¶ng tÇn sè cho biÕn _merge


H×nh 17

tab _merge

_merge | Freq. Percent Cum.


------------+-----------------------------------
3 | 39,071 100.00 100.00
------------+-----------------------------------
Total | 39,071 100.00

BiÒn _merge cã thÓ cã 3 gi¸ trÞ

_merge==1 obs. from master data (quan s¸t tõ d÷ liÖu cña file master)
_merge==2 obs. from only one using dataset (quan s¸t chØ tõ file using)
_merge==3 obs. from at least two datasets, master or using (tõ 2 file)

Tõ kÕt qu¶ cña lÖnh tab_merge. Ta thÊy c¸c biÕn ë c¶ 2 file ®−îc ghÐp l¹i víi
nhau rÊt khíp. B©y giê, biÕn _merge kh«ng cÇn thiÕt n÷a, ta cã thÓ xo¸ nã ®I
b»ng lÖnh

drop _merge

Sau ®ã l−u l¹i file míi nμy vμo mét th− môc kh¸c.

save "C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a.dta"

file C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a.dta saved

Nh− vËy, file muc1a_2a.dta chøa ®ùng th«ng tin cña c¶ 2 file muc1a.dta vμ
muc2a.dta.

B¹n cã thÓ tiÕp tôc merge file muc1a_2a.dta víi file nμo ®ã kh¸c nÕu cã nhu cÇu.

Cã lÏ thao t¸c nèi c¸c file l¹i víi nhau lμ thao t¸c r¾c rèi nhÊt, nh−ng th−êng
sö dông nhÊt khi b¹n ph©n tÝch VHLSS. V× vËy, chóng ta h·y dμnh thêi gian cho 2
bμi tËp rÊt høng thó sau

Nguyễn Khánh Duy Ghi chú bài giảng 25


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

8. Bμi tËp thùc hμnh nèi file

Bμi tËp 1.

B¹n h·y nèi file d÷ liÖu muc4a.dta vμo file muc1a_2a.dta

• Gîi ý:

Khëi ®éng Stata, sau ®â lÇn l−ît gâ c¸c lÖnh sau vμo cöa sæ lÖnh (hoÆc thùc hiÖn c¸c thao t¸c cã chøc n¨ng t−¬ng øng)

set mem 300m


use "C:\VHLSS2006\Data\hhold\muc4a.dta", clear
sort tinh huyen xa diaban hoso matv
save "C:\VHLSS2006\Data\Temp\Vi du merge file\muc4a.dta"

use "C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a.dta", clear


sort tinh huyen xa diaban hoso matv
merge tinh huyen xa diaban hoso matv using "C:\VHLSS2006\Data\Temp\Vi du merge file\muc4a.dta"

tab _merge
drop _merge
save "C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a_4a.dta"

• Ghi chó
Sau khi gâ lÖnh tab _merge, kÕt qu¶ sau xuÊt hiÖn

. tab _merge

_merge | Freq. Percent Cum.


------------+-----------------------------------
3 | 39,071 100.00 100.00
------------+-----------------------------------
Total | 39,071 100.00

C©u hái phô: NÕu cã thêi gian, vÒ nhμ, b¹n h·y t×m hiÓu thªm vÒ do-file trong STATA
D÷ liÖu cña mét sè c©u hái ë Môc 4°:
H×nh 18

Nguyễn Khánh Duy Ghi chú bài giảng 26


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

B¶ng hái liªn quan ®Õn Môc 4


H×nh 19

Bμi tËp 2.

File muc1a.dta chøa ®ùng th«ng tin cña 39071 thμnh viªn (c¸ nh©n); muc2a.dta còng chøa ®ùng c¸c
th«ng tin kh¸c cña 39071 c¸ nh©n nμy. Do vËy viÖc nèi 2 file nμy l¹i kh¸ dÔ hiÓu. Danh s¸ch c¸c
biÕn tinh huyen xa diaban hoso ®Òu ë c¶ 2 file ®Òu cïng kiÓu d÷ liÖu víi nhau, nªn ¸p dông lÖnh
merge nh− trªn lμ kh¸ thuËn lîi.

Tuy nhiªn, trong qu¸ tr×nh ph©n tÝch VHLSS, cã khi chóng ta ph¶I nèi file d÷ liÖu cÊp hé, vμo file
d÷ liÖu c¸ nh©n. C¸ch lμm còng t−¬ng tù.

Trong VHLSS2006, c¸c biÕn x¸c ®Þnh nh− tinh huyen xa diaban ë c¸c file c¸ nh©n cã kiÓu string,
nh−ng ë file cÊp hé (vÝ dô nh− hhexp06.dta) biÕn tinh huyen xa diaban l¹i cã kiÓu d÷ liÖu sè. V×
vËy, kh«ng sö dông c¸c biÕn x¸c ®Þnh nμy trong viÖc nèi file ®−îc. Chóng ta cÇn chuyÓn ®æi c¸c
biÕn cã kiÓu ch÷ ë file cÊp c¸ nh©n thμnh biÕn kiÓu sè.

B¹n h·y nèi file hhexpe06.dta vμo file muc1a_2a_4a.dta

Nguyễn Khánh Duy Ghi chú bài giảng 27


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

• Xem file hhexpe06.dta

. use "C:\VHLSS2006\Data\hhold\hhexpe06.dta", clear


(Household expenditures: 2006 VHLSS)

. des tinh huyen xa diaban hoso


storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
tinh int %10.0g
huyen byte %10.0g
xa byte %10.0g
diaban int %10.0g
hoso byte %8.0g

. count
9189

. sort tinh huyen xa diaban hoso

. save "C:\VHLSS2006\Data\Temp\Vi du merge file\hhexpe06.dta"

file C:\VHLSS2006\Data\Temp\Vi du merge file\hhexpe06.dta saved

• Më l¹i file muc1a_2a_4a.dta vμ t¹o c¸c biÕn x¸c ®Þnh kiÓu sè

Cã nhiÒu c¸ch kh¸c nhau, tuy nhiªn, cã mét c¸ch ®¬n gi¶n sau:

Gâ lÖnh: destring tinh huyen xa diaban, replace


Sau ®ã l−u l¹i file nμy víi tªn kh¸c:
save "C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a_4a_id1.dta"

B¹n h·y xem qua mét sè lÖnh sau

. use "C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a_4a.dta", clear

. des tinh huyen xa diaban hoso matv

storage display value


variable name type format label variable label
----------------------------------------------------------------
tinh str3 %9s
huyen str2 %9s
xa str2 %9s
diaban str3 %9s
hoso byte %8.0g
matv byte %8.0g M· hiÖu

. destring tinh huyen xa diaban, replace


tinh has all characters numeric; replaced as int
huyen has all characters numeric; replaced as byte
xa has all characters numeric; replaced as byte
diaban has all characters numeric; replaced as int

Nguyễn Khánh Duy Ghi chú bài giảng 28


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

. des tinh huyen xa diaban hoso matv

storage display value


variable name type format label variable label
---------------------------------------------------------------------------
tinh int %10.0g
huyen byte %10.0g
xa byte %10.0g
diaban int %10.0g
hoso byte %8.0g
matv byte %8.0g M· hiÖu

. sort tinh huyen xa diaban hoso matv

. save "C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a_4a_id1.dta"


file C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a_4a_id1.dta saved

• Qu¸ tr×nh Merge 2 file nμy

use "C:\VHLSS2006\Data\Temp\Vi du merge file\hhexpe06.dta", clear


(Household expenditures: 2006 VHLSS)
. sort tinh huyen xa diaban hoso

. save "C:\VHLSS2006\Data\Temp\Vi du merge file\hhexpe06.dta", replace


file C:\VHLSS2006\Data\Temp\Vi du merge file\hhexpe06.dta saved

. use "C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a_4a_id1.dta", clear

. sort tinh huyen xa diaban hoso matv

. merge tinh huyen xa diaban hoso using "C:\VHLSS2006\Data\Temp\Vi du merge file\hhexpe06.dta"

variables tinh huyen xa diaban hoso do not uniquely identify observations in the
master data

. tab _merge

_merge | Freq. Percent Cum.


------------+-----------------------------------
3 | 39,071 100.00 100.00
------------+-----------------------------------
Total | 39,071 100.00

. drop _merge

. save "C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a_4a_hhexpe06_id1.dta"

file C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a_4a_hhexpe06_id1.dta saved

B¹n h·y thö xem cã c¸ch nμo kh¸c kh«ng?

Nguyễn Khánh Duy Ghi chú bài giảng 29


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

Stata cã rÊt nhiÒu lÖnh mμ khã ai cã thÓ nhí, biÕt hÕt ®−îc. Khi cÇn, b¹n h·y vμo Help!
H×nh 20. T×m hiÓu vÒ lÖnh destring, tostring

B©y giê, chóng ta ®· cã s½n 1 file d÷ liÖu cã kh¸ nhiÒu biÕn ®Ó ®Ó lμm vÝ dô (C¸c vÝ dô sau nμy trong
tμi liÖu nμy, nÕu kh«ng nãi g× kh¸c vÒ viÖc sö dông file nμo, b¹n hiÓu lμ lÊy tõ file
"C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a_4a_hhexpe06_id1.dta"). Vμ Chóng ta
còng ®· biÕt mét sè lÖnh quan träng nhÊt trong qu¸ tr×nh ph©n tÝch d÷ liÖu VHLSS víi Stata. Giê
®©y, chóng ta sÏ bμn ®Õn mét sè vÊn ®Ò chi tiÕt h¬n.

Nguyễn Khánh Duy Ghi chú bài giảng 30


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

9. CÊu tróc lÖnh trong Stata, vÊn ®Ò träng sè trong ph©n tÝch d÷ liÖu VHLSS

H×nh 21

[lÖnh prefix: ] có ph¸p lÖnh [danh s¸ch biÕn] [biÓu thøc] [®iÒu kiÖn] [ph¹m vi] [träng sè] [ using tªn file] [,tuú chän]

Trong cÊu tróc lÖnh, nÕu môc nμo ®Æt trong 2 dÊu ngoÆc vu«ng [] tøc lμ kh«ng b¾t buéc ph¶I cã môc
nμy

Cã nh÷ng h−íng dÉn, cã môc ®Æt trong dÊu 2 dÊu ngoÆc nhän <>, môc nμy b¾t buéc ph¶i cã khi gâ
lÖnh.

• Prefix:

Mét lÖnh prefix mμ b¹n ®· biÕt ®Õn vμ th−êng sö dông lμ by. B¹n cßn nhí kh«ng?

• Command: gâ lÖnh mμ b¹n cÇn thùc hiÖn. Mét sè lÖnh stata cho phÐp viÕt t¾t. VÝ dô, lÖnh
sum mμ b¹n ®· sö dông lμ viÕt t¾t cña lÖnh summarize. B¹n còng cã thÓ gâ t¾t lÖnh nμy b»ng
ch÷ su

=exp (biÓu thøc)

VÝ dô, b¹n cÇn t¹o biÕn tuoi, vμ tuoibp. BiÕt r»ng gen lμ lÖnh ®Ó t¹o mét biÕn míi

. gen tuoi= m1ac5

. gen tuoibp= m1ac5^2

Nguyễn Khánh Duy Ghi chú bài giảng 31


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

• Varlist (danh s¸ch biÕn): chØ ra danh s¸ch biÕn chÞu t¸c ®éng cña c©u lÖnh. Nh−ng nÕu
kh«ng cã biÕn nμo ®−îc chØ ra th× lÖnh Stata sÏ cã t¸c ®éng lªn tÊt c¶ c¸c biÕn.

• If (®iÒu kiÖn)

Stata chØ thùc hiÖn c©u lÖnh ®èi víi c¸c quan s¸t mμ cã kÕt qu¶ cña biÓu thøc so s¸nh trong ®iÒu
kiÖn if lμ ®óng.

VÝ dô: ®Õm sè ng−êi ë TPHCM; ®Õm sè ng−êi ë §μ N½ng vμ TPHCM vμ

. count if tinh==701
1257

. count if tinh==501 | tinh==701


1759

VÝ dô: T¹o b¶ng tÇn sè cho biÕn lo¹i tr−êng häc

. tab m2ac4 if urban06==1

4.Lo¹i |
tr−êng ®· |
TN | Freq. Percent Cum.
------------+-----------------------------------
C«ng lËp | 6,919 95.49 95.49
B¸n c«ng | 187 2.58 98.07
D©n lËp | 76 1.05 99.12
T− thôc | 52 0.72 99.83
Kh¸c | 12 0.17 100.00
------------+-----------------------------------
Total | 7,246 100.00
- Chó ý r»ng khi so s¸nh b»ng, chóng ta sö dông 2 dÊu =, tøc lμ == (sau lÖnh if). Cßn ë môc trªn,
khi t¹o biÕn tuæi, trong phÐp g¸n, chóng ta gâ gen tuoi= m1ac5

• using filename

Nguyễn Khánh Duy Ghi chú bài giảng 32


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

Trong lÖnh merge, b¹n ®· tõng sö dông môc [using filename]

• In range (ph¹m vi)

ChØ ra ph¹m vi c¸c quan s¸t chÞu t¸c ®éng bëi c©u lÖnh

. tab m4ac1a
1A. Lμm |
nhËn l−¬ng |
c«ng | Freq. Percent Cum.
------------+-----------------------------------
Cã | 9,447 26.11 26.11
Kh«ng | 26,728 73.89 100.00
------------+-----------------------------------
Total | 36,175 100.00

. tab m4ac1a in 100 /*t¹o b¶ng tÇn sè cho biÕn m4ac1a cho quan s¸t thø 100, chÝnh b»ng gÝa
trÞ cña biÕn nμy t¹i quan s¸t thø 100*/
1A. Lμm |
nhËn l−¬ng |
c«ng | Freq. Percent Cum.
------------+-----------------------------------
Kh«ng | 1 100.00 100.00
------------+-----------------------------------
Total | 1 100.00

. tab m4ac1a in 100/1000 /*t¹o b¶ng tÇn sè cho biÕn m4ac1a cho c¸c quan s¸t tõ thø 100 ®Õn 1000 */

1A. Lμm |
nhËn l−¬ng |
c«ng | Freq. Percent Cum.
------------+-----------------------------------
Cã | 281 34.10 34.10
Kh«ng | 543 65.90 100.00
------------+-----------------------------------
Total | 824 100.00

. tab m4ac1a in f/100 /*t¹o b¶ng tÇn sè cho biÕn m4ac1a cho c¸c quan s¸t tõ thø 1 ®Õn 100 */

1A. Lμm |
nhËn l−¬ng |
c«ng | Freq. Percent Cum.
------------+-----------------------------------
Cã | 42 45.16 45.16
Kh«ng | 51 54.84 100.00
------------+-----------------------------------
Total | 93 100.00

. tab m4ac1a in 100/l /*t¹o b¶ng tÇn sè cho biÕn m4ac1a cho c¸c quan s¸t tõ thø
100 ®Õn quan s¸t cuèi cïng */

1A. Lμm |
nhËn l−¬ng |
c«ng | Freq. Percent Cum.
------------+-----------------------------------
Cã | 9,405 26.06 26.06
Kh«ng | 26,678 73.94 100.00
------------+-----------------------------------
Total | 36,083 100.00

Nguyễn Khánh Duy Ghi chú bài giảng 33


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

• Weight (träng sè)

Cho phÐp c¸c phÐp ph©n tÝch cã sö dông ®Õn träng sè (hay quyÒn sè)

Khi ph©n tÝch VHLSS cÇn sö dông träng sè nÕu b¹n muèn −íc l−îng c¸c tham sè thèng kª cho tæng
thÓ. Trong VHLSS2006 cã 2 biÕn l−u träng sè.

wt9: träng sè hé (khi sö dông d÷ liÖu mÉu kh¶o s¸t thu nhËp vμ chi tiªu víi cì mÉu 9189 hé)

hhszwt: träng sè c¸ nh©n

Hai biÕn trªn cã quan hÖ nh− sau: hhszwt=hhsize*wt9

Víi hhsize lμ tæng sè ng−êi trong hé

H×nh 22

Nguyễn Khánh Duy Ghi chú bài giảng 34


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

VÝ dô: BiÕn reg8 l−u tr÷ th«ng tin vÒ vïng. Cã 8 vïng trong c¶ n−íc. Theo b¹n lμm sao biÕt ®−îc
reg8=1 lμ t−¬ng øng víi Vïng nμo? (H·y xem trong sheet tinh cña file excel Muc1.xls)

tab reg8

reg8 | Freq. Percent Cum.


------------+-----------------------------------
1 | 7,433 19.02 19.02
2 | 5,698 14.58 33.61
3 | 2,163 5.54 39.14
4 | 4,337 11.10 50.24
5 | 3,634 9.30 59.55
6 | 2,848 7.29 66.83
7 | 5,134 13.14 79.97
8 | 7,824 20.03 100.00
------------+-----------------------------------
Total | 39,071 100.00

tab reg8 [aw= hhszwt]

reg8 | Freq. Percent Cum.


------------+-----------------------------------
1 |7,544.17409 19.31 19.31
2 | 4,442.9992 11.37 30.68
3 |1,437.84886 3.68 34.36
4 | 5,212.3526 13.34 47.70
5 | 3,285.1965 8.41 56.11
6 | 2,708.8742 6.93 63.04
7 | 6,573.3225 16.82 79.87
8 | 7,866.2321 20.13 100.00
------------+-----------------------------------

. sum m4ac11

Variable | Obs Mean Std. Dev. Min Max


-------------+--------------------------------------------------------
m4ac11 | 7091 11426.16 10756.02 180 480000

. sum m4ac11 [aw=hhszwt]

Variable | Obs Weight Mean Std. Dev. Min Max


-------------+-----------------------------------------------------------------
m4ac11 | 7091 75166467.1 11798.71 10781.87 180 480000

Khi ph©n tÝch VHLSS, víi lÖnh håi quy, b¹n dïng ch÷ pw thay cho ch÷ aw ®Ó khai
b¸o träng sè

• options (C¸c tuú chän)

NhiÒu c©u lÖnh trong STATA cho phÐp cã c¸c tuú chän riªng, c¸c tuú chän nμy chØ
®−îc chØ ®−îc chØ ra sau dÊu phÈy (dÊu ,).

VÝ dô: tuú chän detail cña lÖnh sum

Nguyễn Khánh Duy Ghi chú bài giảng 35


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

sum m4ac11 [aw=hhszwt], detail

11. TiÒn l−¬ng, tiÒn c«ng


-------------------------------------------------------------
Percentiles Smallest
1% 900 180
5% 2000 210
10% 3000 210 Obs 7091
25% 5500 225 Sum of Wgt. 75166467.1

50% 9600 Mean 11798.71


Largest Std. Dev. 10781.87
75% 15000 120000
90% 22583 150000 Variance 1.16e+08
95% 30000 156000 Skewness 12.99603
99% 44400 480000 Kurtosis 498.5566

10. To¸n tö vμ hμm sè trong STATA (Operators and functions)


a. C¸c to¸n tö (operators)
C¸c to¸n tö trong Stata ®−îc ký hiÖu nh− sau:
Ký hiÖu ý nghÜa
Sè häc
+ Céng
- Trõ
* Nh©n
/ Chia
^ Luü thõa
Quan hÖ
> Lín h¬n
< Nhá h¬n
>= Lín h¬n hoÆc b»ng
<= Nhá h¬n hoÆc b»ng
== B»ng
~= Kh«ng b»ng (kh¸c)
!= Kh«ng b»ng (kh¸c)
L«gÝc
~ Kh«ng
| HoÆc
& Vμ
Chó ý:
Trong biÓu thøc dÊu == ®−îc dïng cho viÖc kiÓm ®Þnh biÓu thøc so s¸nh, th−êng ®−îc dïng sau lÖnh if. Cßn
dÊu = ®−îc dïng cho phÐp g¸n, vÝ dô trong lÖnh t¹o biÕn míi

Nguyễn Khánh Duy Ghi chú bài giảng 36


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

VÝ dô:
. gen cap3=1 if m2ac1>=10
(30246 missing values generated)

. tab cap3, missing

cap3 | Freq. Percent Cum.


------------+-----------------------------------
1 | 8,825 22.59 22.59
. | 30,246 77.41 100.00
------------+-----------------------------------
Total | 39,071 100.00

. replace cap3=0 if m2ac1<=9


(30246 real changes made)

. tab cap3

cap3 | Freq. Percent Cum.


------------+-----------------------------------
0 | 30,246 77.41 77.41
1 | 8,825 22.59 100.00
------------+-----------------------------------
Total | 39,071 100.00

C¸c hμm sè (function)


Hμm sè th−êng ®−îc dïng trong biÓu thøc (exp) cña c©u lÖnh Stata. NÕu coi Y lμ mét hμm sè cña f(X1,
X2,…, Xn) th× lÖnh vÒ hμm sè trong Stata sÏ tÝnh gi¸ trÞ cña Y nÕu cho c¸c gi¸ trÞ cña Xi. Stata cã 8 lo¹i hμm
sè:
Mathematical functions C¸c hμm to¸n häc
Statistical functions Hμm thèng kª
Random numbers Hμm cho sè ngÉu nhiªn
String functions Hμm liªn quan ®Õn dÉy ký tù
Special functions Hμm ®Æc biÖt
Date functions Hμm ngμy th¸ng
Time-series functions Hμm chuçi thêi gian
Matrix functions Hμm ma trËn
VÝ dô:
gen absx=abs(x)
gen ln_tienluongchinh=ln( m4ac11)
C¸c ký hiÖu cô thÓ vÒ c¸c hμm sè nμy cã thÓ xem thªm ë môc help cña Stata

Nguyễn Khánh Duy Ghi chú bài giảng 37


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

B¹n h·y dμnh thêi gian ®Ó lμm thªm mét sè bμi tËp sau, bμi tËp 1 vμ 2 kh¸ dÔ dμng trong viÖc t×m
®−îc c¬ së lý thuyÕt, c¸c nghiªn cøu tr−íc ®©y cã liªn quan. Khi lμm 2 bμi tËp nμy, b¹n sÏ t×m thÊy
rÊt nhiÒu ®iÒu høng thó vμ sÏ n¾m v÷ng h¬n vÒ VHLSS vμ c¸c lÖnh quan träng nhÊt cña Stata. Bμi
tËp 3 lμ øng dông vμo ®Ò tμi nghiªn cøu cña b¹n.

Bμi tËp lín 1

B¹n h·y läc d÷ liÖu tõ VHLSS2006 cho c¸c biÕn cÇn thiÕt, vμ thùc hiÖn mét m« h×nh kinh tÕ l−îng
®Ó t×m hiÓu c¸c yÕu tè ¶nh h−ëng ®Õn x¸c suÊt mét hé lμ hé nghÌo.

Gîi ý: Trong file d÷ liÖu, mçi dßng lμ mét hé gia ®×nh. Lùa chän chuÈn nghÌo ®Ó x¸c ®Þnh hé nμo
lμ hé nghÌo. T×m c¬ së lý thuyÕt vÒ vÊn ®Ò nμy, läc d÷ liÖu tõ VHLSS, sö dông m« h×nh logit (hμm
logit trong Stata), chó ý vÊn ®Ò träng sè.

Bμi tËp lín 2

B¹n h·y läc d÷ liÖu tõ VHLSS2006 cho c¸c biÕn cÇn thiÕt, vμ thùc hiÖn mét m« h×nh kinh tÕ l−îng
®Ó x¸c ®Þnh c¸c yÕu tè ¶nh h−ëng ®Õn thu nhËp cña ng−êi lao ®éng trÎ ë ViÖt Nam.

Gîi ý: Trong file d÷ liÖu, mçi dßng lμ mét c¸ nh©n. §Ó ®¬n gi¶n, sö dông m« h×nh håi quy víi OLS
(lÖnh regress trong Stata), chó ý ®Õn vÊn ®Ò träng sè. Chó ý viÖc tæng quan lý thuyÕt.

Bμi tËp lín 3

§Ò tμi nghiªn cøu mμ b¹n ®ang tiÕn hμnh cã sö dông d÷ liÖu tõ VHLSS ®−îc hay kh«ng? NÕu ®−îc.
B¹n h·y läc c¸c d÷ liÖu cÇn thiÕt tõ VHLSS, vμ thùc hiÖn tÝnh to¸n c¸c chØ tiªu, m« h×nh kinh tÕ
l−îng cÇn thiÕt, phôc vô cho ®Ò tμi cña b¹n.

Nguyễn Khánh Duy Ghi chú bài giảng 38


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

Phô lôc
Hàm toán học (Mathematic Functions)
Câu lệnh Diễn giải
abs(x) Giá trị tuyệt đối (Absolute value)
sin(x), cos(x), tan(x) Sin, cos, tg
int(x), round(x) Lấy số nguyên/làm tròn số
exp(x) Hàm mũ Exponential function
ln(x) Logarit tự nhiên (Natural logarithm)
logit(x), invlogit(x) Log của tỷ lệ odd và nghịch đảo của nó
max(x), min(x) GT lớn nhất và nhỏ nhất
sqrt(x) Căn bậc (Square root)
sum(x) Tổng cộng

Kiểu dữ liệu (Data Types)


Dạng Hình thức Diễn giải
float Số thực -1.7x1038 đến 1.7x1036
double Số thực -8.9x10307 đến 8.9x10307
byte Số nguyên -127 ~ 100
int Số nguyên -32767 ~ 32740
long Số nguyên -2,147,483,647 ~ 2,147,483,620
str# Chuỗi (dạng text) str1 đến str244

Các lệnh thông dụng về quản lý dữ liệu (Data Management)


Câu lệnh Diễn giải
des, save, edit Mô tả biến, Lưu trữ, chỉnh sửa dữ liệu
gen, xtile, replace, Tạo biến mới, tạo biến phân nhóm cho một biến nào đó theo
recode phân vị, thay thế giá trị, mã hoá lại biến
keep, drop Giữ lại/ xoá biến hay các quan sát
label, format Tạo nhãn cho biến, tạo định dạng dữ liệu của biến
append, merge Nối các quan sát, nối các biến từ những file khác nhau
rename Đổi tên biến
sort, order, move Sắp xếp các quan sát theo thứ tự, sắp xếp biến, di chuyển biến
egen; collapse Tạo biến mới; thu gọn dữ liệu

Nguyễn Khánh Duy Ghi chú bài giảng 39


Chương trình giảng dạy kinh tế Fulbright Lớp MPP 1: 2008-2010

Phân tích hồi quy (Regression Analysis)


Câu lệnh Diễn giải

correlate, regress Tương quan, hồi quy với OLS


Logit Mô hình Binary logistic (mô hình logit)

Bạn có thể tìm hiểu thêm về thống kê, kinh tế lượng với Stata ở đâu?

Thư viện của Fulbright: đọc các sách hướng dẫn Stata 10, Thống kê/ kinh tế lượng với Stata

Stata online: http://www.ats.ucla.edu/stat/stata/ và rất nhiều trang khác!

Google!

Nguyễn Khánh Duy Ghi chú bài giảng 40

You might also like