Professional Documents
Culture Documents
Khai thác dữ liệu khảo sát mức sống hộ gia đình Việt Nam (VHLSS)
để làm đề tài nghiên cứu với phần mềm STATA
Mục tiêu:
• Giới thiệu về khảo sát mức sống hộ gia đình Việt Nam
• Giới thiệu các thao tác cơ bản trong Stata 10 để khai thác dữ liệu VHLSS
Nội dung:
§Ó cung cÊp th«ng tin vÒ møc sèng d©n c− phôc vô viÖc x©y dùng, ®¸nh gi¸ chÝnh s¸ch … §Õn nay,
tæng côc thèng kª ®· tiÕn hμnh 5 cuéc ®iÒu tra møc sèng lín víi 2 tªn gäi kh¸c nhau: 1993-1994,
1997-1998 (kh¶o s¸t møc sèng d©n c−); 2002, 2004, 2006 (kh¶o s¸t møc sèng hé gia ®×nh)
GÇn ®©y nhÊt lμ cuéc kh¶o s¸t/®iÒu tra møc sèng (th−êng ®−îc viÕt t¾t lμ KSMS) hé gia ®×nh n¨m
2006. D÷ liÖu ®iÒu tra tõ cuéc ®iÒu tra nμy ®−îc l−u tr÷ trong bé d÷ liÖu kh¶o s¸t møc sèng hé gia
®×nh n¨m 2006 (th−êng gäi lμ VHLSS 2006). Chóng ta cã thÓ khai th¸c bé d÷ liÖu nμy ®Ó lμm ®Ò tμi
nghiªn cøu/ bμi viÕt chÝnh s¸ch.
§Ó t×m hiÓu chi tiÕt vÒ cuéc ®iÒu tra nμy, vÒ c¸ch chän mÉu, tæ chøc ®iÒu tra, phiÕu ®iÒu tra, c¸c
kh¸i niÖm …, chóng ta cÇn ®äc thªm tμi liÖu “Sæ tay kh¶o s¸t møc hé gia ®×nh 2006” do Tæng côc
thèng kª biªn so¹n (tμi liÖu nμy ®· göi ®Õn häc viªn).
Chóng ta t×m hiÓu s¬ l−îc mét sè th«ng tin chung vÒ KSMS 2006
Kh¶o s¸t møc sèng hé gia ®×nh 2006 (KSMS 2006) nh»m thu thËp c¸c th«ng tin lμm c¨n cø ®¸nh
gi¸ møc sèng, ®¸nh gi¸ t×nh tr¹ng nghÌo ®ãi vμ ph©n ho¸ giμu nghÌo ®Ó phôc vô c«ng t¸c ho¹ch
®Þnh c¸c chÝnh s¸ch, kÕ ho¹ch vμ c¸c ch−¬ng tr×nh môc tiªu quèc gia cña §¶ng vμ Nhμ n−íc nh»m
kh«ng ngõng n©ng cao møc sèng d©n c− trong c¶ n−íc, c¸c vïng vμ c¸c ®Þa ph−¬ng.
Ngoμi ra, KSMS 2006 cßn thu thËp c¸c th«ng tin phôc vô nghiªn cøu, ph©n tÝch mét sè chuyªn ®Ò
vÒ y tÕ, gi¸o dôc, viÖc lμm, cung cÊp sè liÖu ®Ó tÝnh quyÒn sè chØ sè gi¸ tiªu dïng vμ phôc vô tÝnh
to¸n tμi kho¶n quèc gia.
KSMS 2006 gåm nh÷ng néi dung chñ yÕu ph¶n ¸nh møc sèng cña c¸c hé gia ®×nh trªn c¶ n−íc vμ
nh÷ng ®iÒu kiÖn kinh tÕ x· héi c¬ b¶n cña x· thuéc khu vùc n«ng th«n cã t¸c ®éng ®Õn møc sèng cña
ng−êi d©n n¬i hä sinh sèng. C¸c néi dung cô thÓ bao gåm:
a. §èi víi hé gia ®×nh
- Mét sè ®Æc ®iÓm vÒ nh©n khÈu häc cña c¸c thμnh viªn trong hé, gåm: Tuæi, giíi tÝnh, d©n téc, t×nh
tr¹ng h«n nh©n.
- Tr×nh ®é häc vÊn, tr×nh ®é chuyªn m«n kü thuËt cña tõng thμnh viªn hé gia ®×nh.
- Thu nhËp cña hé gia ®×nh, gåm: Møc thu nhËp; thu nhËp ph©n theo nguån thu (tiÒn c«ng, tiÒn
l−¬ng; ho¹t ®éng s¶n xuÊt tù lμm n«ng nghiÖp, l©m nghiÖp, thuû s¶n; ho¹t ®éng ngμnh nghÒ s¶n
xuÊt kinh doanh dÞch vô tù lμm cña hé gia ®×nh; thu kh¸c); thu nhËp ph©n theo khu vùc kinh tÕ vμ
ngμnh kinh tÕ.
- Chi tiªu hé gia ®×nh: møc chi tiªu, chi tiªu ph©n theo môc ®Ých chi vμ kho¶n chi (chi cho ¨n, mÆc,
ë, ®i l¹i, gi¸o dôc, y tÕ, v¨n ho¸, v.v… vμ chi kh¸c).
- T×nh tr¹ng èm ®au, bÖnh tËt vμ sö dông c¸c dÞch vô y tÕ.
- T×nh tr¹ng viÖc lμm, thêi gian lμm viÖc.
- Tμi s¶n, nhμ ë vμ c¸c tiÖn nghi nh− ®å dïng, ®iÖn, n−íc, ®iÒu kiÖn vÖ sinh.
- Tham gia ch−¬ng tr×nh xo¸ ®ãi gi¶m nghÌo, t×nh h×nh tÝn dông.
b. §èi víi x·
- Mét sè t×nh h×nh chung vÒ nh©n khÈu, d©n téc.
- KÕt cÊu h¹ tÇng, gåm: HiÖn tr¹ng ®iÖn, ®−êng, tr−êng häc, tr¹m y tÕ, chî, b−u ®iÖn, nguån n−íc.
- T×nh tr¹ng kinh tÕ, gåm: T×nh h×nh s¶n xuÊt n«ng nghiÖp (®Êt ®ai, xu h−íng vμ nguyªn nh©n t¨ng
gi¶m s¶n luîng c¸c c©y trång chÝnh, c¸c ®iÒu kiÖn hç trî ph¸t triÓn s¶n xuÊt nh− t−íi tiªu, khuyÕn
n«ng); c¬ héi viÖc lμm phi n«ng nghiÖp.
- Mét sè th«ng tin c¬ b¶n vÒ trËt tù an toμn x· héi.
§èi t−îng kh¶o s¸t gåm c¸c hé gia ®×nh, c¸c thμnh viªn hé gia ®×nh vμ c¸c x· cã c¸c hé gia ®×nh ®−îc
kh¶o s¸t. §¬n vÞ kh¶o s¸t gåm hé gia ®×nh vμ x· ®−îc chän kh¶o s¸t.
Ph¹m vi kh¶o s¸t bao gåm tÊt c¶ c¸c ®Þa bμn, c¸c x· ®−îc chän thuéc 64 tØnh, thμnh phè trùc thuéc
trung −¬ng (sau ®©y gäi t¾t lμ tØnh/thμnh phè).
Thêi ®iÓm kh¶o s¸t gåm hai kú vμo th¸ng 5 vμ th¸ng 9 n¨m 2006. Thêi gian thu thËp th«ng tin t¹i
®Þa bμn mçi kú kÐo dμi 1 th¸ng.
MÉu cña KSMS 2006 ®−îc chän ®¹i diÖn cho c¶ n−íc (trong ®ã: thμnh thÞ/n«ng th«n), 8 vïng (trong
®ã: thμnh thÞ/n«ng th«n) vμ tØnh, thμnh phè. MÉu nμy chän tõ mÉu chñ thiÕt kÕ cho c¸c cuéc KSMS
giai ®o¹n 2000-2010 gåm 3.063 x·/ph−êng, mçi x·/ph−êng chän 3 ®Þa bμn cña Tæng ®iÒu tra D©n
sè vμ Nhμ ë n¨m 1999.
Cì mÉu cña KSMS 2006 gåm 45.945 hé ®−îc chän tõ 3.063 ®Þa bμn cña mÉu chñ, chia lμm 2 mÉu
®éc lËp: mÉu thu nhËp gåm 36.756 hé ®Ó thu thËp c¸c néi dung th«ng tin ®· nªu trªn, trõ chi tiªu
cña hé gia ®×nh, ®Ó ®¸nh gi¸ møc sèng ë cÊp quèc gia, vïng vμ tØnh/thμnh phè; mÉu thu nhËp chi
tiªu gåm 9.189 hé ®Ó thu thËp ®Çy ®ñ c¸c néi dung th«ng tin ®¸nh gi¸, ph©n tÝch møc sèng mét c¸ch
s©u h¬n ë cÊp quèc gia vμ vïng.
MÉu thu nhËp vμ mÉu thu nhËp chi tiªu ®−îc ph©n bæ cho 2 thêi ®iÓm kh¶o s¸t nh− sau:
Thêi gian MÉu kh¶o s¸t MÉu kh¶o s¸t thu
Céng
thu thËp sè liÖu thu nhËp vμ chi tiªu nhËp
Tæng sè 9.189 36.756
45.945
Chia ra:
Th¸ng 5/2006 4.593 18.372 22.965
Th¸ng 9/2006 4.596 18.384 22.980
KSMS 2006 ¸p dông ph−¬ng ph¸p pháng vÊn trùc tiÕp. §iÒu tra viªn ®Õn hé, gÆp chñ hé vμ nh÷ng
thμnh viªn trong hé cã liªn quan ®Ó pháng vÊn vμ ghi th«ng tin vμo phiÕu pháng vÊn hé gia ®×nh.
§éi tr−ëng ®éi kh¶o s¸t sÏ gÆp l·nh ®¹o x· vμ c¸c c¸n bé ®Þa ph−¬ng cã liªn quan ®Ó pháng vÊn vμ
ghi th«ng tin vμo phiÕu pháng vÊn x·. §Ó b¶o ®¶m chÊt l−îng th«ng tin thu thËp, cuéc kh¶o s¸t møc
sèng hé gia ®×nh kh«ng chÊp nhËn ph−¬ng ph¸p kh¶o s¸t gi¸n tiÕp hoÆc sao chÐp c¸c th«ng tin tõ
c¸c nguån cã s½n kh¸c vμo phiÕu pháng vÊn.
1.5 D÷ liÖu
Cã 2 lo¹i d÷ liÖu chÝnh: d÷ liÖu kh¶o s¸t x·, vμ d÷ liÖu kh¶o s¸t hé. Chóng ta sÏ t×m hiÓu vÒ d÷ liÖu
kh¶o s¸t hé, v× nã ®−îc sö dông kh¸ phæ biÕn. D÷ liÖu kh¶o s¸t x·, tr−êng häc, tr¹m y tÕ còng ®−îc
khai th¸c t−¬ng tù.
Trong d÷ liÖu kh¶o s¸t hé, nh÷ng ng−êi lμm nghiªn cøu th−êng hay sö dông mÉu thu nhËp vμ chi
tiªu (9189 hé) ®Ó thùc hiÖn ph©n tÝch v× cã ®Çy ®ñ d÷ liÖu vÒ tÊt c¶ c¸c biÕn.
D÷ liÖu VHLSS2006 do tæng côc thèng kª cung cÊp th−êng ®−îc l−u trong ®Üa CD. Sau khi chÐp
sang æ ®Üa C cña m¸y tÝnh, cã d¹ng nh− H×nh 1.
H×nh 1
H×nh 2
- B¶ng c©u hái ®−îc chia thμnh nhiÒu môc: Môc 1, Môc 2, Môc 3... Trong Mçi môc cßn chia nhá
h¬n thμnh tiÓu môc a, b, c
- C¸c file d÷ liÖu còng ®−îc ®Æt tªn t−¬ng øng víi c¸c môc hái. VÝ dô. File muc 1a.dta sÏ l−u tr÷
c¸c th«ng tin liªn quan ®Õn c¸c c©u hái ë Môc 1a trong b¶ng c©u hái.
- Ngoμi ra, cßn cã file hhexp06.dta (l−u tr÷ mét sè biÕn do tæng côc thèng kª tÝnh to¸n thªm tõ d÷
liÖu ®iÒu tra nh− chi tiªu cho g¹o, chi tiªu l−¬ng thùc thùc phÈm…, Vïng, träng sè), file
ttchung.dta l−u tr÷ c¸c biÕn thu nhËp, chi tiªu tæng hîp, file weight06_new.dta l−u tr÷ c¸c biÕn
träng sè.
H×nh 3. Më file Excel tªn lμ Muc1.xls ®Ó xem môc nμy cña B¶ng c©u hái
- B¹n h·y chän Ph«ng ch÷ tcvn3-abc, vÝ dô nh− Vntime, ®Ó thÊy râ néi dung tiÕng ViÖt.
- NÕu b¹n lμ ®iÒu tra viªn, b¹n sÏ ®iÒn th«ng tin vμo phiÕu nh− thÕ nμo ®èi víi hé mμ b¹n kh¶o s¸t?
- NÕu b¹n lμ ng−êi nhËp liÖu, b¹n sÏ nhËp d÷ liÖu cho môc nμy nh− thÕ nμo? Mçi mét dßng
trong file d÷ liÖu mμ b¹n nhËp sÏ lμ th«ng tin vÒ mét thμnh viªn trong hé, hay lμ th«ng tin vÒ 1 hé?
mét hé sÏ cã nhiÒu thanh viªn, nh− vËy theo b¹n sè dßng trong file d÷ liÖu sÏ lín h¬n 9189 ph¶i
kh«ng? Theo b¹n kho¶ng bao nhiªu?
Cöa sæ Variables
(biÕn): C¸c biÕn
trong file d÷ liÖu sÏ
hiÓn thÞ ë ®©y
Më file d÷ liÖu?
Trong cöa sæ Results (Xem H×nh 7), sau khi më file d÷ liÖu, b¹n cã thÊy xuÊt hiÖn dßng ch÷:
C¸c thao t¸c ®−îc thùc hiÖn tõ menu, hay thanh c«ng cô, hay tõ viÖc gâ lÖnh sÏ ph¸t sinh c©u lÖnh
t−¬ng øng. C¸c lÖnh nμy còng sÏ xuÊt hiÖn trªn cöa sæ Results. B¹n còng cã thÓ gâ lÖnh
use "C:\VHLSS2006\Data\hhold\muc1a.dta", clear
H×nh 7
- Th«ng tin t−¬ng øng víi c¸c c©u hái ë Môc 1a cña tõng thμnh viªn trong tõng hé ®−îc thÓ hiÖn
nh− H×nh 9, vμ H×nh 10
- Trong cöa sæ Data Editor, b¹n cã thÓ nhËp, chØnh söa d÷ liÖu, xem d÷ liÖu …
- NÕu b¹n chØ muèn xem d÷ liÖu, h·y bÊm nót Data Browser (bªn c¹nh nót Data Editor), ®Ó më cöa
sæ Data Browser, hoÆc gâ lÖnh Browse vμo cöa sæ lÖnh
H×nh 9
Thanh tr−ît cho phÐp b¹n xem ®Çy ®ñ h¬n th«ng tin
H×nh 10
- Mét sè biÕn ë H×nh 9, vμ H×nh 10 (vÝ dô biÕn m1ac2, m1ac3, m1ac6) ®ang thÓ hiÖn nh·n cña c¸c
gi¸ trÞ. T¹i cöa sæ Data Editor, b¹n cã thÓ click ph¶i chuét, chän Hide All value lables ®Ó kh«ng
hiÓn thÞ nh·n cña c¸c gi¸ trÞ n÷a, mμ chØ hiÓn thÞ c¸c con sè (Xem H×nh 12)
H×nh 11
H×nh 12
- Nh×n vμo H×nh 10, vμ H×nh 12, b¹n cã ®o¸n ®−îc t×nh tr¹ng h«n nh©n cña ng−êi ë dßng 1? Ng−êi
nμy lμ nam hay n÷, sinh n¨m nμo, ®Õn n¨m 2006 lμ bao nhiªu tuæi? Ng−êi nμy cã mèi quan hÖ g×
víi chñ hé?
Gâ lÖnh: des [danh s¸ch tªn biÕn] ®Ó m« t¶ ®Æc ®iÓm cña c¸c biÕn cã tªn trong danh s¸ch tªn biÕn
VÝ dô
des m1ac2 m1ac3 m1ac5 m1ac6
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
m1ac2 byte %8.0g M1AC2 2. Giíi tÝnh
m1ac3 byte %14.0g M1AC3 3. Quan hª
m1ac5 int %8.0g 5. Tuæi
m1ac6 byte %10.0g M1AC6 6. H«n nh©n
Khi xem kÕt qu¶ trªn cöa sæ Results, NÕu kÕt qu¶ qu¸ dμi, mÆc ®Þnh STATA sÏ t¹m dõng l¹i, vμ chê
b¹n bÊm chuét vμo ch÷ More ®Ó hiÓn thÞ c¸c kÕt qu¶ tiÕp theo.
LÖnh codebook
LÖnh nμy cho ta biÕt chi tiÕt h¬n ®Æc ®iÓm cña tõng biÕn
VÝ dô:
codebook m1ac2
-------------------------------------------------------------------------------
m1ac2 2. Giíi tÝnh
-------------------------------------------------------------------------------
codebook m1ac6
-------------------------------------------------------------------------------
m1ac6 6. H«n nh©n
-------------------------------------------------------------------------------
codebook m1ac5
-------------------------------------------------------------------------------
m1ac5 5. Tuæi
-------------------------------------------------------------------------------
mean: 30.9772
std. dev: 20.2848
B¹n cã thÊy r»ng chóng ta copy kÕt qu¶ d¹ng text tõ Stata sang Word, cÇn ph¶i chØnh l¹i ph«ng ch÷
cho ®Ñp? Ph«ng ch÷ mμ tæng côc thèng kª th−êng xμi trong VHLSS lμ g×? VnCourier víi cì ch÷ 8,
hoÆc 9, hoÆc 10 (ph«ng tcvn3 - abc)
LÖnh Count?
LÖnh nμy cho ta ®Õm sè quan s¸t trong file d÷ liÖu
. count
39071
File muc1a.dta l−u tr÷ th«ng tin cña 39071 thμnh viªn
Theo b¹n nh÷ng kÕt qu¶ tõ c¸c lÖnh sau cho ta biÕt th«ng tin g×?
LÖnh clear?
B¹n h·y thö gâ lÖnh nμy vμo cöa sæ lÖnh! (l−u l¹i file, nÕu cÇn thiÕt, tr−íc khi thùc hiÖn lÖnh nμy)
tab m1ac2
2. Giíi |
tÝnh | Freq. Percent Cum.
------------+-----------------------------------
Nam | 19,157 49.03 49.03
N÷ | 19,914 50.97 100.00
------------+-----------------------------------
Total | 39,071 100.00
tab m1ac6
6. H«n nh©n | Freq. Percent Cum.
------------+-----------------------------------
Ch−a VC | 10,880 34.72 34.72
§ang cã VC | 18,029 57.53 92.25
Go¸ | 2,028 6.47 98.72
Ly h«n | 265 0.85 99.57
Ly th©n | 135 0.43 100.00
------------+-----------------------------------
Total | 31,337 100.00
Option missing sau dÊu phÈy trong c©u lÖnh cho ta liÖt kª nh÷ng quang s¸t bÞ lçi (missing) nh− lμ 1
lo¹i.
Cã c¸ch nμo biÕt ®−îc t×nh tr¹ng h«n nh©n cña nh÷ng ng−êi trong ®é tuæi tõ 18 ®Õn 35?
T×nh tr¹ng h«n nh©n cña nh÷ng ng−êi trÎ tuæi ë TPHCM?
tab m1ac6 if m1ac5 >=18 & m1ac5<=35 & tinh==701
type mismatch
r(109);
-Trong VHLSS2006, biÕn tØnh, huyÖn, x·, ®Þa bμn cã kiÓu d÷ liÖu string. Nªn trong phÐp kiÓm tra
®iÒu kiÖn so s¸nh tinh==”701” cÇn ®−îc ®Æt trong 2 dÊu ngoÆc kÐp. NÕu kh«ng, m¸y tÝnh sÏ b¸o lçi.
- File Excel Muc1.xls, sheet tinh cho ta biÕt m· cña c¸c tØnh. TPHCM cã m· tØnh lμ 701, §μ N½ng
501
T×nh tr¹ng h«n nh©n cña nh÷ng ng−êi trÎ tuæi ë TPHCM, Hμ Néi, vμ §μ N½ng?
tab m1ac6 if (m1ac5 >=18 & m1ac5<=35) & (tinh=="701" & tinh=="501")
no observations
Theo b¹n, t¹i sao khi gâ lÖnh trªn th× m¸y tÝnh b¸o lμ no observations?
| 2. Giíi tÝnh
3. Quan hª | Nam N÷ | Total
---------------+----------------------+----------
Chñ hé | 6,933 2,256 | 9,189
Vî chång | 751 6,597 | 7,348
Con | 9,800 8,475 | 18,275
Bè mÑ | 221 731 | 952
«ng bμ | 6 39 | 45
Ch¸u néi ngo¹i | 1,121 1,082 | 2,203
Kh¸c | 325 732 | 1,057
Missing | 0 2 | 2
---------------+----------------------+----------
Total | 19,157 19,914 | 39,071
+-------------------+
| Key |
|-------------------|
| frequency |
| column percentage |
+-------------------+
| 2. Giíi tÝnh
3. Quan hª | Nam N÷ | Total
---------------+----------------------+----------
Chñ hé | 6,933 2,256 | 9,189
| 36.19 11.33 | 23.52
---------------+----------------------+----------
Vî chång | 751 6,597 | 7,348
| 3.92 33.13 | 18.81
---------------+----------------------+----------
Con | 9,800 8,475 | 18,275
| 51.16 42.56 | 46.77
---------------+----------------------+----------
Bè mÑ | 221 731 | 952
| 1.15 3.67 | 2.44
---------------+----------------------+----------
«ng bμ | 6 39 | 45
| 0.03 0.20 | 0.12
---------------+----------------------+----------
Ch¸u néi ngo¹i | 1,121 1,082 | 2,203
| 5.85 5.43 | 5.64
---------------+----------------------+----------
Kh¸c | 325 732 | 1,057
| 1.70 3.68 | 2.71
---------------+----------------------+----------
Missing | 0 2 | 2
| 0.00 0.01 | 0.01
---------------+----------------------+----------
Total | 19,157 19,914 | 39,071
| 100.00 100.00 | 100.00
+----------------+
| Key |
|----------------|
| frequency |
| row percentage |
+----------------+
| 2. Giíi tÝnh
3. Quan hª | Nam N÷ | Total
---------------+----------------------+----------
Chñ hé | 6,933 2,256 | 9,189
| 75.45 24.55 | 100.00
---------------+----------------------+----------
Vî chång | 751 6,597 | 7,348
| 10.22 89.78 | 100.00
---------------+----------------------+----------
Con | 9,800 8,475 | 18,275
| 53.63 46.37 | 100.00
---------------+----------------------+----------
Bè mÑ | 221 731 | 952
| 23.21 76.79 | 100.00
---------------+----------------------+----------
«ng bμ | 6 39 | 45
| 13.33 86.67 | 100.00
---------------+----------------------+----------
Ch¸u néi ngo¹i | 1,121 1,082 | 2,203
| 50.89 49.11 | 100.00
---------------+----------------------+----------
Kh¸c | 325 732 | 1,057
| 30.75 69.25 | 100.00
---------------+----------------------+----------
Missing | 0 2 | 2
| 0.00 100.00 | 100.00
---------------+----------------------+----------
Total | 19,157 19,914 | 39,071
| 49.03 50.97 | 100.00
| 2. Giíi tÝnh
3. Quan hª | Nam N÷ | Total
---------------+----------------------+----------
Chñ hé | 75.45 24.55 | 100.00
Vî chång | 10.22 89.78 | 100.00
Con | 53.63 46.37 | 100.00
Bè mÑ | 23.21 76.79 | 100.00
«ng bμ | 13.33 86.67 | 100.00
Ch¸u néi ngo¹i | 50.89 49.11 | 100.00
Kh¸c | 30.75 69.25 | 100.00
Missing | 0.00 100.00 | 100.00
---------------+----------------------+----------
Total | 49.03 50.97 | 100.00
NÕu cã thªm option nof (hay nofreq) trong c©u lÖnh, kÕt qu¶ sÏ kh«ng thÓ hiÖn tÇn sè
sum m1ac5
- LÖnh sum cã thªm option detail cho phÐp ta tÝnh thªm mét sè chØ tiªu kh¸c. VÝ dô:
5. Tuæi
-------------------------------------------------------------
Percentiles Smallest
1% 0 0
5% 4 0
10% 7 0 Obs 39071
25% 15 0 Sum of Wgt. 39071
Lμm sao biÕt ®−îc tuæi trung b×nh ph©n theo Nam vμ n÷?
®Çu tiªn, s¾p xÕp c¸c quan s¸t theo thø tù t¨ng dÇn cña gi¸ trÞ biÕn m1ac2, sau ®ã dïng lÖnh
by m1ac2: sum m1ac5
sort m1ac2 /*dïng ®Ó s¾p xÕp c¸c quan s¸t theo thø tù t¨ng dÇn cña m1ac2 */
----------------------------------------------------------------------------
-> m1ac2 = Nam
---------------------------------------------------------------------------
-> m1ac2 = N÷
NÕu ta tiÕp tôc thùc hiÖn lÖnh sau th× sÏ cho ra kÕt qu¶ g×?
------------------------------------------------------------------------------------
-> m1ac2 = Nam
------------------------------------------------------------------------------------
-> m1ac2 = N÷
B¹n còng cã thÓ tÝnh gi¸ trÞ trung b×nh cña biÕn tuæi ph©n theo giíi theo c¸ch sau:
Cho ®Õn b©y giê, chóng ta míi chØ sö dông d÷ liÖu cña 1 file lμ muc1a.dta. B©y giê Chóng ta sÏ lμm
quen víi lÖnh exit (hoÆc chän File\Exit trªn thanh Menu cña STATA). Gâ lÖnh nμy, ®iÒu g× x¶y ra?
Æ Tho¸t khái Stata!
TiÕp tôc, Chóng ta sÏ khëi ®éng l¹i STATA, khai b¸o dung l−îng bé nhí cho Stata, më file
muc2a.dta
Theo b¹n, file d÷ liÖu muc2a.dta chøa ®ùng th«ng tin g×?
§Ó tr¶ lêi c©u hái trªn, chóng ta nªn më file excel thÓ hiÖn c¸c c©u hái liªn quan ®Õn file d÷ liÖu
nμy. VËy file b¶ng c©u hái nμo sÏ t−¬ng øng víi file d÷ liÖu nμy? muc2a.dta (§äc lμ Môc 2a chÊm
dta) sÏ nhËp cã d÷ liÖu cña nh÷ng c©u hái cã thÓ cã ë file b¶ng c©u hái Muc2_A.xls
H×nh 13
- Chóng ta cã thÓ xem cöa Sæ Data Editor, b¶ng c©u hái, xem xÐt mét vμi quan s¸t vμ kÕt hîp víi
c¸c lÖnh ®· ®−îc ®Ó cËp ë phÇn tr−íc ®Ó hiÓu xem d÷ liÖu ®−îc nhËp nh− thÕ nμo. Trong qu¸ tr×nh
t×m hiÒu nμy, còng cã khi chóng ta cÇn xem l¹i “Sæ tay kh¶o s¸t møc hé gia ®×nh 2006”.
H×nh 14
H×nh 15
Gi¶ sö b¹n cã nhu cÇu vÒ viÖc nèi c¸c biÕn ë file muc2a.dta vμo file muc1a.dta ®Ó h×nh thμnh mét
file d÷ liÖu míi chøa ®ùng th«ng tin cña c¶ 2 file nμy. C«ng viÖc nμy còng th−êng xuyªn ®−îc thùc
hiÖn khi b¹n ph©n tÝch VHLSS.
Chóng ta cã thÓ quy −íc muc2a.dta lμ file sö dông (file using). Cßn muc1a.dta lμ file chñ (file
master). Cã thÓ tãm t¾t thμnh 3 b−íc sau.
7.1 B−íc 1. Më file sö dông (muc2a.dta), s¾p xÕp c¸c quan s¸t theo c¸c biÕn x¸c ®Þnh, l−u l¹i
file nμy.
file muc2a.dta sau khi ®· s¾p xÕp c¸c quan s¸t theo biÕn tinh huyen xa diaban hoso matv ®· ®−îc
l−u l¹i trong mét th− môc kh¸c.
7.2 B−íc 2. Më file master, s¾p xÕp c¸c quan s¸t theo c¸c biÕn x¸c ®Þnh; sö dông lÖnh merge
use "C:\VHLSS2006\Data\hhold\muc1a.dta"
merge tinh huyen xa diaban hoso matv using "C:\VHLSS2006\Data\Temp\Vi du merge file\muc2a.dta"
7.3 B−íc 3. Xem xÐt d÷ liÖu cña file míi, xo¸ biÕn merge míi t¹o ra, l−u l¹i file míi
des
Contains data from C:\VHLSS2006\Data\hhold\muc1a.dta
obs: 39,071
vars: 46 12 Mar 2008 20:26
size: 3,946,171 (98.7% of memory free)
-------------------------------------------------------------------------------
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
tinh str3 %9s
huyen str2 %9s
xa str2 %9s
diaban str3 %9s
hoso byte %8.0g
matv byte %8.0g M· hiÖu
m1ac2 byte %8.0g M1AC2 2. Giíi tÝnh
m1ac3 byte %14.0g M1AC3 3. Quan hª
m1ac4a byte %8.0g 4. Th¸ng sinh
m1ac4b int %8.0g N¨m sinh
m1ac5 int %8.0g 5. Tuæi
m1ac6 byte %10.0g M1AC6 6. H«n nh©n
m1ac7 byte %8.0g 7. Th¸ng ë hé
m1ac8 byte %16.0g M1AC8 8. Hé khÈu
m1ac9 int %8.0g 9. Noi dang ky HK
m1ac10a int %8.0g 10. N¨m ë tØnh
tab _merge
_merge==1 obs. from master data (quan s¸t tõ d÷ liÖu cña file master)
_merge==2 obs. from only one using dataset (quan s¸t chØ tõ file using)
_merge==3 obs. from at least two datasets, master or using (tõ 2 file)
Tõ kÕt qu¶ cña lÖnh tab_merge. Ta thÊy c¸c biÕn ë c¶ 2 file ®−îc ghÐp l¹i víi
nhau rÊt khíp. B©y giê, biÕn _merge kh«ng cÇn thiÕt n÷a, ta cã thÓ xo¸ nã ®I
b»ng lÖnh
drop _merge
Sau ®ã l−u l¹i file míi nμy vμo mét th− môc kh¸c.
Nh− vËy, file muc1a_2a.dta chøa ®ùng th«ng tin cña c¶ 2 file muc1a.dta vμ
muc2a.dta.
B¹n cã thÓ tiÕp tôc merge file muc1a_2a.dta víi file nμo ®ã kh¸c nÕu cã nhu cÇu.
Cã lÏ thao t¸c nèi c¸c file l¹i víi nhau lμ thao t¸c r¾c rèi nhÊt, nh−ng th−êng
sö dông nhÊt khi b¹n ph©n tÝch VHLSS. V× vËy, chóng ta h·y dμnh thêi gian cho 2
bμi tËp rÊt høng thó sau
Bμi tËp 1.
• Gîi ý:
Khëi ®éng Stata, sau ®â lÇn l−ît gâ c¸c lÖnh sau vμo cöa sæ lÖnh (hoÆc thùc hiÖn c¸c thao t¸c cã chøc n¨ng t−¬ng øng)
tab _merge
drop _merge
save "C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a_4a.dta"
• Ghi chó
Sau khi gâ lÖnh tab _merge, kÕt qu¶ sau xuÊt hiÖn
. tab _merge
C©u hái phô: NÕu cã thêi gian, vÒ nhμ, b¹n h·y t×m hiÓu thªm vÒ do-file trong STATA
D÷ liÖu cña mét sè c©u hái ë Môc 4°:
H×nh 18
Bμi tËp 2.
File muc1a.dta chøa ®ùng th«ng tin cña 39071 thμnh viªn (c¸ nh©n); muc2a.dta còng chøa ®ùng c¸c
th«ng tin kh¸c cña 39071 c¸ nh©n nμy. Do vËy viÖc nèi 2 file nμy l¹i kh¸ dÔ hiÓu. Danh s¸ch c¸c
biÕn tinh huyen xa diaban hoso ®Òu ë c¶ 2 file ®Òu cïng kiÓu d÷ liÖu víi nhau, nªn ¸p dông lÖnh
merge nh− trªn lμ kh¸ thuËn lîi.
Tuy nhiªn, trong qu¸ tr×nh ph©n tÝch VHLSS, cã khi chóng ta ph¶I nèi file d÷ liÖu cÊp hé, vμo file
d÷ liÖu c¸ nh©n. C¸ch lμm còng t−¬ng tù.
Trong VHLSS2006, c¸c biÕn x¸c ®Þnh nh− tinh huyen xa diaban ë c¸c file c¸ nh©n cã kiÓu string,
nh−ng ë file cÊp hé (vÝ dô nh− hhexp06.dta) biÕn tinh huyen xa diaban l¹i cã kiÓu d÷ liÖu sè. V×
vËy, kh«ng sö dông c¸c biÕn x¸c ®Þnh nμy trong viÖc nèi file ®−îc. Chóng ta cÇn chuyÓn ®æi c¸c
biÕn cã kiÓu ch÷ ë file cÊp c¸ nh©n thμnh biÕn kiÓu sè.
. count
9189
Cã nhiÒu c¸ch kh¸c nhau, tuy nhiªn, cã mét c¸ch ®¬n gi¶n sau:
variables tinh huyen xa diaban hoso do not uniquely identify observations in the
master data
. tab _merge
. drop _merge
Stata cã rÊt nhiÒu lÖnh mμ khã ai cã thÓ nhí, biÕt hÕt ®−îc. Khi cÇn, b¹n h·y vμo Help!
H×nh 20. T×m hiÓu vÒ lÖnh destring, tostring
B©y giê, chóng ta ®· cã s½n 1 file d÷ liÖu cã kh¸ nhiÒu biÕn ®Ó ®Ó lμm vÝ dô (C¸c vÝ dô sau nμy trong
tμi liÖu nμy, nÕu kh«ng nãi g× kh¸c vÒ viÖc sö dông file nμo, b¹n hiÓu lμ lÊy tõ file
"C:\VHLSS2006\Data\Temp\Vi du merge file\muc1a_2a_4a_hhexpe06_id1.dta"). Vμ Chóng ta
còng ®· biÕt mét sè lÖnh quan träng nhÊt trong qu¸ tr×nh ph©n tÝch d÷ liÖu VHLSS víi Stata. Giê
®©y, chóng ta sÏ bμn ®Õn mét sè vÊn ®Ò chi tiÕt h¬n.
9. CÊu tróc lÖnh trong Stata, vÊn ®Ò träng sè trong ph©n tÝch d÷ liÖu VHLSS
H×nh 21
[lÖnh prefix: ] có ph¸p lÖnh [danh s¸ch biÕn] [biÓu thøc] [®iÒu kiÖn] [ph¹m vi] [träng sè] [ using tªn file] [,tuú chän]
Trong cÊu tróc lÖnh, nÕu môc nμo ®Æt trong 2 dÊu ngoÆc vu«ng [] tøc lμ kh«ng b¾t buéc ph¶I cã môc
nμy
Cã nh÷ng h−íng dÉn, cã môc ®Æt trong dÊu 2 dÊu ngoÆc nhän <>, môc nμy b¾t buéc ph¶i cã khi gâ
lÖnh.
• Prefix:
Mét lÖnh prefix mμ b¹n ®· biÕt ®Õn vμ th−êng sö dông lμ by. B¹n cßn nhí kh«ng?
• Command: gâ lÖnh mμ b¹n cÇn thùc hiÖn. Mét sè lÖnh stata cho phÐp viÕt t¾t. VÝ dô, lÖnh
sum mμ b¹n ®· sö dông lμ viÕt t¾t cña lÖnh summarize. B¹n còng cã thÓ gâ t¾t lÖnh nμy b»ng
ch÷ su
VÝ dô, b¹n cÇn t¹o biÕn tuoi, vμ tuoibp. BiÕt r»ng gen lμ lÖnh ®Ó t¹o mét biÕn míi
• Varlist (danh s¸ch biÕn): chØ ra danh s¸ch biÕn chÞu t¸c ®éng cña c©u lÖnh. Nh−ng nÕu
kh«ng cã biÕn nμo ®−îc chØ ra th× lÖnh Stata sÏ cã t¸c ®éng lªn tÊt c¶ c¸c biÕn.
• If (®iÒu kiÖn)
Stata chØ thùc hiÖn c©u lÖnh ®èi víi c¸c quan s¸t mμ cã kÕt qu¶ cña biÓu thøc so s¸nh trong ®iÒu
kiÖn if lμ ®óng.
. count if tinh==701
1257
4.Lo¹i |
tr−êng ®· |
TN | Freq. Percent Cum.
------------+-----------------------------------
C«ng lËp | 6,919 95.49 95.49
B¸n c«ng | 187 2.58 98.07
D©n lËp | 76 1.05 99.12
T− thôc | 52 0.72 99.83
Kh¸c | 12 0.17 100.00
------------+-----------------------------------
Total | 7,246 100.00
- Chó ý r»ng khi so s¸nh b»ng, chóng ta sö dông 2 dÊu =, tøc lμ == (sau lÖnh if). Cßn ë môc trªn,
khi t¹o biÕn tuæi, trong phÐp g¸n, chóng ta gâ gen tuoi= m1ac5
• using filename
ChØ ra ph¹m vi c¸c quan s¸t chÞu t¸c ®éng bëi c©u lÖnh
. tab m4ac1a
1A. Lμm |
nhËn l−¬ng |
c«ng | Freq. Percent Cum.
------------+-----------------------------------
Cã | 9,447 26.11 26.11
Kh«ng | 26,728 73.89 100.00
------------+-----------------------------------
Total | 36,175 100.00
. tab m4ac1a in 100 /*t¹o b¶ng tÇn sè cho biÕn m4ac1a cho quan s¸t thø 100, chÝnh b»ng gÝa
trÞ cña biÕn nμy t¹i quan s¸t thø 100*/
1A. Lμm |
nhËn l−¬ng |
c«ng | Freq. Percent Cum.
------------+-----------------------------------
Kh«ng | 1 100.00 100.00
------------+-----------------------------------
Total | 1 100.00
. tab m4ac1a in 100/1000 /*t¹o b¶ng tÇn sè cho biÕn m4ac1a cho c¸c quan s¸t tõ thø 100 ®Õn 1000 */
1A. Lμm |
nhËn l−¬ng |
c«ng | Freq. Percent Cum.
------------+-----------------------------------
Cã | 281 34.10 34.10
Kh«ng | 543 65.90 100.00
------------+-----------------------------------
Total | 824 100.00
. tab m4ac1a in f/100 /*t¹o b¶ng tÇn sè cho biÕn m4ac1a cho c¸c quan s¸t tõ thø 1 ®Õn 100 */
1A. Lμm |
nhËn l−¬ng |
c«ng | Freq. Percent Cum.
------------+-----------------------------------
Cã | 42 45.16 45.16
Kh«ng | 51 54.84 100.00
------------+-----------------------------------
Total | 93 100.00
. tab m4ac1a in 100/l /*t¹o b¶ng tÇn sè cho biÕn m4ac1a cho c¸c quan s¸t tõ thø
100 ®Õn quan s¸t cuèi cïng */
1A. Lμm |
nhËn l−¬ng |
c«ng | Freq. Percent Cum.
------------+-----------------------------------
Cã | 9,405 26.06 26.06
Kh«ng | 26,678 73.94 100.00
------------+-----------------------------------
Total | 36,083 100.00
Cho phÐp c¸c phÐp ph©n tÝch cã sö dông ®Õn träng sè (hay quyÒn sè)
Khi ph©n tÝch VHLSS cÇn sö dông träng sè nÕu b¹n muèn −íc l−îng c¸c tham sè thèng kª cho tæng
thÓ. Trong VHLSS2006 cã 2 biÕn l−u träng sè.
wt9: träng sè hé (khi sö dông d÷ liÖu mÉu kh¶o s¸t thu nhËp vμ chi tiªu víi cì mÉu 9189 hé)
H×nh 22
VÝ dô: BiÕn reg8 l−u tr÷ th«ng tin vÒ vïng. Cã 8 vïng trong c¶ n−íc. Theo b¹n lμm sao biÕt ®−îc
reg8=1 lμ t−¬ng øng víi Vïng nμo? (H·y xem trong sheet tinh cña file excel Muc1.xls)
tab reg8
. sum m4ac11
Khi ph©n tÝch VHLSS, víi lÖnh håi quy, b¹n dïng ch÷ pw thay cho ch÷ aw ®Ó khai
b¸o träng sè
NhiÒu c©u lÖnh trong STATA cho phÐp cã c¸c tuú chän riªng, c¸c tuú chän nμy chØ
®−îc chØ ®−îc chØ ra sau dÊu phÈy (dÊu ,).
VÝ dô:
. gen cap3=1 if m2ac1>=10
(30246 missing values generated)
. tab cap3
B¹n h·y dμnh thêi gian ®Ó lμm thªm mét sè bμi tËp sau, bμi tËp 1 vμ 2 kh¸ dÔ dμng trong viÖc t×m
®−îc c¬ së lý thuyÕt, c¸c nghiªn cøu tr−íc ®©y cã liªn quan. Khi lμm 2 bμi tËp nμy, b¹n sÏ t×m thÊy
rÊt nhiÒu ®iÒu høng thó vμ sÏ n¾m v÷ng h¬n vÒ VHLSS vμ c¸c lÖnh quan träng nhÊt cña Stata. Bμi
tËp 3 lμ øng dông vμo ®Ò tμi nghiªn cøu cña b¹n.
B¹n h·y läc d÷ liÖu tõ VHLSS2006 cho c¸c biÕn cÇn thiÕt, vμ thùc hiÖn mét m« h×nh kinh tÕ l−îng
®Ó t×m hiÓu c¸c yÕu tè ¶nh h−ëng ®Õn x¸c suÊt mét hé lμ hé nghÌo.
Gîi ý: Trong file d÷ liÖu, mçi dßng lμ mét hé gia ®×nh. Lùa chän chuÈn nghÌo ®Ó x¸c ®Þnh hé nμo
lμ hé nghÌo. T×m c¬ së lý thuyÕt vÒ vÊn ®Ò nμy, läc d÷ liÖu tõ VHLSS, sö dông m« h×nh logit (hμm
logit trong Stata), chó ý vÊn ®Ò träng sè.
B¹n h·y läc d÷ liÖu tõ VHLSS2006 cho c¸c biÕn cÇn thiÕt, vμ thùc hiÖn mét m« h×nh kinh tÕ l−îng
®Ó x¸c ®Þnh c¸c yÕu tè ¶nh h−ëng ®Õn thu nhËp cña ng−êi lao ®éng trÎ ë ViÖt Nam.
Gîi ý: Trong file d÷ liÖu, mçi dßng lμ mét c¸ nh©n. §Ó ®¬n gi¶n, sö dông m« h×nh håi quy víi OLS
(lÖnh regress trong Stata), chó ý ®Õn vÊn ®Ò träng sè. Chó ý viÖc tæng quan lý thuyÕt.
§Ò tμi nghiªn cøu mμ b¹n ®ang tiÕn hμnh cã sö dông d÷ liÖu tõ VHLSS ®−îc hay kh«ng? NÕu ®−îc.
B¹n h·y läc c¸c d÷ liÖu cÇn thiÕt tõ VHLSS, vμ thùc hiÖn tÝnh to¸n c¸c chØ tiªu, m« h×nh kinh tÕ
l−îng cÇn thiÕt, phôc vô cho ®Ò tμi cña b¹n.
Phô lôc
Hàm toán học (Mathematic Functions)
Câu lệnh Diễn giải
abs(x) Giá trị tuyệt đối (Absolute value)
sin(x), cos(x), tan(x) Sin, cos, tg
int(x), round(x) Lấy số nguyên/làm tròn số
exp(x) Hàm mũ Exponential function
ln(x) Logarit tự nhiên (Natural logarithm)
logit(x), invlogit(x) Log của tỷ lệ odd và nghịch đảo của nó
max(x), min(x) GT lớn nhất và nhỏ nhất
sqrt(x) Căn bậc (Square root)
sum(x) Tổng cộng
Bạn có thể tìm hiểu thêm về thống kê, kinh tế lượng với Stata ở đâu?
Thư viện của Fulbright: đọc các sách hướng dẫn Stata 10, Thống kê/ kinh tế lượng với Stata
Google!