Professional Documents
Culture Documents
néi dung
Phô lôc.......................................................................................................................................87
1
1. Tæ chøc lu tr÷ d÷ liÖu trong Stata (Dataset in Stata)
Stata lµ phÇn mÒm thèng kª sö dông ®Ó qu¶n lý, ph©n tÝch sè liÖu vµ vÏ ®å thÞ.
Stata cho phÐp lu tr÷ th«ng tin vÒ c¸c ®Æc ®iÓm cña c¸c ®èi tîng nghiªn cøu. Sè liÖu
lu tr÷ trong Stata cã thÓ ®îc hiÓn thÞ díi d¹ng b¶ng nh vÝ dô sau:
hhcode headname hhsize incomepc
101 Nguyen Van A 6 2100
102 Le Thi B 5 3210
103 Tran Van C 10 1200
Quan s¸t (b¶n ghi)
Mçi mét hµng ngang cña b¶ng sè liÖu ®îc gäi lµ mét quan s¸t (observation), hay mét b¶n ghi
(record) lu tr÷ sè liÖu vÒ mét ®èi tîng nghiªn cøu. ë vÝ dô trªn cã 3 quan s¸t lu tr÷ sè liÖu vÒ
M· hé (hhcode); Tªn chñ hé (headname); Quy m« hé (hhsize); Thu nhËp b×nh qu©n
(incomepc) cña 3 hé gia ®×nh.
BiÕn (trêng; thuéc tÝnh)
Th«ng tin vÒ ®èi tîng nghiªn cøu ®îc thu thËp vµ lu tr÷ theo c¸c ®Æc ®iÓm cña chóng. C¸c
®Æc ®iÓm nµy ®îc gäi lµ biÕn (variable), hay trêng (field). BiÕn ®îc xem lµ c¸c cét cña b¶ng
sè liÖu. ë vÝ dô trªn cã 4 biÕn, víi tªn lµ hhcoed, hedname, hhsize, vµ incomepc. Tªn biÕn dµi
tõ 1 ®Õn 32 ký tù, ®îc b¾t ®Çu ch÷ hoÆc dÊu g¹ch díi (_). Tªn biÕn chØ bao gåm ch÷, sç vµ
dÊu g¹ch díi. C¸c ký tù ®Æc biÖt kh¸c kh«ng thÓ dïng ®Ó ®Æt tªn cho biÕn.
BiÕn x¸c ®Þnh (identifying variables)
Th«ng thêng trong c¸c biÕn sÏ cã c¸c biÕn dïng ®Ó nhËn d¹ng quan s¸t, ®îc gäi lµ biÕn x¸c
®Þnh. Nhê cã c¸c biÕn x¸c ®Þnh nµy mµ c¸c quan s¸t cã thÓ ph©n biÖt ® îc víi nhau. Mçi mét
quan s¸t cã mét gi¸ trÞ cña c¸c biÕn nµy. ë vÝ dô trªn, biÕn x¸c ®Þnh lµ hhcode, ®èi víi mçi
mét quan s¸t biÕn hhcode nhËn mét gi¸ trÞ.
BiÕn cã thÓ ®îc ®Þnh d¹ng (format) lµ biÕn sè vµ biÕn ký tù víi c¸c lo¹i lu tr÷ kh¸c
nhau. BiÕn sè cã thÓ lu tr÷ díi lo¹i byte; int; long; float; double. Cßn biÕn ký tù th× cã
thÓ lu tr÷ díi d¹ng str1 ®Õn str80 cho c¸c ®é dµi kh¸c nhau.
KiÓu lu tr÷ Dung lîng Gi¸ trÞ nhá nhÊt Gi¸ trÞ lín nhÊt KiÓu
d¹ng sè (Byte)
byte 1 -127 126 Sè nguyªn
int 2 -32,767 32,766 Sè nguyªn
long 4 -2,147,483,647 2,147,483,646 Sè nguyªn
float 4 -10^36 10^36 Sè thùc
double 8 -10^308 10^308 Sè thùc
C¸c biÕn sè cã thÓ bao gåm c¸c biÕn rêi r¹c vµ liªn tôc. C¸c biÕn nh lµ quy m« hé gia ®×nh,
giíi tÝnh chñ hé, vïng ®Þa lý, tr×nh ®é gi¸o dôc lµ c¸c biÕn rêi r¹c (discrete) (hay cßn gäi lµ
biÕn ph©n lo¹i (categorical)). C¸c biÕn nµy cã thÓ ®îc lu tr÷ díi d¹ng byte, int, vµ long. C¸c
biÕn liªn tôc (continuous) nh thu nhËp, chi tiªu cña hé th× lu tr÷ díi d¹ng float hoÆc double.
2
BiÕn ký tù (string) dïng ®Ó lu tr÷ c¸c lo¹i ký tù. VÝ dô biÕn headname lµ biÕn kiÓu ký tù
dïng ®Ó lu tr÷ tªn cña chñ hé.
KiÓu lu tr÷ Byte §é dµi lín nhÊt
d¹ng ch÷
str1 1 1
str2 2 2
...
str80 80 80
1
Phiªn b¶n Stata 8 cã giao diÖn t¬ng tù nh phiªn b¶n Stata 7. Kh¸c biÖt lín nhÊt lµ Stata 8 cã thªm tuú
chän Statistics trong thanh thùc ®¬n. Tuú chän nµy cho phÐp thùc hiÖn c¸c mét sè lÖnh thèng kª b»ng
c¸c tuú chän qua giao diÖn cöa sæ mµ kh«ng ph¶i gâ c¸c lÖnh trong cöa sæ Command.
3
C¸c cöa sæ cña Stata
C¸c cöa sæ cña Stata ®îc më ra b»ng viÖc lùa chän c¸c tuú chän ë thanh thùc ®¬n Windows
(menu bar). C¸c cöa sæ nµy bao gåm:
Results HiÓn thÞ c¸c lÖnh vµ kÕt qu¶
Graph HiÓn thÞ ®å thÞ
Viewer HiÓn thÞ cöa sæ trî gióp (help) vµ hiÓn thÞ néi dung c¸c file v¨n b¶n
(text)
Command Dïng ®Ó gâ c¸c c©u lÖnh
Review HiÓn thÞ c¸c lÖnh ®· thùc hiÖn
Variables HiÓn thÞ danh s¸ch c¸c biÕn cña tÖp sè liÖu
Data editor HiÓn thÞ vµ söa ch÷a sè liÖu díi d¹ng b¶ng
Do-file editor HiÓn thÞ cöa sæ ®Ó so¹n th¶o ch¬ng tr×nh
File
Open Më file sè liÖu
View Xem c¸c file cña Stata trong cöa sæ Viewer
Save Lu file sè liÖu
Save as Lu file sè liÖu díi tªn míi
File name Chän tªn file ®Ó ®a vµo cöa sæ lÖnh
Log §ãng, më, xem l¹i log file
Save graph Lu gi÷ file ®å thÞ
Print graph In ®å thÞ
Print results In kÕt qu¶
Exit Tho¸t khái Stata
Edit
Copy text Sao chÐp v¨n b¶n (text)
Copy tables Sao chÐp b¶ng biÓu
Paste D¸n
Table copy options Lùa chän sao chÐp b¶ng sè liÖu
Graph copy options Lùa chän sao chÐp ®å thÞ (kh«ng cã trong Stata 7)
Help C¸c trî gióp liªn quan ®Õn viÖc sö dông Stata
Thanh c«ng cô (tool bar)
C¸c tuú chän trªn thanh c«ng cô ®îc thiÕt kÕ ®Ó thùc hiÖn c¸c lÖnh th«ng dông cña Stata.
NÕu chóng ta di chuyÓn con trá ®Õn c¸c nót nµy th× sÏ hiÖn lªn c¸c c©u huíng dÉn, bao gåm:
Open (use) Më file sè liÖu Stata
Save Lu tr÷ file sè liÖu ra ®Üa
Print results In néi dung cña cöa sæ kÕt qu¶
Begin log Më, ®ãng vµ xem néi dung cña file log
Start viewer Më cöa sæ trî trî (help)
Bring Dialog Window to font §a cöa sæ hép tho¹i ra phÝa tríc
Bring Result Window to font §a cöa sæ kÕt qu¶ ra phÝa tríc
Bring Graph Window to font §a cöa sæ vÏ ®å thÞ ra phÝa tríc
Do-file editor Më cöa sæ so¹n th¶o ch¬ng tr×nh
Data editor Më cöa sæ söa ch÷a sè liÖu
Data browser Më cöa sæ xem sè liÖu
Clear –more- condition T¾t lÖnh more
Break Dõng viÖc thùc hiÖn lÖnh hoÆc ch¬ng tr×nh
6
cmdlog {off | on | close}
- §Ó xem c¸c file log/smcl vµo thanh thùc ®¬n: file/log/view (hoÆc ë cöa sæ lÖnh
command gâ: view (tªn tÖp)); hoÆc cã thÓ më b»ng c¸c ch¬ng tr×nh so¹n thao v¨n b¶n
kh¸c nh MS-Word; Notepad
VÝ dô:
use ho1.dta më tÖp ho1.dta ë th môc hiÖn thêi
use "D:\VHLSS 2004\ho1.dta", clear më tÖp ho1.ta ë th môc VHLSS 2004 trªn æ D
TÖp sè liÖu Stata cã thÓ ®îc më b»ng lùa chän Open trªn thùc ®¬n File; hoÆc nót Open (use)
trªn thanh c«ng cô tool bar.
NÕu file sè liÖu cã dung lîng lín th× chóng ta ph¶i thiÕt lËp bé nhí cÇn dïng cho Stata b»ng
lÖnh:
set memory #[k|m]
VÝ dô:
set mem 32m
set mem 32000k
NhËp sè liÖu
Cã mét sè c¸ch ®Ó nhËp sè liÖu tõ bµn phÝm vµo bé nhí cña Stata.
- Sö dông cöa sæ Stata editor ®Ó nhËp sè liÖu. HoÆc tõ cöa sæ command, gâ lÖnh edit.
Sau ®ã nhËp sè liÖu theo kiÓu biÓu b¶ng trong cöa sæ nµy.
- Sö dông lÖnh: input [danh s¸ch biÕn + ®Þnh d¹ng nÕu cÇn]
Sau ®ã sö dông bµn phÝm ®Ó nhËp sè liÖu lÇn lît cho c¸c biÕn cña tõng quan s¸t. Gi¸
trÞ ®îc nhËp c¸ch nhau 1 ký tù trèng. KÕt thóc nhËp sè liÖu b»ng lÖnh end.
VÝ dô:
. input hhcode str15 name income
hhcode name income
1. 101 "Nguyen Van A" 1200
2. 102 "Nguyen Van B" 1350
3. 103 "Tran Thi C" 2310
4. end
7
Stata cho phÐp nhËp sè liÖu tõ c¸c file c¬ së d÷ liÖu kh¸c. Tríc hÕt c¸c file sè liÖu nµy cÇn ®-
îc lu tr÷ díi d¹ng text (cã thÓ b»ng ch¬ng tr×nh Excel), c¸c quan s¸t ®îc c¸c nhau 1 dßng vµ c¸c
gi¸ trÞ c¸ch nhau 1 dÉu phÈy (commas) hoÆc dÊu c¸ch (tab). Sau ®ã dïng lÖnh insheet ®Ó
nhËp sè liÖu nµy vµo Stata.
Có ph¸p:
insheet [danh s¸ch biÕn] using (tªn tÖp text) [, [no]names comma tab clear]
LÖnh nµy sÏ ®äc vµo bé nhí cña Stata c¸c quan s¸t cña tÖp text, vµ chØ ra tªn c¸c biÕn sÏ ® îc
t¹o ra.
8
Ch¬ng II: Khai th¸c d÷ liÖu
9
by danh s¸ch biÕn (by varlist): Stata sÏ thùc hiÖn c©u lÖnh víi theo tõng gi¸ trÞ ®îc chØ ra
bëi danh s¸ch biÕn. BiÕn ®îc chØ ra bëi danh s¸ch biÕn ®îc yªu cÇu s½p xÕp tríc khi thùc
hiÖn lÖnh.
VÝ dô:
. sort sex
-> sex = 1
-> sex = 2
10
ChØ ra danh s¸ch c¸c biÕn chÞu t¸c ®éng cña c©u lÖnh. NÕu nh kh«ng cã biÕn nµo ®îc chØ
ra th× lÖnh Stata sÏ cã t¸c dông lªn tÊt c¶ c¸c biÕn (all variables)
VÝ dô:
. sum
LÖnh sum nµy hiÓn thÞ thèng kª c¬ b¶n cña tÊt c¶ c¸c biÕn trong tÖp sè liÖu.
§iÒu kiÖn (if exp)
Stata chØ thùc hiÖn c©u lÖnh ®èi víi c¸c quan s¸t mµ gi¸ trÞ cña nã cho kÕt qu¶ cña biÓu thøc
lµ ®óng.
VÝ dô:
LÖnh nµy chØ cã t¸c dông ®èi víi c¸c quan s¸t mµ biÕn reg7 cã gi¸ trÞ b»ng 1.
Ph¹m vi (in range)
ChØ ra ph¹m vi c¸c quan s¸t chÞu t¸c ®éng cña c©u lÖnh. Range (ph¹m vi) cã thÓ cã c¸c d¹ng
sau:
sum poor in 10 TÝnh gi¸ trÞ trung b×nh cña biÕn poor cho quan s¸t 10 (chÝnh b»ng
gi¸ trÞ cña biÕn poor t¹i quan s¸t thø 10)
sum poor in 10/100 TÝnh gi¸ trÞ trung b×nh cña biÕn poor cho quan s¸t tõ 10 ®Õn 100
sum poor in f/100 TÝnh gi¸ trÞ trung b×nh cña biÕn poor cho quan s¸t tõ ®Çu tiªn ®Õn
100
11
sum poor in 100/l TÝnh gi¸ trÞ trung b×nh cña biÕn poor cho quan s¸t tõ thø 100 ®Õn
quan s¸t cuèi cïng
QuyÒn sè (weight)
Cho phÐp tÝnh to¸n sñ dông quyÒn sè. Tuú chän vÒ quyÒn sè sÏ ®îc tr×nh bµy kü ë môc 5
cña ch¬ng nµy.
C¸c tuú chän (Options)
NhiÒu c©u lÖnh Stata cho phÐp c¸c tuú chän riªng. C¸c tuú chän nµy ®îc chØ ra sau dÊu
phÈy.
VÝ dô:
LÖnh sum cã tuú chän lµ detail, cho phÐp tÝnh to¸n thªm mét sè thèng kª kh¸c ngoµi gi¸
trÞ trung b×nh vµ ®é lÖnh chuÈn.
Chó ý:
- Stata cho phÐp viÕt t¾t c¸c lÖnh vµ tïy chän. Trong tµi liÖu nµy, phÇn g¹ch ch©n díi
c¸c lÖnh cã nghÜa lµ lÖnh ®ã cã thÓ viÕt t¾t b»ng ký tù trong phÇn g¹ch ch©n nµy.
VÝ dô nh lÖnh use cã nghÜa lµ cã thÓ ®îc viÕt t¾t bëi u.
- Có ph¸p cña c¸c c©u lÖnh trong tµi liÖu nµy ®îc viÕt b»ng tiÕng Anh, cho phÐp ngêi
®äc cã thÓ ®èi chiÕu víi phÇn híng dÉn sö dông trong Stata.
12
/ Chia
^ Luü thõa
Quan hÖ
> Lín h¬n
< Nhá h¬n
>= Lín h¬n hoÆc b»ng
<= Nhá h¬n hoÆc b»ng
== B»ng
~= Kh«ng b»ng (kh¸c)
!= Kh«ng b»ng (kh¸c)
L«gÝc
~ Kh«ng
| HoÆc
& Vµ
Chó ý:
Trong biÓu thøc dÊu == ®îc dïng cho viÖc kiÓm ®Þnh biÓu thøc, vÝ dô nh ®îc dïng sau
lÖnh if. Cßn dÊu = ®îc dïng cho lÖnh t¹o biÕn.
VÝ dô:
gen RRD=0
replace RRD=1 if reg8==1
C¸c hµm sè (function)
Hµm sè thêng ®îc dïng trong biÓu thøc (exp) cña c©u lÖnh Stata. NÕu coi Y lµ mét hµm sè
cña f(X1, X2,…, Xn) th× lÖnh vÒ hµm sè trong Stata sÏ tÝnh gi¸ trÞ cña Y nÕu cho c¸c gi¸ trÞ
cña Xi. Stata cã 8 lo¹i hµm sè:
Mathematical functions C¸c hµm to¸n häc
Statistical functions Hµm thèng kª
Random numbers Hµm cho sè ngÉu nhiªn
String functions Hµm liªn quan ®Õn dÉy ký tù
Special functions Hµm ®Æc biÖt
Date functions Hµm ngµy th¸ng
Time-series functions Hµm chuçi thêi gian
Matrix functions Hµm ma trËn
VÝ dô:
gen absx=abs(x)
gen log_exp=log(rlpcex1)
C¸c ký hiÖu cô thÓ vÒ c¸c hµm sè nµy cã thÓ xem ë môc help functions.
13
3. M« t¶ d÷ liÖu (Data reporting)
3.1. Xo¸ bé nhí cña Stata
Có ph¸p:
clear
LÖnh nµy xo¸ c¸c d÷ liÖu trong bé nhí cña Stata, b¾t ®Çu cho mét file lµm viÖc míi.
3.2. Híng dÉn sö dông lÖnh Stata
Có ph¸p:
help <C©u lÖnh Stata>
LÖnh nµy hiÓn thÞ híng dÉn sö dông c¸c lÖnh Stata, lÖnh Stata cÇn ph¶i ®îc gâ ®Çy ®ñ vµ
chÝnh x¸c.
VÝ dô:
. help sum
help for sum not found
try help contents or search sum
. help summarize
-----------------------------------------------------------------------------------------
help for summarize (manual: [R] summarize)
-----------------------------------------------------------------------------------------
Summary statistics
….
Chó ý:
Chóng ta cã thÓ t×m híng dÉn sö dông theo tõ kho¸ b»ng lÖnh search. LÖnh search cã thÓ ®îc
thùc hiÖn b»ng tuú chän Search ë thùc ®¬n help.
3.3. M« t¶ d÷ liÖu
Có ph¸p:
describe [danh s¸ch biÕn]
LÖnh nµy hiÓn thÞ th«ng tin chung nh tªn biÕn, ®Þnh d¹ng, nh·n biÕn cña c¸c biÕn ®îc liÖt
kª bëi danh s¸ch biÕn cña file sè liÖu ®ang më. NÕu nh kh«ng cã biÕn nµo ®îc chØ ra th×
lÖnh describe sÏ hiÖn thÞ th«ng tin cña tÊt c¶ c¸c biÕn.
VÝ dô:
14
-------------------------------------------------------------------------------
househol long %12.0g household code
year float %9.0g Year of interview
month float %9.0g Month of interview
vlssmphs byte %8.0g 1 if vlss, 2 if mphs source
VÝ dô:
househol farm
1. 36307 farm
2. 28002 farm
3. 36017 farm
4. 32418 non farm
5. 15215 non farm
househol farm
1. 36307 1
2. 28002 1
3. 36017 1
4. 32418 0
5. 15215 0
. dis 120*100/30
400
15
3.6. Söa ch÷a, xem sè liÖu
Có ph¸p:
edit [danh s¸ch biÕn] [®iÒu kiÖn] [ph¹m vi] [, nolabel]
browse [danh s¸ch biÕn] [®iÒu kiÖn] [ph¹m vi] [, nolabel]
LÖnh edit nµy më cöa sæ Data editor ®Ó ngêi sö dông söa ch÷a, nhËp sè liÖu. Tuú chän
nolable cho phÐp hiÓn thÞ gi¸ trÞ sè chø kh«ng ph¶i lµ gi¸ trÞ g¸n nh·n. LÖnh nµy cã thÓ ® îc
chän tõ tuú chän Data editor trong thanh thùc ®¬n Windows.
LÖnh browse gièng lÖnh edit nhng kh«ng cho phÐp söa ch÷a sè liÖu.
3.7. §Õm quan s¸t
Có ph¸p:
count [®iÒu kiÖn] [ph¹m vi]
LÖnh nµy ®Õm sè quan s¸t ®îc chØ ra bëi ®iÒu kiÖn (exp) vµ ph¹m vi (range). NÕu ®iÒu
kiÖn (exp) vµ ph¹m vi (range) kh«ng ®îc chØ ra th× sÏ hiÖn thÞ sè quan s¸t cña tÖp sè liÖu.
VÝ dô:
. count
5999
. count if reg7==1
859
. count if reg7==1 & urban98==1
187
. count if reg7==1 & urban98==0
672
3.8. Thèng kª c¬ b¶n
Có ph¸p:
summarize [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, detail]
LÖnh nµy tÝnh to¸n vµ hiÓn thÞ nh÷ng thèng kª c¬ b¶n cña c¸c biÕn ®îc chØ ra bëi danh s¸ch
biÕn. Tuú chän detail cho phÐp hiÓn thÞ thªm mét sè thèng kª nh ®é nhän, ®é lÖnh vµ c¸c gi¸
trÞ cña thËp vÞ ph©n.
VÝ dô:
. sum rlpcex1
16
. sum rlpcex1, detail
VÝ dô:
. gen x=invnorm(uniform())
. inspect x
x: Number of Observations
---- Non-
Total Integers Integers
| # Negative 2964 - 2964
| # Zero - - -
| # Positive 3035 - 3035
| # ----- ----- -----
| # # # Total 5999 - 5999
| . # # # . Missing -
+---------------------- -----
-3.918931 3.641588 5999
(More than 99 unique values)
17
tabulate <tªn biÕn> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, missing nolabel]
tab1 <danh s¸ch biÕn> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, missing nolabel]
LÖnh nµy t¹o b¶ng tÇn suÊt 1 chiÒu cña biÕn ®îc chØ ra. LÖnh tabulate chØ cho phÐp cã 1
biÕn ®îc chØ ra, nÕu cã h¬n 1 biÕn ®îc chØ ra th× Stata sÏ hiÓu lµ t¹o b¶ng tÇn suÊt 2 chiÒu.
C¸c tuú chän:
missing Cho phÐp c¸c quan s¸t kh«ng cã gi¸ trÞ (missing) ®îc xÕp vµo 1 lo¹i.
nolabel Cho phÐp hiÓn thÞ gi¸ trÞ sè cña biÕn, chø kh«ng ph¶i nh·n biÕn
VÝ dô:
. tab sex
Gender of |
HH.head |
(1:M;2:F) | Freq. Percent Cum.
------------+-----------------------------------
1 | 4375 72.93 72.93
2 | 1624 27.07 100.00
------------+-----------------------------------
Total | 5999 100.00
1:urban 98; |
0:rural 98 | Freq. Percent Cum.
------------+-----------------------------------
Rural | 4269 71.16 71.16
Urban | 1730 28.84 100.00
------------+-----------------------------------
Total | 5999 100.00
Code by 7 |
regions | Freq. Percent Cum.
------------+-----------------------------------
region1 | 859 14.32 14.32
region2 | 1175 19.59 33.91
region3 | 708 11.80 45.71
region4 | 754 12.57 58.28
region5 | 368 6.13 64.41
region6 | 1023 17.05 81.46
region7 | 1112 18.54 100.00
------------+-----------------------------------
Total | 5999 100.00
18
T¹o b¶ng tÇn suÊt 2 chiÒu
Có ph¸p:
tabulate <tªn biÕn 1> <tªn biÕn 2> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, chi2 missing
nofreq cell column row]
tab2 <danh s¸ch biÕn> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, chi2 missing nofreq cell
column row]
LÖnh tablulate nµy tÝnh vµ hiÓn thÞ b¶ng tÇn suÊt 2 chiÒu cña 2 biÕn ®îc chØ ra. LÖnh
tab2 t¹o b¶ng tÇn suÊt 2 chiÒu cña tõng cÆp biÕn ®îc chØ ra trong danh s¸ch biÕn.
VÝ dô:
19
. tab farm urban98, column row
Type of HH | 1:urban 98; 0:rural
(1:farm; | 98
0:nonfarm) | Rural Urban | Total
-----------+----------------------+----------
non farm | 1021 1540 | 2561
| 39.87 60.13 | 100.00
| 23.92 89.02 | 42.69
-----------+----------------------+----------
farm | 3248 190 | 3438
| 94.47 5.53 | 100.00
| 76.08 10.98 | 57.31
-----------+----------------------+----------
Total | 4269 1730 | 5999
| 71.16 28.84 | 100.00
| 100.00 100.00 | 100.00
VÝ dô:
20
missing Cho phÐp c¸c quan s¸t kh«ng cã gi¸ trÞ ®îc xÕp vµo 1 lo¹i
VÝ dô:
. replace poor=poor*100
(1777 real changes made)
. format poor %4.2f
. tab reg7 urban98, sum(poor) means
Means of poor
VÝ dô:
21
-----------------------------
region5 | 5894.983 11217.05
| 5380.505 9421.447
-----------------------------
region6 | 9746.158 23515.01
| 8428.743 18514.39
-----------------------------
region7 | 6556.616 13068.11
| 6066.128 11043.99
-----------------------------
Total | 6787.898 14010.74
| 5951.567 10733.19
-----------------------------
VÝ dô:
VÝ dô:
----------------------------------------------------
| Type of HH (1:farm; 0:nonfarm) and
| 1:urban 98; 0:rural 98
Code by 7 | ---- non farm ---- ------ farm ------
regions | Rural Urban Rural Urban
----------+-----------------------------------------
region1 | 19.35484 6.015038 65.7377 12.96296
region2 | 26.66667 4.624278 33.96524 15.21739
23
region3 | 40.98361 10.11236 45.8159 10.52632
region4 | 21.6 11.63793 42.44032 10
region5 | 30.76923 49.24012
region6 | 15.04065 2.195609 10.07463 0
region7 | 38.62816 10.04184 34.35805 11.62791
----------------------------------------------------
VÝ dô:
------------------------------------------------------
| Type of HH (1:farm; 0:nonfarm) and 1:urban
| 98; 0:rural 98
Code by 7 | ----- non farm ---- ------- farm ------
regions | Rural Urban Total Rural Urban Total
----------+-------------------------------------------
region1 | 19.35 6.02 10.26 65.74 12.96 61.45
region2 | 26.67 4.62 11.29 33.97 15.22 32.70
region3 | 40.98 10.11 27.96 45.82 10.53 44.47
region4 | 21.60 11.64 15.13 42.44 10.00 40.81
region5 | 30.77 30.77 49.24 49.24
region6 | 15.04 2.20 6.43 10.07 0.00 9.78
region7 | 38.63 10.04 25.39 34.36 11.63 32.72
|
Total | 27.91 6.17 14.84 42.30 12.11 40.63
------------------------------------------------------
----------------------------------------
1:urban |
98; | Type of HH (1:farm;
0:rural | 0:nonfarm)
98 | non farm farm Total
----------+-----------------------------
Rural | 27.91 42.30 38.86
| 44.88 49.41 48.75
|
Urban | 6.17 12.11 6.82
| 24.07 32.71 25.22
|
Total | 14.84 40.63 29.62
| 35.55 49.12 45.66
24
----------------------------------------
----------------------------------------
1:urban |
98; | Type of HH (1:farm;
0:rural | 0:nonfarm)
98 | non farm farm Total
----------+-----------------------------
Rural | 2835.83 2212.12 2361.29
| 13242.03 10120.89 10867.36
|
Urban | 5476.86 3232.17 5230.33
| 22984.44 11903.19 21767.43
|
Total | 4423.95 2268.49 3188.67
| 19100.41 10219.39 14010.74
----------------------------------------
ë ®©y biÕn reg7 cã 7 gi¸ trÞ tõ 1 ®Õn 7 t¬ng øng víi 7 biÕn gi¶ tõ region1 ®Õn region7 sÏ ®îc
t¹o ra. BiÕn region1 nhËn gi¸ trÞ b»ng 1 nÕu nh biÕn reg7 nhËn gi¸ trÞ 1, nÕu kh«ng th× b»ng
0. T¬ng tù biÕn region7 nhËn gi¸ trÞ 1 nÕu nh biÕn reg7 b»ng 7.
ë vÝ dô trªn lÖnh tabulate…generate t¬ng ®¬ng víi 7 lÖnh sau:
gen region1=(reg7==1)
gen region2=(reg7==2)
…
gen region7=(reg7==7)
T¹o biÕn b»ng lÖnh egen
Có ph¸p:
egen <biÕn míi> = fcn(tham sè) [®iÒu kiÖn] [ph¹m vi] [, by(biÕn)]
LÖnh nµy cho phÐp t¹o biÕn míi theo gi¸ trÞ cña hµm sè ®îc chØ ra bëi fcn. BiÕn míi nµy sÏ
nhËn gi¸ trÞ cè ®Þnh cho mäi quan s¸t. Hµm sè ë ®©y cã thÓ lµ:
count(exp) §Õm sè quan s¸t cña biÓu thøc
26
mean(exp) Cho gi¸ trÞ trung b×nh cña biÓu thøc
median(exp) Cho gi¸ trÞ trung vÞ cña biÓu thøc
sd(exp) Cho gi¸ trÞ ®é lÖch chuÈn cña biÓu thøc
C¸c hµm sè kh¸c cã thÓ xem ë phÇn help egen.
VÝ dô:
. egen sumexp=sum(rlpcex1)
. sum sumexp
VÝ dô:
. drop mucsong
27
. gen str15(mucsong)="Rat ngheo"
. tab mucsong
. sum mucsong
. tab ma_ms
. sum ma_ms
28
. tab quinexp
5 quantiles |
of rlpcex1 | Freq. Percent Cum.
------------+-----------------------------------
1 | 1200 20.00 20.00
2 | 1200 20.00 40.01
3 | 1200 20.00 60.01
4 | 1200 20.00 80.01
5 | 1199 19.99 100.00
------------+-----------------------------------
Total | 5999 100.00
29
keep <ph¹m vi> [®iÒu kiÖn] LÖnh nµy gi÷ l¹i c¸c quan s¸t ®îc chØ ra bëi ph¹m vi (vµ cã
thÓ tho¶ m·n ®iÒu kiÖn biÓu thøc), c¸c quan s¸t kh¸c sÏ bÞ
xo¸ ®i.
VÝ dô:
drop poor urban98 Xo¸ 2 biÕn poor vµ urban98
drop if sex==1 Xo¸ c¸c quan s¸t cã biÕn sex nhËn gi¸ trÞ b»ng 1
drop in 1/20 Xo¸ quan s¸t tõ 1 ®Õn 20
keep househol ChØ gi÷ l¹i biÕn househol, c¸c biÕn kh¸c bÞ xo¸ ®i
keep in f/50 Gi÷ l¹i quan s¸t tõ ®Çu tiªn ®Õn 50, c¸c quan s¸t kh¸c bÞ xo¸
®i
4.4. LÖnh ®æi gi¸ trÞ cña biÕn ph©n lo¹i
Có ph¸p:
recode <tªn biÕn> gi¸ trÞ cò = gi¸ trÞ míi [®iÒu kiÖn] [ph¹m vi]
LÖnh nµy ®æi gi¸ trÞ cña biÕn ph©n lo¹i theo c¸c quy t¾c ®îc chØ ra ë sau ®ã.
VÝ dô:
. recode sex . = 0
(0 changes made)
. tab hhsize
Household |
size | Freq. Percent Cum.
------------+-----------------------------------
1 | 4164 69.41 69.41
2 | 1786 29.77 99.18
3 | 49 0.82 100.00
------------+-----------------------------------
Total | 5999 100.00
. tab urban98
1:urban 98; |
0:rural 98 | Freq. Percent Cum.
------------+-----------------------------------
Rural | 4269 71.16 71.16
Urban | 1730 28.84 100.00
------------+-----------------------------------
Total | 5999 100.00
30
. recode urban98 0=1 1=0
(5999 changes made)
. tab urban98
1:urban 98; |
0:rural 98 | Freq. Percent Cum.
------------+-----------------------------------
Rural | 1730 28.84 28.84
Urban | 4269 71.16 100.00
------------+-----------------------------------
Total | 5999 100.00
VÝ dô:
. gen ngheo=poor
. des ngheo
storage display value
variable name type format label variable label
---------------------------------------------------------------------------
ngheo float %9.0g
. tab ngheo
ngheo | Freq. Percent Cum.
------------+-----------------------------------
0 | 4222 70.38 70.38
1 | 1777 29.62 100.00
------------+-----------------------------------
Total | 5999 100.00
. tab ngheo
Nguoi co |
thu nhap |
duoi chuan |
ngheo | Freq. Percent Cum.
------------+-----------------------------------
0 | 4222 70.38 70.38
1 | 1777 29.62 100.00
------------+-----------------------------------
Total | 5999 100.00
. des ngheo
storage display value
variable name type format label variable label
----------------------------------------------------------------------------
31
ngheo float %9.0g Nguoi co thu nhap duoi chuan
ngheo
T¹o nh·n cã tªn lµ nngheo víi gi¸ trÞ 1 cã nghÜa lµ ngêi nghÌo, cßn 0 cã nghÜa lµ ngêi
kh«ng nghÌo.
. label dir
nngheo
region
loaiho
diploma
urban
agegroup
. label dir
LÖnh label values sÏ g¸n c¸c nh·n cña 1 bé nh·n cho c¸c gi¸ trÞ sè cña 1 biÕn ph©n lo¹i.
VÝ dô:
. tab ngheo
ngheo
1. 1
2. 0
3. 1
4. 1
5. 0
. tab ngheo
ngheo
1. Khong ngheo
2. Ngheo
3. Khong ngheo
4. Khong ngheo
5. Ngheo
33
gsort reg7 –hhsize LÖnh nµy s½p xÕp c¸c quan s¸t theo thø tù t¨ng dÇn cña biÕn vïng
reg7, nhng trong mçi vïng c¸c quan s¸t l¹i ®îc s½p xÕp theo thø tù gi¶m
dÇn cña biÕn quy m« hé hhsize.
4.7. Trén sè liÖu
LÖnh thu gän sè liÖu - collapse
Có ph¸p:
collapse <biÓu thøc thèng kª> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, by(danh s¸ch biÕn)]
trong ®ã:
BiÓu thøc thèng kª lµ danh s¸ch c¸c thèng kª vµ c¸c biÕn t¬ng øng. C¸c thèng kª ®îc ký hiÖu
nh môc 3.12 cña ch¬ng nµy.
LÖnh collapse sÏ t¹o ra mét tÖp sè liÖu míi bao gåm c¸c biÕn ®îc chØ ra bëi danh s¸ch biÕn,
víi c¸c gi¸ trÞ ®îc tÝnh theo thèng kª t¬ng øng. C¸c quan s¸t cña tÖp sè liÖu cò sÏ ®îc nhãm l¹i
theo c¸c gi¸ trÞ cïng lo¹i cña biÕn ®îc chØ ra bëi by(danh s¸ch biÕn).
VÝ dô:
Chóng ta cã file sè liÖu vÒ thu nhËp vµ chi tiªu cña c¸c hé thµnh viªn trong gia ®×nh:
ma_tv ma_ho thunhap Chitieu
1 101 200 500
2 101 1200 400
3 101 0 200
4 101 0 200
1 102 3200 500
2 102 1200 320
3 102 200 200
1 103 300 500
2 103 2100 250
3 103 0 300
4 103 0 300
1 104 4300 800
2 104 3500 500
3 104 300 500
4 104 0 300
5 104 0 200
6 104 0 200
Chóng ta sÏ dïng lÖnh collapse ®Ó t¹o file vÒ thu nhËp vµ chi tiªu b×nh qu©n cña c¸c hé, vµ
t¹o thªm 1 biÕn vÒ qui m« hé.
. gen quimo=1
. collapse (mean) thunhap (mean) chitieu (sum) quimo, by(ma_ho)
thunhap.dta
ma_ho thunhap chitieu quimo
101 350 325 4
102 1533.33 340 3
103 600 337.5 4
104 1350 416.667 6
dialy.dta
ma_ho thanhthi vung
204 0 1
102 1 4
103 0 3
104 0 6
LÖnh merge sÏ ®îc thùc hiÖn nh sau:
. use "C:\dialy.dta", clear
. sort ma_ho
. save "C:\dialy.dta"
file C:\dialy.dta saved
. use "C:\thunhap.dta", clear
. sort ma_ho
. merge ma_ho using "C:\dialy.dta"
ma_ho was byte now int
. edit
35
103 600 337.5 4 0 3 3
104 1350 416.667 6 0 6 3
204 . . . 0 1 2
Trong tÖp kÕt qu¶ cã thªm 1 biÕn tªn lµ _merge, biÕn nµy nhËn c¸c gi¸ trÞ nh sau:
_merge==1 NÕu nh quan s¸t chØ ®îc t¹o tõ tÖp chñ
_merge==2 NÕu nh quan s¸t chØ ®îc t¹o tõ sö dông
_merge==3 NÕu nh quan s¸t ®îc t¹o tõ c¶ tÖp chñ vµ tÖp sö dông
C¸c tuú chän:
Trong trêng hîp hai tÖp sè liÖu cã c¸c biÕn trïng nhau, c¸c tuú chän sau ®©y cho phÐp xö lý sè
liÖu theo c¸c c¸ch kh¸c nhau:
update NÕu sè liÖu cña biÕn trïng nhau cña tÖp chñ cã gi¸ trÞ thiÕu th× gi¸ trÞ thiÕu
nµy nhËn gi¸ trÞ cña biÕn trïng nhau cña tÖp sö dông.
replace Gi¸ trÞ cña biÕn trïng nhau cña tÖp chñ sÏ nhËn gi¸ trÞ cña biÕn trïng nhau cña
tÖp sö dông.
NÕu kh«ng tuú chän nµo ®îc chØ ra th× theo ngÇm ®Þnh, gi¸ trÞ cña biÕn cña tÖp chñ sÏ
kh«ng thay ®æi.
Nèi sè liÖu – lÖnh append
Có ph¸p:
append using <tªn tÖp>
LÖnh nµy cho phÐp nèi tÖp ®îc chØ ra bëi using vµo víi tÖp ®ang ®îc më theo c¸c biÕn cã
cïng tªn vµ ®Þnh d¹ng. Sè quan s¸t cña tÖp míi b»ng tæng sè sè quan s¸t cña 2 tÖp.
36
105 1350 425 1
106 1500 370 0
107 800 556 0
108 1500 417 0
109 2500 540 1
Chó ý: Xem thªm lÖnh expand dung ®Ó t¹o ra c¸c quan s¸t gièng nhau.
4.8. ChuyÓn d¹ng sè liÖu
Có ph¸p:
reshape wide <tªn biÕn>, i(danh s¸ch biÕn) [ j(tªn biÕn [values]) ... ]
reshape long <tªn biÕn>, i(danh s¸ch biÕn) [ j(tªn biÕn [values]) ... ]
reshape wide
reshape long
LÖnh nµy cho phÐp chuyÓn sè liÖu tõ d¹ng ngang sang sè liÖu d¹ng däc (tuú chän long), vµ tõ
d¹ng däc sang d¹ng ngang (tuú chän wide). i(danh s¸ch biÕn) chØ ra biÕn x¸c ®Þnh
(indentifying variables) dïng ®Ó ph©n biÖt c¸c quan s¸t víi nhau trong sè liÖu d¹ng ngang (gäi
lµ quan s¸t cÊp 1). j(tªn biÕn) chØ ra biÕn dïng ®Ó ph©n biÖt gi÷a c¸c quan s¸t cÊp 2 ë sè
liÖu d¹ng däc.
VÝ dô 1:
Chóng ta cã thÓ sè liÖu d¹ng b¶ng ngang nh mét ma trËn nh sau:
-i- -------------------- xÞj -------------------
maho quimo thunhap95 thunhap96 thunhap97
101 5 4500 4400 5400
102 4 3400 3300 3700
103 6 5000 5400 5500
sè liÖu nµy sÏ ®îc chuyÓn sang d¹ng b¶ng däc nh sau:
-i- -j- - xji -
maho quimo nam thunhap
101 5 95 4500
101 5 96 4400
101 5 97 5400
102 4 95 3400
102 4 96 3300
102 4 97 3700
103 6 95 5000
103 6 96 5400
103 6 97 5500
Vµ lÖnh reshape sÏ ®îc viÕt nh sau:
37
Number of variables 5 -> 4
j variable (3 values) -> nam
xij variables:
thunhap95 thunhap96 thunhap97 -> thunhap
---------------------------------------------------------------------
* Va chuyen nguoc lai tu dang doc sang dang ngang nhu sau
VÝ dô 2:
Chóng ta cã sè liÖu d¹ng b¶ng sau ®©y:
maho sotien1 nguon1 sotien2 nguon2
101 1200 “Ngan hang A” 2000 “Ngan hang A”
102 1300 “Ngan hang B” . .
103 2500 “Ngan hang A” 1000 “Ngan hang C”
104 3000 “Ngan hang A” 2000 “Ngan hang B”
B¶ng nµy ®îc chuyÓn sang b¶ng d¹ng däc nh sau:
39
region6 | 1963.8964 528.69328 1023
region7 | 2938.2122 547.72125 1112
------------+------------------------------------
Total | 2688.5003 900.01379 5999
. di 2688.5003*5999
16128313
. di 12636.546*5999
75806639
VÝ dô:
. sum poor
.
.
. tab reg7 urban98
.
. tab reg7 urban98 [fw= hhsizewt]
41
Total | 4.8702272 4.4612717 | 4.752292
.
. table reg7 urban98 , c(mean poor) col row format(%4.1f)
-------------------------------
| 1:urban 98; 0:rural
Code by 7 | 98
regions | Rural Urban Total
----------+--------------------
region1 | 61.5 8.0 49.8
region2 | 32.6 5.9 23.7
region3 | 44.8 10.2 39.5
region4 | 37.3 11.5 28.6
region5 | 47.3 47.3
region6 | 12.5 2.2 7.3
region7 | 35.8 10.3 29.3
|
Total | 38.9 6.8 29.6
-------------------------------
-------------------------------
42
| 1:urban 98; 0:rural
Code by 7 | 98
regions | Rural Urban Total
----------+--------------------
region1 | 65.2 8.3 58.6
region2 | 36.1 7.0 28.7
region3 | 51.3 14.3 48.1
region4 | 43.6 16.6 35.2
region5 | 52.4 52.4
region6 | 13.0 2.9 7.6
region7 | 42.0 15.3 36.9
|
Total | 45.5 9.2 37.4
-------------------------------
Ch¬ng III: KiÓm ®Þnh gi¶ thiÕt vµ ph©n tÝch håi quy
1. ¦íc lîng vµ kiÓm ®Þnh gi¶ thiÕt (Estimation and hypothesis testing)
1.1. ¦íc lîng gi¸ trÞ trung b×nh b»ng kho¶ng tin cËy
Có ph¸p:
ci [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, level(#) binomial poisson
exposure(tªn biÕn) total]
LÖnh nµy tÝnh sai sè chuÈn vµ kho¶ng tin cËy cho gi¸ trÞ trung b×nh cña mÉu theo quy luËt
chuÈn, nhÞ thøc vµ Poatx«ng.
. ci poor
.
.
43
. sort reg7
_______________________________________________________________________________
-> reg7 = region1
_______________________________________________________________________________
-> reg7 = region2
_______________________________________________________________________________
-> reg7 = region3
_______________________________________________________________________________
-> reg7 = region4
_______________________________________________________________________________
-> reg7 = region5
_______________________________________________________________________________
-> reg7 = region6
_______________________________________________________________________________
-> reg7 = region7
_______________________________________________________________________________
-> Total
44
Variable | Obs Mean Std. Err. [95% Conf. Interval]
-------------+-------------------------------------------------------------
poor | 5999 29.6216 .5895501 28.46587 30.77733
Chó ý:
C¸c lÖnh íc lîng cã thÓ ®îc sö dông khi biÕt c¸c tham sè vÒ mÉu. §©y cã thÓ ®îc gäi lµ “c¸c
lÖnh sö dông tham sè trùc tiÕp” (Commands using immediate arguments). C¸c lÖnh nµy rÊt
h÷u dông khi chóng ta kh«ng cã sè liÖu gèc vÒ biÕn.
cii <sè quan s¸t> <gi¸ trÞ trungb×nh> <®é lÖch chuÈn> [, level(#) ] (ph©n phèi chuÈn)
cii <sè quan s¸t> <sè lÇn thµnh c«ng cña quan s¸t> [, level(#) ] (ph©n phèi nhÞ thøc)
#obs chØ ra sè quan s¸t, #succ chØ ra sè lÇn gi¸ trÞ biÕn nhËn gi¸ trÞ t¬ng øng víi phÐp thö
thµnh c«ng (th«ng thêng nhËn gi¸ trÞ b»ng 1)
cii <gi¸ trÞ thêi lîng> <sè lÇn sù kiÖn x¶y ra> poisson [ level(#) ] (ph©n phèi Poatx«ng)
VÝ dô:
. cii 5999 1777, level (90)
-- Binomial Exact --
Variable | Obs Mean Std. Err. [90% Conf. Interval]
-------------+-------------------------------------------------------------
| 5999 .296216 .005895 .2865107 .3060676
-- Poisson Exact --
Variable | Exposure Mean Std. Err. [95% Conf. Interval]
-------------+-------------------------------------------------------------
| 12 2.25 .4330127 1.483144 3.273587
VÝ dô:
----------------------------------------------------------------------------
45
Variable | Mean Std. Err. z P>|z| [95% Conf. Interval]
---------+------------------------------------------------------------------
poor | .4982538 .0170597 29.2065 0.0000 .4648174 .5316901
----------------------------------------------------------------------------
Ha: poor < .44 Ha: poor ~= .44 Ha: poor > .44
z = 3.440 z = 3.440 z = 3.440
P < z = 0.9997 P > |z| = 0.0006 P > z = 0.0003
prtest <biÕn 1> = <tªn biÕn2> [®iÒu kiÖn] [ph¹m vi] [, level(#)]
LÖnh nµy thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt vÒ sù b»ng nhau cña tû lÖ cña hai gi¸ trÞ biÕn
®îc chØ ra bëi tªn biÕn (Ho: pX = pY).
VÝ dô: KiÓm ®Þnh xem tû lÖ nghÌo ®ãi gi÷a vïng 2 vµ vïng 4 cã khac nhau kh«ng:
------------------------------------------------------------------------------
Variable | Mean Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------------------
poor2 | .2365957 .0123983 19.0829 0.0000 .2122955 .2608959
poor4 | .2864721 .016465 17.3989 0.0000 .2542014 .3187429
---------+--------------------------------------------------------------------
diff | -.0498764 .020611 -.0902732 -.0094796
| under Ho: .0203666 -2.44893 0.0143
------------------------------------------------------------------------------
prtest <biÕn> [®iÒu kiÖn] [ph¹m vi], by(biÕn ph©n nhãm) [level(#)]
LÖnh nµy thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt vÒ sù b»ng nhau cña tû lÖ cña hai nhãm ®îc chØ
ra bëi biÕn ph©n nhãm (Ho: pX1 = pX2).
VÝ dô:
46
------------------------------------------------------------------------------
Variable | Mean Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------------------
1 | .3248 .00708 45.8755 0.0000 .3109234 .3386766
2 | .2192118 .0102661 21.353 0.0000 .1990906 .239333
---------+--------------------------------------------------------------------
diff | .1055882 .0124708 .0811459 .1300304
| under Ho: .0132673 7.95855 0.0000
------------------------------------------------------------------------------
VÝ dô:
. bitest poor=0.44 if reg7==1
. ttest rlpcex1=3200
One-sample t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
rlpcex1 | 5999 3188.667 34.76379 2692.567 3120.518 3256.817
------------------------------------------------------------------------------
Degrees of freedom: 5998
Ha: mean < 3200 Ha: mean ~= 3200 Ha: mean > 3200
t = -0.3260 t = -0.3260 t = -0.3260
P < t = 0.3722 P > |t| = 0.7444 P > t = 0.6278
ttest <biÕn 1> = <biÕn 2> [®iÒu kiÖn] [ph¹m vi] [, unpaired unequal level(#) ]
LÖnh nµy thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt r»ng hai biÕn cã gi¸ trÞ trung b×nh b»ng nhau.
(Ho: X = Y).
C¸c tuú chän:
unpaired Sè liÖu cña hai biÕn kh«ng cïng cÆp
unequal Phu¬ng sai cña hai biÕn kh«ng b»ng nhau
VÝ dô:
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
poor2 | 1175 .2365957 .0124036 .425173 .2122601 .2609314
poor4 | 754 .2864721 .0164759 .4524128 .254128 .3188163
---------+--------------------------------------------------------------------
combined | 1929 .2560912 .0099404 .436586 .2365962 .2755863
---------+--------------------------------------------------------------------
diff | -.0498764 .0206229 -.0903285 -.0094243
------------------------------------------------------------------------------
Satterthwaite's degrees of freedom: 1532.64
ttest <biÕn> [®iÒu kiÖn] [ph¹m vi], by(biÕn ph©n nhãm) [ unequal level(#) ]
48
LÖnh nµy thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt vÒ sù b»ng nhau cña gi¸ trÞ trung b×nh cña hai
nhãm ®îc chØ ra bëi biÕn ph©n nhãm (Ho: X1 = X2).
VÝ dô:
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
1 | 4375 2980.906 36.74795 2430.648 2908.862 3052.951
2 | 1624 3748.368 80.18189 3231.241 3591.097 3905.638
---------+--------------------------------------------------------------------
combined | 5999 3188.667 34.76379 2692.567 3120.518 3256.817
---------+--------------------------------------------------------------------
diff | -767.4613 77.6155 -919.6156 -615.3071
------------------------------------------------------------------------------
Degrees of freedom: 5997
VÝ dô:
. sum rlpcex1
. sdtest rlpcex1=2700
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
rlpcex1 | 5999 3188.667 34.76379 2692.567 3120.518 3256.817
------------------------------------------------------------------------------
Ha: sd(rlpcex1) < 2700 Ha: sd(rlpcex1) ~= 2700 Ha: sd(rlpcex1) > 2700
P < chi2 = 0.3838 2*(P < chi2) = 0.7676 P > chi2 = 0.6162
pwcorr [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, obs sig print(#) star(#)]
LÖnh nµy tÝnh hÖ sè t¬ng quan cho tõng cÆp biÕn ®îc chØ ra bëi danh s¸ch biÕn.
pcorr <biÕn> <danh s¸ch biÕn> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi]
LÖnh nµy tÝnh hÖ sè t¬ng quan cña biÕn ®îc chØ ra bëi tªn biÕn víi c¸c biÕn ®îc trong danh
s¸ch biÕn
VÝ dô:
51
| poor hhsize rlpcex1 sex
-------------+------------------------------------
poor | 1.0000
hhsize | 0.2425 1.0000
rlpcex1 | -0.4452 -0.2172 1.0000
sex | -0.1028 -0.2570 0.1267 1.0000
VÝ dô:
------------------------------------------------------------------------------
rlpcex1 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
reg7 | 240.9633 15.5905 15.46 0.000 210.4003 271.5263
sex | 403.2984 77.38324 5.21 0.000 251.5994 554.9974
hhsize | -305.6382 17.70692 -17.26 0.000 -340.3501 -270.9263
_cons | 3160.201 155.6576 20.30 0.000 2855.056 3465.346
------------------------------------------------------------------------------
52
VÝ dô:
------------------------------------------------------------------------------
poor | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
reg7 | -.116342 .0084551 -13.76 0.000 -.1329136 -.0997703
sex | -.1284525 .0422247 -3.04 0.002 -.2112113 -.0456937
hhsize | .1808115 .0095806 18.87 0.000 .1620338 .1995892
_cons | -.8088731 .0824798 -9.81 0.000 -.9705306 -.6472157
------------------------------------------------------------------------------
Ŷi ˆ 0 ˆ 1 X i
e i Yi Ŷi
VÝ dô:
predict exphat, xb
T¹o ra biÕn míi exphat cã gi¸ trÞ íc lîng cña biÕn phô thuéc (fitted value) theo hÖ sè thu ®îc tõ
hµm håi quy.
predict expres, resid
T¹o ra biÕn expres cã gi¸ trÞ cña phÇn d.
KiÓm ®Þnh vÒ hÖ sè cña hµm håi quy
53
Có ph¸p:
test [gi¸ trÞ biÓu thøc]
test [danh s¸ch biÕn]
testparm <danh s¸ch biÕn> [, equal ]
LÖnh test kiÓm ®Þnh c¸c gi¶ thiÕt vÒ hÖ sè cña hµm håi quy võa míi ®îc íc lîng
VÝ dô:
test urban98 =2000
KiÓm ®Þnh gi¶ thiÕt hÖ sè cña biÕn urban98 = 0
test region1 = region2
KiÓm ®Þnh gi¶ thiÕt hÖ sè cña biÕn region1 b»ng hÖ sè cña biÕn region2
test region1 = (region2+region3)/2
KiÓm ®Þnh gi¶ thiÕt vÒ quan hÖ gi÷a c¸c hÖ sè cña biÕn region1, region2, va region3
test region1 region2 region3
KiÓm ®Þnh gi¶ thiÕt hÖ sè cña biÕn region1, region2, va region3 ®Òu b»ng 0
testparm region*
KiÓm ®Þnh gi¶ thiÕt vÒ cña hÖ sè cña biÕn region1 ®Õn region7 ®Òu b»ng 0
Code by 7 |
regions | Freq. Percent Cum.
------------+-----------------------------------
region1 | 859 14.32 14.32
region2 | 1175 19.59 33.91
region3 | 708 11.80 45.71
region4 | 754 12.57 58.28
region5 | 368 6.13 64.41
region6 | 1023 17.05 81.46
region7 | 1112 18.54 100.00
------------+-----------------------------------
Total | 5999 100.00
------------------------------------------------------------------------------
rlpcex1 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
urban98 | 1995.163 66.46943 30.02 0.000 1864.859 2125.467
region1 | -923.7066 132.8334 -6.95 0.000 -1184.108 -663.3052
54
region2 | -362.6047 130.2254 -2.78 0.005 -617.8934 -107.316
region3 | -558.0354 137.1551 -4.07 0.000 -826.9089 -289.1619
region4 | -100.7586 135.8372 -0.74 0.458 -367.0486 165.5313
region5 | (dropped)
region6 | 1742.688 131.9928 13.20 0.000 1483.934 2001.441
region7 | 151.9854 128.0272 1.19 0.235 -98.99396 402.9648
sex | 270.9142 66.61031 4.07 0.000 140.3339 401.4944
educyr98 | 153.3281 6.836934 22.43 0.000 139.9253 166.731
hhsize | -257.691 14.73741 -17.49 0.000 -286.5816 -228.8004
_cons | 2362.355 178.3197 13.25 0.000 2012.784 2711.926
------------------------------------------------------------------------------
( 1) urban98 = 2000.0
F( 1, 5988) = 0.01
Prob > F = 0.9420
F( 1, 5988) = 34.57
Prob > F = 0.0000
F( 1, 5988) = 27.80
Prob > F = 0.0000
( 1) region1 = 0.0
( 2) region2 = 0.0
( 3) region3 = 0.0
F( 3, 5988) = 20.22
Prob > F = 0.0000
. testparm region*
( 1) region1 = 0.0
( 2) region2 = 0.0
( 3) region3 = 0.0
( 4) region4 = 0.0
( 5) region5 = 0.0
( 6) region6 = 0.0
( 7) region7 = 0.0
Constraint 5 dropped
F( 6, 5988) = 148.55
Prob > F = 0.0000
55
Ch¬ng IV: VÏ ®å thÞ
1. VÏ ®å thÞ (graph)
Có ph¸p:
graph [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, lo¹i_®å_thÞ tuú_chän_riªng
tuú_chän_chung]
Trong ®ã:
56
45801.7
comp.M&Reg price adj.pc tot exp
357.318
16 95
Age of household head
comp.M&Reg price
adj.pc tot exp
357.318
95
Age of household
head
16
22
schooling year
of HH.head
0
19
Household size
1
357.318 45801.7 0 22
57
.329888
Fraction
0
357.318 45801.7
comp.M&Reg price adj.pc tot exp
58
comp.M&Reg price adj.pc tot exp
45801.7
357.318
0 1 2 3 4 5 6 7
24% poor1
16% poor2
16% poor3
12% poor4
10% poor5
4% poor6
18% poor7
60
Audi 5000 Audi Fox BMW 320i Datsun 200 Datsun 210
Price
Mileage (mpg)
Repair Record 1978
Datsun 510 Datsun 810 Fiat Strada Honda Accord Honda Civic Headroom (in.)
Trunk space (cu. ft.)
Weight (lbs.)
Length (in.)
Mazda GLC Renault Subaru Toyota Celica Toyota Corolla
Turn Circle (ft.)
Displacement (cu. in.)
Volvo 260
62
meanexp meanedu
8.25783
1.57978
1 19
ahhsize
8.25783
Chi tieu binh quan (tr dong)
So nam hoc cua chu ho
1.57978
1 19
Quy mo ho gia dinh
Do thi chi tieu va hoc van chu ho
63
* HiÓn thÞ gi¸ trÞ trôc ®å thÞ
xlabel[(gi¸ trÞ sè)] ylabel[(gi¸ trÞ sè)] rlabel[(gi¸ trÞ sè)] tlabel[(gi¸ trÞ sè)]
VÝ dô:
gr meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) l1title(Chi tieu binh quan
(tr dong)) l2title(So nam hoc cua chu ho) b2title (Quy mo ho gia dinh) xlabel ylabel
Chi tieu binh quan So nam hoc
8
Chi tieu binh quan (tr dong)
So nam hoc cua chu ho
0 5 10 15 20
Quy mo ho gia dinh
Do thi chi tieu va hoc van chu ho
Chó ý: C¸c lùa chän kh¸c cã thÓ xem ë phÇn help b»ng lÖnh: help graxes
C¸c tuú chän vÒ ®êng nèi
xline[(gi¸ trÞ sè)] yline[(gi¸ trÞ sè)] rline[(gi¸ trÞ sè)] tline[(gi¸ trÞ sè)]
connect(c[[p]] ... c[[p]])
VÝ dô:
. gr meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) l1title(Chi tieu binh
quan (tr dong)) l2title(So nam hoc cua chu ho) b2title (Quy mo ho gia dinh) xlabel ylabel xline
(5 10 to 20) yline(2 4 to 8) connect(ll)
64
Chi tieu binh quan So nam hoc
8
Chi tieu binh quan (tr dong)
So nam hoc cua chu ho
0 5 10 15 20
Quy mo ho gia dinh
Do thi chi tieu va hoc van chu ho
65
Chi tieu binh quan So nam hoc
5000
8
Chi tieu binh quan (nghin dong)
4000
So nam hoc
3000
4
2000
1000 2
0 5 10 15 20
Quy mo ho gia dinh
Do thi chi tieu va hoc van chu ho
66
.56026
Fraction
0
357.318 45801.7
comp.M&Reg price adj.pc tot exp
1979
Frequency
0
357.318 45801.7
comp.M&Reg price adj.pc tot exp
67
region1 region2 region3
415
0
357.318 45801.7 357.318 45801.7
region7
415
0
357.318 45801.7
0 1 2 3 4 5 6 7
68
. label define region 1 "region1" 2 "region2" 3 "region3" 4 "region4" 5 "region5" 6 "region6" 7
"region7"
. label values reg7 region
. tab reg7
Code by 7 |
regions | Freq. Percent Cum.
------------+-----------------------------------
region1 | 859 14.32 14.32
region2 | 1175 19.59 33.91
region3 | 708 11.80 45.71
region4 | 754 12.57 58.28
region5 | 368 6.13 64.41
region6 | 1023 17.05 81.46
region7 | 1112 18.54 100.00
------------+-----------------------------------
Total | 5999 100.00
. gr educyr98 hhsize, bar means by(reg7) ylabel( 2 4 to 10) alt
schooling year of HH.head Household size
10
69
persons 1:urban 98; 0:rural 98
1500
1000
500
VÝ dô:
H·y vÔ ®å thÞ sau:
foodpoor poor
600
400
200
70
24% poor1
16% poor2
16% poor3
12% poor4
10% poor5
4% poor6
18% poor7
12% foodpoor
18% poor but still above food povert
70% nonpoor
71
region1 region2 region3
12% foodpoor
18% poor but still above food povert
70% nonpoor
region7 Total
72
. graph using "c:\do thi 1" "c:\do thi 2" "c:\do thi 3", margin(10) title("Mot so dac diem cua ho
gia dinh")
persons 1:urban 98; 0:rural 98
region1 region2 region3
12% foodpoor
18% poor but still above food povert 1500
70% nonpoor
24% poor1
16% poor2
16% poor3
12% poor4
10% poor5
4% poor6
18% poor7
Chó ý:
Chóng ta co thÓ kÕt hîp lÖnh saving víi using ®Ó lu tr÷ ra ®å thÞ míi. VÝ dô:
. graph using "c:\do thi 1" "c:\do thi 2" "c:\do thi 3", margin(10) title("Mot so dac die m cua ho
gia dinh") saving("c:\do thi tong hop")
. graph using "c:\do thi tong hop"
73
Ch¬ng V: LËp tr×nh trong Stata
Sau khi so¹n th¶o, do-file sÏ ®îc lu tr÷ b»ng tuú chän Save as trong thùc ®¬n File cña cöa sæ
do-file editor. Tªn cña do-file cã thÓ ®îc chØ ra ngay t¹i lÖnh doedit nh sau:
doedit (tªn do-file)
TÖp do-file cã phÇn më réng lµ do.
ë vÝ dô trªn chóng ta cã thÓ lu tr÷ ®o¹n ch¬ng tr×nh díi tªn lµ “ch¬ng tr×nh 1” t¹i th môc
Vlss98 trªn æ ®Üa C.
1.2. Thùc hiÖn c¸c tÖp do-file
§Ó ch¹y do-file th× t¹i cöa sæ lÖnh chóng ta gâ mét trong hai lÖnh sau:
do filename [, nostop]
run filename [, nostop]
LÖnh run thùc hiÖn c¸c lÖnh trong do-file nhng kh«ng hiÓn thÞ kÕt qu¶ ra mµn h×nh.
74
Trong qu¸ tr×nh thùc hiÖn do-file, nÕu cã c©u lÖnh sai th× Stata sÏ b¸o lçi vµ ngõng viÖc thùc
hiÖn c¸c c©u lÖnh sau ®ã. Tuy nhiªn nÕu tuú chän nostop ®îc chØ ra th× Stata sÏ bá qua c©u
lÖnh bÞ lçi vµ tiÕp tôc thùc hiÖn c¸c lÖnh sau c©u lÖnh lçi ®ã.
VÝ dô:
. do "c:\vlss98\chuong trinh 1"
. clear
. set mem 32m
(32768k)
. use "C:\VLSS98\Hhexp98n.dta", clear
. tab urban98
1:urban 98; |
0:rural 98 | Freq. Percent Cum.
------------+-----------------------------------
Rural | 4269 71.16 71.16
Urban | 1730 28.84 100.00
------------+-----------------------------------
Total | 5999 100.00
. sum hhsize
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
hhsize | 5999 4.752292 1.954292 1 19
. gen new=hhsizet
hhsizet not found
r(111);
end of do-file
r(111);
75
(32768k)
. use "C:\VLSS98\Hhexp98n.dta", clear
. tab urban98
1:urban 98; |
0:rural 98 | Freq. Percent Cum.
------------+-----------------------------------
Rural | 4269 71.16 71.16
Urban | 1730 28.84 100.00
------------+-----------------------------------
Total | 5999 100.00
. sum hhsize
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
hhsize | 5999 4.752292 1.954292 1 19
. gen new=hhsizet
hhsizet not found
r(111);
. gen new=hhsize
. end of do-file
Thùc hiÖn (ch¹y) b»ng lÖnh run
. run "c:\vlss98\chuong trinh 1", nostop
hhsizet not found
C¸c do-file cã thÓ thùc hiÖn b»ng tuú chän Do trong thùc ®¬n File, hoÆc thùc hiÖn trùc tiÕp
trong cöa sæ Do-file editor b»ng tuú chän Do hoÆc Run trong thùc ®¬n Tool.
1.3. Mét sè lu ý khi so¹n th¶o do-file
version #
Khi so¹n th¶o c¸c tÖp do-file chóng ta nªn ®a dßng lÖnh nµy vµo ®Çu ch¬ng tr×nh ®Ó th«ng
b¸o phiªn b¶n Stata ®îc dïng ®Ó so¹n th¶o do-file. VÝ dô nÕu nh chóng ta dïng Stata 7.0 ®Ó
so¹n th¶o do-file th× c©u lÖnh nµy sÏ ®îc ®a vµo ®Çu ch¬ng tr×nh nh sau:
version 7.0
clear
76
use Hhexp98n.dta
tab reg7
….
C¸c phiªn b¶n Stata kh¸c nhau sÏ cã thÓ cã sù kh¸c nhau vÒ có ph¸p hoÆc ý nghÜa cña c¸c c©u
lÖnh. LÖnh version cho phÐp ch¬ng tr×nh Stata ch¹y cã thÓ hiÓu ®óng ®îc néi dung cña tÖp
do-file ®îc viÕt bëi c¸c phiªn b¶n kh¸c.
set memory #[k|m]
NÕu nh file sè liÖu ®ßi hái bé nhí lín h¬n bé nhí mµ Stata ®ang sö dông th× chóng ta ph¶i
thiÕt lËp bé nhí lín h¬n cho Stata b»ng lÖnh trªn. Chó ý lµ kh«ng nªn thiÕt lËp bé nhí lín h¬n
bé nhí cña RAM m¸y tÝnh.
VÝ dô:
. use "C:\Hhexp98n.dta", clear
no room to add more observations
r(901);
. set mem 32m
(32768k)
. use "C:\Hhexp98n.dta", clear
set more off/on
Theo chÕ ®é ngÇm ®Þnh, khi thùc hiÖn mét lÖnh nÕu nh kÕt qu¶ cña viÖc xö lý lÖnh ®ã
dµi h¬n cöa sæ kÕt qu¶ (Stata Results), mµn h×nh sÏ dõng l¹i vµ chóng ta sÏ ph¶i Ên phÝm
(ch¼ng h¹n Enter hoÆc Space bar) ®Ó kÕt qu¶ tiÕp tôc ®îc hiÓn thÞ. LÖnh set more off cho
phÐp kÕt qu¶ kh«ng bÞ dõng l¹i mµ ®îc hiÓn thÞ liªn tôc cho ®Õn khi thùc hiÖn xong c©u
lÖnh hoÆc do-file. LÖnh set more on kh«i phôc l¹i chÕ ®é ngÇm ®Þnh.
Ký tù * vµ /* */
Stata sÏ kh«ng thùc hiÖn c¸c c©u lÖnh ®îc b¾t ®Çu b»ng ký tù * hoÆc n»m ë gi÷a hai nhãm
ký tù /* */. C¸c ký tù nµy dïng ®Ó viÕt chó thÝch trong do-file.
VÝ dô:
--------------------
version 7.0
set mem 32m
use "C:\Hhexp98n.dta", clear
* Tao bien thu nhap cua ho gia dinh
/* Bien nay bang Thu nhap binh quan
nhan voi Quy mo ho*/
gen hhexp = rlpcex1 * hhsize
77
#delimit ;
Khi c©u lÖnh trong do-file editor qu¸ dµi th× chóng ta cã thÓ dïng lÖnh nµy ®Ó th«ng b¸o
r»ng 1 c©u lÖnh ®îc kÕt thóc b»ng ký tù (;). Theo chÕ ®é ngÇm ®Þnh th× c©u lÖnh ®îc kÕt
thóc khi xuèng dßng b»ng viÖc gâ phÝm Enter. §Ó kh«i phôc l¹i chÕ ®é ngÇm ®Þnh th× dïng
lÖnh #delimit cr
VÝ dô: ë lÖnh vÏ ®å thÞ ë ch¬ng tríc:
graph meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) l1title(Chi tieu binh
quan (tr dong)) l2title(So nam hoc cua chu ho) b2title (Quy mo ho gia dinh) xlabel ylabel xline
(5 10 to 20) yline(2 4 to 8) connect(ll)
tu¬ng ®¬ng víi:
#delimit ;
graph meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho)
l1title(Chi tieu binh quan (tr dong)) l2title(So nam hoc cua chu ho)
b2title (Quy mo ho gia dinh) xlabel ylabel xline (5 10 to 20)
yline(2 4 to 8) connect(ll) ;
gen hhexp = rlpcex1 * hhsize ;
……..
Sau ®ã chóng ta nªn kh«i phôc l¹i chÕ ®é ngÇm ®Þnh nÕu nh c¸c c©u lÖnh sau ®ã cã thÓ
viÕt trªn 1 dßng b»ng lÖnh:
#delimit cr
Chó ý:
- Chóng ta cã thÓ dïng ký tù /* */ ®Ó viÕt c©u lÖnh dµi nh sau:
graph meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) /*
*/ l1title(Chi tieu binh quan (tr dong)) l2title(So nam hoc cua chu ho) /*
*/ b2title (Quy mo ho gia dinh) xlabel ylabel xline (5 10 to 20)
yline(2 4 to 8) connect(ll);
- C¸c lÖnh # delimit vµ c¸ch viÕt c©u lÖnh dµi sö dông ký tù /* */ chØ dïng ®îc trong
do-file chø kh«ng dïng ®îc t¹i cöa sæ lÖnh command.
. describe $diaban
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
reg7 int %8.0g Code by 7 regions
province float %9.0g Province code
commune float %9.0g commune code PSU-SVY commands
. $mota $diaban
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
reg7 int %8.0g Code by 7 regions
province float %9.0g Province code
commune float %9.0g commune code PSU-SVY commands
§Ó hiÓn thÞ néi dung cña global macros th× chóng ta gâ lÖnh
macros list (tªn global macros)
VÝ dô:
. global diaban "reg7 province commune"
. macro list diaban
diaban: reg7 province commune
§Ó xo¸ global macros th× chóng ta cã thÓ dïng lÖnh
macros drop (tªn local macros)
VÝ dô:
. macro drop diaban
. macro list diaban
global macro $diaban not found
80
r(111);
2.3. Sù kh¸c nhau gi÷a local macros vµ global macros
Local macros chØ tån t¹i trong 1 ch¬ng tr×nh. Mét ch¬ng tr×nh sÏ kh«ng hiÓu ®îc c¸c local
macros ®îc sö dông ë c¸c ch¬ng tr×nh kh¸c. Trong khi ®ã, mét khi ®· ®îc khai b¸o, global
macros ®îc hiÓu bëi tÊt c¶ c¸c ch¬ng tr×nh vµ tån t¹i trong bé nhí cña Stata trong suèt qu¸
tr×nh ho¹t ®éng.
VÝ dô:
Thùc hiÖn ®o¹n ch¬ng tr×nh khai b¸o local macros a. Sau ®ã thùc hiÖn lÖnh hiÓn thÞ néi
dung local macros nµy, nhng macros nµy kh«ng tån t¹i ë ®o¹n ch¬ng trinh kh¸c hay ë bé nhí cña
Stata.
. do "C:\WINDOWS\TEMP\STD010000.tmp"
. local a "chuong trinh thong ke Stata"
. end of do-file
. macro list _a
local macro `a' not found
r(111);
Trong khi ®ã ®èi víi global macros
. do "C:\WINDOWS\TEMP\STD010000.tmp"
. global b "chuong trinh thong ke Stata"
. end of do-file
. macro list b
b: chuong trinh thong ke Stata
A[3,3]
c1 c2 c3
r1 1 2 4
r2 3 4 7
81
r3 10 11 14
ë ®©y ma trËn A bao gåm 9 phÇn tö (element): 1, 2, 4, 3, 4, 7, 10, 11, 14. C¸c cét ®îc ®Æt tªn
lµ c1, c2, vµ c3, vµ c¸c hµng lµ r1, r2, vµ r3. PhÇn tö lµ giao ®iÓm cña dßng 1 vµ cét 2 ®îc ký
hiÖu lµ A[1, 2]. Trong vÝ dô nµy A[1, 2] chøa gi¸ trÞ b»ng 2.
3.2. TÝch v« híng (scalar)
TÝch v« híng chøa 1 phÇn tö lµ sè. TÝch v« híng ®îc ®Þnh nghÜa b»ng lÖnh sau:
scalar scalar_name = expression
VÝ dô:
. scalar a = 10
. scalar list a
a = 10
. scalar b = a* 2
. scalar list b
b = 20
Trong chõng mùc nµo ®ã, tÝch v« híng cã thÓ xem nh mét trêng hîp ®Æc biÖt cña ma trËn
chØ cã 1 ph©n tö (mét hµng vµ mét cét).
3.3. Mét sè lÖnh lµm viÖc víi ma trËn
ThiÓt lËp kÝch thíc ma trËn
Gia trÞ ngÇm ®Þnh cña kÝch thíc ma trËn lµ tèi ®a 40 hµng vµ 40 cét. Chóng ta cã thÓ thay
®æi kÝch thíc tèi ®a nµy b»ng lÖnh:
. set matsize 500
LÖnh nµy cho phÐp c¸c ma trËn ®îc t¹o ra cã thÓ bao gåm 500 hµng vµ 500 cét.
T¹o ma trËn
Ma trËn cã thÓ t¹o ra b»ng c¸c c©u lÖnh trùc tiÕp.
VÝ dô:
matrix mymat = (1,2\3,4) C¸c phÇn tö ®îc ph©n biÖt bëi dÊu phÈy, cßn c¸c hµng ®îc
ph©n biÖt bëi dÊu g¹ch chÐo
matrix myvec = (1 5 3 1 3) T¹o ra vÐct¬ hµng
matrix mycol = (1/5/3/1/3) T¹o ra vÐct¬ cét
Ma trËn còng cã thÓ ®îc t¹o ra tõ sè liÖu b»ng lÖnh:
mkmat <danh s¸ch biÕn> [®iÒu kiÖn] [ph¹m vi] [, matrix(tªn ma trËn) ]
VÝ dô:
. input maho quymo thunhap
maho quymo thunhap
82
1. 101 6 1200
2. 103 5 1400
3. 105 5 3200
4. 107 9 1000
5. 109 4 2500
6. end
. mkmat maho quymo thunhap, matrix(A)
. matrix list A
A[5,3]
maho quymo thunhap
r1 101 6 1200
r2 103 5 1400
r3 105 5 3200
r4 107 9 1000
r5 109 4 2500
TÝnh to¸n ma trËn
matrix D = B T¹o ra ma trËn D b»ng ma trËn B
matrix C = (C+C)/2 TÝnh l¹i ma trËn C dùa trªn gi¸ trÞ cña cña nã
matrix D = A*A’ T¹o ra ma trËn D b»ng tÝch ma trËn A vµ ma trËn chuyÓn vÞ
A’
Xo¸ ma trËn
Ma trËn vµ tÝch v« híng cã thÓ xo¸ khái bé nhí b»ng lÖnh:
matrix drop <ma trËn>
scalar drop <tÝch v« híng>
VÝ dô:
. matrix drop A
. scalar drop B
}
else {
comands 2
}
- C¸c lÖnh if…else cã thÓ ®îc sö dông lång víi nhau
®iÒu kiÖn (®iÓu kiÖn) {
Nhãm c©u lÖnh 1
}
else ®iÒu kiÖn (®iÒu kiÖn) {
….
4.2. LÖnh while
Có ph¸p:
while <®iÒu kiÖn logic> {
Nhãm c©u lÖnh
}
84
Stata sÏ kiÓm tra ®iÒu kiÖn logic (expression), nÕu ®iÒu kiÖn nµy ®óng th× c¸c lÖnh ë
“Nhãm c©u lÖnh” sÏ ®îc thùc hiÖn, nÕu ®iÒu kiÖn sai th× c¸c lÖnh nµy sÏ kh«ng ®îc thùc
hiÖn.
VÝ dô:
local i=1
while `i’<= 10 {
if mod(`i',2) {
display "`i' is odd"
}
else {
display "`i' is even"
}
local i=`i’+1
}
Chó ý:
Vßng lÆp cã thÓ ®îc dõng l¹i nÕu sö dông tuú chän sau ®©y ë gi÷a vßng lÆp:
continue [, break]
NÕu gÆp lÖnh continue, Stata sÏ bá qua c¸c lÖnh ë sau ®ã vµ quay l¹i lÖnh ®Çu tiªn cña vßng
lÆp. NÕu c¶ tuú chän break ®îc chØ ra th× Stata sÏ tho¸t khái vßng lÆp.
VÝ dô: T×m tÝch sè chung nhá nhÊt cña 2, 3 vµ 5
local i=1
while `i’<= 1000 {
if mod(`i',2)==0 & mod(`i',3)==0 & mod(`i',5)==0 {
85
end
§o¹n ch¬ng tr×nh nµy ®îc viÕt trong cöa sæ Do-file editor. Mét khi nã ®îc ch¹y th× ®o¹n ch-
¬ng tr×nh nµy sÏ lu tr÷ trong bé nhí cña Stata, vµ chØ cÇn gäi ra b»ng c¸ch gâ tªn ch¬ng tr×nh
(progname)
VÝ dô:
quietly program define povline
display as text _col(3) "Poverty line" _col(16) "{c |}" _col(20) "Food" _col(30)
"Overall"
di as text _col(2) "{hline 14}{c +}{hline 26}"
di as text _col(8) "Value" _col(16) "{c |}" as result _col(20) "1380" _col(33) "1920"
end
Sau khi chóng ta ch¹y lÖnh nµy b»ng run hoÆc do, th× t¹i cöa sæ command, chóng ta gâ:
. povline
Poverty line | Food Overall
---------------+--------------------------
Value | 1380 1920
Chó ý:
NÕu chóng ta ch¹y l¹i lÖnh program define povline, vµ nhËn ®îc th«ng b¸o:
povline already defined
r(110);
Tøc lµ ch¬ng tr×nh povline ®· ®îc t¹o ra råi, ®Ó xo¸ ch¬ng nµy ®i th× chóng ta dïng lÖnh:
program drop poveline
hoÆc xo¸ tÊt c¶ c¸c ch¬ng tr×nh
program drop _all
Ado-file
C¸c ado-file t¹o ra c¸c lÖnh cña Stata. Trong Stata cã hai lo¹i lÖnh. Lo¹i thø nhÊt ® îc viÕt trong
Stata, vÝ dô nh lÖnh summarize. Lo¹i thø hai ®îc ®Þnh nghÜa bëi c¸c tÖp ado, vÝ dô nh
lÖnh ci.
§Ó biÕt ®îc lÖnh Stata thuéc lo¹i nµo, gâ lÖnh which:
. which sum
built-in command: summarize
. which ci
C:\STATA\ado\base\c\ci.ado
86
*! version 3.3.4 04sep2000
C¸c ado-file chÝnh lµ c¸c ch¬ng tr×nh ®îc ®Þnh nghÜa b»ng lÖnh program define, vµ lu tr÷
víi phÇn më réng lµ ado. Stata sÏ t×m kiÕm c¸c ado-file ë c¸c th môc:
. sysdir
STATA: C:\STATA\
UPDATES: C:\STATA\ado\updates\
BASE: C:\STATA\ado\base\
SITE: C:\STATA\ado\site\
STBPLUS: c:\ado\stbplus\
PERSONAL: c:\ado\personal\
OLDPLACE: c:\ado\
VÝ dô:
Chóng ta cã thÓ lu tr÷ lÖnh povline díi d¹ng ado vµ lu tr÷ ë thu môc C:\STATA\ado\base\
LÖnh nµy sÏ ®îc thùc hiÖn khi ta gâ povline mµ kh«ng cÇn chóng ta ph¶i thùc hiÖn c©u lÖnh
tríc ë do-file.
Bµi tËp: ViÕt lÖnh povline víi c¸c lùa chän cho c¸c n¨m 1993, 1998, vµ 2002.
Tµi liÖu tham kh¶o
Híng dÉn sö dông trong phÇn mÒm Stata 7.0 (on-line help). (Tuú chän Contents trong thùc
®¬n Help).
Phô lôc
C¸c thèng kª c¬ b¶n cña mÉu tu©n theo quy luËt chuÈn
Trung b×nh:
n
x
i 1
i
x
n
Ph¬ng sai:
n
(x
i 1
i x)2
s2
n 1
§é lÖch chuÈn:
s s2
87
n
x
i 1
i x
MAD
n
§é lÖch:
n
(x
i 1
i x)3 / n
Skewness
s3
§é nhän:
n
(x
i 1
i x) 4 / n
Kurtosis
s4
88