Professional Documents
Culture Documents
En esta oportunidad usted se integra a nuestra familia del InfoPUC por medio del
Curso de Extensión Stata 11 para Economistas. Durante su permanencia en el
InfoPUC le pedimos el mayor compromiso para este curso de extensión, el cual ha
sido diseñado con un enfoque eminentemente práctico, con casos reales que
complementan el aprendizaje de las herramientas de computación y enfocados al
quehacer del profesional que las empresas requieren.
Sin más por el momento nos despedimos, confiando en que lo aprendido en este
curso, y en los futuros cursos que desee llevar con nosotros, le serán de gran utilidad
en su desempeño profesional.
Atentamente,
INDICE
b. Manejo de directorios................................................................................ 24
f. Ejemplo: .................................................................................................... 27
6 Instituto de Informática
STATA 11 para economistas
1. Introducción al STATA
8 Instituto de Informática
STATA 11 para economistas
Nueva interfaz
o Manejador de variables
o Vista activa de los datos
o Filtros de datos y de variables
o Sintaxis coloreada
o Plegado de código
o Marcadores
Variables factoriales
o Interacciones
o Términos polinomiales
o Creación automática de indicadores
Estadísticas exactas
o Regresión logística para variable dependiente binaria
o Regresión de Poisson para datos de conteo
o Pruebas exactas y pruebas conjuntas
10 Instituto de Informática
STATA 11 para economistas
12 Instituto de Informática
STATA 11 para economistas
Review Comandos
Variables Resultados
14 Instituto de Informática
STATA 11 para economistas
El tamaño y posición de las ventanas puede ser configurado según las preferencias del
usuario y las cuales se pueden realizar siguiendo los siguientes pasos:
1. Se selecciona el Menú Edit, en la opción Preferences, se elige General
Preferences
2. En la pestaña Windowing se configura e ingresa los valores que se desea.
También podemos modificar el color de fondo o las fuentes de la ventana Stata Results
siguiendo los siguientes pasos:
1. En el Menú Edit se selecciona la opción Preferences
2. Se elige la opción de General Preferences
Stata Editor permite navegar y modificar los datos como si fuese una hoja de
Excel.
Stata Viewer permite acceder a información en línea y también a la ayuda del
programa.
Stata Graphs presenta el último gráfico realizado.
Stata Do-file Editor es una ventana separada en Windows y funciona como un
editor de textos que permite ejecutar una lista de comandos.
Stata Browser permite visualizar los datos, mas no modificarlo Menú de
Comandos Desde la versión 8 del Stata, todos los comandos (excepto los de
programación) han sido implementados con cuadros de diálogo y se pueden
acceder a ellos desde el menú principal, el cual está organizado por tópicos:
16 Instituto de Informática
STATA 11 para economistas
Seleccionamos una opción desde los menús Data, Graphics o Statistics y llenamos la
caja o cuadro de diálogo correspondiente:
Por ejemplo, para acceder al cuadro de diálogo siguiente, utilizamos la ruta que
presentamos a continuación, la cual se encuentra en los menús desplegables:
PASOS
1. Seleccionar el menú Statistics y elegir la opción Linear models and related
2. Seleccionar la opción de Linear regression
Esta forma de trabajar con el programa de manera interactiva es lo que Stata llama GUI
(Graphic User Interface), lo cual es una mejora con respecto de las versiones anteriores.
Pontificia Universidad Católica del Perú 17
Introducción al STATA
Stata permite trabajar de manera interactiva y por medio de comandos (al igual que
RATS 6), debido a que cada ventana se encuentra asociada a un comando.
La barra de Herramientas
Además, Stata presenta una barra de herramientas que permite realizar operaciones
usuales como abrir un archivo, grabarlo, imprimir o ver alguna ventana en particular..
18 Instituto de Informática
STATA 11 para economistas
Comando help
Este es uno de los comandos más importantes de Stata, pues presenta la sintaxis de los
comandos así como ejemplos de cómo se usan. Para pedirle ayuda a Stata sobre un
comando se escribe en la ventana de comandos help seguido del nombre del comando
que queramos conocer. A continuación se muestran los siguientes ejemplos:
help if
help summarize
help regression
help tabulate
Se observa que las dos primeras letras del nombre del comando están subrayadas, esto
indica que en lugar de escribir el comando como summarize se puede escribir su (o
cualquier forma intermedia).
20 Instituto de Informática
STATA 11 para economistas
Notemos que todo lo que va entre corchetes es optativo y que en la sintaxis de los
comandos primero se ponen las variables, luego el peso, los condicionales (if) preceden
a los rangos (in) y les siguen las opciones después de un coma:
[varlist] es la lista de variables.
[if] Debe estar seguida de una expresión lógica para que los datos que sólo
cumplan con la condición puedan ser incluidos en dicho análisis.
[in] permite se indica el rango de los datos que se desea analizar.
[weight] son los pesos o ponderaciones.
[options] Son las opciones de cada comando que se está utilizando
22 Instituto de Informática
STATA 11 para economistas
2. Manejo de datos
a. Administración de la memoria
Las bases de datos pueden variar de tamaño. Por defecto Stata únicamente lee
archivos hasta de 10mb (máximo espacio de los datos) de hasta 5000 variables.
Si se intenta leer un archivo más grande sale el siguiente mensaje de error.
no room to add more observations r(901);
1
El comando set memory sólo se puede utilizar en las versiones estándar (Stata/IC), estándar + base de datos
extensas (Stata/SE) y en la versión Stata/SE + procesamiento paralelo (Stata/MP). No es aplicable en la versión
para estudiantes de pregrado (Small Stata). En la versión Stata/SE el límite de variables independientes es
11,000 (matsize) mientras que el límite de la memoria es igual al del sistema operativo
b. Manejo de directorios
Stata se instala por defecto en C:\STATA\ y guarda los datos con los que se trabaje en
C:\DATA\ salvo que dicha configuración de archivos haya sido cambiada. Para conocer
con que directorio está trabajando Stata se utiliza el comando pwd
Con el comando sysdir se pueden visualizar los directorios que STATA emplea para
guardar el programa y la información. Con el comando cd podemos cambiar de
directorio donde se guardan los datos, aunque estos cambios solo serán validos por la
sesión en uso.
Para crear un nuevo directorio se emplea el comando mkdir:
mkdir sesion21012006
24 Instituto de Informática
STATA 11 para economistas
STATA permite guardar un registro de los comandos y los resultados. Para crear un
archivo de bitácora se usa el comando log using:
Si lo único que se desea es guardar los comandos debe emplearse cmdlog. Esta
opción es especialmente útil cuando lo que se busca es crear un archivo do.
cmdlog using C:\infopuc\cursos\stata\sesion02\comusados
Cuando se emplea el comando use, los datos se cargan a la memoria del ordenador.
Para guardar los datos se debe emplear el comando save. Es recomendable no
sobrescribir los datos y trabajar en un directorio diferente del donde se encuentran los
datos originales. Los datos pueden ser cargados al programa utilizando el comando use
seguido por la ruta en donde se encuentra la base de datos.
use C:\infopuc\cursos\stata\sesion02
use "C:\infopuc\cursos\stata\sesion02\auto.dta"
save "C:\infopuc\cursos\stata\sesion02\sesion07022005\auto_r.dta“
e. Principales comandos:
COMANDO DESCRIPCIÓN
help Ayuda de programa stata, para
comandos.
log Uso de archivos de bitácora
use Abrir una base de datos en stata
(extensión .dta)
edit Ingreso de datos por medio de
ventana de Stata Editor
codebook Muestra variables con estadísticos
descriptivos
describe Describe contenido de datos en
memoria o sobre el disco
26 Instituto de Informática
STATA 11 para economistas
f. Ejemplo:
El ejercicio consiste en abrir una base de datos de nombre ―sumaria_2008‖, la cual se
encuentra grabada en el siguiente directorio:
C:\sesion1
1. En primer lugar se indica la ruta del directorio de trabajo a través del comando cd:
cd “c:\Clase 2010“
use sumaria_2008.dta
Al abrir la base de datos se cargará la ventana de variables. Para pedir ayuda sobre el
comando se deberá invocar la ayuda del Stata:
help use
28 Instituto de Informática
STATA 11 para economistas
De la misma manera, es posible aplicar filtros que indiquen que parte de la base de
datos será utilizada. En la base sumaria_2008, la variable ―mieperho‖ representa el total
de miembros del hogar. Por lo que sí está interesado en conocer solo las características
de los hogares con más de 8 miembros, se aplicará el siguiente filtro:
use sumaria_2008 if mieperho>8
En muchas ocasiones, sólo serán de nuestro interés alguno de las variables contenidas
en la base de datos. Para ello se empleará la siguiente sintaxis:
Donde los comandos empleados son use y using, mientras que las variables de interés
son conglomerado, vivienda y hogar. Como en los casos anteriores, la base de datos se
denomina ―sumaria_2008‖. Cabe mencionar que no ha sido necesario incorporar el
nombre del directorio, debido a que eso fue establecido líneas arriba a través del
comando cd.
g. Estructura de comandos
30 Instituto de Informática
STATA 11 para economistas
summarize gashog2d,detail
Conectores relacionales
< menor que
<= menor o igual que
== igual a
> mayor que
>= mayor o igual que
!= diferente a , también puede usarse ~=
() paréntesis para indicar el orden de evaluación
Conectores lógicos
&y
| o
Operadores aritméticos
+ Suma
- Resta
* Multiplicación
/ División
^ Potencia
+ Concatenación de cadenas alfanuméricas
Ejemplos
sysuse auto, clear
32 Instituto de Informática
STATA 11 para economistas
Nota: Podemos usar el término abreviado gen en lugar de generate Podemos hacer el
mismo proceso pero ahora con la siguiente ruta en la barra de menú
34 Instituto de Informática
STATA 11 para economistas
tt= ((educ+100)\ln(feduc-4))
Nota : Observemos que por defecto las nuevas variables que hemos creado tienen
formato float.
En el cuadro de diálogo expression builder podemos insertar las variables a
transformar haciéndoles click en la ventana de variables.
El comando egen
Es una extensión del comando generate. Este comando me va a permitir calcular
expresiones más complejas, tales como: medias, desviaciones estándar, promedios
móviles, variables estandarizadas, etc.
Ejemplo
Generemos una serie que sea igual al valor máximo de la variable educ
egen max_X =max(educ)
36 Instituto de Informática
STATA 11 para economistas
Pasos
1. En el menú Data, se selecciona la opción de Create or change data
2. Se elige la opción Create new variable (extended)
Ahora para esta nueva serie repetimos el proceso anterior pero ahora elegimos la
opción Median.
Generemos una serie de precios que sea estandarizada, de media cero y varianza 1
38 Instituto de Informática
STATA 11 para economistas
El comando replace
Nos da la posibilidad de modificar alguna de las variables disponibles
replace tt= tt\100
Existen varios métodos para convertir variables string a variables numéricas. Uno
de ellos es utilizando el comando destring
Por ejemplo:
La primera línea abre el dataset con extensión dta que para este caso es auto.
En la segunda línea codifica la variable string ―make‖ a variable numérica llamada
―num‖
40 Instituto de Informática
STATA 11 para economistas
Por ejemplo
gen n2 = real (str2)
Si tenemos una variable Xstr su conversión a variable numérica Xnum puede ser
obtenida de la siguiente forma:
Por ejemplo:
tostring num , generate(a2)
Otro método para codificar una variable numérica a string se utiliza el comando
decode , el cual se basa en los principios de encode
Podemos generar una nueva variable que contenga algún subconjunto de los
nombres de las características generadas por alguna variable anterior.
Por ejemplo se desea generar una variable string de nombre a2 que contiene
como características los caracteres 2 a 4 de la variable make
42 Instituto de Informática
STATA 11 para economistas
sysuse auto,clear
generate jose = 0
generate precio2 = price2
list precio2 price
Dicotómica que identifique a los carros que cuestan más de 6000
g dico=1 if price>6000
replace dico=0 if price<=6000
Una manera rápida de crear una dicotómica:
g dico2=price>6000
sum price if forei==0
sum price if forei==1 by foreign: sum Price
use sumaria_2008
log using jose,text replace
des gashog2d /*abreviatura de describe*/
sum gashog2d
log close
44 Instituto de Informática
STATA 11 para economistas
3. Elaboración de Gráficos
A continuación veremos cómo introducir algunos comandos básicos en Stata 11,
incluyendo histogramas, gráficos de caja, ploteos y matrices de ploteos. El propósito de
esta sección es entender los fundamentos de los gráficos y dar los elementos para
generar y modificar estos. Usaremos el módulo de empleo e ingresos de la 2Nacional de
Hogares del año 2007 (módulo 500).
2
Para mayor información de la base de datos, revisar la página web del Instituto Nacional de Estadística e
Informática - INEI: www.inei.gob.pe
c. Se selecciona las variables las cuales se desea graficar y el tipo de gráfico que
se requiere
46 Instituto de Informática
STATA 11 para economistas
Es posible cambiar la apariencia de los gráficos a través del menú del Stata Graph
realizando los siguientes pasos:
1. En el Menu Edit seleccionar la opción Apply new scheme tal como lo indica la
figura
Una vez dentro del sistema, pulsar la opción Encuesta: Condiciones de Vida y
Pobreza – ENAHO, en la casilla año señalar el 2007, y en el periodo indicar el
periodo anual (enero – diciembre), se desplegará un conjunto de bases de datos
tal como se detalla a continuación.
48 Instituto de Informática
STATA 11 para economistas
En primer lugar se definen aspectos del entorno de trabajo. A través del comando
Clear, se borrará de la memoria las bases de datos que estuvieran abiertas.
Clear
Asimismo, se procede a especificar el tamaño de la memoria virtual de la PC que
se dispondrá para el trabajo. Debido a que la base de datos contiene más de 65
mil variables. Como regla, se le asignará un tamaño de memoria similar al
tamaño del archivo expresado en megabytes.
set mem 100m
A través del comando use se abrirá la base de datos, nótese que la inclusión de
comentarios en el do file se realiza incluyendo el símbolo (*) al inicio de la línea.
use "enaho01a_2007_500.dta"
Dentro de las opciones para realizar gráficos es posible indicar los estilos de
presentación de los gráficos predeterminados por el Programa.
A través del comando 'Scheme' nos permite cambiar el formato del gráfico. Para
ver todas las posibilidades que tiene Stata incorporados digitar en la ventana de
comandos:
help schemes
A continuación se realizará el grafico del Ingreso Laboral según sexo para ello se
empleará un grafico de dispersiones tipo scatter. Se ensayarán los diversos
esquemas de presentación activando la casilla correspondiente. Las variables de
trabajo son las siguientes: i524a1 p208a p207, las cuales tendrán una inspección
a través del comando codebook:
codebook i524a1 p208a p207
50 Instituto de Informática
STATA 11 para economistas
Los filtros sobre las variables de análisis se realizaran a través de las siguientes
sintaxis:
Una vez realizados el scatter del ingreso laboral según edad y sexo se procederá
a emplear el comando twoway para realizar el gráfico del ingreso laboral para
ambos sexos:
52 Instituto de Informática
STATA 11 para economistas
a. Histogramas – hist -
Los Histogramas consisten en una herramienta gráfica que permite ilustrar las
discontinuidades de la información que se solucionan agrupando los datos. Lo
anterior pasa por decidir cuantas barras o _CLASES_ emplear, o lo que es lo
mismo decidir cuánto es el ancho de banda. Como regla práctica el número de
CLASES se aproxima por la raíz cuadrada del número de datos empleados, en
nuestro caso es aprox. igual a 256:
display sqrt(65549)
Histograma
El número de CLASES puede modificarse con la opción bin del comando -hist-
. Otra opción interesante es acompañar el gráfico con la curva normal que se
ajusta a los datos.
54 Instituto de Informática
STATA 11 para economistas
b. Kernel – kdensity
Clear
set mem 100m
use "enaho01a_2007_500"
56 Instituto de Informática
STATA 11 para economistas
*6° etapa:
kdensity p208a, name(jose1,replace) title(Epanechnikov)
kdensity p208a, name(jose2,replace) kernel(gauss) title(Gausiano)
kdensity p208a, name(jose3,replace) kernel(cosine) title(Coseno)
*7° etapa:
Junto con el histograma o los kernels, los diagramas de cajas son probablemente
las herramientas gráficas más importantes para realizar un análisis univariado
58 Instituto de Informática
STATA 11 para economistas
*3° Etapa:
graph hbox i524a1, scheme(s1color) over(p207)
graph drop _all
Comando Graph
60 Instituto de Informática
STATA 11 para economistas
marker_options
marker_placement_option
marker_label_options
connect_options
axis_selection_options
composite_style_option twoway_options ]
Opción Combine
En la misma área de gráficos, combina 2 o más gráficos (pueden ser de diferentes
tipos.
Opciones de marcador
Modifica los marcadores y/o sus etiquetas para ajustarse a las preferencias del usuario.
marker label option
Gráficos de pie
Gráficos de barras
Se pueden realizar gráficos con barras verticales y horizontales.
62 Instituto de Informática
STATA 11 para economistas
Gráfico de puntos
Para mayores detalles, revisar el libro: Mitchel, M. (2004); A visual guide to Stata
graphics, University of California, Los Angeles. A Stata Press Publication Disponible en
el siguiente vínculo:
http://www.stata-press.com/books/vgsg.html
Ejemplos:
64 Instituto de Informática
STATA 11 para economistas
vguse spjanfeb2001.dta
twoway dropline close tradeday
vguse sp2001ts.dta
twoway tsrline high low, sort
vguse spjanfeb2001.dta
twoway bar close tradeday
66 Instituto de Informática
STATA 11 para economistas
vguse allstates.dta
graph matrix propval100 rent700 popden
vguse allstatesdc.dta
twoway (lfitci ownhome pcturban80, stdf) (scatter ownhome pcturban80)
68 Instituto de Informática
STATA 11 para economistas
4. Modelos lineales
Mínimos cuadrados ordinarios (MCO) es el método más popular, mientras que una
variante que contempla la presencia de heterocedasticidad y corrige su presencia son
los mínimos cuadrados ponderados (MCP). Mientras que los estimadores bajo MCO
tienen como objetivo minimizar la suma de los errores al cuadrado, minimizar la suma de
los valores absolutos de los errores nos conduce al modelo de mínima desviación
absoluta (MDA) la generalización de este procedimiento se conoce como regresión
cuantílica.
regress
Otra vez recurrimos a la ENAHO 2008 para presentar una regresión lineal simple con
―r6‖ como variable dependiente:
reg r6 edad r11h
70 Instituto de Informática
STATA 11 para economistas
Términos de interacción:
xi: reg r6 i.dominio*i.sexo
72 Instituto de Informática
STATA 11 para economistas
Tarea 2: Cree las dicotómicas que sean necesario, compruebe e interprete todos
los resultados anteriores.
predict
Debe tener en cuenta que cuando existe un ―missing‖ en una de las variables que
intervienen en la regresión, todo ese registro se pierde al realizar la estimación así
existan observaciones en el resto de variables. Si por alguna razón el objetivo es
quedarse con el conjunto de variables en los cuáles no exista ningún missing en el
conjunto de datos se puede ejecutar lo siguiente:
regress postestimation
reg r6 edad r11h estat ovtest /*Test RESET de Ramsey (variables omitidas)*/
estat ic /*Criterios de información*/
estat vif /*Factor de inflación de varianza*/
Almacenamiento de información
Luego de estimar una regresión el software almacena las estimaciones en objetos que
luego pueden ser fácilmente empleados.
. ereturn list
scalars:
e(N) = 45232
e(df_m) = 2
e(df_r) = 45229
e(F) = 1265.502981280802
e(r2) = .0529942555816602
e(rmse) = 370.1935843435196
e(mss) = 346857383.838377
e(rss) = 6198330958.394218
e(r2_a) = .0529523795399869
e(ll) = -331683.1548708656
e(ll_0) = -332914.5987825873
e(rank) = 3
macros:
e(cmdline) : "regress r6 edad r11h"
e(title) : "Linear regression"
e(marginsok) : "XB default"
e(vce) : "ols"
e(depvar) : "r6"
e(cmd) : "regress"
e(properties) : "b V"
e(predict) : "regres_p"
e(model) : "ols"
e(estat_cmd) : "regress_estat"
matrices:
e(b) : 1 x 3
e(V) : 3 x 3
functions:
e(sample)
74 Instituto de Informática
STATA 11 para economistas
También pueden invocarse los parámetros estimados de otra manera: Por ejemplo, en
promedio el ingreso mensual para una persona que tiene 30 años y trabaja 48 horas a la
semana, asumiendo que existe causalidad en el modelo y este se encuentra
correctamente especificado es:
Correlación Serial
Sólo aplica cuando la fuente de datos es temporal, si ese es el caso STATA exige que
los datos sean declarados como temporales con el comando -tsset-.
- Durbin-Watson. Test de autocorrelación de primer orden
. tsset qtrs
. regress Y X1 X2 X3
. estat dwatson
. estat
dwatson
- Corrección de Autocorrelación
MCP Usando el método de Cochrane
Heterocedasticidad
Test de White
. regress Y X1 X2 X3
. estat imtest, preserve white
76 Instituto de Informática
STATA 11 para economistas
Una vez que se ha establecido que existe una relación lineal entre dos
variables Y y X, todavía queda la tarea de determinar ¿cuál es la mejor recta
que refleja esta relación? O lo que es lo mismo ¿Cuál es la ecuación que
describe estos datos? Ya que se observa y se asume una relación lineal los
datos deben seguir una ecuación de la forma: Y = mX +b
3
Se debe notar que a no ser que su sea una relación lineal exacta entre X e Y, entonces más de una
línea podría describir estos datos.
sysuse auto
twoway (lfit mpg weight) (scatter mpg weight)
El problema que presenta este método es que las observaciones que se encuentren
más alejadas de la recta de ajuste reciben una mayor ponderación. Si se decide
excluirlas, van a afectar fuertemente a los estimadores. Existen por lo menos dos formas
de estimar una línea que no esté altamente influenciada por valores atípicos, estas
metodologías descansan en lo que literatura se conoce como regresiones robustas.
78 Instituto de Informática
STATA 11 para economistas
qreg
80 Instituto de Informática
STATA 11 para economistas
Donde:
ei = yi - XiB; ui = ei/s;
s = M/0.6745;
M = mediana (|ei – mediana(ei)|);
ch y cb son constantes predeterminadas
82 Instituto de Informática
STATA 11 para economistas
84 Instituto de Informática
STATA 11 para economistas
Nota Técnica
Stata interpreta el valor 0 como resultado negativo (falla), y trata todos los
otros valores (excepto ―missing‖) como resultados positivos (éxito). Entonces,
si su variable dependiente toma el valor de 0 y 1, 0 es interpretado como falla
y 1 como éxito. Si su variable dependiente toma el valor de 0,1 y 2; 0 es
interpretado aún como falla, pero 1 y 2 son tratados como éxitos.
Ejemplo
. describe
86 Instituto de Informática
STATA 11 para economistas
. sum
88 Instituto de Informática
STATA 11 para economistas
matrix coeficientes=e(b)
matrix list coeficientes
predict probprobit, p
Graficando la probabilidad predicha contra gpa (la nota global del alumno)
90 Instituto de Informática
STATA 11 para economistas
Para tratar las variables discretas del mismo modo que las continuas se
emplea la opción classic.
92 Instituto de Informática
STATA 11 para economistas
Comando mfx
. mfx compute
. mfx compute,eyex
Elasticities after dprobit
Calculando semielasticidades:
. mfx compute,dyex
Elasticities after dprobit
. mfx compute,eydx
Elasticities after dprobit
94 Instituto de Informática
STATA 11 para economistas
Para contrastar la bondad de ajuste es preciso tabular que tan bien predice el
modelo.
Si se grafica (por ejemplo para cien puntos) el efecto de psi sobre la probabilidad
de aumentar la nota, se puede graficar el efecto puro de psi sobre las medias
(trazo continuo) mientras que los puntos son el efecto de psi para cada individuo
en particular.
Por el contrario este gráfico permite comparar el efecto predictivo del modelo
para la variable psi.
96 Instituto de Informática
STATA 11 para economistas
98 Instituto de Informática
STATA 11 para economistas
Ejemplo
Se tienen datos acerca del tipo de seguro de salud disponible para 616
personas que sufren de depresión en Estados Unidos. El seguro es
categorizado en dos planes: plan de indemnización y de prepago.
use http://www.stata-press.com/data/r8/sysdsn3
describe
Logit ordenado
6. Datos de panel
ssc install xtserial //Si este comando no funciona, intente: -findit xtserial-
ssc install xttest2
ssc install xttest3
use http://www.stata-press.com/data/r10/nlswork.dta
des
sum
generate age2 = age*age generate black = (race==2)
Efectos aleatorios
Donde i + ui
Es decir, en vez de considerar a como fija, suponemos que es una
variable aleatoria con un valor medio y una desviación aleatoria de
este valor medio. Sustituyendo en i + ui (2) obtenemos:
4
Recuerde que referencialmente una Hipótesis nula se rechaza si el p-value es pequeño, menor a 0.10, por
ejemplo.
El p-value nos indica que podemos rechazar la Ho; por lo tanto, los
efectos aleatorios i u son relevantes y es preferible usar la estimación
de efectos aleatorios en vez de la agrupada.
- Efectos fijos
5
Como repasamos en clase, utilizar variables dicotómicas conduce al mismo resultado que si
restamos a cada observación la media de cada estado (demeaning the data).
. hausman fijos .
- Efectos Temporales
6
Para hacer la distinción algunos autores suelen hablar de efectos idiosincráticos y efectos covariados.
Al igual que con los efectos individuales, podemos realizar una prueba F
para conocer la significancia conjunta de las variables dicotómicas
temporales en nuestro modelo. La hipótesis nula es que
1 = 2 =… t = 0. . En nuestro ejemplo, luego de estimar un modelo
con efectos fijos individuales y temporales, indicamos en la ventana de
comando:
(11) _Iyear_83 = 0
114 Instituto de Informática
STATA 11 para economistas
(12) _Iyear_85 = 0
(13) _Iyear_87 = 0
(14) _Iyear_88 = 0
- Autocorrelación
7
Muchas de las pruebas que se utilizan para diagnosticar problemas de correlación serial en series de tiempo
han sido ajustadas para aplicarse a datos tipo panel en Stata. Estas pruebas puedes bajarlas por internet del
modulo “PANELAUTO” y “PANTEST2” tecleando en la línea de comando:
ssc install panelauto y ssc install pantest2.
8
El método de Wooldridge utiliza los residuales de una regresión de primeras diferencias, observando que si
uit no está serialmente correlacionado, entonces la correlación entre los errores uit diferenciados para el
periodo t y t-1 es igual a -0.5. En realidad, la prueba de Wooldridge consiste en probar esta igualdad. Para una
discusión más amplia de esta prueba, consulta Wooldridge, J. M. 2002. Econometric Analysis of Cross Section
and Panel Data. Cambridge, MA: MIT Press.
donde
- Heterocedasticidad
9
Si deseáramos estimar un modelo de efectos aleatorios, en vez de fe indicamos re.
10
Para una discusión sobre esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River,
NJ: Prentice Hall, p. 598.
- Correlación contemporánea
2
Si el p-value del estadístico indica que podemos rechazar la Ho;
entonces también es necesario corregir el problema de correlación
contemporánea.
11
Técnicamente, el comando xttest2 prueba la hipótesis de que la matriz de correlación de los residuales,
obtenida sobre las observaciones comunes a todas las unidades transversales, es una matriz de identidad de
orden N, donde N es el número de unidades transversales. Para una discusión de esta prueba, consulta Greene,
W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 601.
section data, 1995) demostraron que los errores estándar de PCSE son
más precisos que los de FGLS. Desde entonces, muchos trabajos en la
disciplina han utilizado PCSE en sus estimaciones para panel 13
Stata ejecuta FGLS y PCSE con los comandos xtgls y xtpcse. Las
opciones que ofrecen estos comandos dependen de los problemas
detectados en las pruebas que hemos revisado. La tabla mostrada a
continuación presenta los comandos ante problemas de correlación
contemporánea, heteroscedasticidad y autocorrelación, y sus
combinaciones.
12
Para una introducción técnica pero fácil de entender sobre las propiedades de FGLS y PCSE, ver: Nathaniel
Beck, “Time-Series-Cross-Section Data: What Have We Learned in the Past Few Years?”, Annual Review of
Political Science, 4: 271-93 (2001).
13
Hasta la fecha, el debate entre FGLS y PCSE continúa, y ya se han desarrollado algunos métodos alternativos.
Como los cálculos son hechos por la computadora, y en la mayoría de casos no es costoso computacionalmente
vale la pena estimar ambos métodos y comparar resultados.
ó el comando:
122
STATA 11 para economistas
[ (w, )] = 0
Con el comando set matsize es posible fijar hasta en 800 por 800 dicha
matriz.
Finalmente tenemos:
Las variables endógenas se tratan del mismo modo que las variables
dependientes rezagadas (siendo los rezagos de orden p o mayores
instrumentos válidos, mientras que para las predeterminadas los rezagos
p-1 o mayores son instrumentos válidos.
La matriz de covarianzas de
Ejemplo:
. ds
c1 emp indoutpt k yearm1 nL2 kL2 yr1976 yr1979 yr1982
ind wage n ys id wL1 ysL1 yr1977 yr1980 yr1983 year
cap w rec nL1 kL1 ysL2 yr1978 yr1981 yr1984
. xtabond n w L.w
7. Introducción a la programación
Ejemplo
global paises PER ARG PAR MEX
di "$paises"
Las macros global son utilizadas frecuentemente para guardar los ítems
paramétricos de un programa, como puede ser un carácter string que
contenga el nombre del directorio ―defult‖ en donde las bases de datos o
los do-files serán accesados.
Ejemplo
cd "…"
use auto
local x1: type labor
Ejemplo:
forvalues i=1(1)5 {
display ‗i‘
}
Ejemplo:
forvalues i=1/5 {
display `i'
}
Ejemplo:
local n 5
forvalues i=1/`n' {
display ‗i‘
}
forvalues i=1/4 {
generate double lnx ‘i‘ =log(x ‘i‘)
summarize lnx ‘i‘
}
Ejemplo:
foreach z in PER ARG PAR MEX {
generate double lnx`z'=log(x`z')
summarize lnx`z'
}
foreach z of varlist x* {
summarize ln`z'
}
7.3.1. Escalares
STATA utiliza escalares y matrices. Los escalares pueden contener
valores string (hasta 244 caracteres) o un único valor numérico. Los
comandos de análisis (describe, sum, entre otros) de STATA dan los
resultados como escalares numéricos (ver return). Adicionalmente, los
escalares pueden ser utilizados para guardar resultados numéricos.
Ejemplo:
scalar root2=sqrt(2)
7.4. Matrices
Las matrices en STATA son útiles para guardar los resultados. También son una
forma de presentar la información de manera organizada. Muchas operaciones
no pueden ser realizadas con los comandos matrix tradicionales. Por ejemplo si
Pontificia Universidad Católica del Perú 141
Introducción a la programación
bien el comando matrix mkmat permite crear una matriz a partir de una lista de
variables, el número de observaciones de la matriz es limitado.
Por otro lado, los comandos clásicos y los del lenguaje MATA y en general
cualquier lenguaje matricial tiene limitaciones a la hora de trabajar con
expresiones matriciales complejas (panel, SUR, entre otros) sobretodo si se
consideran la memoria disponible en la PC. En estos casos es preferible trabajar
con enlaces que permitan simplificar el cálculo matricial.
Por ejemplo en vez de realizar el cálculo matricial para estimar un SUR se puede
generar un loop en donde se realice regresiones de distintas ecuaciones, los dos
procedimientos dan el mismo resultado pero el último no requiere de tantos
recursos informáticos.
Para cerrar la sesión MATA y volver al formato convencional del STATA se tiene
que ejecutar la orden -end-. A modo de ilustración las siguientes líneas permiten
cargar los datos a un formato matricial y estimar las pendientes bajo MCO de la
siguiente especificación: price=f(mpg, weight).
1 sysuse auto
2 mata X=st_data(.,("mpg","weight","foreign"))
4 Y=st_data(.,("price"))
5 X=J(rows(X),1,1),X 6 invsym(X'X)*X'Y
142 Instituto de Informática
STATA 11 para economistas
sysuse auto
mkmat price mpg,matrix(y)
mata: y2=st_matrix("y")
mata: mean(y2)
mata: rows(y2)
mata: cols(y2)
Ejemplos:
cd "..."
use auto
des
return list
sum mpg
return list
di "La media estandariza es `r(mean)'/`r(sd)'"
Los principales elementos que se deben tener en cuenta en el trabajo con datos
de encuestas por muestreo son:
. svydes
Pearson:
Uncorrected chi2(8) = 624.9913
Design-based F(6.75,6288.86) = 45.3989 P = 0.0000
. svy: tab,se ci deff
. svyreg, deft
NOTAS