Professional Documents
Culture Documents
FACULTAD DE INGENIERÍA
UNIVERSIDAD NACIONAL DE COLOMBIA
BOGOTÁ D.C.
2018
DESARROLLO TALLER EN R – ESTADÍSTICA DESCRIPTIVA
FACULTAD DE INGENIERÍA
UNIVERSIDAD NACIONAL DE COLOMBIA
BOGOTÁ D.C.
2018
2
A partir del conjunto de datos “students.txt”, responda las siguientes preguntas:
1. ¿Cuántos estudiantes se tuvieron en cuenta para el estudio? ¿Cuántas variables se midieron a cada
estudiante? Haga una lista de las variables con el tipo de variable y el tipo de escala en la que fue
medida.
2. Complete:
¿Cuál es el número de estudiantes con menos de 21 años?
El número de estudiantes con menos de 21 años es 12.
¿Cuál es el promedio de edad de los estudiantes?
El promedio de edad de los estudiantes es 25.2 años.
¿Cuál es la ciudad de procedencia más frecuente?
La ciudad de procedencia más frecuente es New York con dos estudiantes. Si vemos el Estado,
son cinco los estudiantes que provienen del Estado New York.
¿Cuál es el mínimo de veces que un estudiante lee el periódico en la semana?
El mínimo de veces que un estudiante lee el periódico en la semana es 3.
4. Separe los estudiantes por el programa que cursan (Economía, Matemáticas y Política).
Calcule la mediana del puntaje SAT para cada grupo.
La mediana para el grupo de economía es 1786,5.
La mediana para el grupo de matemáticas es 1909,5.
4
La mediana para el grupo de política es 1880,5.
Compare el comportamiento de la variable Average score grade en cada uno de los grupos a
través de boxplots.
¿Cuál de los grupos tiene un comportamiento más disperso en la variable Average score grade?
Justifique su respuesta gráfica y numéricamente.
El grupo de los que cursan economía son los más dispersos, aunque a primera vista puede
parecer que el diagrama de boxplot de Política es el más largo, si vemos la escala en la que se
midió, observamos que es una escala menor que la del grupo de Economía. Esto lo podemos
confirmar realizando el coeficiente de variación para cada uno de los grupos.
𝐶. 𝑉. 𝐸𝑐𝑜𝑛𝑜𝑚í𝑎 = 0.1309124
𝐶. 𝑉. 𝑀𝑎𝑡𝑒𝑚á𝑡𝑖𝑐𝑎𝑠 = 0.1131372
𝐶. 𝑉. 𝑃𝑜𝑙í𝑡𝑖𝑐𝑎 = 0.1197655
Como observamos quien tiene mayor coeficiente de variación es el grupo quienes cursan
economía, por tanto, podemos concluir que este grupo es quien tiene el comportamiento más
disperso.
5. Obtenga un diagrama de dispersión para las variables SAT y Número de veces que lee el periódico
en una semana. ¿Hay alguna relación visible entre las variables? Calcule la covarianza y el coeficiente
de correlación lineal de Pearson e interprételos.
Como observamos en la gráfica a continuación, no se ve una relación visible de los datos.
5
Hallando su covarianza vemos que posee un valor elevado, aunque teniendo en cuenta la escala en
la que estamos midiendo los puntos no están tan dispersos, quien nos puede orientar mejor en este
caso es el coeficiente de correlación lineal de Pearson, al obtenerlo vemos un valor muy pequeño
comparativamente con 1. Por tanto, esto nos confirma que las variables no tienen relación alguna en
su comportamiento.
𝐶𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = 19.15862
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑑𝑒 𝑃𝑒𝑎𝑟𝑠𝑜𝑛 = 0.0544326
Anexos.
#Desarrollo punto 1
# Agregamos la base de datos students a la base común de RStudio
attach(students)
#Asignamos una variable n para guardar el tamaño de la muestra a estudiar
n<-dim(students)
n
#Para ver el numero de variables medidas a cada estudiante.
ncol(students)
#Procedimiento para organizar la lista de las variables.
Nom_Var<-c(colnames(students))
Nom_Var1<-unlist(colnames(students))
View(Nom_Var1)
6
tipo_Var<-c("Cualitativa
","Cualitativa","Cualitativa","Cualitativa","Cualitativa","Cualitativa","Cualitativa","Cualitativa","C
uantitativa","Cuantitativa","Cuantitativa","Cuantitativa","Cuantitativa")
tipo_escala<-
c("Nominal","Nominal","Nominal","Nominal","Nominal","Ordinal","Nominal","Nominal","Interv
alo","Razón","Intervalo","Intervalo","Razón")
Lista<-data.frame(Nom_Var,tipo_Var,tipo_escala)
View(Lista)
#Desarrollo punto 2
menores_21<-subset(students,Age<21)# subconjunto de estudiantes menores a 21 años
menores_21
media_edad<-mean(Age)
media_edad
minlectura<-min(`Newspaper_readership_(times_wk)`)
minlectura
#Desarrollo punto 3
Percentil_10<-quantile(`Height_(in)`,0.1)
Percentil_10
Percentil_90<-quantile(`Height_(in)`,0.9)
Percentil_90
varianza_altura<-var(`Height_(in)`)
varianza_altura
desviacionestandaraltura<-sd(`Height_(in)`)
desviacionestandaraltura
mediaaltura<-mean(`Height_(in)`)
coefvariacionaltura<-desviacionestandaraltura/mediaaltura
coefvariacionaltura
par(mfrow=c(1,2))
hist(`Height_(in)`,breaks = "Sturges",main = "Histograma de altura con Regla de
Sturges",xlab="Altura (IN)",ylab = "Frecuencia")
hist(`Height_(in)`,main="Histograma de altura",xlab="Altura",ylab="Frecuencia",breaks=2) #por
defecto lo hace #por la regla de Struge
7
#Desarrollo punto 4
CursanEcono<-subset(students,Major=="Econ")
CursanEcono
CursanMate<-subset(students,Major=="Math")
CursanMate
CursanPoli<-subset(students,Major=="Politics")
CursanPoli
SATEcono<-unlist(CursanEcono[,10])
SATEcono
SATMate<-unlist(CursanMate[,10])
SATMate
SATPoli<-unlist(CursanPoli[,10])
SATPoli
Mediana_SATEcono<-median(SATEcono)
Mediana_SATEcono
Mediana_SATMate<-median(SATMate)
Mediana_SATMate
Mediana_SATPoli<-median(SATPoli)
Mediana_SATPoli
help("boxplot")
help("par")
par(mfrow=c(3,1))
Promedio_Puntaje_Grado_Econo<-unlist(CursanEcono[,11])
Promedio_Puntaje_Grado_Mate<-unlist(CursanMate[,11])
Promedio_Puntaje_Grado_Poli<-unlist(CursanPoli[,11])
Media_Promedio_Puntaje_Grado_Econo<-mean(Promedio_Puntaje_Grado_Econo)
Desviacion_Promedio_Puntaje_Grado_Econo<-sd(Promedio_Puntaje_Grado_Econo)
CoeficienteVariacion_Promedio_Puntaje_Grado_Econo<-
Desviacion_Promedio_Puntaje_Grado_Econo/Media_Promedio_Puntaje_Grado_Econo
CoeficienteVariacion_Promedio_Puntaje_Grado_Econo
Media_Promedio_Puntaje_Grado_Mate<-mean(Promedio_Puntaje_Grado_Mate)
Desviacion_Promedio_Puntaje_Grado_Mate<-sd(Promedio_Puntaje_Grado_Mate)
CoeficienteVariacion_Promedio_Puntaje_Grado_Mate<-
Desviacion_Promedio_Puntaje_Grado_Mate/Media_Promedio_Puntaje_Grado_Mate
CoeficienteVariacion_Promedio_Puntaje_Grado_Mate
Media_Promedio_Puntaje_Grado_Poli<-mean(Promedio_Puntaje_Grado_Poli)
Desviacion_Promedio_Puntaje_Grado_Poli<-sd(Promedio_Puntaje_Grado_Poli)
8
CoeficienteVariacion_Promedio_Puntaje_Grado_Poli<-
Desviacion_Promedio_Puntaje_Grado_Poli/Media_Promedio_Puntaje_Grado_Poli
CoeficienteVariacion_Promedio_Puntaje_Grado_Poli
#Desarrollo punto 5
SAT_ALL<-students[,10]
SAT_ALL
Numero_lectura_ALL<-students[,13]
Numero_lectura_ALL
Matriz_dispersion<-data.frame(SAT_ALL,Numero_lectura_ALL)
Matriz_dispersion
library(ggplot2)
ggplot(Matriz_dispersion,aes(x=SAT_ALL,y=Numero_lectura_ALL))+ geom_point() +
ggtitle("Diagrama de Dispersión Puntaje SAT vs No. de veces lectura semanal") + xlab("Puntaje
SAT") + ylab("Lectora de periodicos semanal") + geom_smooth(method="lm")
cov(SAT_ALL,Numero_lectura_ALL)
cor(SAT_ALL,Numero_lectura_ALL)