You are on page 1of 9

DESARROLLO TALLER EN R – ESTADÍSTICA DESCRIPTIVA

PROBABILIDAD Y ESTADÍSTICA GRUPO 17

PRESENTADO POR: SAMUEL ORLANDO ESCOBAR JAIMES


JONATHAN ANDRÉS GARCÍA MONTANA

PRESENTADO A: MARÍA PAULA DUEÑAS HERRERA

FACULTAD DE INGENIERÍA
UNIVERSIDAD NACIONAL DE COLOMBIA
BOGOTÁ D.C.
2018
DESARROLLO TALLER EN R – ESTADÍSTICA DESCRIPTIVA

PROBABILIDAD Y ESTADÍSTICA GRUPO 17

PRESENTADO POR: SAMUEL ORLANDO ESCOBAR JAIMES

PRESENTADO A: MARÍA PAULA DUEÑAS HERRERA

FACULTAD DE INGENIERÍA
UNIVERSIDAD NACIONAL DE COLOMBIA
BOGOTÁ D.C.
2018

2
A partir del conjunto de datos “students.txt”, responda las siguientes preguntas:

1. ¿Cuántos estudiantes se tuvieron en cuenta para el estudio? ¿Cuántas variables se midieron a cada
estudiante? Haga una lista de las variables con el tipo de variable y el tipo de escala en la que fue
medida.

Se tuvieron en cuenta 30 estudiantes y se midieron 13 variables a cada uno. A continuación se muestra


la lista de las variables con el tipo de variable y el tipo de escala en la que fue medida.

2. Complete:
 ¿Cuál es el número de estudiantes con menos de 21 años?
El número de estudiantes con menos de 21 años es 12.
 ¿Cuál es el promedio de edad de los estudiantes?
El promedio de edad de los estudiantes es 25.2 años.
 ¿Cuál es la ciudad de procedencia más frecuente?
La ciudad de procedencia más frecuente es New York con dos estudiantes. Si vemos el Estado,
son cinco los estudiantes que provienen del Estado New York.
 ¿Cuál es el mínimo de veces que un estudiante lee el periódico en la semana?
El mínimo de veces que un estudiante lee el periódico en la semana es 3.

3. Para la variable altura en pulgadas:


 Calcule su percentil 10, y 90 e interprételos.
3
El percentil 10 tiene el valor de 60.9, es decir, el 10 % de los estudiantes miden 60.9 pulgadas o
menos. Por el contrario el 90 % de los estudiantes miden más de 60.9 pulgadas.
El percentil 90 tiene el valor de 73, es decir, el 90% de los estudiantes miden 73 pulgadas o
menos. Por el contrario el 10% de los estudiantes miden más de 73 pulgadas de altura.
 Calcule su varianza, desviación estándar y coeficiente de variación.
𝑠 2 = 21.7023
𝑠 = 4.658573
𝐶. 𝑉. = 0.07012402
 Obtenga un histograma usando la regla de Sturges para conocer el número de cortes. ¿En qué
intervalo está el pico de la distribución? Además, obtenga un histograma con dos cortes. ¿Qué
diferencias encuentra entre los dos gráficos? ¿Cambia su interpretación? ¿Cuál de los dos le
aporta más información sobre el comportamiento de la variable?
El pico de la distribución en la primera grafica (grafica izquierda) es bimodal, por tanto, se
encuentra entre dos intervalos, el primero de ellos es entre (62-64) y el segundo entre (66-68).
Esto teniendo en cuenta que usando la regla de Sturges RStudio hizo 9 cortes. Sin embargo al
realizar el histograma con dos cortes (grafica de la derecha) observamos de forma más sencilla
que el pico de la distribución se encuentre entre el intervalo de (60-70).
La interpretación del histograma se vuelve más simple y fácil de entender al ver el histograma
de la derecha. Sin embargo, quien sin duda aporta más información es el histograma de la
izquierda ya que por ejemplo, en él podemos observar que existe un pequeño intervalo entre
(64-66) en el cual hay solo dos estudiantes que cumplen con la condición, esta información se
pierde en el histograma de la derecha que decimos que en el intervalo entre (60-70) existen 17
estudiantes con esa altura.

4. Separe los estudiantes por el programa que cursan (Economía, Matemáticas y Política).
 Calcule la mediana del puntaje SAT para cada grupo.
La mediana para el grupo de economía es 1786,5.
La mediana para el grupo de matemáticas es 1909,5.
4
La mediana para el grupo de política es 1880,5.
 Compare el comportamiento de la variable Average score grade en cada uno de los grupos a
través de boxplots.

 ¿Cuál de los grupos tiene un comportamiento más disperso en la variable Average score grade?
Justifique su respuesta gráfica y numéricamente.

El grupo de los que cursan economía son los más dispersos, aunque a primera vista puede
parecer que el diagrama de boxplot de Política es el más largo, si vemos la escala en la que se
midió, observamos que es una escala menor que la del grupo de Economía. Esto lo podemos
confirmar realizando el coeficiente de variación para cada uno de los grupos.

Calculando el coeficiente de variación para poder realizar la comparación numéricamente entre


los tres grupos, los resultados son:

𝐶. 𝑉. 𝐸𝑐𝑜𝑛𝑜𝑚í𝑎 = 0.1309124
𝐶. 𝑉. 𝑀𝑎𝑡𝑒𝑚á𝑡𝑖𝑐𝑎𝑠 = 0.1131372
𝐶. 𝑉. 𝑃𝑜𝑙í𝑡𝑖𝑐𝑎 = 0.1197655

Como observamos quien tiene mayor coeficiente de variación es el grupo quienes cursan
economía, por tanto, podemos concluir que este grupo es quien tiene el comportamiento más
disperso.

5. Obtenga un diagrama de dispersión para las variables SAT y Número de veces que lee el periódico
en una semana. ¿Hay alguna relación visible entre las variables? Calcule la covarianza y el coeficiente
de correlación lineal de Pearson e interprételos.
Como observamos en la gráfica a continuación, no se ve una relación visible de los datos.
5
Hallando su covarianza vemos que posee un valor elevado, aunque teniendo en cuenta la escala en
la que estamos midiendo los puntos no están tan dispersos, quien nos puede orientar mejor en este
caso es el coeficiente de correlación lineal de Pearson, al obtenerlo vemos un valor muy pequeño
comparativamente con 1. Por tanto, esto nos confirma que las variables no tienen relación alguna en
su comportamiento.

𝐶𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = 19.15862
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑙𝑖𝑛𝑒𝑎𝑙 𝑑𝑒 𝑃𝑒𝑎𝑟𝑠𝑜𝑛 = 0.0544326

Anexos.

A continuación se encuentra el código utilizado en el desarrollo del taller.

#Desarrollo punto 1
# Agregamos la base de datos students a la base común de RStudio
attach(students)
#Asignamos una variable n para guardar el tamaño de la muestra a estudiar
n<-dim(students)
n
#Para ver el numero de variables medidas a cada estudiante.
ncol(students)
#Procedimiento para organizar la lista de las variables.
Nom_Var<-c(colnames(students))

Nom_Var1<-unlist(colnames(students))
View(Nom_Var1)
6
tipo_Var<-c("Cualitativa
","Cualitativa","Cualitativa","Cualitativa","Cualitativa","Cualitativa","Cualitativa","Cualitativa","C
uantitativa","Cuantitativa","Cuantitativa","Cuantitativa","Cuantitativa")
tipo_escala<-
c("Nominal","Nominal","Nominal","Nominal","Nominal","Ordinal","Nominal","Nominal","Interv
alo","Razón","Intervalo","Intervalo","Razón")
Lista<-data.frame(Nom_Var,tipo_Var,tipo_escala)
View(Lista)

#Desarrollo punto 2
menores_21<-subset(students,Age<21)# subconjunto de estudiantes menores a 21 años
menores_21

media_edad<-mean(Age)
media_edad

Ciudad<-students[,3] #Agregamos la columna 3 de la matriz students a una lista


Ciudad #Verificamos los valores almacenados
Vector_Ciudad<-unlist(Ciudad,use.names = FALSE)#Convertimos la lista en un vector atomico
fVector_Ciudad<-as.factor(Vector_Ciudad) #convertimos cada una de las diferentes opciones del
vector en un factor
fVector_Ciudad# Verificamos los factores
levels(fVector_Ciudad)#Muestra el nivel por cada factor diferente
summary(fVector_Ciudad)#Muestra el resumen de cuantos estudiantes hay por cada nivel o factor
podemos ver que New York es quien tiene la mayor cantidad de estudiantes
max(summary(fVector_Ciudad))#Muestra la cantidad maxima de estudiantes que provienen de la
misma ciudad

minlectura<-min(`Newspaper_readership_(times_wk)`)
minlectura
#Desarrollo punto 3
Percentil_10<-quantile(`Height_(in)`,0.1)
Percentil_10
Percentil_90<-quantile(`Height_(in)`,0.9)
Percentil_90
varianza_altura<-var(`Height_(in)`)
varianza_altura
desviacionestandaraltura<-sd(`Height_(in)`)
desviacionestandaraltura
mediaaltura<-mean(`Height_(in)`)
coefvariacionaltura<-desviacionestandaraltura/mediaaltura
coefvariacionaltura
par(mfrow=c(1,2))
hist(`Height_(in)`,breaks = "Sturges",main = "Histograma de altura con Regla de
Sturges",xlab="Altura (IN)",ylab = "Frecuencia")
hist(`Height_(in)`,main="Histograma de altura",xlab="Altura",ylab="Frecuencia",breaks=2) #por
defecto lo hace #por la regla de Struge
7
#Desarrollo punto 4
CursanEcono<-subset(students,Major=="Econ")
CursanEcono
CursanMate<-subset(students,Major=="Math")
CursanMate
CursanPoli<-subset(students,Major=="Politics")
CursanPoli
SATEcono<-unlist(CursanEcono[,10])
SATEcono
SATMate<-unlist(CursanMate[,10])
SATMate
SATPoli<-unlist(CursanPoli[,10])
SATPoli
Mediana_SATEcono<-median(SATEcono)
Mediana_SATEcono
Mediana_SATMate<-median(SATMate)
Mediana_SATMate
Mediana_SATPoli<-median(SATPoli)
Mediana_SATPoli
help("boxplot")
help("par")

par(mfrow=c(3,1))
Promedio_Puntaje_Grado_Econo<-unlist(CursanEcono[,11])
Promedio_Puntaje_Grado_Mate<-unlist(CursanMate[,11])
Promedio_Puntaje_Grado_Poli<-unlist(CursanPoli[,11])

boxplot(Promedio_Puntaje_Grado_Econo, horizontal=TRUE,xlab="Puntaje promedio de grado


Economia",col="Blue",main = "Comportamiento de la variable Average score grade en los tres
cursos")
boxplot(Promedio_Puntaje_Grado_Mate, horizontal=TRUE,xlab="Puntaje promedio de grado
Matematicas",col="Green")
boxplot(Promedio_Puntaje_Grado_Poli, horizontal=TRUE,xlab="Puntaje promedio de grado
Politica",col="Red")

Media_Promedio_Puntaje_Grado_Econo<-mean(Promedio_Puntaje_Grado_Econo)
Desviacion_Promedio_Puntaje_Grado_Econo<-sd(Promedio_Puntaje_Grado_Econo)
CoeficienteVariacion_Promedio_Puntaje_Grado_Econo<-
Desviacion_Promedio_Puntaje_Grado_Econo/Media_Promedio_Puntaje_Grado_Econo
CoeficienteVariacion_Promedio_Puntaje_Grado_Econo
Media_Promedio_Puntaje_Grado_Mate<-mean(Promedio_Puntaje_Grado_Mate)
Desviacion_Promedio_Puntaje_Grado_Mate<-sd(Promedio_Puntaje_Grado_Mate)
CoeficienteVariacion_Promedio_Puntaje_Grado_Mate<-
Desviacion_Promedio_Puntaje_Grado_Mate/Media_Promedio_Puntaje_Grado_Mate
CoeficienteVariacion_Promedio_Puntaje_Grado_Mate
Media_Promedio_Puntaje_Grado_Poli<-mean(Promedio_Puntaje_Grado_Poli)
Desviacion_Promedio_Puntaje_Grado_Poli<-sd(Promedio_Puntaje_Grado_Poli)
8
CoeficienteVariacion_Promedio_Puntaje_Grado_Poli<-
Desviacion_Promedio_Puntaje_Grado_Poli/Media_Promedio_Puntaje_Grado_Poli
CoeficienteVariacion_Promedio_Puntaje_Grado_Poli
#Desarrollo punto 5
SAT_ALL<-students[,10]
SAT_ALL
Numero_lectura_ALL<-students[,13]
Numero_lectura_ALL
Matriz_dispersion<-data.frame(SAT_ALL,Numero_lectura_ALL)
Matriz_dispersion
library(ggplot2)
ggplot(Matriz_dispersion,aes(x=SAT_ALL,y=Numero_lectura_ALL))+ geom_point() +
ggtitle("Diagrama de Dispersión Puntaje SAT vs No. de veces lectura semanal") + xlab("Puntaje
SAT") + ylab("Lectora de periodicos semanal") + geom_smooth(method="lm")
cov(SAT_ALL,Numero_lectura_ALL)
cor(SAT_ALL,Numero_lectura_ALL)

You might also like