Upload
others
View
12
Download
0
Embed Size (px)
Citation preview
PRÁCTICA 5. LA DISTRIBUCIÓN NORMAL
Objetivo
El objetivo de la presente práctica informática es aplicar los conceptos vistos en clase
sobre la distribución Normal. Comprobar sus propiedades y compararla con otras
distribuciones, utilizando para ello representaciones gráficas y parámetros, algunos de
los cuales ya se introdujeron en la Unidad Didáctica 2.
1. Características de la distribución Normal
a) Observa la forma de la función de densidad f(x) que caracteriza a la distribución
Normal de la variable aleatoria DUREZA DE LOS ASIENTOS utilizada en el Ejercicio 16
de la UD4-Parte 3.
Opciones: Graficar → Distribuciones de Probabilidad (Normal)
A continuación se indican la media m=185 y la desviación típica σ=12:
Práctica 5 | La distribución Normal Grado en Ingeniería Informática |ETSINF |DEIOAC
Respuesta:
En la ventana superior derecha aparece el gráfico de la función de densidad de la Normal
de media 185 y desviación típica 12. Tiene forma simétrica y encierra un área con forma
de campana centrada en el valor 185.
b) Calcula un intervalo de valores de DUREZA que contenga el 95% de TODOS los
asientos fabricados (Población). Compara el resultado con las propiedades enunciadas
en el apartado 1.5.2 de la UD4-Parte 3.
Opciones: Tablas y Gráficos (icono en la parte superior izquierda) →
Distribuciones Acumuladas Inversas
Media,Desv. Est.185,12
Normal
120 150 180 210 240 270
x
0
0,01
0,02
0,03
0,04
den
sid
ad
Práctica 5. Distribución Normal 3
Y con la tecla derecha del ratón abrir la ventana para seleccionar Opciones de Ventana
y en FDA poner 0,025 y 0,975
Respuesta:
Se estudió en las propiedades de la distribución normal que
P(m-2σ<N(m,σ)<m+2σ)≈0,95
Por tanto la probabilidad acumulada por debajo de m-2σ es aproximadamente 0,025 y
por debajo de m+2σ es aproximadamente 0,975. Al haber indicado esas dos
probabilidades en FDA el programa nos dará los valores 161,48 y 208,52 que están
muy próximos a 185-2.12=161 y 185+2.12=208 calculados aplicando las propiedades
de la distribución normal.
2. Comparación de la distribución Normal con otras distribuciones
Se ha tomado una muestra de 100 asientos y se ha medido su dureza (los valores se
recogen en la variable DUREZA). Asimismo, se ha tomado una muestra de 100 pantallas
LCD (Ejercicio 12 de la UD4-Parte 2) y se ha medido el tiempo (horas) hasta que dejan
de funcionar correctamente (los valores se recogen en la variable TIEMPO). Los datos
de las variables DUREZA y TIEMPO se encuentran en el fichero PRACT5-GII.SF3
disponible en PoliformaT. Descargar el fichero de Recursos..practicas….ficheros de
datos. Abrirlo con Archivo…Abrir…Abrir datos (Archivo de Datos STATGRAPHICS)
En buscar poner el subdirectorio en el que se haya descargado el fichero.
a) Construye para cada una de las muestras un histograma, el diagrama Box&Whisker,
representa los valores en Papel Probabilístico Normal y compáralos. ¿Qué puedes decir
respecto de las distribuciones de las cuales provienen?
Opciones: Describir…Datos Numéricos…Análisis de Una Variable. Primero ponemos
en Datos la variable DUREZA. Para obtener el Histograma y la representación en Papel
Probabilístico Normal seleccionar en Tablas y Gráficos Histograma y Gráfico de
Probabilidad. Repetir la operación con la variable TIEMPO.
Respuesta:
Los tres gráficos para la variable DUREZA son:
FDA InversaDistribución: Normal
FDA Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 50,025 161,48038720,975 208,51961280,5 1850,9 200,37865230,99 212,9162261
Práctica 5 | La distribución Normal Grado en Ingeniería Informática |ETSINF |DEIOAC
En el histograma cambiar con Opciones de Ventana el número de clases a 10 (raíz
cuadrada de N=100 número de datos) y poner como límites el inferior 156 y el superior
211 (valores cercanos al mínimo y máximo de la muestra):
Gráfico de Caja y Bigotes
150 170 190 210 230
DUREZA
Histograma
150 170 190 210 230
DUREZA
0
4
8
12
16
20
frecu
en
cia
Práctica 5. Distribución Normal 5
Se observa en el diagrama Box&Whisker que la distribución es simétrica. En el
histograma la distribución de frecuencias tiene forma aproximada de campana. En el
papel probabilístico normal recordad que se representan en el eje Y los porcentajes
acumulados y en el eje X los valores ordenados de la muestra. La escala del eje Y es
especial para la distribución Normal, de forma que si los datos siguen esta distribución al
hacer la representación aparecen cercanos a una línea recta. Esto es lo que se observa
para la variable DUREZA. Por tanto la conclusión es que la DUREZA sigue distribución
Normal.
Para la variable TIEMPO los tres gráficos son:
Gráfico de Probabilidad Normal
150 170 190 210 230
DUREZA
0,1
1
5
20
50
80
95
99
99,9
po
rcen
taje
n:100Media:185,2Sigma:11,3074W:0,981363P:0,5995
Práctica 5 | La distribución Normal Grado en Ingeniería Informática |ETSINF |DEIOAC
En el histograma cambiar con Opciones de Ventana el número de clases a 10 (raíz
cuadrada del número de datos N=100) y los límites inferior y superior a inferior=1,3 y
superior=241, valores cercanos al mínimo y máximo de la muestra.
Gráfico de Caja y Bigotes
0 50 100 150 200 250
TIEMPO
Histograma
0 50 100 150 200 250
TIEMPO
0
10
20
30
40
50
frecu
en
cia
Práctica 5. Distribución Normal 7
Se observa en el diagrama Box&Whisker de TIEMPO que la variable es asimétrica
positiva (la distancia entre mínimo y mediana es menor que la distancia entre mediana y
máximo). El histograma confirma con la distribución de frecuencias esa distribución.
Finalmente la representación en papel probabilístico normal es una curva. Por tanto el
TIEMPO no sigue una distribución normal.
b) Obtener la media, la mediana, la desviación típica y los parámetros estándar de
asimetría y curtosis para las variables TIEMPO y DUREZA. ¿Qué se observa entre la
media y la mediana de cada variable? ¿Qué puedes decir respecto de la asimetría y
curtosis?
Para obtener estos parámetros muestrales desde la misma opción Describir…Datos
Numericos…Análisis de Una Variable hay que mirar la ventana que tiene como título
Resumen Estadístico y con la tecla derecha del ratón abrir una ventana en la que
seleccionados Opciones de Ventana y en ella marcamos Promedio Mediana
Desviación Estándar Sesgo Estd. y Curtosis Estd. Lo hacemos para cada una de las
variables.
Respuesta:
Los parámetros pedidos para DUREZA son:
Se observa que media y mediana son muy parecidas como ocurre con datos normales
(simétricos), La asimetría estandarizada (Sesgo Estandarizado) es un valor que está en
el intervalo (-2,2) como pasa con datos simétricos. La curtosis estandarizada está dentro
del intervalo (-2,2) por lo que son datos normales o mesocúrticos.
Gráfico de Probabilidad Normal
0 50 100 150 200 250
TIEMPO
0,1
1
5
20
50
80
95
99
99,9
po
rcen
taje
n:100Media:39,8454Sigma:41,156W:0,783759P:0,0000
Resumen Estadístico para DUREZARecuento 100Promedio 185,2Mediana 185,484Desviación Estándar 11,3074Sesgo Estandarizado -0,442787Curtosis Estandarizada -0,655697
Práctica 5 | La distribución Normal Grado en Ingeniería Informática |ETSINF |DEIOAC
Sin embargo para la variable TIEMPO se observa que la media 39,84 es mayor que la
mediana 26,78 como ocurre con datos con asimetría positiva. La asimetría estandarizada
8,92 está claramente por encima de 2, lo que confirma la asimetría positiva. La curtosis
estandarizada 12,48 es mayor que 2 por lo que son datos leptocúrticos y no siguen
distribución normal.
c) ¿Cómo podrías calcular aproximadamente sobre el Papel Probabilístico Normal la
media y la desviación típica de las distribuciones DUREZA y TIEMPO?
Respuesta:
Se puede calcular la media y desviación típica de DUREZA sobre el papel probabilístico
normal porque hay una recta que ajusta a los puntos. Para la variable TIEMPO no se
puede calcular la media y la desviación típica con el papel probabilístico normal porque
como se aprecia en el gráfico siguen una curva y no se puede ajustar una recta al no
tener distribución normal.
Para calcular la media m y la desviación típica σ de DUREZA de forma aproximada se
utilizarán las propiedades de la distribución normal. La media m en esa distribución
coincide con la mediana, que es el percentil 50 es decir el valor que deja por debajo una
probabilidad acumulada del 50%. Por tanto sobre el gráfico de papel probabilístico normal
(Gráfico de Probabilidad Normal) hacer doble click con la techa izquierda del ratón para
maximizar la ventana. Después con la tecla derecha del ratón abrir una ventana en la que
estará activado Localizar, seleccionarlo y a continuación mover las líneas auxiliares que
aparecen de forma que la horizontal esté en Y:50% y mover la vertical hasta que corte la
recta de los datos y la línea vertical. La coordenada X del punto de corte es
aproximadamente la media. La figura siguiente muestra un posible resultado de esta
operación:
Resumen Estadístico para TIEMPORecuento 100Promedio 39,8454Mediana 26,7829Desviación Estándar 41,156Sesgo Estandarizado 8,91972Curtosis Estandarizada 12,4844
Práctica 5. Distribución Normal 9
Como se observa para Y:50% se lee X m≈185,04.
Para estimar aproximadamente la desviación típica σ a partir del papel probabilístico
normal se puede utilizar la propiedad de la normal P(m-2σ<N(m,σ)<m+2σ)≈0,95. Así la
probabilidad acumulada por debajo de m+2σ es aproximadamente 97,5% (m+2σ es el
percentil 97,5%). Nos vamos al gráfico de papel probabilístico normal y con Localizar
colocamos la línea horizontal en Y cerca de 97,5 y la vertical que corte con ella y la línea
de los datos. La coordenada X del punto de corte será aproximadamente m+2σ. Por
ejemplo puede resultar:
Según el gráfico m+2σ≈206,8 como m≈185,04 entonces σ≈(206,8-185,04)/2=10,88
Práctica 5 | La distribución Normal Grado en Ingeniería Informática |ETSINF |DEIOAC
RECUERDA. La media (m) y la desviación típica () obtenidas son las de la población (UD4). La media y
desviación típica muestrales (X̅ y S) se calcularían a partir de los datos (UD2).
3. Aproximaciones normales
Construye la función de probabilidad P(x) de 3 variables de Poisson, una con =1, otra
con =2 y una tercera con =10. ¿Qué se observa?
Para construir las tres funciones de probabilidad ir a la opción Graficar…Distribuciones
de Probabilidad y en la lista de distribuciones que aparece seleccionar Poisson.
Una vez seleccionada poner en Media los tres valores del parámetro λ de las tres
distribuciones: 1, 2 y 10 cada uno en una casilla. Tras pulsar Ok aparecerá en el gráfico
de la parte superior derecha las tres funciones de probabilidad.
Resultado:
Práctica 5. Distribución Normal 11
Se observa que cuando λ es mayor que 9 la función de probabilidad se aproxima a la
distribución normal de campana de Gauss.
4. Teorema Central del Límite
a) Observa la forma de la función de densidad f(x) que caracteriza a la distribución
Uniforme de la variable aleatoria TIEMPO DE ACCESO A UN FICHERO del Ejercicio 11
de la UD4-Parte 3.
Opciones: Graficar → Distribuciones de Probabilidad (Uniforme)
Indicar a continuación: Límite Inferior=0,1 Límite Superior=0,5.
Media1210
Poisson
0 5 10 15 20 25 30
x
0
0,1
0,2
0,3
0,4
pro
bab
ilid
ad
Práctica 5 | La distribución Normal Grado en Ingeniería Informática |ETSINF |DEIOAC
Seleccionar en Tablas y Gráficos Números Aleatorios.
Resultado:
En la ventana superior derecha aparece la función de densidad de la U(0,1, 0,5):
Se observa que es una línea recta horizontal y que encierra un área igual a un
rectángulo.
b) ¿Cuál será el tiempo medio de acceso a un fichero? ¿Y la varianza?
RECUERDA. La media (m) y varianza (2) obtenidas son las relativas a la población (UD4).
Resultado:
Para calcular la media y la varianza del tiempo de acceso a un fichero, como sigue
distribución uniforme U(0,1,0,5), se utilizan las fórmulas de esta distribución.
Media de la uniforme m=𝑎+𝑏
2=0,1+0,5
2=0,3 s
Varianza de la uniforme σ2=(𝑏−𝑎)2
12=(0,5−0,1)2
12=0,013 s2
c) Obtener 10 muestras de la variable TIEMPO DE ACCESO A UN FICHERO de 100
datos cada una. Cada muestra puede obtenerse a partir de la generación de 100 datos
aleatorios de una variable que fluctúa uniformemente entre 0,1 y 0,5 segundos.
Ir a la venta Números Aleatorios. Después seleccionar en la parte superior izquierda el
icono Guardar Resultados. En la ventana que se abre seleccionar la variable a guardar
y darle de nombre X1. Hacer click en OK.
Límite Inferior,Límite Superior0,1,0,5
Uniforme
0 0,1 0,2 0,3 0,4 0,5
x
0
0,5
1
1,5
2
2,5
den
sid
ad
Práctica 5. Distribución Normal 13
Repetir este paso diez veces cambiando cada vez el nombre de la variable a X2, X3, X4,
X5, X6, X7, X8, X9, X10. Se generaran así 10 muestras con 100 datos cada una de la
U(0,1, 0,5) y se guardan el editor de datos (en el B). A cada uno se le generarán unos
valores distintos porque son al azar y el programa utiliza un método que parte de una
semilla de generación de números al azar que será distinta en cada ordenador.
d) Compara las medias (X̅i) y varianzas muestrales (Si2) de las 10 variables generadas
con las obtenidas en al apartado b)
Opciones: Describir → Datos Numéricos → Análisis Multivariado…
En Datos poner las 10 variables generadas. Pulsar OK. Darle a Aceptar en Sólo Casos
Completos. En la ventana Resumen Estadístico pulsar la tecla derecha del ratón para
acceder a Opciones de Ventana y de los parámetros que aparecen seleccionar la media
Promedio y la Varianza.
Observad que las 10 medias muestrales están cercanas a la teórica de la distribución
calculada en el apartado b) m=0,3. Las 10 varianzas muestrales estarán próximas a la
teórica de la distribución calculada en el apartado b) σ2=0,013.
e) Construye un histograma con una de las variables uniformes generadas.
Con la opción Graficar…Gráficos Exploratorios…Histograma
En Datos poner el nombre de una de las 10 variables generadas. En Tipo de Datos
seleccionar Continuo. Cambiar con Opciones de Ventana el número de clases a 10
(raíz cuadrada de N=100 número de datos) y los límites inferior y superior a 0,1 y 0,5.
Resultado:
Por ejemplo a mi me ha dado un histograma para una de las variables con esta forma:
Guardar
resultados
Práctica 5 | La distribución Normal Grado en Ingeniería Informática |ETSINF |DEIOAC
Se aprecia que no se parece en nada a la normal. Se parece más a un rectángulo que es
la forma característica de los datos uniformes.
f) Genera una nueva variable X como suma de las 10 variables uniformes generadas,
construye un histograma y compáralo con el obtenido en el apartado anterior. ¿Qué se
observa?
Volved a entrar en la opción Graficar…Gráficos Exploratorios...Histograma pero ahora
en Datos poner X1+X2+X3+X4+X5+X6+X7+X8+X9+X10.
Histograma
0 0,1 0,2 0,3 0,4 0,5
X1
0
3
6
9
12
15
frecu
en
cia
Práctica 5. Distribución Normal 15
Resultado:
El histograma que me sale a mi, después de cambiar con Opciones de Ventana el
número de clases a 10 (raíz cuadrada de N=100 número de datos), y los límites inferior y
superior a valores cercanos al mínimo y máximo de la suma, para la suma con la
generación que ha hecho mi ordenador de los números aleatorios es:
La suma de 10 uniformes independientes se aproxima a la distribución normal. El
resultado teórico que justifica este resultado es el Teorema Central del Límite estudiado
en clase de teoría, según el cual la suma de un número elevado de variables
independientes se aproxima a la distribución normal.
Histograma
2 2,4 2,8 3,2 3,6 4
X1+X2+X3+X4+X5+X6+X7+X8+X9+X10
0
4
8
12
16
20
24
frecu
en
cia