Análisis estadístico básico (I)
Magdalena Cladera [email protected]
Departament d’Economia AplicadaUniversitat de les Illes Balears
CONTENIDOS
Introducción a la inferencia estadística.Muestreo.
Estimación de parámetros.
Contrastación de hipótesis.
Asociación de variables categóricas.Tablas de contingencia.
Medidas de asociación.
REFERENCIAS
Alegre, J. y Cladera, M. (2003). Introducción a la Estadística Descriptiva para Economistas. Materials Didàctics UIB, 101. Palma de Mallorca.
Newbold, P. (1997). Estadística para los Negocios y la Economía. Prentice-Hall. Madrid.
Peña, D. y Romo, D. (1997). Introducción a la Estadística para las Ciencias Sociales. McGrawHill. Madrid.
Pardo, A. y Ruíz, M. A. (2001). SPSS 10.0. Guía para el análisis de datos. Accesible en: http://www.uca.es/serv/ai/formacion/spss/Inicio.pdf.
Pérez, C. (2001). Técnicas Estadísticas con SPSS, Prentice Hall, Madrid.
Inferencia estadística
Objetivo: extraer conclusiones sobre una población a partir de la información contenida en un subconjunto de elementos extraídos de la misma, es decir, una muestra.
En el contexto de la inferencia estadística se supone que en la población se estudia una variable aleatoria, X, con una determinada función de probabilidad, caracterizada por un/os parámetro/s. Mediante el análisis de las observaciones contenidas en una muestra extraída de esta población, se querrán obtener aproximaciones de las características de la distribución poblacional de X, y utilizar esta información para contrastar hipótesis sobre la misma.
Inferencia estadística
Conceptos:
Población. Conjunto de todos los elementos que se quieren analizar.
Muestra. Subconjunto de la población seleccionado para el análisis, cuando no es posible estudiar toda la población.
Parámetro. Medida estadística de una variable en la población.
Estimación. Valor obtenido a partir de la muestra, que se utiliza como aproximación al valor de un parámetro.
Estimador. Función matemática que se aplica a las observaciones muestrales para obtener estimaciones. Es una variable aleatoria.
Inferencia estadística
Procedimientos:
Estimación de parámetros. Obtención de aproximaciones al valor de parámetros poblacionales a partir de una muestra.
Puntual. Se obtiene un único valor como aproximación al valor del parámetro poblacional.
Por intervalos. Se obtiene un rango de valores como aproximación al valor del parámetro.
Contraste de hipótesis. Utilización de la información muestral para comprobar la validez de una afirmación sobre una característica de la población.
Inferencia estadística
Etapas de un estudio de muestreo:
1) ¿Qué infomación se necesita?
2) ¿Cuál es la población relevante? ¿Es posible analizarla?
3) ¿Cómo se seleccionan los elementos de la muestra? ¿Cuántos?
4) ¿Cómo se obtiene la información de los elementos de la muestra?
5) ¿Cómo se utilizará la información de la muestra para realizar inferencias sobre la población?
6) ¿Qué conclusiones pueden extraerse sobre la población?
Métodos de muestreo
Determinación del tamaño muestral
Estimación
Contrastación
Inferencia estadística
Estimación puntual:
X
POBLACIÓN
Parámetro
Observaciones muestrales
(x1, x2, x3,..., xn)
MUESTRA
Aproximación
Estimador
Estimación
Inferencia estadística
Estimación puntual:
Estimadores más utilizados.
Parámetro Estimador
Media (µ) Media muestral n
xx
n
ii∑
== 1
Varianza (σ2) Varianza muestral ( )
1ˆ 1
2
2
−
−=∑=
n
xxS
n
ii
Proporción (p) Proporción muestral nn
p 1ˆ =
Inferencia estadística
Estimación por intervalos:
Un intervalo de confianza consiste en dos valores entre los que se espera que esté contenido el verdadero valor del parámetro con una determinada probabilidad.
Nivel de confianza: probabilidad de que el intervalo contenga el verdadero valor del parámetro. 90%, 95% y 99% son los más habituales.
Hay una relación positiva entre el nivel de confianza y la amplitud del intervalo.
Hay una relación inversa entre el tamaño de la muestra y la amplitud del intervalo.
Inferencia estadística
Ejemplo. Coste en farmacia por habitante de los EAP.
Descriptivos
136,7028134,5845
138,8210
1353,24836,78652
MediaLímite inf eriorLímite superior
Interv alo de conf ianzapara la media al 95%
VarianzaDesv. típ.
Costes totales porhabitante (poblacióntotal) en euros
Estadíst ico
Inferencia estadística
Contraste de hipótesis:
Objetivo: comprobar la certeza de una afirmación sobre alguna característica de la población, utilizando la información contenida en una muestra extraída de dicha población.
Definiciones:Hipótesis estadística. Afirmación sobre alguna característica de la
población.
Contraste de hipótesis. Comparación de la hipótesis con la realidad observada (muestra), para decidir, con un margen de error admisible, si esta realidad contradice o no la hipótesis.
Hipótesis nula (H0). Afirmación sobre una característica de la población, de la que se quiere contrastar su validez.
Hipótesis alternativa (HA). Hipótesis por la que será substituida la hipótesis nula, en caso de que la evidencia muestral la contradiga.
Inferencia estadística
Contraste de hipótesis:
Metodología. Para realizar un contraste de hipótesis se necesita:
Un estadístico de contraste
Una regla de decisión. Para aplicar esta regla seránecesario fijar el nivel de significación del contraste (α).
Inferencia estadística
Contraste de hipótesis:
Ejemplo. Contraste sobre la igualdad de medias del gasto en farmacia de la C.A. de Madrid y de las Illes Balears.
Estadísticos de grupo
41 119,8415 26,98319 4,21407
289 102,2012 28,72670 1,68981
Nombre de laComunidad autónomaIlles Balears
Madrid
Costes totales porhabitante (poblacióntotal) en euros
N MediaDesviación
típ.Error típ. de
la media
Prueba de muestras independientes
,395 ,530 3,706 328 ,000 17,64028 4,75951 8,27726 27,00330
3,885 53,705 ,000 17,64028 4,54024 8,53650 26,74406
Se han asumidovarianzas igualesNo se han asumidovarianzas iguales
Costes totales porhabitante (poblacióntotal) en euros
F Sig.
Prueba de Lev enepara la igualdad de
varianzas
t gl Sig. (bilateral)Diferenciade medias
Error típ. dela diferencia Inf erior Superior
95% Intervalo deconf ianza para la
diferencia
Prueba T para la igualdad de medias
Instrumentos estadísticos:
Tablas de frecuencias conjuntas. Tablas de contingencia.
Estadísticos de asociación.
Asociación de variables categóricas
Ejemplo. Relación entre la edad y la impresión sobre la prestación de un servicio recibido.
Tabla de contingencia IMPRESIÓN * EDAD
Asociación de variables categóricas
Distribuciones marginales. Son las frecuencias (absolutas y relativas) de cada una de las variables. Para ello es suficientecon sumar todas las celdas correspondientes a cada una de las filas o de las columnas.
Asociación de variables categóricas
Distribución de frecuencias relativas. Son las frecuencias relativas de cada una de las celdas respecto al total de observaciones
Asociación de variables categóricas
Perfiles fila (porcentajes fila). Recogen las frecuencias relativas de cada una de las celdas con respecto al total de las filas
Asociación de variables categóricas
Perfiles columna (porcentajes columna). Son las frecuencias relativas de cada una de las celdas con respecto al total de las columnas
Asociación de variables categóricas
Estadísticos de asociación:
Para variables nominales u ordinales:
chi-cuadrado
C de contingencia
lambda
Para variables ordinales
Gamma
Asociación de variables categóricas
Chi-Cuadrado y C de contingencia
Ejemplo. Relación entre la edad y la impresión sobre un servicio.
Tabla de porcentajes columna (observada)
Asociación de variables categóricas
Chi-Cuadrado y C de contingencia
Ejemplo. Relación entre la edad y la impresión sobre un servicio.
Tabla de porcentajes columna (esperada)
Asociación de variables categóricas
EDAD
MENOS DE 30 AÑOS
ENTRE 30 Y 45
ENTRE 45 Y 60
MÁS DE 60
AÑOS Total MUY BUENA 42,1% 42,1% 42,1% 42,1% 42,1%
BUENA 44,3% 44,3% 44,3% 44,3% 44,3%NORMAL 12,3% 12,3% 12,3% 12,3% 12,3%
IMPRESIÓN
MALA 1,4% 1,4% 1,4% 1,4% 1,4%Total 100 100 100 100 100
Chi-Cuadrado y C de contingencia
Ejemplo. Relación entre la edad y la impresión sobre un servicio.
Tabla de frecuencias observadas
Tabla de frecuencias esperadas
Asociación de variables categóricas
EDAD Total
MENOS DE 30 AÑOS
ENTRE 30 Y 45
ENTRE 45 Y 60
MÁS DE 60 AÑOS
IMPRESIÓN MUY BUENA 42,1%*2229 42,1%*1657 42,1%*755 42,1%*211
BUENA 44,3%*2229 44,3%*1657 44,3%*755 44,3%*211 NORMAL 12,3%*2229 12,3%*1657 12,3%*755 12,3%*211 MALA 1,4%*2229 1,4%*1657 1,4%*755 1,4%*211Total 2229 1657 755 211
Chi-Cuadrado y C de contingencia
Ejemplo. Relación entre la edad y la impresión sobre un servicio.
Tabla de frecuencias esperadas
Asociación de variables categóricas
EDAD Total
MENOS DE 30 AÑOS
ENTRE 30 Y 45
ENTRE 45 Y 60
MÁS DE 60 AÑOS
IMPRESIÓN MUY BUENA 938,1 697,4 317,7 88,8 2042
BUENA 987,2 733,9 334,4 93,5 2149 NORMAL 273,3 203,2 92,6 25,9 595 MALA 30,3 22,5 10,3 2,9 66 Total 2229 1657 755 211 4852
EDAD Total
MENOS DE 30 AÑOS
ENTRE 30 Y 45
ENTRE 45 Y 60
MÁS DE 60 AÑOS
IMPRESIÓN MUY BUENA 938,1 697,4 317,7 88,8 2042
BUENA 987,2 733,9 334,4 93,5 2149 NORMAL 273,3 203,2 92,6 25,9 595 MALA 30,3 22,5 10,3 2,9 66 Total 2229 1657 755 211 4852
Estadístico Chi-Cuadrado
Asociación de variables categóricas
Estadístico Chi-Cuadrado
Asociación de variables categóricas
( )χ 2
2
11=
−
==∑∑
n e
eij ij
ijj
J
i
I
= 7,035
EDAD
MENOS DE 30
AÑOS ENTRE 30 Y
45 ENTRE 45 Y
60 MÁS DE 60
AÑOS MUY BUENA 1,46723164 0,49607112 0,21683979 1,17162162BUENA 0,89955429 0,38916746 0,00586124 1,4144385NORMAL 0,08082693 0,00019685 0,33866091 0,04671815
IMPRESIÓN
MALA 0,24059406 0,1 0,16407767 0,00344828
Estadístico C de contingencia
Límite máximo:
Asociación de variables categóricas
2
2
χχ+
=n
C
( ) ( ) 2,11 ≥− JI,mínJI,mín
Estadístico C de contingencia
Ejemplo. Impresión sobre un servicio y edad
Asociación de variables categóricas
038003574852
0357 ,,
,C =+
=
Límite máximo = 8660411 ,=−
Estadístico Lambda
Estadístico Gamma (sólo para variables ordinales)
Asociación de variables categóricas
Lambda toma valores entre cero y uno: 0 1≤ ≤λ : ⇒=0λ La predicción condicionada no reduce el error original. ⇒=1λ La predicción condicionada reduce el error original en un 100%.
⇒<< 10 λ El error de predicción se reduciría en un %100 λ⋅
El estadístico gamma proporciona valores entre -1 y 1. El grado más alto de asociación positiva entre dos variables se da cuando 1=γ . El grado más alto de asociación negativa se da cuando 1−=γ . Un valor de 0=γ se interpreta como la ausencia de asociación.
Asociación de variables categóricas. Ejemplo.
% de médicos con formación MIR y dispersión de la zona.
Asociación de variables categóricas
abla de contingencia Formación de médicos y pediatras. % de médicos y pediatras con formación MIR * DispersiónZBS (geográfica)
Recuento
0 0 2 21 2399 84 158 308 649
113 61 34 22 23092 25 9 2 128
304 170 203 353 1030
0inferior al 34%entre el 34% y el 66%superior al 66%
Formación de médicosy pediatras. % demédicos y pediatrascon f ormación MIR
Total
ZBS pocodispersa ZBS dispersa
ZBS bastantedispersa
ZBS muydispersa
Dispersión ZBS (geográf ica)
Total
abla de contingencia Formación de médicos y pediatras. % de médicos y pediatras con formación MIR * DispersiónZBS (geográfica)
% de Dispersión ZBS (geográf ica)
1,0% 5,9% 2,2%32,6% 49,4% 77,8% 87,3% 63,0%37,2% 35,9% 16,7% 6,2% 22,3%30,3% 14,7% 4,4% ,6% 12,4%
100,0% 100,0% 100,0% 100,0% 100,0%
0inferior al 34%entre el 34% y el 66%superior al 66%
Formación de médicosy pediatras. % demédicos y pediatrascon f ormación MIR
Total
ZBS pocodispersa ZBS dispersa
ZBS bastantedispersa
ZBS muydispersa
Dispersión ZBS (geográf ica)
Total
Asociación de variables categóricas. Ejemplo.
Proporción de médicos con formación MIR y dispersión de la zona.
Asociación de variables categóricas
Pruebas de chi-cuadrado
340,230a 9 ,0001030
Chi-cuadrado de PearsonN de casos válidos
Valor glSig. asintótica
(bilateral)
2 casillas (12,5%) tienen una f recuencia esperada inferior a 5.La f recuencia mínima esperada es 3,80.
a.
Medidas direccionales
,184 ,022 7,768 ,000c
c
SimétricaLambdaNominalpor nominal
ValorError típ.
asint.a T aproximadabSig.
aproximada
Asumiendo la hipótesis alternativa.a.
Empleando el error t ípico asintótico basado en la hipótesis nula.b.
Basado en la aproximación chi-cuadrado.c.
Medidas simétricas
,498 ,000
-,731 ,024 -22,392 ,0001030
Coef iciente decontingencia
Nominal pornominal
GammaOrdinal por ordinalN de casos válidos
ValorError típ.
asint.a T aproximadabSig.
aproximada
Asumiendo la hipótesis alternativa.a.
Empleando el error típico asintótico basado en la hipótesis nula.b.