Upload
lytuong
View
215
Download
0
Embed Size (px)
Citation preview
CENTRO DE ALTOS ESTUDIOS PEDAGÓGICOS Y
EDUCATIVOS DE S.L.P.
CURSO TALLER DE ESTADISTICA
ENERO, 2014
PRESENTA:
I.S.C. DARÍO GAYTÁN HERNÁNDEZ, MPS
CAEPE
ESTADÍSTICA
La Estadística es la disciplina matemática
que a través de una metodología propia,
permite hacer descripciones de la realidad
utilizando datos numéricos y hacer
inferencias acerca de poblaciones a partir
de muestras.
Datos
Son las observaciones recolectadas(como mediciones, respuestas deencuesta)
CONCEPTOS ESTADISTICOS BASICOS
Variable
Es una propiedad que puede variar y
cuya variación es susceptible de medirse
u observarse.
CONCEPTOS ESTADISTICOS BASICOS
Tipos de variable
Cualitativas
También llamadas categóricas contienen
atributos no medibles, o de asignación
(como el color de la piel, el nombre de una
enfermedad, si y no, etc.) por sus
características solo pueden ser contadas.
CONCEPTOS ESTADISTICOS BASICOS
Tipos de variable
Cuantitativas
También llamadas numéricas son atributos
medibles, dado que pueden compararse
numéricamente y evaluarse según su
tamaño relativo.
CONCEPTOS ESTADISTICOS BASICOS
Tipos de variable
Cuantitativas
Se dividen en: Discretas y continuas.
Discretas.- Tienen valores contados y
enteros.
Continuas.- sus valores se pueden situar en
cualquier sitio dentro de un intervalo infinito.
CONCEPTOS ESTADISTICOS BASICOS
Las escalas de medición (para variables
categóricas o cualitativas) Pueden ser:
“Escalas” Nominales.- Cuando las clases en
que se clasifican las observaciones o
individuos se nombran sin orden.
Ejemplo. Los nombres de las carreras de la
UASLP
CONCEPTOS ESTADISTICOS BASICOS
“Escalas Ordinales”.- Cuando las categoríasson nombradas pero se sigue un cierto ordennatural son ejemplo la escolaridad: primaria,secundaria, media básica, licenciatura,maestría, doctorado). Cuando se utilizansímbolos para identificar las clases no debenhacerse con ellos ninguna operaciónaritmética.
CONCEPTOS ESTADISTICOS BASICOS
Variables cualitativas
Precaución
Con las escalas de Likert y los guarismos.
No tengo opinión
En total desacuer
do
En desacuer
do
De acuerdo
En total acuerdo
0 1 2 3 4
CONCEPTOS ESTADISTICOS BASICOS
Variables cualitativas
Precaución
Con las escalas de Likert y los guarismos.
No tengo opinión
En total desacuer
do
En desacuer
do
De acuerdo
En total acuerdo
@ $ * } ª
CONCEPTOS ESTADISTICOS BASICOS
Variables cuantitativas
Escala de intervalo
Además del orden o la jerarquía entre
categorías, se establecen intervalos iguales en la
medición.
Ejemplo: Las temperaturas corporales 98ºF y
99ºF, su diferencia es 1ºF, pero no existe un
cero natural, pues 0ºF no representa la ausencia
total de calor.
CONCEPTOS ESTADISTICOS BASICOS
Variables cuantitativas
Escala de razón
Tiene las mismas características que la
anterior pero si tiene un cero absoluto y
permite hacer todo tipo de cálculos
matemáticos, la variable de razón tiene
intervalos iguales y un cero real y
significativo.
CONCEPTOS ESTADISTICOS BASICOS
UniversoEs el total de elementos de donde seextraen poblaciones.
PoblaciónTotalidad de elementos de un grupodefinido acerca del cual se deseanhacer inferencias.Es un grupo de elementos delimitadode donde se obtiene una muestra.
CONCEPTOS ESTADISTICOS BASICOS
Muestra
1. Conjunto de elementos extraídos deuna población
2. Subconjunto de una población
3. Conjunto de elementos seleccionadosde una población
CONCEPTOS ESTADISTICOS BASICOS
Marco muestral
1. Total de sujetos o cosas de una poblaciónque son realmente muestreables en lapráctica.
2. Sujetos accesibles al muestreo en unapoblación.
3. Es importante tener una buena estimacióndel tamaño del marco muestral que tiene enproporción al total de la población, dado quesi este es menor que el 80% las muestrasestarán muy comprometidas.
CONCEPTOS ESTADISTICOS BASICOS
Muestra representativa
1. Es una muestra con un tamaño tal(cantidad de elementos) y una forma deselección (aleatoria) que es representativade los elementos que constituyen unapoblación.
2. Su cálculo de tamaño se realiza a travésde matemáticas probabilísticas y loselementos que la constituyen se escogen através números aleatorios.
CONCEPTOS ESTADISTICOS BASICOS
Estadístico
1. Se denotan con letras latinas.
2. Describen a la muestra.
3. Generalmente usados para estimar un
parámetro a través del proceso inductivo.
4. Valor variable (de muestra a muestra en la
misma población)
5. Están basados en algunas observaciones de
una población.
CONCEPTOS ESTADISTICOS BASICOS
Parámetro
1. Se denotan con letras griegas
2. Describen a la población
3. Son valores constantes (para esa población)
4. Están basados en todas las observacionesde una población
CONCEPTOS ESTADISTICOS BASICOS
Muestra probabilística
1. Aleatoria simple (con o sinreemplazo)
2. Sistemático
3. Estratificado
4. Conglomerado
5. Por racimos
CONCEPTOS ESTADISTICOS BASICOS
CONCEPTOS ESTADISTICOS BASICOS
Cada miembro de la población tiene la misma probabilidad de ser seleccionado
CONCEPTOS ESTADISTICOS BASICOS
Se selecciona un punto de partida, después se selecciona cada k-ésimo.
CONCEPTOS ESTADISTICOS BASICOS
Se subdivide a la población en al menos dos diferentes subgrupos (o estratos)
CONCEPTOS ESTADISTICOS BASICOS
Se divide el área de la población en secciones (conglomerados) se eligen al azar las secciones.
CONCEPTOS ESTADISTICOS BASICOS
Muestreo por racimos
Se divide el área de la población en secciones (racimos) se eligen al azar las secciones.
CONCEPTOS ESTADISTICOS BASICOS
• Tipos de análisis (Univariados, Bivariados y
multivariados)
• Prueba de hipótesis
• Estimador puntual e intervalo de confianza
ESTADISTICA DESCRIPTIVA
ESTADISTICA INFERENCIAL
PRINCIPALES CATEGORÍAS EN QUE PUEDE DIVIDIRSE A LA ESTADISTICA
Es la parte de la estadística que describe,
analiza y representa un grupo de datos
utilizando métodos numéricos y gráficos que
resumen y presentan la información
contenida en ellos tratando de extraer
conclusiones.
ESTADISTICA DESCRIPTIVA
DISTRIBUCIONES DE FRECUENCIAS
ESTADISTICOS DESCRIPTIVOS
•Lista valores de datos: (ya sea de manera
individual o por grupos de intervalos), junto con
sus frecuencias (o conteos) correspondientes.
•Es un método descriptivo numérico que
proporciona información evidente de los valores
que una variable toma y las veces que esos
valores ocurren dentro de un grupo o conjunto
de datos.
Cuadro No. 1
Peso en libras de estudiantes de la Universidad X
San Luis Potosí, S.L.P., Enero de 2013.
n=40
Fuente: Directa
Clase Frecuencia
Frecuencia
relativa en
%
Frecuencia
Acumulada
Frecuencia
relativa
acumulada
en %
118-122 1 2.5 1 2.5
123-127 2 5 3 7.5
128-132 2 5 5 12.5
133-137 4 10 9 22.5
138-142 6 15 15 37.5
143-147 8 20 23 57.5
148-152 5 12.5 28 70
153-157 4 10 32 80
158-162 2 5 34 85
163-167 3 7.5 37 92.5
168-172 1 2.5 38 95
173-177 2 5 40 100
Total 40 100
0
1
2
3
4
5
6
7
8
9
118-122 123-127 128-132 133-137 138-142 143-147 148-152 153-157 158-162 163-167 168-172 173-177
peso
Fre
cu
en
cia
PRESENTACION DE DATOSGráfico No. 1
Peso en libras de estudiantes de la Universidad X
San Luis Potosí, S.L.P.
Junio 2012. n=40
Fuente: Directa
PRESENTACION DE DATOS
n=40
Fuente: Directa
3% 5%
5%
10%
14%
19%
13%
10%
5%
8%
3%5%
118-122
123-127
128-132
133-137
138-142
143-147
148-152
153-157
158-162
163-167
168-172
173-177
Gráfico No. 1
Peso en libras de estudiantes de la Universidad X
San Luis Potosí, S.L.P.
Junio 2012.
PRESENTACION DE DATOS
n=40
Fuente: Directa
0
1
2
3
4
5
6
7
8
9
118-122 123-127 128-132 133-137 138-142 143-147 148-152 153-157 158-162 163-167 168-172 173-177
Peso
Fre
cu
en
cia
Gráfico No. 1
Peso en libras de estudiantes de la Universidad X
San Luis Potosí, S.L.P.
Junio 2012.
PRESENTACION DE DATOS
n=40
Fuente: Directa
0
1
2
3
4
5
6
7
8
9
118-122 123-127 128-132 133-137 138-142 143-147 148-152 153-157 158-162 163-167 168-172 173-177
Peso
Fre
cu
en
cia
Gráfico No. 1
Peso en libras de estudiantes de la Universidad X
San Luis Potosí, S.L.P.
Junio 2012.
PRESENTACION DE DATOS
n=40
Fuente: Directa
0
5
10
15
20
25
30
35
40
45
118-122 123-127 128-132 133-137 138-142 143-147 148-152 153-157 158-162 163-167 168-172 173-177
Peso
Fre
cu
en
cia
Gráfico No. 1
Peso en libras de estudiantes de la Universidad X
San Luis Potosí, S.L.P.
Junio 2012.
TIPOS DE CURVA DE FRECUENCIA
Simétrica
Sesgada a la derecha (+)
Sesgada a la izquierda (-)
En forma de J
En forma de J invertida
En forma de U
Binomial
Multimodal
SESGADA A LA IZQUIERDA
0
0 , 0 1
0 , 0 2
0 , 0 3
0 , 0 4
0 , 0 5
0 , 0 6
0 , 0 7
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Ser ie1
SESGO -
EN FORMA DE J
0 , 0 0 0 0 0 0 0
0 , 0 2 0 0 0 0 0
0 , 0 4 0 0 0 0 0
0 , 0 6 0 0 0 0 0
0 , 0 8 0 0 0 0 0
0 , 10 0 0 0 0 0
0 , 12 0 0 0 0 0
0 , 14 0 0 0 0 0
0 , 16 0 0 0 0 0
1 2 3 4 5 6 7
Ser ie1
EN FORMA DE J INVERTIDA
0 . 0 0 0 0 0 0 0
0 . 0 2 0 0 0 0 0
0 . 0 4 0 0 0 0 0
0 . 0 6 0 0 0 0 0
0 . 0 8 0 0 0 0 0
0 . 1 0 0 0 0 0 0
0 . 1 2 0 0 0 0 0
1 2 3 4 5 6 7
Ser ie1
EN FORMA DE U
- 0 . 1 6
- 0 . 1 4
- 0 . 1 2
- 0 . 1
- 0 . 0 8
- 0 . 0 6
- 0 . 0 4
- 0 . 0 2
0
1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6
Ser ie1
BIMODAL - MULTIMODAL
0 . 0 0 0 0 0 0 0
0 . 0 1 0 0 0 0 0
0 . 0 2 0 0 0 0 0
0 . 0 3 0 0 0 0 0
0 . 0 4 0 0 0 0 0
0 . 0 5 0 0 0 0 0
0 . 0 6 0 0 0 0 0
0 . 0 7 0 0 0 0 0
0 . 0 8 0 0 0 0 0
1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6
Ser ie1
MEDIDAS DE TENDENCIA CENTRAL
• Media aritmética (promedio)
• Mediana
• Moda
ESTADISTICOS DESCRIPTIVOS
Media aritmética
Es el valor que resume a una serie en el
supuesto de que todos sus elementos tuvieran
el mismo valor, resulta de la sumatoria de todos
sus valores la cual se divide entre el número
total de las observaciones.
Ventaja.- Usa los valores de todas las
observaciones
Desventaja.- Afectada por valores extremos en
series pequeñas
ESTADISTICOS DESCRIPTIVOS
Mediana
La mediana de un conjunto de números
ordenados en magnitud es el valor central o la
media de los dos valores centrales.
Ventaja.- No considerar los valores extremos
Desventaja.- Cuando la muestra es sesgada.
ESTADISTICOS DESCRIPTIVOS
Moda
La moda de un conjunto de números es el valor
que ocurre con mayor frecuencia.
Ventaja.- Fácil de calcular
Desventajas.- Ausencia de moda
Multimodal (varias modas)
No usa valores de las observaciones
ESTADISTICOS DESCRIPTIVOS
MEDIDAS DE DISPERSION O VARIACION
La dispersión o variación de los datos es el
grado en que los datos numéricos tienden a
esparcirse alrededor de un valor promedio.
Existen diversas medidas de dispersión siendo
las más comunes:
•Rango
•Desviación estándar (desviación típica)
•Varianza
•Percentiles
ESTADISTICOS DESCRIPTIVOS
Rango
El rango de un conjunto de números es la
diferencia entre el mayor y el menor.
Ejemplo:
El rango del conjunto 2,3,4,5,5,5,8,10,12 = 10
ESTADISTICOS DESCRIPTIVOS
Desviación estándar
La desviación estándar de un conjunto n de
números X1,X2,…,XN se denota por s y se define
como:
Medida de variación de los valores con respecto a
la media.
ESTADISTICOS DESCRIPTIVOS
Varianza
La varianza de un conjunto de datos se define
como el cuadrado de la desviación estándar; por
lo tanto, se representa como s2.
Se denota s2 para una muestra y σ2 para la
población.
ESTADISTICOS DESCRIPTIVOS
Cuartiles y pertenciles
Son medidas de posición al igual que la mediana,
que ayudan a dividir a las series de datos en
fragmentos con igual número de elementos.
Cuartiles (Q).- La distribución de la serie se divide
en cuatro partes iguales
Percentiles (Pc).- La distribución de la serie se
divide en cien partes iguales
ESTADISTICOS DESCRIPTIVOS
LA DISTRIBUCIÓN NORMAL ESTANDAR
Características
Identificada por µ y σ
Simétrica con respecto a µ
Forma de campana
Observaciones caen
a) 68.27% del total caen entre (µ- σ) a (µ+σ)
b) 95.45% del total caen entre (µ-2σ)a (µ+2σ)
c) 99.73% del total caen entre (µ-3) a (µ+3σ)
DETERMINACION DE LA NORMALIDAD
Histograma: Rechace la normalidad si el histograma
difiere mucho de la forma de campana.
Datos distantes: Rechace la normalidad si hay mas
de un dato distante
Gráfica cuantilar normal: Si los puntos se acercan
a una línea recta, entonces los datos pueden
provenir de una población con una distribución
normal.
Prueba de Kolmogorov-Smirnov
Es la parte de la estadística que permite con su
metodología el establecimiento sistemático de
conclusiones probabilísticas, a través de datos
recolectados.
La inferencia estadística hace uso del
razonamiento inductivo, apoyándose en el cálculo
de probabilidades y a partir de datos muestrales.
ESTADISTICA INFERENCIAL
PRUEBAS DE HIPÓTESIS
La inferencia estadística establece una
hipótesis acerca de la población, extrae una
muestra de ésta y a partir de los resultados
decide si la Hipótesis es o no cierta para toda la
población.
Una Hipótesis es una declaración basada en
observaciones preliminares acerca de algo que
puede ser o no verdadero.
PRUEBAS DE HIPÓTESIS
Hipótesis Nulas (Ho)
Son hipótesis estadísticas llamadas hipótesis de
igualdad o de no diferencia, significan que la
realidad se comporta de manera similar a lo
esperado en la propuesta teórica
(observado=esperado) de hecho son en la
realidad la contrapartida de las hipótesis de
investigación o su opuesto.
PRUEBAS DE HIPÓTESIS
Hipótesis Nulas (Ho)
Se llaman también Hipótesis cero (Ho) porque
conceptualmente explican que el valor de la relación
(diferencia) entre las variables es igual acero, lo que
implica en sentido extenso que las relaciones son de no
diferencia o de igualdad.
En realidad la diferencia no tiene que ser exactamente cero
o dicho de otra forma: Lo observado no es exactamente
igual a lo esperado pero su variación esta dentro de un
rango pequeño.
~ ~Ho= o=e ó [o-e]=0
PRUEBAS DE HIPÓTESIS
Hipótesis Alternas (Ha o H1)
Conceptualmente son las hipótesis contrarias a
las Hipótesis nulas.
Es muy importante el planteamiento de la
Hipótesis alterna en términos lo más posible
cercano al opuesto de la Hipótesis de nulidad y de
tal manera que corresponda con nuestra Hipótesis
en investigación.
Ha= o<>e ó [o-e]<>0
PRUEBAS DE HIPÓTESIS
Significancia
Para decir si la discrepancia entre los resultados
observados y los teóricos o esperados es muy
grande, debe fijarse un nivel de probabilidad tal que
sucesos con probabilidad menor que dicho nivel
induzcan a rechazar la Hipótesis Nula.
Al nivel de probabilidad elegido se le denomina nivel
de significancia, . En general sus valores suelen
fijarse en 0.1, 0.05 ó 0.01
α
PRUEBAS DE HIPÓTESIS
Direccionalidad de la Hipótesis
Cuando se trata de Hipótesis se debe establecer
desde un inicio si su Hipótesis es direccional o
no direccional. Puesto que esto es vital para la
interpretación de la prueba estadística.
No direccional A<>B (A es mayor o menor que B)
Direccional A>B (A es mayor que B)
Direccional A<B (A es menor que B)
PRUEBAS DE HIPÓTESIS
Los errores en la interpretación de las pruebas
de Hipótesis
Los errores que se pueden cometer cuando se
prueban Hipótesis para hacer inferencias son de
dos tipos: I y II.
El error se da con la decisión de aceptación o
rechazo del resultado en relación con la veracidad
de la Hipótesis Nula.
PRUEBAS DE HIPÓTESIS
Hipótesis Nula
Verdadera Falsa
Decisión de aceptación
Aceptación Correcto Error tipo II
Rechazo Error tipo I Correcto
Los errores en la interpretación de las pruebas
de Hipótesis
PRUEBAS DE HIPÓTESIS
GRADOS DE LIBERTAD
•El número de grados son las n posibilidades que
tiene una serie de variar cuando se fijan algunos
de sus valores.
CHI CUADRADO
PARA VARIABLES NOMINALES
TABLAS DE CONTINGENCIA
PRUEBA DE INDEPENDENCIA
O
ASOCIACIÓN ENTRE VARIABLES
CHI CUADRADO
NO SE CONOCEN LOS VALORES ESPERADOS
GRADOS DE LIBERTAD (R-1)(C-1)
SIEMPRE SON DE COLA DERECHA
CHI CUADRADO
APLICA CUANDO:
PARA TABLAS DE CONTINGENCIA CON MAS DE 1
GRADO DE LIBERTAD, LO MINIMO ESPERADO
PERMISIBLE ES 1 SI MENOS DE 20 POR CIENTO DE
LAS CASILLAS TIENEN FRECUENCIAS ESPERADAS
MENORES QUE 5. (COCHRAN)
CHI CUADRADO
NO APLICA CUANDO:
PARA TABLAS DE CONTINGENCIA DE 2X2.
SI n < 20 o si 20< n < 40 y SI CUALQUIER FRECUENCIA
ESPERADA ES MENOR QUE 5.
CUANDO n >= 40 SE PUEDE TOLERAR UNA
FRECUENCIA ESPERADA DE LA CELDA TAN
PEQUEÑA COMO 1. (COCHRAN)
CHI CUADRADO
Ho: Las variables X e Y son independientes (no se
asocian)
Ha: Las variables X e Y no son independientes (se
asocian)
CHI CUADRADO
Si el p-valor asociado al estadístico de contraste es
menor que el nivel de significancia. Se rechaza Ho.
Si X2 calculada es mayor que X2 de tablas. Se
rechaza Ho.
CORRECCIÓN DE YATES (por continuidad)
Para cuando X2 tiene problemas de sensibilidad
(muestras son >100).
Cuando los valores esperados por lo menos para una
celda sean menores que 5.
Tablas de 2x2 (dos variables dicotómicas).
PRUEBA EXACTA DE FISHER
Para variables dicotómicas (tablas 2x2).
Muestras pequeñas <30
La fórmula nos da directamente la probabilidad
PRUEBA EXACTA DE FISHER
Fórmula
PEF=(a+b)¡(c+d)¡(a+c)¡(b+d)¡
a¡b¡c¡d¡N¡
EFECTO
CAUSA
O FACTOR
DE RIESGO
SI NO TOTAL
SI a b (a+b)
NO c d (c+d)
TOTAL (a+c) (b+d) N
COEFICIENTE DE GAMMA
Es una medida del grado y tipo de asociación entre dos
variables cualitativas en escala ordinal.
Fórmula
Toma valores [-1,1]. Valores próximos a 1 indican fuerte
asociación positiva. Valores próximos a -1 indican fuerte
asociación negativa. Valores próximos a 0 indican no
asociación.
Un valor 0 no implica independencia excepto en tablas de 2x2.
Presenta el inconveniente que puede alcanzar valores de 1 y -1
en situaciones en las que la asociación no es total.
COEFICIENTE DE GAMMA
Coeficiente D de Somers
Cuando una de las variables se considera independiente (X) y
otra dependiente (Y), añade en el denominador Gamma el
número de pares empatados en la variable dependiente.
Toma valores [-1,1]
Fórmula
Coeficiente Tau-b de Kendall
Es una extensión de la Gamma, en el sentido de que tanto la
situación bajo la que puede ser aplicada como su
interpretación es la misma.
Fórmula
Coeficiente Tau-b de Kendall
A diferencia de Gamma, únicamente alcanza 1 o -1 en
situaciones de total asociación.
Pero presenta el inconveniente de alcanzar valores de 1 y -1
sólo en tablas cuadradas.
Coeficiente Tau-c de Kendall
Es una corrección de la Tau-b para el caso con distinto número
de categorías.
Fórmula
Siendo m el valor menor del número de filas y columnas
Coeficiente Tau-c de Kendall
Frente a Tau-b presenta la ventaja de poder alcanzar los
valores de 1 y -1 cuando no son tablas cuadradas.
Desventaja: Tiende a subestimar el verdadero grado de
asociación entre las variables. Cuando la tabla no es cuadrada.
DISTRIBUCIÓN T DE STUDENT
La distribución t de Student se utiliza cuando:
• Se desconoce la desviación estándar de la población.
• Se distribuye normalmente la población
• No se distribuye normalmente la población pero n>30
PROPIEDADES DE LA DISTRIBUCIÓN T DE STUDENT
• La distribución t de Student tiene la misma forma de campana
simétrica que la distribución normal estándar, pero refleja una
mayor variabilidad de la que se espera con muestras pequeñas.
• La distribución t de Student tiene una media t=0 (como la
distribución normal estándar tiene una media de z=0)
PROPIEDADES DE LA DISTRIBUCIÓN T DE STUDENT
• La desviación estándar de la distribución t de Student varía con
el tamaño de la muestra, pero es mayor que 1.
• Conforme el tamaño de la muestra n se hace más grande, la
distribución t de Student se acerca a la distribución normal
estándar.
DISTRIBUCIÓN T DE STUDENT PARA UNA MUESTRA
Nos permite conocer la probabilidad asociada a cada uno de los
valores X (promedio) que es posible obtener en muestras de
tamaño n cuando:
Suponemos que el verdadero valor de la media poblacional es
µ.
• Estimamos la desviación típica poblacional mediante la
desviación típica muestral.
• Ho. µx=m La media poblacional es igual a la media de la
muestra.
DISTRIBUCIÓN T DE STUDENT PARA DOS MUESTRAS RELACIONADAS O APAREADAS
Ho. La diferencia entre las medias es cero o Las
medias son iguales
Ho: µx = µy
DISTRIBUCIÓN T DE STUDENT PARA DOS MUESTRAS INDEPENDIENTES
Ho. Las medias poblacionales son iguales
Ho: µ1 = µ2
DISTRIBUCIÓN T DE STUDENT PARA DOS MUESTRAS INDEPENDIENTES
PARA VARIANZAS POBLACIONALES IGUALES
GRADOS DE LIBERTAD: n1+n2-2
DISTRIBUCIÓN T DE STUDENT PARA DOS MUESTRAS INDEPENDIENTES
E
PARA VARIANZAS POBLACIONALES DIFERENTES
ANÁLISIS DE VARIANZA DE UN FACTOR (ANOVA) TAMBIÉN CONOCIDA COMO F DE SNEDECOR
Se trata de una generalización de la prueba T para dos muestras
independientes para cuando hay mas de dos muestras.
Las condiciones básicas para aplicar esta prueba son:
• Que las muestran tengan una distribución normal
• Que la varianza de cada una sea similar a las de las otras.
Ho. Las muestras proceden de poblaciones en
las que la media es la misma.
Ho: µ1 = µ2 = ….= µn
ANÁLISIS DE VARIANZA DE UN FACTOR (ANOVA) TAMBIÉN CONOCIDA COMO F DE SNEDECOR
• Variable Factor: Nominal u Ordinal
• Variable Dependiente: Razón o intervalo
• Si las varianzas no son iguales, se concluye que las medias
son diferentes.
ANÁLISIS DE VARIANZA DE UN FACTOR (ANOVA) TAMBIÉN CONOCIDA COMO F DE SNEDECOR
CORRELACIÓN LINEAL
Correlación: Existe correlación entre dos variables cuando
una de ellas se relaciona con la otra de alguna manera.
Diagrama de dispersión: Una gráfica en la que datos
muestrales apareados (x, y) se grafican en un eje x horizontal y
un eje y vertical. Cada par individual (x, y) se grafica como un
solo punto.
CORRELACIÓN LINEAL
Coeficiente de correlación lineal r:
Mide la fuerza de la relación lineal entre los valores cuantitativos
apareados x y y en una muestra.
• Su valor está comprendido entre -1 y 1.
• Si r es positivo la correlación es directa y si es negativo
inversa.
• Si r se acerca a -1 o a +1, la correlación es fuerte.
• Si r se acerca a 0 la correlación es débil
CORRELACIÓN LINEAL
Coeficiente de correlaciòn de Pearson
CORRELACIÓN LINEAL
El estadístico de prueba t
t es el estadístico de prueba para saber si es significativa o no la
correlación. Se calcula con (n-2) grados de libertad.
Ejemplo.- Estudiamos la talla, medida en cm. y el peso, medido
en kg. de un grupo de 10 personas, podemos obtener
los siguientes valores
Talla
(cms)160 165 168 170 171 175 175 180 180 182
Peso
(kgs)55 58 58 61 67 62 66 74 79 83
CORRELACIÓN LINEAL
Podemos llamar X a la talla e Y al peso con lo que se obtendría
la variable bidimensional (X, Y) que toma 10 valores, que son
las 10 parejas de valores de la tabla anterior: (160,55),
(165,58), etc.
CORRELACIÓN LINEAL
Talla
(cms)160 165 168 170 171 175 175 180 180 182
Peso
(kgs)55 58 58 61 67 62 66 74 79 83
En el ejercicio anterior
Coeficiente de correlación lineal r = .908
Coeficiente de determinación r2 = .825
Estadístico de prueba calculado t = 6.15
Estadístico de prueba de tablas t.95 = 2.306
Conclusión: la correlación es fuerte r se aproxima a 1. El
82.5% de la variación del peso está explicado por la
relación entre el peso y la talla. Como t calculada es mayor
que t de tablas, existe una correlación significativa.
CORRELACIÓN LINEAL
RECTA DE REGRESION
Relación entre dos variables
Variable independiente x
Variable dependiente y
Función lineal del tipo y = ax + b, su gráfica correspondería a una recta
Recta de regresión.
REGRESION LINEAL
Una ecuación de regresión múltiple expresa una relación
lineal entre una variable dependiente y y dos o más variables
independientes x.
REGRESION LINEAL MULTIPLE
REGRESION LINEAL
El valor de R2 es la proporción de la
variación de y que se explica por la
relación lineal x y y.
COEFICIENTE DE DETERMINACION R2
REGRESION LINEAL
El valor de R2 AJUSTADA es el coeficiente múltiple de
correlación R2 modificado para justificar el número de variables
y el tamaño de la muestra.
COEFICIENTE AJUSTADO DE DETERMINACION R2
n tamaño de la muestra
k número de variables independientes (x)
TAMAÑO DE MUESTRA
N= Tamaño de la población
p=probabilidad de ocurrencia
S2 = p(1-p)
se = error estándar
V2=(se)2
Ejemplo:
N=490
error estándar=.01
S2=p(1-p)=.9(1-.9)=.09
V2=(.01)2=.0001
.09n´=_______=900
.0001
900 900 n=_______= ____________ = 317
1+900/490 1+900/490
TAMAÑO DE MUESTRA
Ejemplo:
N=490
error estándar=.015
S2=p(1-p)=.9(1-.9)=.09
V2=(.015)2=.000225
.09n´=_______=400
.000225
400 400 n=_______= ____________ = 220
1+400/490 1+400/490
TAMAÑO DE MUESTRA
Tamaño de muestra para la estimación de una
proporción poblacional población infinita
TAMAÑO DE MUESTRA
Tamaño de muestra para la estimación de una
proporción poblacional, población finita.
TAMAÑO DE MUESTRA
Tamaño de muestra para la estimación de la media
poblacional población infinita
Se conoce la desviación estándar de
la población ó se utiliza 0.5
TAMAÑO DE MUESTRA
Tamaño de muestra para la estimación de la media
poblacional población finita
Se conoce la desviación estándar de
la población o se sustituye por 0.5
TAMAÑO DE MUESTRA
REGLAS PARA FORMAR LAS DISTRIBUCIONES DE FRECUENCIA
Hallar el Rango.
Dividir el rango en un número
conveniente de clases del mismo
tamaño. El número de clases entre 5 y
20.
Determinar el número de observaciones
por clase.
REGLAS PARA FORMAR LAS DISTRIBUCIONES DE FRECUENCIA
Hallar el Rango.
Encontar el número de clases mediante la
fórmula de Sturges K=1+3.322(log n).
Dividir el rango entre el número de clases
del mismo tamaño.
Determinar el número de observaciones
por clase.
Coeficiente de variación
El CV de un conjunto de datos muestrales o
poblacionales, expresado como porcentaje,
describe la desviación estándar relativa a la
media, y está dada de la siguiente forma:
ESTADISTICOS DESCRIPTIVOS
Puntuaciones z
Pueden utilizarse para comparar valores de diferentesconjuntos de datos.
Una puntuación z (o una puntuación estándar) se calculaconvirtiendo un valor a una escala estandarizada.
Puntuación estándar z: número de desviacionesestándar que un valor x se encuentra por arriba o pordebajo de la media. Se calcula utilizando las siguientesexpresiones.
ESTADISTICOS DESCRIPTIVOS
MEDIDAS DE POSICIÓN
Variables aleatorias
Variable aleatoria: variable (casisiempre representada por x) quetiene un solo valor numérico,determinado por el azar, para cadaresultado de un procedimiento.
Distribución de probabilidad: gráfica,tabla o fórmula que da laprobabilidad de cada valor de lavariable aleatoria.
DISTRIBUCIONES DE PROBABILIDAD
Variables aleatorias
Variable aleatoria discreta: tiene unnúmero finito de valores o unnúmero de valores contables.
Variable aleatoria continua: tiene unnúmero infinito de valores; dichosvalores pueden asociarse amediciones en una escala continua,de manera que no haya huecos niinterrupciones.
DISTRIBUCIONES DE PROBABILIDAD
Requisitos
donde x toma todos losvalores posibles.
para cada valor de x
DISTRIBUCIONES DE PROBABILIDAD
LA DISTRIBUCIÓN NORMAL
Curva de densidad (o función de densidad de
probabilidad): grafica de una distribución de
probabilidad continua. Debe satisfacer las
siguientes propiedades:
1.El área total bajo la curva debe ser igual a 1.
2.Cada punto de la curva debe tener una altura
vertical igual o mayor que 0.
LA DISTRIBUCIÓN NORMAL ESTANDAR
Distribución de probabilidad continua.
Depende de dos parámetros: La media
poblacional y la desviación estándar poblacional.
Distribución de probabilidad con una media de 0 y
una desviación estándar de 1, en tanto el área
total debajo de su curva de densidad es igual a 1.
Existe una correspondencia entre el área y la
probabilidad.
LA DISTRIBUCIÓN NORMAL ESTANDAR
AREA TOTAL BAJO LA CURVA = 1 ó EL 100% DE LAS
OBSERVACIONES O PROBABILIDADES
µ=0 y =1
Curva de densidad de una distribución normal estándar
LA DISTRIBUCIÓN NORMAL ESTANDAR
Características
Identificada por µ y
Simétrica con respecto a µ
Forma de campana
Observaciones caen
a) 68.27% del total caen entre (µ- ) a (µ+ )
b) 95.45% del total caen entre (µ-2) a (µ+2)
c) 99.73% del total caen entre (µ-3) a (µ+3)
LA DISTRIBUCIÓN NORMAL NO ESTANDAR
AREA TOTAL BAJO LA CURVA = 1 ó EL 100% DE LAS
OBSERVACIONES O PROBABILIDADES
Estandarización de curvas Normales no estándar
µ<>0 y <>1