ESTADÍSTICA

Embed Size (px)

DESCRIPTION

MECÁNICA

Citation preview

UNIDAD 1 CONCEPTOS BSICOS, PRESENTACIN DE INFORMACIN, MEDIDAS DE

MDULO DE METODOS ESTADSTICOS

Lic. HUAYANAY CARRANZA RAL

SEMESTRE 2014 - 2

ESCUELA ACADMICO PROFESIONALMECNICA ELCTRICA

NVO CHIMBOTE, 2014

UNIDAD 1

1. DEFINICIONES BSICAS

1.1 . LA ESTADSTICA

La palabra estadstica se emplea en una gran variedad de formas. En plural se emplea como sinnimo de dato.Es una ciencia aplicada que nos proporciona un conjunto de mtodos, tcnicas o procedimientos para recopilar, organizar (clasificar, agrupar), presentar, y analizar datos con el fin de describirlos o de realizar generalizaciones vlidas.Se denomina Estadstica Descriptiva al conjunto de mtodos estadsticos que se relacionan con el resumen y descripcin de los datos, como tablas, grficas y el anlisis mediante algunos clculos.Se denomina Estadstica Inferencial al conjunto de mtodos estadsticos con los que se hace la generalizacin o la inferencia sobre una poblacin utilizando una muestra. La inferencia puede contener conclusiones que pueden no ser ciertas en forma absoluta, por lo que es necesario que estas sean dadas con una medida de confiabilidad que es la probabilidad.Estas dos partes de la estadstica no son mutuamente excluyentes, ya que para utilizar los mtodos de la inferencia estadstica, se requiere conocer los mtodos de la estadstica descriptiva.1.2 POBLACION Y MUESTRA

PoblacinEn forma general en estadstica se denomina poblacin a un conjunto de elementos como personas, objetos, etc. en los que se pueden observar o medir una o ms caractersticas de naturaleza cualitativa o cuantitativa.A cada elemento de una poblacin se le denomina unidad elemental o unidad estadstica.Por ejemplo los empleados de una empresa en un da laborable, constituye una poblacin en la que cada empleado (unidad estadstica), tiene muchas caractersticas a ser observadas como gnero, estado civil, lugar de procedencia, grado de instruccin, etc. (caractersticas cualitativas) o nmero de hijos, ingresos mensuales, etc. (caractersticas cuantitativas)El resultado de observar o medir una caracterstica en una unidad estadstica, se denomina dato estadstico, valor observado o simplemente observacinParmetrosSe denomina parmetro a una medida descriptiva que resume una caracterstica definida en la poblacin, tal como la media () o la varianza (2) etc. Y se calcula a partir de los datos observados en toda la poblacin

Tipos de poblacinPor el nmero de elementos que la componen, la poblacin se clasifica en finita o infinita. La poblacin es finita si tiene un nmero finito de N elementos. En caso contrario la poblacin es infinitaMuestraDespus de definir la tarea de investigacin estadstica a realizar, se debe decidir entre investigar toda la poblacin o solo una parte de ella. En el primer procedimiento es denominado censo y el segundo es llamado muestreo.Se denomina muestra a una parte de la poblacin seleccionada de acuerdo con un plan o una regla con el fin de obtener informacin acerca de la poblacin de la cual proviene.La muestra debe ser seleccionada de manera representativa de la poblacin. Un mtodo de seleccin de muestras representativas es el azar, esto es, cada elemento de la poblacin tiene la misma posibilidad de ser incluida en la muestra.EstadsticaSe denomina estadstica, estadgrafo o estadstico a una medida descriptiva que resume una caracterstica definida de una muestra aleatoria, tal como la media x o la varianza s2, calculada a partir de los datos observados en la muestra.

1.3ESCALAS DE MEDICIN. En estadstica medir es observar el valor que toma una variable estadstica en un elemento de la poblacin. Los valores de la variable, adems de ser cualidad o cantidad, definen niveles de medicin de las unidades estadsticas. Estos niveles de medicin son denominados escalas.Una misma medicin puede corresponder a varias unidades estadsticas. En este caso, se dice que tales elementos estn en una misma modalidad o valor de la variable.Estas escalas son: nominales, ordinales, intervalares o racionales.

1.3.1ESCALA NOMINAL.-

Se dice que los valores de una variable estadstica estn en el nivel de la escala nominal si estos solo clasifican a las unidades estadsticas en iguales o diferentes. No poseen propiedades cuantitativas y sirven nicamente para identificar las clases. El nivel nominal permite mencionar similitudes y diferencias entre los casos particulares. Por lo regular, los datos nominales o cualitativos se describen en trminos de porcentaje o proporciones. Para exhibir este tipo de informacin se usan con mayor frecuencia tablas de contingencia y grficas de barras.

1.3.2ESCALA ORDINAL.-

Se dice que los valores de una variable estadstica estn en el nivel de escala ordinal si estn en escala nominal y adems ordenan a las unidades estadsticas por las caractersticas que se observa. Los valores cualitativos de una variable en escala ordinal son los resultados de un criterio para ordenar a las unidades estadsticas. Si se asignara nmeros a tales valores, con estos no es posible realizar operaciones aritmticas. Slo son vlidas las relaciones de igualdad, no igualdad y de orden.Por ejemplo la variable nivel socio econmico, definida en una poblacin de hogares, contiene un criterio que genera valores: Bajo medio alto.El mtodo estadstico con datos obtenidos en escala ordinal consiste bsicamente en obtener el nmero o porcentaje de casos en cada categora, as como obtener la moda, la mediana y el coeficiente de correlacin por rangos.

1.3.3ESCALA DE INTERVALO.-

Una escala de intervalos es una escala ordinal que asigna a las unidades estadsticas valores numricos, que son mediciones realizadas con respecto a un cero arbitrario. Este cero no es absoluto pues no mide la ausencia total de la caracterstica que se observa en la unidad estadstica.Por ejemplo la variable altitud definida en una poblacin de ciudades, tiene valores numricos que son mediciones hechas de alturas con respecto al nivel del mar. El nivel del mar es un cero elegido arbitrariamente.Con los valores de una variable en escala de intervalos se puede comparar la diferencia de las mediciones de dos unidades estadsticas con otra diferencia, esto es x1 , x2, x3 son tres valores de una variable x cuyos valores estn en el nivel de escala de intervalos, entonces se verifica la relacin:

x3 - x1 = C, donde C es una constante x2 - x1 Con los valores de esta escala son vlidas pues, las relaciones de igualdad, de no igualdad y de orden. Adems son vlidas las operaciones de adicin y sustraccin entre los valores de la escala, y la multiplicacin y divisin entre los valores mismos de la escala.

Por ejemplo: El puntaje obtenido en un examen de conocimientos calificado de 02 a 20 donde tres alumnos obtuvieron calificativos 02, 04 y 16 respectivamente. Propiedad: Si una variable estadstica T tiene sus valores x en escala de intervalos, entonces, x permanece invariante ante la transformacin y = ax + b ; donde a y b son constantes arbitrarias.

Por ejemplo: 02, 04 y 16 es un juego de valores de tres unidades estadsticas en x, entonces, 03, 09, y 45 es el juego de valores respectivos en y. ambos juegos de valores de T, son la misma escala de intervalos pues verifican las mismas relaciones.

1.3.4ESCALA DE RAZN.-

La escala de razn o cociente es una escala de intervalo que asigna a las unidades estadsticas valores numricos, que son mediciones realizadas con respecto a un cero real. Este cero significa ausencia total de la caracterstica que se observa.Los valores de esta escala se obtienen en general, por mediciones que son conteos o por mediciones continuas tales como longitud, peso, masa, volumen, tiempo, unidades monetarias, etc. Por ejemplo: Nmero de hijos.Adems con los valores de una variable en la escala de razn se puede comparar cuantas veces la medida de una unidad estadstica es igual a la medida de otra unidad estadstica y se verifica la relacin:x2 = C, donde C es una constante y x1 0 x1 Propiedad: Si una variable estadstica T tiene sus valores x en escala de razn, entonces, x permanece invariante ante la transformacin y = ax

2. VARIABLES ESTADISTICAS.

La caracterstica que se observa o mida en las unidades estadsticas de una poblacin tiene diversos valores de naturaleza cualitativa o cuantitativa. Por ejemplo la caracterstica gnero tiene dos valores: hombre y mujer. La caracterstica peso en kilogramos tiene infinitos valoresSe denomina variable estadstica a una caracterstica definida en una poblacin y que asume por lo menos dos valores. Estos valores pueden ser de cualidad o cantidad.

Variables cualitativas: Es la caracterstica cuyos valores son cualidades. Estos valores, estn en nivel de escala nominal u ordinal, no se pueden realizar operaciones aritmticas, por ejemplo: nacionalidad, color de la piel, sexo.

Variables cuantitativas: es la caracterstica cuyos valores son numricos. Estos valores estn en la escala de intervalo o de razn. Por ejemplo edad, precio de un producto, ingresos anuales, nmero de hijos, tiempo de vida til.

Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas

Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: nmero de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podr ser 3,45). Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehculo puede ser 80,3 km/h, 94,57 km/h...etc.

Ejercicio 01Cierta variable asigna a las unidades estadsticas E1 y E2 de una poblacin los valores de 5 y 20 respectivamente en una escala dada. La escala usada es .... y la relacin entre E1 y E2 es

Ejercicio 02Una variable cuantitativa cuya escala de intervalos, asigna valores 1, 4 y 9 a las unidades estadsticas E1, E2 y E3 respectivamente. Si una transformacin lineal en los valores asigna 1 a E1 y -8 a E2 que valor le corresponde a E3?

Ejercicio 03Una empresa minera posee cinco minas cuyas altitudes han aparecido en una revista extranjera con los valores:610.5, 750.2, 420.04, 917.7, 824.3Se desea saber cul es especficamente la altitud de las tres ltimas minas en metros sobre el nivel del mar si se sabe que la altitud de las 2 primeras minas son respectivamente 1224, y 1503.4?

Ejercicio 04

Clasifique las variables e indique el tipo de escala en que estn medidas:

ProfesinNacionalidadGrado de instruccinNmero de hijosNmero de telfonoDireccinAo de nacimientoEdadEstado civilIngreso mensual familiar promedioNmero de DNI

3. ORGANIZACIN DE DATOS.

Para el anlisis estadstico de los valores de una variable, es necesario organizarlos y presentarlos en forma tal que facilita su comprensin y su posterior utilizacin.Los datos son presentados en un cuadro numrico y presentados en grficas estadsticas.Si la variable es cuantitativa y el inters es slo obtener algunas medidas descriptivas de ellas puede que no sea necesario agruparlos.Todo cuadro numrico debe contener bsicamente ttulo, cuerpo y fuente.El cuadro numrico de una sola variable estadstica se denomina distribucin de frecuencias. Tenemos distribucin de frecuencias para variable cualitativa, variable cuantitativa discreta y por intervalos.

3.1 Distribucin de frecuencias de variable cualitativa

Si la variable x es cualitativa, observada en una muestra de n unidades estadsticas de una poblacin que origina k cualidades diferentes C1, C2, Ck la tabulacin o agrupacin de estos n datos, es la distribucin de frecuencias del cuadro 1.1La frecuencia absoluta fi es el nmero de datos que resulta del conteo en la categora respectivamente Ci, donde i= 1, 2, k. La suma de todas las frecuencias absolutas es igual a n, el total de datos observados.La frecuencia relativa hi se define en cada categora C1 , h1= fi /n la suma total es igual a unoLa frecuencia porcentual pi se define para cada categora Ci, pi = hi x 100%, la suma total es igual a cien.

Cuadro 1.1 Distribucin de frecuencias de variable cualitativaCategoras de la variable xFrecuencias absolutas fiFrecuencias relativas hiFrecuencias porcentuales pi

C1C2...Ckf1f2...fkh1h2...hkp1p2...pk

Totaln1100

Ejercicio 5: Se elabor una encuesta a un grupo de nios y arroj que las mascotas ms comunes que tiene un nio son perros, gatos, peces, hmsteres y pjaros

perroGatoPerrohamster

pjaroHamsterGatoperro

hmsterGatoPjarogato

perroPerrohmsterPjaro

perroperroPjaroGato

Para calcular:Frecuencia absoluta: se cuenta la cantidad de veces que ocurre el evento, en este caso, las mascotas.Frecuencia relativa: se divide la frecuencia absoluta de cada evento entre el total de eventos.Frecuencia porcentual: se multiplica la frecuencia relativa por 100.

Cuadro 1.2 Distribucin de frecuencias mascotas mas comunes que tiene un nio.MascotaFrecuencia absolutafiFrecuencia relativahiFrecuencia porcentualpi

Perro

Pjaro

Hmster

Gato

total201100

Estos datos se pueden representar en una grfica de barras o en una grfica de pastelGrfica de barras

Grfica de pastel

4.2 Distribucin de frecuencias para datos agrupados por intervalos

Distribucin de frecuencias en la que los valores de la variable se han agrupado en clases o intervalos. Esto se debe principalmente a la disposicin de gran nmero de datos.Procedimiento

1 Toma de datos2 Ordenacin de datos: es una colocacin de los datos numricos tomados en orden creciente a decreciente de magnitud.3 Clculo del Rango (R): La diferencia entre el mayor y el menor de los nmeros, ms uno, se llama rango o recorrido de datos. R = (X max X min) + 1

4 Nmero de clases o intervalos (K): Para calcular el nmero de clases se utiliza la regla de Sturges

*N de clases K = 1 + 3.332 log N (Regla de Sturges)

5 Tamao de la clase (A) se obtiene el tamao de clase dividiendo el rango entre el nmero de clases.

Tamao de clase= A = Rango / N de clases

6 Lmites de clase: Representan el tamao de cada clase. El lmite inferior ( LI ) de la primera clase toma el valor del dato menor de la coleccin de datos, para obtener el lmite inferior de la clase siguiente, se suma al lmite inferior de la case anterior el tamao de clase.

7 Marca de clase (mi) : Es el punto medio de la clase y se obtiene sumando los LI y LS de la clase y dividiendo entre 2. La marca de clase tambin se llama punto medio de la clase.

Ejercicio 6 : ASIENTOS VACOS DE AUTOBUSES INTERPROVINCIALES1) Toma de datosLos siguientes datos corresponden a la cantidad de asientos vacos que reportaron 50 autobuses interprovinciales el ltimo domingo.

121146611310124

10112452448

87841042629

566412811217

7684693775

2) Ordenacin de datos

12445678911

124456781012

124466781012

134466781012

234567891112

3) Rango = (12-1) + 1 = 11 + 1 = 12 4) N de clases = 1 + 3.332log (50) = 65) Tamao de clase Tamao de clase = 12/6 = 2 (aprox.)

6) Lmites de clase [LI - LS]

7) Marca de clase: miCuadro N 1.3 ASIENTOS VACOS DE AUTOBUSES INTERPROVINCIALESClase MiFrecuencia simpleFrecuencia acumulada

LI LSmiAbsolutafiRelativahiPorcentualpiAbsolutaFiRelativaHiPorcentjPi

1[1 3[

2[3 5[

3[5 7[

4[7 9[

5[9 11[

6[11 13[501100

Total501100 ---

Representacin grfica de datos.Se tomar el ejemplo anterior para demostrar el uso de diferentes grficas.Histograma: forma grfica de barras que emplea variables con escala de intervalos o de proporciones. Para realizarla, se toma en cuenta para el eje X, los Lmites reales, y para el eje Y, las frecuencias absolutas.

Polgono de frecuencias: Forma grfica que representa una distribucin de frecuencias en la forma de una lnea continua que traza un histograma. Para su elaboracin, se consideran las marcas de clase en el eje X y las frecuencias absolutas en el eje Y.

Grfica de barras: la grfica de barras es una forma de grfica que utiliza barras para indicar la frecuencia de ocurrencia de las observaciones. Para construirla se constituye el eje y por las frecuencias absolutas y el eje X por los lmites inferior y superior de cada clase, dejando un espacio entre barra y barra.

PRACTICA N01

DEFINICIONES BASICAS DE ESTADISTICA TABLA DE FRECUENCIAS

1. Obtenga la amplitud de los intervalos de la distribucin de frecuencias en cada uno de los siguientes casos:a. Datos enteros, Xmin = 10 ; Xmax = 50 y k= 8 intervalosb. Datos con dos decimales Xmin = 2.55, X max = 3.86 y k = 7c. Datos con tres decimales Xmin = 0.282, X max= 0.655 y k =6

2. Los salarios quincenales, en dlares recopilados en una muestra de 45 empleados son:

63 82 36 49 56 64 59 35 78

43 51 70 57 62 43 68 62 26

64 72 52 51 62 60 71 61 55

59 60 67 57 67 61 67 51 81 50 64 76 44 73 56 62 63 60

Describa la variable y desarrolle la distribucin de frecuencia de los datos

3. Los datos que siguen, son los consumos de agua del ltimo mes registrados en metros cbicos en una muestra al azar de 32 viviendas unifamiliares de la zona de Buenos Aires en Nuevo Chimbote231216141712791813921182013151816415171915181917112314101613Organice los datos en una distribucin de frecuencias de 5 intervalos. Luego grafique el histograma. Comente la forma de distribucin.Es correcta la afirmacin Ms del 45% de los consumos fluctan entre 14 y 19 m3? Justifique su respuesta.

4. Las notas del examen parcial de Estadstica se registraron se organizaron en una distribucin de frecuencias, cuyos resultados incompletos se dan en la siguiente tabla:

IntervaloMarca de claseFrecuencia relativaFrecuencia relativa acumulada

[ , [0.15

[ 6 , [0.45

[ , [0.70

[ , [13.5

[ , ]0.10

a. Grafique la distribucin de frecuencias y describa su formab. Elabore la grfica de porcentajes y ubique en la misma los cuartilesc. Es correcto que ms del 49% de las notas se ubican en el intervalo: [ 8 , 14]?d. Calcule el intervalo de notas donde se ubica el quinto superior de los estudiantes5. En una encuesta de opinin acerca de las preferencias de bebidas gaseosas por su color Negro (N), Blanco (B), Rojo (R), una muestra de 20 consumidores marco las siguientes respuestas:

B N N B R N N B B N B N N R B N B R B N

Describa la variable estadstica y obtenga la distribucin de frecuencias. Luego presente los datos agrupados en la grafica de barras y circular. Comente el resultado.

6. Ante la pregunta sobre el nmero de hijos por familia una muestre de 20 hogares marc las siguientes respuestas: 2 1 2 4 1 3 2 3 2 0 3 2 1 3 2 3 3 1 2 4

Describa la variable de la encuesta y obtenga la distribucin de frecuencias de los datos, luego grafique la distribucin y desarrolle su comentario.

7. Construirla distribucin de frecuencias, trazar una grfica y comentar el resultado de la variable nivel socio econmico con sus valores bajo =0, medio=1 y alto=2 si sus valores observados en 20 hogares son:1, 0 0 1 2 0 0 1 1 0 1 0 0 2 1 0 1 2 1 08. Obtenga la distribucin de frecuencias y trace su grfica. Luego determine los cuartiles aplicando la para la variable nmero de artculos defectuosos por lote encontrados al revisar 20 lotes de 48 artculos cada uno si sus valores observados son: 3 2 5 0 1 3 2 1 5 1 3 4 2 4 4 3 4 3 2 3 Qu porcentaje de lotes tienen dos o ms, pero menos de 4 artculos defectuosos?

9. Los tiempos de vida til de un tipo de batera, se tabul en una distribucin de frecuencias de 5 intervalos de igual amplitud con frecuencias relativas acumuladas: 0.10, 0.25, 0.55, 0.80, 1.00. Determine la distribucin de frecuencias absolutas si la tercera frecuencia absoluta acumulada es 11, si la segunda marca de clase es 6 y si el lmite inferior del cuarto intervalo es 12

10. En una compaa, el sueldo mnimo y mximo de 200 empleados es de $150 y $300 respectivamente. Tales sueldos se tabulan en una distribucin de frecuencias de 5 intervalos de igual amplitud. Si se sabe que 20 empleados ganan al menos $150, pero menos de $180; 60 ganan menos de $210; 110 ganan menos de $240; 180 ganan menos de $270 y el 10% restante de empleados gana a lo ms $300; reconstruir la distribucin y graficar su polgono de frecuencias.

4. MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central denominadas tambin promedios, ubican el centro de los datos tambin se las conoce como medidas de posicin.

4.1Mediana

La mediana (Me) o valor medio de una serie de valores observados es el nmero que separa a la serie de datos ordenados (en forma creciente o decreciente) en dos partes de igual numero de datos. La mediana es el percentil 50 de los datos observados no agrupados o agrupados por intervalos.

Clculo de la mediana4.1.1Mediana de datos no agrupadosPara realizar el cmputo de la mediana de n valores no agrupados de una variable cuantitativa x se siguen los siguientes pasos:1. Se ordenan los datos en forma creciente2. Se ubica el valor central Me. Si n es impar, corresponde al dato ordenado del centro. Pero si n es par, la mediana es la semisuma de los dos valores ordenados centrales.

Ejemplo: Calcule la mediana para los siguientes datos. La edad de una muestra de cinco estudiantes es: 21, 25, 19, 20 y 22.Al ordenar los datos de manera ascendente quedan: 19, 20, 21, 22, 25. La mediana es 21.

4.1.2Calculo de la mediana para datos agrupadosLa mediana de una muestra de datos organizados en una distribucin de frecuencias se calcula 1 Ubicando el intervalo que contiene a la mediana : 0.5n2 Se aplica la siguiente frmula:Mediana = LI + [n/2 Fi-1] A fidonde: LI es el lmite inferior de la clase que contiene a la mediana, Fi-1 es la frecuencia acumulada que precede a la clase de la mediana, fi es la frecuencia absoluta de clase de la mediana y A es la amplitud del intervalo de clase de la mediana.

Ejercicio 7Calcule la mediana de 45 salarios quincenales agrupados en 7 intervalos de igual amplitud.

4.2Moda

La moda de una serie de datos es el valor Mo que se define como el dato que ocurre con mayor frecuencia.

Ejemplo: Las calificaciones de un examen de diez estudiantes son: 81, 93, 84, 75, 68, 87, 81, 75, 81, 87. Como la calificacin 81 es la que ms ocurre, la calificacin modal es 81

4.2.1Clculo de la moda para datos agrupados La moda de los datos agrupados se aproxima por el punto medio de la clase que contiene la frecuencia de clase mayor. Cuando dos valores ocurren una gran cantidad de veces, la distribucin se llama bimodal.Clculo de la moda para datos agrupados por intervalos

Mo= Li + [ d1 ] A (d1 + d2)Li = Limite inferior del intervalo modal d1 = fi fi-1 d2= fi fi+1A= amplitud del intervalo modal

Ejercicio 8Calcule la moda de 45 salarios quincenales agrupados en 7 intervalos de igual amplitud.

Ejercicio 9Ejemplo de clculo de media mediana y moda. Para ejemplificar, tomaremos el ejemplo de autobuses interprovinciales de la pagina anterior .

4.3 Media

La media aritmtica denominada simplemente media (x) es el valor numrico que se obtiene dividiendo la suma total de los valores observados de una variable entre el nmero de observaciones. Calculo de la media (x)1. Media aritmtica de datos no agrupados:Media = x = Suma total = x = xi n de datos n

Ejercicio 10: Calcule la media aritmtica de los 45 salarios sin agruparx = xi = 2670/45 = n2. Media aritmtica de datos agrupadosa. Media para datos agrupados de variable discretaSe calcula multiplicando cada valor por el nmero de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra:

Ejercicio 11Calcule la media aritmtica de la distribucin de frecuencias del nmero de hijos por familia de una muestra de 20 hogares: 2 1 2 4 1 3 2 3 2 0 3 2 1 3 2 3 3 1 2 4SolucinN de hijosN de familiasProducto

xififi xi

01234147620414188

Total2044

La media de la distribucin es x = fi xi = 44/20 = 2.2 hijos N

b. Media para datos agrupados por intervalos

Media = x = Suma total = x = fi mi n de datos n

Ejercicio 12:Calcular la media de la distribucin de 45 salarios organizados en 7 intervalos

c. Media con frecuencias relativas

Media = x= Suma total = x = fi mi = hi mi n de datos n

Ejercicio 13Calcular la media con frecuencias relativas de la distribucin de 45 salarios organizados en 7 intervalos:

d. Media ponderada

Media = x = Suma total = x= wi xi n de datos wi

Ejercicio 14:Si en un examen de matemtica, 110 alumnos del horario Hi obtuvieron una media de 12.6 y 120 alumnos del horario H2 obtuvieron una media de 13.48 entonces la media global es:Ejercicio 15:Si un alumno en el semestre anterior ha obtenido 11 en el curso de investigacin de 5 crditos, 13 en el curso de matemticas de 4 crditos y 16 en el curso de estadstica con 3 crditos. Cual ser su promedio ponderado?MEDIDAS DE POSICIN NO CENTRALES

Las medidas de posicin no centrales permiten conocer otros puntos caractersticos de la distribucin que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos iguales:Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados.Ejemplo: Calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de alumnos. Los deciles y centiles se calculan de igual manera, aunque hara falta distribuciones con mayor nmero de datos.

VariableFrecuencias absolutasFrecuencias relativas

EstaturaSimpleAcumuladaSimpleAcumulada

FiFipiPi

1,20113,3%3,3%

1,214513,3%16,6%

1,224913,3%30,0%

1,232116,6%36,6%

1,241123,3%40,0%

1,252146,6%46,6%

1,2631710,0%56,6%

1,2732010,0%66,6%

1,2842413,3%80,0%

1,2932710,0%90,0%

1,3033010,0%100,0%

1 cuartil: es el valor 1,22 cm, ya que por debajo suya se sita el 25% de la frecuencia 2 cuartil: es el valor 1,26 cm, ya que entre este valor y el 1 cuartil se sita otro 25% de la frecuencia.3 cuartil: es el valor 1,28 cm, ya que entre este valor y el 2 cuartil se sita otro 25% de la frecuencia. Adems, por encima suya queda el restante 25% de la frecuencia.Cuando un cuartil recae en un valor que se ha repetido ms de una vez (como ocurre en el ejemplo en los tres cuartiles) la medida de posicin no central sera realmente una de las repeticiones.

PRACTICA N 02MEDIDAS DE TENDENCIA CENTRAL1. Los sueldos del mes de enero de 200 empleados de una empresa tienen una media de $230a. Si el 60% de los empleados son hombres (el resto son mujeres), y tiene un sueldo promedio de $250. Cunto es el sueldo medio de las mujeres en enero? b. Si para el mes de julio, se propone un aumento general que consiste en un aumento variable del 30% a cada sueldo de enero ms una bonificacin de $30, Cunto dinero adicional necesitar la empresa para pagar los sueldos incrementados?2. Los costos de fabricacin en soles de diez objetos son los siguientes:9.35, 9.46, 9.20, 9.80, 9.77, 9.00, 9.99, 9.36, 9.50 y 9.60Si el precio de venta de cada objeto es 3 veces su costo de fabricacin menos 5 soles, calcular la utilidad media por objeto.

3. En una evaluacin 5 alumnos tiene cada uno una nota12, y un alumno tiene 18. Si se indica como nota promedio 13, Que nota promedio es? Es el promedio adecuado?

4. De las edades de cuatro personas, se sabe que la media es igual a 24 aos, la mediana es 23 y la moda es 22. Encuentre las edades de las 4 personas.

5. De la curva de frecuencia de sueldos de 30 empleados de una empresa, se sabe que Mo =$200, Me=$220 y x= $250. Califique como verdadera o falsa las siguientes afirmaciones. Justificando su respuesta.a. El sueldo ms frecuente es de $200 y ms de la mitad de los empleados gana ms de esa cantidadb. Con una suma de $3300 se asegura el pago de la mitad de los empleados y con $7500 el de todos los empleados.

6. Para calcular el suministro de agua que una ciudad requiere mensualmente se escogen 15 familias de la ciudad, resultando los siguientes consumos en metros cbicos11.221.516.419.714.616.932.218.213.123.818.315.518.822.714.0Si en la ciudad hay 5000 familias Cuntos metros cbicos de agua se requieren mensualmente si el consumo promedio por familia permanece igual?7. El sueldo promedio de 200 empleados de una empresa es $400 se propone dos alternativas de aumento:a. $75 a cada uno y b. 15% de su sueldo ms 10 soles a cada unoSi la empresa dispone a lo ms de 94 000 para pagar sueldos Cul es la ms conveniente?

8. Al calcular la media de 125 datos, result 42. Un chequeo posterior mostr que en lugar del valor 12.4 se introdujo 124. Corregir la media.

9. Las ventas de un distribuidor de automviles, en cierto periodo, ascendieron a la cantidad de 1 650 000, vendiendo 50 automviles nuevos a un precio promedio de $ 13 000 y algunos carros usados con un precio de $5000 en promedio. Cul es el promedio de los precios de todos automviles que se vendieron?10. De los horarios de clases de la UCV se sabe que ninguno tiene ms de 100 o menos de 70 alumnos matriculados. Se sabe que uno de cada 5 tiene 80 alumnos, que el 30% tiene 100 y la mayora 90 alumnos. Calcule la media aritmtica de alumnos por horario.

11. En tres grupos distintos de 100 000, 90 000 y 20 000 personas, el porcentaje de personas con educacin superior es 21%, 42% y 40% respectivamente. Calcular el porcentaje promedio de personas con educacin superior.

12. El sueldo medio de los obreros de una fabrica es de $286a. Que porcentaje de hombre y mujeres trabajan en la fabrica si sus sueldos medio respectivos son $300 y $260?b. Si el 60%de los obreros tienen menos de 30 aos y percibe el 20% del total de los sueldos, Cunto es el sueldo medio de los obreros de al menos 30 aos?

13. Al tabular las calificaciones de un examen se obtuvieron las siguientes notas 07, 08 , 09, 10, 11 12, 13, 14, 15, 16, 17 y las frecuencias del nmero de alumnos respectivas: 1, 1, 1, 1, 1, 6, 8, 16, 18, 20 y 2a. Cul es la media, la mediana y la moda de las notas. Qu valor escogera como el promediob. Cunto es la nota mnima para estar en el quinto superior?

4.3 MEDIDAS DE DISPERSION

Las Medidas de dispersin o variabilidad son nmeros reales que miden el grado o nivel de separacin de los datos con respecto a un valor central, que generalmente es la media aritmtica.Estudia la distribucin de los valores de la serie, analizando si estos se encuentran ms o menos concentrados, o ms o menos dispersosRango:Rango de variacin o recorrido (R ) es el nmero que resulta de la diferencia entre el mayor y el menor valor de una serie de datos observados de la variable x. Esto es:

R = ( X mx. X min) + 1

Rango intercuartil

Es una medida que excluye el 25% superior y el 25% inferior, dando un rango dentro del cual se encuentra el 50% central de los datos observados.

RI = Q3 Q1Varianza

a. Varianza de datos no agrupados

Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatoria de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el nmero de veces que se ha repetido cada valor. La sumatoria obtenida se divide por el tamao de la muestra.

S2 = suma total de cuadrados de diferencias = (xi - x )2 = xi2 - x 2 n de datos n n

La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos estn.

Desviacin estndar(S) : Se calcula como raz cuadrada de la varianza. V s2

b. Varianza de datos agrupados

S2 = suma total de cuadrados de diferencias = fi (mi - x )2 = fi mi2 - x 2 n de datos n n

Ejercicio N 15b.1 Calcule la varianza y Desviacin Estndar de la distribucin de frecuencias del numero de hijos de la muestra de 20 familias.ejemplo.odsb.2 Calcule la varianza y la desviacin estndar de los 45 salarios quincenales organizados en 7 intervalos1DIANA MARINA QUILICHE PUMA.xlsx

c. Varianza con frecuencias relativas

S2 = suma total de cuadrados de diferencias = fi (xi - x )2 = himi2 - x 2 n de datos n

d. Simetra y asimetra de una distribucinEl orden de ubicacin de los promedios describe la simetra de la distribucin de los datos. As tenemos que es:a. SIMETRICA si x = Me = Mob. ASIMETRICA POSITIVA si Mo Me xc. ASIMETRICA NEGATIVA si x Me Mo

e. Propiedades:a. Xi 2 = n (s2 + x2 )

b. Si x se transforma en y = ax + b; Vary = a2 Varx Sy2 = a2 Sx2 Sy = a Sx

c. Dados k serie de datos con tamaos, medias y varianzas respectivasLa varianza total se determina por:

Sn 2 = ni (Sni2 + xi2)/n - (xn)2 donde: xn = [ni xi]/n

d. Desigualdad de Chebyshev: Cualquiera sea la forma de la distribucin simtrica o asimtrica de los datos observados de una variable x, el intervalo se cumple que:

[x k Sn , x +k Sn] donde k1 contiene por lo menos 1 1 % de los datos k2

Coeficiente de variacin de Pearson (CV) Se calcula como cociente entre la desviacin tpica y la media de la muestraCV = S/ x o

VALORES ESTANDARIZADOS

Z = X - x S

Los valores estandarizados indican la posicin relativa de las unidades estadsticas dentro de su grupo. Por lo tanto Z es otro medida de posicin adems de los percentiles.

Ejemplo

Las calificaciones en un examen final de matemtica y estadstica generaron las medias 13 y 17 y las desviaciones estndar de 3 y 4 respectivamente. Si Luis obtuvo 14 en matemtica y 16 en estadstica en cul de los dos cursos tiene mejor rendimiento relativo?

PRACTICA N 03

MEDIDAS DE DISPERSION

1. En el mes de enero el sueldo promedio de los trabajadores del sector industrial era de $200. Para el mes de julio se considera un aumento del 30% al sueldo del mes de enero ms un adicional de $50. Si el coeficiente de variacin en enero era de 0.25, Se puede decir que la distribucin de sueldos en julio es ms homognea?

2. Si los salarios no agrupados de 120 obreros tiene una media de $300 y una desviacin estndar de $30a. Cuntos obreros por lo menos tiene salarios comprendidos en el intervalo [$240 , $360]?b. Determine el intervalo que contiene al menos el 88.889% de los salariosc. Si el salario mnimo es de $210, en que porcentaje se puede afirmar que los salarios son superiores a $390?

3. A cuatro unidades estadsticas se le asigna los valores de 6, 10, 14 y 20 respectivamente en una escala de razn. Si en La misma escala se transforma 6 en 9, calcule el coeficiente de variacin de los 4 valores transformados.

4. La demanda diaria en Kg de un producto tiene una media de 10 y una desviacin estndar de 2. Si se hace un incremento del 20% de la demanda ms 3kg. En que porcentaje se logra reducir la variabilidad de la demanda diaria?

5. Las notas de una prueba de conocimientos que van de 0 a 20 se tabularon en una distribucin de frecuencias y de la cul se obtuvieron Media= 10 mediana=8, moda=4 y desviacin estndar=3.a. Describa la asimetra de la distribucin aplicando los promediosb. Si a cada alumno se sube 4 puntos. Se ha logrado bajar la dispersin de las notas?

6. Se realizaron 10 mediciones en C con cada uno de dos termmetros A y B.a. Cul de los dos termmetros es ms confiable, si SA=4 y SB=5?b. Cul si adems XA= 20 y XB=27?

7. La media y la desviacin estndar de los sueldos de N empleados de una fbrica son 500 y 30 respectivamente. A cada uno de los N empleados se les dar un aumento de A% de su sueldo ms su bonificacin de B soles. Halle A y B de tal manera que la media de los sueldos modificados sea 600 y su desviacin estndar 33

8. Un investigador califica la aptitud de los grupos A y B de dos modos. Si los cuartiles I, 2 y 3 del grupo A son respectivamente 5, 10 y 30 y del grupo B son 35, 45 y 50a. Cul de los dos grupos tiene aptitud ms homognea?b. Describa la simetra de cada grupo

9. Una prueba de conocimientos A se calific sobre 20 puntos dando una media de 12 y una desviacin estndar de 2 puntos. Mientras que una prueba de aptitud B se calific sobre 100 puntos, dando una media de 70 y una desviacin estndar de 5.a. En cul de las dos pruebas los puntajes son ms homogneos?b. Si Juan tiene 14 en A y Luis 73 en B, Quin tiene mejor rendimiento?

10. Los sueldos de 100 empleados de una empresa tienen una media de $300 y una desviacin estndar de 50. Se propone dos alternativas de aumento: i) $75 a cada uno, y ii) 15% del sueldo ms $20 a cada uno. Cul alternativa es ms conveniente,a. Si la empresa dispone slo de $37 000 para pagar sueldos?b. Si la empresa quiere homogenizar los sueldos?

11. Los sueldos de 150 trabajadores de una empresa tiene un coeficiente de variacin del 5%. Si despus de un incremento del 20% de los sueldos ms una bonificacin de $60 el coeficiente de variacin baja a 4%a. Cuanto es la media y la desviacin estndar de los sueldos antes del incremento?b. Cunto dinero adicional necesita la empresa para pagar todos los sueldos despus del incremento?

12. Al calcular la media y la desviacin estndar de 80 datos, resultaron 30 y 4 respectivamente. Un chequeo mostr que en lugar del valor 1.7 se introdujo 17. Corrija la media y la desviacin estndar.

13. Los siguientes datos muestran calificativos de 20 personas sometidos a una prueba de aptitud. Los 20 estudiantes fueron divididos en dos grupos, al grupo I se calific de 0 a 100 y al grupo 2 de 0 a 20:i. Grupo I 86, 81, 79, 73, 95, 86, 94, 90, 86, 88ii. Grupo II 16, 19, 13, 20, 14, 16, 19, 18, 17, 15a. Calcule la media y la desviacin estndar en cada grupo, Cul de los dos grupos es ms homogneo?b. Se puede aceptar que el estudiante con 73 puntos del grupo I tiene mayor aptitud que el estudiante con 13 puntos del grupo 2?

14. El costo inicial de produccin X de una muestra de 80 objetos de cierto tipo, tiene una media de $250 para el 60% de la muestra y de $200 para el resto, adems una desviacin estndar de $20 para el 60% de la muestra y de $25 para el resto.a. Calcule la varianza del costo inicial de los 80 objetosb. Si el costo final de produccin Y es igual al 20% ms del costo inicial, ms 5 dlares y si el precio de venta de cada objeto de la muestra es proporcional al cuadrado del costo final de produccin, Cunto se recaudara por la venta total?, Cunto sera la utilidad neta?

15. El costo de produccin de una muestra de cierto tipo de objeto tiene una desviacin estndar de $30. El costo medio de produccin es de $250 para el 60% de la muestra y de $200 para el resto. Si su precio de venta en dlares es igual al 10% ms de su precio de costo ms 10 dlares, calcule la media y la varianza de la venta de la muestra.

5 NOCIONES DE MUESTREO

5.1 TIPOS DE MUESTREOLos autores proponen diferentes criterios de clasificacin de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: mtodos de muestreo probabilsticos y mtodos de muestreo no probabilsticos. 5.1.1Muestreo probabilsticoLos mtodos de muestreo probabilsticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamao n tienen la misma probabilidad de ser elegidas. Slo estos mtodos de muestreo probabilsticos nos aseguran la representatividad de la muestra extrada y son, por tanto, los ms recomendables. Dentro de los mtodos de muestreo probabilsticos encontramos los siguientes tipos:El mtodo otorga una probabilidad conocida de integrar la muestra a cada elemento de la poblacin, y dicha probabilidad no es nula para ningn elemento.Los mtodos de muestreo no probabilsticos no garantizan la representatividad de la muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la poblacin.(En algunas circunstancias los mtodos estadsticos y epidemiolgicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilistico, por ejemplo los estudios de casocontrol, donde los casos no son seleccionados aleatoriamente de la poblacin.)Entre los mtodos de muestreo probabilsticos ms utilizados en investigacin encontramos:

Muestreo aleatorio simple:El procedimiento empleado es el siguiente: Se asigna un nmero a cada individuo de la poblacin A travs de algn medio mecnico (bolas dentro de una bolsa, tablas de nmeros aleatorios, nmeros aleatorios, generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamao de muestra requerido.Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad prctica cuando la poblacin que estamos manejando es muy grande.Ejemplo: formar el equipo de ftbol de la universidad seleccionando 11 boletas de una urna con el nombre de todos los alumnos de la universidad.

Muestreo aleatorio sistemtico:Este procedimiento exige, como el anterior, numerar todos los elementos de la poblacin, pero en lugar de extraer n nmeros aleatorios slo se extrae uno. Se parte de ese nmero aleatorio i, que es un nmero elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamao de la poblacin entre el tamao de la muestra: k= N/n. El nmero i que empleamos como punto de partida ser un nmero al azar entre 1 y k.El riesgo este tipo de muestreo est en los casos en que se dan periodicidades en la poblacin ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la poblacin. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 ltimos mujeres, si empleamos un muestreo aleatorio sistemtico con k=10 siempre seleccionaramos o slo hombres o slo mujeres, no podra haber una representacin de los dos sexos.

Muestreo aleatorio estratificado:Este tipo de muestreo asegura que todos los estratos de inters estarn representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarn parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la poblacin.(Tamao geogrfico, sexos, edades,...).La distribucin de la muestra en funcin de los diferentes estratos se denomina afijacin, y puede ser de diferentes tipos:Afijacin Simple: A cada estrato le corresponde igual nmero de elementos mustrales.Afijacin Proporcional: La distribucin se hace de acuerdo con el peso (tamao) de la poblacin en cada estrato.Afijacin Optima: Se tiene en cuenta la previsible dispersin de los resultados, de modo que se considera la proporcin y la desviacin tpica. Tiene poca aplicacin ya que no se suele conocer la desviacin.

Muestreo aleatorio por conglomerados:Los mtodos presentados hasta ahora estn pensados para seleccionar directamente los elementos de la poblacin, es decir, que las unidades mustrales son los elementos de la poblacin.En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la poblacin que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son reas geogrficas suele hablarse de "muestreo por reas".El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero de conglomerados (el necesario para alcanzar el tamao muestral establecido) y en investigar despus todos los elementos pertenecientes a los conglomerados elegidos.

5.1.2Mtodos de muestreo no probabilsticosA veces, para estudios exploratorios, el muestreo probabilstico resulta excesivamente costoso y se acude a mtodos no probabilsticos, aun siendo conscientes de que no sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extrada sea representativa, ya que no todos los sujetos de la poblacin tienen la misma probabilidad de se elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra sea representativa.

Muestreo por cuotas:Tambin denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buenconocimiento de los estratos de la poblacin y/o de los individuos ms "representativos" "adecuados" para los fines de la investigacin. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carcter de aleatoriedad de aqul.En este tipo de muestreo se fijan unas "cuotas" que consisten en un nmero de individuos que renen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 aos, de sexo femenino y residentes en Gijn. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas caractersticas. Este mtodo se utiliza mucho en las encuestas de opinin.Muestreo opintico o intencional:Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusin en la muestra de grupos supuestamente tpicos. Es muy frecuente su utilizacin en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto.Muestreo casual o incidental:Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los individuos de la poblacin. El caso ms frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fcil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos).Bola de nieve:Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y as hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones.

5.3 TAMAO DE LA MUESTRAToda investigacin lleva implcito en la fase de diseo la determinacin del tamao muestral necesario para la ejecucin del mismo. El no realizar dicho proceso, puede llevarnos a dos situaciones diferentes: primera que realicemos el estudio sin el nmero adecuado, con lo cual no podremos ser precisos al estimar los parmetros y adems no encontraremos diferencias significativas cuando en la realidad s existen. La segunda situacin es que podramos estudiar un nmero innecesario de la poblacin, lo cual lleva implcito no solo la prdida de tiempo e incremento de recursos innecesarios sino que adems la calidad del estudio, dado dicho incremento, puede verse afectada en sentido negativo.Para determinar el tamao muestral de un estudio, debemos considerar diferentes situaciones:A. Estudios para determinar parmetros. Es decir pretendemos hacer inferencias a valores poblacionales (proporciones, medias) a partir de una muestra (Tabla 1).B. Estudios para contraste de hiptesis. Es decir pretendemos comparar si las medias o las proporciones de las muestras son diferentes.Tabla 1. Elementos de la Inferencia Estadstica

A. Estudios para determinar parmetros Con estos estudios pretendemos hacer inferencias a valores poblacionales (proporciones, medias) a partir de una muestra.A.1. Estimar una proporcin:Si deseamos estimar una proporcin, debemos saber:El nivel de confianza o seguridad (1- ). El nivel de confianza prefijado da lugar a un coeficiente (Z ). Para una seguridad del 95% = 1.96, para una seguridad del 99% = 2.58. La precisin que deseamos para nuestro estudio. Una idea del valor aproximado del parmetro que queremos medir (en este caso una proporcin). Esta idea se puede obtener revisando la literatura, por estudio pilotos previos. En caso de no tener dicha informacin utilizaremos el valor p = 0.5 (50%). Ejemplo: A cuntas personas tendramos que estudiar para conocer la prevalencia de diabetes?Seguridad = 95%; Precisin = 3%: Proporcin esperada = asumamos que puede ser prxima al 5%; si no tuvisemos ninguna idea de dicha proporcin utilizaramos el valor p = 0,5 (50%) que maximiza el tamao muestral:

donde:Z 2 = 1.962 (ya que la seguridad es del 95%) p = proporcin esperada (en este caso 5% = 0.05) q = 1 p (en este caso 1 0.05 = 0.95) d = precisin (en este caso deseamos un 3%)

Si la poblacin es finita, es decir conocemos el total de la poblacin y desesemos saber cuntos del total tendremos que estudiar la respuesta seria:

donde:N = Total de la poblacin Za2 = 1.962 (si la seguridad es del 95%) p = proporcin esperada (en este caso 5% = 0.05) q = 1 p (en este caso 1-0.05 = 0.95) d = precisin (en este caso deseamos un 3%). A cuntas personas tendra que estudiar de una poblacin de 15.000 habitantes para conocer la prevalencia de diabetes?Seguridad = 95%; Precisin = 3%; proporcin esperada = asumamos que puede ser prxima al 5% ; si no tuviese ninguna idea de dicha proporcin utilizaramos el valor p = 0.5 (50%) que maximiza el tamao muestral.

Segn diferentes seguridades el coeficiente de Za vara, as:Si la seguridad Za fuese del 90% el coeficiente sera 1.645 Si la seguridad Za fuese del 95% el coeficiente sera 1.96 Si la seguridad Za fuese del 97.5% el coeficiente sera 2.24 Si la seguridad Za fuese del 99% el coeficiente sera 2.576 A.2. Estimar una media:Si deseamos estimar una media: debemos saber:El nivel de confianza o seguridad (1- ). El nivel de confianza prefijado da lugar a un coeficiente (Z ). Para una seguridad del 95% = 1.96; para una seguridad del 99% = 2.58. La precisin con que se desea estimar el parmetro ( d es la amplitud del intervalo de confianza). Una idea de la varianza S2 de la distribucin de la variable cuantitativa que se supone existe en la poblacin.

Ejemplo: Si deseamos conocer la media del rendimiento acadmico de una poblacin, con una seguridad del 95 % y una precisin de 3 puntos y tenemos informacin por un estudio piloto o revisin bibliogrfica que la varianza es de 250

Si la poblacin es finita, como previamente se seal, es decir conocemos el total de la poblacin y desearamos saber cuntos del total tendramos que estudiar, la respuesta sera:

B. Estudios para contraste de hiptesisEstos estudios pretenden comparar si las medias o las proporciones de las muestras son diferentes. Habitualmente el investigador pretende comparar dos tratamientos. Para el clculo del tamao muestral se precisa conocer:Magnitud de la diferencia a detectar que tenga inters clnicamente relevante. Se pueden comparar dos proporciones o dos medias. Tener una idea aproximada de los parmetros de la variable que se estudia. Seguridad del estudio (riesgo de cometer un error a) Poder estadstico (1 - b) (riesgo de cometer un error b) Definir si la hiptesis va a ser unilateral o bilateral. Bilateral: Cualquiera de los dos parmetros a comparar (medias o proporciones) puede ser mayor o menor que el otro. No se establece direccin. Unilateral: Cuando se considera que uno de los parmetros debe ser mayor que el otro, indicando por tanto una direccin de las diferencias. La hiptesis bilateral es una hiptesis ms conservadora y disminuye el riesgo de cometer un error de tipo I (rechazar la H0 cuando en realidad es verdadera).B1. Comparacin de dos proporciones:Donde:n = sujetos necesarios en cada una de las muestras Za = Valor Z correspondiente al riesgo deseado Zb = Valor Z correspondiente al riesgo deseado p1 = Valor de la proporcin en el grupo de referencia, placebo, control o tratamiento habitual. p2 = Valor de la proporcin en el grupo del nuevo tratamiento, intervencin o tcnica. p = Media de las dos proporciones p1 y p2

Los valores Za segn la seguridad y Zb segn el poder se indican en la Tabla 2 .B2. Comparacin de dos medias:Donde:n = sujetos necesarios en cada una de las muestras Za = Valor Z correspondiente al riesgo deseado Zb = Valor Z correspondiente al riesgo deseado S2 = Varianza de la variable cuantitativa que tiene el grupo control o de referencia. d = Valor mnimo de la diferencia que se desea detectar (datos cuantitativos) Los valores Za segn la seguridad y Zb segn el poder se indican en la Tabla 2 (8).Tabla 2. Valores de Za y Zb ms frecuentemente utilizados

Za

aTest unilateralTest bilateral

0.2000.1500.1000.0500.0250.0100.8421.0361.2821.6451.9602.3261.2821.4401.6451.9602.2402.576

Potencia

b(1-b)Zb

0.010.050.100.150.200.250.300.350.400.450.500.990.950.900.850.800.750.700.650.600.550.502.3261.6451.2821.0360.8420.6740.5240.3850.2530.1260.000

Ejemplo de comparacin de dos medias:Deseamos desarrollar un experimento y consideramos que sera eficaz si lograse un descenso de 15 puntos respecto a la puntuacin inicial. Por estudios previos sabemos que la desviacin tpica del experimento es de 16 puntos, aceptamos un riesgo de 0.05 y deseamos un poder estadstico de 90% para detectar diferencias si es que existen.

Precisamos 20 personas en cada grupo.Ejemplo de comparacin de dos proporciones:Deseamos evaluar si el Tratamiento T2 es mejor que el tratamiento T1 para lo cual diseamos un ensayo. Sabemos por datos previos que la eficacia del T habitual est alrededor del 70% y consideramos relevante si el nuevo T demuestra un acierto del 90%. Nuestro nivel de riesgo lo fijamos en 0.05 y deseamos un poder estadstico de un 80%.

n = 48.

II UNIDAD

6. COEFICIENTE DE CORRELACIN LINEALEn una distribucin bidimensional puede ocurrir que las dos variables guarden algn tipo de relacin entre s. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relacin entre ambas variables: mientras ms alto sea el alumno, mayor ser su peso.El coeficiente de correlacin lineal mide el grado de intensidad de esta posible relacin entre las variables. Este coeficiente se aplica cuando la relacin que puede existir entre las variables es lineal

No obstante, puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo de coeficiente ms apropiado.

Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es representar los pares de valores en un grfico y observar la forma que describen.

El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

Es decir:Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamao de la muestra.Denominador se calcula el producto de las varianzas de "x" y de "y", y a este producto se le calcula la raz cuadrada.Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1.Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a 1.Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de correlacin (parablica, exponencial, etc.)De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relacin de causa-efecto entre las dos variables, ya que este resultado podra haberse debido al puro azar.

Ejemplo: vamos a calcular el coeficiente de correlacin de la siguiente serie de datos de altura y peso de los alumnos de una clase:

AlumnoEstaturaPesoAlumnoEstaturaPesoAlumnoEstaturaPeso

Xyxyxy

Alumno 11,2532Alumno 111,2533Alumno 211,2533

Alumno 21,2833Alumno 121,2835Alumno 221,2834

Alumno 31,2734Alumno 131,2734Alumno 231,2734

Alumno 41,2130Alumno 141,2130Alumno 241,2131

Alumno 51,2232Alumno 151,2233Alumno 251,2232

Alumno 61,2935Alumno 161,2934Alumno 261,2934

Alumno 71,3034Alumno 171,3035Alumno 271,3034

Alumno 81,2432Alumno 181,2432Alumno 281,2431

Alumno 91,2732Alumno 191,2733Alumno 291,2735

Alumno 101,2935Alumno 201,2933Alumno 301,2934

Aplicamos la frmula:(1/30) * (0,826)

r =----------------------------------------------------------

(((1/30)*(0,02568)) * ((1/30)*(51,366)))^(1/2)

Luego,r =0,719

Por lo tanto, la correlacin existente entre estas dos variables es elevada (0,7) y de signo postivo.

7. REGRESIN LINEALRepresentamos en un grfico los pares de valores de una distribucin bidimensional: la variable "x" en el eje horizontal o eje de abscisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendencia lineal:

El coeficiente de correlacin lineal nos permite determinar si, efectivamente, existe relacin entre las dos variables. Una vez que se concluye que s existe relacin, la regresin nos permite definir la recta que mejor se ajusta a esta nube de puntos.

Una recta viene definida por la siguiente frmula:y = a + bx

Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parmetros "a" y "b":El parmetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.El parmetro "b" determina la pendiente de la recta, su grado de inclinacin.La regresin lineal nos permite calcular el valor de estos dos parmetros, definiendo la recta que mejor se ajusta a esta nube de puntos.El parmetro "b" viene determinado por la siguiente frmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x".

El parmetro "a" viene determinado por:a = ym - (b * xm)

Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parmetro "b" que hemos calculado.

Ejemplo: vamos a calcular la recta de regresin de la siguiente serie de datos de altura y peso de los alumnos de una clase. Vamos a considerar que la altura es la variable independiente "x" y que el peso es la variable dependiente "y" (podamos hacerlo tambin al contrario):

AlumnoEstaturaPesoAlumnoEstaturaPesoAlumnoEstaturaPeso

xYxyxy

Alumno 11,2532Alumno 111,2533Alumno 211,2533

Alumno 21,2833Alumno 121,2835Alumno 221,2834

Alumno 31,2734Alumno 131,2734Alumno 231,2734

Alumno 41,2130Alumno 141,2130Alumno 241,2131

Alumno 51,2232Alumno 151,2233Alumno 251,2232

Alumno 61,2935Alumno 161,2934Alumno 261,2934

Alumno 71,3034Alumno 171,3035Alumno 271,3034

Alumno 81,2432Alumno 181,2432Alumno 281,2431

Alumno 91,2732Alumno 191,2733Alumno 291,2735

Alumno 101,2935Alumno 201,2933Alumno 301,2934

El parmetro "b" viene determinado por:b =(1/30) * 1,034

-----------------------------------------= 40,265

(1/30) * 0,00856

Y el parmetro "a" por: a = 33,1 - (40,265 * 1,262) = -17,714

Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:y = -17,714 + (40,265 * x)

Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable independiente (estatura):EstaturaPeso

xx

1,2030,6

1,2131,0

1,2231,4

1,2331,8

1,2432,2

1,2532,6

1,2633,0

1,2733,4

1,2833,8

1,2934,2

1,3034,6

8. PROBABILIDADLa probabilidad mide la frecuencia con la que aparece un resultado determinado cuando se realiza un experimento.Ejemplo: tiramos un dado al aire y queremos saber cul es la probabilidad de que salga un 2, o que salga un nmero par, o que salga un nmero menor que 4.El experimento tiene que ser aleatorio, es decir, que pueden presentarse diversos resultados, dentro de un conjunto posible de soluciones, y esto aun realizando el experimento en las mismas condiciones. Por lo tanto, a priori no se conoce cul de los resultados se va a presentar:Ejemplos: lanzamos una moneda al aire: el resultado puede ser cara o cruz, pero no sabemos de antemano cul de ellos va a salir.En la Lotera de Navidad, el "Gordo" (en Espaa se llama "Gordo" al primer premio) puede ser cualquier nmero entre el 1 y el 100.000, pero no sabemos a priori cual va a ser (si lo supiramos no estaramos aqu escribiendo esta leccin).Hay experimentos que no son aleatorios y por lo tanto no se les puede aplicar las reglas de la probabilidad.Ejemplo: en lugar de tirar la moneda al aire, directamente seleccionamos la cara. Aqu no podemos hablar de probabilidades, sino que ha sido un resultado determinado por uno mismo. Antes de calcular las probabilidades de un experimento aleatorio hay que definir una serie de conceptos: Suceso elemental: hace referencia a cada una de las posibles soluciones que se pueden presentar.Ejemplo: al lanzar una moneda al aire, los sucesos elementales son la cara y la cruz. Al lanzar un dado, los sucesos elementales son el 1, el 2, .., hasta el 6.Suceso compuesto: es un subconjunto de sucesos elementales.Ejemplo: lanzamos un dado y queremos que salga un nmero par. El suceso "numero par" es un suceso compuesto, integrado por 3 sucesos elementales: el 2, el 4 y el 6O, por ejemplo, jugamos a la ruleta y queremos que salga "menor o igual que 18". Este es un suceso compuesto formado por 18 sucesos elementales (todos los nmeros que van del 1 al 18).Al conjunto de todos los posibles sucesos elementales lo denominamos espacio muestral. Cada experimento aleatorio tiene definido su espacio muestral (es decir, un conjunto con todas las soluciones posibles).Ejemplo: si tiramos una moneda al are una sola vez, el espacio muestral ser cara o cruz.Si el experimento consiste en lanzar una moneda al aire dos veces, entonces el espacio muestral estara formado por (cara-cara), (cara-cruz), (cruz-cara) y (cruz-cruz).

8.1 PROBABILIDAD: RELACIN ENTRE SUCESOS Entre los sucesos compuestos se pueden establecer distintas relaciones:a) Un suceso puede estar contenido en otro: las posibles soluciones del primer suceso tambin lo son del segundo, pero este segundo suceso tiene adems otras soluciones suyas propias.Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el nmero 6, y b) que salga un nmero par. Vemos que el suceso a) est contenido en el suceso b).Siempre que se da el suceso a) se da el suceso b), pero no al contrario. Por ejemplo, si el resultado fuera el 2, se cumplira el suceso b), pero no el el a).b) Dos sucesos pueden ser iguales: esto ocurre cuando siempre que se cumple uno de ellos se cumple obligatoriamente el otro y viceversa.Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga nmero par, y b) que salga mltiplo de 2. Vemos que las soluciones coinciden en ambos casos.c) Unin de dos o ms sucesos: la unin ser otro suceso formado por todos los elementos de los sucesos que se unen.Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga nmero par y b) que el resultado sea mayor que 3. El suceso unin estara formado por los siguientes resultados: el 2, el 4, el 5 y el 6d) Interseccin de sucesos: es aquel suceso compuesto por los elementos comunes de dos o ms sucesos que se intersectan.Ejemplo: lanzamos un dado al aire, y analizamos dos sucesos: a) que salga nmero par, y b) que sea mayor que 4. La interseccin de estos dos sucesos tiene un slo elemento, el nmero 6 (es el nico resultado comn a ambos sucesos: es mayor que 4 y es nmero par).e) Sucesos incompatibles: son aquellos que no se pueden dar al mismo tiempo ya que no tienen elementos comunes (su intereseccin es el conjunto vacio).Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un nmero menor que 3, y b) que salga el nmero 6. Es evidente que ambos no se pueden dar al mismo tiempo.f) Sucesos complementarios: son aquellos que si no se da uno, obligatoriamente se tiene que dar el otro.Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un nmero par, y b) que salga un nmero impar. Vemos que si no se da el primero se tiene que dar el segundo (y viceversa). 8.2 Clculo de probabilidadesComo hemos comentado anteriormente, la probabilidad mide la mayor o menor posibilidad de que se d un determinado resultado (suceso) cuando se realiza un experimento aleatorio.La probabilidad toma valores entre 0 y 1 (o expresados en tanto por ciento, entre 0% y 100%):El valor cero corresponde al suceso imposible: lanzamos un dado al aire y la probabilidad de que salga el nmero 7 es cero (al menos, si es un dado certificado por la OMD, "Organizacin Mundial de Dados").El valor uno corresponde al suceso seguro: lanzamos un dado al aire y la probabilidad de que salga cualquier nmero del 1 al 6 es igual a uno (100%).El resto de sucesos tendr probabilidades entre cero y uno: que ser tanto mayor cuanto ms probable sea que dicho suceso tenga lugar.Cmo se mide la probabilidad?Uno de los mtodos ms utilizados es aplicando la Regla de Laplace: define la probabilidad de un suceso como el cociente entre casos favorables y casos posibles.P(A) = Casos favorables / casos posiblesVeamos algunos ejemplos:a) Probabilidad de que al lanzar un dado salga el nmero 2: el caso favorable es tan slo uno (que salga el dos), mientras que los casos posibles son seis (puede salir cualquier nmero del uno al seis). Por lo tanto:P(A) = 1 / 6 = 0,166 (o lo que es lo mismo, 16,6%)b) Probabilidad de que al lanzar un dado salga un nmero par: en este caso los casos favorables son tres (que salga el dos, el cuatro o el seis), mientras que los casos posibles siguen siendo seis. Por lo tanto:P(A) = 3 / 6 = 0,50 (o lo que es lo mismo, 50%)c) Probabilidad de que al lanzar un dado salga un nmero menor que 5: en este caso tenemos cuatro casos favorables (que salga el uno, el dos, el tres o el cuatro), frente a los seis casos posibles. Por lo tanto:P(A) = 4 / 6 = 0,666 (o lo que es lo mismo, 66,6%)d) Probabilidad de que nos toque el "Gordo" de Navidad: tan slo un caso favorable, el nmero que jugamos (qu triste...), frente a 100.000 casos posibles. Por lo tanto:P(A) = 1 / 100.000 = 0,00001 (o lo que es lo mismo, 0,001%)Merece la pena... Por cierto, tiene la misma probabilidad el nmero 45.264, que el nmero 00001, pero cul de los dos compraras?Para poder aplicar la Regla de Laplace el experimento aleatorio tiene que cumplir dos requisitos: a) El nmero de resultados posibles (sucesos) tiene que ser finito. Si hubiera infinitos resultados, al aplicar la regla "casos favorables / casos posibles" el cociente siempre sera cero.b) Todos los sucesos tienen que tener la misma probabilidad. Si al lanzar un dado, algunas caras tuvieran mayor probabilidad de salir que otras, no podramos aplicar esta regla. A la regla de Laplace tambin se le denomina "probabilidad a priori", ya que para aplicarla hay que conocer antes de realizar el experimento cuales son los posibles resultados y saber que todos tienen las mismas probabilidades.Y si el experimento aleatorio no cumple los dos requisitos indicados, qu hacemos?, ponemos una denuncia?No, no va a ser necesario denunciar a nadie, ya que en este caso podemos acudir a otro modelo de clculo de probabilidades que se basa en la experiencia (modelo frecuentista):Cuando se realiza un experimento aleatorio un nmero muy elevado de veces, las probabilidades de los diversos posibles sucesos empiezan a converger hacia valores determinados, que son sus respectivas probabilidades.Ejemplo: si lanzo una vez una moneda al aire y sale "cara", quiere decir que el suceso "cara" ha aparecido el 100% de las veces y el suceso "cruz" el 0%.Si lanzo diez veces la moneda al aire, es posible que el suceso "cara" salga 7 veces y el suceso "cruz" las 3 restantes. En este caso, la probabilidad del suceso "cara" ya no sera del 100%, sino que se habra reducido al 70%.Si repito este experimento un nmero elevado de veces, lo normal es que las probabilidades de los sucesos "cara" y "cruz" se vayan aproximando al 50% cada una. En este modelo ya no ser necesario que el nmero de soluciones sea finito, ni que todos los sucesos tengan la misma probabilidad.Ejemplo: si la moneda que utilizamos en el ejemplo anterior fuera defectuosa (o estuviera trucada), es posible que al repetir dicho experimento un nmero elevado de veces, la "cara" saliera con una frecuencia, por ejemplo, del 65% y la "cruz" del 35%. Estos valores seran las probabilidades de estos dos sucesos segn el modelo frecuentista.A esta definicin de la probabilidad se le denomina probabilidad a posteriori, ya que tan slo repitiendo un experimento un nmero elevado de veces podremos saber cual es la probabilidad de cada suceso.

9 PROBABILIDAD DE SUCESOSAl definir los sucesos hablamos de las diferentes relaciones que pueden guardar dos sucesos entre s, as como de las posibles relaciones que se pueden establecer entre los mismos. Vamos a ver ahora cmo se refleja esto en el clculo de probabilidades.a) Un suceso puede estar contenido en otro: entonces, la probabilidad del primer suceso ser menor que la del suceso que lo contiene.Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el nmero 6, y b) que salga un nmero par. Dijimos que el suceso a) est contenido en el suceso b).P(A) = 1/6 = 0,166P(B) = 3 / 6 = 0,50Por lo tanto, podemos ver que la probabilidad del suceso contenido, suceso a), es menor que la probabilidad del suceso que lo contiene, suceso b).b) Dos sucesos pueden ser iguales: en este caso, las probabilidades de ambos sucesos son las mismas.Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga nmero par, y b) que salga mltiplo de 2. Las soluciones coinciden en ambos casos.P(A) = 3 / 6 = 0,50P(B) = 3 / 6 = 0,50c) Interseccin de sucesos: es aquel suceso compuesto por los elementos comunes de los dos o ms sucesos que se intersectan. La probabilidad ser igual a la probabilidad de los elemntos comunes.Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga nmero par, y b) que sea mayor que 3. La interseccin de estos dos sucesos tiene dos elementos: el 4 y el 6.Su probabilidad ser por tanto:P(A B) = 2 / 6 = 0,33d) Unin de dos o ms sucesos: la probabilidad de la unin de dos sucesos es igual a la suma de las probabilidades individuales de los dos sucesos que se unen, menos la probabilidad del suceso interseccinEjemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga nmero par, y b) que el resultado sea mayor que 3. El suceso unin estara formado por los siguientes resultados: el 2, el 4, el 5 y el 6.P(A) = 3 / 6 = 0,50P(B) = 3 / 6 = 0,50P (A B) = 2 / 6 = 0,33Por lo tanto,P (A u B) = (0,50 + 0,50) - 0,33 = 0,666e) Sucesos incompatibles: la probabilidad de la unin de dos sucesos incompatibles ser igual a la suma de las probabilidades de cada uno de los sucesos (ya que su interseccin es el conjunto vacio y por lo tanto no hay que restarle nada).Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un nmero menor que 3, y b) que salga el nmero 6.La probabilidad del suceso unin de estos dos sucesos ser igual a:P(A) = 2 / 6 = 0,333P(B) = 1 / 6 = 0,166Por lo tanto, P(A u B) = 0,33 + 0,166 = 0,50f) Sucesos complementarios: la probabilidad de un suceso complementario a un suceso (A) es igual a 1 - P(A)Ejemplo: lanzamos un dado al aire. el suceso (A) es que salga un nmero par, luego su complementario, suceso (B), es que salga un nmero impar. La probabilidad del suceso (A) es igual a :P(A) = 3 / 6 = 0,50Luego, la probabilidad del suceso (B) es igual a: P(B) = 1 - P(A) = 1 - 0,50 = 0,50 Se puede comprobar aplicando la regla de "casos favorables / casos posibles": P(B) = 3 / 6 = 0,50 g) Unin de sucesos complementarios: la probabilidad de la unin de dos sucesos complementarios es igual a 1.Ejemplo: seguimos con el ejemplo anterior: a) que salga un nmero par, y b) que salga un nmero impar. La probabilidad del suceso unin de estos dos sucesos ser igual a:P(A) = 3 / 6 = 0,50P(B) = 3 / 6 = 0,50Por lo tanto, P(A U B) = 0,50 + 0,50 = 1

10 PRUEBA DE HIPTESIS

Hiptesis: enunciado acerca de una poblacin elaborada con el propsito de ponerse a prueba.Ejemplos de hiptesis acerca de un parmetro de poblacin son:la media mensual de ingresos para analistas de sistemas es $3625,el 20% de los delincuentes juveniles son capturados y sentenciados a prisin.

PRUEBA DE HIPTESIS

Afirmacin acerca de los parmetros de la poblacin. Etapas Bsicas en Pruebas de Hiptesis.Al realizar pruebas de hiptesis, se parte de un valor supuesto (hipottico) en parmetro poblacional. Despus de recolectar una muestra aleatoria, se compara la estadstica muestral, as como la media (x), con el parmetro hipottico, se compara con una supuesta media poblacional (). Despus se acepta o se rechaza el valor hipottico, segn proceda. Se rechaza el valor hipottico slo si el resultado muestral resulta muy poco probable cuando la hiptesis es cierta.Etapa 1.- Planear la hiptesis nula y la hiptesis alternativa. La hiptesis nula (H0) es el valor hipottico del parmetro que se compra con el resultado muestral resulta muy poco probable cuando la hiptesis es cierta.Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del 5%, entonces se rechaza la hiptesis nula solamente si el resultado muestral es tan diferente del valor hipottico que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad de 1.05 o menos.Etapa 3.- Elegir la estadstica de prueba. La estadstica de prueba puede ser la estadstica muestral (el estimador no segado del parmetro que se prueba) o una versin transformada de esa estadstica muestral. Por ejemplo, para probar el valor hipottico de una media poblacional, se toma la media de una muestra aleatoria de esa distribucin normal, entonces es comn que se transforme la media en un valor z el cual, a su vez, sirve como estadstica de prueba.

DefinicionesHiptesis nula H0: afirmacin acerca del valor de un parmetro poblacional.Hiptesis alterna H1: afirmacin que se aceptar si los datos muestrales proporcionan evidencia de que la hiptesis nula es falsa.Nivel de significancia: probabilidad de rechazar la hiptesis nula cuando es verdadera.Error Tipo I: rechazar la hiptesis nula cuando en realidad es verdadera. Error Tipo II: aceptar la hiptesis nula cuando en realidad es falsa.Estadstico de prueba: valor obtenido a partir de la informacin muestral, se utiliza para determinar si se rechaza o no la hiptesis.Valor crtico: el punto que divide la regin de aceptacin y la regin de rechazo de la hiptesis nula.Valor p en la prueba de hiptesis Valor p: es la probabilidad de observar un valor muestral tan extremo o ms que el valor observado, dado que la hiptesis nula es verdadera.Si el valor p es menor que el nivel de significancia, H0 se rechaza.Si el valor p es mayor que el nivel de significancia, H0 no se rechaza

LA PRUEBA DE X 2 La prueba de X 2 se utiliza cuando se quieren analizar la correlacin entre dos variables cuyos valores son nominales y parte, de la comparacin de las frecuencias absolutas del cruce de los valores, con los valores de las frecuencias esperados de forma terica.En el siguiente ejemplo se tienen 212 estudiantes de las carreras de psicologa, ingeniera y arquitectura, se desea encontrar si existe correlacin entre la carrera estudiada y el gnero (masculino o femenino).TABLA 1GENEROCARRERAGENEROCARRERAGENEROCARRERAGENEROCARRERAGENEROCARRERA

MasculinoingenieraFemeninoPsicologafemeninoArquitecturaFemeninoingenierafemeninopsicologa

FemeninoarquitecturaMasculinoIngenieramasculinoingenieraFemeninopsicologamasculinoarquitectura

MasculinopsicologaMasculinoArquitecturafemeninoingenieraFemeninopsicologamasculinoingeniera

FemeninoingenieraMasculinoIngenierafemeninopsicologaFemeninoarquitecturamasculinopsicologa

FemeninoarquitecturaFemeninoIngenierafemeninopsicologaMasculinoingenierafemeninoingeniera

FemeninopsicologaMasculinoIngenierafemeninoarquitecturaFemeninopsicologafemeninoarquitectura

FemeninopsicologaFemeninoIngenieramasculinoarquitecturaFemeninoarquitecturafemeninopsicologa

FemeninoingenieraFemeninoIngenieramasculinopsicologaMasculinoarquitecturafemeninoarquitectura

MasculinoingenieraFemeninoArquitecturafemeninopsicologaFemeninopsicologafemeninopsicologa

FemeninopsicologaMasculinoIngenierafemeninoingenieraFemeninoingenierafemeninopsicologa

MasculinopsicologaFemeninoIngenierafemeninoingenieraFemeninoarquitecturamasculinoingeniera

MasculinoingenieraFemeninoIngenieramasculinoingenieraMasculinopsicologafemeninoarquitectura

MasculinopsicologaMasculinoPsicologafemeninoingenieraMasculinopsicologafemeninoingeniera

FemeninopsicologaFemeninoArquitecturafemeninopsicologaMasculinoarquitecturamasculinoarquitectura

MasculinoingenieraMasculinoPsicologafemeninoingenieraMasculinoingenieramasculinoarquitectura

MasculinoarquitecturaMasculinoIngenieramasculinoarquitecturaFemeninoarquitecturafemeninopsicologa

MasculinoarquitecturaFemeninoIngenierafemeninoarquitecturaFemeninoarquitecturafemeninoingeniera

MasculinoingenieraMasculinoArquitecturamasculinoingenieraFemeninopsicologamasculinoingeniera

FemeninoarquitecturaFemeninoPsicologamasculinopsicologaFemeninopsicologafemeninopsicologa

FemeninoarquitecturaMasculinoPsicologafemeninopsicologaFemeninopsicologafemeninopsicologa

FemeninopsicologaMasculinoArquitecturafemeninopsicologaMasculinoarquitecturamasculinoingeniera

FemeninopsicologaMasculinoArquitecturafemeninopsicologaFemeninopsicologamasculinoarquitectura

FemeninopsicologaFemeninoArquitecturafemeninopsicologaMasculinoingenieramasculinoarquitectura

FemeninoarquitecturaFemeninoArquitecturafemeninoarquitecturaMasculinoingenieramasculinoarquitectura

FemeninoingenieraFemeninoPsicologafemeninoingenieraMasculinoarquitecturafemeninopsicologa

MasculinoarquitecturaMasculinoIngenierafemeninoingenieraFemeninopsicologamasculinoingeniera

FemeninopsicologaFemeninoArquitecturafemeninoingenieraFemeninoingenieramasculinoingeniera

FemeninoarquitecturaMasculinoIngenierafemeninopsicologaFemeninoarquitecturamasculinopsicologa

MasculinopsicologaFemeninoArquitecturamasculinoarquitecturaMasculinoarquitecturamasculinoarquitectura

FemeninoingenieraMasculinoPsicologafemeninopsicologaMasculinoarquitecturafemeninoarquitectura

MasculinoingenieraMasculinoIngenierafemeninoarquitecturaMasculinopsicologafemeninopsicologa

MasculinoingenieraMasculinoPsicologafemeninoarquitecturaFemeninoarquitecturafemeninopsicologa

MasculinoarquitecturaFemeninoIngenieramasculinopsicologaFemeninoarquitecturafemeninoarquitectura

FemeninoingenieraFemeninoPsicologamasculinopsicologaMasculinopsicologamasculinopsicologa

MasculinoarquitecturaFemeninoIngenieramasculinoarquitecturaFemeninoingenieramasculinoingeniera

MasculinoingenieraMasculinoIngenieramasculinoingenieraFemeninoarquitecturafemeninopsicologa

FemeninoarquitecturaFemeninoIngenierafemeninoarquitecturaMasculinoingenierafemeninopsicologa

FemeninoarquitecturaMasculinoIngenierafemeninopsicologaMasculinoingenieramasculinoingeniera

MasculinopsicologaFemeninoIngenierafemeninopsicologaFemeninoarquitecturamasculinopsicologa

MasculinoarquitecturaMasculinoArquitecturamasculinoingenieraMasculinoingenieramasculinoingeniera

MasculinopsicologaFemeninoPsicologafemeninoarquitecturaMasculinopsicologa

FemeninopsicologaFemeninoPsicologafemeninopsicologaFemeninoarquitectura

FemeninoingenieraMasculinoArquitecturafemeninoingenieraMasculinoarquitectura

Lo primero que hacemos es un conteo de las variables cruzadas como se muestra en la siguiente tabla.TABLA 2Frecuencia observadaPsicologaIngenieraarquitectura

Masculino243930

Femenino493238

Despus se procede a contar los valores de cada variable sumando los renglones sumando las columnas, por ejemplo el total de:

masculino es 24 + 39 + 30 = 93femenino es 49 + 32 + 38 = 119psicologa es 24 + 49 = 73ingeniera es 39 + 32 = 71arquitectura es 30 + 38 = 68Y la suma total es 212TABLA 3psicologaIngenieraarquitectura

Masculino24393093

Femenino493238119

737168212

Se calcula la tabla de las frecuencias esperadas multiplicando de la TABLA 3 la suma del rengln por la suma de la columna dividida entre la suma total, colocando el resultado en la TABLA 4.As para:masculino - psicologa 73 x 93 / 212 = 32.0235849masculino ingeniera 71 x 93 / 212 =31.1462264masculino arquitectura 68 x 93 / 212 =29.8301887femenino - psicologa 73 x 119 / 212 = 40.9764151femenino ingeniera 71 x 119 / 212 =39.8537736femenino arquitectura 68 x 119 / 212 =38.1698113TABLA 4frecuencia esperadapsicologaIngenieraarquitectura

Masculino32.023584931.146226429.8301887

Femenino40.976415139.853773638.1698113

Si comparamos los valores de las frecuencias esperadas con la de las frecuencias observadas tenemos que la frecuencia observada en masculino psicologa = 24 es menor que su frecuencia esperada = 32.0235849 esto puede implicar un correlacin negativa, es decir el valor masculino de la variable gnero puede presentar valores inferiores a los esperados del valor psicologa de la variable carrera. Una forma ms simple de decirlo es que los estudiantes de genero masculino tienden a presentarse menos en la carrera de psicologa en menor grado que los de genero femenino, el que exista una correlacin negativa o positiva no implica trminos excluyentes o determinantes pues en este ejemplo aunque la correlacin parece ser negativa ( tal y como lo calcularemos mas adelante) ello no implica que estudiantes del genero masculino se excluyan de la carrera de psicologa, simplemente significa que los valores observados son menores a los que esperaramos estadsticamente si no hubiera correlacin.Para medir la correlacin procedemos a calcular el valor de la X 2.El valor de la X2 es igual a:

Esto es la suma de los cuadrados de la diferencia entre la frecuencia esperada menos la frecuencia observada entre la frecuencia esperada.Esto lo veremos con mayor claridad en la siguiente tabla

As para:(GENERO-CARRERA) (fe - fo) 2 / fe

masculino - psicologa ( 32.0235849 24 ) 2 / 32.0235849 = 2.01032817masculino ingeniera ( 31.1462264 39 ) 2 / 31.1462264 = 1.9803927masculino arquitectura ( 29.8301887 30 ) 2 / 29.8301887 = 0.0009666femenino - psicologa ( 40.9764151 49 ) 2 / 40.9764151 = 1.5710968femenino ingeniera ( 39.8537736 32 ) 2 / 39.8537736 = 1.54770186femenino arquitectura ( 38.1698113 38 ) 2 / 38.1698113 = 0.00075546TABLA 5X2 psicologaIngenieraarquitectura

Masculino2.010328171.98039270.00096667

Femenino1.57109681.547701860.00075546

X2 =7.11124166

El valor de la X2 es la suma de todos los trminos 2.01032817+ 1.9803927+ 0.00096667+ 1.5710968+ 1.54770186+ 0.00075546 7.11124166

As:X2 = 7.11124166

Ahora calculamos los grados de libertad (g.l.) mediante la siguiente frmula.

g.l. =(r 1)(c 1)

g.l. = grados de libertadr = nmero de renglonesc = nmero de columnas

Para el ejemplo que estamos manejando tenemos:r = 2 (Los renglones para los dos valores masculino y femenino)c = 3 (Las columnas para los tres valores de psicologa, ingeniera y arquitectura)

As:g.l. = (r 1)(c 1)g.l. = (2 1)(3 1)g.l. = (1)(2)g.l. = 2

Para el ejemplo tenemos que:X2 = 7.11124166 y g.l. = 2Teniendo el valor de la X2 y los grados de libertad procedemos a calcular (alfa)Siendo alfa:

Donde es la funcin GAMMALa funcin anterior no se puede integrar de manera explcita por lo que para resolverla es necesario usar mtodos numricos de integracin.

Mediante las hojas de clculo de Microsoft Excel es posible calcular el valor de escribiendo para este ejemplo:=DISTR.CHI(7.11124166, 2)Ya que: X2 = 7.11124166 y g.l. = 2Haciendo esto, obtenemos: = 0.0285636361919662

El significado de (alfa) y su interpretacinEl mtodo de anlisis de correlacin no paramtrica para tablas de contingencia de la X2 parte del supuesto inicial de que no existe correlacin entre las variables y que los resultados de la muestra son producto exclusivamente del azar.A este supuesto inicial se le conoce como la hiptesis nula y se le designa con H0.Dada esta suposicin el valor de es la probabilidad de que se obtenga una muestra como la que se obtuvo sin que exista una correlacin de las variables, si el valor de es muy pequeo, entonces tenemos dos opciones:1.-) Se obtuvo una muestra muy extraa y con escasas probabilidades de ocurrir.2.-)La hiptesis nula de que no existe correlacin entre las variables es falsa siendo que los valores observados ocurrieron no por azar sino porque estn correlacionadas, A esta opcin se le conoce como la hiptesis alternativa y se le denomina Ha.Si el valor de es muy pequeo, se opta por la segunda opcin pues es una explicacin mas plausible que las variables estn correlacionadas a que haya ocurrido un hecho rarsimo.Para nuestro ejemplo tenemos que: = 0.0285636361919662Esto significa que la probabilidad sera menor del 3 % para que ocurra una muestra como la que se obtuvo.Otra forma de percibir la probabilidad de alfa es obteniendo el reciproco de esto es:0.0285636361919662Significa que la probabilidad de ocurrencia es de uno en 34.Tambin tenemos lo que es el nivel de significancia o intervalo de confianza (I.C).I.C. = 1 - I.C. = 1 - 0.0285636361919662I.C. = 0.971436363808034I.C. = 97.144 %Tenemos entonces para nuestro ejemplo dos opciones.1.-) Los resultados de esta muestra son producto exclusivamente del azar y ocurri algo que ocurre una de cada 34 veces (hiptesis nula H0 ).2.-) No ha ocurrido un hecho extrao con pocas posibilidades de ocurrencia sino que ha ocurrido un hecho comn donde las variables se encuentran correlacionadas (hiptesis alternativa Ha ).Cul es la opcin que tomaramos para este caso?Existe un criterio que es enteramente convencional pues no existe ninguna razn matemtica para validarlo de que con valores de menores o iguales a 0.05, se opta por la hiptesis alternativa Ha, esto es las variables estn correlacionadas en tanto que para valores de mayores de 0.05 se opta por la hiptesis nula H0, esto es las variables no estn correlacionadas.Una = 0.05 implica un nivel de significancia de o intervalo de confianza (I.C.) de:I.C. = 1 - I.C. = 1 0.05I.C. = 0.95I.C. = 95 %A este criterio se le conoce como un nivel de significancia del 95 %

Si aplicamos este criterio a nuestro ejemplo, tenemos que: = 0.0285636361919662 0.0285636361919662 < 0.05

I.C. = 97.144 %97.144 % > 95 %Lo que implica la hiptesis alternativa Ha estos es que las variables GNERO Y CARRERA estn correlacionadas.Como podemos observar en la tabla de frecuencias esperadas ( TABLA 4 ), todas la frecuencias esperadas son mayores que 5, si el porcentaje de las frecuencias esperadas menores que 5 es mayor del 50 %, existe entonces una sobrestimacin de la prueba de X2, en la siguiente tabla nos muestra los resultados obtenidos para las variables del ejemplo siendo c < 5 el porcentaje de frecuencias esperadas menores que 5, si este porcentaje es mayor del 50 %, debajo de la celda est (estimacin) aparecer la palabra s.e. (sobrestimada).

TABLA 6varvarNombrenombreAlfaI.C.g.l.c < 5est

12GENEROCARRERA0.0285636360.97143636420.00%