Estadística aplicada con SPSS.Módulo IAutor: Mario Blacutt Mendoza
1
mailxmail - Cursos para compartir lo que sabes
Presentación del curso
Éste es el Primer Módulo de Estadística Aplicada de cuatro que conforman el
curso total. Está dirigido, principalmente, a los profesionales, estudiantes y hombres
de negocios que necesiten un instrumento valioso aplicable en todas las áreas del
conocimiento. En particular, a economistas, administradores de empresas,
psicólogos, sociólogos y, en general, a todas las personas que deseen contar con
una disciplina expresada en una versión ágil y oportuna para recopilar, organizar,
manipular e interpretar datos.
En los primeros capítulos de esta primera versión analizaremos algunos
conceptos fundamentales en la estructura de la disciplina estadística, para ir
consolidando el uso de los mismos a medida que ingresemos en etapas más
avanzadas. El método es muy sencillo: en cada capítulo se explicará, con los detalles
necesarios, el significado de los conceptos estadísticos correspondientes al capítulo
respectivo, su uso, su utilidad y su interpretación. Todo esto, claro está, con la
ayuda del programa estadístico SPSS, siglas en inglés de su nombre completo:
Scientific Program for Social Sciences, que es el más conocido y usado de todos los
paquetes estadísticos modernos. Así, haremos algo que generalmente requiere dos
cursos diferentes: aprenderemos Estadística Aplicada, aprendiendo el SPSS. No
habrá un solo paso que esté desconectado al aprendizaje y manipulación de sus
comandos.
Las principales empresas terciarizan los trabajos de investigación de datos;
para cumplir esa tarea, sólo necesitamos conocer la esencia de los conceptos
estadísticos, operar el SPSS e interpretar sus resultados. Las otras fases del Curso,
en sentido ascendente, son las siguientes: Estadística Intermedia, Estadística Media y
Estadística Avanzada , las cuales se irán concatenando entre sí, a medida que los
participantes lo requieran.
2
mailxmail - Cursos para compartir lo que sabes
1. Estadística Aplicada con SPSS. Metodología delcurso
La Metodología
La parte teórica del curso ofrecerá los conceptos principales y desplegará
algunos ejemplos muy sencillos para mostrar lo que hará la computadora por
nosotros. Esto es, cuando le pidamos resultados sobre el análisis de datos reales
con muestras grandes. En virtud de que se trata de un curso de Estadística Aplicada
orientado a resolver los problemas prácticos que se presentan todos los días, no
habrá demostraciones matemáticas. Los cálculos y toda la operatividad operacional
serán realizados por el SPSS.
Por lo general, el aprendizaje de la estadística en los cursos universitarios se
hace innecesariamente artificial y difícil, pues se asume que todos serán Estadísticos
Teóricos. Las demostraciones teóricas de las fórmulas ocupan la mayor parte de los
capítulos en los textos tradicionales y los participantes pierden el rumbo,
confundiendo el concepto cualitativo con la el proceso de la demostración.
Este curso, en sus cuatro versiones, está diseñado para brindar al participante
un instrumento ágil y operativo que le sirva para resolver problemas reales en su
respectivo entorno real.
De ahí el nombre: Estadística Aplicada (I) con el SPSS
Lo hace con la ayuda del SPSS, que, reitero, es el más conocido de todos los
paquetes estadísticos en la escala internacional.
Los pasajes sobre la historia de la Estadística y los personajes vienen del
estudio “Figures from the History of Probability and Statistics”, John Aldrich,
University of Southampton, Southampton, UK.
Por último, me gustaría referirme al modo expositivo que caracteriza el
desarrollo del curso; he tratado de que sea conciso y claro
Nada esté por demás ni por de menos.
3
mailxmail - Cursos para compartir lo que sabes
2. Historia de la Estadística
1 CONCEPTOS FUNDAMENTALES
Primer esbozo de la Historia de la Estadística
Los eruditos, esos señores que tienen la mitad del conocimiento en sus
bibliotecas y la otra mitad en sus cerebros, dicen que la Estadística surgió como un
instrumento de análisis en Egipto, por el celo de las autoridades en conocer la
población, la cantidad de tierra disponible, los repartos de esa tierra y la riqueza que
poseían; pero, sobre todo, para obtener la información necesaria al cálculo de los
impuestos.
Los chinos ya conocían sobre la técnica de levantar censos y los griegos no se
quedaban atrás. Los romanos asimilaron el conocimiento anterior al que le sumaron
sus propios descubrimientos en la tarea periódica de levantar censos, en los que se
incluía datos sobre las cabezas de ganado, los recursos naturales, como también,
los matrimonios, nacimientos y defunciones.
La Edad Media no trajo nada nuevo, pero el Renacimiento sí, fue una época en
la que se dio gran importancia a las técnicas de recopilar, ordenas e interpretar
datos, que es la médula de la Estadística. En la primera mitad del siglo XVI, los
alemanes hicieron una recopilación sobre los recursos naturales, la población. Por
aquellas épocas había una creencia muy difundida en sentido de que en los años
terminados en 7 el número de muertos era mucho mayor que en los demás.
Gaspar Neumann, un científico de gran voluntad y conocimiento se dio a la
tarea de revisar las partidas parroquiales para comparar el número de nacimientos y
defunciones de decenas de años. Su investigación le permitió negar la fatídica
sombra de los años terminados en 7. Como sucede con todo descubrimiento útil a
la ciencia, los métodos usados por Neumann se expandieron. Un astrónomo inglés
los leyó con gran atención, los interpretó debidamente, los enriqueció con sus
propias e ideas, que le permitió que el actual cometa Halley llevara su nombre.
Además, los métodos estadísticos le permitieron sentar las bases para la
estructuración de lo que ahora se denominan “Tablas de Mortalidad”, médula
espinal de las compañías de seguros.
En Grecia, la primera referencia con relación a la futura disciplina estadística
podría ser la que se incluye en el Libro II de Tucidides sobre la Guerra del
4
mailxmail - Cursos para compartir lo que sabes
podría ser la que se incluye en el Libro II de Tucidides sobre la Guerra del
Peloponeso entre espartanos y atenienses. En el texto se anota onceptos propios de
lo que ahora llamamos Muestreo. El problema, al parecer, fue el siguiente.
El ejército debe asaltar una muralla y los jefes militares han decidido que es
preciso contar con una torre móvil que permita a los soldados tomar la ciudadela,
minimizando el riesgo. La tarea exige conocer la altura de la muralla. En un
despliegue de observación científica, los sabios deciden estimar la altura de la
muralla para calcular la altura de la torre. Saben que la muralla está construida con
ladrillos de dimensiones iguales; por ello, solicitan que se envíe una pequeña partida
de soldados para recopilar datos aproximados sobre la altura del bastión, contando,
desde una prudente distancia, el número de ladrillos. Cumplida la misión, los
soldados regresan para informar sobre sus observaciones. Pero surge un
inconveniente: cada soldado da una cifra distinta del número de ladrillos que cree
haber contado y muy pocos de ellos coinciden entre sí. Para resolver el problema,
los sabios deciden tomar como indicador los datos que más se repiten en la visión
de los soldados; esto es, convienen en usar una medida de tendencia central, que
será analizada en esta obra, a la que se denomina la Moda (No; nada que ver con
Christian Dior) Cada capítulo vendrá pre precedido por el personaje principal del
tema.
5
mailxmail - Cursos para compartir lo que sabes
3. Concepto de variable en Estadística. Tipos devariables
Variable
Es una magnitud que varía pero que puede ser medida, manipulada o
controlada.
Pueden estar relacionadas con otras variables y cambiar en concordancia.
Desde esta óptica, las variables se clasifican en dependientes e
independientes.
Una variable será considerada dependiente, en el marco de un estudio
concreto, si su magnitud cambia debido a los cambios de otra u otras variables.
Por ejemplo, el consumo es una variable que está relacionada al ingreso; si el
ingreso aumenta, el consumo de un bien también aumentará. Aunque todavía no
podemos saber en cuánto; más adelante lo sabremos.
Establecer en cuánto se modificará una variable dependiente como efecto del
cambio de otra, es una de las más importantes fases de la Estadística. Es decir, su
capacidad de pronóstico.
En este caso, en la relación Ingreso-Consumo, el Ingreso sería la variable
independiente, pues cambia sin estar ligado al cambio de otra en el análisis
concreto.
Los modelos de simulación sirven para diseñar un experimento manipulando
las variables independientes para determinar la reacción de la variable dependiente.
Después de varios intentos, el diseñador lo aplicará a un estudio concreto de
la realidad, estudio que es monitoreado por los responsables.
Tipos de variables
Las variables se dividen en tres grandes grupos: Cuantitativas, Categóricas y
de Intervalo.
Variables cuantitativas: Las conocemos como variables numéricas; este tipo
de variables son las más comunes en los estudios estadísticos, pues varían en su
magnitud.
6
mailxmail - Cursos para compartir lo que sabes
Variables categóricas: Son las variables cualitativas y se dividen, a su vez, en
dos grandes ramas: las variables nominales y las variables ordinales.
Variables nominales: Son aquéllas que no pueden ser clasificadas ni en una
magnitud cuantitativa ni en una magnitud de jerarquía. Por ejemplo, las categorías
de género; varón, mujer, son variables de ese tipo.
Variables ordinales: Las que aceptan una jerarquización de importancia.
El ingreso familiar, por ejemplo, es una variable nominal, puesto que puede
ser calificado de acuerdo a un orden, v.g, descendente.
Variables de intervalo: Nos permiten expandir el radio de las variables
numéricas.
Ejm. el promedio del ingreso semanal de un grupo de estudiantes puede
encontrarse entre $30 y 3, intervalo que a veces es más útil que el dato único que
nos brinda la media.
Relación de las variables: Desde el punto de vista de la relación, hay tres
clases de variables.
Variables dependientes: Las que cambian, debido a que otra variable o
variables han cambiado, de acuerdo con un tipo de relación dada entre ambas.
Variables Independientes: Las que cambian sin depender del cambio de
otras o pueden ser manipuladas.
Una de las principales tareas del estadístico es determinar cuáles serán las
variables independientes y cuáles las dependientes en el análisis que debe realizar.
En otros capítulos veremos que una variable Y puede cambiar de magnitud si
la variable X, cambia y, al mismo tiempo, ésta puede cambiar cuando cambia la
primera
Variables neutras: Son las que no están relacionadas con ninguna otra.
Variables Discretas: Las que entre dos valores aproximados entre sí, toman,
a su vez, un número finito de valores; ejemplos: 4 personas, 5 asientos
Variables Continuas: Son las que en un intervalo dado pueden tomar un
número de valores muy grande Ejemplo, la hora, la temperatura, la distancia, la
velocidad….
7
mailxmail - Cursos para compartir lo que sabes
velocidad….
Hay dos requerimientos que la Estadística exige sobre la relación entre
variables.
Primero, que obedezcan a una teoría pre establecida o a una hipótesis
racional, lógica y que el grado de relación entre ellas sea suficientemente sólido.
Por ejemplo, puede suceder que los precios en España cambien en relación
directa con los nacimientos de niñas en Corea; esta aparente relación no es
aceptable.
No lo es, puesto que no hay ninguna teoría científica que la aval, en cambio la
relación entre el consumo y el ingreso es una relación que proviene de alguna teoría.
Una vez que aceptamos teóricamente la relación entre dos variables, nos toca
establecer el grado en que ambas están relacionadas entre sí.
El valor “p”
Estima el grado en que la relación entre dos fenómenos es real y no se debe
al azar
Cuantifica la probabilidad del error que cometemos al interpretar una relación.
La cuantificación de la probabilidad del error está directamente relacionada
con el grado de confianza que deseamos asegurar en cada caso.
Por lo general aceptamos un error del 5% en el grado de relación de las
variables
El valor p será el que determine si los resultados están o no dentro de ese
margen.
El 5%, que escribimos como 0.05, nos hace saber que de 100 casos
observados, corremos el riesgo de que tomemos por ciertos 5 casos que son
errados.
El concepto del valor p se asentará a medida que lo vayamos usando.
Todos estos datos son computados por el SPSS.
Pero podemos adelantar que mientras más numerosa es la muestra en la que
trabajemos, más explícita se hará la relación o neutralidad de las variables.
8
mailxmail - Cursos para compartir lo que sabes
Adelantamos algo que luego será analizado en detalle: los estudios
estadísticos se basan en muestras, las que son tomadas de alguna población.
Veremos que los elementos de una población, de la que tomamos la muestra,
están distribuidos de diferentes maneras, pero que habrá una que nos interesará.
Ese tipo de distribución se llama Distribución Normal, y es la que se apega
más a la forma en que los sucesos, procesos y fenómenos se distribuyen en la
realidad.
Por otra parte, la Estadística se divide en dos grandes dimensiones, una como
continuación de la otra: Estadística Descriptiva e Inferencia Estadística.
9
mailxmail - Cursos para compartir lo que sabes
4. Estadística descriptiva. Recolección de datos
La Estadística Descriptiva
Usa gráficas, tablas y diagramas para conocer las características más
importantes de los datos que nos interesan; es con el estudio de esta dimensión que
empezamos el curso.
Esta rama de la Estadística nos ilustra sobre las medidas denominadas de
tendencia central, tales como: la media aritmética, la mediana, la moda.
También se ocupa de mostrar las medidas de dispersión: la varianza, la
desviación típica, las diferentes distribuciones de cada conjunto de datos… y otros
parecidos.
Muy pronto, cuando hayamos logrado consolidar los conceptos
fundamentales de cada uno y el manipuleo del SPSS, nos haremos expertos en estos
y otros temas
Finalmente, terminaremos este primer curso con el tema de “test de
hipótesis” material para el que se reserva la Inferencia Estadística.
La Hipótesis
Toda tarea estadística empieza con el lanzamiento de alguna hipótesis sobre
algún aspecto de la realidad; la hipótesis debe ser verificada.
La Estadística es la que hace de verificadora; los resultados que obtengamos
de los datos decidirán si la hipótesis es aceptable.
Ahora bien la primera actividad operativa es la recolección de datos.
La Recolección de datos
Si no hubiera una base de datos disponible, se diseñará una encuesta
orientada a lograrlos, la primera lección en el SPSS se refiere a cómo codificar una
encuesta.
Datos
Constituyen la materia prima de las tareas referidas a la Estadística.
Información
1 0
mailxmail - Cursos para compartir lo que sabes
Los datos por sí solos nada nos dicen
Para que sean útiles es preciso que los agrupemos y sistematicemos de la
manera adecuada; es decir, que los convirtamos en información.
Las fuentes de datos pueden provenir de registros que tienen otras
instituciones o de la recopilación directa que realizamos; en este caso, usamos la
encuesta.
La información así obtenida nos permitirá deducir aspectos relativos sobre las
causas y los efectos de los fenómenos que deseamos analizar.
También nos sirve para establecer tendencias sobre los comportamientos de
las personas y de los procesos, pues nos orientan para obrar adecuadamente.
Por ejemplo, supongamos que deseamos realizar un estudio sobre las
preferencias del consumidor por nuestros productos y el comportamiento de la
competencia.
Para averiguar lo que sucede, debemos acudir a las técnicas estadísticas y
deducir de los resultados las medidas que consideremos necesarias.
El concepto de Población
La Población es el total de los elementos potencialmente observables; v.g. el
número de familias que existe en una ciudad determinada.
El levantamiento de estos datos, los que cubren a todas las familias que viven
en una ciudad, se realiza por medio del diseño y la ejecución de un censo.
En la disciplina estadística muy raras veces se usa la Población, pues es muy
difícil llegar a ella; además, es cara; más bien, se usa lo que se llama la Muestra.
La Muestra
Es una parte de la Población, la que, utilizando las técnicas que aprenderemos
en este curso, representa todas las características que tiene la Población.
El Tamaño Muestral
Es el número de elementos que conforman una muestra.
Los datos ordenados pueden ser representados gráficamente por barras,
tortas o varias otras formas visuales que facilitan la percepción primera del análisis.
1 1
mailxmail - Cursos para compartir lo que sabes
tortas o varias otras formas visuales que facilitan la percepción primera del análisis.
Cuando ingresemos al tema de la distribución de frecuencias aprenderemos a
elaborarlos, identificarlos, distinguirlos de los demás e interpretarlos.
Hay varias maneras de lograr los datos que necesitamos en una muestra.
Para nuestros fines usaremos la encuesta.
La Encuesta
Es la recopilación sistematizada de datos que logramos de una población
determinada y que luego transformaremos en información útil.
En vez de enseñar primero el manejo del SPSS y luego empezar con los temas
del curso, más bien iremos aprendiendo ambos sobre la marcha
Esto es, Aprenderemos haciendo.
Prueba “a la vista”
El gerente de la empresa quiere probar “a la vista” nuestros conocimientos
sobre la elaboración de hojas de encuesta por métodos computarizados.
Desconfiados como son los gerentes, el de nuestra empresa quiere estar
seguro de que vamos a incluir diferentes clases de variables y sus significados.
Aquí empezamos a explayarnos sobre la materia.
Acudimos a nuestro irremplazable amigo, el SPSS, el que nos acompañará a lo
largo de éste y los otros cursos y, claro, de otras pruebas “a la vista”.
El gerente, al pedirnos que realicemos una tarea como ésa, nos da una gran
oportunidad para explicarle, paso a paso, lo que estaremos haciendo para cumplirla.
1 2
mailxmail - Cursos para compartir lo que sabes
5. Estadística descriptiva. Diseño del Formulario deEncuesta (1/2)
Diseño del Formulario de Encuesta
Hacemos click en el nombre del programa, el que debe estar en la sección
“archivos” con el nombre de IBM SPSS Statistics, versión 19.
Al hacer el click, aparecerán dos archivos.
Escogeremos el segundo de ellos: IBM SPSS Statistics 19.
Luego de la espera, cuya duración dependerá de la potencia del equipo que se
tiene, aparecerá una hoja de diálogo conformada por filas y columnas.
En esa hoja habrá una pregunta en el lado izquierdo: ¿Qué desea hacer?
En el lado derecho aparecerán cuatro opciones.
En esta oportunidad, haremos click en la segunda opción: introducir los datos.
Una vez escogida la opción, pulsamos Aceptar.
De inmediato se muestra ante nosotros una hoja con celdas constituidas por
columnas y filas; esa hoja se llama el Editor de Pantalla o Pantalla de Datos.
En ella veremos que hay columnas y filas; en la parte superior de cada una de
las columnas se lee la misma palabra: var, que es la abreviación de variable.
Es una invitación para que pongamos los nombres de las variables deseadas;
bajamos la vista y vemos que en la parte inferior izquierda de la hoja hay dos casillas
Una, con la leyenda Vista de datos y la otra: Vista de Variables
Nuestra primera tarea será poner nombres a las columnas.
Cada columna representa alguna característica de la variable que deseamos
analizar.
Pulsemos Vista de Variables; el SPSS nos trasladará a una nueva pantalla.
Esta nueva hoja sí tiene nombres en las columnas, las que usaremos de
inmediato Nuestra primera variable se llamará sexo para definir el género de las
personas.
1 3
mailxmail - Cursos para compartir lo que sabes
En la primera casilla de la izquierda de Vista de Variables, anotamos la
palabra sexo; las demás casillas horizontales de la misma fila se llenan por defecto.
Recordemos que la variable sexo no es una variable cuantitativa, sino,
cualitativa, El SPSS la va a codificar, asignando un número a cada uno de los dos
sexos.
Antes, vamos a darle al SPSS las características de la primera variables;
llevamos el mouse a la primera, Numérico que está debajo de la segunda columna,
Tipo.
Al pulsar Numérico, aparece una pequeña fila de 3 puntos suspensivos.
Pulsamos esa pequeña fila y se nos presente un cuadro de diálogo.
Allí hay opciones para los tipos de variables que vamos a necesitar.
En este caso, deseamos que la variable sexo.
La variable sexo es cualitativa, pero se codifica por medio de un número, por
lo tanto pulsamos el botón Numérico y aceptamos.
La tercera columna de la pantalla dice Anchura.
El rótulo nos indica cuán ancho ha de ser el espacio que ocupará el nombre
de la variable sexo; por defecto aparece 8 , pero nosotros queremos cambiar a 6.
Pulsamos en 8 y se nos aparecen dos flechas.
La de arriba para aumentar el ancho y la de abajo, para reducirlo.
Como la palabra sexo es más corta, pulsamos la inferior, hasta que aparezca
6.
Hacemos exactamente lo mismo para los decimales, con la diferencia de que
no los necesitamos, presionamos hasta 0.
Seguimos en la fila y llegamos a la casilla Etiqueta, la que debe ser explicada
La palabra sexo, que ya consta en la primera casilla es una variable de
trabajo, en cambio, el mismo nombre en la casilla bajo el rótulo Etiqueta es forma.
Será el nombre que aparecerá cuando demos nuestro informe sobre los
resultados de la encuesta; por eso tendrá que ser formal.
1 4
mailxmail - Cursos para compartir lo que sabes
En la casilla debajo de Etiqueta escribimos Sexo (la primera con mayúscula)
Una vez realizada estas operaciones nos encontramos con la casilla Valores,
que es en la que convertiremos la variable sexo, que es cualitativa, en una
cuantitativa
Antes, debemos decidir qué número vamos a asignar a cada sexo.
Identificaremos al sexo femenino con el número 1 y al masculino, con el
número 2.
Para convertir la variable cualitativa sexo en una variable cuantitativa,
pulsamos el click en la casilla ninguna, que se encuentra debajo de la columna Valores.
Valores.
Aparecerán tres puntos suspensivos en fila.
Hacemos click en ello; al hacerlo, veremos un cuadro de diálogo.
En la casilla donde dice Valor inscribimos 1; en la casilla donde dice Etiqueta,
registramos la palabra mujer; y pulsamos Añadir.
En el cuadro inferior aparece “1 = mujer”; aceptamos.
La casilla Valor aparece otra vez vacía.
Inscribimos en ella el número 3, y en la casilla Etiqueta registramos la palabra
hombre.
Pulsamos Añadir y en el cuadro aparecerá “3 = Hombre”. Aceptamos.
(Este aparente error tiene un fin, como veremos)
Continuamos en el siguiente capítulo…
1 5
mailxmail - Cursos para compartir lo que sabes
6. Estadística descriptiva. Diseño del Formulario deEncuesta (2/2)
El SPSS identificará con esos números el sexo de las personas encuestadas
Vamos a la pantalla Vista de datos, pulsando la casilla, al pie de la hoja.
La primera columna ya tiene un nombre: sexo; si queremos constatar el
nombre que irá en el Informe Final, la apuntamos con el cursor por unos segundos.
Aparecerá la palaba Sexo, con mayúscula, que es el nombre formal de la
casilla.
El gerente general quiere constatar las características de esa variable.
Vamos a Vista de variables, que está al final de la hoja y le mostramos lo que
nos pide; el nombre de la variable es sexo; el tipo es numérico
La anchura es de 6 espacios y tiene 0 decimales
Hacemos click en la siguiente casilla, lo que nos lleva al cuadro de diálogo
que ya conocemos: el número 0 identifica a mujer y el 3 (¡!) se reserva para hombre.
Pero nosotros habíamos decidido que el número codificado para hombre sería
1.
Habrá necesidad de modificar el registro.
Hacemos click en el dato “3 = hombre” en el cuadro inferior
Se activará la casilla Eliminar; hacemos clic en ella, el dato equivocado se
elimina y lo cambiamos por 1 siguiendo el mismo procedimiento usado para mujer.
El gerente se percata de que sabemos identificar un error y rectificarlo.
Ahora nos toca registrar las particularidades de la variable Edad.
Este procedimiento es mucho más fácil, porque la Edad es una variable
cuantitativa y discreta, no hay necesidad de hacer ninguna modificación.
Vamos a la hoja Vista de variables; hacemos click en la casilla vacía debajo de
sexo
Allí anotamos: edad; horizontalmente dejamos la palabra que ya está allí
1 6
mailxmail - Cursos para compartir lo que sabes
Numérico.
Escogemos 4 y en la siguiente casilla anotamos 0 para el número de decimales
En Etiqueta anotamos Edad en años cumplidos y dejamos Ninguna en la
casilla de Valores puesto que la variable es cuantitativa y no necesita ser codificada.
Ya tenemos registrada la segunda variable.
Vamos a Vista de datos; pulsamos unos segundos con el cursor en la casilla edad
edad y aparece el nombre formal, Edad en años cumplidos que irá en el informe
final.
La tercera variable de la encuesta virtual que estamos haciendo, será Estado
Civil.
Consideramos que hay 5 categorías:
Soltero, Casado, Divorciado, Viudo, Conviviente.
Cada una de estas variables, al igual que sexo, es cualitativa, por lo que
realizamos las mismas operaciones que hicimos para sexo.
Vamos a Vista de variables, pulsamos en la casilla que está debajo de edad;
allí anotamos la siguiente palabra: estci, que es una abreviación de Estado Civil
La razón por la que recurrimos a la abreviación se debe a que para ciertas
operaciones, las variables de trabajo son modificadas por medio del aumento de
letras.
Vamos a suponer los cinco estados civiles siguientes, en ese orden:
Soltero, casado, divorciado, viudo y conviviente
La variable estci será numérica con 6 espacios, 2 decimales
La Etiqueta: Estado Civil.
Llegamos a Valores; pulsamos la casilla correspondiente donde dice Ninguna.
Aparecen los tres puntos, hacemos clic y tenemos acceso al cuadro de diálogo.
Tal como hicimos antes, en la casilla Valor escribimos 1 y en la casilla
Etiqueta, registramos soltero, para luego pulsar Añadir y aceptar.
Procedemos a llenar la casilla Valor con el número 2 y la casilla Etiqueta con la
1 7
mailxmail - Cursos para compartir lo que sabes
Procedemos a llenar la casilla Valor con el número 2 y la casilla Etiqueta con la
palabra casado; pulsamos Añadir y aceptamos.
Seguimos con el mismo procedimiento, hasta que tengamos los 5 estados
civiles debidamente registrados.
Ahora nos toca estructurar la variable idiomas.
Observemos que la variable sexo nos permite una sola opción: mujer u
hombre.
La de estado civil también nos permite una sola opción de cinco posibles.
En cambio, la variable idiomas nos brinda más de una opción, pues alguien
puede hablar dos o hasta tres idiomas.
En razón de que tenemos más de una opción, cada idioma tendrá su columna
por separado; es decir, ahora se trata realmente de cinco variables, no de una.
Establezcamos los siguientes idiomas: Español, Inglés, Alemán y Francés.
Empezamos con Español; esp, numérico, 8, 0, espanol (sin la ñ)
Lo mismo para todos los demás idiomas.
Ahora vamos a realizar una pequeña prueba para ver si el diseño de la hoja de
encuesta que hemos estructurado es correcto;
Vamos a la hoja de Vista de datos y llenamos cinco filas con datos supuestos;
recordemos que cada fila es una hoja de encuesta con todos los datos solicitados.
Así, llenamos la primera fila con los datos inventados, en el caso de las
variables, como Idiomas, si alguien habla español se anota simplemente 1.
Lo mismo para los demás, el hecho de que hable un idioma se registra con 1
Este “1” no significa que el idioma está codificado, más bien muestra que se
lo habla.
Registrados los datos supuestos, archivamos el ejercicio en el archivo que
hemos abierto; en este caso el nombre del archivo que hemos habilitado es:
Estadística aplicada I ejercicio 1.sav
Ahora bien, una vez que el gerente ha visto que podemos usar el SPSS, nos
1 8
mailxmail - Cursos para compartir lo que sabes
confía la tarea de analizar las características principales del personal de la empresa.
Esas características incluyen estimar el sexo, la edad la experiencia y las
medidas
De tendencia central: media aritmética de los sueldos, la mediana, la
varianza…
Añadimos la debida probabilidad de error; para hacer ese ejercicio
acudiremos a un archivo de datos que viene adjunto con el paquete del SPSS.
Todo eso lo hará la computadora.
Pero nosotros tenemos que conocer los conceptos de lo que se nos pide y,
claro, manipular los comandos e interpretar los resultados que el SPSS nos brinde.
1 9
mailxmail - Cursos para compartir lo que sabes
7. Famosos en la evolución de la Estadística. BlaisePascal y Christiaan Huygens
Blaise Pascal (1623-1662)
Fue un gran matemático como también afamado filósofo, educado por su
padre el que, a su vez, también fue un notable matemático. La correspondencia
espistolar con otro matemático de gran calibre, Fermat, dio lugar al tratamiento
matemático las investigaciones sobre los índices de mortalidad, muy útiles a las
compañías de seguro de nuestra época.
También dieron origen a los primeros análisis sobre las probabilidades
aplicadas a los juegos de azar, algunos de cuyos resultados fueron dados a conocer
en la obra póstuma de Pascal Tratado del triángulo aritmético que tiene aplicaciones
de la teoría de las probabilidades, con las que argumentó el problema “la ruina del
jugador”, obra que es considerada como pionera del análisis moderno sobre el
proceso de tomar decisiones, aunque los aportes no están en sus trabajos
matemáticos sino en su obra Pensamientos, que son reflexiones sobre la religión.
Christiaan Huygens (1629-1694)
2 0
mailxmail - Cursos para compartir lo que sabes
Fue otro gran matemático y, además, físico. Sus padres querían que fuera
diplomático, pero él eligió la ciencia en la que tuvo la oportunidad de hacer
significativos aportes en las áreas de la matemática, de la física y de la astronomía.
Estuvo 14 años en la Academia de Ciencias de París. Escribió una obra titulada El
Valor del azar en los juegos de fortuna. Gran parte de su obra está orientada a
calcular el valor de las expectativas en un juego de azar. Este libro fue muy
conocido en su época y estructuró la primera parte de la obra de otro gran
matemático en la historia de la Estadística: Jakob Bernoulli. También conoció a
Pascal y a Fermat.
2 1
mailxmail - Cursos para compartir lo que sabes
8. Medidas de Tendencia Central. Medida Aritmética
2 MEDIDAS DE TENDENCIA CENTRAL
La Estadística, como disciplina formal tiene sus bases entre los años 1650 y
1700, era de la Revolución Científica, con nombres ilustres como los que vemos en
los retratos.
Una Medida de Tendencia Central es el punto medio de una distribución de
frecuencias.
Ahora estudiaremos las características de las más importantes medidas con
breves ejemplos manuales, haciendo uso del SPSS.
La Media Aritmética
La conocemos como el promedio de una serie de datos.
Supongamos que deseamos saber el promedio de la edad de 6 personas que
están en un consultorio médico, haciendo un tratamiento especial.
Para sacar ese promedio, sumamos las edades de todos y cada uno; luego
dividimos el resultado entre 6, que es el número de personas que nos interesa.
Media aritmética = (40 + 34 +28 + 10 + 23 + 50)/6 = 30.83
La media aritmética o promedio de las edades de las seis personas es 30.83
años.
Si queremos saber el ingreso promedio de 5 amigos que desean ir a tomar un
café, preguntamos a cada uno cuanto tiene y luego hacemos lo mismo que en el
caso anterior.
Los datos que obtenemos de los cinco son los siguientes:
El primer amigo tiene $4
El segundo, $20
El tercero, $12
El cuarto, $9
El quinto, $13
2 2
mailxmail - Cursos para compartir lo que sabes
Media aritmética = (4 + 20 + 12 + 9 + 13)/5 = 11,60
El resultado dirá que, en promedio, cada uno tiene 11 dólares con 60
centavos, idependientemente de la suma que cada uno tenga en la realidad.
Ese es el concepto fundamental de la media aritmética; luego veremos porqué
es tan útil.
No importa cuán pequeña o grande pueda ser el conjunto de datos que se
nos presente, la media aritmética siempre tendrá la misma definición:
Será la suma de todos los valores, dividida entre el número de casos.
Usando símbolos, tendremos: X* = Xi/n
X* es la media aritmética de la muestra que hemos tomado; Xi, representa a
cada uno de los valores que serán sumados; n es el número de observaciones.
La misteriosa indica que todos los valores Xi deben ser sumados.
Tomemos otro ejemplo cualquiera
X* = (9 +7 + 7 + 6+ 4+ 4 + 2)/7 = 5.6
En este conjunto hay dos valores repetidos (el 7) pero eso no importa, el SPSS
lo toma en cuenta como cualquiera de los demás valores.
En los libros de Estadística se pone ejemplos sobre las formas de estimar la
media aritmética cuando los datos están ordenados o están desordenados.
Esto no tiene importancia para el SPSS; después, cuando ya sepamos
desenvolvernos mejor, aprenderemos a usar los rangos.
Ventajas y desventajas de la media aritmética
Ventajas, un solo número representa a un conjunto de datos, concepto con el
cual todos estamos familiarizados.
Nos permite realizar comparaciones entre varios conjuntos de datos; por otra
parte, cada conjunto de datos tiene una sola media.
Desventajas; puede haber valores extremos que no son representativos del
conjunto de los datos que estamos tomando en cuenta.
Para probarlo, tomemos la media aritmética de los siguientes datos, los que
2 3
mailxmail - Cursos para compartir lo que sabes
Para probarlo, tomemos la media aritmética de los siguientes datos, los que
representan los ingresos mensuales de 7 personas que trabajan en una empresa.
2400, 3200, 2580, 3260, 2500, 2840, 19000
La media aritmética sería:
X* = (2400 + 3200 + 2580 + 3260 + 2500 + 2840 + 19000)/7 = 5111
Pero nos damos cuenta de que la media está muy sesgada por el ingreso de
19000
Hagamos la prueba, eliminemos el valor extremo de 19000, que es el sueldo
del gerente general: 2400, 3200, 2580, 3260, 2500, 2840)/6 = 2796.67
Éste es un valor más representativo de los ingresos mensuales que perciben
los empleados; en este caso, será más útil calcular la media anulando el valor
extremo.
2 4
mailxmail - Cursos para compartir lo que sabes
9. Medidas de Tendencia Central. Medida AritméticaPonderada
La Media Aritmética Ponderada
El siguiente ejemplo es del libro “Estadística para Administradores” Levin y
Rubin
El costo por producto incluye diferentes grados de calificación de la mano de
obra; si utilizamos la media aritmética simple, tendríamos que el salario promedio
sería:
X* = (5 + 7 + 9)/3 = $7
Este sería el costo en una jornada normal de 8 horas de trabajo
Tabla 2.1
Tipos de trabajo y salarios
Tipo de trabajo Salario por hora Sillas Mesas
No calificado
Semicalificado
Calificado
5
7
9
1
2
5
4
3
3
En la tabla 2.1 vemos que la producción de sillas toma 1 hora de trabajo no
calificado; 2 horas de trabajo semicalificado y 5 horas de trabajo calificado
Si estimamos el promedio salarial de $7 por hora sin ponderarlos, tendríamos:
El costo de producir sillas: 7(1 + 2 + 5) = $56
El costo de producir mesas: 7(4 + 3 + 3) = $70
Estos resultados no serían reales, puesto que el número de hs. de cada
categoría de trabajo varía en la producción de cada item, y con ello, en el costo
respectivo
El costo promedio correcto de la producción de sillas resulta de la
ponderación de del tipo de trabajo, pues cada uno tiene un salario diferente.
La producción de sillas utiliza una combinación de los tres tipos de trabajo.
2 5
mailxmail - Cursos para compartir lo que sabes
Una hora de trabajo no calificado, cuyo salario es de $5 por hora; dos horas
de trabajo semicalificado y el salario de $7por hora;
5 horas de trabajo calificado, y un salario de 9 por hora; ahora sí, estimamos
el costo correcto de sillas y mesas; es decir, el costo ponderado.
El costo correcto de las sillas: (5 x 1) + (7 x 2) + (9 x 5) = $64
El costo correcto de las mesas: (5 x 4) + (7 x 3) + (9 x 3) = $68
A continuación calcularemos el costo promedio por hora para la producción
de las sillas y, aparte, para la producción de las mesas
La fabricación de sillas tomó un total de 8 horas de trabajo (1+2+5)
El costo promedio de las horas de trabajo usado en las sillas será 64/8 = 8
En el ejemplo de las mesas, como se invirtieron 10 horas de trabajo en su
producción, el promedio salarial será: 68/10 = $6.8 por hora de trabajo.
La distinción entre los conceptos de promedio simple y promedio ponderado
es muy importante y requiere diferentes modos de estimarlos; el SPSS lo hace sin
dificultad.
2 6
mailxmail - Cursos para compartir lo que sabes
10. Medidas de Tendencia Central. MedidaGeométrica y Medidas de Dispersión
La Media Geométrica
Se usa, principalmente, para estimar los promedios de cantidades que
cambian con el tiempo; tomemos el ejemplo de una cuenta de ahorro que paga
intereses.
Si dejamos el dinero depositado por algunos años, sin retirarlo, a una tasa de
interés anual determinada, el depósito inicial se irá acumulando año tras año.
El interés se irá sumando al capital cada año; cada nuevo monto sumará los
intereses y así sucesivamente.
Ejemplo: Interés compuesto
Supongamos que al comienzo del año depositamos $ 1000 en una caja de
ahorros que nos ofrece un interés anual de 10%.
La condición es que el depósito continúe por 4 años seguidos sin hacer
retiros.
Deseamos saber la cantidad que recibiremos al final del cuarto año.
Al final del primer año tendremos 1100; los 1000 originales más el 10%, que
es $100; los 100 dólares de interés ganados en el primer año, se suman a los 1000
originales.
Para el siguiente periodo nuestro depósito original se habrá convertido en
$1100.
Al final del segundo año, tendremos una ganancia del 10% de $1100, ya no
de 1000.
Nuestra cuenta acumulada a fines del segundo año será 1100 x 0.10 = 110,
los que sumados a los 1100 que ya teníamos, nos dará un total de 1210 y así
sucesivamente
La fórmula concreta para estimar las tasas de interés compuesto en este caso
particular, viene estructurada de la siguiente manera
2 7
mailxmail - Cursos para compartir lo que sabes
Depósito original = 1000
Tasa de interés anual = 10%
Número de años que dura el depósito sin retirar fondos = 4
Total del dinero que tendremos al final de cuarto año: 1000 (1+0,10)4 =
1000(1.1)4
Total = 1000(1,4641) = 1464.10
Los 1000 dólares originalmente depositados se han convertido en 1464.10.
Lo dijimos: no habrá demostraciones teóricas, se trata de Estadística Aplicada.
Este tipo de problemas se vuelven muy complicados cuando las cantidades y
el número de años es mucho mayor, algo que no es ningún problema para el SPSS.
Pero quedan todavía otros estadísticos de tendencia central, cuyos conceptos
debemos conocer, distinguir e interpretar, antes de recurrir al SPSS.
La Mediana
Valor que está más al centro de un conjunto de datos ordenados de menor a
mayor
Conjunto de observaciones impar
Registramos los siguientes datos que representan los ingresos semanales de
11 personas tomadas al azar como una muestra y los ordenemos de menor a mayor:
120, 140, 200, 240, 260, 380,450, 500, 630, 700, 750
De acuerdo con la definición dada, la Mediana será $380, pues ese monto
está exactamente al medio del conjunto de datos de la muestra.
El número de observaciones nos indica que hay cinco a la izquierda de la
Mediana y cinco a la derecha; esa simetría se debe a que el número total de
observaciones es impar
Conjunto de observaciones par
Si agregamos un dato más a la muestra, v.g. 780, tendremos:
120, 140, 200, 240, 260, 380, 390, 450, 630, 700, 750, 780
2 8
mailxmail - Cursos para compartir lo que sabes
El número de datos de la muestra es par (12) por lo que nos encontramos con
dos datos centrales: 380 y 390, pero no podemos escoger uno de ellos
arbitrariamente.
Para calcular la Mediana calcularemos la media aritmética de los dos valores
centrales, de la manera que hemos aprendido: (380 + 390)/2 = $385
El SPSS calculará inmediatamente la Mediana de series de cualquier tamaño y
tipo.
Ventajas de la Mediana
La mediana no está influida por valores extremos, como está la media
aritmética.
La Moda
Es el valor que más se repite en el conjunto de datos y que los griegos que
deseaban fabricar una torre para desbaratar la ciudad sitiada utilizaron como
indicador.
Tomemos los datos utilizados en la mediana, pero lo transformemos de tal
manera que el valor 260 se repite tres veces; en ese caso la Moda será 260.
120, 140, 200, 240, 260, 260, 260, 380, 390, 450, 630, 700, 750, 780
La Moda se aplica en el caso de que haya varios valores repetidos en la
muestra.
Cuando lleguemos al capítulo de las distribuciones, usaremos una gráfica de
distribución para comparar la media aritmética, la mediana y la moda, entre sí.
Mientras tanto, diremos que no hay reglas generales que nos permitan
escoger alguna de ellas; pero la media aritmética es la más utilizada.
Tales son las medidas de tendencia central más importantes.
Medidas de dispersión
Vimos que las medidas de tendencia central identifican un valor que se acerca
más al centro de una serie de datos o de elementos.
Las medidas de dispersión nos muestran el grado en que se alejan del centro.
2 9
mailxmail - Cursos para compartir lo que sabes
Las medidas de dispersión nos muestran el grado en que se alejan del centro.
La primera medida de dispersión, la más simple, es el rango
El Rango
Es la diferencia entre el valor más alto y el más pequeño de los datos.
Acudamos otra vez a las serie de datos utilizados para calcular la Mediana:
120, 140, 200, 240, 260, 260, 380, 390, 450, 630, 700, 750, 780
El Rango será 780 – 120 = 660
El SPSS ordenará cualquier conjunto de datos que no estén ordenados.
El Rango nos da una primera percepción sobre las diferencia extremas que
median en una serie de datos, digamos, en un registro de salarios.
3 0
mailxmail - Cursos para compartir lo que sabes
11. Medidas de Tendencia Central. Medidas dedesviación promedio (1/2)
Medidas de desviación promedio
Calcula la desviación promedio entre los valores de una serie de datos y una
medida de tendencia central; el SPSS las calcula; aquí nos interesa el concepto.
La Varianza
Es la media aritmética del cuadrado de las desviaciones respecto a la
media de una distribución estadística; la varianza de la muestra se representa por S2
Para aclarar el concepto, tomemos los siguientes datos: 2, 4, 6, 8, 10
La media aritmética será: (2 + 4 + 6 + 8 + 10)/5 = 30/5 = 6
Con ese dato, analicemos los valores originales
El valor 2 se desvía en - 4 de la media aritmética (2 - 6 = - 4)
El valor 4 se desvía en - 2 unidades: (4 - 6 = - 2)
El valor 6 no se desvía de la media aritmética: (6 – 6 = 0)
El valor 8 sí se desvía en 2 (8 – 6 = 2) que es una desviación positiva.
Lo mismo sucede con el valor de 10, su desviación positiva es 4 (10 – 4 = 6)
Si deseáramos sacar la media aritmética de estas desviaciones nos
encontraríamos que su valor sería 0, pues los valores positivos anularían a los
negativos.
Para eliminar este problema no tomamos en cuenta la desviación simple de
cada observación con la media aritmética; más bien elevamos cada desviación al
cuadrado
Lo hacemos así, porque una cantidad elevada el cuadrado, ya sea positiva o
negativa, siempre nos dará un resultado positivo, que es lo que se busca.
La suma de los cuadrados de esas diferencias será dividida por el número de
observaciones, que es 5, al que le restaremos 1.
Así lo determinaron los grandes matemáticos. El denominador será 5 – 1
3 1
mailxmail - Cursos para compartir lo que sabes
S2 = [(2 – 6)2 + (4 – 6)2 (6 – 6)2 + (8 – 6)2 + (10 – 6)2]]/(5 – 1)
S2 = [(-4)2 + (-2)2 + (0)2 + (2)2 + (4)2]4 = [(16 + 4 + 4 + 16)]/4 = 40/4=
1 0
En consecuencia diremos que la varianza de la Muestra es 10.
La Desviación Típica de la Muestra = s
Para estimar la Varianza tuvimos que elevar las diferencias al cuadrado.
Ahora hacemos la operación inversa y sacamos la raíz cuadrada de S2.
De esa manera definimos la Desviación Típica de la Muestra = s
s = raíz cuadrada de S2 (Raíz cuadrada de la Varianza)
En este caso, s = raíz cuadrada de 10 = 3.16
El Coeficiente de Variación
Es la relación entre la desviación típica y la media de la muestra: s/X*
Las medidas de tendencia central y de dispersión son los estadísticos básicos
de la Estadística; por supuesto, son también los más usados en todos los niveles.
Este ejercicio complica cuando la muestra tiene, digamos, 20000
observaciones
Pero, calcular una muestra para esos valores es una tarea rutinaria del SPSS.
3 2
mailxmail - Cursos para compartir lo que sabes
12. Medidas de Tendencia Central. Medidas dedesviación promedio (2/2)
El Uso del SPSS
Una vez definidas conceptualmente las medidas de tendencia central y las
medidas de dispersión, vamos al SPSS para aprender cómo las obtenemos.
Supongamos que deseamos saber las medidas de tendencia central y de
dispersión de los sueldos actuales que reciben los empleados de la empresa.
Abrimos el SPSS, pulsamos la tecla registrar datos del cuadro de diálogo.
Una vez que tenemos el editor de datos, pulsamos archivo, para abrir
Employee data.sav del archivo que viene incluido en el SPSS 19.
En la pantalla de datos colocamos el cursor en cada uno de los títulos de las
columnas para saber en cual columna están los salarios actuales de los empleados
Apuntamos el cursor en la columna salary, por unos segundos para ver el
nombre formal y para instruir al SPSS que calcule los estadísticos deseados.
Sin embargo, de entrada vemos que hay un problema.
Los salarios están registrados con el signo $ = dólar; para calcular los
indicadores que deseamos, tenemos que cambiar los datos al tipo Numérico.
Vamos a Vista de Variables; encontramos la fila donde dice salary y su
nombre formal es Current Salary, que es el que luego nos interesará
El título de la segunda columna dice Tipo, debajo de ella los datos registrados
tienen el signo $; hacemos doble click en la casilla que dice Dólar en la columna Tipo.
Tipo.
Ingresamos al cuadro de diálogo y allí vemos que, la variable “salary” está
expresada en Dólares; ponemos el cursor en el botón Numérico y aceptamos.
Volvemos a Vista de datos y vemos que el signo Dólar ($) ha desaparecido.
Ahora podemos instruirle al SPSS que nos calcule los indicadores que
deseamos sobre la variable salary; en el menú superior pulsamos en Analizar.
Se nos presentará un cuadro de opciones; pulsamos Estadísticos Descriptivos
3 3
mailxmail - Cursos para compartir lo que sabes
A la derecha aparecerá otro cuadro, del cual escogemos Descriptivos
Se nos presentará un cuadro con las variables de Employee data.sa a la
izquierda, de inmediato nos damos cuenta que las variables están registradas con
sus nombres formales.
También vemos un cuadro en blanco a la derecha.
Pulsamos en Current salary en el cuadro de la izquierda y la flecha que apunta
a ese cuadro; la variable Current Salary ya está en el cuadro blanco.
Pulsamos options y en el cuadro que aparece, escogemos: Rango, Salario
Mínimo, Salario Máximo, Media Aritmética, Desviación Típica y Varianza
Volvemos al anterior cuadro de diálogo.
Allí pulsamos aceptar; se nos presentará el Editor con los datos; si el SPSS no
nos lleva directamente al cuadro de resultados, lo hacemos manualmente.
En el menú superior del Editor encontramos la casilla Ventana y hacemos click.
Aparecen dos líneas.
Escogemos la primera que dice Resultados; así nos trasladamos hasta la hoja
de resultados en la que vemos una pequeña tabla, la que se muestra a continuación.
La trasladamos a esta página, simplemente copiándola de la hoja de
resultados.
Estadísticos descriptivos
N Rango Mínimo Máximo Media Desv. típ. Varianza
Current Salary 474 119250 15750 135000 34419,57 17075,661 2,916E8
N válido
(según lista)474
N significa el número de observaciones, en este caso nos dice que en la
empresa hay 474 empleados y que el SPSS los ha tomado a todos.
El Rango, es decir, la diferencia entre el salario mayor y el menor, es $473
El Salario Mínimo es $15740 al año; el máximo es $135000.
La Media aritmética o el promedio de los salarios es $34419.57
3 4
mailxmail - Cursos para compartir lo que sabes
La Media aritmética o el promedio de los salarios es $34419.57
La desviación típica es 17075.661
La Varianza registra un valor de 2,916E8, en notación científica.
La notación científica se usa para ahorrar espacio; en este caso, el número 8
nos dice que después del 2 debe haber 8 dígitos, esto es: 29160000.
A la izquierda de la hoja de resultados hay un menú que registra los rubros y
la información que tenemos en la pantalla blanca.
Una vez que un ejercicio haya sido terminado y debidamente archivado,
hacemos click en alguno de los rubros de ese menú para borrar los resultados que
ya no necesitemos.
Nos encontramos en el Cuadro de Resultados, deseamos volver a la pantalla
de datos.
Para ello pulsamos Ventana en el menú superior y escogemos Employee
data.save
Supongamos que deseamos saber los mismos estadísticos pero para los
salarios que los empleados ganaban al momento de ser contratados por la empresa;
es decir, salbegin.
Las operaciones serán las mismas que las que realizamos en el anterior
ejercicio: lo primero que nos fijamos es que los registros tienen el signo del dólar
($) debemos anularlo.
Vamos a la pantalla Vista de Variables para ubicar dónde está la variable que
buscamos; está en la fila 7; la casilla de la derecha, bajo la columna Tipo registra la
palabra Dólar.
Pulsamos en la palabra Dólar; aparecen tres puntos suspensivos; pulsamos el
mouse en esos puntos y en el cuadro de diálogo hacemos click en el botón
Numérico; aceptamos.
Antes de salir de ese cuadro notamos que la Etiqueta de salbegin la registra
con el nombre de Beginning Salary; tomamos nota de ello para la operación
siguiente.
Este es un buen momento para recurrir a un proceso más ágil.
3 5
mailxmail - Cursos para compartir lo que sabes
En esta hoja de Word vamos al menú principal y escogemos Symbol; hacemos
click y luego pulsamos en el símbolo el que nos indicará que un paso lleva a otro
inmediato.
Le asignamos un shortcut key (digamos Control y q) para usarlo cada vez que
lo necesitemos; volvemos a Vista de Datos pulsamos
Analizar Estadísticos Descriptivos Descr ip t i vos
En la parte izquierda de la pantalla blanca vemos la lista de variables
completa, cada una escrita con el nombre formal
Allí nos encontramos con que en el cuadro derecho aún está la variable
Current Salary, la que habíamos analizado anteriormente; ahora debemos sacarla del
cuadro blanco.
Hacemos click en la variable Current Salary pulsamos la flecha, la que ahora
indica la dirección opuesta, y la variable Current Salary vuelve al cuadro izquierdo.
Pulsamos la columna en salbegin que tiene el nombre formal de Beginning
Salary y luego la flecha de dirección y la introducimos en la pequeña pantalla blanca
de la derecha.
Hacemos click en Opciones y escogemos los estadísticos que nos interesa:
Rango, Salario Mínimo, Salario Máximo, Media Aritmética, Desviación Típica y
Varianza
Pulsamos Continuar Aceptar
El SPSS nos lleva al cuadro de resultados al que copiamos para analizarlo aquí.
La tabla de resultados estará estructurada del siguiente modo.
Si comparamos los promedios entre los salarios actuales y los que se recibían
al comienzo, veremos la diferencia: 34419 para los primeros y 17016 para los otros.
A medida que avancemos, podremos establecer si la diferencia de dos
promedios es o no significativa, determinación que es muy útil en una investigación
de tipo estadístico.
Una vez terminado el ejercicio volvemos a Vista de Datos, vamos al menú para
archivarlo con el nombre de Employee.ejer.sav
3 6
mailxmail - Cursos para compartir lo que sabes
Estadísticos descriptivos
N Rango Mínimo Máximo Media Desv. típ. Varianza
BeginningSalary 474 70980 9000 79980 17016,09 7870,638 61946944,959
N válido(según lista) 474
Borrar información de la Pantalla de Resultados
Cada vez que deseamos tener una nueva pantalla de resultados, borramos las
que ya no necesitamos; llevando el cursor a la izquierda y pulsando el botón de
Resultado.
El SPSS borrará todos los elementos que constan en la pantalla.
Si se prefiere borrar de ítem en ítem, se ejecutará el mismo procedimiento.
El Coeficiente de Variación
Vimos que es la relación entre la desviación típica y la media de la muestra:
s/X*
Tomemos la desviación típica de la tabla de Begining salary que es 7870 y la
media, 17016; el coeficiente de variación será 7870/17016 = 0,462
Con esto terminamos el análisis de las medidas de tendencia central y de las
medidas de dispersión, tanto en su percepción conceptual como en la parte
operativa.
En fases ya más avanzadas veremos que estos conceptos son la base misma
de la disciplina estadística, en todas sus ramas; por eso es importante tenerlos en
mente.
3 7
mailxmail - Cursos para compartir lo que sabes
13. Personajes notables en la Matemática y en laEstadística
Jakob (James) Bernoulli
(1654-1705) Matemático
Los eruditos nos hacen saber que ocho miembros de la familia Bernoulli
tienen biografías separadas por sus contribuciones a la ciencia. De los ocho, ahora
nos interesa, Jakob y luego Daniel, después de Moivre.
Jakob estudió filosofía, pero aprendió matemáticas por su cuenta; inclusive,
fue catedrático de matemáticas en la Universidad de Basel. Su obra más conocida,
ArsConjectandi, fue publicada después de su muerte y ejerció una gran influencia en
esa época como lo es hasta ahora. Fue el primero en introducir los conceptos de
combinaciones y permutaciones, temas que serán abarcados en esta obra. Usó los
término A priori (antes de la experiencia) y a posteriori (después de la experiencia)
para mostrar que si se conocen las probabilidades dadas por la experiencia,
podemos afirmar a priori el resultado de un proceso, con un riesgo de error
predeterminado. Por ejemplo, si arrojamos mil veces una moneda, la probabilidad
de que salga cara o cruz se irá acercando a la probabilidad teórica del 50% para cada
uno de los resultados. Aquí está implícita su teoría de la Ley de los grandes
números, una de sus más conocidos aportes; es en esta dimensión en la que se
concretan las probabilidades teóricas. El otro aporte, que también es usado al
presente se refiere a un tipo de distribución conocida como la Distribución Binomial,
el que será analizado en este capítulo, junto a otras clases de distribución.
Abraham de Moivre (1667-1754)
3 8
mailxmail - Cursos para compartir lo que sabes
Este gran matemático buscó refugio en Inglaterra porque en su país, Francia,
era acosado aun-que tenía sólo 20 años. En Inglaterra su talento fue reconocido con
tanto entusiasmo que más tarde sería miembro de la Socieda Real, aunque nunca
tuvo un diploma académico. En 1781 escribió la Probabilidad de los Eventos en el
Juego. En ésta como en todas sus obras, el análisis de la Probabilidad fue
sobresaliente. Llegó a una buena aproximación a la forma de la Distribución
Binomial, que es un referente prioritario para establecer el Teorema del Límite
Central y fue co autor la la Distribución de Poisson. Los comentarios sobre sus obras
resaltan: “no hay duda de que la Teoría de la Probabilidad debe a Moivre más que a
cualquier otro matemático, con la excepción de La Place”. Este homenaje tiene doble
mérito, pues está dirigido a quien nunca tuvo un título académico.
Daniel Bernoulli (1700-1782)
Sobrino de Jakob Bernoulli, educado en la Universidad de Basel, en la que su
padre fue profesor. Originalmente, Daniel estudió medicina, pero su padre le enseño
matemáticas lo que le permitió escribir seis ensayos sobre probabilidad, estadística
y demografía. Su obra más conocida es “Exposición sobre una Nueva Teoría del
Cálculo del Riesgo,” teoría que se basó en lo que se llamaba Expectativa Moral
(Ahora: Utilidad Esperada) Con esa teoría ayudó a resolver un problema denominado
La Paradoja de San Petersburgo, la que inquiría sobre la diferencia entre lo que
3 9
mailxmail - Cursos para compartir lo que sabes
ahora sería el Valor Esperado Matemático de un suceso y su valor “para mí”: el valor
esperado sería infinito, pero del “valor para mí”, no. En un ensayo que obtuvo un
premio en 1735, Bernoulli testó la distribución aleatoria de las órbitas de los
planetas.
Pierre-Simon Laplace (1749-1827)
Matemático y Físico
John Aldrich, de quien citamos estos resúmenes, dice que Laplace escribió
sobre Probabilidad. En su obra, escrita en 1774, “Memoria sobre la probabilidad de
las causas para los eventos” se aproximó al análisis baynesiano sobre los errores y
las medidas. Su “Teoría Analítica de Probabilidades” fue la más completa en su
época. Entre sus estudios más importantes, debeos citar el Teorema del Límite
Central, imprescindible hoy para la teoría de muestras. También desarrolló
instrumentos como la función generatriz de probabilidad. Su sistema se basó en la
probabilidad clásica pero la superó con sus trabajos ulteriores. Fue muy admirado
en su época, pero ya en el siglo XX las teoría de Fisher opacaron un tanto la visión
de Laplace; pero no significativamente.
4 0
mailxmail - Cursos para compartir lo que sabes
14. Distribución de frecuencias. Concepto
3 DISTRIBUCIÓN DE FRECUENCIAS
Concepto
Una distribución de frecuencias es una tabla en la que organizamos los datos
dividiéndolos en Clases o grupos que describen alguna característica de los datos
que usaremos.
Si no dividimos los datos en grupos o clases, entonces, cuando pidamos, v.g,
las frecuencias de los salarios, el SPSS nos dará un cuadro con el salario de cada uno
de los empleados.
Si la fábrica tiene 2000 empleados, tendremos un cuadro de 2000 salarios.
Sin embargo, cuando necesitamos las medidas de tendencia central o
cualquier otra, el SPSS acudirá a los datos originales, no a los grupos.
A no ser que, por alguna razón, necesitemos la media u otro estadístico de
los grupos.
Una distribución de frecuencias muestra el número de observaciones del
conjunto de datos que caen en cada una de las clases en las que hemos dividido los
datos originales.
Para hacerlo, utilizaremos el SPSS y el archivo Employee data.sav vamos a
construir el cuadro de frecuencias del salario actual (Current Salary) de los
empleados de la empresa.
Menú Principal Transformar Recodificar en distintas variables.
Abierto ya el cuadro de diálogo vemos dos pantallas.
La pantalla de la izquierda contiene todas las variables; escogemos Current
Salary y la trasladamos a la pantalla de la derecha, haciendo click en la flecha de
dirección.
En la casilla, Current Salary ha cambiado a salary, que es el nombre que
aparece al comienzo de la columna respectiva, mientras que Current Salary, es la
etiqueta formal.
4 1
mailxmail - Cursos para compartir lo que sabes
En el cuadro aparece un signo de interrogación después de salary, eso
significa que el SPSS nos pide dar un nuevo nombre a la variable que vamos a
recodificar.
En la parte derecha hay dos casillas: una que dice nombre y la otra etiqueta.
Entramos a nombre y registramos el nombre que deseamos ponerle a la nueva
variable: rsalary (Podría ser cualquier otro).
En la casilla Etiqueta ponemos el nombre formal Salario Actual; pulsamos Cambiar
Cambiar
La variable rsalary ocupa el lugar donde estaba el signo de interrogación.
Así, hemos estructurado una nueva variable, rsalary, sobre la base de la
variable salary.
Desde este momento, el SPSS tratará a la nueva variable como independiente.
Pulsamos en la casilla de la parte inferior:Valores antiguos y nuevos; vemos
un cuadro de diálogo; éste cuadro es el que nos ayudará a dividir nuestros datos en
clases.
Lo que vamos a hacer es codificar las clases, como codificamos la variable sexo
sexo
Vamos a dividir los datos en cuatro clases; para ello pulsamos el botón que
dice: rango, en la parte izquierda del cuadro; al hacerlo, se habilitarán dos casillas
en blanco.
En la primera registramos 15000 (el valor mínimo de los salarios) en la casilla
de abajo, escribimos 45000; vamos a la parte superior derecha valor y en la
casilla anotamos 1.
Click en Añadir y en la casilla inferior aparece 15000 t rhu 4 5 0 0 0 1 .
La primera de nuestras clases incluirán todos los valores desde 15000 hasta
45000.
Otra vez vamos a la izquierda click “rango” y anotamos 45001 en la casilla
de abajo.
Vamos a la casilla inferior, donde dice “hasta” y anotamos 75000.
4 2
mailxmail - Cursos para compartir lo que sabes
Nos trasladamos al lado derecho “Valor”, anotamos 2 en la casilla
respectiva cl ick en Añadir; en la pantalla inferior aparecerá un nuevo registro
después del anterior.
Esta vez con la leyenda que dice: 45001 thru 75000 2.
Para la tercera clase; anotamos 75001 en la casilla rango y 105000 en la que
dice thru
Al lado derecho valor, anotamos 3 Añadir; la tercera clase aparece en la
parte de abajo: 105001 thru 135000 anotamos 4 Continuar
Si el SPSS nos lleva a la pantalla de resultados, tendremos que salir de allí
Nos vamos a Vista de Datos para ver que en la última columna de aparecerán
los intervalos codificados 1, 2, 3 y 4, de acuerdo con los valores de cada rango
salarial.
Pero, lo que deseamos es que en la Pantalla de Datos aparezcan,
textualmente, los intervalos, tales como 15000 – 45000 para todos los rangos que
hemos recodificado.
Vamos a Vista de Variables, ubicamos la variable rsalary
En la columna Valores, aparece el rótulo Ninguna
Click en los puntos y se nos abre un cuadro de diálogo.
En la casilla Valor anotamos 1 y en la que dice Etiqueta registramos 15000 –
45000, pulsamos Añadir y esta primera clase aparece registrada en la pantalla
Hacemos lo mismo con 45001 – 75000; seguimos dando los mismos
intervalos anteriores
Estamos recodificando la nueva variable “rsalary”, cuyo nombre formal Salario
Actual incluimos en la casilla correspondiente a la columna Etiqueta.
Continuamos del mismo modo, variando las clases de 75001 en 105000
hasta llegar a la última, la clase número que será 105001 – 135000
Aceptamos y en la pantalla de datos tendremos los intervalos, ya no como
números 1, 2, 3, 4, cada uno de los cuales representaba un intervalo, sino como los
intervalos reales
4 3
mailxmail - Cursos para compartir lo que sabes
La primera clase 15000 – 25000 ha sido registrada sin ninguna variación,
pero la siguiente empieza con 25001, para no repetir el valor de 25000; lo mismo
con las demás.
Ahora nos corresponde saber cuántas observaciones hay en cada clase.
Frecuencias
En la pantalla de Vista de datos, vamos al menú superior y pulsamos Analizar;
se abrirá el cuadro de opciones; de allí escogemos Estadísticos Descriptivos
Frecuencias.
Se abre el cuadro en el que la lista de variables está a la izquierda.
Hacemos click en la nueva variable RCurrent Salary y con la flecha de
dirección la llevamos a la derecha; aceptamos.
En la pantalla de Resultados aparece el cuadro de frecuencias con las clases
respectivas; Es el cuadro que nos servirá para diseñar nuestra primera distribución
de frecuencias.
4 4
mailxmail - Cursos para compartir lo que sabes
15. Cómo estructurar una Distribución deFrecuencias
Estructurar una Distribución de Frecuencias
El cuadro que aparece en la pantalla de resultados nos muestra el número
total de casos, 474, y las clases salariales que habíamos estructurado.
La clasificación de los salarios en clases, con los rangos determinados, nos
permite saber cuántas personas hay en cada clase y graficar con mayor claridad los
datos
Hacemos click en el cuadro, pulsamos el botón derecho del mouse y
escogemos copy, y posteamos en la presente página, para realizar las
modificaciones necesarias.
Tabla 3.1
Salario Actual
Frecuencia Porcentaje % válido % acumulado
Válidos
15000 - 45000 391 82,5 82,5 82,5
45001 - 75000 6 6 13,9 13,9 96,4
75001 - 105000 1 5 3,2 3,2 99,6
105001-135000 2 ,4 0,4 100,0
Total 474 100,0 100,0
Para formular el cuadro de distribución de frecuencias, reemplazamos el
título “Porcentaje válido” por “Probabilidad” y anulamos la última columna, operando
desde el Word.
Hacemos click con el botón derecho del mouse Delete Cells
En las opciones click en Delete Entire Colum; ponemos el título “Distribución
de Frecuencias de los salarios”; la tabla 3.1 queda estructurada.
El cuadro de probabilidad resulta de la división entre 100 de todos y cada
uno de los datos que aparecen como porcentaje en la tabla anterior.
Los datos de la nueva tabla se interpretan de la siguiente manera
En la empresa hay 391 empleados que ganan un salario comprendido entre
4 5
mailxmail - Cursos para compartir lo que sabes
En la empresa hay 391 empleados que ganan un salario comprendido entre
15000 – 45000; lo que representa una porcentaje del 82.5%.
Tabla 3.2
Distribución de Frecuencias de los Salarios
Frecuencia Porcentaje Probabilidad
Válidos
15000 - 45000 391 82,5 0,825
45001 - 75000 6 6 13,9 0,139
75001 - 105000 1 5 3,2 0,032
105001 - 135000 2 ,4 0,004
Total 474 100,0 100,0
La probabilidad de que escojamos a uno de ellos, de entre todos los
empleados, es 0,825
La lectura de los datos del cuadro, nos permite saber lo siguiente:
Hay 66 empleados que perciben un salario comprendido entre 45001–75000
y constituyen el 13,9% del total; la probabilidad de que escojamos a uno de ellos es
0,139
El total de las probabilidades suma 1, tal como se ve en la tabla; cada
probabilidad se obtiene dividiendo el porcentaje respectivo entre 100; para los
decimales se usa la coma.
4 6
mailxmail - Cursos para compartir lo que sabes
16. Histograma. Gráficas de las distribuciones defrecuencias
Gráficas de las distribuciones de frecuencias: El Histograma
Es una gráfica que consiste en una serie de rectángulos, el ancho de cada uno
mide la distancia que existe entre las cantidades que estructuran una clase
estratificada.
Gráfica 3.1
La distancia vertical nos da los valores para esa clase.
Para obtener el Histograma respectivo vamos al Menú Principal Gráficas
Cuadros de diálogos antiguos Histograma.
Click en la casilla Títulos, que está en la parte superior derecha la casilla
En la primera línea escribimos RCurrent Salary; en la segunda, Niveles
Salariales Estratificados Continuar Aceptar
La clase 1 (15000–45000) está representada por la base del primer
rectángulo; la altura de cada rectángulo señala el número de frecuencias que se
encuentran en ese intervalo.
A la derecha se muestra la media, la desviación típica y el número total de
4 7
mailxmail - Cursos para compartir lo que sabes
empleados; el histograma es útil para el técnico, pero no es muy claro para los
ejecutivos
El Histograma es de gran ayuda, especialmente cuando queremos comprobar
si la distribución de una variable se aproxima a la distribución normal, tal como
veremos después.
Así, las clases simplemente están representadas por números, los que no
dicen mucho cuando deseamos presentar un informe a los ejecutivos de la empresa.
Para llevar un informe más claro a los ejecutivos, recurrimos a la gráfica de
barras. El SPSS nos presenta varias opciones, las que serán utilizadas en su
oportunidad.
Serán usadas a medida que aprendamos más de Estadística y el manejo del
SPSS.
Gráficas de barras y Pie
Gráfica 3.2
Podemos lograr un resultado más completo en el Menú Gráficas – Generador
de Gráficas
Para obtener las barras de frecuencias, pulsamos Gráficas en el Menú
Principal; elegimos Cuadros de diálogos antiguos Barras Simple Definir
4 8
mailxmail - Cursos para compartir lo que sabes
No. De Casos
Introducimos RCurrent Salary en la casilla que dice Eje de Categorías
En la parte superior derecha hacemos click en Títulos; allí escribimos: Current
Salary en la Primera Línea y RCurrent Salary.
Copiamos la gráfica y vemos que nos ha dado los intervalos y las frecuencias
de cada uno anotando el intervalo concreto en cada caso; no sólo como categorías
1, 2, ….
Si se quiere cambiar las características del gráfico: el color, la textura, la
letra…hacemos doble click en la gráfica de barras; aparecerá un nuevo menú
En este menú escogemos editar y allí elegimos la opción que nos parezca más
adecuada.
Gráfico de Sectores (Pie)
La misma información podemos lograr con la gráfica de Sectores o Pie.
Gráfica 3.3
Gráficas Cuadros de diálogos antiguos Sectores Definir definir
sectores por
Es a esa casilla que traemos la variable: RCurrent Salary T í t u l o s
La gráfica que aparece en el cuadro de resultados muestra los datos que le
habíamos pedido; la traemos a la presente página a través de Copy.
4 9
mailxmail - Cursos para compartir lo que sabes
Cambiamos lo que nos parezca, haciendo doble click en la torta del cuadro de
resultados.
Con esto concluimos la primera parte del uso de gráficas; más adelante
recurriremos a éstas y otras con diferentes significados y grados complementarios
de utilidad
Hagamos una breve pausa para observar cómo vamos aprendiendo Estadística
y, al mismo tiempo, el uso del SPSS.
Me pareció más conveniente este método de “aprender sobre la marcha” en
vez de dar un curso completo de cada dimensión, una a la vez, por separado.
Cuando terminemos el curso de Estadístico, en sus cuatro niveles, éste es el
primero de ellos, habremos concluido también con el aprendizaje del SPSS.
5 0
mailxmail - Cursos para compartir lo que sabes
17. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (1/10)
4 PROBABILIDAD
Introducción
Aunque para resolver todos los problemas que se nos presenten acudiremos
al SPSS, sin embargo, es necesario conocer los conceptos de la clase de problemas a
solucionar.
Los principales precursores del cálculo de probabilidades fueron Jacob
Bernoulli (1674-1705) Thoma Bayes (1702-1761) Joseph Lagrange (1736-1813) y
Carl Friedrich Gauss.
La teoría de la probabilidad es la base es la base de las investigaciones
estadísticas en las investigaciones de las ciencias sociales y en la toma de decisiones.
En realidad, las llamadas “leyes” en las ciencias sociales no son sino
tendencias estadísticas en el tiempo, las que pueden ser estimados con un grado de
probabilidad.
Conceptos básicos
Probabilidad es la posibilidad cuantificada de que algo suceda.
Evento: Uno más de los posibles resultados de hacer algo.
Si lanzamos una moneda al aire, saldrá “cruz” o “cara”; cada resultado será un
evento.
Experimento, la actividad que produce un evento; en este caso, el lanzar la
moneda.
¿Cuál será la probabilidad de que una moneda, al ser lanzada, caiga “cara”?
será 0,5
Espacio muestral: al lanzar la moneda el espacio muestral es: {cara, cruz}
Si dos eventos pueden ocurrir al mismo tiempo, serán eventos no son
mutuamente excluyentes; si no pueden ocurrir simultáneamente, serán mutuamente
excluyentes.
5 1
mailxmail - Cursos para compartir lo que sabes
La probabilidad de sacar una carta de un paquete de 52 cartas, será 1/52
La de sacar una reina será 4/52, pues existen cuatro reinas en el mazo.
La de sacar un trébol será 13/52, pues hay 13 tréboles en un mazo.
La probabilidad de sacar una carta roja es 26/52, dado que hay 26 cartas
rojas.
La probabilidad de sacar un “as” al lanzar un dado es 1/6, porque hay seis
números y un solo “As”: del mismo modo con los otros números.
Probabilidad Clásica
La probabilidad de que un evento ocurra es definida del siguiente modo:
E = F/(T)
E = Evento
F = número de casos favorables
T = el total de casos
En el ejemplo de las cartas, el número favorable de sacar una reina es 4
El total de casos es 52
En el caso de los dados, el número favorable de sacar un “as” es 1
El total de casos es 6.
La probabilidad clásica es conocida también como probabilidad a priori.
Se denominaría así, porque las probabilidades de los resultados puede ser
conocidos de antemano, tal como sucede con los experimentos de las cartas o los
dados.
Frecuencia relativa de la presentación
Es el porcentaje del resultado de casos favorables con relación al total de
casos.
Probabilidades subjetivas
Se basan en las creencias de las personas que diseñan el experimento
5 2
mailxmail - Cursos para compartir lo que sabes
La probabilidad subjetiva es útil cuando no hay antecedentes para establecer
una probabilidad objetiva: ¿Cuál es la probabilidad de que un reactor atómico irradie
radiactividad?
Dado que no existe un antecedente, se recurrirá a las suposiciones y al
sentido común.
Los responsables de tomar decisiones en una empresa usan la subjetividad
para los casos únicos que se presentan a diario en asuntos de mercado, precios, y
otros similares.
5 3
mailxmail - Cursos para compartir lo que sabes
18. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (2/10)
Reglas de la Probabilidad
Los siguientes símbolos son los que se utilizan en el cálculo de
probabilidades:
P(A) = Es la probabilidad de que el evento A suceda.
Si puede llevarse a cabo sólo un evento, la probabilidad será sencilla
Este tipo de probabilidad es conocido como probabilidad marginal o
incondicional.
Si hay un sorteo para ganar un premio y el total de casos es 60, la
probabilidad de que alguien saque el número premiado es 1/60 = 0,0167; sólo un
participante podrá ganar.
Eventos mutuamente excluyentes
Hay casos en los que pueden realizarse dos eventos: uno o el otro;
supongamos que hay 5 candidatos para un cargo público y que todos tienen los
mismos méritos.
Utilizaremos el concepto marginal de probabilidad:
Diremos que la probabilidad de que uno de ellos sea elegido será 1/5.
Pero si estamos interesados en saber la probabilidad de dos candidatos, la
cosa cambia.
Supongamos que tenemos interés en saber las probabilidades de que Juan o
María ganen el concurso de méritos; en este caso tenemos dos eventos que se
suman entre sí.
La probabilidad de Juan es de 1/5 y la de María también es 1/5; entonces de
probabilidad de que alguno de los dos sea elegido será 1/5 + 1/5 = 2/5 = 0,40
En el primer caso, el de que uno de los cinco gane, la probabilidad será P(A) =
1/5 = 0,20
En el segundo caso, la probabilidad se representará del siguiente modo: P(A o
5 4
mailxmail - Cursos para compartir lo que sabes
B) notación que nos indica la probabilidad de que uno de los dos gane el concurso.
Para mostrar gráficamente lo que la suma de probabilidades significa, los
teóricos recurren a los símbolos de los conjuntos en matemáticas.
Esos símbolos son muy útiles en la tarea de comprender los teoremas.
Tomemos la siguiente tabla, del libro de Levin y Rubin, en la que se consignan
datos sobre el número de hijos y sus probabilidades respectivas en una encuesta
familiar.
Número de hijos 0 1 2 3 4 5 6 omás
Proporción de familias que tienenesa cantidad
0.05 0.10 0.30 0.25 0.15 0.10 0.05
En el cuadro anterior tenemos una muestra que nos permitirá establecer las
probabilidades de que una familia tenga un número determinado de hijos.
Ejemplo, la probabilidad de que una familia tenga 3 hijos es 0.25.
La probabilidad de que una familia no tenga hijos es 0.05, mientras que la
probabilidad de que una familia tenga 2 hijos será 0.30 y así sucesivamente.
Ahora aplicaremos estos conceptos: deseamos saber la probabilidad de que
una familia del pueblo donde se hizo la encuesta tenga 4 o más hijos.
Nos damos cuenta de que ya no estamos hablando de un solo evento, sino de
varios.
5 5
mailxmail - Cursos para compartir lo que sabes
19. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (3/10)
Probabilidad de varios eventos
Para plantear el problema recordamos que estamos hablando de varios
eventos y que la simbología para representar esa condición es P(A o B)
En el caso particular que nos interesa, esa expresión toma la forma numérica
siguiente:
P(4,5,6 o más) = P(4) + P(5) + P(6 o más) = 0.5 + 0.10 + 0.05 = 0.30
De inmediato interpretamos el resultado: la probabilidad de que una familia
tenga 4, 5, 6 o más hijos es la suma de las probabilidades marginales de cada
evento, esto es, 0.30
Ahora ingresamos a una situación que puede darse en muchas oportunidades.
Supongamos que deseamos obtener un “diez” o un “trébol” de un mazo de 52
cartas.
En este caso, debemos tener en cuenta que también podemos sacar un “diez
de trébol”.
Vemos que sacar un “diez” o un “trébol” no son eventos mutuamente
excluyentes, debido a que hay la probabilidad conjunta de un diez y un trébol al
mismo tiempo.
En este tipo de problemas debemos ajustar la ecuación para evitar el conteo
doble.
De este modo tendremos: P(diez) + P(trébol) – P(diez y trébol)
4/52 + 13/52 – 1/52 = 16/52 = 4/13
Otro ejemplo; los empleados de la empresa han elegido a 5 de ellos para que
los representen en el consejo de administración; los perfiles de los elegidos son:
Hombre, edad 30
Hombre 32
5 6
mailxmail - Cursos para compartir lo que sabes
Mujer 45
Mujer 20
Hombre 40
Una vez elegidos, los cinco deciden, a su vez, elegir un portavoz: ¿Cuál será la
probabilidad de que la persona elegida sea mujer o tenga una edad por encima de
35 años?
P(mujer o mayor a 35) = P(mujer) + P(mayor a 35) – P(mujer y mayor a 35)
La probabilidad P(Mayor a 35 años) se refiere al total de todos, hombres y
mujeres, que tienen más de 35 años; hay solamente dos casos de los cinco: 45 y 40.
2/5 + 2/5 – 1/5 = 3/5 = 0.60
Probabilidad bajo condiciones de independencia estadística
En primer lugar, definiremos el concepto de “Independencia”
Dos eventos son estadísticamente independientes entre sí cuando el evento o
resultado de uno de ellos no tenga influencia en el resultado o evento del otro.
Existen tres tipos de probabilidad independiente: Marginal, Conjunta,
Condicional
Probabilidades marginales en condiciones de independencia
Vimos que una probabilidad es marginal o incondicional cuando es la
representación simple de un evento; v.g el lanzamiento de una moneda normal.
Ese “experimento” tendrá un evento: cara o cruz, con una probabilidad de 0,5
c /u .
No importa cuántas veces lancemos la moneda, la probabilidad de que salga
cara o cruz será la misma; cada lanzamiento es único y no tiene influencia sobre el
próximo.
5 7
mailxmail - Cursos para compartir lo que sabes
20. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (4/10)
Probabilidades conjuntas bajo condiciones de independencia estadística
La probabilidad de dos o más eventos independientes que se presentan
juntos es igual al el producto de sus probabilidades marginales.
Representamos ese caso de la siguiente manera: P(AB) = P(A) x P(B)
P(AB) = probabilidad de que ambos eventos se presenten juntos o
probabilidad de A y B.
P(A) = probabilidad marginal de que se presente el evento A.
P(B) = probabilidad marginal de que se presente el evento B.
Ejemplos
¿Cuál es la probabilidad cruz, cara y cruz, en ese orden, en tres lanzamientos
consecutivos de una moneda?
El resultado será: 0.5 x 0.5 x 0.5 = 0.125, debido a que la probabilidad de
que salga a es independiente a la probabilidad de que salga B
¿Cuál es la probabilidad de obtener cruz, cruz y cara, en ese orden luego de
tres lanzamientos consecutivos? La probabilidad será: 0.5 x 0.5 x 0.5 = 0.125.
¿Cuál es la probabilidad de obtener al menos dos caras en 3 lanzamientos
consecutivos?
Estamos ante el caso mixto de eventos mutuamente excluyentes; las que son
aditivas (la probabilidad de obtener una cara más la probabilidad de obtener otra
cara)
Pero, tenemos un evento independiente.
Para visualizar este proceso, tomemos la tabla 4.2 del texto de Levin y Rubin,
en la que se descomponen las probabilidades posibles de los eventos del total del
experimento.
Denominaremos cara = H; cruz = T
5 8
mailxmail - Cursos para compartir lo que sabes
En la parte superior del cuadro se registra los tres lanzamientos de la moneda.
En el primer lanzamiento los posibles resultados son o una cara (H1) o una
cruz (T1) y la probabilidad para cada uno de estos resultados, tal como vimos es 0.5.
1 y 2 representan el primer y el segundo lanzamiento, en todos los casos.
Lanzada la moneda por segunda vez, nos trasladamos a la columna “Dos
lanzamientos”. Los resultados posibles son: el primer lanzamiento fue cara (H1) el
segundo también (H2)
Éste es un ejemplo de lo que hace la computadora con el SPSS
Tomamos nota que los eventos del segundo lanzamiento están ligados a los
eventos que resultaron en el primero.
Tabla 4.2
Posibles Resultados
Un lanzamiento Dos lanzamientos Tres lanzamientos
ResultadosPosibles
Probabilidad ResultadosPosibles
Probabilidad ResultadosPosibles
Probabilidad
H1T1
0.50.5
H1, H2H1, T2T1, H2T1, T2
0.250.250.250.25
H1, H2, H3
H1, H2, T3
H1, T2, H3
H1, T2, T3
T1, H3, H3
T1,
H2, T3
T1,
T2, H3
T1,
T2, T3
0.125
0.125
0.125
0.125
0.125
0.125
0.125
0.125
5 9
mailxmail - Cursos para compartir lo que sabes
El segundo evento posible en la columna del segundo lanzamiento es H1, T2,
esto es: en el primer lanzamiento salió una cara (H1) y en el segundo lanzamiento
salió una cruz (T”).
El tercer evento muestra que en el primer lanzamiento se T1 y en el segundo,
H2
El cuarto evento muestra que en el primer lanzamiento T1 y en el segundo,
cara H2
Las probabilidades en cada caso son 0.25, que resultan de
Cara = probabilidad de 0.5
Cruz = probabilidad de 0.5
La probabilidad, del primer evento del segundo lanzamiento H1, H2 es 0.5 x
0.5 = 0.25
Lo mismo con las demás probabilidades
Los datos del tercer lanzamiento se registran de la misma forma; en el primer
lanzamiento se obtuvo una cara (H1) en el segundo también (H2) y en el tercero, una
cruz (T3)
La probabilidad de este evento será 0.5 x 0.5 x 0.5 = 0,125
El mismo razonamiento para los siguientes eventos, hasta que agotamos
todas las probabilidades posibles de los tres lanzamientos de la moneda.
Ahora ya podemos responder a la pregunta que nos hicimos al iniciar este
capítulo: ¿Cuál es la probabilidad de obtener cruz, cruz y cara, en ese orden, luego
de tres lanzamientos?
La pregunta ya nos hace saber que se trata de un experimento de tres
lanzamientos
En nuestra tabla vemos que los eventos que la pregunta exige son: T1, T2, H3
= 0.125
Estos ejercicios nos muestran lo que hace la computadora, en el programa
SPSS, cuando le pedimos que calcule las probabilidades de un problema en el que
estamos interesados.
6 0
mailxmail - Cursos para compartir lo que sabes
6 1
mailxmail - Cursos para compartir lo que sabes
21. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (5/10)
Probabilidades condicionales bajo independencia estadística
Hasta ahora vimos dos clases de probabilidad: la probabilidad marginal (o
incondicional) y la probabilidad conjunta; la primera representada por (PA) y la
conjunta por P(AB)
La Probabilidad Condicional que analizaremos ahora se representa por P(B/A)
que muestra dos eventos: A, y B.
De esta manera, la Probabilidad Condicional P(B/A) representa el caso en que
el segundo evento B ocurre luego que el primero, A, ya ha tenido lugar.
Es decir, nos dice cuál será la probabilidad del evento B una vez que el evento
A ya ocurrió; observemos el proceso que sigue el SPSS.
Antes de continuar, recordemos que para dos eventos independientes, A y B,
la ocurrencia del evento A nada tiene que ver con el la ocurrencia del evento B.
La probabilidad de lograr una cara en un segundo lanzamiento, después de
que el primero dio un resultado, seguirá siendo 0.5, debido a que ambos eventos
son independientes.
A continuación diseñaremos una ayuda-memoria para eventos
estadísticamente independientes; la probabilidad marginal, llamada también
“incondicional” es (PA)
Tabla 4.3
Probabilidades Condicionales
Tipo de Probabilidad Símbolo Fórmula
Marginal P(A) P(A)
Conjunta P(AB) P(A) x P(B)
Condicional P(A/B) P(B)
6 2
mailxmail - Cursos para compartir lo que sabes
Probabilidad Condicional Bajo Dependencia Estadística
Antes de proponer la definición formal, vayamos a un ejemplo ilustrativo.
Hay una caja que contiene diez bolas de colores, distribuidas de la manera
siguiente:
Tres bolas son de color y tienen puntos
Una es de color y tiene franjas
Dos son grises y tienen puntos
Cuatro son grises y tienen franjas
Siguiendo a Levin y Rubin, hacemos un cuadro para visualizar las condiciones
del problema; hay diez bolas, la probabilidad de sacar una cualquiera de ella es
1/10 = 0.10.
Tabla 4.4
La distribución de las diez bolas
Evento Probabilidad del Evento
1 0.1
2 0.1 (De color y con puntos)
3 0,1
4 0.1 (De color y con franjas)
5 0.1 (Grises y con puntos)
6 0.1
7 0.1
8 0.1 (Grises y con franjas)
9 0.1
6 3
mailxmail - Cursos para compartir lo que sabes
10 0.1
Supongamos que alguien saca una bola de color:
¿Cuál es la probabilidad de que tenga puntos?
Simbólicamente, el problema puede representarse como P(D/C), es decir:
¿Cuál es la probabilidad de que la bola tenga puntos (D) dado que es de color (C)?
(Vemos que D representa una bola con puntos, C, de color)
Queremos saber la probabilidad de que, siendo la bola de color, que también
tenga puntos; para ello, ignoramos las bolas grises, pues no cumplen con ninguna
condición dada.
Sólo tomaremos en cuenta las que restan.
Hay cuatro bolas de color, tres de las cuales tienen puntos y la cuarta tiene
franjas; con esa información sólo tenemos que encontrar las probabilidades sencillas.
Ahora deseaos saber la probabilidad de que la bola tenga puntos y de que
tenga franjas
Para ello nos damos cuenta que el total de bolas que tienen color son 4 y las
que tienen color y puntos son tres.
Por lo tanto, la probabilidad de una bola a color con puntos es P(D/C) = ¾ =
0.75
Por otro lado, si nos fijamos en la tabla 4.4 hay una sola bola de color y con
franjas.
Por lo tanto, la probabilidad de color con franjas es = ¼ = 0.25; ambas
suman 1.
En el próximo capítulo veremos la fórmula general sobre la probabilidad
condicional
Algunos ejemplos adicionales
¿Cuál es la probabilidad de que la bola tenga puntos, dado que es de color?
6 4
mailxmail - Cursos para compartir lo que sabes
Esta pregunta equivale: ¿Cuál es la probabilidad de que la bola sea de color y
tenga puntos (son 3 casos de un total de 10) entre la probabilidad de que sea de
color.
Probabilidad de que la bola sea de color y tenga puntos = 3/10 = 0.3
Probabilidad de que la bola sea de color = 4/10 = 0 0.4
La probabilidad de que la bola tenga puntos, dado que es de color, es =
0.3/0.4
Continuamos los datos de la tabla 4.4
¿Cuál es la probabilidad de que la bola tenga puntos, dado que es gris?
Por otra parte, ¿Cuál la probabilidad de que la bola tenga franja, dado que es
gris?
Para la primera parte del problema, vemos en la tabla vemos que:
La probabilidad de bolas grises con puntos = 2/10 = 1/5 = 0.20
La probabilidad de que sea gris es 6/10 = 3/5 = 0.60
La probabilidad de que la bola tenga puntos dado que es gris es = 0.20/0.60
= 0.33
En la segunda parte, de que la bola tenga franja es = 5/10 = 0.5
La probabilidad de una bola que tenga franja, dado que es gris es = 6/10 =
3/5 = 0.60
6 5
mailxmail - Cursos para compartir lo que sabes
22. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (6/10)
Probabilidades marginales bajo dependencia estadística
Esta clase de probabilidades se calculan sumando las probabilidades de todos
los eventos del experimento; v.g: calcular la probabilidad marginal del evento bola
de color.
Sumamos la probabilidad de los eventos en los que aparecen bolas de color.
Volviendo a nuestra tabla, vemos que las bolas de color aparecen “bolas de
color con puntos” y “bolas de color con franjas”; sumamos las dos probabilidades
3/10 + 1/10 = 4/10 = 0.4
La probabilidad de una bola gris resultará de la suma de “bolas grises con
puntos” y “bolas grises con franjas” = 2/10 + 4/10 = 6/10 = 0.6
La Probabilidad Total
A partir de las probabilidades del suceso A (de que llueva o de que haga buen
tiempo) deducimos la probabilidad del suceso B (que ocurra un accidente
automovilístico)
Supongamos que ha ocurrido el suceso B (un accidente) sobre la base de ese
accidente se puede deducir las probabilidades del suceso A (¿estaba lloviendo o
hacía buen tiempo?)
La probabilidad del evento A encierra la probabilidad de varios sub eventos;
¿Llovía en el momento del accidente?; ¿Hacía buen tiempo? ¿Nevaba? ¿Había niebla?
Ese nuevo concepto de probabilidad se denomina “Cálculo de probabilidades
anteriores” y su planteamiento original se debe al conocido estadístico Thomas
Bayes (1702–1761)
Ya a principios del siglo XVIII la teoría de las probabilidades estaba madura,
como para incursionar en otro tipo de modelos, diferentes al que hemos estudiado
hasta ahora.
El tipo de probabilidad estudiado se llama “Probabilidad Clásica”
6 6
mailxmail - Cursos para compartir lo que sabes
El tipo de probabilidad que estudiaremos ahora, se llama Probabilidad
Baynesiana.
El Teorema de Bayes añade nuevas exigencias a la teoría de probabilidades
analizadas; v.g; supongamos que el suceso A es la probabilidad de que llueva o
haga buen tiempo.
Sobre ese escenario se establecerá la probabilidad de ocurrencia de un
segundo suceso, B, digamos, que ocurra un accidente automovilístico.
De la ocurrencia de B (accidente automovilístico) se establece la probabilidad
A (lluvia, nieve o buen tiempo) este es el método que se llama el Teorema de Bayes.
Ejemplo
Se ha anunciado tres probabilidades sobre el tiempo para el fin de semana
Probabilidad de que llueva = 0.50;
Probabilidad de que nieve = 0.30;
Probabilidad de niebla: = 0.20.
La Oficina de tránsito vehicular tiene datos sobre las probabilidades de que
ocurra un accidente automovilístico según los estados meteorológicos.
Lluvia: probabilidad de accidente es = 0.10;
Nieve: probabilidad de accidente es = 0.20;
Niebla: probabilidad de accidente es = 0.05.
Supongamos que ocurre un accidente y no sabemos si llovió, nevó o hubo
niebla.
Para calcular las probabilidades acudimos al Teorema de Bayes
Las probabilidades dadas antes de conocer que ha ocurrido un accidente son
"probabilidades a priori" (lluvia con el 60%, nieve con el 30% y niebla con el 10%)
Una vez conocida la información de que ha ocurrido un accidente, las
probabilidades del suceso son probabilidades condicionadas P (A/B) o
"probabilidades a posteriori".
La probabilidad de que en el momento del accidente lloviera es 0.41
6 7
mailxmail - Cursos para compartir lo que sabes
Ahora veamos la probabilidad de que el accidente ocurrió mientras nevaba:
La probabilidad de que el accidente ocurrió habiendo nevado es 0.33.
Del mismo modo para la probabilidad de que hubiera niebla.
En el numerador registramos la probabilidad de que nieve en el momento del
accidente (0.20) por la probabilidad de que haya un accidente cuando hay niebla
(0.05)
En el denominador se pone la misma información que se usó para los otros
dos casos.
En capítulos más avanzados seguiremos analizando sobre la Probabilidad
Baynesiana.
6 8
mailxmail - Cursos para compartir lo que sabes
23. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (7/10)
Distribución de probabilidades
En la tabla 3.2 del capítulo tercero vimos la distribución de frecuencias en la
segunda columna de la tabla correspondiente a los salarios.
En la siguiente de la tabla obtuvimos las probabilidades de cada rango de
salarios
Ahora vamos a estudiar las distintas distribuciones de probabilidades más
usadas en la estadística. Aprehenderemos el concepto de cada una y luego iremos al
SPSS.
Construiremos la tabla que sugiere Levin y Rubin para registrar los posibles
eventos que resultarían del lanzamiento de una moneda dos veces consecutivas.
Tabla 4.5
Cuadro de probabilidad de lanzar una moneda dos veces consecutivas
Primerlanzamiento
Segundolanzamiento. 2lanzamientos
No. De cruces enresultadosposibles
Probabilidadde los 4
TTHH
THHT
2101
0.5 x 0.5 = 0.250.5 x 0.5 = 0.250.5 x 0.5 = 0.250.5 x 0.5 = 0.25
“H” significa “cara” y “T” significa “cruz” y las probabilidades son teóricas,
puesto que en la realidad puede que en dos lanzamientos los resultados sean
diferentes.
Pero, si lanzamos una moneda no alterada muchas veces, los resultados
obtenidos se irán acercando cada vez más a las probabilidades teóricas.
Deduciremos del anterior cuadro otro que registre la distribución de la
probabilidad del número posible de cruces que se obtiene al lanzar dos veces una
moneda.
6 9
mailxmail - Cursos para compartir lo que sabes
Número de cruces (T) Lanzamiento Probabilidad del Resultado
012
(H, H)(TH + HT)(T, T)
0.250.500.25
Representaremos gráficamente los resultados de la tabla 4.6
Estamos interesados en mostrar la distribución de los resultados referidos a
las cruces.
Para hacer eso, colocamos en el eje de las abscisas de un cuadrante el
número teórico de cruces que observaríamos en dos lanzamientos de la moneda.
En el eje de las ordenadas registramos la probabilidad de cada observación,
de acuerdo con los datos de la tabla 4.6 recordemos que estas probabilidades, son
teóricas.
Gráfica 4.1
En la gráfica 4.1 reflejamos los datos que nos da la tabla 4.6; ambas, la tabla
y la gráfica son dos formas de mostrar una distribución de probabilidades.
Tabla 4.7
Número de pacientes atendidos Número de días que se atendió
100
101
102
103
104
1
2
3
5
6
7 0
mailxmail - Cursos para compartir lo que sabes
104
105
106
107
108
109
110
111
112
113
114
115
7
9
1 0
1 2
1 1
9
8
6
5
4
2
100
En la tabla 4.7 registramos los datos de los pacientes atendidos diariamente,
durante cien días en una clínica; vamos a convertir esos datos en una tabla de
probabilidades.
Este ejercicio es útil para tener una imagen de lo que hace el SPSS en la
computadora.
Definamos algunos conceptos, antes de resolverlo.
7 1
mailxmail - Cursos para compartir lo que sabes
24. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (8/10)
Variable Aleatoria
Es la variable que toma diferentes valores como resultado de un experimento
aleatorio; puede ser discreta o continua, de acuerdo con el número de valores que
toma.
Si toma sólo un número limitado de valores, será una Variable Aleatoria
Discreta; si puede tomar cualquier valor dentro de un intervalo, será una Variable
Aleatoria Continua.
En la tabla 4.7 anotamos el número de pacientes mujeres atendidas
diariamente en una clínica en los últimos cien días; esto es, una distribución de
frecuencias.
De inmediato, convertiremos los datos de las frecuencias en probabilidades;
tabla 4.8
Tabla 4.8
Distribución de Probabilidades del número de pacientes de la clínica
En la columna izquierda registramos el número de pacientes que son
atendidos diariamente en la clínica; en la derecha, se anotan las probabilidades para
7 2
mailxmail - Cursos para compartir lo que sabes
atendidos diariamente en la clínica; en la derecha, se anotan las probabilidades para
cada caso.
Para deducir estas probabilidades, se ha dividido el número de días para cada
número de pacientes de la tabla 4.7 entre cien, que es el número total de días
registrados.
La suma de las frecuencias del número de días anotados en la tabla 4.7 suma
100.
Los datos convertidos en probabilidades en la tabla 4.8, suman en total 1.
La suma de todas las probabilidades siempre es 1, en cualquier caso.
Con los datos de la tabla 4.8 diseñamos una gráfica de distribución de
probabilidad.
Registramos en el eje de las abscisas el número diario de pacientes atendidas
y en el eje de las ordenadas sus respectivas probabilidades.
El gráfico 4.2 es para una distribución de probabilidades para variables
discretas.
No dejamos de notar que la longitud más larga corresponde a la probabilidad
mayor de la distribución; también notamos la simetría de las longitudes a ambos
lados.
Gráfica 4.2
Distribución de Frecuencias de probabilidades
Sobre esa simetría es que Gauss llegó a establecer la Distribución Normal
7 3
mailxmail - Cursos para compartir lo que sabes
Sobre esa simetría es que Gauss llegó a establecer la Distribución Normal
para valores continuos, que es la que más a menudo usaremos en el SPSS, una vez
que la definamos.
La Curva Normal, lo dijimos ya, refleja la distribución normal de los datos y es
la que los estadísticos tratan de encontrar para realizar sus análisis.
Cuando los datos originales no muestran una distribución normal, los
estadísticos transforman los valores de la muestra por otros.
Por ejemplo, pueden transformar los datos originales en sus logaritmos
naturales y comprobar si la nueva distribución se acerca más a la normal que la
anterior.
Ese procedimiento será usado por nosotros en un apartado próximo.
Mientras tanto, nos familiarizaremos con lo que significado de Valor Esperado.
7 4
mailxmail - Cursos para compartir lo que sabes
25. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (9/10)
Valor Esperado de una variable Aleatoria Discreta
Se calcula, multiplicando cada valor que la variable pueda tomar, por la
probabilidad de que ese valor se presente; al final, sumamos total de estos
resultados parciales.
Construiremos un cuadro del Valor Esperado de la variable discreta “Número
de Pacientes”; con ese objeto, tomamos los valores de la tabla 4.7 y estructuramos
la tabla 4.9.
El Valor Esperado de la Variable aleatoria “número de pacientes atendidos
diariamente durante una muestra de cien días” es 108.20.
Tabla 4.9
Este resultado quiere decir que la clínica, en circunstancias normales,
esperará atender un promedio de 108.20 pacientes por día.
Otro ejemplo; en la tabla 4.10 anotamos la probabilidad para cada venta
diaria de fruta
7 5
mailxmail - Cursos para compartir lo que sabes
Tabla 4.10
Ventas durante 100 días
La probabilidad de cada venta diaria se obtiene dividiendo el número de días
que se vendió esa cantidad entre 100, que es el total de días que se observó los
niveles de ventas.
7 6
mailxmail - Cursos para compartir lo que sabes
26. Estadística. Conceptos de Probabilidad yaplicaciones prácticas (10/10)
Definición de las clases de pérdidas
Generalmente, las empresas que venden fruta sufren dos clases de pérdidas:
Pérdidas de obsolescencia, por tener demasiada fruta en un día y botarla al
día siguiente.
Pérdidas de oportunidad, por no tener la suficiente fruta para atender a los
clientes.
Estas pérdidas se evitan cuando se tiene la cantidad precisa para atender la
demanda.
La tabla 4.11 muestra las pérdidas condicionales de nuestro frutero; allí se
muestran tanto las pérdidas por la fruta no vendida en el día, como las pérdidas de
oportunidad.
Cada caja de fruta le cuesta al frutero $ 20; el frutero vende cada caja a $ 50.
Cuando no hay pérdidas, el cuadro las registra con un 0.
Tabla 4.11
Pérdidas condicionales
Todos los valores distintos de 0 representan las pérdidas de oportunidad por
los pedidos no cumplidos; si en existencia hay sólo 10 cajas y solicitan 11, estará
perdiendo $30.
La pérdida de $30 es porque se dejó de ganar $50, a los que se resta $20 que
le costó
Tal es el caso de la casilla de la segunda fila y la primera columna del cuadro.
7 7
mailxmail - Cursos para compartir lo que sabes
Tal es el caso de la casilla de la segunda fila y la primera columna del cuadro.
Tabla 4.11
Cálculo de pérdidas esperadas
Si la demanda es de 13 cajas, pero sólo tiene 10, la pérdida por oportunidad
será 90
La pérdida esperada resulta de multiplicar la “pérdida condicional”, por la
“Probabilidad de la demanda” para ese día; en la primera fila vemos que no hubo
pérdida
Es la demanda y la disponibilidad de fruta fue de 10 cajones en cada caso.
¿Qué pasa si el frutero tiene una disponibilidad de 10 cajones pero la
demanda es de 13?
La pérdida condicional será de $ 90
Si multiplicamos esos $ 90 por la probabilidad de que la demanda sea de 13
cajones, se obtendrá $ 22.50 de pérdida esperada; esto es: 90 x 0.25 = 22.50.
7 8
mailxmail - Cursos para compartir lo que sabes
27. Distribución de probabilidades. DistribuciónNormal (1/5)
5 DISTRIBUCIÓN DE PROBABILIDADES
La Distribución Normal
La Distribución Normal es la más importante de todas y la más usada en
ciencias sociales; es una distribución continua, no discreta.
Fu diseñada por Karla Gauss en el siglo XIX
Por eso se llama también distribución de Gauss.
La Distribución Normal tiene características útiles a muchas situaciones en las
que es preciso decidir, tomando como base las muestras que se levantan de una
población dada.
Representa muy bien las distribuciones de fenómenos reales, incluyendo
características humanas, tales como el peso, la altura, el coeficiente de inteligencia y
otras.
Con el objeto de mostrar el proceso de cómo se llega a la Curva de la
Distribución Normal, reproduzcamos en la gráfica 5.1, la gráfica 4.2 del capítulo
anterior
Gráfica 5.1
Distribución de Probabilidad Normal
Ahora hagamos que los intervalos entre los valores de las probabilidades,
registrados en las ordenadas y los intervalos del número de pacientes, se vuelvan
infinitesimales.
7 9
mailxmail - Cursos para compartir lo que sabes
infinitesimales.
Es decir, que los valores de vuelvan continuos.
La curva resultante será la Curva Normal que se muestra en la gráfica 5.2
Figura 5.2
Una Curva Normal
De inmediato nos damos cuenta de que la superficie de la Curva Normal está
conformada por la adición de todas las probabilidades de los resultados de un
experimento.
Precisamente, la tarea más importante de operar con la Curva Normal es
encontrar la probabilidad de un resultando como efecto de un experimento.
Particularidades
La Curva Normal tiene un solo pico; lo que significa que sólo tiene una moda,
es unimodal; la Media la Mediana y la Moda, están en el mismo punto central, son
iguales entre sí.
En primer término veamos la simbología de los parámetros de la Curva
Normal:
representa el error típico de la curva normal
X* representará la Media de la muestra; también se usa la X con una barra
encima.
Los extremos, izquierdo y derecho, se extienden y nunca tocan la línea base.
La mayor densidad de frecuencias está en a
Allí son iguales la Media, la Mediana y la oda.
No hay una sola curva normal, sino una familia completa
8 0
mailxmail - Cursos para compartir lo que sabes
No hay una sola curva normal, sino una familia completa
Para definir una curva normal, lo único que necesitamos es definir dos
parámetros:
La media =
Error típico =
Conociendo esos dos parámetros, se puede diseñar una curva de distribución
normal.
Gráfica 5.2
Curvas normales
En esta serie de tres curvas normales, la de la izquierda tiene la desviación
estándar más pequeña; la del medio, un poco mayor y la tercera tiene la mayor de
todas.
Sin embargo, todas ellas tienen una Media = Mediana = Moda = 50
8 1
mailxmail - Cursos para compartir lo que sabes
28. Distribución de probabilidades. DistribuciónNormal (2/5)
Área bajo la Curva Normal
El área de cualquier curva normal es 1.00, independientemente de su media o
desviación estándar; el cuerpo mismo de la curva es un conjunto completo de
probabilidades.
Conociendo que La Curva Normal tiene una media y una desviación estándar,
es posible derivan las siguientes características que singularizan a toda clase de
curvas normales:
Alrededor del 68% de los valores de una población normalmente distribuida
se encuentra dentro de una desviación estándar de la media, tanto a la izquierda
como a la derecha.
Alrededor del 95.5% de los valores de una población normalmente distribuida
se encuentra dentro de dos errores típicos de la media, tanto a la izquierda como a
la derecha
Alrededor del 99.7 de los valores de una población normalmente distribuida
se encuentra dentro de tres errores típicos de la media, tanto a la izquierda como a
la derecha.
Gráfica 5.3
Áreas dentro de la Curva Normal
En la gráfica 5.3 vemos que el 68% de los datos están en el centro; el resto,
32% se dividen en las dos alas de la izquierda y la derecha, cada una con el 16%.
En la gráfica 5.4, el 95% de las observaciones están en el área central y el 5%
restante se reparten en las alas de la izquierda y derecha, cada una con el 2.5%
La distancia entre las verticales de esa curva es tres a la izquierda y tres a
8 2
mailxmail - Cursos para compartir lo que sabes
la derecha
Gráfica 5.4
El 95% de las observaciones
En cada una de las colas, a partir de las verticales, se concentra el 2.5% del
total de las observaciones cuya distribución es normal.
En este momento no tenemos aún una idea clara de lo que esto significa, pero
a medida que avancemos iremos captando la lógica de la curva normal y el uso que
vamos a darle.
Ejercicio 1
Asumamos que la Media Aritmética (la Media) de los ingresos mensuales de
los alumnos del curso es de $ 200 y que el error típico es = 70
Deseamos estimar el valor a la derecha que diste un error típico de la media.
Sabemos que la media es la que representa la mayor frecuencia de todas las
observaciones; de acuerdo con las condiciones del problema, ese punto de máxima
densidad es 200.
Con esos datos podemos diseñar la Curva Normal que se muestra en la
gráfica 5.5.
Podemos hacerlo, porque ya sabemos que = 100 y = 00.
Gráfica 5.5
Ahora bien, el si la desviación estándar es = 70, entonces la observación a
la derecha está a una distancia de una desviación estándar de la media, por eso su
8 3
mailxmail - Cursos para compartir lo que sabes
valor es 270.
Ejercicio 2
Supongamos que diseñamos una curva normal cuya media es 80 y una
desviación estándar de 10 y nos piden los valores que están a tres desviaciones
estándar de la media.
La gráfica 5.6 es la curva normal que tiene la media de 80 y la desviación
estándar 10; el valor de la derecha es 110: se distancia de la media en tres
desviaciones estándar
El valor de la izquierda es 50, pues se distancia 3 desviaciones estándar de la
media.
Gráfica 5.6
8 4
mailxmail - Cursos para compartir lo que sabes
29. Distribución de probabilidades. DistribuciónNormal (3/5)
Uso de la tabla normal
Para tener los conceptos claros cuando utilicemos el SPSS, vamos a
familiarizarnos con el uso de la Tabla de Distribución Normal.
En la tabla anterior se representa el área bajo la curva normal entre la media y
cualquier valor que asuma la variable aleatoria normalmente distribuida; tiene
columnas y filas.
En la primera columna anota los valores que toma la desviación estándar de la
curva que usaremos para resolver un problema concreto; ese valor va de 0 hasta 3.9
que es el tope.
A continuación se muestra una tabla de valores de la Distribución Normal
8 5
mailxmail - Cursos para compartir lo que sabes
Ejemplo, el valor 1 de esa columna significa que la desviación estándar de la
curva es 1.
Para esa desviación estándar, el área bajo la curva, es decir, la probabilidad
de que algo ocurra es 0.3413. las demás columnas nos muestran los decimales de
la desviación.
El valor de las desviaciones estándar en la columna de la izquierda se
representa por z.
Utilicemos el proceso inverso; buscamos un valor cualquiera, digamos 0.3508;
Ubicado ese valor en la tabla vemos que corresponde a una desviación
8 6
mailxmail - Cursos para compartir lo que sabes
Ubicado ese valor en la tabla vemos que corresponde a una desviación
estándar z = 1.04
Gráfica 5.7
El valor z, que es el valor de cada desviación estándar se define z = (x –
) /
z = número de desviaciones estándar que hay entre el valor x que buscamos
y la media de la distribución.
x = valor de la variable aleatoria que buscamos
= media de la distribución de la variable aleatoria
= error típico de la distribución
Vamos a poner algunos ejemplos, pues con la práctica se aprende mucho más
rápido.
Una vez que tengamos las ideas claras, en otro capítulo acudiremos al SPSS.
Estos ejemplos nos permitirán visualizar el uso de la tabla de áreas bajo la
curva normal
Lo que debemos guardar en mente es que la curva está dividida en dos partes
iguales.
8 7
mailxmail - Cursos para compartir lo que sabes
30. Distribución de probabilidades. DistribuciónNormal (4/5)
Ejercicio 1
Está en proceso un curso completo de Estadística.
¿Cuál es la probabilidad de que un participante elegido al azar se tome entre
500 y 650 horas para completarlo, dado que el tiempo promedio de aprendizaje es
de 500 horas y se conoce que la desviación estándar es de 100 horas?
Lo primero que anotamos son los estadísticos:
La media = 500 y la desviación estándar, = 100
La pregunta nos pide la probabilidad de que un alumno tome entre 500 y 650
horas para cubrir el curso; la probabilidad es P(500 a 650)
Asumimos que la distribución de las horas de aprendizaje es normal,
graficamos nuestra Curva de Distribución Normal.
Gráfica 5.9
Para resolver el problema debemos estandarizar los datos con nuestra
fórmula:
z = (x – ) / ; z = (650 – 500)/100; 1.5
Convertimos la información en desviaciones estándar, lo que nos dice que la
cantidad de horas = 650 está ubicada a una distancia de z = 1.5 desviaciones
estándar de la media
Recurrimos a la Tabla de Distribución Normal y buscamos en la columna de
las z = 1.5
Como no hay más decimales, encontramos el valor que buscamos en la
columna inmediata a su derecha (0.00) que es igual a 0.4332
8 8
mailxmail - Cursos para compartir lo que sabes
columna inmediata a su derecha (0.00) que es igual a 0.4332
Ésa es la probabilidad de que un participante elegido al azar emplee de 500 a
650 horas para terminar el curso es 0.4332.
Con el SPSS
Para comprobarlo vayamos al SPSS; en Vista de Variables anotamos esta; en
Valores:
500 = a
650 = b
Creamos las dos variables a y b y vamos al menú Transformar, anotamos b en
la Variable de Destino, y en la pantalla de la derecha:
CDF.NORMAL(650,500,100)-CDF.NORMAL(500,500,100)
El resultado en la pantalla de vista de datos es 0.433193
Ejercicio 2
Con los mismos datos del anterior problema ¿Cuál es la probabilidad de que
un participante, elegido al azar, se tome más de 700 horas en completar el
programa?
Tomamos nota de los estadísticos dados
x = más de 700 horas; = 500; = 100
Diseñamos una curva normal; en ella debemos encontrar la P(más de 700)
Gráfica 5.10
Lo que nos piden es encontrar la probabilidad a la derecha de 700 horas.
Sabemos que = 500; x = más de 700; = 100
Convertimos nuestros datos en desviaciones estándar; z = (700 – 500)/100
8 9
mailxmail - Cursos para compartir lo que sabes
= 2
Este dato nos dice que 700 horas está a 2 desviaciones estándar de la media
que es 500.
En la tabla encontramos que para 2 desviaciones estándar, la probabilidad es
0.4772.
Pero el problema no se refiere a 700 horas, sino a más de 700 horas
Es decir, no se refiere a la probabilidad que se encuentra entre 500 y 700,
sino que se encuentra en más de 700 horas.
En la gráfica 5.10 nos indica que lo que buscamos es la probabilidad a la
derecha de 700.
Sabemos que la mitad derecha, como la izquierda, tiene una probabilidad de
0.5
Sabemos que la probabilidad de 700 horas = 0.4772, realizamos la siguiente
operación: Valor total de la mitad derecha de la curva = 0.5, menos la probabilidad
de 700 = 0.4772
Así: 0.5000 – 0.4772 = 0.0228 es la P(más de 700 horas.)
Con el SPSS
Con las mismas variables, vamos a Vista de Datos y en Valores anotamos
500 = a
700 = b
Con el mismo procedimiento que los anteriores vamos a Transformar,
anotamos b en Variable de destino y en la pantalla grande:
1-CDF.NORMAL(700,500,100)
El Resultado es 0.22750
9 0
mailxmail - Cursos para compartir lo que sabes
31. Distribución de probabilidades. DistribuciónNormal (5/5)
Ejercicio 3
Con los mismos datos del problema original, se desea saber la probabilidad
que a un participante le tome entre 550 y 650 horas aprender el curso total.
Para empezar, nos damos cuenta de que es preciso calcular el valor de dos x;
x1 y x2
Los datos son = 500; x1 = 550; x2 = 650 ; = 100
Primero calculamos el valor de cada x
De inmediato notamos que el valor de 550 está a la derecha de la media =
500
Empezamos calculando el número de desviaciones estándar entre 550 y 500
z = (x – ) /= (550-500) /100 = 0 .5
Buscamos en la tabla el valor de 0.5 en la columna de las desviaciones
estándar (z)
Ese valor es 0.1915; ahora hacemos lo mismo con el cálculo tomando como x
= 650.
z= (650 – 500)/100 = 1.5
El valor para 1.5 desviaciones estándar en la tabla es 0.4332.
El problema consiste en hallar la probabilidad entre 550 y 650 horas
Esto representa hallar el área entre 550 y 650, tal como se ve en la siguiente
curva, recordando que la media es 500
Para encontrar el valor que nos pide el problema, que es entre 550 y 650
horas, tomamos el área entre 650 y 500 y le restamos el área entre 550 y 500.
Es decir, toamos el área A+B y le restamos el área A
Lo que queda es el área B, que es el área que estamos buscando
9 1
mailxmail - Cursos para compartir lo que sabes
Gráfica 5.11
Área A + B = 0.4332
Área A = 0.1915
Área B = 0.2417
La probabilidad de que un participante necesite un tiempo entre 550 y 650
horas para vencer el curso completo de Estadística, es 0.2417
Resolviendo con el SPSS
Vamos a Vista de Variables, creamos la variable esta, en valores asignamos.
a = 550
b = 650
Creamos las variables a y b variables y vamos a Vista de Datos Transformar;
anotamos b en Variable de Destino
Destinos y en la pantalla de la derecha registramos:
CDF.NORMAL(650,500,100)-CDF.NORMAL(550,500,100)
El resultado con 6 decimales será: 0.241730
Ejercicio 4
¿Cuál es la probabilidad de que un participante escogido al azar se tome
entre 420 y 570 horas para aprobar el curso?
Diseñamos nuestra curva normal con las condiciones requeridas:
El problema nos pide la suma de las probabilidades que se encuentran entre
420 y 500 más la que está entre 570 y 500; necesitamos áreas de las dos mitades
de la curva.
Es decir, sumar las áreas A + B
9 2
mailxmail - Cursos para compartir lo que sabes
Empezaremos calculando los valores de sus respectivas desviaciones estándar
= z .
z1 = (420-500)/100 = -0.80; z2 = (570 – 500)/100 = 0.70
Las desviaciones estándar son -0.80 y 0.70 respectivamente; no tomamos en
cuenta el signo negativo y más bien buscamos las probabilidades respectivas a cada
z en la tabla.
Las probabilidades son, respectivamente 0.2881 y 0.2580; sumamos estas
probabilidades: 0.2881 + 0.2580 = 0.5461.
La probabilidad de que un participante escogido al azar requiera entre 420 y
570 horas para aprender el curso de estadística es 0.5461.
Con el SPSS
En Vista de Variables, Valores: a 420 y b 570
Crear las dos variables y en la pantalla Vista de datos poner b debajo de esta
En Transformar, b en Variable de Destino y en la pantalla de la derecha
CDF.NORMAL(570,500,100)-CDF.NORMAL(420,500,100)
Resultado = 0.54618
Ejercicio 5
¿Cuál es la probabilidad de que a un participante le toma más de 500 horas?
El problema nos dice que el alumno puede tomar cualquier número de horas
después de la media aritmética que, como hemos venido usando en todos los
ejemplos, es de 500.
Ya es fácil para nosotros deducir que lo que nos están pidiendo es la
probabilidad total de la segunda mitad de la curva normal, esto es: 0.5000
9 3
mailxmail - Cursos para compartir lo que sabes
Esa es también la probabilidad de que el participante le tome más de 500
horas.
Lo que hicimos en los anteriores capítulos fue formarnos una idea de cómo se
distribuyen las probabilidades de ocurrencia cuando las distribuciones son discretas.
Pero la Curva Normal es una distribución de variables continuas.
Hay más modelos teóricos de distribución de probabilidades que los
estadísticos usan con gran frecuencia y no son continuas; esos modelos se
encuentran en el SPSS.
Para usarlos con propiedad, debemos captar muy bien el concepto de cada
una.
9 4
mailxmail - Cursos para compartir lo que sabes
32. Distribución de probabilidades. DistribuciónBinominal (1/2)
La Distribución Binomial
Es una distribución de variables discretas; v.g, el lanzamiento de una moneda
o una distribución en la que haya dos variables: cierto-no cierto, sí-no; éxito o
fracaso
Cada lanzamiento de la moneda tiene sólo dos resultados: cara o cruz; sí o
no; esas probabilidad permanece fija en el tiempo y los intentos son
estadísticamente independientes
Las propiedades de una distribución binomial
p = probabilidad de tener éxito; 0.5
q = 1 – p, es la probabilidad de fracaso; 0.5
r = número de éxitos deseados.
n = número de intentos hechos.
Reconocemos cuándo debemos utilizar una distribución binomial por el tipo
de problema, recordando las características que tienen las variables que la
estructuran.
La Distribución Binomial y el SPSS
Luego de haber captado el concepto respectivo, usemos el SPSS para resolver
problemas relacionados con varios tipos de distribución de probabilidades.
Ejercicio 1
Un agente de seguros vende pólizas a 5 individuos, todos de la misma edad.
La probabilidad de que un individuo viva 30 años más es 3/5.
Desea estimar la probabilidad de que dentro de 30 años aún vivan:
a) 4 individuos;
b) como mucho 2
c) al menos 3 individuos;
9 5
mailxmail - Cursos para compartir lo que sabes
d) más de 1 y 4 como máximo.
Solución
Vamos a Vista de Variables y creamos la variable “vida”, numérico, 4 decimales
En “valores” asignamos
a = 4 (Se refiere a que estaos pidiendo la probabilidad de que 4 individuos
vivan los 30 años siguientes, para lo que se ha estimado una probabilidad de 0.6)
b = 2 (Nos Pide que se calcule la probabilidad de que por lo menos 2
individuos van a vivir los siguientes 30 años)
c = (Nos pide estimar la probabilidad de que por lo menos 3 individuos vivan
30 años más)
d = más de 1 y máximo 4 (nos pide la probabilidad de un en número de
individuos que vivan 30 años más se encuentre entre 1 y 4)
En la Pantalla de Variables también creamos las cuatro variables: a, b, c, d, sin
especificar nada en la columna de “valores” pues ya lo hemos hecho
Al analizar la opción a, nos damos cuenta de que se nos pide exactamente la
probabilidad de 4 individuos, por lo que usaremos la opción PDF.BINOM
En la pantalla de datos anotamos 4 debajo de la variable vida
Vamos al Menú grande: Transform anotamos a en la casilla Variable de
Destino
En la primera pantalla de la izquierda escogemos Todo
En la de abajo aparece el menú de las funciones que tiene el SPSS en esa
dimensión
Escogemos Pdf.Binom
En la pantalla, debajo del teclado, aparece una nota indicando las
características de la distribución Pdf.Binom
Pulsamos la flecha que indica hacia arriba y en la pantalla superior aparece
PDF.BINOM(?,?,?)
Reemplazamos la primera interrogación con 4, que es el número exacto de
9 6
mailxmail - Cursos para compartir lo que sabes
Reemplazamos la primera interrogación con 4, que es el número exacto de
individuos cuya probabilidad de que vivan, los próximos 30 años, es la que
deseamos estimar.
La segunda interrogación, con 5, es el número de individuos que se ha
escogido al azar para hacer el ejercicio
La tercera interrogación, con 0.6; probabilidad de que un individuo viva 30
años más
Reemplazadas las interrogaciones aceptamos
En la pantalla de datos vemos el resultado: 0.2592
La probabilidad de que un individuo viva 30 años más, a partir de la edad que
tiene, es 0.6 y la probabilidad de que cuatro de ellos lleguen vivir los 30 años más
es 0.2592
Ejercicio 2
Sobre los mismos 5 individuos escogidos y la misma probabilidad de 0.6, la
opción b del problema nos pide estimar la probabilidad de que vivan a lo sumo 2
individuos.
En este caso, como no nos están dando un dato exacto, sino variable, (a lo
sumo 2) ya no usamos el Pdf.Binom, sino que, del mismo menú vamos a Cdf.Binom
En la pantalla de datos anotamos b
En la Variable de Destino anotamos b (según los códigos que hemos dado en
“valores”)
Sustituimos las interrogaciones con: 2,5,0.6 respectivamente
El resultado es 0.31744
9 7
mailxmail - Cursos para compartir lo que sabes
33. Distribución de probabilidades. DistribuciónBinominal (2/2)
Ejercicio 3
Ahora nos piden estimar la probabilidad de que por lo menos 3 individuos
vivan 30 años más, manteniendo los cinco escogidos y la probabilidad de 0.6
En este caso, seguimos con la versión Cdf.Binom; anotamos 3 en la casilla
Variable de Destino; pero hay algo más que debemos hacer:
A diferencia del anterior problema, en el que nos pedía a lo sumo 2
individuos, ahora nos piden que por lo menos 3 individuos vivan 30 años más; el
planteo es diferente
Ahora se trata de estimar la probabilidad total menos la probabilidad de que
vivan menos de 3, es decir, menos la probabilidad de que vivan uno o dos.
En la pantalla de datos anotamos 3 debajo de vida
Por eso es que resolvemos el problema con el siguiente planteamiento:
1–Cdf.Binom(2,5,0.6)
Es decir, el total de la probabilidad menos la probabilidad de 2 individuos.
Subimos la función Cdf.Binom, llenamos los interrogantes con 2,5,0.6
respectivamente y añadimos la expresión (1-) al comienzo
En la pantalla deberá leerse 1-cdf.Binom(2,5,0.6)
Aceptamos
En la Pantalla de Datos, en la columna c, aparece la probabilidad calculada:
0.68256
Ejercicio 4
La opción nos pide estimar la probabilidad de que el número de individuos
entre 1 y 4 alcancen a vivir los próximos 30 años
(En realidad, nos piden la probabilidad de que vivan 2 y 3 individuos)
Planteamos el problema de la siguiente manera:
9 8
mailxmail - Cursos para compartir lo que sabes
Cdf.Binom(4,5,0.6)-CdfF.Binom(1,5,0.6)
En la pantalla de datos aparece la probabilidad debajo de la casilla d =
0.83520
Ejercicio 5
En una escuela, la directora toma como muestra a 5 alumnos escogidos al
azar para estimar las probabilidades de que 0, 1, 2 y 3 alumnos lleguen tarde,
sabiendo que la probabilidad de que un alumno llegue tarde es 0.4
Para empezar, vamos a la Pantalla de Variables y creamos una variable
llamada tard
En Valores anotamos :
0 = a
1 = b
2 = c
3 = d
Debajo de tard anotamos las variables a, b, c y de
Estas variables aparecen en la pantalla Vista de Datos
Si deseamos estimar la probabilidad de a, la escribimos debajo de tard en la
pantalla de Vista de Datos; lo mismo haremos para estimar las demás opciones (b, c,
d)
En cada caso nos piden exactamente una cantidad dada de alumnos, por lo
que recurriremos a la forma Pdf.Binom
En el menú Transformar anotamos a en la casilla Variable de destino
Para estimar la probabilidad de que nadie falte anotamos: subimos la versión
Pdf.Binom y reemplazamos las interrogantes con 0,5,0.4; en la pantalla aparecerá:
F.BINOM(0,5,0.4)
El resultado es 0.07776
Procedemos de la misma manera para cada uno de los casos que se nos pide.
9 9
mailxmail - Cursos para compartir lo que sabes
Ejercicio 6
Se nos pide estimar la probabilidad de que en tres lanzamientos de una
moneda aparezcan dos caras
En este caso, también nos piden un valor exacto, 2 caras, por lo que
usaremos la versión Pdf.Binom, conociendo que la probabilidad de que salga una
cara es 0.5
El resultado es 0,31250, es decir, la probabilidad de que luego de tres
lanzamientos de una moneda, tengamos dos caras en cualquier orden es 0.37500
Ejercicio 7
Se quiere calcular tres tubos llenos de una sustancia química de una muestra
de seis sabiendo que la probabilidad de lograr un tubo lleno es 0.8
En Lista de Variables anotamos tub, numérico, 0, en valores: 3 para a
Abrimos también la variable a en la misma vista de variables
También la anotamos debajo de la variable tub en la pantalla de datos
En Transform, anotamos a en Variable de Destino
Como nos piden exactamente 3 tubos acudimos a la función Pdf.Binom de la
casilla respectiva; la subimos a la pantalla superior, llenamos los interrogantes con
3,6,0.8
Aceptamos; en la pantalla de datos tenemos la probabilidad 0.08192.
1 0 0
mailxmail - Cursos para compartir lo que sabes
34. Distribución de probabilidades. Distribución dePoisson
La Distribución de Poisson
Es otra de las distribuciones más usadas para resolver problemas con
variables discretas; esta distribución debe su nombre a su creador, Denis Poisson
(1781-1840).
Hay varios tipos de problemas que requieren de esta distribución
La distribución de llamadas telefónicas que llegan a una central, las llamadas
que los pacientes internados en las clínicas hacen a las enfermeras.
También debemos incluir el número de coches motorizados que llegan a un
control de rodaje y otras; todos se refieren a procesos discretos con una o más
ocurrencias.
Así, el número cotidiano de llamadas a las enfermeras puede representarse
por 1, 2, 3, 4,… lo mismo el de llegadas de vehículos a pagar rodaje.
Podemos darnos cuenta de la diferencia entre distribución de Poisson y la
Binomial: la segunda toma en cuenta dos evento: un sí y un no; la de Poisson
incluye más opciones.
Cálculo con el SPSS
El proceso es igual al que empleamos en el cálculo de la distribución binomial.
Se desea averiguar cuál es la probabilidad de que suceda 0 accidentes, 1
accidente y 2 accidentes en un día, en una calle donde el promedio es de 5
accidentes por día.
Vamos a estimar la probabilidad de que el número de accidentes sea 0.
En la pantalla de Vista de variables creamos una variable, even.
En Valores asignamos:
0 = a
1 = b
1 0 1
mailxmail - Cursos para compartir lo que sabes
2 = c
3 = d
Tal como lo hicimos en las otras distribuciones; debajo de ella creamos la
variable x0
En la pantalla Vista de datos, bajo la columna que dice even, anotamos: x0
Menú Principal Transformar Calcular variable: allí ingresamos la variable
x0 con el objeto de estimar la probabilidad de que ese día haya cero número de
accidentes.
En la parte inferior derecha hay un cuadro de funciones con un menú;
pulsamos Todo.
Del menú de funciones buscamos en esa lista la función Pdf-Poisson.
Las características de la función Poisson aparecerán debajo del teclado; la
subimos y en la pantalla aparece Pdf.Poison (?,?)
Reemplazamos el primer interrogante con x0 y el segundo con 5
Aceptar la pregunta que nos hará el SPSS OK.
En la pantalla Vista de datos aparece el número 0,006738, que es la
probabilidad de que se registren cero accidentes en una calle en la que el promedio
de accidentes diario es 5.
Si deseamos saber la probabilidad de que ocurra exactamente 1 accidente ese
día en esa misma calle, repetimos el proceso; vamos a Vista de variables y creamos
la variable x1.
El número de decimales será 6Repetimos el anterior proceso, reemplazando
las interrogantes con 1 y 5 respectivamente.
En la pantalla de Vista de datos aparecerá 0.033690 que es la probabilidad de
que ocurra exactamente un accidente en ese día en la calle cuyo promedio diario es
de 5 accidentes.
Repetimos el proceso para los demás casos; no olvidemos de registrar las
variables creadas (x0, x1, x2, x3) en la Pantalla de Datos cada vez que deseamos
estimar una de ellas.
1 0 2
mailxmail - Cursos para compartir lo que sabes
1 0 3
mailxmail - Cursos para compartir lo que sabes
35. Grandes pioneros de la Estadística
Carl Friedrich Gauss
(1777-1855)
Matemático y Físico; los eruditos dicen que Gauss es considerado como una
de los más grandes matemáticos de todos los tiempos. La “Teoría de los Errores” es
una de sus contribuciones a la Estadística. Estudió en la Universidad de Göttingen,
que era el centro de los matemáticos en Alemania. Inicialmente, Gauss se interesó
por la Economía, pero después se dedicó a la geodesia. Usó del Método de los
Cuadrados Mínimos y fue el gran diseñador de los errores normales, que dieron
lugar a la Curva de Gauss o Curva Normal, la que nosotros analizaremos en este
capítulo. Esa Curva y la Teoría de los Errores fueron deducidas de la Media
Aritmética. En asociación con Markov, proporcionó a la Estadística con otro de sus
instrumentos más importantes: el Teorema Gauss-Markov, que se refiere a la
Regresión Lineal y que aplicaremos cuando nos corresponda analizar ese tema.
Ahora ingresaremos al análisis de una de las mayores contribuciones que Gauss hizo
a la Estadística: La Distribución Normal. Esta distribución de probabilidades también
es conocida con el nombre de la Campana de Gauss.
Lambert Adolphe Jaques Quetelet
(1796-1874)
1 0 4
mailxmail - Cursos para compartir lo que sabes
Fue astrónomo y estadísticos; aprendió probabilidad con Fourier, como
resultado, en 1835 escribió su obra Sobre el Hombre y el Desarrollo de sus
Facultades, que fue una Intro-ducción a la “Física Social”, en la cual introdujo el
concepto del “Hombre Medio”. Su obra “Cartas sobre la Probabilidad fue escrita en
1846, en la que describía la distribución de las medidas. Fundó la Sociedad
Londinense de Estadística.
Economistas de su tiempo, tales como Stanley Jevons y homres de ciencia
como Galton, continuaron con su obra. En la prime-ra década del siglo XX, J. M.
Keynes dijo de él: Tiene todo el derecho de ser recordado como el padre del
método estadístico moderno.
Ludwig Boltzmann
(1844-1906)
Físico teórico; en trabajo conjunto con Gibbs fue responsible de la
transformación de la teoría probabilística de Maxwll en la mecánica estadísticas.
Obtuvo su doctorado de la Universidad de Viena por su tesis sobre la teoría kinésica
de los gases. La Mecánica Estadística requería soluciones a problemas de la teoría de
las distribuciones y también generan problemas conceptuales. En 1878, Boltzmann
1 0 5
mailxmail - Cursos para compartir lo que sabes
las distribuciones y también generan problemas conceptuales. En 1878, Boltzmann
nos dio la distribución 2 para dos y tres grados de libertad; posteriormente, en
1881 estructuró la Distribución 2 para n grados de libertad, ambas serán
analizadas en capítulos venideros. La Enciclopedia Stanford incluye dos artículos
muy importantes de Boltzmann: su trabajo sobre Física Estadística y la a Filosofía de
la Mecánica Estadística.
1 0 6
mailxmail - Cursos para compartir lo que sabes
36. Muestreo y Distribuciones de Muestras
6 MUESTREO Y DISTRIBUCIONES DE MUESTRAS
Introducción
Por lo general, no se tiene datos sobre las poblaciones totales a las que se
desea analizar
La Estadístico depende, sobre todo, de las muestras que deriva de sus
encuestas.
Estas encuestas pueden estar en una base de datos de un país; ya sea el
Instituto Nacional de Estadística o los bancos de datos sobre información específica
Una muestra es sólo una porción del total, a la que llamamos Población, pero
que refleja las características de la población de donde proviene.
Población
Es el total de elementos que conforman el universo sobre el cual realizaremos
los análisis
Muestra
Es una porción escogida de la población.
Tipos de muestreos
Las muestras pueden ser no aleatorias o aleatorias; en las aleatorias todos los
elementos de la población tienen la misma probabilidad de ser escogidos para la
muestra.
Muestreo aleatorio
En estos muestreos conocemos las probabilidades de que un elemento de la
población s.
Este tipo de muestreo acepta las siguientes clasificaciones.
Muestreo Aleatorio Simple
Para comprender este concepto, diremos que se puede derivar, no una, sino
muchas muestras de una sola población, una tras otra.
1 0 7
mailxmail - Cursos para compartir lo que sabes
El muestreo aleatorio es el que establece que cada posible muestra tenga la
misma probabilidad de ser seleccionada que cualquiera de las demás.
Exige que cada elemento de la Población tenga la misma probabilidad que las
demás de ser incluida en la muestra.
Muestreo estratificado
Se divide la población en grupos homogéneos y se pondera cada muestra, de
acuerdo con el número de elementos que contiene con relación al total de las
muestras.
La estratificación por barrios o por manzanos de barrio es una manera muy
utilizada.
Fases del diseño de muestra
Determinar qué es lo que se desea medir.
Definir el tamaño de la muestra
Realizar un pequeño plan piloto con las hojas de encuestas en la que se
anotan las variables a ser analizadas.
Introducción a las distribuciones de muestreo
Se pueden sacar muchas muestras diferentes de una población.
Supongamos que de una población extraemos varias muestras, una después
de la otra, de manera tal que los elementos de la primera vuelven a la población y
así con las demás.
Supongamos que se trata de una muestra para estimar la altura de hombres
tomados al azar de una población de 100 000 personas, la que puede ser
considerada como infinita.
Supongamos también que sacamos varias muestras del mismo tamaño de esa
población.
Al estimar la altura media y la desviación estándar de los hombres de cada
muestra, nos daríamos cuenta de que serían diferentes de muestra a muestra.
De esta manera llegamos a la siguiente conclusión:
1 0 8
mailxmail - Cursos para compartir lo que sabes
Una distribución de probabilidad de todas las medias posibles de las muestras
es una distribución de las medias de la muestra.
Los valores estadísticos se conocen como distribución de muestras de la
media.
Descripción de las distribuciones de muestreo
Ya lo vimos: cualquier distribución de probabilidad y, por lo tanto, cualquier
distribución de muestreo puede ser descrita por su media y por su desviación
estándar.
Si sacáramos todas las muestras posibles de una población dada, las medias
de cada muestra, al ser diferentes unas de las otras, estarían distribuidas de alguna
manera.
Esa distribución de las medias tendría, a su vez, una media y un erro típico
propios, dado que se trata de una distribución, aunque sean una distribución de las
medias.
El error típico que usábamos hasta ahora, toma otro nombre cuando se
refiere a la distribución de las medias del conjunto de muestras, se llama Error
Típico de la Muestra.
Otros programas utilizan el nombre “Error estándar de la media”, pero el SPSS
designa a este estadístico como error típico de la media.
El Teorema del Límite Central
La media de la distribución de las medias de las muestras será igual a la
media de la población, sin importar el tamaño de las muestras; esto da lugar a otra
afirmación:
A medida que el tamaño de las muestras crece, la distribución de las medias
de las muestras se acerca a la distribución normal
Por eso es que la muestra no tiene que ser muy grande con respecto a la
población.
El Teorema del Límite Central permite usar los estadísticos de una muestra
para hacer inferencias sobre los estadísticos de la población.
También se puede asegurar que en una muestra con más de 30 elementos, la
1 0 9
mailxmail - Cursos para compartir lo que sabes
distribución de la media que contiene la muestra, empieza a acercarse a la
distribución normal.
Por eso es que la primera de las acciones que realizamos al recibir una
muestra en la pantalla del SPSS es constatar si su distribución es normal.
Si no es, posiblemente tengamos que transformar la muestra.
Conclusión
Todo lo que hemos hecho hasta ahora ha sido recordar los principales
conceptos que usa la estadística para analizar las muestras que logra de las
diferentes poblaciones.
Excepto en casos como los censos de población, vivienda, ingresos, todas las
estimaciones sobre las estadísticas de una población se realizan utilizando la
muestra.
Continuaremos nuestro estudio aplicando el SPSS.
1 1 0
mailxmail - Cursos para compartir lo que sabes
37. Estadística Descriptiva. Conceptos
Estadística descriptiva
Lo dijimos ya, la Estadística se divide en dos grandes ramas:
La Estadística Descriptiva describe las propiedades de la muestras, incluyendo
los valores, las tablas, las distribuciones, las gráficas y otros.
La Inferencia Estadística infiere las características de la población a partir del
análisis de los resultados que nos brinda la Estadística Descriptiva.
Tipos de variables
A modo de recordatorio, repetiremos lo que se estableció en el primer
capítulo.
Hay dos tipos principales de Variables: las categóricas y las de escala.
Variables categóricas
Son variables no numéricas, pero que pueden volverse numéricas en su caso.
También se las conoce con el nombre de variables cualitativas.
Las variables categóricas se dividen en nominales y ordinales.
Variables nominales son aquéllas que no necesitan de un orden
preestablecido, tal el Estado Civil: Soltero, casado….
En cambio las Variables Ordinales obedecen a un orden jerárquico de
ordenación.
Marital status, por ejemplo, es una variable categórica nominal, pues no es
cuantitativa , sobre todo, no necesita una jerarquía de ordenación.
Level of education no es una variable ordinal, dado que sigue un orden
establecido.
Ese orden está dado por la sucesión de los que no han asistido a un sistema
formal de educación hasta los que han llegado a un nivel más allá de un grado
universitario.
Variables de Escala
1 1 1
mailxmail - Cursos para compartir lo que sabes
Son numéricos; también se llaman Variables Cuantitativas.
Frecuencias
Esta opción requiere de Statistics Base option.
El proceso Frecuencias nos ofrece el despliegue de estadísticos y gráficas que
nos son necesarias para describir los tipos de variables cuyos contenidos debemos
interpretar.
Es un buen lugar para que empecemos a familiarizarnos con los datos.
Las gráficas pueden ser expresadas en valores absolutos o en porcentajes.
1 1 2
mailxmail - Cursos para compartir lo que sabes
38. Estadística Descriptiva. Frecuencias para analizarvariables nominales
Usar la opción Frecuencias para analizar variables nominales
Traigamos el archivo contacts.save (Ver Sample Files para mayor información)
El archivo tiene información sobre un equipo de vendedores de computadoras
para las empresas que desarrollan software.
En cada compañía, cada departamento dispone de representantes que tienen
contacto primario; los contactos están categorizados como con las siguientes
denominaciones:
Development, Computer Services, Finance, Other, Don’t Know
Se desea comprobar si los departamentos cumplen con los objetivos.
Usaremos Frecuencies para analizar la distribución de los departamentos.
Analizar Estadísticas Descriptivas Frecuencias Departamento (como la
unidad de análisis) G r á f i c o s gráfico de sectores Continuar OK en la caja
de diálogo
En la pantalla de resultados tenemos una tabla y un gráfico de “torta”;
copiamos la tabla
El total de frecuencias registradas es 70, de las cuales 8 son valores perdidos,
lo que es equivalente al 11.4% del total de observaciones. La columna de frecuencias
nos informa que 30 de los contactos se realizaron con el departamento de servicios
de computadora.
Tabla 6.1
Department
1 1 3
mailxmail - Cursos para compartir lo que sabes
Esto equivale al 42.9% del total de contactos y al 48.4% de los contactos del
número de variables efectivamente tomadas en cuenta.
La información que leemos en las tablas numéricas puede ser reflejada en
gráficos. La “Torta” es una ayuda para tener una idea de las frecuencias relativas de
cada categoría.
Con las instrucciones anteriores, lo que hicimos fue concretar una tabla de
datos y una gráfica de “torta” cuando hicimos click Gráfico de Sectores o Pie.
Gráfico 6.1
Copiamos el gráfico “Pie” para apreciar los valores relativos de una forma más
visual
En la parte derecha del gráfico 6.1 se registra los sectores que tienen
contactos con empresas clientes de la firma que ahora estamos analizando.
Los respectivos porcentajes se muestran en las porciones a colores de la torta.
Para obtener una nueva clase de gráfico, vayamos a la caja de Frecuencias,
pulsemos en Gráficos, elegimos gráfico de barras continuar
1 1 4
mailxmail - Cursos para compartir lo que sabes
pulsemos en Gráficos, elegimos gráfico de barras continuar
En el cuadro de frecuencias Formato valores descendente cont inuar
Aceptar
Las barras se muestran de mayor a menor, para una mejor visualización.
Además del departamento respectivo para cada contacto, también vemos el
rango de las observaciones; para ello vamos otra vez a Frecuencias.
Deseamos ver los rangos de la compañía para constatar si cumple con las
metas.
Gráfica 6.2
Resumen de rangos
Para tener un resumen de los rangos de los contactos, escojamos:
Analizar> Estadísticas Descriptivas Frecuencias Restablecer
Introducimos Company Rank (La que es una variable ordinal) en la pantalla de
la derecha, debido a que es la variable de análisis.
Click Gráf icos Gráficos de Barras C o n t i n u a r Forma Va lo res
descendentes Continuar OK en la caja de diálogo de frecuencias.
En la pantalla de resultados tenemos la tabla 6.2 Company Rank; al igual que
las anteriores, la que copiamos para su respectivo análisis.
1 1 5
mailxmail - Cursos para compartir lo que sabes
Los resultados nos muestran que las variables ordinales también pueden ser
analizadas de la misma manera y darnos información adecuada.
Por ejemplo, podemos ver en la tabla que los contactos con los
administradores jóvenes constituyen el 15.7% del total de los contactos.
Tabla 6.2
Company rank
Pero, cuando estudiamos datos de tipo ordinal, el porcentaje acumulativo es
más útil. La tabla, que al igual que las barras, ha sido ordenada por magnitudes
descendentes nos lo muestra; para esta clase de análisis, la variable a estudiarse
tiene que ser cuantitativa.
Gráfica 6.4
1 1 6
mailxmail - Cursos para compartir lo que sabes
39. Estadística Descriptiva. Frecuencias, Asimetría,Curtosis
Frecuencias
Para analizar esta opción usaremos la distribución de la variable Amout of
Last Sale, que se encuentra en el archivo contacts.save, al que traemos a la pantalla
de vista de datos
Analizar Estadística Descriptiva Frecuencias Amount of Last Sale
Vamos a llamar a varios estadísticos cuyo significado aún no conocemos; sin
embargo, los iremos analizando uno por uno, cuando los tengamos en las tablas
respectivas
Una vez en la caja de diálogo de frecuencias: pulsamos Estadísticos y luego
hacemos click en los siguientes botones:
Cuartiles, Desviación Estándar, Mínimo, Máximo, Media, Mediana, Asimetría,
Curtosis
Continuar G r á f i c o s Histogramas Aceptar
Desactivamos la opción tablas de frecuencias Aceptamos
Tabla 6.3
Estadísticos
1 1 7
mailxmail - Cursos para compartir lo que sabes
La tabla de datos nos muestra los estadísticos acerca de la distribución de la
variable que analizamos, en este caso, de la variable ventas; definamos cada uno de
ellos.
El título del cuadro, Amount of Sales, se refiere al total de lo que se vendió el
último día.
N = 70 significa que se tomó en cuenta 70 valores de la muestra; no hay
valores perdidos.
La Media, nos da el promedio de las ventas últimas en todos los
departamentos de la firma; en este caso, nos dice que el promedio fue de $54.
La Mediana, tal como ya la definimos en los primeros capítulos, es de $24; de
inmediato notamos la diferencia que hay con la media, algo que analizaremos en
unos momentos
La Desviación Típica, $103.9394; nos muestra la dispersión media de las
ventas
Asimetría (También conocida como skewness o sesgo)
Es un estadístico que describe la simetría de la distribución alrededor de la
media.
1 1 8
mailxmail - Cursos para compartir lo que sabes
Si el sesgo es igual a cero, la distribución es simétrica (en este caso, es
normal)
Los siguientes gráficos ilustran el concepto de Asimetría.
Si no existe una cola o sesgo, la asimetría tendrá un valor de cero.
Si el sesgo lleva el signo positivo, entonces sabremos que la distribución
tendrá una cola asimétrica hacia los valores negativos
Esto querrá decir que los elementos de la muestra en general estarán
sesgados hacia los valores que se agrupan más en los niveles bajos.
Si el sesgo es negativo, la distribución tendrá una cola asimétrica hacia
valores negativos; esto es, tiende a reunirse más a la derecha de la media, en los
valores altos
Gráfica 6.5
La curva de una distribución asimétrica con skewness (sesgo o asimetría)
negativa indica que los valores estarán más reunidos en niveles superiores a la
media aritmética.
Al centro, la curva muestra la Curva Normal, la asimetría tiene un valor de
cero.
A la derecha se muestra una curva asimétrica con skewness positiva, lo que
nos indica que los valores tienden a reunirse en la zona de los valores menores a la
media.
El valor que nos da la tabla 6.2 para nuestro análisis sobre las ventas últimos
es de 5.325; el error típico de la Asimetría es 0.287
Es un valor positivo, por lo tanto las ventas en general, en los departamentos,
se reúnen en valores menores a la media, mostrando un desempeño no eficiente.
1 1 9
mailxmail - Cursos para compartir lo que sabes
Curtosis, es un estadístico que describe el grado de “punta” o “achatamiento”
de la distribución de una variable con relación a la distribución normal.
La gráfica 6.6 nos muestra el grado de curtosis de varias curvas como
modelos.
La curtosis positiva indica una distribución que perfila un gráfico “más en
punta”, tal como vemos en la curva del centro, con relación a la normal; será
Leptocúrtica.
Una curtosis negativa indica una distribución relativamente más achatada,
como la que vemos a la derecha; será Platicúrtica.
En una distribución normal la curtosis es igual a 3; es sobre ese valor que se
determina el nivel de Curtosis de una distribución
En esta distribución, lo dijimos, la media, la mediana y la moda son iguales
entre sí.
Gráfica 6.6
Si el coeficiente es positivo, quiere decir que hay una mayor concentración de
los datos en torno a la media.
Si el coeficiente es negativo, la distribución se llama Platicúrtica y muestra
que hay una menor concentración de datos en torno a la media; sería más achatada
que la primera.
El valor de la curtosis en la tabla es 34.2920, lo que indica que los valores
están concentrados alrededor de la media aritmética
El uso del coeficiente de la Curtosis es muy importante para establecer el
grado en el que la distribución de los valores se acerca o aleja de la curva normal.
1 2 0
mailxmail - Cursos para compartir lo que sabes
40. Estadística Descriptiva. El Rango. Percentiles,Cuartiles, Deciles
El Rango
Es la diferencia entre el valor mínimo y máximo; el Mínimo es$6; el Máximo
es 776.50
El Rango es 770.5
Percentiles
Muestran cómo se agrupan los datos cuando se los ordena en orden
ascendente tendiendo a que cada grupo tenga P% de observaciones.
Por ejemplo, podemos dividir el número de elementos de una muestra en 99%
grupos a los que identificamos con los siguientes símbolos: P1, P2,.. P9 9.
Cada grupo recibirá el nombre de percentil; el percentil P100 ya queda
establecido.
De esta manera, diremos que el 1% de los datos tienen un valor menor a P1
(No olvidemos que los grupos se forman de una serie de datos ordenados en
sentido ascendente)
El % de los datos tendrán un valor menor o igual a P% y el 70% de los datos
serán menores o iguales a P7 0; por último, el 99% de los datos serán menores que
P9 9.
Vamos a poner un ejemplo concreto, en el próximo subtítulo relativo a los
Cuartiles.
Los Cuartiles
Son los grupos más utilizados, dividen al total de los elementos en cuatro
partes cada uno delos cuales tienen aproximadamente el mismo número de
elementos.
Cada Cuartil queda identificado como: Q1, Q2, y Q3
Q1, es el que tiene el primer 25% de observaciones del total, los cuales son
menores a Q1
1 2 1
mailxmail - Cursos para compartir lo que sabes
menores a Q1
Q2 es el que tiene el 50% de las observaciones, cada uno es mejor que Q2
Q3 en el que el 75% de los datos son menores que Q3
Ejemplo:
Tomemos los siguientes valores ordenados en forma ascendente:
120, 140, 200, 240, 260, 380,450, 500, 630, 700, 750, 790, 800, 820, 910
Ahora bien, dividamos ese total de elementos en cuatro grupos, es decir en
Cuartiles
120, 140, 200, 240, 260, 380, 450, 500, 630, 700, 750, 790, 800, 820, 910,
980
El primer Cuartil (Q1) es 240, pues todos los valores a su izquierda serán
menores que él.
El Segundo Cuartil (Q2) es 500, pues todos los valores a su izquierda son
menores que él.
Del mismo modo para los demás cuartiles
El último Cuartil (Q4) es 980, todos los elementos tienen un valor menor que él
Obsérvese que la Mediana, tal como la estudiamos en los primeros capítulos
oscila entre 500 y 600, = 550, es decir, está incluida en el Segundo Cuartil
Es importante tomar nota que el 50% de los datos centrales se encuentra
entre Q1 y Q3
Los Deciles
Dividen la distribución en 10 partes iguales (9 divisiones) y se representan
como D1,...,D9, correspondientes al 10%,...,90%, al igual que los otros estadísticos
descritos.
El SPSS estima todos estos estadísticos, tal como vimos en la tabla 6.3
Volviendo al análisis de la tabla, notamos que la media, la mediana y la moda
difieren en sus valores; lo que nos permite deducir que la distribución de la variable
1 2 2
mailxmail - Cursos para compartir lo que sabes
no es normal.
La deducción se confirma al leer los estadísticos como la Asimetría y la
Curtosis
El Histograma
Ya tuvimos ocasión de familiarizarnos con el Histograma, que es una
visualización gráfica de la distribución de la variable que deseamos analizar.
Gráfica 6.7
Obsérvese que en el eje de las abscisas se registran los valores de las ventas y
en el de las ordenadas la frecuencia en que esos valores se repiten.
El histograma que vemos en el cuadro de resultados, comparado con la curva
normal, nos muestra una distribución asimétrica con una cola derecha larga.
Es decir, un sesgo o skewness positivo, lo que nos indica que los elementos
están concentrado, preferentemente, en la zona de valores bajos, tal como nos
indicaba la Asimetría
También nos confirma una Curtosis elongada hacia arriba, con relación a la
curva normal; lo que nos confirma que la distribución es Leptocúrtica, lo que ya
vimos en la tabla.
Los valores que nos da la tabla sobre las medidas de tendencia central, la
1 2 3
mailxmail - Cursos para compartir lo que sabes
Curtosis y la Asimetría muestran que la distribución de la variable Sales no es
normal.
El Histograma confirma la misma conclusión que los datos de la tabla; por lo
tanto, debemos estar seguros de que la distribución de la variable sales no es
normal.
No olvidemos que estamos interesados en que la distribución de la variable
que analizamos se acerque a la curva normal.
Como en este caso la distribución no es normal, recurrimos a la
transformación de las variables, en otros que reflejen mejor las características de la
muestra.
Es decir, trataremos de transformar la variable de manera tal que su
distribución se acerque más a la distribución normal.
1 2 4
mailxmail - Cursos para compartir lo que sabes
41. Estadística Descriptiva. Transformación deVariables
Transformación de variables
En el siguiente paso veremos cómo se hace esa transformación.
Primer, traemos a la pantalla de datos el archivo
La Opción Transformación
Para usar la opción Transformación, la variable debe ser de escala, es decir,
cuantitativa.
En este caso, parece adecuado transformar los valores en nuevos valores
incluidos en una nueva variable que mostrará los logaritmos naturales de los valores
originales.
Vamos a transformar la variable Amount of last sales del archivo que estamos
usando, esto es, de contacts.save
Para transformar la variable de ventas escojamos del Menú principal la casilla Transformar calcular variable
Transformar calcular variable (o compute variable) aparecerá un cuadro de diálogo
En la parte superior izquierda del cuadro hay una casilla con el nombre
“Variable de destino”, allí escribamos logsale que es nuestra nueva variable
Es decir, allí se inscribirán los valores logaritmizados.
A la derecha hay una pantalla con el título de expresión numérica
Ahora bien, debajo de esa pantalla, a la izquierda, hay dos pantallas: la
primera dice “grupo de funciones”, de las opciones pulsamos Todo.
La pantalla que se encuentra debajo de la anterior tiene como título funciones
y variables especiales; aparecen todas las funciones del SPSS, registradas por orden
alfabético.
Buscamos hacia abajo, hasta llegar a Ln; hacemos click y en la pantalla a la
izquierda y debajo del teclado aparece una leyenda que explica cuál es la tarea de la
función.
Con la flecha de dirección hacia arriba, introducimos esa función en la
1 2 5
mailxmail - Cursos para compartir lo que sabes
pantalla “expresión numérica”; allí aparecerá la siguiente expresión: LN(?)
El signo de interrogación nos pregunta cuál es la variable que deseamos
logaritmizar.
Del cuadro de la izquierda, donde están todas las variables elegimos Amount
of last sales; con la flecha de dirección introducimos la variable entre los paréntesis;
aceptamos.
Vamos a la pantalla de Vista de datos y nos encontramos que los valores de la
nueva variable logsale están registrados en la última columna de la pantalla.
Observemos también que la nueva variable logsale ha quedado registrada en
la pantalla Vista Variables; aumentamos los decimales a 6
En la columna Etiquetas ponemos Logaritmo de Ventas.
De inmediato comprobaremos si la transformación de la variable sales ha
mejorado con la transformación de sus valores en valores representados por sus
logaritmos naturales.
Menú Principal Descriptivos Frecuencias
Desplazamos la variable sales de la pantalla y la reemplazamos por la nueva
Logaritmos de Ventas pulsamos los estadísticos deseados;
También vemos que en la opción Gráficas, está pulsada la opción Histograma;
aceptamos y una nueva tabla de datos y un nuevo histograma aparecen en la
pantalla de resultados.
La tabla de resultados es muy extensa para traerla.
Pero, al leer los datos vemos que la media, la mediana y la moda están mucho
más cerca entre sí, de lo que estaban antes de la transformación de la variable.
También notamos que los valores de Curtosis y Asimetría se han reducido,
mostrando que la distribución de la nueva variable logsale se acerca más a la
distribución normal.
Una revista al histograma confirma los datos numéricos de la tabla, pues el
nuevo histograma se aproxima mucho más a la curva de la distribución normal.
Gráfica 6.8
1 2 6
mailxmail - Cursos para compartir lo que sabes
Obsérvese que sobreponiéndose a las barras del histograma se muestra una
curva normal, que es la que hemos solicitado para compararla con el histograma.
Otra vez podemos apreciar que la nueva distribución es más cercana a la
normal.
En resumen, hemos analizado las distribuciones de los contactos que se tiene
con los encargados de las compañías para las que la firma produce hardware.
Se ha analizado la variable de ventas y sus valores han sido transformados en
logaritmos naturales, para que su distribución se acerque más a la distribución
normal.
Para ello, hemos utilizado la Opción Transformar, lo que ha permitido que los
valores con los que se debe trabajar en adelante sean mucho más útiles que los
anteriores.
Al final del ejercicio sacaremos los antilogaritmos de los valores
pronosticados, pero eso será cuando lleguemos al capítulo de Regresión.
1 2 7
mailxmail - Cursos para compartir lo que sabes
42. Problemas de Estadística. Datos Cuantitativos
7 DIFERENTES PROBLEMAS
Datos Cuantitativos
Este capítulo será dedicado a identificar los gastos que los consumidores
hacen en el rubro de telecomunicaciones; así estableceremos cuál de los servicios
rinde mayor beneficio
Para ello, tomaremos los datos de una compañía virtual de
telecomunicaciones, que tiene una base de datos de los consumidores que incluye,
entre otros:
Información acerca de cuánto gasta un cliente en llamadas a larga distancia,
llamadas libres, alquiler de equipo, carta de llamadas y servicio
La información pertinente está en el archivo telco.sav del SPSS 19; lo traemos
a pantalla para analizar los datos por medio de la opción Descriptivos.
Vamos al Menú pr inc ipa l Analizar > Estadísticos Descriptivos
Descriptivos...
Pulsamos Long distance last month; Toll free last month, Equipment last
month, Calling card last month, and Wireless last month Aceptar
La tabla de valores que aparece en el cuadro de resultados muestra los
estadísticos sobre el gasto, los que serán comparados entre los gastos en cada
servicio.
Pero, sobre los datos de la tabla es difícil distinguir cuáles servicios son más
rentables.
En promedio, los clientes gastan más en equipment rental, pero hay una gran
escala de variación en las sumas gastadas.
Los clientes de calling card service gastan un poco menos en promedio, que
en equipment rental, pero hay menos variación en los valores que representan el
gasto
Se nos presenta un problema; los clientes no demandan todos los servicios,
por lo que los vacíos respectivos se cuentan como valores “0”
1 2 8
mailxmail - Cursos para compartir lo que sabes
Solucionamos este problema ratificando el “0”, a los valores faltantes (missing
values)
Tabla 7.1
Estadísticos Descriptivos
Para recodificar los “0” como missing values procedemos del siguiente modo:
Transform Recode Into Same Variables
Nótese que vamos a recodificar en los mismos valores y no en diferentes
valores como habíamos hecho hasta ahora.
Seleccionamos: Long distance last month, Toll free last month, Equipment last
month, Calling card last month, and Wireless last month como valores numéricos
Click Viejos y Valores Nuevos escribimos 0 en la casilla Valor Antiguo
System missing Valor Nuevo 0 Add aparecerá (SYSMIS 0 ) Continuar
Aceptar en la caja de diálogo
Se verá en la pantalla de Vista de Datos, que los valores “0” aparecen en las
columnas de las respectivas variables transformadas como valores missing (faltantes)
No hay nueva columnas en la Vista de Datos, porque hemos recodificado esta
vez en las mismas variables y no creando otras, al contrario de los casos anteriores.
Analizaremos las variables así recodificadas usando la opción Estadísticos
Descriptivos.
Analizar Descriptivos; Opciones Media, Mínimo, Máximo, desviación
T í p i c a Aceptar en la caja de diálogo Descriptivos.
Cuando se toma en cuenta los “0” como variables perdidas, los resultados
sobre el gasto de los clientes en cada servicio son muy diferentes, esto es, mejoran
notablemente.
1 2 9
mailxmail - Cursos para compartir lo que sabes
Los datos nos muestran que los servicios Wireless y equipmente rental son
los más rentables, los promedios de los gastos de los clientes son mayores que los
de otros servicios.
Wireless produce el mayor beneficio (Media = 39.1348) y Long distance last
month tiene la desviación típica menor (10.36349) tal como se ve en la tabla
Los nuevos datos nos han dado una guía acerca de cuáles son los servicios
que merecen una atención mayor en operaciones de marketing.
Cuando se toma en cuenta los “0” como variables perdidas, los resultados
sobre el gasto de los clientes en cada servicio son muy diferentes, esto es, mejoran
notablemente.
Los datos nos muestran que los servicios Wireless y equipmente rental son
los más rentables, pues los promedios de los respectivos gastos de los clientes son
mayores que los de otros servicios.
Wireless produce el mayor beneficio (Media = 39.1348) y Long distance last
month tiene la desviación típica menor (10.36349)
Los nuevos datos nos han dado una guía acerca de cuáles son los servicios
que merecen una atención mayor en operaciones de marketing.
Se puede encontrar clientes que gastan mucho más o mucho menos que otros
clientes en cada servicio; eso lo conseguimos estandarizando los valores de las
variables (z scores)
Tabla 7.2
Estadísticos Descriptivos
Pero hay un problema, los valores z scores requieren que las distribuciones
de las variables sean cercanas a la distribución normal, algo que las variables
escogidas no cumplen.
1 3 0
mailxmail - Cursos para compartir lo que sabes
Tal como vimos los valores de los estadísticos asimetría y curtosis, son altos,
lo que muestran que las distribuciones de las variables no son normales.
Un remedio posible, debido a que todos los valores de las variables son
positivos, es transformar las variables en sus logaritmos naturales y luego, estudiar
los z scores.
Recordemos que el ejercicio anterior que hicimos para logaritmizar las
variables.
Una vez que las tenemos en las columnas de la pantalla de Vista de datos
procedemos.
Seguimos trabajando con los datos del archivo telco.sav
Menú principal Estadísticos descriptivos Descriptivos
Seleccionamos las variables desde Log-long distance hasta Log-wireless
variables logaritmizadas Save standardized values as variables, a la izquierda
inferior del cuadro
Aceptamos; los valores logaritmizados aparecen en las nuevas columnas de la
pantalla de Vista de datos; también aparecen en la pantalla Vista de variables.
Para tener una vista más completa sobre los estadísticos de las nuevas
variables, en lo que se refiere a los nuevos valores de asimetría y curtosis, vamos al
Menú principal.
Allí pulsamos Estadísticos Descriptivos Frecuencias
Introducimos las variables logaritmizadas, luego de sacar las anteriores y
pulsamos Estadísticos escogemos los estadísticos de tendencia central y
dispersión aceptamos
En la pantalla de Resultados vemos la tabla de valores y constatamos que la
asimetría y la curtosis han disminuido con relación a los valores de las variables no
logaritmizadas.
Sin embargo, la variable Log toll-free tiene aún una curtosis apreciable
debido a que un solo cliente gastó una suma mensual considerable en el último mes.
Para analizar esta clase de valores inusuales debemos visualizar los z scores;
antes, debemos familiarizarnos con el instrumento Boxplot (Diagramas de Caja).
1 3 1
mailxmail - Cursos para compartir lo que sabes
1 3 2
mailxmail - Cursos para compartir lo que sabes
43. Diagrama de Caja (Boxplots)
El Diagrama de Caja muestra indicadores sobre el grado de normalidad de la
distribución de la variable; especialmente nos muestra la asimetría y la curtosis
Analizaremos primeros sus características y luego como traerla del SPSS.
En la gráfica 7.1 tenemos un diagrama de caja típico.
La caja está entre dos verticales que apuntan hacia arriba y hacia abajo
respectivamente
La longitud de esas verticales muestra el grado de asimetría de la distribución.
Cada una de las líneas verticales, hacia arriba o hacia abajo, se llama
Whisker.
Si la distribución de los datos de la muestra fuera normal, ambos whiskers
tendrían la misma longitud, pero eso sucede muy pocas veces.
Si el whisker superior es más corto, la muestra tendrá una asimetría negativa,
esto nos dirá que los elementos estarán más concentrados en los valores superiores
a la Media.
Si el whisker inferior es más corto, la asimetría será positiva, en cuyo caso
sabremos que los elementos de la muestra están preferentemente concentrados en
los valores inferiores.
Cada whisker termina en una línea horizontal, la que marca sus límites.
Las Cajas también nos proveen información de la curtosis de cada
distribución.
Una caja delgada muestra que una gran cantidad de valores están contenidos
en un segmento muy pequeño de la muestra; una distribución con un pico más
alargado
Una caja inusualmente ancha significará lo contrario; los outliers, o valores
extremos, están simbolizados por puntos, círculos o asteriscos más allá de los
límites.
Gráfica 7.1
1 3 3
mailxmail - Cursos para compartir lo que sabes
Diagrama de Cajas
Los valores extremos se desvían por encima o por debajo de los otros valores.
La longitud de la caja nos ofrece un referente acerca de la variabilidad de la
distribución de la muestra.
En la gráfica 7.1 que muestra un Diagrama de Caja típico, vemos letras que
representan las características de la misma.
a es el valor máximo dentro de una distancia que no supere 1.5 veces el
rango intercuartílico, el que ya sabemos, es Q3.
Este espacio está conformado por el tercer cuartil más 1.5 veces el rango
intercuartil.
b es el tercer cuartil (Q3), también es el 75 percentil
c es la mediana (Q2) o también el porcentil 50
d es el primer cuartile (Q1) o también es el percentil 25
e es el valor mínimo, a no ser que haya valores menores a 1.5 veces el rango
intercuartílico debajo de Q1, en cuyo caso, será el primer cuartil menos 1.5 veces el
rango intercuartil.
El estadístico Boxplot o Diagrama de Caja es uno de los más complejos para
1 3 4
mailxmail - Cursos para compartir lo que sabes
captar a pri-mera vista la estructura de la distribución.
Por eso es que analizaremos con mayor detalle sus características; ellas nos
permitirán conocer, a simple vista, la estructura de la distribución de los elementos
de una muestra.
Algo que debemos recordar siempre al analizar una Caja de Diagrama: la línea
del centro es la Medianade la distribución que deseamos analizar.
Gráfica 7.2
Diagrama de Caja mostrando centralidad
La Caja de la izquierda: una muestra de 20 valores con una mediana centrada
en 7.
La Caja de la derecha: una muestra de 20 valores cuya mediana está centrada
en 12.
Gráfica 7.3
La Caja como indicador de dispersión
La Caja de la izquierda: una muestra de 20 valores con una desviación típica
de 1 y cuya mediana, representada por la línea gruesa del interior de la caja, está
1 3 5
mailxmail - Cursos para compartir lo que sabes
centrada en 10.
La Caja de la derecha: una muestra de 20 valores con una mediana centrada
en 10 y una desviación típica de 3.
Obsérvese cómo la altura de la caja es menor cuando la desviación típica es
sólo 1, a la izquierda y cómo la altura se hace mayor cuando la desviación típica es
mayor, derecha.
Con las figuras (traídos de Internet, aunque no se pudo identificar al autor)
las características y utilidad de la Caja de Diagrama se hacen cada vez más patentes.
Gráfica 7.4
La Caja como un Indicador de Curtosis
- En esta caja, los 20 valores de la muestra tienen una distribución
mesocúrtica.
La línea gruesa, esto es, la Mediana, está cerca del centro y los whiskers son
de igual longitud; se acerca a la Normal.
- En esta caja, también de 20 valores, la curva es achatada, platicúrtica, pues
su mediana está en la parte
inferior.
1 3 6
mailxmail - Cursos para compartir lo que sabes
- La distribución de 20 valores es lepocúrtica, la Mediana está en la parte
superior de la Caja.
Se denominan hinges a los valores que están incluidos en la caja misma.
1 3 7
mailxmail - Cursos para compartir lo que sabes
44. Boxplot como indicador de Asimetría
La Caja de Diagrama (Boxplot) como Indicador de Asimetría
Las colas son los dos extremos, izquierdo y derecho, de una curva de
distribución; en la curva normal, esas colas son asintóticas con relación al eje de las
abscisas.
La Asimetría se muestra a través de la diferencia de longitudes entre las colas,
pues, si la distribución es asimétrica, una de ellas será más larga que la otra.
La Curtosis ideal sería simétrica, como es la de la curva normal, cuyo
diagrama de caja mostrará sus dos whiskers casi de la misma longitud.
Las cajas que se diseñan en la gráfica 7.5, muestran las formas de asimetría
de la distribución que representan en cada caso.
Gráficas 7.5
Representación de la Asimetría
En la caja de la izquierda, la muestra de 20 valores tiene una distribución de
largas colas, lo que se expresa en la longitud de los whiskers.
Cada longitud es mucho mayor que la altura de la caja
Si la distribución se acercara a la normal, la longitud de cada whisker tendería
a ser igual a la altura de la caja.
En el segundo ejemplo, la longitud de los whiskers es menor a la altura de la
caja, lo que nos indica que la curtosis es menor que en la caja de la izquierda.
En la tercera figura, la distribución de la muestra tiene colas muy cortas y los whiskers
whiskers están ausentes.
1 3 8
mailxmail - Cursos para compartir lo que sabes
Interpretación
Mostradas la utilidad de la caja de diagramas, es preciso recordar que se debe
evitar deducir conclusiones cuando las muestras son muy pequeñas, diez valores o
menos.
Por otra parte, es necesario tomar en cuenta los valores que no están en la
caja ni en la longitud de los whiskers, los que son valores extremos.
Por eso es que los whiskers realmente no muestran los valores mínimos y
máximos de una muestra, sino los que están a una distancia “razonable” de la caja,
abajo o arriba.
Una muestra con gran asimetría y whiskers, con muchos valores inusuales al
costad puede aparecer razonablemente simétrica en la caja.
Pero el SPSS tiene sus controles sobre estos casos; los valores que son más de
tres veces la longitud de la caja, arriba o abajo, reciben una anotación roja.
Esos valores son identificados con asterix y entran como valores extremos
Los valores que tienen entre 1.5 hasta 3 veces la longitud de la caja, arriba o
abajo, tienen una anotación amarilla; son considerados como outliers.
Debemos recordar que las palabras outliers y extremes deben ser
interpretadas en relación a la distribución de una curva normal.
En todo caso, debemos tener en cuenta que los valores extremos son valores
que están por arriba o por debajo de los valores outliers, no son sinónimos.
1 3 9
mailxmail - Cursos para compartir lo que sabes
45. Diagramas de Caja con SPSS
Ahora que estamos familiarizados con las características del Boxplot o
Diagramas de Caja y la utilidad que nos presta, ya podemos reiniciar nuestro
trabajo con el SPSS.
Traemos el archivo telco.save a la pantalla de Vista de Datos.
Empezamos con llamar al Diagrama de Caja
M e n ú Graphs cuadros de diálogo antiguos Diagrama de Caja
Resúmenes par distintas variables Definir introducir en la pantalla superior
derecha las 5 variables:
En la pantalla Vista de Datos, vemos que las variables que vamos a convocar
tienen valores missing, es decir, valores que faltan.
Para que la muestra sea más fidedigna, reemplazamos esos valores con 0, de
tal manera que cada valor que tenga 0 significará que es un cliente que no ha
solicitado ese servicio.
Ya lo vimos anteriormente; para hacer esa operación vamos al Menú:
Menú Transformar Recodificar en la misma variable introducir las 6
variables seguidas, desde log distance hasta log income
Vamos a Valores Antiguos y nuevos poner cero en la casilla de la izquierda,
valores antiguos debajo de ella, pulsar perdidos en el sistema
Poner el mismo 0 en Valores en la casilla derecha; en la parte superior de la
pantalla de la derecha aparece el rótulo: AntinguoNuevo
Pulsar Añadir, y en esa pantalla aparecerá la expresión SYSMIS 0
Los valores faltantes de las variables que necesitamos están reemplazadas por
el valor 0
Lo comprobamos al examinar en las columnas de las variables respectivas,
cómo los valores faltantes, fueron reemplazados con 0 en cada caso
Una vez reemplazados los valores missing con el procedimiento anterior, nos
ocupamos de los diagramas de caja para cada uno de los valores que han sido
1 4 0
mailxmail - Cursos para compartir lo que sabes
logaritmizados
Menú Gráficos Cuadros de diálogo antiguos Diagramas de Caja
Resúmenes para distintas variables Defininir
De la pantalla de la izquierda introducimos en la pantalla de la derecha las
seis variables: desde log long distance hasta log income opciones e xcluir casos
variable por variable continuar aceptar.
En el cuadro de resultados aparecen las 6 Cajas de Diagramas (Boxplots) cada
una representando, individualmente, a la variable correspondiente de las cinco que
analizamos.
Gráfica 7.6
En las cajas vemos, por ejemplo, que la variable Log-long distance hay valores
extremos, como 200 y 207; lo mismo, en la variable Log-income.
En los siguientes acápites veremos la utilidad de las cajas de diagrama, pero
antes, es preciso que nos familiaricemos con el estadístico.
1 4 1
mailxmail - Cursos para compartir lo que sabes
46. Procedimiento Explore. Estadísticas descriptivascruzando grupos
Análisis de datos: El procedimiento Explore
La exploración de los datos ayuda a determinar si las técnicas de la ciencia
estadística que usamos son o no apropiadas; para eso disponemos del
procedimiento Explore.
El procedimiento Explore nos provee de resúmenes visuales y números de los
datos, ya sea para todos los casos por separado o ya para grupos de casos.
La variable dependiente a ser analizada debe ser una variable de escala.
Las de grupo pueden ser nominales u ordinales.
Con Explore podemos obtener los diagramas de caja, identificar los outliers,
chequear los supuestos y las diferencias entre los grupos.
Estadísticas descriptivas cruzando grupos
Tomemos el siguiente ejemplo; las cosechas de maíz deben ser testadas para
establecer si hay o no el elemento aflatoxin, un veneno cuya concentración varía
entre las cosechas.
Una firma que procesa granos ha recibido 8 diferentes cosechas, pero la
distribución de aflatoxin, en partes por billón, debe ser estimada antes de que el
maíz sea aceptado.
Este ejemplo usa el archivo aflatoxin.sav cuyos datos consisten en 16
muestras de cada una de las entrega de las ocho en que se han transado la
operación.
Menú principal Analizar Etadísticas Descriptivos Explore Aflatoxin
PPB como la variable dependiente y Corn Yield como la variable de factor Aceptar
En la pantalla de resultados tenemos el cuadro general para las 8 entregas
(Yields) y las 16 muestras que se ha elegido de cada una.
Luego nos da la tabla con los estadísticos respectivos para cada una de las 8
entregas.
1 4 2
mailxmail - Cursos para compartir lo que sabes
Los cuadros son muy extensos para copiarlos, pero podemos analizarlos.
Así mismo, nos despliega la distribución “Tallos y Hojas” la que será
estudiado en el apartado próximo; finalmente nos diseña los diagramas de caja.
De acuerdo con los términos del ejemplo, el límite establecido acepta como
máxima una proporción de 20 unidades de aflatoxin por billón.
Para interpretar los resultados, debemos obtener la tabla pivoteada, para lo
cual activamos la tabla haciendo click en cualquier lugar dentro de sus límites.
La tabla pivoteada nos muestra que, de acuerdo con la media, sólo las
entregas 4, 7 y 8 caen por debajo de las 20 unidades por billón establecidos.
También aparecen los Diagramas de Caja para cada una de las muestras, cuyo
concepto ya fue analizado en el anterior acápite.
En este caso, los valores extremos merecen una atención especial.
Ya lo dijimos, la línea gruesa dentro de una caja marca la Mediana de la
distribución, que es también el percentil 50 de esa misma distribución.
Ejemplo, la Mediana del nivel de aflatoxin en el grupo 1 es 21.50 por billón.
Observemos que las medianas varían considerablemente entre los diagramas
de caja.
Sabemos la longitud de cada caja, no la de los whiskers, marcan el percentil
25 y el percentil 75 de cada distribución.
Para el grupo 2, v.g, el valor inferior de la caja es de 24.75 y el valor superior
36.75.
Recordemos que estos valores registran los que están incluidos en la caja
misma (hinges) desde la base hasta la línea que cierra el rectángulo; aún no
hablamos de los whiskers.
Los whiskers aparecen encima y debajo de los límites de las cajas, es decir,
por encima y debajo de los hinges; para el grupo 2 el valor mínimo es 22 y el
máximo es 52.
Gráfico 7.7
1 4 3
mailxmail - Cursos para compartir lo que sabes
Los valores outliers, están identificados con la letra mayúscula “O”.
El grupo 2 tiene un valor outlier de 68 y está etiquetado con 20
Esto nos dice que el elemento número 20 de la muestra tiene un valor de 68,
es decir, un valor por encima de los demás; es un outlier.
El grupo 5 tiene un valor outlier de 49, etiquetado con 71, lo que nos indica
que el elemento número 71 de la muestra tiene un valor 49, que está por encima de
los demás
Las etiquetas representan al número de fila en la pantalla de dato;
compruébese que en la fila 20, el valor del elemento es 68; lo mismo en la fila 71
para el valor outlier 49
Los valores extremos son identificados con asterisk (*)
No hay valores extremos en estos datos.
Se puede comparar los valores del diagrama de caja con los que muestra la
Mediana en el cuadro de Estadísticos.
El uso de Explore nos permitió crear una tabla que muestra los estadísticos, a
través de los cuales nos enteramos que el nivel de alfatoxin no son seguros para 5
de los 8 grupos.
Esto fue confirmado por los diagramas de caja; el procedimiento Explore
ofrece muchas opciones que permiten una mirada de mayor detalle.
1 4 4
mailxmail - Cursos para compartir lo que sabes
ofrece muchas opciones que permiten una mirada de mayor detalle.
De ese modo logramos una imagen más adecuada en cuanto a la forma cómo
difieren los grupos, tanto entre sí, como de algún valor estadísticamente esperado.
La identificación de valores atípicos, es decir, extremos para arriba o para
abajo, es de gran ayuda cuando se trata de medir muestras no influidas por valores
extremos.
1 4 5
mailxmail - Cursos para compartir lo que sabes
47. Para continuar el análisis necesitamos definir unnuevo concepto.
Descriptivos
Explorando los datos de las Muestras
Ahora vamos a ingresar al análisis de temas un tanto más avanzados.
Especialmente el concepto de “capa” (layer) el uso del estadístico “hojas y
tallos y la manera de establecer el grado de cercanía o alejamiento de una
distribución a la normal.
Siguiendo nuestra metodología, lo haremos por medio de ejemplos concretos.
Una compañía manufacturera usa nitrido de plata para fabricar soportes de
cerámica que deberán resistir temperaturas de 1500 grados centígrados o mayores.
Se sabe que la distribución de una aleación estándar de resistencia al calor es
normal; Sin embargo se prueba una nueva aleación “premiun” cuya distribución no
es conocida.
Se nos pide comparar los resultados y, en su caso, las diferencias sobre las
características entre dos muestras logradas en la fábrica.
Plantearemos un problema específico y una vez que tengamos los datos, los
interpretaremos en detalle; para el problema usaremos la opción Explorar.
Traemos el archivo ceramics.save
Menú principal Analizar Estadísticos Descriptivos Explore Degrees
Centigrade como la variable dependiente
Seleccionamos Alloy (Aleación) como el factor variable y labrunid como
etiqueta de casos.
La Tabla incluye las variaciones de Alloy: Degrees Centigrade para Premiun y
Estándar; la Variable Alloy sirve de capa (Layer) a las variables Premiun y Standard.
Lo primero que nos llama la atención es el valor de las Medianas; ésta es
mayor en el soporte Premiun, 1539,72, que en el soporte Standard, 1514,53.
Por otro lado, en la tabla vemos que la media de calor del soportePremiun,
1 4 6
mailxmail - Cursos para compartir lo que sabes
1542 grados es mayor que la media del soporte Standard, 1514
Pero la simetría y la curtosis son menores en el soporte Standard.
Esto nos sugiere que la distribución Standard tiende más a la Normal que la
Premiun.
Sobre todo, si vemos que la diferencia entre la Media y la Mediana, en
Premiun, parece significativa; En el próximo capítulo aprenderemos a usar las
Pruebas de Normalidad.
Mientras tanto, analicemos los estadísticos que nos muestra la tabla de
resultados.
Tabla 7.4
Para continuar el análisis necesitamos definir un nuevo concepto.
1 4 7
mailxmail - Cursos para compartir lo que sabes
48. Medida Recortada (Trimmed mean)
Trimmed mean (Media recortada)
Observemos que la tabla de estadísticos divididos por soporte Premiun y
Standard del anterior capítulo incluye la Media Recortada (Trimmed mean)
La Media Recortada deriva de la exclusión del 2.5% de los valores más bajos y
el 2.5% de los valores más altos de cada muestra; eso es lo que significa el 5%
escrito al lado.
Lo hace así para omitir los valores extremos que podrían deformar la muestra.
Si el valor de la Trimmed mean, excluido el 5% de los valores extremos, es
muy diferente de la media, sabremos que nos encontraremos con valores outliers.
La Media recortada en el soporte Premium, 1541,28 es mayor que la de
Standard 1514,73 lo que corrobora que el soporte Premiun tiene mayor resistencia
al calor que el Standard.
La Pantalla de resultados también desplegó los Diagramas de Caja
individuales para ambas aleaciones Premiun y Standard con sus respectivos outliers
y valores extremos
Estos datos apoyan lo que ya sabíamos por los anteriores indicadores:
Los datos de la distribución referidos a la resistencia al calor del soporte
Standard tienen una distribución más cercana a la norma, que las aleaciones del
soporte Premiun.
Los diagramas de caja también despliegan valores extremos y outliers
mayores y menores, clasificados por Alloy (muestra) para ambos soportes Premiun y
Standard
Apreciamos que algunas veces, los soportes premium pueden soportar un
grado más alto de calor que los soportes Standard y nunca bajan por debajo de
1530 grados centígrados.
Los diagramas de caja nos sugieren que dada la presencia de outliers en el
soporte Premiun es necesario comprobar si ambas muestras tienen la misma
varianza.
1 4 8
mailxmail - Cursos para compartir lo que sabes
Gráfica 7.8
Boxplot
Ése es aspecto que cuyo estudio corresponde al capítulo Análisis de la
Varianza ANOVA, el que será incluido con detalle en otro capítulo.
Por ahora, vayamos al nuevo Estadístico: Hojas y Tallos (Stem-and-leaf plots)
opción que nos muestra los valores exactos de las observaciones individuales
Para visualizar mejor sus características, repitamos el ejercicio anterior.
Traigamos el archivo ceramics.save, repitamos el proceso, incluyendo el click
en pruebas de normalidad, pero en la opción gráficos del cuadro de diálogo de
Explores, pulsemos la casilla Stem-and-Laf plots
En la pantalla de Resultados aparecerá la siguiente información; dado que la
segunda gráfica es más completa que la primera, empezaremos el análisis del
soporte Standard.
1 4 9
mailxmail - Cursos para compartir lo que sabes
49. Gráficos de Tallo y Hojas. Interpretación.Estadística
Gráficos de Tallo y Hojas
(Stem-and-Leaf Plot for batch= Standard)
El gráfico para Premium nos muestra, por ejemplo, que hay 24 observaciones
que soportan desde 1538 hasta 1539 grados centígrados de calor.
Habrá ocho muestras que soportan desde 1550 hasta 1551 grados
centígrados de calor
Aleluya: con esto hemos terminado la primera parte de este curso básico,
es decir, hemos concluido el programa de los Estadísticos Descriptivos.
La Estadística Descriptiva es el pivote central en el que descansan las otras
ramas de nuestra disciplina; espero que la hayan asimilado muy bien, pues nos será
muy útil.
Ahora ingresamos a la segunda parte, relativa a la Inferencia Estadística.
Interpretación de la gráfica Tallos y Hojas
La columna izquierda registra las frecuencias de cada nivel de temperatura
En total suman 240 valores, los que coinciden con el número que nos da el
cuadro de Resumen del procesamiento de los casos
Los datos de columna del medio, se llama Stem y los de la última columna,
Leaf.
Escojamos, al azar, una fila, digamos la que muestra una frecuencia de 22.00
La columna de Stem registra 150 y la columna de Leaf los valores que
1 5 0
mailxmail - Cursos para compartir lo que sabes
La columna de Stem registra 150 y la columna de Leaf los valores que
completan el valor 150 de la columna Stem, empezando por 0.
Si escogemos el primer “0” de Leaf y lo añadimos a150 de Stem, tendremos
1500; hay tres ceros en la columna Leaf, habrá 3 casos que soportan temperaturas
de 1500 grados
Escojamos ahora el valor de Stem de 151; hay, como en el caso anterior, dos
frecuencias para ese valor, que son 54 y 43; elijamos el que tiene la frecuencia de 54.
Si agregamos el primer 0 de la columna de Leaf al valor de 151,éste se
convertirá en 1510; como hay ocho ceros en la columna Leaf, entonces habrá 8
observaciones de 1510.
Ahora, en vez de completar el valor Stem de 151 con cada cero, haremos lo
mismo, pero esta vez añadiendo al valor Stem el primer 1 de la columna Leaf.
El valor Stem se convertirá en 1511; como hay doce valores “1”, entonces
sabremos que habrá doce observaciones que representan soportes de 1511 grados
centígrados.
Hacemos lo mismo con los valores “2”, “3” y “4”, respectivamente; lo que nos
dará 7 valores de 1512, 15 valores de 1513 y 12 valores de 1514 que soportan esas
temperaturas.
El valor de la primera columna a la izquierda, Frecuency, nos dice que en total
hay 54 soportes que resisten emperaturas desde 1510 hasta 1514 grados
centígrados.
Los datos nos indican que los valores se concentran, principalmente, entre
1505 y 1519 grados, esto quiere decir que la mayor parte de los elementos de
Standard soportan temperaturas entre 1505 y 1519 grados.
Realizaremos el mismo análisis de los datos con la tabla Stem-and-Leaf para
los soportes Premium.
Gráficos de Tallo y Hojas
(Stem-and-Leaf Plot for batch= Premium)
1 5 1
mailxmail - Cursos para compartir lo que sabes
El gráfico para Premium nos muestra, por ejemplo, que hay 24 observaciones
que soportan desde 1538 hasta 1539 grados centígrados de calor.
Habrá ocho muestras que soportan desde 1550 hasta 1551 grados
centígrados de calor
Aleluya: con esto hemos terminado la primera parte de este curso básico,
es decir, hemos concluido el programa de los Estadísticos Descriptivos.
La Estadística Descriptiva es el pivote central en el que descansan las otras
ramas de nuestra disciplina; espero que la hayan asimilado muy bien, pues nos será
muy útil.
Ahora ingresamos a la segunda parte, relativa a la Inferencia Estadística.
1 5 2
mailxmail - Cursos para compartir lo que sabes
50. Divisiones de inferencia estadística. Hipótesisnula y alternativa
PRUEBAS DE HIPÓTESIS
La prueba de hipótesis ya forma parte de la Inferencia Estadística.
Por lo general se define la Inferencia Estadística como:
Una de las dos ramas fundamentales de la Estadística cuyo objeto es llegar a
conclu-siones sobre las características de una población usando como escenario de
análisis la muestra que se ha obtenido de esa población .
Los teoremas que se han dado en la disciplina estadística coinciden en el
hecho de que para conocer las singularidades de una población basta una muestra
pequeña.
Queda claro, a partir de la definición, que si en vez de la muestra se tiene los
datos completos de la población, la Inferencia Estadística deja de tener sentido.
Por otro lado, recordemos que, a diferencia de las matemáticas, la estadística
no es una ciencia exacta; al contrario, siempre toma en cuenta la probabilidad de
error
La Inferencia Estadística exige un conjunto ya probado de técnicas para medir
el grado de certidumbre de las conclusiones a las que llegamos, a partir del estudio
de la muestra.
La Inferencia Estadística acepta dos divisiones principales:
La Inferencia Paramétrica
Opera sobre muestras cuyas poblaciones tienen una forma determinada de
distribución (La Normal, la de Poisson, la Binomial…)
En este tipo de inferencia se conoce las distribuciones de los valores pero se
ignoran los parámetros que son, precisamente, los que deseamos saber
Inferir sobre los parámetros de la población a través del análisis de una
muestra es la tarea principal de la Inferencia Estadística
La Inferencia no Paramétrica
1 5 3
mailxmail - Cursos para compartir lo que sabes
En este caso se desconoce tanto los parámetros como la forma de la
distribución.
Por otro lado, la Inferencia Estadística se abre en dos escenarios de análisis
La Estimación de los parámetros, estimación que puede ser puntual o por
intervalos.
El contraste de hipótesis, que consiste en el conjunto de procedimientos para
comprobar la adecuación de la hipótesis planteada.
Por otra parte es necesario tener presente que hay varias clases de muestra
para el análisis y las inferencias respectivas acerca de la población.
De todas ellas, en este curso usaremos la muestra aleatoria, tal como quedó
definida en capítulos anteriores.
La Muestra Aleatoria
Conocemos ya que de una población dada es posible extraer un número muy
grande de muestras, si es que, tomada una, introducimos sus elementos otra vez en
la población.
Si todas y cada una de esas muestras tienen la misma probabilidad de ser
escogidas, entonces tendremos una Muestra Aleatoria.
Por otra parte, todos los elementos que componen una muestra aleatoria
también son aleatorios, es decir, todos tienen la misma probabilidad de ser
escogido.
Con estas breves consideraciones ya podemos encarar la segunda parte de
este curso.
Para empezar nuestro trabajo es preciso definir algunos términos.
Hipótesis nula
Es la suposición que deseamos testar; se simboliza con Ho.
Supongamos que deseamos testar la hipótesis de que la media de una
población es 500.
La manera de representar esta suposición es: Ho: = 500
Ho (la hipótesis nula) representa la suposición de que la media de la
1 5 4
mailxmail - Cursos para compartir lo que sabes
Ho (la hipótesis nula) representa la suposición de que la media de la
población, , es 500
Ahora bien, supongamos que realizados los análisis respectivos sobre la
muestra que hemos obtenido, encontramos que la media de la población no es 500.
En este caso, rechazamos la hipótesis nula; de este modo, vemos que la
prueba de hipótesis consiste en contrastar la hipótesis nula con otra, llamada
Hipótesis Alternativa,
Hipótesis alternativa
Se simboliza como H1; esta hipótesis puede presentarse de tres maneras:
H1: > 500; la media, según la hipótesis alternativa, es mayor que 500.
H1: < 500; la media según la hipótesis alternativa es menor que 500.
H1: 500; la hipótesis alternativa dice que la media no es igual a 500
En este último caso, no especifica si es mayor o menor; simplemente postula
que los estadísticos muestran que la Ho es falsa
1 5 5
mailxmail - Cursos para compartir lo que sabes
51. Nivel de Significancia y Confianza. Muestraaleatoria poblacional (1/2)
El nivel de significancia
Supongamos que nos parece suficiente que de cien muestras teóricas de la
población exista la probabilidad de que en 5 muestras la hipótesis alternativa esté
errada.
Es decir, el 5% mostraría el riesgo que corremos de cometer un error
Esa probabilidad de error, en este caso, del 5%, se conoce como el Nivel de
Significancia.
El Nivel de Confianza
Si estamos dispuestos a correr el riesgo de un error del 5% (=.05) entonces
diremos que el Nivel de Confianza que aceptamos es del 95%.
Si exigiéramos un nivel de significancia del 1% (0.01) el Nivel de Confianza
sería del 99%.
En Síntesis
De acuerdo con el Teorema del Límite Central, una muestra aleatoria
consigna en sí los estadísticos de la población; para obtenerlos procedemos del
siguiente modo
Primero, establecer una hipótesis nula: Ho. la que será testada por la H1
Segundo, establecer un nivel de significancia o error (el 5% o el 1%)
Complementamos estos conceptos con los siguientes
1 5 6
mailxmail - Cursos para compartir lo que sabes
Error de Tipo I
Cuando la hipótesis nula es cierta y sin embargo la rechazamos.
Error de Tipo II
Se comete cuando se acepta una hipótesis nula siendo que ésta es falsa.
Dadas las definiciones de los tipos de error, ahora nos ocupamos de las
distribuciones.
Hemos asumido que la distribución de probabilidades de una muestra es
normal.
Sin embargo, cuando el tamaño de la muestra es menor que 30
observaciones, la distribución normal ya no es posible.
En su lugar, se usa la distribución “t”.
A medida que el número de elementos de una muestra va aumentando por
encima de los 30, la distribución de esa muestra tiende a convertirse en una
distribución normal.
La Hipótesis nula se representa con el símbolo H0
La Hipótesis Alternativa tiene tres opciones:
H1: X* ; la media muestral (X*) es diferente de la media de la población ()
H1: X* > ; la media muestral es mayor que la media de la población
H1: X* < ; la media muestral es menor que la media de la población
x = Varianza de la muestra
x = _/(raíz cuadrada de n)
s = Error típico de la Muestra
La Varianza ( x) es el promedio del cuadrado de las distancias entre cada
observación y la media de la muestra, dividido entre el número de casos.
2 x = ( x i – X*)2/n
En esta fórmula, x significa Varianza, el símbolo xi es el valor de cada
elemento de la muestra; X* es la media aritmética de la muestra.
1 5 7
mailxmail - Cursos para compartir lo que sabes
El símbolo indica la suma de todas las diferencias dentro del paréntesis, las
que previamente han sido elevadas el cuadrado
La desviación típica (s) es la raíz cuadrada de x; es decir, s = Raíz cuadrada
d e x
Ahora aprenderemos a usar los valores de la tabla “t”, por medio de ejercicios
que nos permitan familiarizarnos con este importante estadístico.
1 5 8
mailxmail - Cursos para compartir lo que sabes
52. Nivel de Significancia y Confianza. Muestraaleatoria poblacional (2/2)
Del mismo modo que procedimos con la Curva Normal, antes de recurrir al
SPSS, aprenderemos a usar manualmente la tabla “t”.
El principio es similar al que rige la tabla “z” o normal que vimos en capítulo
anterior.
Para ello, se ha copiado una tabla de los parámetros de la distribución “t”.
De acuerdo con nuestro método, aprenderemos a usar la tabla “t” en el
proceso de resolver un problema concreto.
1 5 9
mailxmail - Cursos para compartir lo que sabes
El problema se plantea del siguiente modo:
Una maestra de escuela dice que el promedio de calificaciones de sus alumnos
es de 90 puntos; el director desea saber si está en lo cierto.
Nos pide que realicemos los estudios necesarios con un margen de error del
10%, esto es, nos indica un nivel de significancia del 10%
Lo primer que hacemos es obtener una muestra de 20 alumnos del total.
El promedio de notas, según la muestra es 84
El error típico de la muestra es = x = 2.46
1 6 0
mailxmail - Cursos para compartir lo que sabes
Antes de acudir a la tabla 8.2, ordenamos los datos respectivos
X* = 84, que es la media de la muestra de los 20 elementos
= 90 la media de la población, sustentada por la profesora.
S = error típico 11
n = el número de elementos en la muestra
Nivel de significancia: 10%.
Dado que el director no nos dijo si él cree que la nota sea mayor o menor a
90, asumimos que estamos ante un test de hipótesis de la forma que ahora
planteamos
Ho : = 90
H1: 9 0
Es decir, se trata de un problema de dos colas, puesto que H1la hipótesis
alternativa simplemente plantea que la media puede ser mayor o menor que la
hipótesis nula, Ho.
Con este valor vamos a la tabla “t”, lo que deseamos es comparar el valor de
la tabla con el valor encontrado manualmente, de acuerdo con la fórmula que
utilizaremos.
En la primera fila (One Sided) obtendremos los valores para resolver
problemas de una sola cola; en la segunda fila (Two Sided) nos proveerá de los
valores para dos colas.
Los valores a lo largo de cada una de esas filas son los niveles de confianza
para cada caso: una cola o dos colas (One Sided or Two Sided)
En la primera columna de la tabla “t” se registra el número de elementos de
las diferentes muestras, dado que no sobrepasen los 30, que es el máximo que se
opera con la tabla “t”
En las filas de cada número de elementos, están los valores “t” en cada caso.
El número de elementos en la muestra que tenemos es 20
Pero la fórmula con que fue construida la tabla “t” disminuye 1 elemento a
1 6 1
mailxmail - Cursos para compartir lo que sabes
cada muestra que debe ser contrastada, por lo tanto debemos operar con un valor
de 19.
Identificamos el valor 19 en la primera columna; ahora recorremos la fila
donde está el valor de 19 hasta encontrar el valor de 90% de dos colas.
Ese 90% es el nivel de confianza, emergente del nivel de significancia del 10%
que estamos usando; el valor es 1.729, valor que recibe el nombre de valor crítico.
Nuestra tarea es ver si el valor “t” que vamos a calcular manualmente está por
encima o por debajo de 1.729, para saber si el promedio real de notas es más o
menos 90.
Si el resultado que vamos a obtener es menor que ese valor crítico,
aceptaremos la hipótesis nula, es decir, el promedio de las evaluaciones da un
puntaje del 90%.
Si el resultado es mayor, rechazaremos la hipótesis nula.
(Cuando el resultado pasa de 3 la rechazamos automáticamente)
Sin embargo, antes debemos hacer una diferenciación con relación a la
desviación típica de la población, es decir, la desviación típica de los niveles de
calificación.
Nos dieron el valor S = 11.
Habíamos dicho que cada muestra tiene una media aritmética que representa
a la media aritmética de la población, pero que no es exactamente igual a la media
de la población.
Por esta razón, lo dijimos, si se extraen 100 muestras del mismo tamaño de
una población, las medias de cada población tendrán una distribución normal.
Dijimos también que el error típico de esa distribución se llama error típico de
la media
Es decir, la media aritmética de la muestra tiene su desviación típica con
relación a la media de la población; esta desviación típica se llama error típico de la
mues t ra = x
La fórmula que se utiliza para estimarla es = x = S/(raíz cuadrada de n)
1 6 2
mailxmail - Cursos para compartir lo que sabes
Reemplazando, tenemos: x = 11/(raíz cuadrada de 20) = 11/(raíz cuadrada
de 20) = 2.46
El error típico de la muestra es = x = 2.46
Ahora sí tenemos los datos necesarios para aplicar la fórmula respectiva:
t = (X* – ) / x; t = (84 – 90)/ 2.46 = -2.44
La “t” estimada es -2.44; el signo es negativo, porque nos muestra que el
promedio de la muestra = 84 es menor que el presentado por la directora = 90.
El nuevo valor absoluto de “t” -2.44 es mayor que el valor de la tabla =
1.729, por lo que rechazamos la hipótesis nula de la Directora
La media aritmética de las calificaciones de los alumnos (la población) es
menor a 90.
Tales las operaciones necesarias para resolver un caso de test de hipótesis
manualmente.
Establecer las relaciones entre variables es una de las tareas fundamentales
que las empresas e instituciones en general requieren para el cumplimiento de sus
actividades.
Las relaciones pueden vincular inclusive a variables categóricas (nominal u
ordinal) controladas por otras a las que se denominan “variables de capa”.
Testar la independencia y medidas de asociación para datos de tipo ordinal y
nominal son requerimientos que demandan gran tiempo y esfuerzo en el interior de
las empresas.
Por otra parte, es necesario estimar de riesgo relativo de un evento, dada la
presencia o ausencia de una característica particular.
Pero antes de ir a los estadísticos, es preciso diferenciar dos vocablos, cuyos
significados se confunden entre sí muchas veces.
1 6 3
mailxmail - Cursos para compartir lo que sabes
53. Estadística. Concepto y tipos de variables
Estadística
Es la disciplina que recoge, ordena, analiza datos para inferir a través de ellos
las características de una población determinada por medio de una muestra.
También se la considera como la ciencia que mide la intensidad de los hechos
sociales y deducir las leyes que rigen en cada ciencia social y realizar predicciones.
En mi concepto, la Economía no tiene leyes deterministas, más bien
tendencias probabilísticas cuya identificación hace que la estadística sea más
importante que la matemática
Bajo los principios del Caos, de la Incertidumbre y del Conocimiento
complejo, la Estadística reemplaza varias de las funciones atendidas por las
matemáticas.
Los científicos de la física teórica, de la biología o de la astrofísica han
establecido el hecho de que ya no es posible hablar de leyes deterministas.
Ahora se inclinan por referirse a las “leyes probabilísticas”, lo que hace de la
Estadística una ciencia transversal a todas las demás, tanto naturales como sociales.
Estadístico
Es un indicador que mide el grado de asociación, de correlación o de
pronóstico de las variables que analizamos entre sí.
La Media Aritmética, la Varianza son, los coeficientes de regresión… son
“estadísticos”.
Ya nos hemos referido a las tres ramas de los estadísticos: cuantitativas
(también llamadas de “escala”) de intervalo y categóricas; dada su importancia las
definimos otra vez
Variables Cuantitativas o de Escala
Son las variables que se expresan numéricamente, tales como el peso, las
calificaciones los años de estudio, la población… y otros similares.
Variables de Intervalo
1 6 4
mailxmail - Cursos para compartir lo que sabes
Se expresan dentro de un intervalo dado; v.g. la media de los salarios en una
empresa puede ubicarse entre $ 1500-3000; lo mismo con el Ingreso Nacional y
otros similares.
Variables Categóricas o Cualitativas
Son las que no tienen valor cuantitativo por sí mismas, pero que en el proceso
de tabular información computarizada se les puede asignar valores cuantitativos.
En esta definición se encuentran, v.g, el género, los idiomas que se habla….
Las Variables Categóricas se dividen en dos sub categorías: Nominales y
Ordinales.
Variables Nominales
Son variables que no especifican jerarquías de ningún tipo.
Por ejemplo, la nacionalidad, la procedencia étnica.
Variables Ordinales
Son las variables categóricas que implican una jerarquía entre las
observaciones; por ejemplo, la edad, los ingresos y otras parecidas.
Ahora bien, la realización manual de estos quehaceres es muy complicada,
por lo que los profesionales de la Estadística recurren a los programas
computarizados, como el SPSS.
Veamos el siguiente problema
Para determinar el grado de satisfacción de los clientes, una compañía
condujo una encuesta que tomó la opinión de 582 de ellos en las cuatro tiendas
diferentes de la firma.
De los resultados de la encuesta, se puede deducir que la calidad del servicio
al cliente es el factor más importante en un análisis integral de la satisfacción de los
consumidores.
Con esta información, se desea testar si cada una de las filiales provee niveles
similares y adecuados de servicio al cliente; para indagar, convocamos el archivo satisf.sav
satisf.sav
Usando el procedimiento de análisis cruzado, vamos a testar la hipótesis de
1 6 5
mailxmail - Cursos para compartir lo que sabes
que los niveles de satisfacción en los servicios al cliente son constantes en todos los
sectores.
Menú principal Analizar Estadísticas Descriptivas Tablas de
Contingencia (Crosstabs)
Escogemos Store como la variable de fila (Row) y la variable Service
Satisfaction como la variable de columna (column)
En la pantalla de resultados aparece la Tabla de Contingencia, a la que hemos
clasificado como Tabla 8.3; registra los niveles de satisfacción para cada tienda.
Si cada tienda ofreciera un nivel similar de servicio, las respuestas serían
similares en las cuatro; pero, la diferencia en la calidad de servicios hace que las
respuestas difieran.
La tienda 2 parece tener un número menor de clientes satisfechos.
La tienda 3 muestra un número menor de clientes no satisfechos.
La tienda 4 tiene el mayor número de respuestas fuertemente positivas (34)
Pero también tiene el mayor número de respuestas fuertemente negativas (27)
Pero, de esta tabla de contingencia no es posible determinar si estas
diferencias son
reales o se deben a una variación del azar.
1 6 6
mailxmail - Cursos para compartir lo que sabes
54. Análisis del estadístico chi-cuadrado
Para estar seguros, analizaremos el Estadístico chi-cuadrado (X2 ) la que en
inglés recibe el nombre de Chi-Square.
Antes de llamar a este estadístico de asociación planteamos nuestras
hipótesis.
Ho: Las Variables no está asociadas, son independientes una de las otras
H1: Las Variables son dependientes entre sí
Es la hipótesis nula que vamos a testear con el Estadístico chi-cuadrado ( X2 )
Menú Analizar Tabla de Contingencia Store en la f i la Service
Satisfaction como variable de columna chi-cuadrado.
La nueva tabla en la pantalla de resultados despliegan los estadísticos
abiertos.
La tabla que nos ofrece la pantalla de resultados consigna las medidas
direccionales o de asociación, ordinal por ordinal, con los siguientes valores.
El estadístico chi-cuadrado se usa para evaluar si hay o no una asociación
entre las variables de las filas y las variables de las columnas de una tabla de
contingencia.
Es decir, nos da información acerca de independencia o no de las variables
entre sí.
Mientras menor es el grado de asociación, menor es el valor de X2; cuando la
independencia entre ellas es nula el valor de chi-cuadrado es cero.
Por el otro lado, mientras mayor sea el grado de independencia entre las
variables, el valor de chi-cuadrado será mayor hasta alcanzar la independencia
1 6 7
mailxmail - Cursos para compartir lo que sabes
variables, el valor de chi-cuadrado será mayor hasta alcanzar la independencia
absoluta.
Para que el valor X2 sea confiable, las frecuencias esperadas no deberán ser
“pequeñas”
Esto es, si hay valores de frecuencias esperadas menores a 5 observaciones,
el número de estos casos no debe superar el 20% del total de frecuencias esperadas
en la muestra.
Al desplegar la tabla de X2 , el SPSS indica la o las casillas en las que la
frecuencia esperada es menor a 5 y su porcentaje con relación al total
En la tabla 8.4, ese dato está registrado en la parte inferior de la tabla:
a. 0 casillas tienen una frecuencia esperada inferior a 5.
Si la tabla de chi-cuadrado muestra que el porcentaje de esas frecuencias
supera al 20% del total de las frecuencias esperadas, la prueba X2 debe
complementarse con otras.
Con los datos de la tabla se testa la hipótesis nula de que no hay asociación
entre los datos de las columnas y de las filas de una tabla de contingencia.
A mayor valor de X2 mayor es la diferencia entre los valores observados y los
teóricos.
Esto quiere decir que los valores observados están más lejos de los valores
calculados teóricamente bajo el supuesto de que las variables fuesen
independientes.
En consecuencia, a mayor valor del estadístico X2 , mayor será el grado de
asociación entre las variables y la hipótesis nula deberá ser aceptada.
En caso contrario, será rechazada
El Sig es la probabilidad de error que aceptamos: 0.05.
Si el Sig es menor que 0.05, la hipótesis nula será rechazada.
Recordemos que la Ho: plantea que no hay relación de asociación entre las
variables.
En la tabla 8.4 vemos que el valor de chi-square es 16,293
1 6 8
mailxmail - Cursos para compartir lo que sabes
Ahora bien, para evaluar esta cifra, nos fijamos en el valor Sig, que es 0.178,
mayor que 0.05; por ello aceptamos la hipótesis nula: las variables son
independientes entre sí.
En este caso, las variables Store y Service Satisfaction no están asociadas
entre sí
Pero se sabe que no todos los clientes de la muestra han tenido un contacto
directo con un representante del servicio al cliente.
Por lo que nos interesará saber si hay diferencia entre ambas categorías de
clientes.
La introducción de esa variable es muy importante.
Creemos que nos dará valores diferentes para los clientes que han tenido
contacto con el empleado de servicio al cliente y los que no lo tuvieron.
Para analizar ese caso, debeos dividir las observaciones en dos categorías: los
clientes que han tenido contacto con el empleado de Servicio al cliente y los que no.
En la práctica, necesitamos una variable de “capa” (Layer) que permite la
división
Con el objeto de establecer si hay o no diferencia entre la variable satisfaction
service y store cuando los clientes han visitado o no al encargado de satisfaction
service en cada tienda, vamos a la casilla capa.
Ingresamos a tablas de contingencia, las variables de fila y de columna siguen
siendo las mismas pero, en la casilla capa 1 de 1 introducimos la variable Contacs
with employees.
La pantalla de resultados nos muestra una nueva tabla de contingencia.
Lo que ahora nos interesa es si los nuevos resultados apoyan o no la
hipótesis nula.
1 6 9
mailxmail - Cursos para compartir lo que sabes
Para conocer esos estadísticos, copiamos la tabla 8.5, la que muestra los
resultados obtenidos cuando se toma en cuenta la variable capa “Contacto con el
cliente”.
El valor de Chi-cuadrado para los clientes que no visitaron al empleado es
20,898 y su nivel de significación crítica, Sig es 0.052.
Esos datos sugieren, pero no son conclusivos, que hay una relación entre
Store y Service Satisfaction, debido a que el Sig (0.052) está prácticamente sobre
0.05
El nivel de significación para los que sí tuvieron contacto con un empleado es
0.012, valor claramente menor que 0.05.
Encontramos que con la incorporación de la variable capa, Contactos con el
empleado hay una relación entre Store y Satisfaction service.
1 7 0
mailxmail - Cursos para compartir lo que sabes
55. Sistemas para formulación de informes y tablasestadísticos (1/2)
Existen sistemas muy útiles para redactar informes que incluyen análisis
estadísticos.
Dedicaremos este acápite a la tarea de mostrar uno de esos sistemas.
Como de costumbre, lo hacemos sobre el escenario de un ejemplo concreto,
sobre el caso de un agente de bienes raíces que ayuda a un cliente a vender su casa.
Como primer paso el agente reúne información de todas las casas que se han
vendido el año pasado y desea preparar un informe
Traemos el archivo marketvalues.sav para crear una tabla-resumen de los
estadísticos para venta de casas, agrupadas por la calle en la que se encuentran.
Menú principal Analizar Informes Resúmenes de casos
En la pantalla superior introducimos Purchase Price como la variable que será
resumida
House Street como la variable de grupo.
No elegimos la lista de casos individuales debido a que nos referimos al
grupo.
Pulsamos el botón borrar casos en la parte inferior del cuadro de diálogo.
Click Statistics Mean, Median, Minimun and Maximun
1 7 1
mailxmail - Cursos para compartir lo que sabes
El número de casos aparecerá por defecto en esa lista
Cont inue Opt ions en la caja de diálogo de Summarize
Escribamos Home Sale Statistics como título; en la casilla de abajo
escribimos Grouped by Street como caption (Pequeño texto que se pone al pie de
una tabla)
Continue aceptar en caja de diálogo de Summarize.
Observemos el sitio del título, sobre y de la nota, al pie de la tabla.
En la tabla 8.6 tenemos los registros solicitados.
Los datos aparecen para cada calle en el orden que fueron seleccionados:
Número de casos (N) Media, Mediana, Minimun y Maximun
El cliente que solicitó el servicio del agente vive en la calle Fairway View
En esa calle la media del precio de compra es arrastrada hacia arriba por la
influencia de alguna propiedad cara en la vecindad.
Por eso escogemos la Mediana, es más resistente a los extremos.
Si deseamos tener el mismo cuadro pero no agrupado por la calle en la que se
encuentran, sino por el número de días que están en oferta, procedemos del
siguiente modo
Analizar Informes Resúmenes de casos
En la casilla inferior, en vez House Street introducimos Days on the market
before sold Estadís t icos Mediana Aceptar
La tabla 8.7registra las casas de acuerdo con el precio y los días que
permanecieron en el mercado antes de ser vendidas.
En la tabla vemos que dos casas estuvieron en el mercado durante 5 días cada
una antes de ser vendidas; una casa tardó 33 días en venderse y así sucesivamente.
1 7 2
mailxmail - Cursos para compartir lo que sabes
1 7 3
mailxmail - Cursos para compartir lo que sabes
56. Sistemas para formulación de informes y tablasestadísticos (2/2)
El dueño estimó que su casa vale $315000 y le pide al agente que le
proporcione una lista de las casas que hubieran sido vendidas en el área a un precio
igual o mayor
La primera tarea es seleccionar solamente las casas que se vendieron en
$315000 o mayores; Menú principal Datos Seleccionar casos.
Ahora bien, hay una condición que los datos deben cumplir, esto es, que las
casas hayan sido vendidas por un precio de $315000 o mayores.
Click en el botón si la opción es satisfecha
Se nos presentará un nuevo cuadro de diálogo con una pantalla a la derecha y
el nombre de las variables a la izquierda.
Con la flecha de dirección introducimos la variable Purchase Price a la pantalla
derecha. Allí aparece la palabra value, a la cual le añadimos la expresión >= 315000
Continuar Aceptar en la caja de diálogo.
En la Pantalla Vista de Datos han sido tachadas con una línea todas las casas
cuyo precio es menor a $315000; sólo están habilitadas las de precios mayores a
esa cifra.
En la última columna se destaca con palabras Selected no Selected la misma
información
Ahora debemos ordenar las casas seleccionadas por su valor y por la calle
donde fueron construidas; para ordenar los datos realizamos el siguiente proceso:
Menú principal Data Ordenar Casos Purchase Price como la primera
variable a ser ordenada en el botón de abajo Descendente
Pulsamos House Street como la segunda variable Aceptar
Vamos otra vez a Informes Resúmenes de casos introducimos Purchase
Price House Street como variables en la primera casilla
Click Statistics Media, Mediana, Mínimo, Máximo Continue Options
1 7 4
mailxmail - Cursos para compartir lo que sabes
En la caja de diálogo de Summarize escribimos Case Lists como título y Only houses with prices equal over 315000
Only houses with prices equal over 315000 como caption
Escribimos Unavailable como la variable en el lugar de missing values; Click el
botón mostrar número de casos mostrar sólo casos válidos Continuar
Aceptar
La nueva tabla que aparece en la pantalla de resultados muestra la lista de
todas las casas cuyo precio de venta son iguales o superiores a $ 315000.
La Opción Informes sirvió para que el dueño decida entre esperar hasta que
la casa sea vendida en este mercado o si debería reducir el precio en busca de una
venta más rápida.
Los procedimientos más cercanos a esta opción son los Análisis de Variables
de Escala que será analizada en el próximo acápite.
Con esos instrumentos tendremos a disposición estadísticos adicionales y
gráficos cuyos datos describen el comportamiento de variables de controladas por
variables de grupo.
1 7 5
mailxmail - Cursos para compartir lo que sabes
57. Análisis de Variables de Escala. Uso de Meanspara Estadísticos Descriptivos
La disciplina estadística siempre recurre a las medidas de tendencia central o
de dispersión para llevar adelante sus análisis en forma sistemática.
El procedimiento Means es útil para la descripción y análisis de variables de
escala, con sus estadísticos se puede estimar las medidas descriptivas para testar
las variables.
Cualquier número de variables de grupo pueden se divididos por capas
(layers) o estratificadas en casillas que definen con precisión los grupos que deben
ser comparados.
Se puede testar las diferencias entre grupos usando el procedimiento
One-way ANOVA, el que nos provee de tests de linearidad y medidas de asociación.
Con esa opción, la que estudiaremos en el próximo capítulo, podremos
entender mejor la fuerza de las asociaciones; pero vayamos primero a los valores
descriptivos.
El uso de Means para lograr Estadísticos Descriptivos
Se desea analizar los salarios de las enfermeras de acuerdo con niveles
variables de experiencia, las tareas que desempeñan y el cargo que tienen en un
hospital.
Menú pr inc ipal Analizar Compare Medias Medias Hourly Salary (Como
variable dependiente) Years Experience como variable independiente
Aceptamos
No pedimos estadísticos, pues el SPSS, por defecto, nos da la primera
información.
Los datos quedan registrados en la tabla
La tabla de resultados nos despliega dos cuadros de los cuales copiamos el
que relaciona el salario por hora y los años de experiencia.
En este caso, ya estratificados por intervalos para un total de 2911
observaciones.
1 7 6
mailxmail - Cursos para compartir lo que sabes
Tabla de Medias (Means) con una variable de un grupo
La tabla de resultados muestra los estadísticos del salario para cada nivel de
experiencia.
Los salarios de las enfermeras no varían solamente como una función de la
experiencia.
Es probable que hayan empezado con diferentes rangos salariales.
El uso del procedimiento Means permite usar la posición con la experiencia y
observar la diferencia salarial.
Vamos otra vez a la caja de diálogo de Medias y en el mismo cuadro
pulsamos siguiente
Capa 2 de 2 (Incremento de la variable capa a dos niveles)
Elegimos Nurse Type como la variable independiente OK.
La tabla que despliega la pantalla de resultados muestra los estadísticos para
las enfermeras del hospital que tienen cinco o menos años de experiencia.
La primera Columna muestra los estadísticos para las enfermeras que
trabajan en el hospital como tales y que tienen una experiencia como enfermeras de
hasta cinco años.
1 7 7
mailxmail - Cursos para compartir lo que sabes
La segunda Columna tiene dos niveles: “Hospital”, “Office”
Esa división nos indica que se ha clasificado a las enfermeras por el trabajo
que realizan, ya sea como tales ya de oficina; los niveles de experiencia son los
mismos
La tercera Columna, muestra los estadísticos para cada categoría de
enfermeras.
La columna de las Medias exhibe cómo el promedio salarial difiere entre las
enfermeras tomando en cuenta su posición de trabajo en el marco de los niveles de
experiencia.
Las enfermeras que trabajan como tales en el hospital tienen salarios más
altos que las enfermeras que realizan labores de oficina a través de todos los niveles
de experiencia.
Pero la brecha tiende a cerrarse a medida que aumentan los años de
experiencia.
La Desviación Típica indica que el salario de las enfermeras de oficina varía
con mayor amplitud alrededor del salario promedio, que las enfermeras de hospital.
Resumen
La división por grupos mediante las variables Layers nos permite apreciar las
1 7 8
mailxmail - Cursos para compartir lo que sabes
La división por grupos mediante las variables Layers nos permite apreciar las
variaciones salariales de las enfermeras a través de la experiencia en años y las
tareas que realizan
Las enfermeras “de planta”, que trabajan en el hospital, como las que realizan
tareas de oficina tienen habilidades que les permite desarrollar adecuadamente sus
tareas.
1 7 9
mailxmail - Cursos para compartir lo que sabes
58. Asociaciones de ordinales estadísticos
Asociaciones Ordinal por ordinal
Hasta aquí hemos analizamos la asociación de variables cuando ambas son
nominales.
Para ello nos valimos de los estadísticos diseñados con ese propósito.
Ahora analizaremos los grados de asociación entre variables ordinales;
recordemos que una variable ordinal es categórica pero que entraña una jerarquía
de posición.
Variables Ordinales
Recordemos que las variables Ordinales son las que, siendo categóricas, sin
embargo están sujetas a una jerarquía de ordenación entre sus elementos.
Asociaciones Ordinal por Ordinal
De inmediato analizaremos las relaciones entre dos variables ordinales.
Seguimos con el archivo satisf.sav.
La compañía quiere testar la influencia de la frecuencia de compras con
relación a la satisfacción general de los clientes.
Dado que las categorías de ambas variables son ordinales, es posible
establecer medidas para cuantificar el grado de fuerza y el signo, positivo o
negativo, de su asociación.
Acudimos a la tabla de contingencia para establecer las medidas de
asociación entre ambas variables: Shopping frecuency y Overall satisfaction.
Menú Principal Estadísticos Descriptivos Tablas de Contingencia En la
fila Shopping frecuency y en la columna Overall Satisfaction
Esadísticos Gama, d de Somers, tau-b de Kandall y Tau –c de Kendall.
La Tabla 9.1 despliega la información sobre el total de los casos, 582 ninguno
perdido.
La Tabla 9.2 es Tabla de contingencia para Shopping frequency * Overall
1 8 0
mailxmail - Cursos para compartir lo que sabes
satisfaction
La tabla registra los valores que miden el grado de asociación entre las
variables Shopping frecuency y Overall satisfaction.
Por ejemplo, se lee que los clientes que tienen un mes de antigüedad tienen
un nivel de satisfacción Fuertemente Negativa en 26 casos.
La percepción “Algo Negativa” consigna 38 casos, hay 39 Neutrales, “Algo
Positiva” 34 y Fuertemente Positivo” 16; el total de los clientes con un mes de
antigüedad es 52.
1 8 1
mailxmail - Cursos para compartir lo que sabes
59. Cálculo del estadístico "d Sommer" o "Somer's d"
La Pantalla de resultados también exhibe los datos sobre las Medidas
Direccionales que trasladamos aquí como la Tabla 9.3
El estadístico “de Somer” o “Somer’s d”
Somer's d establece si las variables ordinales son dependientes e
independientes entre sí.
Mide el grado de asociación entre dos variables ordinales y toma un valor
entre -1 y 1.
Los valores absolutos cercanos a 1, muestran una relación fuerte entre las
variables.
Los valores cercanos a 0 indican que hay poca o ninguna relación entre las
variables
La Variable Shopping frecuency tiene un valor de 0.104, un valor T bajo y un
Sig 0.001
El valor para la variable Overall satisfaction es de 0.110, y un nivel Sig de
0.001.
Podemos deducir que no hay una relación significativa entre ambas variables.
En la Tabla 9.4 tenemos las Medidas Simétricas: Tau-b de Kendal, Tau-c de
Kendall y Gamma
1 8 2
mailxmail - Cursos para compartir lo que sabes
Las anteriores tablas no están controladas por una variable muy importante:
el contacto del cliente con el encargado de atención al cliente.
Para contar con esa información, iremos nuevamente al Menú Principal
Descriptivos Tablas de Contingencia Shopping Style en la casilla de Fila
Overall satisfaction en la casilla de Columna
Contact with employee en la casilla dentro de Capa 1 de 1.
Estadísticos d deSommers, Kendall-b; Kendal-c, Gamma
La tabla 8.8 muestra el recuento de las interacción de las variables Shopping Frecuency, Overall Satisfaction y Contact with employee
Frecuency, Overall Satisfaction y Contact with employee
La tabla se divide ahora en tres partes principales
No, para quienes no tuvieron contacto con el empleado de atención al cliente
Sí, para los clientes que sí tuvieron contacto
Total
En la tabla de recuento podemos ver algunas diferencias con la tabla de
recuento anterior
En el Anterior, cuando las variables no estaban controladas por la variable
Contact with employee, las cifras para los clientes que tenían un mes de antigüedad
eran:
La Nueva Tabla, que incluye la variable control despliega los siguientes datos
para quienes no tuvieron con el encargado de control de calidad.
1 8 3
mailxmail - Cursos para compartir lo que sabes
Obsérvese que en este caso estamos tratando de analizar la satisfacción
general de la empresa, no sólo de cada tienda, por eso se escoge la variable Overall
satisfaction.
Los datos internos en la tabla 9.5 mostrarían que el número de clientes con
una anti-güedad que no tuvieron contacto con el empleado no difieren de los que sí
tuvieron
Tampoco parece haber un gran cambio los clientes que tienen un mes de
antigüedad con relación a la actitud positiva.
Para cerciorarnos vamos a traer la tabla 9.6 que registra las medias
direccionales por medio del estadístico “d de Somer”.
El valor para los que no tienen contacto con los empleados de atención al
1 8 4
mailxmail - Cursos para compartir lo que sabes
cliente es de 0.091 con un nivel Sig 0.05, lo que no asegura si hay o no asociación
entre las variables.
El valor para los que sí hablaron con el empleado es de 0.119, con un nivel
Sig 0.011 que es menor que 0.05, lo que nos muestra que no hay relación entre las
dos variables que analizamos ahora.
1 8 5
mailxmail - Cursos para compartir lo que sabes
60. Estadístico de Kendall's Tau. Cálculo del Riesgomediante Tabla de Contingencia
Ahora analizamos los datos de la segunda tabla que nos dio la pantalla de
resultados.
Los nuevos datos se registran en la tabla 9.10.
Analicemos ahora los datos de la tabla 9.7 que registra los dos estadísticos
Tau y Gamma
a. Asumiendo la hipótesis alternativa.
b. Empleando el error típico asintótico basado en la hipótesis nula.
El estadístico Kendall’s Tau mide la probabilidad de las diferencias entre las
probabili-dades de que los datos observados estén en el mismo orden, versus la
probabilidad de que no estén en el mismo orden.
Hay dos variantes de Tau: Tau b y Tau c, variantes que difieren en la manera
cómo se percibe las ordenaciones de las variables relacionadas entre sí.
Kendall’s Tau-b es una medida de asociación que computa los excesos de los
pares de los datos observados concordantes en relación a los discordantes
Todo eso de acuerdo con una fórmula establecida.
Tiende a un valor 0 cuando las variables son estadísticamente dependientes
En el cuadro de análisis su valor es 0.107 y su Sig 0.001
Estos bajos niveles nos permite desechar la hipótesis de que ambas variables,
Shopping frecuency y Overall satisfaction, sean independientes entre sí.
Esto es, aceptamos la hipótesis alternativa de que las variables están
asociadas entre sí.
1 8 6
mailxmail - Cursos para compartir lo que sabes
Tau-c, también conocida como Kendall-Stuart Tau-c, es una variante de
Tau-b pero para tablas mayores; iguala el exceso de concordancia sobre los pares
discordantes.
Su valor en la tabla que analizamos también está respaldado por Sig. 0.001,
que es otra razón para desechar la hipótesis nula que sostiene la independencia de
las variables.
Uso de la Tabla de Contingencia para medir el riesgo relativo de un evento.
Una compañía que vende revistas envía tradicionalmente correos a clientes
que figuran en la base de datos; el porcentaje de respuestas es típicamente bajo.
Para mejorar las respuestas mensuales, decidieron enviar correos mensuales
a personas que tienen suscripciones de periódicos.
Esta iniciativa se basaba en el supuesto de que la gente que lee periódicos
estará más interesada en suscribirse a una revista.
Para tener los estadísticos que les permita tomar una decisión al respecto,
nos encargan testar las bondades del nuevo sistema y nos entregan los datos en el
archivo demo.sav.
Nuestra tarea consiste en estimar el Riesgo Relativo de que una persona que
está suscrita a un periódico responde o no a los avisos que se les hace llegar
mensualmente.
Vamos a usar el procedimiento referido a las Tablas de Contingencia para
testar la teoría, construyendo una tabla de dos por dos, con relación a las
suscripciones de periódicos.
Menú principal Estadísticos Descriptivos Tablas de Contingencia
Newspaper en la casilla de Filas y Response en la casilla de Columna.
Todavía no pedimos Estadísticos; pero en la misma pantalla, debajo
Estadísticos c l i ck en Casilla Recuentos: click observado esperado
A la derecha, click en comparar las proporciones de columna; abajo, en la
sección Porcentajes click columna continuar aceptar.
Los datos aparecen en la tabla que copiamos como tabla 9.8
El Riesgo
1 8 7
mailxmail - Cursos para compartir lo que sabes
El riesgo relativo es una razón de las probabilidades de dos eventos, en este
caso, nos interesa el riesgo relativo de una respuesta a los correos mensuales.
Medimos ese riesgo por medio de una razón de probabilidades.
La razón de la probabilidad de que alguien suscrito a un periódico responda a
los correos, con relación a la probabilidad de que alguien que no está suscrito
también responda.
Así, de la tabla anterior el estimado del riesgo relativo es 13.7%/8.2% = 1.668.
Veamos ahora el riesgo relativo de no respuesta
Es la razón de la probabilidad de que alguien suscrito a un periódico no
responda con relación a la probabilidad de que una persona no suscrita tampoco
responda.
Esto es 86,3%/91.8% = 0.94
Podemos afirmar que la probabilidad de que una persona suscrita a un
periódico res-ponda es 1.6680 veces que alguien no suscrita responda a los correos.
También se puede llegar a la misma conclusión diciendo que una persona que
está suscrita a un periódico responda, es 0.94 veces que alguien no suscrito no
responda.
1 8 8
mailxmail - Cursos para compartir lo que sabes
61. Grandes Estadísticos y Matemáticos en la Historia
Karl Pearson (1857-1936).
Fue biométrico, estadístico y matemático; tuvo gran interés en la medición de
la evolución de los animales, con lo que nació la Biometría. Pearson aportó con
instrumentos de gran importancia al fortalecimiento de la Estadística, especialmente
en lo que se refiere a temas relacionados con la correlación, a los que nos
abocaremos en los últimos capítulos de este curso. Por el momento, nos interesan
los estudios que realizó sobre la distribución de una nueva variable Chi-cuadrado
( X2 ) que es muy conocida y que nosotros utilizaremos en este capítulo, además de
otros estadísticos.
A.A. Markov (1856-1922)
Dedicó su vida a la docencia universitaria en la Universidad de St. Petersburgo
y fue, con L Yapunov, el más distinguido alumno de Chabyshev en el campo de la
probabilidad. Markov contribuyó a establecer temas como el Teorema del Límite
Central, y la Ley de los Grandes Números. La extensión de este último tema le
permitió introducir la Cadena Markov. También demostró cómo la desigualdad de
Chebyshev podía ser aplicado en el caso de variables aleatorias dependientes.
Analizó la alternación de vocales y consonantes como dos estaos de la cadena de
Markov y trabajó en la Teoría de la Dispersión. Tenía una opinión desfavorable del
1 8 9
mailxmail - Cursos para compartir lo que sabes
trabajo de Pearson. Su Teoría de la Probabilidad fue un texto de gran influencia,
especialmente en Berstein y Neyman. Éste último reconoció la obra de Markov
cuando propuso el término El Teorema de Markov, aunque ahora se denomina el
Teorema de Gauss-Markoc. J. V. Uspensky hizo conocer las ideas de Markov a los
estudiosos de los EE.UU en su obra Introducción a la Probabilidad Matmática.
Ronald Fisher (1909-1962).
No podía leer con luz artificial debido a su visión defectuosa, pero ello no le
impidió graduarse, en la universidad de Cambridge en 1912. Su interés por la
aplicación de la teoría de errores en Astronomía le llevó a investigar problemas
estadísticos. Durante siete años ejerció de profesor, teniendo como colega a Karl
Pearson –el famoso creador del criterio de chi cuadrado y que, ya en 1893, había
introducido el término desviación Estándar, con el que mantuvo un largo
enfrentamiento acerca del tamaño de las muestras. Ambos estaban interesados por
las aplicaciones de la estadística a los problemas que planteaba la biología, y
Pearson, a diferencia de Fisher, era partidario de usar en sus investigaciones
muestras grandes. En 1925 publicó uno de los libros históricos en esta disciplina:
Statistical methods for research workers, introduciendo las técnicas de análisis de la
varianza y el método de máxima verosimilitud. Escribió también algunas memorias
detallando sus avances en genética y biología gracias al uso sistemático de los
métodos estadísticos; como ejemplo, su investigación sobre la relación entre la
cosecha de trigo en Rothamsted y la lluvia caída durante el año. Este capítulo inicia,
precisamente, el Análisis de Varianza (ANOVA) que es una de las contribuciones más
grandes en la ciencia estadística.
William Sealy Gosset (1876–1937)
1 9 0
mailxmail - Cursos para compartir lo que sabes
Es el científico que nos legó la Distribución t-student que analizamos en
capítulo anterior. Trabajaba en una fábrica de productos agroquímicos y se interesó
en la selección de las mejores variedades de centeno, como de su mayor
rendimiento. Logró aprender parte de la estadística por medio de prueba y error
hasta que conoció a Karl Pearson, quien le ayudó con el enfoque matemático de sus
ensayos. Pero Karl Pearson no estaba interesado en pequeñas muestras, sino en los
grandes números. Antes de esos encuentros, Gosset había publicado un pequeño
ensayo sobre estadística que comprometía algunos datos confidenciales de la firma,
por lo que se le prohibió que publicara nuevamente, sin importar el tema. Así es
que para hacer conocer sus resultados publicó sus ensayos bajo el seudónimo de
“Student”, de donde proviene la “t” con la que se conoce su obra. Tuvo la suerte de
conocer a R.A Fisher, quien apreció el trabajo de Gosset, pues Fisher, recordemos, a
diferencia de Pearson, estaba interesado en los “números pequeños” Fisher se
entusiasmó tanto con la obra de Gosset que encontró en ella una revolución de la
lógica. A continuación estudiaremos, con ejemplos, el uso de este importante
estadístico creado por Gosset.
Andrei Nikolaevich Kolmogorov(1903-1987).
Fue uno de los más importantes matemáticos del siglo pasado y sus grandes
1 9 1
mailxmail - Cursos para compartir lo que sabes
trabajos en el campo de la Probabili-dad fueron sólo una parte de su obra total. Al
igual que Khinchin, fue estudiante en la Unversidad Estatal de Moscú. En 1924
empezó a trabajar con Khinchin y juntos lograron la Ley del Logaritmo Iterativo y la
Ley de los Grandes Números. La más grande contribución de kolmogorov en el
estudio de la Probabilidad fue su propuesta de reconocer los fundamen-tos
axiomáticos en la Probabilidad. Esto hizo posible un tra-tamiento riguroso del
proceso estocástico. Su ensayo “Méto-dos Análiticos en la Teoría de la Probabilidad”
le permitió es-tablelcer los fundamentos dela teoría del Proceso de Markov Este
ensayo contiene las ecuaciones Chapman-Kolmogorov. En 1941, Kolmogorov
desarrolló una teoría de la predicción por los procesos aleatorios paralelo al de
Wiener. En los años 60 retomó la teoría de la probabilidad de von Mises y la
desarrolló en la dirección de la teoría de la Complejidad Algorítmica. Este trabajo fue
continuado por el matemático sueco P. Martin-Löf. En el campo de la Estadística es
muy conocido el Test sobre normalidad Kolmogorov-Smirnov. Desde 1938 su
nombre fue asociado con el Instituto de Matemáticas Steclov.
1 9 2
mailxmail - Cursos para compartir lo que sabes
62. Definición de Odds. Razón de Odds vs. RiesgoRelativo
Odds: definición
Los programas de computadora usan de la palabra ingresa Odds para definir
la razón de los sucesos favorables con relación a los sucesos no favorables.
Tomemos los datos del cuadro Tabla de contingencia Newspaper subscription
* Response.
El porcentaje de los sucesos favorables, es decir, de que haya respuesta a los
correos por parte de quienes están suscritos por lo menos a un periódico, es del
13,7%
La razón de que haya respuesta a los correos por parte de quienes no están
suscritos a un periódico es del 8.2%; a cada una de estas razones se llama Odds.
Por otra parte, vemos que el porcentaje de personas suscritas a un periódico
que no responden a los correos, según los datos de la tabla es del 86,3%.
También vemos que las respuestas negativas (No) de quienes no están
suscritos a un periódico representan el 91,8%.
La razón Odds es una razón de los eventos Odds
En este caso, los odds de que una persona suscrita a un periódico responda a
los correos es 13.7%/86.3; esto es, 0.158.
Del mismo modo procedemos con los odds de una persona no suscrita a un
periódico
La razón de que esa persona responda es 8.2%/91.8% = 0.089
En consecuencia la razón de Odds es 0.158/0.089 = 1.775
Este resultado de Odds también puede lograrse como la razón del riesgo
relativo de obtener respuesta con relación al riesgo relativo de no tener respuesta
Esto es, 1.6880/0.94 = 1.775.
Razón de Odds vs. Riesgo Relativo
1 9 3
mailxmail - Cursos para compartir lo que sabes
La razón Odds es una razón de razones y por lo tanto algo más difícil de
entender.
El Riesgo Relativo, por su parte, es más fácil de interpretar, de modo que la
razón de odds, por sí sola, no es muy útil.
Sin embargo, hay ciertas situaciones en las que los estimados del Riesgo
Relativo no son muy buenos, en cuyo caso se puede usar la razón Odds.
Puede usarse como una aproximación al riesgo relativo del evento de interés,
cuando se cumple una condición: la probabilidad del evento es pequeña, digamos <
0.1. Por el momento, podemos adoptar el valor 1.668 como el riesgo relativo en vez
del valor de la relación Odds.
Los otros cuadros de resultados serán analizados en capítulos más avanzados
del curso.
1 9 4
mailxmail - Cursos para compartir lo que sabes
63. Análisis estadístico. ANOVA y test de linearidad( 1 / 2 )
ANOVA, en las siglas del idioma inglés, significa Análysis of Variance.
Si tenemos solo dos muestras y deseamos comparar sus medias, se podría
usar lo que se llama el t - test , cuyo significado analizamos ya en el capítulo
respectivo.
Pero ANOVA es un test más general, pues trata de varias muestras, aunque
para empezar, estudiaremos el ANOVA con el objeto de comparar las medias de dos
muestras.
En el ejemplo, se supone que se está realizando un estudio sobre el grado de
adicción al tabaco por parte de los jóvenes.
Se cree que los fumadores más adictos empezaron a fumar a una edad más
temprana que los fumadores ocasionales.
También se quiere averiguar si la asociación entre grado de adicción y edad
en que se empieza a fumar es linear; usamos el archivo smokers.sav.
La primera etapa será ponderar los datos que reflejan las tendencias de la
población de la que se ha sacado una muestra aleatoria.
Menú principal Datos Ponderar Casos Ponderar Casos Mediante.
Elegimos Final person-leve simple weight como la variable de ponderación
Aceptamos
Ahora los datos están ponderados por la variable citada y podemos
analizarlos.
Menú Principal Analizar Comparar Medias Medias.
Seleccionamos Age when first smoked a cigarette (Edad en la que comenzó a
fumar) como dependiente; # Cigarettes smoked per day past 30 days como la
variable independiente
Options Anova e ta Tes t para l inear idad Cont inuar Aceptar en la
caja de diálogo de Means; el cuadro de resultados nos da la tabla 10.1
1 9 5
mailxmail - Cursos para compartir lo que sabes
La Pantalla de resultados exhibe las tablas pertinentes; traemos la tabla 9.1;
en la parte superior izquierda se anota el título de los cigarrillos fumados en los
últimos 30 días.
Allí vemos que los adolescentes que fuman un promedio de hasta una
cajetilla de cigarrillos al día empezaron fumar cerca de los 16 años (16 to 25)
La Tabla ANOVA contiene tests de relaciones lineales, no lineales y
combinadas.
Esas relaciones reflejan las que se dan entre la variable de la edad en que se
empezó a fumar y la cantidad de cigarrillos que el adolescente fumó en los últimos
30 días.
En la tabla ANOVA el test para la linearidad tiene un valor Sig. = 0.000 < 0.05
Este Sig nos indica que hay relación lineal entre la edad en que se empezó a
fumar y la cantidad de cigarrillos que fuma.
El test para estimar la desviación de la condición de linealidad tiene un Sig.
1 9 6
mailxmail - Cursos para compartir lo que sabes
El test para estimar la desviación de la condición de linealidad tiene un Sig.
0.000; nos indica que, además de una asociación lineal, se tiene un componente
adicional no lineal.
Estos resultados coinciden con lo observado en la tabla Means, en la que
vimos cómo la edad tendía, más o menos, a reducirse con la cantidad de cigarrillos
que se fuma.
Sin embargo, las medidas de la asociación cuadrada son, ambas, cercanas a
cero.
Esto es, en general la variación de la edad en que se empieza a fumar, la que
es explicada por lo que actualmente fuman, si bien es significativa, también es
relativamente pequeña.
1 9 7
mailxmail - Cursos para compartir lo que sabes
64. Análisis estadístico. ANOVA y test de linearidad( 2 / 2 )
Resumen
El procedimiento Compare Medias nos permitió identificar una asociación
entre el número de cigarrillos que los jóvenes fuman cada día y la edad en la que
empezaron a fumar
Pero, la asociación, siendo estadísticamente significativa no nos da una idea
robusta de lo que sucede entre ambas variables.
Uno de los estadísticos más conocidos en el ANOVA es la función F que
aparece en la tabla cuyo significado veremos en seguida aunque en este caso no es
muy alto.
Una firma de telecomunicaciones desea reducir la proporción de clientes que
se cambian a otra firma que provee el mismo servicio (chum)
Los expertos en estadística fueron consultados y encontró las
recomendaciones necesarias para reducir el número de personas que se va a otras
firmas.
Recurrieron al procedimiento OLAP Cubes para establecer las actitudes de los
clientes durante el último es, a través de las 3 zonas geográficas o áreas de ventas
de la firma.
Este ejemplo fue archivado en telco.sav.
Lo primero que se hace en el procedimiento OLAP Cubes es crear la variable
pertinente para medir el número de servicios disponibles que cada cliente demanda.
M e n ú Transform Contar valores dentro de los casos
En la casillaVariable de destino escribimos Servicios que es la variable que
vamos a crear
# de servicios disponible como la variable que registramos en la casilla
“etiqueta”.
Del cuadro izquierdo elegimos desde Multiple lines hasta Electronic billing
como las variables de conteo Definir valores en la casi l la Valor escribimos 1
1 9 8
mailxmail - Cursos para compartir lo que sabes
Añadir para transferir el valor “1” a la pantalla Contar los valores Continuar
Aceptar
Basta anotar el número 1 en la pantalla de Contar los valores para que el
programa lo interprete como el punto de partida de todas las demás categorías.
La nueva variable así transformada aparece en la última columna de la
pantalla de datos.
Allí se registra el número de veces que un cliente solicita los servicios de la
empresa.
La misma variable fue creada en la Pantalla Vista de Variables, en la que
borramos el número de decimales, pues no los necesitamos
Ahora se quiere averiguar el promedio de gasto mensual de cada cliente por
los servicios que usa; debemos crear otra variable, tal como la última.
Menú principal Transformar Calcular variable mensual como Variable
de destino
Escribimos “Promedio mensual de gasto” en la casilla Tipo y Etiqueta
De la pantalla de Vista de Variable copiamos los nombres (Sólo los nombres)
de las siguientes variables: (longten + tollten + equipten + cardten +
wireten) /tenure
Nótese el uso del paréntesis
Las trasladamos a la pantalla de Calcular Variable Expresión Numérica
Aceptamos
Con el traslado de estas variables a la pantalla Expresión Numérica le
instruimos al SPSS que divida los montos anuales entre 12 meses
En la última columna de la pantalla Vista de Datos tendremos el monto de los
pagos totales mensuales que realizan los clientes por todos los servicios que
demandan.
La Empresa nos pide identificar a los clientes que abandonan la empresa, pero
esta vez tomando en cuenta la región geográfica.
Esta clase de problemas exige la opción cubes OLAP
1 9 9
mailxmail - Cursos para compartir lo que sabes
Menú pr inc ipa l Analizar Informes cubes OLAP
Elegimos Months with service, age in years, household income in thousands,
Servicios y Promedio mensual del gasto como las variables de resumen.
Elegimos Chum en el último mes y Geographic Indicator como las variables de
grupo.
Seleccionamos Estadísticas; eliminamos de la pantalla cualquier variable
antigua que aún permanezca allí.
Seleccionamos Median, Media, Número de casos, Desviación Típica Añadir
en la casilla de la lista de Estadísticos Continue Title en el cuadro de diálogo de
OLAP cubes.
Escribimos Estadísticas Descriptivas como título; también escribimos Por
cambio del cliente y Región eográfica como pie de nota Continuar Acep ta r .
La pantalla de resultados despliega la tabla 10.3
Ahora vayamos a la pantalla de resultados y hagamos doble click en la tabla
Aparecerá otro cuadro con dos títulos:
Churn within last month y su casilla Total.
Geographic Indicator y su casilla Total
Pulsamos la fleche direccional de Churn y elegimos Yes; aparecerá una tabla
nueva con los valores de los estadísticos de Churn within last month
Si pulsamos la flecha direccional de Geographic Indicatoraparecerá un
pequeño cuadro de opciones sobre la zona que deseamos analizar
Escogemos, v.g. Zona 1, aparecerá un cuadro con los estadísticos de las
variables para la Zona 1; lo mismo para las demás.
2 0 0
mailxmail - Cursos para compartir lo que sabes
65. Uso de OLAP cubes para análisis estadísticos
En este acápite aprenderemos a captar la información escondida en las tablas
que hemos diseñado; lo haremos usando la misma opción OLAP cubes y las tablas
que ya tenemos.
Nuestra meta es tener información específica de la variable Chum por cada
zona
Realizamos el mismo proceso que hicimos para lograr la tabla 10.3
2 0 1
mailxmail - Cursos para compartir lo que sabes
Hacemos doble click sobre ella en el Menú principal de la Pantalla de
Resultados se activará Pivotar, que es parte de un menú particular.
Pulsamos el botón que dice Paneles de Pivotado y se nos presenta una
pantalla a color.
En la pantalla verde de la izquierda hay dos casillas:
Churn within last month: Total y Geographic indicator: Total
En la parte derecha hay tres casillas verticales, la primera de ellas tiene
inscrito el nombre de Variable y dos más a su derecha, las que están en blanco.
Arrastramos la variable Churn within last month hasta la casilla vertical que
está en blanco, al lado derecho de la casilla Variable.
La Variable Geographic Indicator queda en la primera casilla de la pantalla
verde.
Esto quiere decir, que la tabla que obtendremos estará controlada por la Zona.
Cerramos la tabla de pivotar y en la pantalla de resultados se nos aparece el
cuadro con los datos, la misma que será copiada en la próxima página como tabla
10.4
En este caso, la variable que controla es Geographic Indicator.
Las otras variables aparecen en parte izquierda de la tabla.
La Variable Churn within last month se muestra ahora bajo dos formas:
Yes, para los tránsfugas que se van a otra firma
No, para los que continúan durante el periodo de análisis
De los datos disponibles obtenemos una información mucho más completa.
Ahora bien, supongamos que deseamos la misma información que está en la
tabla 10.4, pero clasificada por cada una de las zonas, no por el total.
Para conseguir esa información, hacemos doble click en la tabla que se
encuentra en la pantalla de resultados y que acabamos de copiar con el nombre de
tabla 10.4.
Como respuesta aparece otra tabla, pero se diferencia de la original porque al
2 0 2
mailxmail - Cursos para compartir lo que sabes
lado del título Geographic Indicator en la en la parte superior, aparece una casilla
“Total”.
Pulsamos la flecha de dirección y tendremos un menú con las siguientes
opciones:
Zona 1, Zona 2, Zona 3
Escogemos, vg. Zona 1, la pantalla nos ofrece la información específica sobre
la Zona 1.
Lo mismo con las otras zonas.
Ahora, supongamos que deseamos que las tablas estén controladas por la
variable Churn within last month; para lograrlo hacemos doble click en la pantalla
anterior
Aparece otra vez el menú Pivotar en la parte superior, pulsamos el botón que
dice Paneles de Pivotado y se nos presenta la pantalla a color.
Ahora, trasladamos a la casilla vertical de la pantalla derecha la variable
Geographic indicator, dejando en la pantalla verde la variable Churn within last
month.
La tabla que se presentará nos mostrará un cuadro con las zonas
especificadas y los totales para cada una; hagamos doble click en esa tabla y
tendremos una nueva opción.
En la parte superior aparecerá un cuadrito de diálogo al lado de Churn within
last month.
Abierto el cuadro, tendremos las opciones “Yes”, para los tránsfugas, “No”
para los fieles
Además del total se puede escoger la opción Yes o la No para obtener
estadísticos acerca del comportamiento de los tránsfugas y los fieles.
Manipulando de diferentes maneras las posibilidades, incluyendo los
estadísticos, llegamos a la tabla 10.5.
Nos enteramos, por ejemplo, que a través de las zonas geográficas los
“tránsfugas” (chumers) tienen mucho menos tenure, casi la mitad de los clientes no
tránsfugas.
2 0 3
mailxmail - Cursos para compartir lo que sabes
La tabla 10.5 nos da la información sobre la Mediana de cada una de las
variables clasificadas por zonas, los datos vienen de acuerdo con el orden que
fueron demandadas.
La Mediana nos muestra que, por lo general, los tránsfugas tienen un ingreso
más bajo que los fieles; sin embargo esa diferencia no se expresa en la variable
gastos
El gasto mensual por el uso de los servicios que demandan, no difiere de los
clientes que no son tránsfugas; ése es un dato muy revelador.
Por lo tanto, podemos decir que los tránsfugas gastan en los servicios que
requieren cantidades más que proporcionales a sus ingresos, en relación a los no
tránsfugas.
También notamos que, de acuerdo con la Mediana, los tránsfugas que viven
en la zona 1 tienen un ingreso más alto que los clientes no tránsfugas.
Pero esos estadísticos no se cumplen con la Media; manipulen los comandos
necesarios para comprobarlo, no sólo en este caso, sino en una gran variedad de
comportamientos.
Por otra parte, parece existir una interacción entre transfugio y zona, con
relación a los meses que utilizan el servicio, si vemos el total de las zonas
La Mediana para los no tránsfugas en la Zona 1 es 41.5 meses, en tanto que
para los tránsfugas es 17 meses apenas.
Resumen
2 0 4
mailxmail - Cursos para compartir lo que sabes
Resumen
Utilizamos técnicas apropiadas para analizar las variables con la introducción
de capas, lo que amplía significativamente la información que necesitamos sobre
diversos temas.
Estos instrumentos nos serán muy útiles cuando desarrollemos capítulos más
avanzados
El uso de OLAP cubes es útil cuando queremos concentrarnos en las
diferencias entre las características de grupos; también sobre los estadísticos
descriptivos en general.
2 0 5
mailxmail - Cursos para compartir lo que sabes
66. Error típico de la medida
Empezaremos explicando dos conceptos muy importantes.
Error Típico
En estadística se usa, indistintamente, los términos Desviación Estándar o
Error típico.
Ambos se refieren a la medida de dispersión de la distribución de los valores
de una muestra con relación a la media de esa muestra; nosotros utilizaremos el
Error Típico.
El Error Típico de la Media
Por otra parte, algunos textos de Estadística usan la expresión Error Estándar
de la Media, la que exige una pequeña síntesis explicativa.
Como éste es un curso de Estadística Aplicada, no incluimos demostraciones
ni fórmulas; más bien damos por aprobadas todas las demostraciones y fórmulas
usadas por el SPSS.
En el capítulo de muestreo vimos que era posible extraer una gran cantidad
de muestras diferentes de cualquier población dada, cada una con su respectiva
Media.
Pero, el Teorema del Límite Central establece que la media de una muestra
cualquiera reflejará la Media verdadera de la Población.
Se tendrá tantas Medias como muestras se conciba y cada una de estas
medias tendrá una desviación propia con relación a la Media verdadera de la
población.
Es a esta desviación que la mayoría de los libros de Estadística denomina Error
Estándar de la Media; nosotros utilizaremos Error Típico de la Media.
Ya tuvimos oportunidad de operar con la Tabla de Distribución “t” para
resolver problemas manuales usando la fórmula respectiva.
En este capítulo conoceremos más no sólo acerca de la historia de la
Distribución “t” sino de las aplicaciones que tiene en la dimensión estadística.
2 0 6
mailxmail - Cursos para compartir lo que sabes
En el capítulo respectivo usamos la distribución “z” que se refería a la curva
normal, la que podía ser utilizada cuando las muestras eran “grandes”.
Es decir, que contuvieran un número de elementos mayor a 30. La
distribución “t” permite operar con muestras menores a 30.
La distribución “t” al igual que la de X2 introdujo el concepto de grados de
libertad, término que surge de la formulación de la varianza de la muestra.
Recordemos que la varianza es la sumatoria de los cuadrados de la diferencia
de cada elemento de la muestra con su respectiva Media. La varianza de la muestra
es:
En la fórmula, “n” es el número de elementos de la muestra.
Por ejemplo, si la muestra tiene 12 observaciones, las diferencias de las
primeras 11 observaciones con relación a su media (Xi- X*) determinarán el valor de
la última.
Es por eso que la expresión (n – 1) recibe el nombre de grados de libertad.
En esta primera parte del capítulo analizaremos la distribución “t” como el
instrumento que nos permite testar las hipótesis que realizamos.
2 0 7
mailxmail - Cursos para compartir lo que sabes
67. Test "t" Hipótesis de una Muestra. Problema decontrol de calidad
Test “t” de Hipótesis de una Muestra
Testa la diferencia entre la media de una muestra la media que se mantenía
como hipótesis; nos permite especificar el nivel de confianza para la diferencia.
También despliega una tabla de estadísticos descriptivo para el test de cada
variable.
Un problema de Control de Calidad
Una fábrica de automóviles de alto rendimiento produce discos de frenos,
cuyo diámetro debe ser de 322 milímetros en promedio.
Planteamos el problema de la siguiente manera:
Ho : = 322
H1: 3 2 2
Obsérvese que la hipótesis alternativa sólo propone que la es diferente de
322 mm, por lo tanto, la puede ser mayor o menor, lo que requiere un análisis de
dos colas.
Ahora tomaremos los datos emergentes de la muestra tomada por el
departamento del control de análisis, consistente en 16 discos tomados al azar,
para medirlos
Usaremos el archivo brakes.sav y un haremos un T Test de una muestra para
determinar si las medidas de los diámetros de los frenos difieren significativamente
de los 322 mm.
La variable nominal, Machine Number identifica la máquina de producción
usada para fabricar los discos de freno.
Los datos de la producción de cada máquina deben ser testados como
muestras separadas, por lo que dividiremos las máquinas en grupos separados
Pero las identificaremos por sus respectivos números.
Para dividirlos, vamos al menú principal y escogemos: D a t a Segmentar
2 0 8
mailxmail - Cursos para compartir lo que sabes
Para dividirlos, vamos al menú principal y escogemos: D a t a Segmentar
archivo Comparar los grupos introducir la variable número de la máquina
Aceptar.
Las máquinas han sido divididas por el número que las identifica
específicamente.
Había 8 máquinas, de cada una de la cuales se extrajo una muestra de 16
elementos.
Cumplida esta fase preliminar, empezamos el análisis de t-test de una
muestra.
El test Student para una muestra asume que la población tiene una
distribución normal
El test Student para dos muestras testa la hipótesis de que las medias de dos
poblaciones, son iguales, pero cada distribución es normal y las varianzas entre sí
son iguales
Para testar la hipótesis nula de la media de las poblaciones se usa la siguiente
fórmula:
La media de la muestra es la x con barra, s la desviación estándar de la
muestra y n es el tamaño de la muestra; los grados de libertad son n – 1.
2 0 9
mailxmail - Cursos para compartir lo que sabes
68. Test "t" de una muestra. Resultados
El Test “t” de una Muestra
Menú pr inc ipal Analizar Comparar medias Prueba T para una Muestra
Disc Brake Diameter (mm) como la variable a ser testada.
Hay en ese cuadro de diálogo una casilla inferior que dice Valor de la Prueba;
en esa casilla escribimos 322, pues éste es el valor que deseamos testar.
Options en la casilla superior aparece porcentaje del intervalo de confianza
y por defecto, la cifra 95 que nosotros aceptamos.
Esto significa que el programa nos dará un valor mínimo y otro máximo
dentro de los cuales son válidos los valores que buscamos.
En este caso, “95” significa que los valores, mínimo y máximo del intervalo
respectivo, aceptan el 95% como el nivel de significación; es decir, un nivel de
significancia del 5%.
Aceptamos en la caja de diálogo de Prueba T para una muestra.
La tabla de resultados nos despliega dos tablas: la de Estadísticos para una
Prueba y la que se identifica como Prueba para una Muestra.
La tabla 11.1, Estadísticos para una Muestra despliega el tamaño de la
muestra, la media, la desviación típica y el error típico para cada una de las ocho
muestras.
La tabla 11.1 registra las medias de cada una de las 8 muestras que se tomó
para el análisis; cada muestra consta de 16 elementos.
Las medias de cada muestra no parecen alejarse mucho de los 322 mm.
A primera vista, se nota que hay diferencias entre las medias de las muestras
y los 322 mm; pero necesitamos saber si las diferencias son estadísticamente
significativas.
2 1 0
mailxmail - Cursos para compartir lo que sabes
Esa información nos la proporcionará la tabla 11.2
La tabla11.2, Prueba para una Muestra consigna los resultados que estamos
buscando. Cada uno de los valores “t” ha sido calculado del siguiente modo.
Primero: Se ha establecido la diferencia al cuadrado entre 322 mm y cada uno
de los valores de las medias observados para cada muestra.
Segundo: ha dividido el total de estas diferencias por el Error típico de la
media de la muestra; la columna gl expone los grados de libertad que se usó en el
test, esto es, 15.
La columna Sig (que en este caso es de dos colas) muestra la probabilidad de
los valores “t” para 15 grados de libertad, debido a que cada una de las muestras es
de 16 elementos
La columna Sig (que en este caso es de dos colas) muestra la probabilidad de
los valores “t” para 15 grados de libertad.
La columna Sig muestra las probabilidades de obtener un valor absoluto igual
o mayor al observado por el estadístico “t”.
La columna de la diferencia de la Media se obtiene sustrayendo el valor
testado (322) de la media de cada muestra
Los intervalos de confianza de la diferencia de medias muestran los límites
mínimo y máximo, conformando los rangos en los que se encuentran las medias
respectivas.
Los intervalos de confianza así establecidos se apoyan en el nivel de
confianza del 95%
2 1 1
mailxmail - Cursos para compartir lo que sabes
Lo que es lo mismo, aceptan un nivel de significancia (o error) del 5%.
Por lo general, ambos estadísticos, los límites, superior e inferior del Intervalo
de Confianza y el valor Sig de una muestra van en la misma dirección.
2 1 2
mailxmail - Cursos para compartir lo que sabes
69. Análisis de Estadísticos de muestras porseparado. Máquinas
Analicemos los estadísticos de cada muestra por separado.
Máquina 1
Los límites del intervalo de confianza para la Diferencias de Medias van de
-0,007431 a 0,004459, es decir de un valor negativo a un positivo.
Pero, la diferencia con la Media es -0,0014858, negativa y su valor Sig es
0.602, superior a 0.05, por lo tanto, para la máquina 1 aceptamos la Ho.
Máquina 2
La Diferencia de la Media es 0,0142629, positive, el Intervalo de Confianza
para la diferencia de la Media va de 0,008566 a 0,019960, ambos superan el valor
0.00.
Su valor Sig es 0.00, menor que 0.05.
Sobre la base de estos datos rechazamos la Ho., esto es, deducimos que la
máquina 2 produce discos de frenos de un diámetro diferente de 322 mm.
Además, sobre la base del intervalo de confianza que ubica a la media entre
dos valores positivos, podríamos deducir que la máquina 2 produce discos mayores
a 322 mm.
Máquina 3
2 1 3
mailxmail - Cursos para compartir lo que sabes
La diferencia de Media es -0,0017174; el Intervalo de Confianza de la
Diferencia de la Media va de -0,007302 a ,003868 y su nivel Sig es 0,522, mucho
mayor que 0.05.
Aceptamos la Hipótesis nula.
Del mismo modo procedemos para el análisis de resultados de las otras
máquinas; si hay discrepancia entre el Sig y el Intervalo de Confianza se aceptará el
valor Sig.
2 1 4
mailxmail - Cursos para compartir lo que sabes
70. Test "t" de dos muestras. Test "t" pareado (1/2)
El Test “t” de dos Muestras
Vimos que el test “t” de una muestra se usa cada vez que una media debe ser
comparada con un valor dado en la hipótesis nula.
En todo caso, se asume que los datos están razonablemente distribuidos en
una curva normal, eso es muy importante para avalar cualquier prueba “t”.
Sobre todo, por la asimetría; por ello, los valores extremos o outliers deben
ser chequeados, tarea en la que, como vimos, los Diagramas de Caja son muy útiles.
Hay procedimientos para testar el supuesto de distribución normal, algo que
estudiaremos en un capítulo próximo.
El Test “t” de dos muestras acepta la división entre test pareados y tests no
pareados.
El Test “t” pareado
Uno de los diseños experimentales más comunes es el de “Antes y Después”.
Consiste en tomar dos medidas sobre el mismo sujeto: una antes y otra
después de la adopción de un tratamiento cualquiera; la idea básica es simple.
La hipótesis nula sostiene que no hay diferencia entre ambas muestras; eso
es, si el tratamiento no tiene efecto la diferencia de los promedios entre las medias
es igual a 0.
En ese caso aceptamos la Hipótesis Nula de que no hay diferencia entre
ambos tratamientos; nuestro planteamiento es:
H o : 1 = 2
H1: 1 2
Por el otro lado, si el tratamiento tiene efecto, la diferencia de los promedios
antes y después del tratamiento, será diferente de cero, por lo que se rechazará la
hipótesis nula.
El procedimiento del test T pareado se usa para testar la hipótesis de que no
hay diferencia entre dos variables.
2 1 5
mailxmail - Cursos para compartir lo que sabes
hay diferencia entre dos variables.
Los datos pueden ser considerados como dos medidas tomadas del mismo
sujeto.
También podemos interpretarlo como una medida de igualdad entre dos
sujetos.
Adicionalmente, el procedimiento ofrece estadísticas descriptivas para cada
variable.
La correlación de Pearson entre cada par de variables y su nivel de
significación.
Un intervalo de confianza con un nivel de confianza del 95% para la diferencia
promedio
Ejemplo
Un médico está evaluando una nueva dieta para sus pacientes con un historial
familiar de enfermedades del corazón.
Para testar la efectividad de la dieta, 16 pacientes la tomaron por 6 meses.
Sus pesos y los niveles de triglicéridos fueron medidos antes y después de la
dieta.
El médico quiere saber si hubo variación en los datos; este ejemplo usa el
archivo.
De inmediato nos damos cuenta de que el problema es de “antes y Después”.
Vamos a usar Test “t” de muestras pareadas para determinar si hay una
diferencia estadísticamente significativa entre los pesos y los triglicéridos antes y
después de la dieta.
El Término Estadísticamente Significativo se usa cuando las pruebas nos dan
razones para deducir que hay o no hay una Diferencia Estadísticamente Significativa.
Vamos a resolver el problema por medio del SPSS, para lo cual traemos a la
pantalla el archivo: dietstudy.sav.
Del Menú pr inc ipal Anal izar Comparar Medias Muestras Relacionadas T
Test
2 1 6
mailxmail - Cursos para compartir lo que sabes
Elegimos Triglicéridos Final y Triglicéridos como el primer par de variables
pareadas.
Elegimos Peso Final y Peso y como el segundo par
Es preciso tener en cuenta que en la primera casilla van dos variables: el par
Triglicéridos Final y Triglicéridos; y en la segunda, también dos: Peso Final y Peso.
El test comparará el primer par entre sí y el segundo par entre sí.
Aceptamos
La Tabla 11.3 despliega la diferencia promedio entre los niveles de triglicérido
y de los pesos antes y después de la dieta.
También se muestra la desviación típica de la diferencia promedio de ambos
grupos.
Los niveles de triglicéridos han bajado entre 14 y 15 puntos.
El error típico de la Media nos proporciona un índice de variabilidad de lo
que se puede esperar en muestras aleatorias repetidas, similares a la que ahora se
analiza.
En cuanto al peso, los sujetos han perdido alrededor de 8 libras en promedio
con la aplicación de la dieta.
Lo que deseamos testar es si esa diferencia es Estadísticamente Significativa.
2 1 7
mailxmail - Cursos para compartir lo que sabes
71. Test "t" de dos muestras. Test "t" pareado (2/2)
En la tabla, vemos que las muestras relacionadas con los niveles de
triglicéridos tienen un Coeficiente de Correlación de Pearson de 0.286 y un nivel Sig
de 0,283.
La Casilla “Correlación” muestra el Coeficiente de Correlación de Pearson, el
mismo que estudiaremos con mayor detalle en próximos capítulos.
Especialmente, cuando ingresemos al tema de Regresión.
Mientras tanto diremos que su valore para la diferencia de triglicéridos
(-0.286) no es estadísticamente significativo, pues su nivel Sig es mayor que 0.05.
Con estos primeros datos podríamos decir que no hay una diferencia
estadísticamente significativa en la cantidad de triglicéridos cuando se comparan
ambas medias.
Esto es de las muestras: antes y después de la dieta.
Por el otro lado, la Correlación de Pearson para el peso, entre pre y post dieta
es 0.996, coeficiente que designa una correlación casi perfecta entre ambas medias.
Este dato nos indica que todos los sujetos perdieron peso consistentemente.
Ahora necesitamos saber si las diferencias en ambos test son
estadísticamente significativas; para ello traemos la tabla 11.5, Prueba de muestras
relacionadas
El intervalo de confianza de la diferencia, al nivel del 95%, nos provee un
estimado de los límites entre los que se encuentra la Media de la diferencia entre los
grupos.
Precisamente, ése es el resultado que nos interesa.
Este intervalo de confianza es similar a cualquier otra muestra de 16
2 1 8
mailxmail - Cursos para compartir lo que sabes
elementos que se hubiera logrado de la misma población para aceptar la dieta
durante los seis meses.
El estadístico “t” se obtiene dividiendo la media de la diferencia por su error
típico
En este caso se usó una distribución “t” de dos colas (H1: 1 2) cuyos
valores deben ser comparados con los de la tabla de la distribución de t.
Pero eso es cuando hacemos los ejercicios manualmente, en esta ocasión, el
SPSS lo hace
El valor Sig de “t” que es 0.249 para los triglicéridos y es mayor que 0.05, lo
que significa que la dieta no fue eficaz en reducir sus niveles.
Sin embargo el nivel Sig para la pérdida de peso es 0.00, nivel que es menor
que 0.05.
Basados en esta información podemos concluir que el promedio de la pérdida
de peso de 9.06 libras por paciente es estadísticamente significativa, se debe a
eficacia de la dieta.
En este caso, no aceptamos la hipótesis nula que sostiene que hay igualdad
de medias.
No hay igualdad de medias; en este caso aceptamos la hipótesis H1.
La conclusión a la que podríamos llegar es que la dieta no es efectiva para el
tratamiento de triglicéridos pero sí lo es para la reducción del peso.
Hasta aquí hemos analizado dos de las tres opciones del análisis del Test “t”:
El que corresponde al estudio de los estadísticos de una muestra, la que
2 1 9
mailxmail - Cursos para compartir lo que sabes
El que corresponde al estudio de los estadísticos de una muestra, la que
necesita ser comparada con una Media ya existente.
Por el otro lado, hemos estudiado las características relativas al análisis de las
diferencias de Medias cuando se tiene dos muestras relacionadas entre sí.
Para completar este capítulo, nos corresponde el estudio de dos muestras, las
que, a diferencia de las dos que ya revisamos, no se relacionan entre sí
Esto es, se trata de dos muestras independientes una de la otra.
2 2 0
mailxmail - Cursos para compartir lo que sabes
72. Test "t" para muestras independientes
Analizaremos ahora la diferencia entre las Medias de dos muestras
independientes una de la otra; la opción que vamos a usar también nos provee de la
siguiente información:
Ambas muestras deben tener el mismo número de elementos y la misma
varianza.
Cuando estas condiciones no se cumplen, hay otros métodos que usaremos
en los próximos capítulos; mientras tanto, asumiremos que las dos condiciones se
cumplen.
Para testar las medias de dos muestras, con las condiciones establecidas, el
SPSS emplea la siguiente fórmula:
El denominador del test “t” Student tiene la siguiente expresión:
La misma que designa la desviación estándar grande, es la desviación
conjunta para los grupos 1 y 2 que se quieren testar
El denominador de t es la desviación estándar de la diferencia entre las dos
medias testadas y los grados de libertad son 2n – 1.
Ejemplo
Un analista de una tienda de departamentos quiere evaluar la promoción de
una nueva tarjeta de crédito; para ello fueron escogidos, al azar, 500 propietarios de
la tarjeta.
La mitad de ellos recibió una promoción adicional; se les redujo la tasa de
interés sobre las compras que realizaren en los próximos tres meses.
La otra mitad no recibió ningún beneficio.
Para este ejemplo traemos a la pantalla de datos el archivo creditpromo.sav
2 2 1
mailxmail - Cursos para compartir lo que sabes
Sobre la información que el archivo nos trae aplicaremos un Test T para
comparar los gastos ambos grupos.
Menú Analizar Comparar Medias Independent
En la casilla superior introducimos $ spent during promotion como la variable
que será testada; en la de abajo, como Variable de grupo insertamos Type e mal
received.
Una vez introducida la variable de grupo, en la misma casilla aparecen dos
signos de interrogación entre paréntesis; debajo de la casilla hacemos click en
Definir grupos.
Escribimos 0 para el valor del grupo 1.
Escribimos 1 para el valor del grupo 2 Continuar Aceptar
La tabla 11.6, Estadísticas de Grupo despliega el tamaño de la muestra, la
media, la desviación típica y el error típico para cada uno de los dos grupos.
En promedio, los clientes que recibieron la tasa de interés reducida de
promoción cargaron a su tarjeta de crédito alrededor de 70$ más que el otro grupo.
2 2 2
mailxmail - Cursos para compartir lo que sabes
73. Análisis del test de "Levene". Igualdad devarianzas
La prueba de dos muestras independientes exige que ambas tengan la misma
varianza
La Prueba Levene testa si las varianzas de dos grupos son iguales entre sí.
La tabla de la prueba de Levene es muy extensa para traerla.
La hipótesis nula de la Prueba Levene sostiene que las varianzas de los
grupos son iguales entre sí; la hipótesis alternativa, supone que las variables son
diferentes entre sí.
Una de las ventajas del test Levene es que no exige normalidad en las
distribuciones y es usado antes de una comparación entre medias.
Cuando el test de Levene es significante, se usa procedimientos que no
asumen varianzas iguales; por eso es que el SPSS realizó dos tests de la diferencia
entre los dos grupos.
El nivel Sig cuando se asume que la varianza de los grupos es igual, es 0.276,
valor superior a 0.05, lo que nos indica que la varianza es similar en ambos grupos.
Si bien el SPSS testó para “se ha asumido varianzas iguales” nada nos dice
sobre el segundo test, el que debería testear “No se han asumido varianzas iguales”
La opción del Pivote
Con la opción Pivotear solamente nos muestra la información acerca de la
igualdad de varianzas; hagamos doble click en la tabla del Test para activarla.
En el Menú Pivot Pivoting trays
En la segunda casilla vertical de la pantalla verde ya está la variable Supuestos.
Cerramos la ventana
Con la tabla de test ya pivoteada, los supuestos ya están en la capa, el
supuesto de No se ha supuesto varianzas iguales aparece en la nueva tabla
desplegada
La columna “t” pone a nuestra disposición los estadísticos observados para
2 2 3
mailxmail - Cursos para compartir lo que sabes
cada muestra
La columna gl exhibe los grados de libertad; para un test de independencia
de muestras, los grados de libertad son iguales al número de casos en las dos
muestras menos 2.
La columna de Sig (para dos colas) despliega la probabilidad de la distribución
con 498 grados de libertad
Los valores obtenidos en la columna ordenan la probabilidad de lograr un
valor absoluto mayor o igual que el estadístico “t” observado.
El intervalo de confianza de la diferencia de grupos, al 95%, nos provee un
estimado de los límites entre los que se encuentra la verdadera media de diferencias.
El nivel de Sig del test para ambas alternativas son iguales.
Cada uno tiene el valor de 0.024 que es menor que 0.05.
Con este último estadístico podemos llegar a una conclusión
La diferencia de medias que nos muestra la tabla es de 71.11 dólares.
De acuerdo con los datos de la tabla pivoteada, Prueba de Pruebas
Independientes, los 71.11dólares adicionales gastados por los clientes que
recibieron la tasa de interés reducida está asociada a la política de promoción
realizada.
La empresa decide continuar con la nueva política.
2 2 4
mailxmail - Cursos para compartir lo que sabes
74. Análisis comparativo entre ANOVA y test "t"
En el capítulo referido a la presentación inicial del ANOVA dijimos que la
palabra deriva de sus iniciales en inglés Análysis of Variance.
Conceptos
El Test “t” es muy útil para muestras pequeñas y para establecer la diferencia
entre las Medias Aritméticas de dos variables solamente.
ANOVA amplía el rango del “t” test para determinar si las medias de varios
grupos, no sólo de dos, son o no iguales
Si tenemos deseamos analizar la variabilidad de una variable numérica debido
al comportamiento de otra, pero de tipo categórica, ésta última recibe el nombre factor
factor
En este caso, estaremos hablando del análisis de la varianza para un solo
factor, aunque este factor, a pesar de ser solo uno, puede tener varios niveles.
Un ejemplo sería el análisis de los promedios del ingreso de dos grupos
independientes de funcionarios de dos empresas, de acuerdo con el grado de
educación que tienen.
La variable dependiente, cuantitativa, será el Ingreso.
El grado de educación será el factor
Las fases: primaria, secundaria, universitario y post grado serán los niveles
del factor educación
ANOVA compara las medias de ambos grupos para establecer si hay o no
diferencia y, en su caso, el grado de diferencia.
Estos niveles pueden ser fijos, tales como los que acabamos de describir;
también pueden ser aleatorios; v.g, si se escoge al azar las empresas que
participarán en el estudio.
Si los resultados proporcionados por las muestras no tienen errores
sistemáticos, sus medias no serán significativamente diferentes entre sí.
La dispersión que pudiera notarse se deberá a errores aleatorios que
2 2 5
mailxmail - Cursos para compartir lo que sabes
representarán la dispersión de los elementos de una muestra
Fuentes de variación
Habrá dos fuentes de variación cuando comparamos dos muestras:
La que se debe a la diferencia de los estadísticos que separan ambas medias.
La que se debe a los errores dentro de cada muestra.
La Suma Total de Cuadrados
La Suma total de estas variaciones se denomina Suma Total de Cuadrados =
SST
Esta Suma Total se descompone en dos sumas de cuadrados.
STT Es la suma de las diferencias al cuadrado de cada resultado individual
con relación a la Media de todos los resultados, por lo que representa la variación
total de los datos.
SSI Mide las desviaciones entre los resultados individuales de cada muestra
con relación a su propia Media, por lo que es una medida de dispersión dentro de
cada muestra.
SSE mide las diferencias entre los resultados medios de cada muestra y el
resultado medio global de todas las muestras; de este modo se tiene:
STT = SSI + SSE
Si se divide SSI por los correspondientes grados de libertad se obtiene la
Media Cuadrática (Mean Square) dentro de cada muestra (MSI)
De esta manera, STT = SSI + SSE
¿Por qué “Diferencia de cuadrados”?
Tomemos la siguiente serie de números: 1, 2, 3, 4, 5
La Media aritmética de esa serie será: (1 + 2 + 3 + 4 + 5)/5 = 3
Ahora bien, tomemos la suma de cada elemento individual con relación a la
media:
(1 – 3), (2 – 3), (3 – 3), (4 – 3), (5 – 3) y las sumemos, -2 + (-1) + 0 + 1 + 2 =
2 2 6
mailxmail - Cursos para compartir lo que sabes
0
El resultado es 0: los valores negativos de las diferencias se contrapesan con
los positivos
Para evitar que eso suceda, se suma los cuadrados de las diferencias, puesto
que los cuadrados de números negativos o positivos siempre serán positivos.
De esta manera tendremos:
(1 – 3)2 + (2 – 3)2 + (3 – 3)2 + (4 – 3)2 + (5 – 3)2 = 1 + 1+ 0 + 1 + 4 = 7
Éste resultado es la Suma de Cuadrados, que se usa para medir las diferencias.
Por el momento, nos enfocaremos en el modelo ANOVA de una sola vía (One
way ANOVA).
2 2 7
mailxmail - Cursos para compartir lo que sabes
75. ANOVA de una sola vía. One way ANOVA.Aplicaciones (1/3)
Se usa el One Way ANOVA para testar la hipótesis de que las medias de dos o
más grupos son o no son significativamente diferentes unas de las otras.
También ofrece estadísticos a nivel grupal para la variable dependiente.
Nos proporciona, además, un test de igualdad de varianzas, una nube de
puntos de medias de grupo y un test de rango de comparaciones múltiples y
contrastes.
Con este último estadístico se describe la naturaleza de las diferencias de
grupo.
Ejemplo
Un gerente de ventas quiere determinar el número óptimo de días de
entrenamiento para algunos empleados nuevos.
Hasta el momento tiene los datos del desempeño de los tres siguientes
grupos:
Empleados con uno, dos y tres días de entrenamiento.
Para empezar el análisis de esos datos traemos el archivo
salesperformance.sav
Antes de correr el ANOVA es necesario graficar las medias y los errores
típicos.
Menú principal Gráficos Generador de gráficas galería de barras
lista de tipos de gráfica.
Arrastramos con el mouse el ícono de Simple Bar dentro del espacio superior.
Arrastramos Score on training exam en el eje de la Y’s.
Con el botón derecho del mouse, hacemos click en Sales training group y
elegimos Nominal para el nivel de medida.
Arrastramos Sales training en el eje de las X’s; luego hacemos click en
Element Properties.
2 2 8
mailxmail - Cursos para compartir lo que sabes
Error tìpico en la Barra de Error Represent group; aplicar Aceptamos
En la tabla 12.1 de resultados aparecerán las siguientes gráficas de error. En
las que observamos que la longitud de los whiskers se hacen más pequeñas a
medida que aumentan los días de entrenamiento.
Esto podría significar que las varianzas de las muestras son diferentes entre sí.
En el siguiente acápite aprenderemos a interpretar los demás resultados.
La variación de las varianzas en los datos de las muestras es muy importante,
puesto que ANOVA asume la igualdad de varianzas a lo largo de los grupos.
2 2 9
mailxmail - Cursos para compartir lo que sabes
76. ANOVA de una sola vía. One way ANOVA.Aplicaciones (2/3)
Las aplicaciones de ANOVA
El ANOVA requiere que las muestras que serán testadas tengan varianzas
iguales.
Por ello es que, con carácter previo, se testa la hipótesis nula, que asume la
igualdad de varianzas entre las muestras.
Test de igualdad de varianzas
Para testar la igualdad de varianzas de los grupos,
Menú pr inc ipal Analizar Comparar Medias One Way ANOVA
Score on training exam, (variable dependiente) Sales Training group (factor)
Opciones Prueba de homogeneidad de la Varianza Continuar Aceptar
La Pantalla de Resultados consigna dos tablas
La Primera tabla 12.1 es el estadístico Levene, que Testa la homogenidad de
las varianza
Su nivel Sig es 0.014 < 0.05, por lo que rechazamos la hipótesis nula de que
las varianzas de las muestras sean iguales entre sí.
Esa es la primera conclusión a la que llegamos.
Implicaciones de la no igualdad de varianzas
N. George Mankiw, en su libro “A Quick Refresher Course in Macroeconomics,
Journal of Economics Literature noviembre 1990”, afirma al respecto:
“La heterocedasticidad jamás ha sido una razón para desechar un modelo
que de otra forma sería adecuado”.
2 3 0
mailxmail - Cursos para compartir lo que sabes
que de otra forma sería adecuado”.
Por su parte, John Fox en su obra “Aplied Regression Análysis”, pg. 306
afirma:
“… una varianza de error desigual vale la pena corregirlo sólo cuando el
problema resulta severo.”
Compara la variación entre los promedios de los grupos con la variación
natural dentro de los grupos; es el resultado de la siguiente relación:
En los siguientes acápites aprenderemos a interpretarlo.
El caso presente
Al no encontrar varianzas iguales, el SPSS obvia el primer cuadro y continúa el
segundo paso; ahora enfocamos nuestro análisis al cuadro de Descriptivos.
Para lograr la tabla de descriptivos:
Menú Principal Analizar Compare Medias ANOVA one factor Score
on training exam (Variable dependiente) Sales Training group (Factor)
Opciones Descriptivos C o n t i n u a r A c e p t a r
La desviación típica y error típico confirman que las varianzas no son iguales;
2 3 1
mailxmail - Cursos para compartir lo que sabes
pues a medida que los días de entrenamiento aumentan, la variación en el
desempeño decrece
ANOVA controla estas violaciones cuando los grupos tienen el mismo o
aproximadamente el mismo tamaño; podemos transformar los datos o realizar test
no paramétricos.
2 3 2
mailxmail - Cursos para compartir lo que sabes
77. ANOVA de una sola vía. One way ANOVA.Aplicaciones 3/3)
Otra aplicación de One Way ANOVA
Una firma electrónica está desarrollando un nuevo reproductor de DVD; se
lanzó un prototipo, el que sirvió para que los expertos en mercadotecnia recolecten
datos de grupo.
Se recurrió al test ANOVA para establecer si los clientes de grupos de edades
distintas reaccionaron de maneras diferentes ante el nuevo diseño.
Para averiguarlo, traemos el archivo dvdplayer.sav
Analizar Compar Medias One Way ANOVA Total DVD Assessment,
(dependiente)
Age group (Factor) Opciones Prueba de homogeneidad de las
muestras Gráfico de las Medias Continuar Aceptamos.
La pantalla de resultados registra dos tablas, una de ellas es la tabla 11.4
El nivel Sig del test Levene nos e 0.279 0.05, aceptamos la hipótesis nula: las
varianzas son iguales.
Para analizar la segunda tabla, 11.5 recordemos sobre las sumas de cuadrados
La suma Total (STT en nuestra simbología) es suma de las diferencias al
cuadrado de cada resultado individual con relación a la Media de todos los
resultados.
Representa la variación total de los datos.
La Suma de Cuadrados Intra grupos mide las diferencias entre los valores de
cada muestra con relación a su propia Media.
Es una medida de dispersión dentro de cada muestra; es el error en ANOVA.
2 3 3
mailxmail - Cursos para compartir lo que sabes
Es una medida de dispersión dentro de cada muestra; es el error en ANOVA.
La Suma de Cuadrados Inter grupos es la Media de las diferencias entre los
elementos de las muestras con relación a la Media general,
En realidad la Suma de Cuadrados Inter grupos es la que importa para los
análisis.
En el cuadro ANVOA vemos que la Suma de Cuadrados Inter Grupo es
1294,481.
El nivel Sig para la suma de cuadrados Inter grupos es 0,000 > 0,05
Si se divide la Suma de cuadrados Inter-grupos entre los correspondientes
grados de libertad, se obtiene la Media Cuadrática (Mean Square)
En este caso, la Media Cuadrática es 258,896.
El valor de la Media Cuadrática para la suma de cuadrados Intra-grupos
también resulta de la división de la Suma de Cuadrados Intra grupos entre sus
grados de libertad.
La Media Cuadrática correspondiente es 6.993.
La Suma Total de Cuadrados es 1294,481 + 2295,532
Los grados de libertad para el total es igual al número de todos los elementos
que fueron tomados en cuenta en las muestras menos 1; en nuestro caso es 67.
Los grados de libertad para la Suma de cuadrados inter-grupos es igual a K-1
donde K es el número de muestras; en nuestro caso, 5.
Los grados de libertad para la Suma de cuadrados Intra-grupos es igual a N –
K, 62.
Ahora nos toca interpretar la Prueba F.
2 3 4
mailxmail - Cursos para compartir lo que sabes
78. Prueba "f". Análisis del Estadístico
La Prueba F
Contrasta la Hipótesis nula de que las distribuciones normales de las
poblaciones tienen la misma varianza.
Vimos en el anterior cuadro que la Suma de cuadrados Inter-grupo (la Media
de las diferencias entre los elementos de las muestras con relación a la Media
general) es 1294,481
La suma de cuadrados Intra grupos es 2295,532.
Si dividimos esta cifra entre 62 grados de libertad tendremos 32,064.
El SPSS no toma en cuenta esta suma de cuadrados, pero tiene su utilidad,
pues nos sirve para estimar el valor F, el que es definido de inmediato.
Su valor se calcula dividiendo la Media cuadrática Inter-grupos sobre la Media
cuadrática intra grupos; es decir la variabilidad explicada sobre la variabilidad no
explicada.
Esto es, 258,8960/37,0250 = 6,9930 que es el valor del estadístico F.
Un valor F con Sig por debajo del 0.05 nos indicará que debemos rechazar la
hipótesis nula, pues las muestras tienen varianzas diferentes.
Ahora bien, el nivel de Sig de F es 0,000, lo que nos indica que se debe
rechazar la hipótesis nula que postula la igualdad de varianzas.
Sobre este resultado es posible afirmar que los clientes de grupos de edades
distintas reaccionaron de maneras diferentes ante el nuevo diseño.
2 3 5
mailxmail - Cursos para compartir lo que sabes
Ahora que sabemos que los grupos difieren en sus percepciones sobre el
nuevo modelo DVD necesitamos saber más sobre la estructura de esas diferencias.
La Gráfica 11.2 de Medias nos ayuda a visualizar mejor la estructura.
Así es como notamos que las personas entre 35 y 54 años otorgan una mayor
preferencia a los nuevos DVD’s que las personas de los otros grupos.
Si necesitáramos nuevos análisis, podríamos usar el test de rangos, las
comparaciones de pares o también las características de contraste de One-Way
ANOVA.
En general, el estadístico F establece si hay o no diferencia significativa entre
las medias de los grupos.
Por su parte, las gráficas de Medias sugieren dónde puede estar la diferencia.
Identificar dónde está la diferencia es tan importante como saber que existe.
Con este capítulo concluimos el primer módulo del Curso Estadística Aplicada
I con SPSS
Recorrimos un amplio escenario que incluyó desde los principios básicos
hasta ANOVA.
Es decir, hemos abarcado un curso completo de un semestre formal en
cualquier universidad en la que se enseñe la Estadística.
Espero estar con ustedes cuando decidan tomar los otros tres módulos del
2 3 6
mailxmail - Cursos para compartir lo que sabes
curso.
2 3 7
mailxmail - Cursos para compartir lo que sabes