204
UNIVERSIDAD PERUANA LOS ANDES FACULTAD DE INGENIERIA Especialidad: Ing. Sistemas y Computación ESTADÍSTICA DESCRIPTIVA E INFERENCIAL Ing. Dulio Oseda Gago

Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

  • Upload
    romeo

  • View
    53

  • Download
    22

Embed Size (px)

Citation preview

Page 1: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

UNIVERSIDAD PERUANA LOS ANDESFACULTAD DE INGENIERIA

Especialidad: Ing. Sistemas y Computación

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL

Ing. Dulio Oseda Gago

Page 2: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

ESTADÍSTICA DESCRIPTIVA E INFERENCIALConceptos y Aplicaciones

Autoridades de la Universidad Peruana Los Andes

Rector: Dr. Dimas Fernándes BarrantesDecano Fac. Ing. Mag. Carlos Sánchez GuzmánJefe de Dpto. Ing. Rubén Tapia SilgueraJefe de As. Acad. Ing. Alejandro Ochoa AliagaCoord. CP.I.S.C.. Ing. Jowel Cabrera Padilla

Impreso en el Perú.

Composición, diagramación e impresión:Asesoría y Consultoría en Informática y Sistemas “DOSEDAG” S.R.L.Jr. Las Begonias N° 168. Urb. San Fernando – El Tambo [email protected]. 964689004

Derechos de Edición Reservados por A.C.I.S. “DOSEDAG” S.R.L.Prohibida la reproducción total o parcial por cualquier medio de este libro, sin autorización escrita de los autores y editores.

Derechos Reservados conforme a Ley.

Page 3: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

A la juventud estudiosa del país, signo de renovación y abnegación.

Page 4: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

PrólogoLas acciones que acometemos hoy

se basan en un plan de ayer ylas expectativas del mañana.

a palabra estadística se origina, en las técnicas de recolección, organización, conservación, y tratamiento de los datos propios de un estado, con que los antiguos gobernantes controlaban sus súbditos y dominios económicos. Estas

técnicas evolucionaron a la par con el desarrollo de las matemáticas, utilizando sus herramientas en el proceso del análisis e interpretación de la información.

LPara mediados del siglo XVII en Europa, los juegos de azar eran frecuentes,

aunque sin mayores restricciones legales. El febril jugador De Meré consultó al famoso matemático y filósofo Blaise Pascal (1623-1662) para que le revelara las leyes que controlan el juego de los dados, el cual, interesado en el tema, sostuvo una correspondencia epistolar con el tímido Pierre de Fermat (1601-1665, funcionario público apasionado por las matemáticas; célebre porque no publicaba sus hallazgos) dando origen a la teoría de la probabilidad, la cual se ha venido desarrollando y constituyéndose en la base primordial de la estadística.

En nuestros días, son de uso cotidiano las diferentes técnicas estadísticas que partiendo de observaciones muestrales o históricas, crean modelos lógico-matemáticos que se "aventuran" describir o pronosticar un determinado fenómeno con cierto grado de certidumbre medible.

El presente texto no pretende teorizar el saber estadístico, desde luego, no es un libro para estadísticos, ya que, adrede se obvia el rigor científico de lo expuesto en beneficio de la sencillez necesaria para el neófito; con un lenguaje coloquial se conduce al lector a través del contenido, a partir de dos o tres ejemplos que ilustran la aplicabilidad de los temas tratados.

Page 5: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

El avance tecnológico en la informática ha contribuido enormemente al desarrollo de la estadística, sobre todo en la manipulación de la información, pues en el mercado existen paquetes estadísticos de excelente calidad, como el SAS, SPSS, SCA, STATGRAPHICS, amén de otros, que "corren" en un ordenador sin mayores exigencias técnicas, permitiendo el manejo de grandes volúmenes de información y de variables.

La estadística, entonces, dejó de ser una técnica exclusiva de los estados, para convertirse en una herramienta imprescindible de todas las ciencias, de donde proviene la desconcertante des-uniformidad en las definiciones de los diferentes autores, ya que cada estudioso la define de acuerdo con lo que utiliza de ella y tenemos definiciones como que: la estadística es la tecnología del método científico, o que es el conocimiento relacionado con la toma de decisiones en condiciones de incertidumbre, o que la estadística son métodos para obtener conclusiones a partir de los resultados de los experimentos o procesos, o que es un método para describir o medir las propiedades de una población. En fin, no se trata de discutir si la estadística es una ciencia, una técnica o una herramienta, sino de la utilización de sus métodos en provecho de la evolución del conocimiento.

La estadística hace inferencias sobre una población, partiendo de una muestra representativa de ella. Es a partir del proceso del diseño y toma de la muestra desde donde comienzan a definirse las bondades y confiabilidad de nuestras aseveraciones, hechas, preferentemente, con un mínimo costo y mínimo error posible.

El Autor

Page 6: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

ÍndicePágs.

DedicatoriaPrólogoÍndice

ESTADÍSTICA DESCRIPTIVA E INFERENCIALCapítulo 1: Generalidades de la Estadística

1.1. Introducción............................................................................................................ 091.2. Importancia............................................................................................................ 101.3. ¿Para que sirve la Estadística? ......................................................................... 111.4. Definición................................................................................................................ 131.5. División.................................................................................................................... 131.6. La Estadística y Informática............................................................................. 141.7. ¿Mienten las Estadísticas? ................................................................................ 15

Capítulo 2: Etapas del Método Estadístico

2.1. Planteamiento del Problema................................................................................ 182.2. Fijación de los Objetivos................................................................................... 182.3. Formulación de la Hipótesis............................................................................... 182.4. Definición de la unidad de observación y de la unidad de medida............ 182.5. Determinación de la población y de la muestra............................................ 192.6. La recolección....................................................................................................... 202.7. Crítica, clasificación y ordenación.................................................................... 202.8. Tabulación.............................................................................................................. 212.9. Presentación.......................................................................................................... 212.10 Análisis.................................................................................................................. 212.11 Publicación............................................................................................................. 21Practiquemos N° 1........................................................................................................ 22

Capítulo 3: Distribución de Frecuencias3.1. Distribución de Frecuencias Simple.................................................................. 23Practiquemos N° 2......................................................................................................... 283.2. Distribución de Frecuencias por Intervalos................................................... 313.3. Reglas empíricas para la construcción de intervalos.................................... 32Practiquemos N° 3......................................................................................................... 36

Page 7: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 4: Representación Gráfica4.1. Definición................................................................................................................. 384.2. Componentes de una gráfica............................................................................... 384.3. Principales tipos de gráficos.............................................................................. 41Practiquemos N° 04..................................................................................................... 47

Capítulo 5: Medidas de Tendencia Central5.1. Media Aritmética................................................................................................... 505.2. Mediana.................................................................................................................... 605.3. Moda......................................................................................................................... 63Practiquemos N° 5........................................................................................................ 65

Capítulo 6: Medidas de Posición6.1. Cuartiles.................................................................................................................. 666.2. Quintiles................................................................................................................. 686.3. Deciles..................................................................................................................... 696.4. Centiles................................................................................................................... 696.5. Resumen.................................................................................................................. 69Practiquemos N° 6........................................................................................................ 70

Capítulo 7: Medidas de Dispersión7.1. Rango o Recorrido.................................................................................................. 737.2. Desviación Media................................................................................................... 737.3. Varianza y Desviación Típica o Estándar......................................................... 747.4. Coeficiente de Variabilidad................................................................................ 76Practiquemos N° 7........................................................................................................ 77

Capítulo 8: Regresión y Correlación Lineal8.1. Tablas de Doble Entrada...................................................................................... 788.2. Correlación.............................................................................................................. 818.3. Regresión Lineal.................................................................................................... 87Practiquemos N° 8........................................................................................................ 100

Capítulo 9: Tasas e Índices9.1. Tasa........................................................................................................................... 1019.2. Índice....................................................................................................................... 103Practiquemos N° 9........................................................................................................ 108

Capítulo 10: Introducción a la Teoría de Probabilidades10.1. Nociones de Conteo............................................................................................. 116Practiquemos N° 10...................................................................................................... 11910.2. Definición de Probabilidad............................................................................... 12010.3. Axiomas de la Teoría de Probabilidades....................................................... 12110.4. Probabilidad Condicional e Independencia Estadística............................. 123Practiquemos N° 11...................................................................................................... 12410.5. Variable Aleatoria.............................................................................................. 12410.6. Función de Probabilidad.................................................................................... 126

Page 8: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Practiquemos N° 12....................................................................................................... 12910.7. Valor Esperado (Esperanza Matemática)...................................................... 130Practiquemos N° 13...................................................................................................... 131

Capítulo 11: Distribuciones Especiales11.1. Distribución de Bernoulli.................................................................................... 13211.2. Distribución Binomial.......................................................................................... 13311.3. Distribución de Poisson...................................................................................... 14411.4. Distribución Normal............................................................................................ 14611.5. Distribución Normal Estandar.......................................................................... 14811.6. Distribución Exponencial................................................................................... 152Practiquemos N° 14...................................................................................................... 152

Capítulo 12: Teoría de Muestras12.1. Tipos de Muestreos............................................................................................. 15512.2. Muestreos Aleatorios........................................................................................ 15512.3. Toma de Datos: la encuesta............................................................................. 15712.4. Teorema Central del Límite............................................................................. 158Practiquemos N° 15...................................................................................................... 162

Capítulo 13: Las Técnicas de Estimación13.1. Estimación.............................................................................................................. 16413.2. Estimación de la Media de una Población....................................................... 16513.3. Estimación de la Muestra Proporción............................................................. 16713.4. Estimación de una Proporción........................................................................... 16713.5. Distribución Muestral de Proporciones......................................................... 16813.6. Estimación de una Proporción.......................................................................... 17013.7. Tamaño de la Muestra....................................................................................... 171Practiquemos N° 16...................................................................................................... 172

Capítulo 14: Test y Pruebas de Hipótesis14.1. Elementos de los Test de Hipótesis................................................................ 17814.2. Pruebas de Hipótesis......................................................................................... 18314.3. Dócima de una muestra de Kolmogorov-Smirnov......................................... 184

Glosario de TérminosReferencias

libros

páginas webAnexos

Anexo N° 1: Tabla de la Distribución NormalAnexo N° 2: Tabla de 500 Números Generados AleatoriamenteAnexo N° 3: Contraste de Hipótesis a partir del p-valorAnexo N° 4. Error de Tipo II – CálculoAnexo N° 5. Guía para Elaborar una Tesis

Page 9: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Anexo N° 6: Registro de la Información. Modelos de Fichas

Page 10: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

ESTADÍSTICA DESCRIPTIVA E INFERENCIAL

Capítulo 1Generalidades de la Estadística************************************

"El poder se nutre de la información y el conocimiento".

1.1. INTRODUCCION:

Desde los comienzos de la civilización han existido formas sencillas de estadísticas, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o ciertas cosas. Hacia el año 3000 A.C. los babilonios usaban ya pequeñas tablillas de arcilla para recopilar datos en tablas sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque. Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las pirámides en el siglo XXXI a.C. Los libros bíblicos de Números y Crónicas incluyen, en algunas partes, trabajos de estadística. El primero contiene dos censos de la población de Israel y el segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos similares con anterioridad al año 2000 A.C. Los griegos clásicos realizaban censos cuya información se utilizaba hacia el año 594 A.C. para cobrar impuestos.

Page 11: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

El Imperio romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control. Durante la edad media sólo se realizaron algunos censos exhaustivos en Europa. Los reyes carolingios Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762 respectivamente.

Después de la conquista normanda de Inglaterra en 1066, el rey Guillermo I de Inglaterra encargó un censo. La información obtenida con este censo, llevado a cabo en 1086, se recoge en el Domesday Book. El registro de nacimientos y defunciones comenzó en Inglaterra a principios del siglo XVI, y en 1662 apareció el primer estudio estadístico notable de población, titulado Observations on the London Bills of Mortality (Comentarios sobre las partidas de defunción en Londres).

Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla de mortalidad. En el siglo XIX, con la generalización del método científico para estudiar todos los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las descripciones verbales.

En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los valores de los datos económicos, políticos, sociales, educativos, psicológicos, biológicos y físicos, y sirve como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino sobre todo el proceso de interpretación de esa información. El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la estadística. Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando determinadas distribuciones probabilísticas; los resultados de éstas se pueden utilizar para analizar datos estadísticos. La probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico.

1.2. IMPORTANCIA:

En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el punto de incursionar en la totalidad de las ciencias; inclusive, en la lingüística se aplican técnicas estadísticas para esclarecer la paternidad de un escrito o los caracteres más relevantes de un idioma.

Page 12: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

La estadística es una ciencia auxiliar para todas las ramas del saber; su utilidad se entiende mejor si tenemos en cuenta que los quehaceres y decisiones diarias embargan cierto grado de incertidumbre... y la Estadística ayuda en la incertidumbre, trabaja con ella y nos orienta para tomar las decisiones con un determinado grado de confianza.

Los críticos de la estadística afirman que a través de ella es posible probar cualquier cosa, lo cual es un concepto profano que se deriva de la ignorancia en este campo y de lo polifacético de los métodos estadísticos. Sin embargo muchos "investigadores" tendenciosos han cometido abusos con la estadística, elaborando "investigaciones" de intención, teniendo previamente los resultados que les interesan mostrar a personas ingenuas y desconocedoras de los hechos. Otros, por ignorancia o negligencia, abusan de la estadística utilizando modelos inapropiados o razonamientos ilógicos y erróneos que conducen al rotundo fracaso de sus investigaciones.

Lincoln L. Chao hace referencia a uno de los más estruendosos fracasos, debido a los abusos en la toma de una muestra: Se trata del error cometido por la Literary Digest que, en sus pronósticos para las elecciones presidenciales en EE.UU. para 1936, afirmó que Franklin D. Roosvelt obtendría 161 votos electorales y Alfred Landon, 370. La realidad mostró a Roosvelt con 523 votos y a Landon con 8 solamente. El error se debió a que la muestra fue tomada telefónicamente a partir de la lista de suscriptores de la Digest y, en 1936, las personas que se daban el lujo de tener teléfonos y suscripciones a revistas no configuraban una muestra representativa de los votantes de EE.UU. y, por ende, no podía hacerse un pronóstico confiable con tan sesgada información.

1.3. ¿PARA QUE SIRVE LA ESTADISTICA?

La Estadística puede dar respuesta a muchas de las necesidades que la sociedad actual nos plantea. Su tarea fundamental es la reducción de datos, con el objetivo de representar la realidad y transformarla, predecir su futuro o simplemente conocerla.

La Estadística responde a las necesidades bélicas y fiscales de los gobernantes. Esto se puede conseguir con un conocimiento claro de la población con la que se cuenta. La herramienta para conseguirlo es el CENSO DE POBLACIÓN y su hermano pequeño, el PADRÓN MUNICIPAL DE HABITANTES. La práctica del recuento de la población y de algunas características de esta por los Estados es muy antigua (se remonta a 3000 años antes de Cristo en Egipto y Mesopotamia). En palabras de Bielfed, la Estadística es la ciencia que nos enseña el

Page 13: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

ordenamiento político de todos los estados del mundo conocido, es decir, está al servicio del Estado, de hecho, la palabra Estadística deriva de Estado.

La Estadística responde a la actividad planificadora de la sociedad. Con la Revolución Industrial aparecen nuevos problemas, sobre todo de desigualdades sociales. La Estadística es un instrumento para identificar estas injusticias y para producir información en el llamado Estado del Bienestar.

La Estadística responde a nuevas demandas sociales. Para realizar investigaciones exhaustivas sobre temas sociales surgen tres problemas básicos a la hora del trabajo de campo, como el tiempo que tardaríamos en entrevistar a toda la población y el costo económico y de personal de estas entrevistas. Con las técnicas de MUESTREO se consigue hacer buenas investigaciones sobre una pequeña parte de esa población, obteniendo resultados válidos para toda ella.

La Estadística responde a las necesidades del desarrollo científico y tecnológico de la sociedad. Tras la Revolución Industrial se produce un desarrollo de la sociedad en todos sus ámbitos y, en particular, en el Científico y Tecnológico. Las Comunicaciones, la Industria, la Agricultura, la Salud... se desarrollan rápidamente y se exige el máximo rendimiento y la mejor utilización de estos sectores.

Las técnicas de Investigación de Mercados permiten saber si un producto cualquiera será bien acogido en el mercado antes de su salida a este, o bien medir la audiencia en Televisión y Radio.

El Control de Calidad permite medir las características de la calidad de un producto, compararlas con ciertos requisitos y tomar decisiones correctivas si hay diferencias entre el funcionamiento real y el esperado. Con estudios estadísticos aplicados a la Agricultura y a la Pesca podemos estimar los rendimientos obtenidos en una cosecha, o encontrar bancos de peces...

En Medicina e Investigación farmacológica es imprescindible la Estadística, probando nuevos tratamientos en grupos de pacientes o bien, obteniendo conclusiones sobre ciertas enfermedades observando durante un tiempo un grupo de pacientes (saber si para el tratamiento de cierto tipo de cáncer es más efectiva la cirugía, la radioterapia o la quimioterapia, sin más que observar un grupo de pacientes tratados con estas técnicas).

Con el estudio de los Procesos Estocásticos se puede tener una mejor comprensión de fenómenos de comportamiento aleatorio como meteorología, física nuclear, campañas de seguridad...

Page 14: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

1.4. DEFINICIÓN:

¿Qué entendemos cómo Estadística?. Estadística, deriva del latín status, que significa estado, posición o situación. Por estadística entendemos la colección de los datos que caracterizan las condiciones predominantes en el estado: por ejemplo, el número de nacimientos y muertes, las cosechas, el comercio exterior, etc. Por estadísticas oficiales entendemos los datos publicados por las agencias del gobierno en forma de información o de prospectos. Cuerpo de conocimientos basados en una teoría propia. Ciencia que estudia conjuntos de datos cualitativos y su interpretación en términos matemáticos, estableciendo métodos para la obtención de las medidas que lo describen, así como para el análisis de las conclusiones, con especial referencia a la teoría de la probabilidad, considerada también como ciencia de base matemática para la toma de decisiones en presencia de la incertidumbre. Indica una medida o fórmula especial, tal como un promedio, un número índice o un coeficiente de correlación, calculado sobre la base de los datos. Considerada también como un suministro de un conjunto de herramientas sumamente útiles en la investigación. Además es un conjunto de técnicas que, partiendo de la observación de fenómenos, permiten al investigador obtener conclusiones útiles sobre ellos.

A manera de síntesis, podemos afirmar que la estadística es una rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones.

1.5. DIVISIÓN:

La estadística se divide en dos grandes ramas de estudio que son: La Estadística Descriptiva, la cual se encarga de la recolección, clasificación y descripción de datos muestrales o poblacionales, para su interpretación y análisis; y la Estadística Inferencial, que desarrolla modelos teóricos que se ajusten a una determinada realidad con cierto grado de confianza.

Estas dos ramas no son independientes; por el contrario, son complementarias y entre ambas dan la suficiente ilustración sobre una posible realidad futura, con el fin de que quien tenga poder de decisión, tome las medidas necesarias para transformar ese futuro o para mantener las condiciones existentes.

Page 15: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

1.6. LA ESTADÍSTICA Y INFORMATICA

Si leemos un periódico dominical o una revista tendremos ante nosotros más información que toda la que era capaz de obtener un ciudadano normal del siglo XVII en toda su vida. En concreto, en los últimos diez años se ha generado más información que en todos los años anteriores.

La sociedad tiene la necesidad de conocer toda esta información, y de acceder a ella de la forma más resumida posible. La Estadística es capaz de condensar la información de todos los hogares peruanos en la Encuesta de Presupuestos Familiares obteniendo, por ejemplo, todos los pagos realizados al día durante la semana de observación. Sin duda alguna, la cantidad de datos que esto genera es impresionante.

Con el avance de la Informática y la vinculación de esta a la Estadística se ha conseguido manejar de manera rápida, fiable y relativamente sencilla estos volúmenes de información, y obtener conclusiones que después el profesional interpreta.

Algunos de los paquetes estadísticos más importantes y utilizados son:

GENSTAT: Planificación, visualización, gestión de datos, análisis estadístico, gráficos y presentación de resultados.ARIMA: Diseño de Experimentos.SAS: Planificación, visualización, gestión de datos, análisis estadístico, gráficos y presentación de resultados. Usa un avanzado lenguaje de programación.SPSS:Gestión de datos, análisis estadístico, gráficos y presentación de resultados. Puede calcular el tamaño muestral de una investigación.STATISTICA: Planificación, visualización, gestión de datos, análisis estadístico, gráficos y presentación de resultados. Alto rendimiento, aplicaciones flexibles.STATGRAPHICS: Paquete de análisis interactivo y sistema gráfico desarrollado en APL, esencial en la enseñanza.

1.7. ¿MIENTEN LAS ESTADÍSTICAS?

Cuando a través de una muestra pretendemos obtener información de una población entera los datos obtenidos pueden ser diferentes a los reales. Son valores aproximados del parámetro desconocido. A estos valores se les llama Estimaciones.

Page 16: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Al dar una estimación estoy cometiendo un error llamado error de muestreo debido a que no estoy considerando a toda la población, sino a una parte de ella. Existen procedimientos que pueden determinar de antemano el error que puedo cometer.

Aparte de estos, existen otros errores que se presentan tanto en encuestas por muestreo como en las encuestas por censo. Este tipo de errores son mayores y de difícil corrección. Son errores ajenos al muestreo. Se dividen en:

Errores de observación: Debidos a la recogida, registro o procesamiento incorrecto de los datos. Pueden ser de sobrecobertura, cuando el listado de entrevistados contiene unidades que no pertenecen a la muestra investigada, de medida, que son la diferencia entre el valor observado y el verdadero, y errores de procesamiento, debidos a los errores de entrada de datos, edición, tabulación y análisis.

Errores no de observación: No es posible obtener la información deseada para ciertos individuos de la población. Estos son errores de cobertura, cuando hay una parte de la población que no está en el listado, errores de falta de respuesta por parte del entrevistado.

Este tipo de errores hay que tratar de resolverlos. Para mejorar el resultado de la encuesta la población puede dividirse en subpoblaciones para trabajar sobre ellas.

Otra manera de disminuir el error es escoger una muestra mayor y llegar a un término medio entre el error máximo admisible para la encuesta y el tamaño muestral.

Pero el principal problema de las encuestas es la falta de respuesta por parte del entrevistado. Suelen ser personas que se consideran acosadas para que proporcionen información de su entorno social y de sus actividades. Esto produce un rechazo a responder cuestiones sobre las que en la mayoría de los casos se desconoce su utilidad.

Para solventar estos problemas debe contarse con la formación de los entrevistadores, conociendo estos perfectamente el tema que están tratando y estar preparados para responder cualquier cuestión sobre el tema que puede plantear el entrevistado.

La formulación de las preguntas debe ser clara, poco influenciables y cómodas para los entrevistados. En temas polémicos como el consumo de drogas o

Page 17: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

las afinidades políticas, el entrevistado suele ser reacio a contestar. De manera sugestiva hay que formular ese tipo de preguntas para que el entrevistado no se vea comprometido ni violento con su contenido.

Por último, decir que hay otros tipos de falta de respuesta en una encuesta debidos a situaciones como:

• Ausencia temporal del individuo seleccionado para entrevistar (los no en casa).

• Negativa absoluta a colaborar (los hueso duro)

• Falta de conocimientos del entrevistado o incapacidad del entrevistador para explicar el contenido de la respuesta.

• Pérdida involuntaria de la información. • No cubrimiento debido a condiciones ambientales, escasa facilidad de

transporte...

Page 18: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 2Etapas del Método Estadístico***********************************

El método estadístico, parte de la observación de un fenómeno, y como no puede siempre mantener las mismas condiciones predeterminadas o a voluntad del investigador, deja que actúen libremente, pero se registran las diferentes observaciones y se analizan sus variaciones.

Para el planeamiento de una investigación, por norma general, se siguen las siguientes etapas:

2.1. Planteamiento del problema.2.2. Fijación de los objetivos.2.3. Formulación de la hipótesis.2.4. Definición de la unidad de observación y de la unidad de medida.2.5. Determinación de la población y de la muestra.2.6. La recolección.2.7. Crítica, clasificación y ordenación.2.8. Tabulación.2.9. Presentación.2.10 Análisis.2.11 Publicación.

Page 19: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

2.1. PLANTEAMIENTO DEL PROBLEMA

Al abordar una investigación se debe tener bien definido qué se va a investigar y por qué se pretende estudiar algo. Es decir, se debe establecer una delimitación clara, concreta e inteligible sobre el o los fenómenos que se pretenden estudiar, para lo cual se deben tener en cuenta, entre otras cosas, la revisión bibliográfica del tema, para ver su accesibilidad y consultar los resultados obtenidos por investigaciones similares, someter nuestras proposiciones básicas a un análisis lógico; es decir, se debe hacer una ubicación histórica y teórica del problema.

2.2. FIJACIÓN DE LOS OBJETIVOS

Luego de tener claro lo que se pretende investigar, Debemos presupuestar hasta dónde queremos llegar; en otras palabras, debemos fijar cuales son nuestras metas y objetivos. Estos deben plantearse de tal forma que no haya lugar a confusiones o ambigüedades y debe, además, establecerse diferenciación entre lo de corto, mediano y largo plazo, así como entre los objetivos generales y los específicos.

2.3. FORMULACIÓN DE LAS HIPÓTESIS

Una hipótesis es ante todo, una explicación provisional de los hechos objeto de estudio, y su formulación depende del conocimiento que el investigador posea sobre la población investigada. Una hipótesis estadística debe ser susceptible de docimar, esto es, debe poderse probar para su aceptación o rechazo.

Una hipótesis que se formula acerca de un parámetro (media, proporción, varianza, etc.), con el propósito de rechazarla, se llama Hipótesis de Nulidad y se representa por Ho; a su hipótesis contraria se le llama Hipótesis Alternativa (H1).

2.4. DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE MEDIDA

La Unidad de Observación, entendida como cada uno de los elementos constituyentes de la población estudiada, debe definirse previamente, resaltando todas sus características; pues, al fin de cuentas, es a ellas a las que se les hará la medición.

La unidad de observación puede estar constituida por uno o varios individuos u objetos y denominarse respectivamente simple o compleja.

Page 20: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

El criterio sobre la unidad de medición debe ser previamente definido y unificado por todo el equipo de investigación. Si se trata de medidas de longitud, volumen, peso, etc., debe establecerse bajo qué unidad se tomarán las observaciones ya sea en metros, pulgadas, libras, kilogramos, etc.

Asociado a la unidad de medida, deben establecerse los criterios sobre las condiciones en las cuales se ha de efectuar la toma de la información.

2.5. DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRA

Estadísticamente, la población se define como un conjunto de individuos o de objetos que poseen una o varias características comunes. No se refiere esta definición únicamente a los seres vivientes; una población puede estar constituida por los habitantes de un país o por los peces de un estanque, así como por los establecimientos comerciales de un barrio o las unidades de vivienda de una ciudad.

Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí el término infinito no está siendo tomado con el rigor semántico de la palabra; por ejemplo, los peces dentro de un estanque son un conjunto finito; sin embargo, en términos estadísticos, puede ser considerado como infinito.

Muestra es un subconjunto de la población a la cual se le efectúa la medición con el fin de estudiar las propiedades del conjunto del cual es obtenida.

En la práctica, estudiar todos y cada uno de los elementos que conforman la población no es aconsejable, ya sea por la poca disponibilidad de recursos, por la homogeneidad de sus elementos, porque a veces es necesario destruir lo que se está midiendo, por ser demasiado grande el número de sus componentes o no se pueden controlar; por eso se recurre al análisis de los elementos de una muestra con el fin de hacer inferencias respecto al total de la población. Existen diversos métodos para calcular el tamaño de la muestra y también para tomar los elementos que la conforman, pero no es el objetivo de este curso estudiarlos. Diremos solamente que la muestra debe ser representativa de la población y sus elementos escogidos al azar para asegurar la objetividad de la investigación.

2.6. LA RECOLECCIÓN

Una de las etapas más importantes de la investigación es la recolección de la información, la cual ha de partir, a menos que se tenga experiencia con muestras análogas, de una o varias muestras piloto en las cuales se pondrán a prueba los cuestionarios y se obtendrá una aproximación de la variabilidad de la población, con

Page 21: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

el fin de calcular el tamaño exacto de la muestra que conduzca a una estimación de los parámetros con la precisión establecida.

El establecimiento de las fuentes y cauces de información, así como la cantidad y complejidad de las preguntas, de acuerdo con los objetivos de la investigación son decisiones que se han de tomar teniendo en cuenta la disponibilidad de los recursos financieros, humanos y de tiempo y las limitaciones que se tengan en la zona geográfica, el grado de desarrollo, la ausencia de técnica, etc.

Es, entonces, descubrir dónde está la información y cómo y a qué "costo" se puede conseguir; es determinar si la encuesta se debe aplicar por teléfono, por correo, o si se necesitan agentes directos que recojan la información; establecer su número óptimo y preparar su entrenamiento adecuado.

2.7. CRITICA, CLASIFICACIÓN Y ORDENACIÓN

Después de haber reunido toda la información pertinente, se necesita la depuración de los datos recogidos. Para hacer la crítica de una información, es fundamental el conocimiento de la población por parte de quien depura para poder detectar falsedades en las respuestas, incomprensión a las preguntas, respuestas al margen, amén de todas las posibles causas de nulidad de una pregunta o nulidad de todo un cuestionario.

Separado el material de "desecho" con la información depurada se procede a establecer las clasificaciones respectivas y con la ayuda de hojas de trabajo, en las que se establecen los cruces necesarios entre las preguntas, se ordenan las respuestas y se preparan los modelos de tabulación de las diferentes variables que intervienen en la investigación.

El avance tecnológico y la popularización de los computadores hacen que estas tareas, manualmente dispendiosas, puedan ser realizadas en corto tiempo.

2.8. LA TABULACIÓN

Una tabla es un resumen de información respecto a una o más variables, que ofrece claridad al lector sobre lo que se pretende describir; para su fácil interpretación una tabla debe tener por lo menos: Un titulo adecuado el cual debe ser claro y conciso. La Tabla propiamente dicha con los correspondientes subtítulos internos y la cuantificación de los diferentes ítems de las variables, y las notas de pie de cuadro que hagan claridad sobre situaciones especiales de la tabla, u otorguen los créditos a la fuente de la información.

Page 22: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

2.9. LA PRESENTACIÓN

Una información estadística adquiere más claridad cuando se presenta en la forma adecuada. Los cuadros, tablas y gráficos facilitan el análisis, pero se debe tener cuidado con las variables que se van a presentar y la forma de hacerlo. No es aconsejable saturar un informe con tablas y gráficos redundantes que, antes que claridad, crean confusión. Además la elección de determinada tabla o gráfico para mostrar los resultados, debe hacerse no sólo en función de las variables que relaciona, sino del lector a quien va dirigido el informe.

2.10. EL ANÁLISIS

La técnica estadística ofrece métodos y procedimientos objetivos que convierten las especulaciones de primera mano en aseveraciones cuya confiabilidad puede ser evaluada y ofrecer una premisa medible en la toma de una decisión.

Es el análisis donde se cristaliza la investigación. Esta es la fase de la determinación de los parámetros y estadísticos muestrales para las estimaciones e inferencias respecto a la población, el ajuste de modelos y las pruebas de las hipótesis planteadas, con el fin de establecer y redactar las conclusiones definitivas.

2.11. PUBLICACIÓN

Toda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros estudiosos del mismo problema a quienes se les puede aportar información, conocimientos y otros puntos de vista acerca de él.

PRACTIQUEMOS N° 1

1. ¿Por qué se considera importante la estadística?2. Enuncie las ramas en las que se divide la estadística y establezca su campo de acción.3. Enumere las etapas del método estadístico.4. ¿Por qué es importante la revisión bibliográfica en el desarrollo de una investigación

estadística?.5. ¿Qué es la hipótesis nula?.6. Defina: Población, Muestra, Censo y Muestreo.7. ¿Por qué usualmente se recurre al análisis a través de muestras y no de poblaciones?.8. ¿Para qué se utiliza un muestreo piloto?.9. ¿Con qué fin se critica una información?10. ¿Cuáles son los componentes de una tabla?

Page 23: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 3Distribución de Frecuencias*******************************

Después de recoger toda la información correspondiente a la investigación, es decir, al agotar todo el trabajo de campo, nuestro escritorio se llena de un cúmulo de datos y cifras desordenadas los cuales, al ser tomados como observaciones individuales, dicen muy poco sobre la población estudiada; es, entonces, tarea del investigador “hacer hablar las cifras”, comenzando por la clasificación y ordenación, consignando la información en tablas inteligibles que denominamos distribuciones de frecuencias.

3.1. DISTRIBUCIÓN DE FRECUENCIAS SIMPLE

Para una mayor sencillez, en la exposición del tema, nos valemos del siguiente ejemplo: Supongamos que en la Fábrica Textil Manufacturas del Centro S.A. ha estallado un conflicto laboral y sus cincuenta operarias solicitan un aumento en el salario integral diario sopena de paralizar la fábrica.

El Gerente-propietario recoge la información respecto a la variable salario diario de sus 50 operarias y la relaciona en la Tabla No 1.

Page 24: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Tabla No.1

SALARIO DIARIO DE 50 OPERARIOS EN LA Fábrica Textil Manufacturas del Centro S.A. (S/.)

Tabla No. 2

SALARIO DIARIO DE 50 OPERARIAS DE LA FÁBRICA TEXTIL MANUFACTURAS DEL CENTRO S.A.

Page 25: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Tabla No. 3

SALARIO DIARIO DE 50 OPERARIAS DE LA FÁBRICA TEXTIL MANUFACTURAS DEL CENTRO S.A.

Tabla No. 4

Como se puede observar, hay una gran diferencia entre los datos brutos de la Tabla No.1 y el ordenamiento y agrupamiento de la Tabla No. 4.

Page 26: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Con el fin de obtener una mejor tabla interpretativa, introduciremos la siguiente simbología:

n: El tamaño de la muestra, es el número de observaciones.Xi: La variable; es cada uno de los diferentes valores que se han observado.La variable xi, toma los x1, x2... xm valores.fi: La frecuencia absoluta o simplemente frecuencia, es el número de veces que se

repite la variable Xi; así f1, es el número de veces que se repite la observación x1, f2 el número de veces que se repite la observación x2 etc.

fa: La frecuencia acumulada, se obtiene acumulando la frecuencia absoluta.fr: Frecuencia relativa; es el resultado de dividir c/u de las frecuencias

absolutas por el tamaño de la muestra.fra: Frecuencia relativa acumulada; se obtiene dividiendo la frecuencia acumulada

entre el tamaño de la muestra.

Distribución Teórica de Frecuencias de n Observaciones

Page 27: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Veamos el ejemplo que venimos trabajando:

Tabla No. 5Distribución de Frecuencias del Salario Diario de 50 Obreras

En la práctica, cuando se tiene confianza en el ordenamiento, no son necesarias tantas tablas; se puede pasar de la tabla No 1 directamente a la tabla No 6.

Tabla No. 6

Salario Diario de 50 Operarias de la Fábrica Textil Manufacturas del Centro S.A.

Page 28: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Analizando las columnas porcentuales fr y fra se obtienen, entre otras las siguientes conclusiones:

• Sólo el 4% de las obreras gana el máximo salario/día de la fabrica, el cual corresponde a $58.000.00

• El salario diario mínimo ($50.000.00) lo gana únicamente una obrera, lo que constituye el 2% del personal asalariado.

• El 62% de las operarias tiene un salario diario entre $53.000.00 y $55.000.00

• El 60% de las obreras tiene un salario/día de $54.000.00 o menos. • El 64% tiene un ingreso/día de $54.000.00 o más.

PRACTIQUEMOS N° 2

1. ¿Qué es frecuencia absoluta?.2. Cómo se obtiene: 2.1. ¿La frecuencia acumulada? 2.2. ¿La frecuencia relativa? 2.3. ¿La frecuencia relativa acumulada3. En una distribución de frecuencias ¿se pueden establecer conclusiones

porcentuales, utilizando solamente la frecuencia relativa? ¿Por qué?4. La siguiente tabla relaciona las ausencias al trabajo de 50 obreras, durante el

mes de octubre, en la Fábrica Textil Manufacturas del Centro S.A.

4.1. Construir una distribución de frecuencias simple. 4.2. Sacar 3 conclusiones.5. Años de experiencia de las 50 operarias de la Fábrica Textil Manufacturas del Centro S.A.

Page 29: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Ordenar la Información y responder :

5.1. ¿Qué porcentaje de las obreras tiene experiencia inferior o igual a 6 años?.5.2. ¿Que porcentaje tiene experiencia entre 5 y 7 años (incluyendo los

extremos)?.6.

Palabras por Minuto Escritas por un Grupo de Mecanógrafas

Construir una distribución de frecuencias y resaltar 3 conclusiones

7. La siguiente tabla muestra, las respuestas obtenidas en un cuestionario aplicado a las obreras de la Fábrica Textil Manufacturas del Centro S.A., respecto a la edad, estado civil, número de hijos, experiencia, años de estudio, ingresos diarios, gastos en educación y ausencias al trabajo en el último mes, así como una calificación del desempeño otorgada por el supervisor.

Page 30: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Hacer las respectivas distribuciones de frecuencias, para cada una de las variables.

3.2. DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOS

Page 31: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Usualmente los valores de los datos no permiten un agrupamiento de ellos en una tabla de frecuencias simple, debido a que se encuentran distribuidos a través de todo el recorrido y el número de veces que se repite cada observación no es significativo en todos los casos, y en la mayoría de ellos su frecuencia es baja. Una tabla de frecuencias construida en estas condiciones, no presenta ninguna utilidad.

Ilustraremos el caso a través de un ejemplo, para ello, supongamos que la fábrica de baldosas”Bolaños”, con el objeto de ofrecer una garantía de su producto, desea hacer un estudio técnico de su producción, para lo cual extrae una muestra de 100 baldosas, cada una de las cuales se somete a una prueba de resistencia, destructiva cuyos datos expresados en Kg/cm2, se relacionan a continuación:

Tabla No. 7

Resistencia en Kg/Cm2 de 100 Baldosas de La Fábrica “Bolaños”

La clasificación en una distribución de frecuencias simple daría como resultante un ordenamiento de por lo menos 80 items; la mayoría de ellos con frecuencia unitaria.

Se hace necesario el agrupamiento en intervalos o clases que haga más compacta, manejable y presentable la información.

El número de clases y la amplitud de los intervalos los fija el investigador de acuerdo con el conocimiento que posea de la población, la necesidad de hacer comparación con otras investigaciones y la presentación de la información. Sin embargo, se recomienda que la información no sea demasiado compacta, lo cual le restaría precisión, ni demasiado dispersa, ya que no se tendría claridad.

Page 32: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

En términos generales, es usual que el número de intervalos no sea inferior a 5 ni superior a 15. Struges propone que el número de clases o intervalos sea determinado por la expresión m ≅1 + 3.3 log(n).

La amplitud debe ser igual para todos los intervalos y, en lo posible, no se debe trabajar con clases abiertas.

3.3. REGLAS EMPÍRICAS PARA LA CONSTRUCCIÓN DE INTERVALOS

Cuando no se tiene experiencia en el manejo de la información es aconsejable seguir los pasos que se dan a continuación:

3.3.1. Determinar los datos de mayor y menor valor Xmax, Xmin.

3.3.2. Calcular el rango o recorrido

3.3.3. Determinar el número de intervalos (m) y la amplitud de clase (A): Debe tenerse presente que m es un número natural. Luego se

busca la amplitud A:

,

3.3.4. Calcular el rango ampliado:

3.3.5. Establecer la diferencia , es decir la cantidad en que ha sido alterado el recorrido, la cual no debe ser superior a la amplitud.

(“a”) También puede ser definida como la cantidad positiva más pequeña que le hace falta al rango o recorrido para ser divisible exactamente por la amplitud.

3.3.6. Distribuir adecuadamente la cantidad “a” de la siguiente manera:

Al valor X min se le resta aproximadamente y la parte restante se le suma a X max, obteniendo el límite inferior del primer intervalo y el límite superior del último, respectivamente.

Page 33: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

3.3.7. Construir los intervalos, calcular los puntos medios o marcas de clase y hacer el agrupamiento de frecuencias.

Distribución Teórica de Frecuencias por Intervalos de n Observaciones

N: Número de observacionesLIPI: Límite inferior del primer intervaloLSUI: Límite superior del último intervalXi: Punto medio del intervalo, o marca de clase

* Con el fin de prever dobles conteos, quien clasifica deberá especificar si los intervalos son abiertos a la derecha o abiertos a la izquierda, en estas notas, trabajaremos con intervalos abiertos a la derecha; es decir, del tipo , donde el límite superior no está incluido dentro de la clase.

Retomemos el ejercicio de la Tabla No. 7 y construyamos una distribución de frecuencia por intervalos.

Page 34: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

3.3.1 Rango ,

3.3.2 Rango ,

3.3.3 Número de intervalos

,

,

No es lógico tener 7.6 intervalos, por lo tanto se procede a aproximar el número de intervalos a un número natural cercano.

Aproximemos, , y busquemos la amplitud.

,

Ya terminado el número de clases en m=7 encontramos que la amplitud debe ser mayor que 94. Fijémosla, entonces, en A = 100, que hace más manejable y presentable la tabla con la información.

3.3.4 Rango ampliado , .

3.3.5 Hemos alterado el rango original , cambiándolo por el rango ampliado . La diferencia está representada por o sea

3.3.6 Tenemos por tanto, que distribuir adecuadamente la diferencia entre los rangos

Como se dijo antes, no estamos hablando de restar o sumar estrictamente sino una cantidad aproximada que brinde una buena presentación.

3.3.7 Construcción de los intervalos.

Page 35: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Tabla No. 8

Construcción de los Intervalos para la Resistencia de las Baldosas

Se puede desde luego, proceder a agrupar la información en los respectivos intervalos, haciendo la salvedad de que ninguno de los límites superiores de clase son considerados dentro de los intervalos.

Tabla No. 9

Distribución de Frecuencias por Intervalos de la Resistencia de 100 Baldosas de la Fábrica “Bolaños”

Conclusiones:

• El 72% de las baldosas tiene una resistencia entre 300 y 600 Kg/Cm 2. • El 86% de las baldosas resiste menos de 600 Kg/Cm2. • Sólo el 5% resiste 700 o más Kg/Cm2.

PRACTIQUEMOS N° 3

1. ¿Por qué se recurre al agrupamiento en distribuciones de frecuencias por intervalos?

2. ¿Cómo se determina el número de intervalos y la amplitud de ellos?.3. ¿Qué es una marca de clase?.

Page 36: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Consumo de agua, en m3de 184 familias en un barrio residencial de una ciudad durante el mes de octubre:

Construir una distribución de frecuencias por intervalos.

4.1 Asumiendo el número de intervalos m = 8 4.2 Asumiendo el número de intervalos m = 9 4.3 Comparar las dos distribuciones y las conclusiones que de ellas se

deriven.5.

Calificaciones Obtenidas por 130 Estudiantes en un Examen de Estadística:

Page 37: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Construir una distribución de frecuencias por intervalos y resaltar cuatro (4) conclusiones.

Page 38: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 4Representación Gráfica***************************

A pesar de la gran ayuda que prestan las tablas y cuadros con información organizada, no todos los públicos alcanzan a comprenderla o no disponen del tiempo suficiente para analizarla.

Es por ello que la mayoría de los investigadores acostumbran a reforzar la descripción a través de dibujos, generalmente con formas geométricas, que ayudan a visualizar el comportamiento de las variables tratadas.

4.1. DEFINICIÓN

Una gráfica o diagrama es un dibujo complementario a una tabla o cuadro, que permite observar las tendencias de un fenómeno en estudio y facilita el análisis estadístico de las variables allí relacionadas.

4.2.COMPONENTES DE UNA GRÁFICA

Una gráfica, al igual que un cuadro o una tabla, debe constar de:

4.2.1. Título adecuado: El cual debe ser claro y conciso, que responda a las preguntas: Qué relaciona, cuándo y dónde se hicieron las observaciones.

Page 39: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

4.2.2. El cuerpo: o gráfico en sí, cuya elección debe considerar el o los tipos variables a relacionar, el público a quien va dirigido y el diseño artístico del gráfico.

4.2.3. Notas de pie de gráfico: Donde se presentan aclaraciones respecto al gráfico, las escalas de los ejes, o se otorgan los créditos a las fuentes respectivas.

Es de anotar que por medio de gráficos tendenciosos se pueden deformar o resaltar situaciones o estados, que presentados en un gráfico apropiado, mostrarían un comportamiento normal.

Generalmente una información es distorsionada por algunas de las siguientes causas:

4.2.1.1 La relación entre los ejes no es la mas apropiada ( ver gráficos No.1 y No.2)

4.2.1.2 Gráficos con escalas desproporcionadas, o mala elección del punto de origen ( ver gráfico No.3).

Variación de La Inflación en Colombia 1995-2000

Gráfico No. 1

Page 40: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Gráfico No. 2

Gráfico No. 3

Page 41: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Como se puede observar, el gráfico No.1 “realza” el decrecimiento de la variable inflación, mientras que el No.2 intenta mostrar una estabilización o decrecimiento parsimonioso.

Los dos dibujos son incorrectos debido a que no conservan una proporción adecuada entre sus ejes. Sin embargo, el gráfico No. 3 tiene una buena proporción entre los ejes. Pero, la distorsión se debe a la mala numeración en el eje “Y” pues, el punto de origen O ha sido eliminado y asignado un valor arbitrario, la escala es inadecuada para resaltar el decrecimiento inflacionario de los dos últimos periodos.

Ambas situaciones son erróneas o tendenciosas y se deben corregir asignando escalas apropiadas a los ejes y utilizando la siguiente regla:

Donde: Lx: Longitud del eje horizontal

Ly: Longitud del eje vertical

“La longitud del eje vertical es igual a tres cuartos de la longitud del eje horizontal”.

4.3.PRINCIPALES TIPOS DE GRÁFICOS

Existe una gran cantidad de gráficos para la representación de datos estadísticos, ya que de ellos depende el diseño artístico de quien los elabora, así como de su imaginación al combinar varios tipos de ellos, como forma de presentar una información.

Entre los gráficos más comunes tenemos:

4.3.1 Gráfico de Líneas: Usado básicamente para mostrar el comportamiento de una variable cuantitativa a través del tiempo. El gráfico de líneas consiste en segmentos rectilíneos unidos entre sí, los cuales resaltan las variaciones de la variable por unidad de tiempo. Para su construcción ha de procederse de la siguiente manera: en el eje de las ordenadas se marcan los puntos de acuerdo con la escala que se esté utilizando. En el caso de una escala aritmética, distancias iguales en el eje, representan distancias iguales en la variable.

Variación de la Inflación en Colombia 1995 -2000

Page 42: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

El eje de la variable X se divide en unidades de tiempo iguales, teniendo presente el número de ítems que ha de presentarse, así como la longitud del eje. Es de anotar la conveniencia de mostrar la interrupción y acercamiento del eje a su origen cuando esto haya ocurrido.

4.3.2 Gráfico de Líneas Compuesto: Cuando se tienen varias variables a representar, con el fin de establecer comparaciones entre ellas (siempre que su unidad de medida sea la misma); se utiliza plasmarlos en un sólo gráfico, el cual es el resultado de representar varias variables en un mismo plano.

Variación de la Inflación y el Salario en Manufacturas del Centro S.A.

4.3.3 Gráfico de Barras: El gráfico de barras, como su nombre lo indica, está constituido por barras rectangulares de igual ancho, conservando la misma distancia de separación entre sí. Se utiliza básicamente para mostrar y comparar frecuencias de variables cualitativas o comportamientos en el tiempo, cuando el número de ítems es reducido.

Page 43: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Número de Hijos de 50 Obreras en Manufacturas del Centro

Éstos gráficos suelen ser de barras verticales, aunque se pueden utilizar de forma horizontal.

4.3.4. Gráfico de Barras Compuesto

Preferencias de Partido Según Sexo

4.3.5 Gráfico de Sectores Circulares: Usualmente llamado gráfico de pastel, debido a su forma característica de una circunferencia dividida en cascos, por medio de radios que dan la sensación de un pastel tajado en porciones.

Se usa para representar variables cualitativas en porcentajes o cifras absolutas cuando el número de ítems no es superior a 5 y se quiere resaltar uno de ellos. Para su construcción se procede de la siguiente forma: La circunferencia tiene en su interior 360 grados, los cuales hacemos corresponder al total de la información, es decir al 100%; luego, para

Page 44: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

determinar el número de grados correspondiente a cada componente se multiplica el porcentaje respectivo por 360 y se divide por 100, los cuales se miden con la ayuda de un transportador para formar los casquetes de los diferentes ítems.

Estado Civil de 50 Operarias de Manufacturas del Centro

4.3.6. Histograma de Frecuencias: Para la construcción de un histograma de frecuencias de fácil interpretación y que no falsee la información, debe disponerse de una distribución de frecuencias por intervalos con amplitud igual para cada clase o intervalo. En el eje de las abscisas procedemos a representar los intervalos de la variable, y en el eje de las ordenadas las frecuencias de cada clase.

El histograma se construye dibujando barras contiguas que tienen como base la amplitud de cada intervalo y como alturas las frecuencias respectivas.

Histograma de Frecuencias de la Resistencia de 100 Baldosas

Page 45: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

4.3.7. Polígono de Frecuencias

Resistencia de 100 Baldosas

Para la construcción de un polígono de frecuencias, se marcan los puntos medios de cada uno los intervalos en la parte superior de cada barra del histograma de frecuencias, los cuales se unen con segmentos de recta.

4.3.8. Histograma de Frecuencias Acumuladas: El histograma de frecuencias acumuladas también es obtenido a partir de una distribución de frecuencias, tomando en el eje horizontal las clases de la variable, y en el eje vertical las frecuencias acumuladas correspondientes a cada intervalo.

Resistencia de 100 Baldosas

Page 46: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Resistencia de 100 Baldosas

PRACTIQUEMOS N° 04

1. ¿Cuál es el objetivo de un gráfico?2. Describa los componentes de una gráfica .3. ¿Cuáles son las principales causas de distorsión de la información de un

gráfico?.4. ¿Cuál debe de ser la proporción entre los ejes del plano cartesiano para la

construcción de un gráfico?.5. Para los ejercicios 4 y 5 del capítulo 3, numeral 3.2 construir: 5.1. Un histograma de frecuencias. 5.2. Un polígono de frecuencias. 5.3. Un histograma de frecuencias acumuladas. 5.4. Un polígono de frecuencias acumuladas.6.

Page 47: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Costo Promedio del Consumo de Energía de la Fábrica Textil Manufacturas del Centro S.A.

Construir un gráfico de líneas para esta información.7.

Índice de Precios al Consumidor 1999-2001

Page 48: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Graficar: El valor del índice, la variación mensual y la variación anual, en función del tiempo.

8. Construir un gráfico apropiado para los resultados electorales en Perú, en la elección de presidente de la república para el período 2001-2006:

Page 49: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 5Medidas de Tendencia Central***********************************

En los capítulos anteriores, nos referimos a la clasificación, ordenación y presentación de datos estadísticos, limitando el análisis de la información a la interpretación porcentual de las distribuciones de frecuencia.

El análisis estadístico propiamente dicho, parte de la búsqueda de parámetros sobre los cuales pueda recaer la representación de toda la información.

Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de la información, son de gran importancia en el manejo de las técnicas estadísticas, sin embargo, su interpretación no debe hacerse aisladamente de las medidas de dispersión, ya que la representabilidad de ellas está asociada con el grado de concentración de la información.

Las principales medidas de tendencia central son:

5.1 Media aritmética.5.2 Mediana5.3 Moda.

5.1. MEDIA ARITMÉTICA

Page 50: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Cotidiana e inconscientemente estamos utilizando la media aritmética. Cuando por ejemplo, decimos que un determinado fumador consume una cajetilla de cigarrillos diaria, no aseguramos que diariamente deba consumir exactamente los 20 cigarrillos que contiene un paquete sino que es el resultado de la observación, es decir, dicho sujeto puede consumir 18, un día; 19 otro; 20, 21, 22; pero según nuestro criterio, el número de unidades estará alrededor de 20.

Matemáticamente, la media aritmética se define como la suma de los valores observados dividida entre el número de observaciones.

: Media aritmética de la variable X: Valores de la variable X

n: Número de observaciones

:Signo de sumatoria, indica que se debe sumar

Ejemplo: Cantidad de cigarrillos consumidos por un fumador en una semana.

. . . Lunes: 18Martes: 21 Miércoles: 22Jueves: 21Viernes: 20Sábado: 19Domingo: 19

Entonces la media aritmética es.

Page 51: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

El fumador consume en promedio 20 cigarrillos diarios.

Cuando la variable está agrupada en una distribución de frecuencias, la media aritmética se calcula por la fórmula:

Ejemplo:

Cantidad de Cigarrillos consumidos por un fumador en una Semana dada:

Ejemplo:

Cálculo de La Media Aritmética. El Salario/día de 50 Operarias

Page 52: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

= 54.100 Soles/día

Si la información está relacionada en una distribución de frecuencias por intervalos, se toman como valores de la variable las marcas de clase de los intervalos, entiéndase por marca de clase el punto medio entre los límites de cada clase o intervalo.

Ejemplo:

Cálculo de La Media Aritmética de la Resistencia de 100 Baldosas

Page 53: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

La resistencia promedio de las 100 baldosas es de 448 Kg/Cm².

5.1.1 Propiedades de la Media Aritmética

5.1.1.1. La suma de las diferencias de los datos con respecto a la media aritmética es igual cero.

Demostración:

pero

Como

Page 54: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Ejemplo de Comprobación:

En el Ejercicio del Fumador Cuya Media Aritméticaes de 20 Cigarrillos / día:

Para una distribución de frecuencias:

Salario/día de 50 Operarias en la Fábrica Textil Manufacturas del

Centro S.A.

5.1.1.2. La suma de las diferencias cuadráticas de los datos, con

respecto a la Media Aritmética, es mínima.

Page 55: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Quiere decir esta propiedad que cualquier otro parámetro p,

diferente a la media aritmética hace mayor la expresión:

que

Para

Demostración:

Debemos, entonces, probar que:

veamos:

Page 56: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Pero (propiedad a.)

entonces:

como

luego

5.1.1.3. Si a cada uno de los resultados le sumamos o le restamos una

constante C , la Media Aritmética queda alterada en esa

constante.

Demostración:

Tenemos los datos x1

,x2,

.... ....xn .

Cuya media aritmética es

Sea

La media aritmética de la nueva variable es:

Page 57: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

entonces

En el ejemplo de las baldosas, , a cada uno de los datos

restémosle una constante .

5.1.1.4. Si cada uno de los datos se multiplica por una constante k,

entonces la media aritmética queda multiplicada por esa

constante:

Page 58: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Tenemos los datos x1

,x2,

.... ....xn

cuya media aritmética es

Sea

,

Si multiplicamos cada una de las resistencias de las 100 baldosas por

una constante tenemos:

5.1.2. Media Aritmética con Cambio de Origen y de Escala

En estadística es usual la transformación de variables utilizando las dos últimas propiedades:

C = un valor de tendencia central (media, mediana, moda o cualquier otro parámetro.

k = generalmente la desviación standar, desviación media, la amplitud etc.

Page 59: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Sea

. . . . . para nuestro ejemplo C = 450, k = 100

A la nueva variable “Y” le calculamos la media aritmética.

5.1.3. Media Aritmética Ponderada

Hemos visto que la Media Aritmética se calcula con base a la magnitud de los datos, otorgándoles igual importancia a cada uno de ellos. Sin embargo en muchas ocasiones la magnitud del dato esta ponderada con un determinado peso que lo afecta relativamente.

La Media Aritmética ponderada tiene en cuenta la importancia relativa de cada uno de los datos, para lo cual la definimos con la siguiente expresión:

donde

: Media aritmética ponderada

Page 60: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

xi: Valor de la variable Xwi: Ponderación del ítem xi

Ejemplo:

Las calificaciones de un estudiante están conformadas por los siguientes factores:

Un examen cuyo valor es 40% en el cual obtuvo una nota de 4.5, un trabajo de consulta con ponderación del 10% y calificación de 1.0, una exposición equivalente al 15% con nota de 2.0, y por último una investigación con valor del 35% calificada con 3.5.

entonces la nota definitiva es:

5.2. LA MEDIANA

Otra medida de tendencia central, utilizada principalmente en estadística no paramétrica, es la mediana, la cual no se basa en la magnitud de los datos, como la media aritmética, sino en la posición central que ocupa en el orden de su magnitud, dividiendo la información en dos partes iguales, dejando igual número de datos por encima y por debajo de ella.

5.2.1. La Mediana Cuando los datos no están Agrupados en Intervalos.

Partiendo de la información bruta, ordenamos los datos ascendente o descendentemente:

se define

Page 61: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Mediana = , si n es impar ó

Mediana = , si n es par

En el ejercicio de los cigarrillos, consumidos por un fumador tenemos lunes 18, martes 21, miércoles 22, jueves 21, viernes 20, sábado 19, y domingo 19. Ordenando ascendentemente:

n, es impar, entonces

Veamos cuando n es par:

Consumo mensual de agua, en m3, por la fábrica textil Manufacturas del Centro S.A.

Enero= 10,

. . . . Mayo= 14,

. . . . Septiembre=18,

Febrero=12,

Junio= 19,

Octubre= 22,

Marzo= 15,

Julio= 17,

Noviembre= 15,

Abril= 18,

Agosto=18,

Diciembre= 13

Mediana=

Como se puede observar, en este caso la mediana no es un dato perteneciente a la información, es un parámetro que divide la información dejando el 50% por encima y el 50% por debajo de ella.

Page 62: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

5.2.2. La Mediana cuando la información se encuentra agrupada en intervalos

Si la información esta agrupada en intervalos iguales, entonces la mediana se calcula según la siguiente expresión:

Me: Mediana

LI: Límite inferior del intervalo donde se encuentra la mediana (intervalo mediano), el cual se determina observando en que clase se encuentra la posición n/2.)

n: Número de observaciones

: Frecuencia acumulada anterior al intervalo mediano

: Frecuencia del intervalo medianoA: Amplitud del intervalo

Ejemplo:

Resistencia de 100 Baldosas de la Fábrica “Bolaños”

en la columna de frecuencia acumulada advertimos que la observación número 50 se halla en el cuarto intervalo 4.

Page 63: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Se concluye que el 50% de las baldosas resiste menos de 445.45

Kg/Cm

2

y el 50% resiste mas de 445.45 Kg/Cm

2

.

5.3. LA MODA

La moda, como su nombre lo indica, es el valor más común (de mayor frecuencia dentro de una distribución. Una información puede tener una moda y se llama unimodal, dos modas y se llama bimodal, o varias modas y llamarse multimodal. Sin embargo puede ocurrir que la información no posea moda.

5.3.1. La Moda cuando los datos no están agrupados en intervalos

Salario de 50 Operarias de la fábrica textil Manufacturas del Centro S.A.

El valor que más veces se repite es 54 con una frecuencia de 12, entonces decimos que la moda es Mo = 54.000.00 pesos diarios.

Cantidad de Cigarrillos consumidos por un fumador en una semana dada:

Page 64: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Los valores de mayor frecuencia corresponden a 19 y 21, por lo tanto se trata de una distribución bimodal con Mo1=19 y Mo2=21

5.3.2. Cálculo de la Moda cuando la información está agrupada en intervalos

Cuando la información se encuentra agrupada en intervalos de igual tamaño la moda se calcula con la siguiente expresión.

Donde:

Mo: ModaLI: Límite inferior del intervalo modalfm: Frecuencia de la clase modalf(m-1) : Frecuencia de la clase premodalf(m+1) : Frecuencia de la clase posmodalA : Amplitud de los intervalos

Ejemplo:

Resistencia de 100 Baldosas

Page 65: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

A pesar que el valor 444.44 no es un dato real de la información asumimos ese parámetro como el de mayor ocurrencia.

PRACTIQUEMOS N° 5

1. ¿Que es una medida de tendencia central?.2. ¿Cuales son las principales medidas de tendencia central?.3. Defina : media aritmética mediana y moda.4. ¿Cuándo se utiliza la media aritmética ponderada?.5. Enuncie las propiedades de la media aritmética.6. Para cada información de los ejercicios del capitulo 3, calcular e interpretar la

media aritmética, la mediana y la moda.7. La tripulación de un avión, en su itinerario compra los siguientes galones de

gasolina:Ciudad X 200 galones a 4000 pesos el galón.Ciudad Y 250 galones a 3500 pesos el galón.Ciudad Z 300 galones a 3000 pesos el galón.¿Cuál es el costo promedio de la gasolina comprada?.

Page 66: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 6Medidas de Posición***********************

En el Capitulo anterior, vimos lo referente a las medidas de tendencia central, las cuales, a su vez, son también medidas de posición ya que, de todas maneras ocupan un lugar dentro de la información. Nos ocuparemos ahora de ciertos parámetros posicionales muy útiles en la interpretación porcentual de la información.

6.1. CUARTILES

Las cuartillas o cuartiles son valores posicionales que dividen la información en cuatro partes iguales, el primer cuartil deja el 25% de la información por debajo de él, y el 75% por encima, el segundo cuartil, al igual que la mediana, divide la información en dos partes iguales, y por último el tercer cuartil deja el 75% por debajo de sí, y el 25% por encima.

Gráficamente:

Se necesita, entonces calcular tres cuartillas ya que la cuarta queda automáticamente determinada.

Page 67: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Donde:

k : Orden del cuartil k = 1,2,3LI:.......... Límite inferior del intervalo que contiene el cuartil.Fa(i-1): Frecuencia acumulada hasta el intervalo anterior al que contiene el

cuartil.fi : Frecuencia del intervalo que contiene el cuartil.n : Número de observaciones.A : Amplitud de los intervalos.

Ejemplo:

Resistencia de 100 Baldosas de la Fábrica "Bolaños "

Primer cuartil:

posición que debe ser ubicada en la frecuencia acumulada, para determinar que clase contiene este cuartil.

Page 68: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

El 25% de las baldosas resiste menos de 352.38 Kg/Cm2 y el 75% tiene una resistencia superior.

Como el segundo cuartil es lo mismo que la mediana: Me=Q2=445.45Kg/Cm2

Calculemos la tercera cuartilla k=3

El 75% de las baldosas tiene una resistencia inferior a 538..88 Kg/Cm2 y el 25% una resistencia superior.

6.2. QUINTILES

Los quintiles o quintillas dividen la información en cinco partes iguales, agrupándolas en porcentajes de 20, 40, 60, y 80 por ciento, en consecuencia debemos calcular cuatro parámetros:

Gráficamente:

calculemos por ejemplo la segunda quintilla para el ejercicio que traemos:

k=2,

Page 69: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

El 40% de las baldosas resiste menos de 415.15kg/cm2 y el 60% resiste más.

6.3. DECILES

Similarmente, los deciles o decillas dividen la información en diez partes iguales, en cantidades porcentuales de 10 en 10.

6.4. CENTILES

Obviamente los centiles dividen la información en 100 partes, lo cual facilita la interpretación porcentual de una distribución de frecuencias.

6.5. RESUMEN

En general para calcular cualquier percentil:

Donde:

r: Número de partes en que se divide la informaciónk: Orden del percentil k = 1,2,.....,r-1LI: Límite inferior del intervalo que contiene el percentilfa(i-1): Frecuencia acumulada hasta el intervalo anterior al que contiene el

percentilfi: Frecuencia del intervalo que contiene el percentil n: Número de observaciones

Page 70: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

A: Amplitud de los intervalos

En nuestro ejercicio, si el gerente de la fábrica de baldosas desea ofrecer un garantía de resistencia mínima. Basado en la muestra que se ha obtenido, si no quiere remplazar ninguna pieza, lógicamente debe afirmar que el producto resiste 100 o más Kg/Cm2. Pero si esta dispuesto a remplazar el 5% de su producción, entonces:

Se debe dar una garantía de 210kg/cm2 de resistencia mínima.

PRACTIQUEMOS N° 6

1. ¿Para qué se utilizan los percentiles?.2. ¿En cuantas partes se divide la información con:

2.1 Los cuartiles2.2 Los quintiles2.3 Los deciles2.4 Los centiles

3. Para la información de los ejercicios 4 y 5 de la sección 3.2 calcular e interpretar;

3.1. La primera y tercera cuartilla.3.2 El segundo y cuarto quintil.

3.3 ¿Qué porcentaje hay entre la primera y tercera quintilla?.3.4 ¿Qué porcentaje hay entre la primera cuartilla y la segunda quintilla?.

3.5 ¿Qué porcentaje hay entre la tercera cuartilla y el noveno decil?.

Page 71: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 7Medidas de Dispersión**************************

En el análisis estadístico no basta el cálculo e interpretación de las medidas de tendencia central o de posición, ya que, por ejemplo, cuando pretendemos representar toda una información con la media aritmética, no estamos siendo absolutamente fieles a la realidad, pues suelen existir datos extremos inferiores y superiores a la media aritmética, los cuales, en honor a la verdad, no están siendo bien representados por este parámetro.

En dos informaciones con igual media aritmética, no significa este hecho, que las distribuciones sean exactamente iguales, por lo tanto, debemos analizar el grado de homogeneidad entre sus datos. Por ejemplo, los valores 5, 50, 95 tiene igual media aritmética, y mediana que los valores 49, 50,51; sin embargo, para la primera información la media aritmética , se encuentra muy alejada de los valores extremos 5 y 95, cosa que no ocurre con la segunda información que posee igual media aritmética y mediana, vemos entonces que la primera información es mas heterogénea o dispersa que la segunda.

Para medir el grado de dispersión de una variable, se utilizan principalmente los siguientes indicadores:

7.1 Rango o recorrido.7.2 Desviación media.7.3 Varianza y desviación típica o estándar.

Page 72: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

7.4 Coeficiente de variabilidad.

7.1. RANGO O RECORRIDO:

Es la medida de dispersión mas sencilla ya que solo considera los dos valores extremos de una colección de datos, sin embargo, su mayor utilización está en el campo de la estadística no paramétrica.

R = Xmax – Xmin

Xmax, Xmin son el máximo y el mínimo valor de la variable X, respectivamente.En el ejemplo introductorio, vemos que el rango para la primera información es

R1=95-5=90, mientras que R2=51-49=2, se hace pues manifiesta la gran dispersión de la primera información contra la homogeneidad de la segunda.

7.2. DESVIACIÓN MEDIA:

La desviación media, mide la distancia absoluta promedio entre cada uno de los datos, y el parámetro que caracteriza la información. Usualmente se considera la desviación media con respecto a la media aritmética:

Donde:

DM : Desviación mediaxi : Diferentes valores de la variable Xfi : Número de veces que se repite la observación xi

Media aritmética de la informaciónn : Tamaño de la muestra.M : Número de agrupamientos o intervalos

Ejemplo:

Salario de 50 Operarias de la fábrica textil Manufacturas del Centro S.A.

Page 73: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

1.400.00 es el error promedio que se comete al remplazar los ingresos diarios de cada una de las 50 obreras por 54.100 soles.

7.3. VARIANZA

El problema de los signos en la desviación media, es eludido tomando los valores absolutos de las diferencias de los datos con respecto a la media aritmética. Ahora bien, la varianza obvia los signos elevando las diferencias al cuadrado, lo cual resulta ser más elegante, aparte de que es supremamente útil en el ajuste de modelos estadísticos que generalmente conllevan formas cuadráticas.

La varianza es uno de los parámetros más importantes en estadística paramétrica, se puede decir que, teniendo conocimiento de la varianza de una población, se ha avanzado mucho en el conocimiento de la población misma.

Numéricamente definimos la varianza, como desviación cuadrática media de los datos con respecto a la media aritmética:

Donde:S2:Varianzaxi : Valor de la variable X

: Media aritmética de la información

Page 74: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

fi: Frecuencia absoluta de la observación xi

n: Tamaño de la muestra.m Número de agrupamientos o intervalos

Salario/dia de 50 Operarias en la fábrica textil Manufacturas del Centro S.A.

Como los datos están expresados en miles de pesos y la varianza se encuentra en forma cuadrática obtenemos una varianza de 3’210.000 pesos. Sin embargo para una mejor comprensión debemos recurrir a la desviación típica o estándar definida como la raíz cuadrada de la varianza:

El error estándar es de 1.791 soles/diarios.

En el ejemplo de las baldosas:

Resistencia de 100 Baldosas de La Fábrica “Bolaños”

Page 75: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

7.4. COEFICIENTE DE VARIABILIDAD

Generalmente interesa establecer comparaciones de la dispersión, entre diferentes muestras que posean distintas magnitudes o unidades de medida.

El coeficiente de variabilidad tiene en cuenta el valor de la media aritmética, para establecer un número relativo, que hace comparable el grado de dispersión entre dos o mas variables, y se define como:

Comparemos la homogeneidad de las dos informaciones anteriores, las cuales tienen diferente unidad de medida.

para el salario:

para la resistencia

Concluimos que es mucho más dispersa la información correspondiente a la resistencia de las baldosas.

Page 76: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

PRACTIQUEMOS N° 7

1. ¿Cuál es la utilidad de las medidas de dispersión?.2. ¿Cuáles son las principales medidas de dispersión?.3. ¿Cuál es la medida adecuada para comparar la dispersión entre varias variables

que posean diferente magnitud o diferente unidad de medida?.4. Para cada una de las informaciones de los ejercicios de los capítulos anteriores,

calcular e interpretar:4.1 Rango.4.2 Desviación media.4.3 Coeficiente de variabilidad.

Page 77: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 8Regresión y Correlación Lineal**********************************

Hasta ahora hemos hecho la tabulación y el análisis para una sola variable. Pero los investigadores, además de analizar una información en forma individual, generalmente se interesan en establecer cruces y buscar relaciones entre diferentes variables.

8.1. TABLAS DE DOBLE ENTRADA

Para la presentación bidimensional de las variables "X, Y" se procede de la siguiente manera:

• Se ordenan las variables "X, Y" respectivamente • Se tabulan los valores X horizontalmente, y los valores Y verticalmente. • Se buscan las frecuencias para cada par ordenado (xi,yj). • Se suma horizontalmente para obtener las frecuencias de “Y” fyj, y

verticalmente para obtener las frecuencias de “X” fxi .

xi: Valores de la variable X, i=1,2,....myj: Valores de la variable Y, j=1,2,... kfxi: Frecuencia de la observación xi

fyj: Frecuencia de la observación yj

fij: Frecuencia conjunta de los valores (xi,yj)fa0xi :Frecuencia acumulada de la variable “X”, en el item

Page 78: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

ifayj : Frecuencia acumulada de la variable “Y”, en el item jfrxi : Frecuencia relativa para la variable “X”, en el item ifryj : Frecuencia relativa para la variable “Y”, en el item jfraxi : Frecuencia relativa acumulada para la variable “X”frayj : Frecuencia relativa acumulada para la variable “Y”.

Tabla de Doble Entrada para la representación de dos Variables “X, Y”

Como se puede advertir en la disposición de las frecuencias, la interpretación de la variable “Y”, puede hacerse analizando los relativos propios en forma horizontal, en tanto que el análisis de la variable “X” se hace en forma vertical.

Experiencia Laboral y Salario Diario de 50 Obreras de la fábrica textil Manufacturas del Centro S.A. “X” : Experiencia en Años, “Y”: Salario

Miles de Pesos

Page 79: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Analizando los relativos para cada una de las variables podemos sacar, entre otras, las siguientes conclusiones:

• El 64% tiene una experiencia igual o inferior a 6 años.• El 68% tiene una experiencia entre 5 y 7 años incluyendo sus extremos.• El 60% gana 54.000 pesos diarios o menos.• El 62% gana entre 53.000 y 55.000 pesos incluyendo sus extremos.

Las tablas de doble entrada también pueden usarse para variables cualitativas, o combinarse variables cualitativas con cuantitativas.

Estado Civil y Número de Hijos de 50 Obreras de la fábrica textil Manufacturas del Centro S.A. X: Estado Civil, Y: Número De Hijos.

Se deja al lector la interpretación y análisis de esta tabla.

8.2. CORRELACIÓN

Page 80: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

En el análisis conjunto para dos o más variables es básica la búsqueda del tipo y grado de la relación que pueda existir entre ellas, o si por el contrario, las variables sean independientes entre sí y la relación que puedan mostrar se debe únicamente al azar, o a través de terceras variables.

El sondeo del tipo y grado de la correlación, parte desde la misma presunción del investigador, teniendo presente que la búsqueda de relaciones entre variables debe ser lógica, es decir relacionar lo que sea razonable y no datos cuya asociación sea desde cualquier punto de vista absurda.

Veamos algunas variables susceptibles de relacionar:

• El peso y estatura de un grupo de adultos.• Edad y peso de un grupo de niños.• Ingresos y gastos de arrendamiento de un grupo de familias.• Escolaridad e ingreso mensual de un grupo de empleados.• Ventas y utilidades de un almacén de variedades.

En el cuestionario aplicado a las obreras de la "Hilacha", parece que se indaga por ciertas variables que puedan explicar el salario devengado por ellas; como podría ser, los años de experiencia, los años de estudio, las ausencias al trabajo, la evaluación del desempeño por parte de su supervisor, amén de otras variables que pueden tener influencia en la asignación salarial.

Para fortalecer el indicio de correlación inicial, se grafica cada uno de los pares ordenados de las variables (xi,yj) en un plano cartesiano, para observar la “nube de puntos” o diagrama de dispersión, donde se advierte la tendencia o no, de la información representada.

Page 81: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

A pesar de la ilustración visual que ofrecen las gráficas, solo podemos percibir la tendencia, mas no el grado o fortaleza de la relación, entre la variable independiente “X” y la variable dependiente “Y”.

Para cuantificar la calidad de la dependencia, entre las dos variables, el indicador mas acostumbrado es el Coeficiente de correlación, definido com

Donde:

r : Coeficiente de correlación entre “X” y “Y”

Sx: Desviación típica de “X” Sy: Desciacion típica de “Y”Sx,y : Covarianza entre “X” y “Y”

Page 82: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

En la práctica, cuando no tenemos la información agrupada en una tabla de doble entrada, asumimos que cada observación bivariada tiene frecuencia unitaria, entonces r se convierte en:

Page 83: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Tabla de Trabajo para el Calculo de L Coeficiente de Correlación

El coeficiente de correlación, es un indicador del grado de la relación entre las dos variables, el cual oscila en el intervalo cerrado , es decir, .

Cuando r toma un valor extremo, ya sea r=1 ó r=-1 existe una correlación perfecta positiva o negativa según el signo, como lo podemos corroborar en el siguiente ejemplo:

Aspiración Salarial, de Acuerdo a La experiencia de las obreras de la Fábrica Textil Manufacturas del Centro S.A.

, Correlación perfecta positiva

Sin embargo, no todas las relaciones son tan ideales, en el común de los casos –1< r <1. Empíricamente se afirma que:

1. Si Correlación perfecta

Page 84: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

2. Si ó Correlación excelente

3. Si ó Correlación buena

4. Si ó Correlación regular

5. Si ó Correlación mala

6. Si No hay correlación

Existen desde luego, pruebas estadísticas que miden la bondad de un

coeficiente de correlación con un determinado nivel de confiafilidad, pero no son

tema de este curso.

Salario Actual y Años de experiencia de 50 obreras de la fábrica textil Manufacturas del Centro S.A.

Exp Mil/dia Exp Mil/dia Años X Y XY X2 Y2 Años X Y XY X2 Y2

4 52 208 16 2704 8 57 456 64 32495 54 270 25 2916 6 54 324 36 29167 55 385 49 3025 6 55 330 36 30256 54 324 36 2916 5 53 265 25 28095 53 265 25 2809 7 55 385 49 30257 56 392 49 3136 8 56 448 64 31365 54 270 25 2916 5 53 265 25 28099 58 522 81 3364 9 57 513 81 32493 51 153 9 2601 6 54 324 36 29166 54 324 36 2916 5 53 265 25 28097 54 378 49 2916 2 50 100 4 25003 51 153 9 2601 6 55 330 36 30256 54 324 36 2916 4 52 208 16 27047 55 385 49 3025 5 53 265 25 28096 54 324 36 2916 6 54 324 36 29168 56 448 64 3136 4 52 208 16 27044 52 208 16 2704 8 57 456 64 32496 54 324 36 2916 7 56 392 49 31365 53 265 25 2809 3 51 153 9 26017 55 385 49 3025 8 58 464 64 33647 55 385 49 3025 6 55 330 36 3025

Page 85: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

7 55 385 49 3025 5 53 265 25 28094 52 208 16 2704 6 54 324 36 29167 55 385 49 3025 6 53 318 36 28095 53 265 25 2809 7 56 392 49 3136

TOTAL 294 2705 160391850146501

Se vislumbra una relación positiva, con coeficiente de correlación:

Entre la experiencia y el salario actual hay una excelente correlación positiva.

Si escudriñamos en la magnitud de las relaciones entre las diferentes variables cuantitativas, que se han indagado a las obreras de “Manufacturas del Centro” encontramos los siguientes coeficientes de correlación:

En el problema que nos ocupa, la variable salario/día tiene una excelente correlación positiva, con los años de experiencia, y una buena correlación directa con la calificación y la escolaridad, empero hay una buena relación inversa, con la variable ausencias al trabajo.

8.3. REGRESIÓN LINEAL

Teniendo ya conocimiento de la intensidad de la correlación entre las variables, manifestada a través del diagrama de dispersión, y el coeficiente de

Page 86: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

correlación, podemos ensayar el ajuste de un modelo estadístico que se adapte mejor a las n observaciones; lo que lleva por nombre regresión. Uno de los procedimientos muy comunes en el ajuste regresivo es el método de los mínimos cuadrados, que produce estimaciones con menor error cuadrático promedio

8.3.1. Ajuste Rectilíneo (Método de los Mínimos Cuadrados)

La forma general de una ecuación de línea recta es:

con:

X :Variable independienteY : Variable dependientea :

Término independiente o intercepto

b : Coeficiente de X

Debemos establecer los parámetro “a” y “b” de la ecuación para poder expresar los valores de la variable Y en función de los valores de la variable X, esto es:

multipliquemos cada una de estas ecuaciones por su respectivo valor de X

Las ecuaciones (1) y (2) son llamadas ecuaciones normales de la línea recta, de donde se pueden despejar los parámetros a, b en función de los datos originales.

De (1) tenemos:

Page 87: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Remplazando (3) en (2):

Las estimaciones para los parámetros son:

El gorrito “ ^ ” colocado sobre el parámetro indica estimaciones fundamentadas, en los datos muestrales.

Para ajustar el modelo rectilíneo a los ingresos diarios actuales explicados por los años de experiencia, en la fábrica textil Manufacturas del Centro S.A., aprovechamos los totales ya calculados en el coeficiente de correlación:

Page 88: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Como quiera que los items de la variable salario están en unidades de mil pesos, la ecuación de pronóstico definitiva es:

Salario Real y Estimado Vs. Experiencia

Insistimos en la existencia de pruebas estadísticas, que miden la bondad de los parámetros estimados y del modelo en sí, a estas alturas de nuestro documento no tenemos las herramientas para aplicarlas, sin embargo en el mercado hay software estadístico, que calcula los parámetros, ajusta los modelos y efectúa las respectivas pruebas, sin exigir al usuario grandes conocimientos de estadística matemática. Se debe tener cuidado, eso sí, en la interpretación adecuada de los resultados.

Page 89: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

El siguiente es el reporte parcial producido por el programa de computador Statgraphics plus :

El programa calcula:

y

y consecuentemente el modelo

,

el paquete hace también las pruebas t student para la hipótesis nula H0 : a=0 vs la hipótesis alternativa H1 : y H0 : b = 0 vs H1 : , dado que el valor “p” para ambos casos p= 0.0000, con una confiabilidad superior al 99% se rechazan ambas hipótesis de nulidad, a favor de las hipótesis alternativas. En cuanto al valor p = 0.0000 (para la prueba F) en la tabla de análisis de varianza, también se interpreta la validez del modelo con un nivel de confiabilidad superior al 99%.

De otro lado corrobora una correlación positiva excelente r=0.957578 y un coeficiente de determinación R-cuadrado, de 91.6956% que indica el porcentaje de la variable salario explicado por la variable experiencia.El coficiente de determinación R2 viene expresado como:

Page 90: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Aprovechemos este pequeño paréntesis, para decir que hoy la tecnología informática ha hecho posible la formulación y solución de complejos modelos multivariados, que constan de cientos de variables, que en años recientes solo se podían teorizar.

En la búsqueda de las variables que explican la variable salario, en la fabrica “La Hilacha” obtenemos el siguiente reporte del programa Statgraphics plus:

Page 91: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

El software, analiza los diferentes valores “p” y descalifica la variable edad, al nivel del 90% de confidencialidad, debido a que p=0.1451 hace que el coeficiente de esta variable no sea significante dentro del modelo.

Page 92: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Eliminada la variable edad, encontramos un modelo válido con un nivel de confianza superior al 99% cuyos coeficientes son admitidos con una confiabilidad superior al 95%.

R-cuadrado para este modelo es 95.58% , es decir el porcentaje del salario que está siendo explicado por las variables independientes, es ligeramente menor al R-cuadrado anterior (95.8%), sacrificio insignificante cuando se trata de reducir la complejidad del modelo.

Page 93: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Veamos las estimaciones producidas por la ecuación

HijosExpEsco- MilesS/. dia GastauseCalif estim

salarioError

2 4 5 52 5 3 1 52.51 0.512 5 5 54 6 2 1 53.23 - 0.773 7 4 55 8 1 4 55.25 0.253 6 4 54 9 1 3 54.36 0.361 5 3 53 3 2 2 52.91 - 0.090 7 8 56 1 1 4 55.84 - 0.161 5 3 54 2 2 3 53.26 - 0.740 9 9 58 0 0 5 57.79 - 0.213 3 3 51 10 3 1 51.35 0.353 6 3 54 9 2 2 53.59 - 0.411 7 6 54 3 2 3 54.98 0.982 3 3 51 6 5 1 50.82 - 0.180 6 7 54 1 1 2 54.55 0.550 7 7 55 1 1 3 55.34 0.340 6 5 54 2 2 3 53.93 - 0.070 8 8 56 3 1 4 56.18 0.181 4 3 52 2 3 2 52.20 0.202 6 4 54 5 2 2 53.87 - 0.132 5 4 53 5 3 2 53.05 0.050 7 9 55 4 2 3 55.26 0.260 7 8 55 4 1 3 55.29 0.291 7 6 55 4 2 3 54.89 - 0.112 4 3 52 7 3 1 51.82 - 0.181 7 6 55 3 1 3 55.26 0.263 5 3 53 7 2 2 53.25 0.250 8 9 57 3 1 5 56.67 - 0.334 6 5 54 13 2 3 54.30 0.303 6 5 55 8 2 3 54.43 - 0.573 5 4 53 8 2 2 53.40 0.403 7 4 55 9 0 3 55.18 0.181 8 6 56 4 0 4 56.23 0.232 5 4 53 6 2 2 53.23 0.230 9 8 57 2 0 4 57.10 0.101 6 5 54 3 1 3 54.47 0.47

Page 94: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

2 5 3 53 6 2 3 53.23 0.232 2 3 50 7 5 1 50.18 0.182 6 5 55 6 0 3 54.82 - 0.182 4 3 52 6 4 1 51.64 - 0.362 5 4 53 8 3 1 52.50 - 0.502 6 4 54 8 1 2 53.85 - 0.153 4 3 52 11 4 1 51.51 - 0.491 8 9 57 3 0 4 57.07 0.070 7 8 56 5 0 4 55.72 - 0.282 3 3 51 6 4 1 51.10 0.101 8 9 58 3 0 4 57.07 - 0.932 6 5 55 4 0 2 54.77 - 0.231 5 5 53 2 4 1 52.71 - 0.292 6 4 54 3 1 1 54.10 0.102 6 5 53 7 3 1 53.39 0.391 7 6 56 3 0 3 55.54 - 0.46

8.3.2. Ajuste Parabólico (Método Mínimos Cuadrados)

Suele suceder que al dibujar la nube de puntos correspondiente a n observaciones bivariante, se observa una tendencia no rectilínea, pero a la cual se le puede ajustar un modelo teórico conocido.

Dentro de la familia de modelos, es de aplicación común el ajuste regresivo polinomial de grado s “ ”. Similarmente con el procedimiento seguido en el ajuste rectilíneo, vamos a encontrar las ecuaciones normales par una parábola, de forma general

es decir , , ......., . Si cada una de estas ecuaciones la multiplicamos por su respectivo valor de x, y repetimos la acción tenemos:

sumando se obtienen las siguientes ecuaciones normales

Page 95: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

(1)

(2)

(3)

De donde se pueden estimar los parámetros de la parábola “ ”.

Ejemplo: En un experimento agropecuario, se toma una muestra de 15 unidades de una variedad de árbol frutal, se observa el rendimiento en frutos de acuerdo con la cantidad de fertilizante utilizado:

Resolviendo se obtienen las siguientes estimaciones de los parámetros:

, ,

Page 96: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

El programa Statgraphics produce el siguiente reporte:

Page 97: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Parábola Ajustada

Page 98: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

PRACTIQUEMOS N° 8

1.

Ingresos y Gastos en Arrendamiento de un Grupo de Familias; en Miles de Soles.

1.1. Calcular el coeficiente de correlación e interpretarlo.1.2. Ajustar el modelo adecuado para esta información.1.3. ¿Cuánto se estima, debe pagar una familia con ingreso mensual de

270.000 soles?.2. ¿Que es un coeficiente de correlación?.3. Cuando hay correlación:

3.1 Perfecta3.2 Excelente3.3 Buena

4. ¿Cuáles son las ecuaciones normales de la línea recta?.

Page 99: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 9Tasas e Índices********************

Como ya se dijo, el análisis de un fenómeno basado en las cifras absolutas, ofrece una idea general de su tendencia o comportamiento; pero para efectos de establecer comparaciones adecuadas del mismo fenómeno con otra región, o su ocurrencia a través del tiempo, se utilizan ciertos indicadores denominados tasas e índices.

9.1. TASA

Una tasa es la resultante de una fracción, en donde el numerador está contenido dentro del denominador:

Ejemplos:

Donde:

D: Tasa de deserción escolar.

R: Número de retiros durante el año.

M: Número total de matriculados durante el año.

Page 100: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

TE: Tasa de empleo.PEAO: Población económicamente activa ocupada.PEA : Población económicamente activa.

Valga anotar que a las tasas se les debe multiplicar por una constante k, la cual generalmente es 100, 1000 o múltiplos de ellos, con el fin de convertirlos en porcentajes, por millares etc.

En demografía, las tasas son de uso frecuente, entre otras, mencionaremos las siguientes:

Donde:

TM :Tasa de mortalidad.D : Número de defunciones en un periodo y área dada.P : Población total en esa área a mitad del periodo.

Donde

TN :Tasa de natalidadN : Número de nacidos vivos ocurridos en un periodo y área dadaP : Población total del área a mitad del periodo.

Donde:

TC :Tasa de nupcialidad.M : Número de matrimonios efectuados en un periodo y área

dada.P : Total de la población a mitad del periodo.

Page 101: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

El siguiente cuadro muestra la evolución de la tasa de desempleo en Perú, resultados obtenidos de la encuesta nacional de hogares para los periodos comprendidos entre los años 1.990 –2.000

Tasas de Desempleo en Perú 1990-2000

9.2. ÍNDICE

Un número índice, como comúnmente se le llama, es un indicador de los cambios relativos de una o más variables a través del tiempo.

Entre las principales aplicaciones de los números índice, está la de establecer comparaciones entre los indicadores de las diferentes zonas geográficas, profesiones , grupos étnicos etc.

Para la construcción de un número índice, se procede ante todo, a fijar el periodo de referencia o "periodo base" de la serie temporal, teniendo presente que debe ser un periodo normal, esto es, que no se hayan presentado situaciones fortuitas (guerras, terremotos, incendios u otro tipo de imprevisto), que incidan en el valor de la variable para ese periodo. Además debe considerarse un periodo

Page 102: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

reciente que haga comparables los diferentes valores de las variables consideradas.

9.2.1. Índice Simple

Un número índice simple, es aquel que se calcula para una sola variable, dividiendo cada uno de los valores de la serie cronológica, por el valor correspondiente al "periodo base" previamente definido.

9.2.1.1 Índice de Base Fija

, si la variable se refiere a precios

, si la variable se refiere a cantidadesIp : Índice de preciosPn: Precio del artículo en el periodo nP0 : Precio del artículo en el periodo baseIq : Índice de cantidadesqn : Cantidad del articulo en el periodo nq0 : Cantidad del articulo en el periodo bas

Precio Promedio del Kilovatio/Hora 1995-2001 Pagado por la Fábrica Textil Manufacturas del Centro S.A.

Consumo Promedio de Energía en la Fábrica Textil Manufacturas del Centro S.A.”

Page 103: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

En la primera tabla hemos calculado los índices de precios simples, con base en 1995 y 1998 respectivamente, pero no se han tenido en cuenta las cantidades, mientras que en la segunda tabla se han calculado los índices de cantidades sin considerar los precios. Calculemos, ahora los índices del valor relativo, que considere tanto los precios como las cantidades:

Precio y Consumo Promedio de Energía en La Fábrica Textil Manufacturas del Centro S.A.”

9.2.1.2 Índice de Base Móvil

Solo hemos considerado, los índices simples de base fija, esto es, con un periodo base determinado. Es común que interese comparar un índice con el índice del periodo inmediatamente anterior, en consecuencia se debe fijar el periodo base en el periodo anterior al referenciado, y así sucesivamente hasta completar la serie, al cual se le nombra índice de base móvil.

Variaciones del Salario Promedio Diario en La Fábrica Textil

Page 104: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Manufacturas del Centro S.A.”

9.2.2. Índices Compuestos (Globales)

Un número índice compuesto, muestra los cambios de un conjunto de variables, auque sus unidades de medidas, cantidades y precios, en el tiempo, sean diferentes entre sí. Cuando hablamos por ejemplo de los índices indicadores del costo de la canasta familiar, se toman en cuenta muchos artículos cuyos consumos inciden en el costo de vida, con una ponderación o importancia diferente en cada caso. Colectivamente no es lo mismo un cambio en el precio de la carne, huevos o leche, que un cambio en el precio de los perfumes, joyas o cualquier otro artículo suntuoso.

9.2.2.1 Índice de Laspeyres

Este índice asume como ponderaciones, en el cálculo del índice global, las cantidades de los artículos en el periodo base.

Donde:

PL : Índice de precios global (Laspeyres).q0 :Cantidad del periodo base.p0 :Precio del artículo en el periodo basepn : Precio del artículo en el periodo n

Índice de Precios de Cuatro Artículos

Page 105: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

9.2.2.2 Índice de Paasche

El estadístico Paasche, sugiere que las ponderaciones sean las cantidades utilizadas en el periodo n. Se obtiene entonces el siguiente indicador:

Este índice, es poco utilizado debido al dinamismo de qn , necesitando nuevas ponderaciones cada vez que se cambia de periodo.

9.2.2.3 Índice ideal de Fisher

Se propone el promedio geométrico entre los dos índices anteriores:

Una de las principales aplicaciones de los índices de precios, es la de medir la deflación e inflación, que es la variación que existe en el poder adquisitivo del dinero. También podemos utilizar, los índices de precios al consumidor para determinar el salario real de un grupo de personas.

Salario Promedio Nominal y Real en la Fábrica Textil Manufacturas del Centro S.A.

Page 106: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Dado el deterioro del salario real en los dos últimos años debería

considerarse un generoso aumento.

PRACTIQUEMOS N° 9

1. ¿Qué es una tasa?.2. ¿Qué es un índice?.3. ¿Para qué se utilizan los números índices?.4. ¿Cómo se construye un número índice simple?.5. ¿Cómo se construye un número índice compuesto?.6. Los precios y las cantidades de un artículo X vienen dados en la siguiente tabla:

Tomando como año base 1995, calcular para los otros años:6.1. Los índices de precios.6.2. Los índices de cantidades.6.3. Los índices de valores.

7. A continuación se relacionan los precios y las cantidades del año base, de cuatro artículos diferentes:

Calcular el índice de Laspeyres

Page 107: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

8. Salario Mínimo Legal Diario en Bolivia e Índice de Precios al

Consumidor para el Año 2.000-2001

Calcular el salario real para cada uno de los meses.

Page 108: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 10Introducción a la Teoría de Probabilidades*************************************************

“Los planes corresponden al hombre,las probabilidades a Dios.”

Proverbio chino

Introducción.

Jacob Berooulli (1654 - 1705), Abraham de Moivre (1667 - 1754), el reverendo Thomas Bayes (1702 - 1761) y Joseph Lagrange (1736 - 1813) desarrollaron fórmulas y técnicas para el cálculo de la probabilidad. En el siglo XIX, Pierre Simon, marqués de Laplace (1749 - 1827), unificó todas estas primeras ideas y compiló la primera teoróa general de la probabilidad.

La teoría de la probabilidad fue aplicada con éxito en las mesas de juego y, lo que es más importante, en problemas sociales y económicos. La industria de seguros requería un conocimiento preciso acerca de los riesgos de pérdida. Muchos centros de aprendizaje estudiaron la probabilidad como una herramienta para el entendimiento de los fenómenos sociales.

Nuestra necesidad de tratar con total incertidumbre nos lleva a estudiar y utilizar la teoría de la probabilidad. Al organizar la información y considerarla de manera sistemática, seremos capaces de reconocer nuestras suposiciones, comunicar nuestro razonamiento a otras personas y tomar una decisión más sólida.

Conceptos básicos sobre probabilidad.

Page 109: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

La probabilidad es la posibilidad de que algo pase. Las probabilidades se expresan como fracciones o como decimales que están entre uno y cero. Tener una probabilidad de cero significa que algo nuca va a suceder; una probabilidad de uno indica que algo va a suceder siempre.

En la teoría de la probabilidad, un evento es uno o más de los posibles resultados de hacer algo.

La actividad que origine uno de dichos eventos se conoce como experimento aleatorio.

Al conjunto de todos los resultados posibles de un experimento se le llama espacio muestral del experimento.

Se dice que dos eventos son mutuamente excluyentes si uno y sólo uno de ellos puede tener lugar a un tiempo.

Cuando en una lista de los posibles eventos que pueden resultar de un experimento se incluyen todos los resultados posibles, se dice que la lista es colectivamente exhaustiva. En una lista colectivamente exhaustiva se presentan todos los resultados posibles.

Todo experimento debe ser susceptible de repeticiones conservando las mismas condiciones con las cuales se realizó su antecesor. Esto es, el investigador debe fijar esas condiciones, bajo las cuales se realizarán las sucesivas repeticiones del experimento y conservarlas en cada una de las réplicas, de tal manera que sus inferencias resulten lo más fiables posible. Sin embargo, aun así no siempre se obtienen los mismos resultados, pues a veces participan factores incontrolables que aparentemente no obedecen a ninguna causa natural, ni intervención humana intencionada y que denominamos Azar o casualidad.

Desde el punto de vista de la presencia o no de la contingencia en los resultados, si definimos experimentos determinísticos y experimentos aleatorios:

Experimento determinístico es aquel en el cual, bajo las mismas condiciones experimentales, las repeticiones del experimento absolutamente todas, siempre producen el mismo resultado.

El experimento Aleatorio, conservando las mismas condiciones experimentales, los resultados no se pueden predecir, con exactitud, para ninguna repetición.

Sí, por ejemplo lanzamos una moneda al aire para observar de cual lado cae, no podemos pronosticar con certeza, si se presenta sello o se presenta cara.

Page 110: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Tenemos entonces presente el componente del azar y por consiguiente un experimento aleatorio. No ocurriría igual si la moneda estuviese diseñada igual por ambos lados y por consiguiente sería un experimento determinístico:

Todos los posibles resultados de un experimento aleatorio, conforman el espacio muestral que representaremos por “S”, a cualquier subconjunto del espacio muestral se le denomina suceso o evento aleatorio y lo denotaremos con “E”. . Cada uno de los elementos del espacio muestral se denomina evento elemental “e”:

Definiciones sobre Sucesos:

• El evento ocurre cuando se verifica uno de los dos, o ambos sucesos. • El evento se presenta cuando ocurren los dos simultáneamente.

Evento o suceso elemental

Evento o suceso seguro Siempre se presenta en un experimento: S

Evento o suceso imposible nunca ocurre dentro un experimento: Ф

Eventos incompatibles Dos o más sucesos son incompatibles o excluyentes cuando la ocurrencia de uno impide la presencia de los otros. Si E1, E2 excluyentes entonces

Sucesos complementarios o contrarios Dos sucesos son complementarios cuando son mutuamente excluyentes y su unión conforma: el espacio muestral: son complementarios . . Si E es un evento seguro, entonces E=S

Page 111: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

En general, los sucesos o eventos, tienen las mismas propiedades de los conjuntos.

Propiedades de los eventos:

• El complemento de la unión de dos sucesos es la intersección de sus complementos:

Page 112: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

• El complemento de la intersección de dos sucesos es la unión de sus complementos:

Ejemplo:

Lanzamos una moneda para observar, si cae del lado de cara o del lado de sello:

• Espacio muestral • Eventos elementales ,

• Evento seguro • Evento imposible • E1 y E2 son eventos excluyentes.

Ejemplo:

Lanzar un par de dados, marcados c/u con los números 1,2,3,4,5 y 6.

Espacio muestral

E1: (suma igual a 2): suceso elemental

E2: (suma igual a 3):

E3: (suma igual a 4):

E4: (suma igual a 5):

E5: (suma igual a 6):

E6: (suma igual a 7):

E7: (suma igual a 8):

E8: (suma igual a 9):

Page 113: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

E9: (suma igual a 10):

E10: (suma igual a 11):

E11: (suma igual a 12): suceso elemental

Con la unión e intersección de dos o mas eventos, se generan nuevos sucesos.

Ejemplo:

En una mesa hay un juego (28 fichas) de dominó, se voltea una ficha para observar sus números:

Espacio muestral

E1: La diferencia absoluta entre sus componentes sea igual a 0

E2: La diferencia absoluta entre sus componentes sea igual a 1

E3: La diferencia absoluta entre sus componentes sea igual a 2

E4: La diferencia absoluta entre sus componentes sea igual a 3

E5: La diferencia absoluta entre sus componentes sea igual a 4

Page 114: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

E6: La diferencia absoluta entre sus componentes sea igual a 5

E7: La diferencia absoluta entre sus componentes sea igual a 6

10.1. NOCIONES DE CONTEO

10.1.1. Principio Fundamental 1

Si un suceso A puede ocurrir de n maneras y otro suceso B puede ocurrir m maneras, entonces el suceso A ó B (Sucede el evento A ó sucede el evento B) puede ocurrir de formas, siempre y cuando los eventos no puedan suceder simultáneamente.

Ejemplo:

En el lanzamiento de un dado, de cuantas maneras se puede obtener un número inferior a 2 o mayor que 4?.

A: (número inferior a 2) sucede solo de una manera.

B : (número superior a 4), sucede de dos maneras.

A ó B (número inferior a 2 o superior a 4).

sucede de 1+2=3 maneras.

10.1.2. Principio Fundamental 2

Si un seceso A puede suceder de n maneras y un suceso B de m formas, entonces el suceso A y B (sucede el evento A y sucede el Evento B) puede ocurrir de n(m) modos.

Page 115: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

nloe, nleo, nelo, neol, nole noel, lnoe, lneo, leno, leon, lone, loen, elon,

elno, enlo, enol, eoln, eonl, olne, olen, oeln, oenl, onle, onel.

10.1.4. Variaciones

A cada uno de los arreglos de r elementos obtenidos de un grupo de n elementos , cuya diferenciación mutua se deba a los elementos ó el orden de colocación,

se le denomina variación. El número total de variaciones se representa por:

Ejemplo:

Cuantos números de tres cifras se pueden construir con los dígitos 1,2,3,4,5,6,7,8,9,0 si ninguno se puede repetir

De cuantas maneras distintas pueden caer 2 dados, lanzados simultáneamente:

A: (dado 1) puede caer de 6 maneras.

B : (dado 2) puede caer de 6 maneras.

A y B (dado 1 y dado 2 ) sucede de 6(6) =36 maneras.

10.1.3. Permutaciones:

Se le llama permutación a cada uno de los arreglos de n elementos, cuya diferenciación mutua se debe al orden en que están colocados sus elementos. Al total de permutaciones obtenidas con n elementos se le representa por:

1

Ejemplo:

Cuantas palabras diferentes se pueden formar con las letras n, l, o, e; así no tengan sentido?.

Page 116: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

10.1.5. Combinaciones

A cada uno de los arreglos de r elementos obtenidos de un grupo de n elementos , cuya diferenciación mutua se deba a los elementos sin importar el orden de colocación de ellos, se le denomina combinación. El número total de combinaciones se representa por:

Ejemplo:

De cuantas maneras se puede escoger un comité de 4 hombres de un grupo de 8?.

10.1.6. Permutaciones con Repetición

En el caso de las permutaciones, si el elmento1 se repite r1 veces, el elemento 2 se repite r2 veces, etc. Y el elemento k se repite rk, se le llama permutaciones con repetición y se calcula con:

Ejemplo:

Cuantas palabras diferentes, aun sin significado, se pueden formar con las letras de la palabra amorosos?.

10.1.7. Variaciones con Repetición

En el caso de las variaciones si los elementos se pueden repetir hasta r veces se les denomina variaciones con repetición y se obtienen por:

Ejemplo:

Page 117: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

¿Cuántos números de cuatro cifras existen?

PRACTIQUEMOS N° 10

1. ¿De cuántas maneras se pueden colocar dos anillos diferentes en la misma mano, de modo que no estén en el mismo dedo?.

2. Al lanzar cinco dados de distintos colores ¿cuántos resultados podemos obtener?.

3. Con los números 1,2,3,4,5 y 6: 3.1 ¿Cuántos números distintos de siete cifras podríamos formar?.3.2 ¿Podremos numerar a los 3224564 habitantes de una ciudad con esos

números?.4. Se lanzan al aire uno tras otro cinco dados equilibrados de seis caras. ¿Cuál es

el número de casos posibles?.5. ¿Cuántos números de seis cifras existen que estén formados por cuatro

números dos y por dos números tres?.6. Lola tiene 25 bolitas (10 rojas, 8 azules y 7 blancas) para hacerse un collar.

Engarzando las 25 bolitas en un hilo, ¿cuántos collares distintos podrá realizar?.

7. ¿Cuántas palabras distintas, con o sin sentido, podremos formar con las letras de la palabra educación? ¿y con la palabra vacaciones?.

8. Un grupo de amigos formado por Raúl, Sonia, Ricardo y Carmen organizan una fiesta, acuerdan que dos de ellos se encargarán de comprar la comida y las bebidas ¿De cuántas formas posibles puede estar compuesta la pareja encargada de dicha misión?.

9. Una fábrica de helados dispone de cinco sabores distintos (vainilla, chocolate, nata, fresa y cola) y quiere hacer helados de dos sabores ¿Cuántos tipos de helado podrán fabricar?.

10. Un grupo de amigos y amigas se encuentran y se dan un beso para saludarse. Si se han dado en total 21 besos, ¿cuántas personas había?.

11. En una carrera de 500 metros participan doce corredores ¿De cuántas maneras pueden adjudicarse las medallas de oro, plata, bronce?.

12. ¿De cuántas formas pueden cubrirse los cargos de presidente, vicepresidente, secretario y tesorero de un club deportivo sabiendo que hay 14 candidatos?.

10.2. DEFINICIÓN DE PROBABILIDAD

Los eventos aleatorios no son predecibles con absoluta certeza, no obstante podemos medir el grado de confianza con que se hace un pronóstico, sobre la ocurrencia o no de un determinado suceso.

Page 118: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

10.2.1. Probabilidad Clásica o "a priori"

Si un evento puede ocurrir de n maneras, equiprobables y mutuamente excluyentes, de las cuales m maneras son favorables al suceso A; se define probabilidad del suceso A como:

Ejemplo:

En el lanzamiento de un dado de seis caras una vez, si

10.2.2. Probabilidad "a posteriori" o de Frecuencia Relativa

Si un experimento se repite n veces , de las cuales m veces se presenta el suceso A, entonces es de esperarse que:

La proporción de veces que se presenta el suceso A tiende a estabilizarse en un número entre 0 y 1 llamado probabilidad de A.

Si por ejemplo, lanzamos un dado cien veces y observamos la presencia del número “2” en 16 veces,

en tal caso

Page 119: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

10.2.3. Probabilidad Subjetiva

En la probabilidad subjetiva intervienen preferencias y emociones del analista que en general, son diferentes para cada caso. Por ejemplo, un apostador puede preferir el número “3” porque su horóscopo se lo recomienda.

10.3. AXIOMAS DE LA TEORÍA DE PROBABILIDADES

Para todo experimento, la probabilidad de ocurrencia de un evento A, p(A), es una función que cumple con los siguientes axiomas:

10.3.1.

10.3.2.

10.3.3. Si dos o más sucesos son incompatibles entre sí, entonces la probabilidad

de la unión de ellos, es igual a la suma de sus probabilidades respectivas

De estos tres axiomas podemos, fácilmente, deducir que:

10.3.3.1 La Probabilidad de un evento imposible es igual a cero.

10.3.3.2 La probabilidad de un evento es igual a la unidad menos la probabilidad de su complemento.

10.3.3.3 Toda probabilidad está definida entre la probabilidad del suceso imposible y la probabilidad del evento seguro.

10.3.3.4 .

10.3.3.5

Si dos eventos son compatibles, la probabilidad de su unión es igual a la suma de sus probabilidades menos la probabilidad de su intersección.

Page 120: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

En el ejemplo del lanzamiento de dos dados si:

A : (suma sea mayor que 5 pero menor que 10)

B : (la suma sea mayor que 8)

Page 121: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

10.4. PROBABILIDAD CONDICIONAL E INDEPENDENCIA ESTADÍSTICA

Si tenemos los sucesos A, B en un experimento aleatorio, con p(B)>0, se llama probabilidad condicional a: p(A/B) La probabilidad de ocurrencia del evento “A” dado que ya se ha presentado el suceso “B”.

Ejemplo:

a un grupo de personas se le pregunta sobre la intención de voto para las próximas elecciones.

p(vote dado que es masculino)=

p(vote dado que es femenino)=

Page 122: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Independencia Estadística

Por ejemplo la probabilidad de obtener un número impar en el segundo lanzamiento de un dado, no depende de si en el primer lanzamiento se obtuvo un número impar.

PRACTIQUEMOS N° 11

1. Defina: 1.1 Experimento aleatorio, y experimento determinístico.1.2 Evento elemental, suceso seguro, suceso imposible, eventos

excluyentes y eventos independientes. 2. Para cada uno de los eventos definidos en el lanzamiento de dos dados, calcular

su respectiva probabilidad de ocurrencia.3. En el experimento de seleccionar una ficha de dominó, determinar las

probabilidades para todos sus eventos elementales.4. Para el ejemplo de la intención de voto según el sexo, calcular la probabilidad de

no votante dado que es de sexo masculino.

10.5. VARIABLE ALEATORIA

En el cálculo de probabilidades, generalmente, es más sencillo identificar los eventos numéricamente, y no con la simple descripción del suceso que pueda ocurrir, es más, en muchas ocasiones no podemos registrar todos los sucesos inmersos en el espacio muestral del experimento. Debemos recurrir a cuantificar esos símbolos iniciales en números reales que se puedan operar matemáticamente.

Definición: Una variable aleatoria es una función definida sobre un espacio muestral a los números reales. Si ese espacio muestral especificado como dominio es numerable, decimos que la variable es de tipo discreto, en caso contrario diremos que es de tipo continuo.

En el experimento de lanzar una moneda, una vez, definimos la variable aleatoria X: el número de sellos obtenido.

Page 123: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

En la tirada de dos dados si X es la suma obtenida:

10.6. FUNCIÓN DE PROBABILIDAD

Las variables aleatorias, transforman eventos del espacio muestral en eventos numéricos, los cuales desde luego, tienen asociada una probabilidad de ocurrencia.

10.6.1. Función de Probabilidad f(x)=p(X=x) :

Es una función definida sobre una variable aleatoria a los reales en el intervalo que cumple con los axiomas de la teoría de la probabilidad.

X(c) = 0

X(s) = 1

Page 124: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

10.6.2. Función de Distribución F(x)=p(X=x)

Es la acumulada de una función de probabilidad.

-∞ : Límite inferior de la variable X

Ejemplo:

En el Lanzamiento de una Moneda, X: Número de Sellos

Ejemplo:

X es la Suma Obtenida en el Lanzamiento de dos Dados:

Page 125: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Ejemplo:

Si X: Diferencia en Valor Absoluto, Entre los dos Sectores de una Ficha de Dominó:

Hemos creado 3 ejemplos de funciones de probabilidad para variables aleatorias discretas con sus respectivas funciones de distribución, que nos permiten calcular las probabilidades para cualquier tipo de evento. Calculemos algunas para el lanzamiento del par de dados, donde X es la suma obtenida:

Consultando directamente en la función de distribución de esta variable discreta, F(x)=p(X≤x) tenemos:

Page 126: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Para el caso continuo, supongamos que un practicante de tiro al blanco siempre acierta indistintamente, en un círculo de 20 centímetros de radio.

La distancia que hay entre el punto “a=0” (centro) y cualquier punto de la circunferencia “b=20” es .

Page 127: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

¿Cuál es la probabilidad que un disparo impacte a menos de 15 cm del centro? ¿ a más de 9 centímetros? ¿Entre 7 y 14 centímetros?.

Para toda variable continua:

PRACTIQUEMOS N° 12

1. Defina: Variable aleatoria, variable aleatoria discreta, variable aleatoria continua, función de probabilidad y función de distribución.

2. En el ejercicio de la ficha de dominó, si X representa la diferencia absoluta entre los dos números, representar y calcular la probabilidad de ocurrencia de los siguientes eventos:

2.1 La diferencia sea menor o igual a 5.2.2 La diferencia sea mayor que 2.2.3 La diferencia sea mayor que 2 pero menor o igual 52.4 La diferencia sea mayor que 5 ó menor que 3

10.7. VALOR ESPERADO (ESPERANZA MATEMÁTICA)

10.7.1. Media Aritmética Poblacional

En el tratamiento de las medidas de tendencia central, resaltamos la importancia de la media aritmética de una variable, como parámetro representativo de una muestra.

En el análisis poblacional, la media aritmética o valor esperado de una variable aleatoria, se define como el promedio ponderado de los diferentes valores

Page 128: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

que puede asumir la variable X, usando como ponderaciones las probabilidades respectivas de ocurrencia.

si X es discreta ó

si X es continua

-∞ : límite inferior de la variable.

∞ : límite superior de la variable.

Ejemplo:

X es la Suma Obtenida en el Lanzamiento de Dos Dados

En promedio la suma obtenida en N tiradas es de “7”. Si pagaramos en pesos la suma obtenida en cada lanzamiento, deberíamos cobrar más de 7 pesos para obtener utilidad en el juego.

En la variable X, distancia del centro al punto de impacto del tirador, el valor esperado es:

10.7.2. Varianza Poblacional

Page 129: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Similarmente a la definición de la media aritmética poblacional, la varianza se define como:

ó

PRACTIQUEMOS N° 13

1. Calcular el valor esperado para la variable diferencia en el ejemplo del dominó.2. Si usted juega chance, calcule su valor real de acuerdo con los premios que

espera obtener y compárelo con lo que realmente paga.3. Tome un billete de lotería y calcule su precio equitativo.4. Un contrabandista se enfrenta al siguiente dilema: Introducir o no, mercancía

por valor de $ 5'000.000 obteniendo una utilidad de $ 1'000.000. El riesgo de ser detectado y castigado con el decomiso de la mercancía es del 17%. ¿Que le aconseja usted?.

Page 130: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 11Distribuciones Especiales

*****************************

En el capítulo anterior desarrollamos modelos probabilísticos a partir de abstracciones de los experimentos previamente descritos, a los cuales se les crea una función de probabilidad, que describa las posibilidades de esa realidad experimental.

Muchos de los acontecimientos cotidianos, pueden ser asimilados a funciones probabilísticas teóricas, que son de gran ayuda en la toma de decisiones bajo condiciones de incertidumbre. Eminentes estudiosos de la estadística han planteado modelos probabilísticos que han contribuido al desarrollo de la ciencia. Veamos algunos de ellos:

11.1. DISTRIBUCIÓN DE BERNOULLI

Se puede afirmar que el experimento de Bernoulli, describe el modelo aleatorio más sencillo, el cual tiene las siguientes características:

• En el experimento sólo se hace un ensayo.• En el experimento sólo se admiten dos resultados incompatibles, que

llamaremos éxito y fracaso.• La probabilidad de un éxito es p(E)=p.• La probabilidad de un fracaso es p(F)=1-p = q• X : es el número de éxitos x = 0,1.

Page 131: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Es el caso cuando se lanza una moneda una vez y se observa de cual lado cae o se analiza un artículo para ver si está defectuoso o no, se obtiene o no un trabajo etc.

11.2. DISTRIBUCIÓN BINOMIAL

La distribución binomial se obtiene haciendo n pruebas de Bernoulli independientes entre sí, en tal caso tiene las siguientes características:

• n : número de repeticiones independientes del experimento de Bernoulli. • Todas las pruebas deben tener una probabilidad constante de éxito “p” y una

probabilidad constante de fracaso “q”=1-p. • X : es el número de éxitos en las n pruebas, entonces; n-X : número de

fracasos.

Analicemos el experimento con tres repeticiones:

(1)

Page 132: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

(1) se puede expresar como:

(2) se puede expresar como:

(3) se puede expresar como:

(4) se puede expresar como:

entonces para n=3, tenemos que:

Page 133: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

En general la función de probabilidad binomial tiene la siguiente forma:

y la función de distribución:

La media aritmética de una variable aleatoria con distribución binomial es , y varianza . Con los parámetros n, y p se tipifica la

distribución binomial y la representamos como: .

La distribución binomial es simétrica cuando p=0.5, en caso contrario es asimétrica a la izquierda o a la derecha, según el valor de p sea inferior o superior a 0.5. Ver gráfico:

Page 134: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Tablas Binomiales

Page 135: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf
Page 136: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf
Page 137: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf
Page 138: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf
Page 139: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf
Page 140: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Ejemplo:

Page 141: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Se sabe que el 20% de la cartera de una empresa está vencida, se toma una

muestra al azar de 15 cuentas. ¿Cuál es la probabilidad de que:

1. Haya cuatro ó menos cuentas vencidas?.

2. Haya menos de cuatro cuentas vencidas?.

3. Haya más de dos cuentas vencidas.

4. Haya más de dos pero menos de cinco cuentas vencidas?.

5. Haya exactamente 3 cuentas vencidas?.

6. No haya cuentas vencidas?.

7. Cuál es valor esperado de cuentas vencidas?.

8. Cuál es la desviación estándar para el número de cuentas vencidas?.

Solución:

X: número de cuentas vencidas.

Éxito: Cuenta vencida.

Probabilidad de éxito : p=0.2

Número de pruebas n=15

1.En las tablas de distribuciones binomiales, , en la intersección

x=4 y p=0.2, consultamos .

2.

3.

Page 142: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

4.

5.

6.

7.

8.

11.3. DISTRIBUCIÓN DE POISSON

La distribución de Poisson es de gran utilidad cuando tenemos variables distribuidas a través del tiempo ó del espacio. Es el caso del número de llamadas que entran a una central telefónica en una unidad de tiempo, la cantidad de personas que atiende un cajero en una hora, los baches por kilómetro en una autopista, los artículos defectuosos que hay en un lote de producción; amén de su utilización como aproximación binomial cuando p es muy cercano a cero, o n superior a 30. (p<0.1 , n>30).

La función de probabilidad de Poisson es:

Donde:

: es decir, la media aritmética es igual a la varianza.

: (la base de los logaritmos naturales).X : número de éxitos en la unidad de tiempo o de espacio

considerado.

Ejemplo:

Page 143: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Un cajero de un banco atiende en promedio 7 personas por hora, cual es la probabilidad de que un una hora determinada:

1. Atienda menos de 5 personas.2. Atienda más de 8 personas.3. Atienda más de 5 pero menos de 8 personas.4. Atienda exactamente 7 personas.

Consultando la tabla para la distribución de Poisson:

1.

2.

3.

4.

Ejemplo:

En cierto núcleo poblacional, el 0.5% es portador del V.I.H. En una muestra de 80 personas, cual es la probabilidad:

1. De que haya alguna persona portadora.

2. No haya personas portadoras.

Solución:

1.

2.

Probabilidades de Poisson Acumuladas

Page 144: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

11.4. DISTRIBUCIÓN NORMAL

Dada la caracterización propia de este modelo continuo, donde coinciden las medidas de tendencia central, media, moda y mediana; la simetría respecto a estos parámetros y la facilidad de su aplicación hacen de la distribución normal, una herramienta de uso común, máxime que la mayoría de las variables económicas y sociales se ajustan a una función normal.

La distribución normal, también es útil como aproximación de los modelos Binomial y Poisson expuestos anteriormente, y yendo un poco más adelante, sustentados en el teorema del “límite central” podemos afirmar que, cuando el tamaño de la muestra es lo suficientemente grande, podemos asumir el supuesto de normalidad para una suma de variables.

La forma acampanada de la variable normal, resalta la perfección de esta curva definida por los parámetros

Page 145: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

se representa como:

La aparente complejidad de la distribución normal no debe preocupar al lector, donde:

X :Variable aleatoria distribuida normalmenteMedia aritmética de la variableVarianza de la variable

e 2.71828 constante (base de los logaritmos naturales)3.1416 constante

Sin embargo, existen infinitas distribuciones normales, ya que por cada media aritmética ó varianza diferente se describe una función también diferente:

Normal Diferente Media Igual Varianza

Normal Diferente Varianza Igual Media

Page 146: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

11.5. DISTRIBUCIÓN NORMAL ESTANDAR

Con el sinnúmero de diferentes distribuciones normales que se generarían con cada media o varianza diferente, se hace necesario efectuar un cambio de origen y de escala en la variable original, para estandarizarla y obtener una nueva variable cuya manipulación es más fácil:

con , la nueva variable Z se distribuye normalmente con media aritmética y varianza

Dado que la distribución normal es una variable continua

Ejemplo:

Si asumimos que la resistencia de las baldosas se distribuye normalmente con y

Resistencia de 100 Baldosas

Page 147: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Si extraemos una baldosa al azar : Cual es la probabilidad de que:

1. Resista menos de 448 Kg/cm2? 2. Resista más de 588 Kg/cm2 ? 3. Resista entre 308 y 588 Kg/cm2 ? 4. Resista entre 168 y 728 Kg/cm2 ? 5. Resista más de 600 Kg/cm2 ? 6. Resista menos de 200 ó más de 700 Kg/cm2 ?

Con la ayuda de los valores tabulados:

Page 148: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf
Page 149: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf
Page 150: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

11.6. DISTRIBUCIÓN EXPONENCIAL.

Procesos donde se estudian fenómenos como tiempo entre o distancia entre dos eventos cualquiera, se pueden modelas mediante la distribución exponencial, que tiene la siguiente función de densidad:

donde es el parámetro del modelo. Sus principales propiedades son:

• E (X) =

• Var (X) = 2

El parámetro representa el valor esperado de la variable.

La función de distribución es la siguiente:

F(X) = 1 - e-x/

PRACTIQUEMOS N° 14

1. La probabilidad de que un visitante efectúe una compra en un almacén, durante

un día dado es 0.8. Si al negocio entran 20 clientes, ¿cuál es la probabilidad de que

el almacén realice:

1.1 Exactamente 16 ventas?.

1.2 Menos de 17 ventas?.

Page 151: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

1.3 Más de 14 ventas?.

1.4 Exactamente 5 ventas?.

1.5 ¿Cuál es el número esperado de ventas?.

2. Si un almacén tiene en promedio 5 ventas por hora. ¿Cual es la probabilidad de

que en una hora determinada:

2.1 Haya exactamente 4 ventas?.

2.2 Haya más de 3 ventas?.

2.3 No se efectúen ventas?.

3. Una de cada 10 personas mayores de 40 años de una comunidad, sufren de

hipertensión. Se toma una muestra de 50 personas mayores de 40 años. Utilizando

primero la distribución binomial y luego la aproximación a la distribución de

Poisson, responder y comparar los resultados:

3.1 ¿Cuál es la probabilidad que haya más de 4 hipertensos?.

3.2 ¿Cuál es la probabilidad que haya exactamente 5 hipertensos?.

4. Un lote de arandelas tiene un diámetro normal con media 10 milímetros y

desviación típica 0.5 milímetros. Se toma una arandela al azar. ¿Cuál es la

probabilidad de que tenga un diámetro:

4.1 Superior a 10.5 milímetros?.

4.2 Entre 9 y 11 milímetros?.

4.3 Menos de 9 milímetros?.

Page 152: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 12Teoría de Muestras***********************

Como ya hemos dicho, nuestro objetivo va a ser a partir de ahora, el tratamiento estadístico de muestras.

¿Pero bajo que condiciones, resulta apropiada una muestra?. Existen una serie de factores que inciden en la respuesta de esta pregunta, y que resultan fundamentales en Estadística Inferencial.

Una primera cuestión, es el tamaño que ha de tener. Parece evidente, que a mayor tamaño, más se acercaran los parámetros que calculemos, a los de la población ( y es cierto siempre que se tenga en cuenta la representatividad de la muestra, que es un aspecto que desarrollaremos ahora). En la práctica real, el número de elementos de una muestra está determinado por una serie de factores: grado de fiabilidad deseado, dificultad en la elección de los elementos que la compongan, tiempo necesario para la elección, gastos originados,...

La segunda y más importante cuestión es ¿cómo deben ser elegidos los elementos que la compongan?. Para ser válidas, las muestras han de ser representativas, esto es, si queremos inferir de los resultados de una muestra, en ella se ha de reproducir en igual porcentaje el carácter estudiado, que en la población total. Por tanto, será necesario, que en el momento de la elección de los elementos de la muestra, verifiquemos que todos los elementos de la población tiene igual probabilidad de ser elegidos para la muestra.

Page 153: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Cuando no se tienen en cuenta estos dos principios básicos, las inferencias realizadas son deficientes. Existe una variedad de "mentiras estadísticas", procedentes de afirmaciones basadas en pequeñas muestras , o en muestras no representativas. Así por ejemplo, si se dice "7 de cada 10 dentistas consultados recomiendan el dentífrico X", no debemos inferir que el 70% de los dentistas los recomiendan, hasta saber de que forma fueron elegidos los dentistas consultados, y cuántos fueron en total.

Las consideraciones referentes al tamaño de la muestra, se estudiarán más adelante. Las referentes a la forma de elegir la muestra, serán estudiadas ahora.

12.1. TIPOS DE MUESTREOS

Existen básicamente dos tipos de muestreo, los aleatorios y los no aleatorios.

En los primeros, el aspecto principal, es que todos los miembros de la muestra han sido elegidos al azar, de forma que cada miembro de la población tuvo igual oportunidad de salir en la muestra. Este tipo de muestreo, que es el más consistente, es al mismo tiempo el que resulta más costoso, y el que utilizaremos siempre en el desarrollo de los próximos epígrafes. Los centros oficiales como el INE, utilizan siempre muestreos aleatorios.

Los segundos, carecen del grado de representatividad de los primeros, pero permiten un gran ahorro en los costes. Se eligen los elementos, en función de que sean representativos, según la opinión del investigador. Es el método que utilizan generalmente las empresas privadas, y presenta el inconveniente de que la precisión de los resultados no es muy grandes, y es difícil medir el error de muestreo.

12.2. MUESTREOS ALEATORIOS

12.2.1. SIMPLE

Su utilización es muy sencilla, una vez que todos los elementos de la población han sido identificados y numerados ( y éste es probablemente su mayor inconveniente ). A partir de aquí, decidido el tamaño n de la muestra, los elementos que la compongan se han de elegir aleatoriamente entre los N de la población.

El método más adecuado para la elección en nuestro caso, es la utilización de tablas de números aleatorios.

Page 154: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Si queremos elegir una muestra formada por 40 elementos de una población de 600, iremos tomando cifras aleatorias de tres en tres. Si la cifra considerada es menor de 600, ya tendremos elegido un elemento de la muestra. Siguiendo este proceso, y saltándonos las cifras superiores a 600, podremos elegir todos los elementos que compondrán la muestra.

12.2.2. SISTEMÁTICO

Es análogo al anterior, aunque resulta más cómoda la elección de los elementos. Si hemos de elegir 40 elementos de un grupo de 600, se comienza por calcular el cociente 600/40 que nos dice que existen 40 grupos de 15 elementos entre los 600. Se elige un elemento de salida entre los 15 primeros, y suponiendo que sea el k-simo, el resto de los elementos serán los k-simos de cada grupo. En concreto, si el elemento de partida es el número 6, los restantes serán los que tengan los números: 15+6 ,2x15+6,......,39x15+6

Este procedimiento simplifica enormemente la elección de elementos, pero puede dar al traste con la representatividad de la muestra, cuando los elementos se hayan numerados por algún criterio concreto, y los k-simos tienen todos una determinada característica, que haga conformarse una muestra no representativa.

12.2.3. ESTRATIFICADO

A veces nos interesa, cuando las poblaciones son muy grandes, dividir éstas en subpoblaciones o estratos, sin elementos comunes, y que cubran toda la población.

Una vez hecho esto podemos elegir, por muestreo aleatorio simple, de cada estrato, un número de elementos igual o proporcional al tamaño del estrato.

Este procedimiento tiene la gran ventaja de que se puede obtener una mayor precisión en poblaciones no homogéneas (aunque en este curso no estudiaremos los métodos necesarios)

Si decidiéramos hacer una encuesta sobre la incidencia del tabaco en nuestro centro, podríamos razonar de la siguiente forma:

El Colegio Estatal “Mariscal Castilla” de El Tambo, tiene 3504 alumnos, 720 en 1º, 714 en 2°, 708 en 3º, 694 en 4º, y 668 en 5º.

Page 155: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Si deseamos tomar una muestra de 100 alumnos, para analizar la incidencia del tabaco en la adolescencia, bastaría tomar un número igual de alumnos de cada estrato, es decir 20.

Si embargo, si lo que se quiere es hacer una encuesta para conocer la opinión que tiene el alumnado sobre una medida que ha tomado el Consejo Escolar, es más representativo elegir de cada estrato, y en número proporcional a su tamaño, los elementos que compondrán la muestra. Si el 1º representa al 22.6% del alumnado, el 22.6% de la muestra (es decir 23 alumnos) se elegirán de este estrato por muestreo aleatorio simple, 22 para 2º, y así hasta completar los 100 elementos de la muestra.

12.2.4. POR CONGLOMERADOS

A veces, para simplificar los procesos de toma de datos, se empieza por elegir ciertos conglomerados (que pueden ser bloques de viviendas, municipios, urnas electorales,...) y dentro de ellos se realiza el muestreo aleatorio.

12.3. TOMA DE DATOS: LA ENCUESTA

Una vez decidido el tamaño y la forma de elegir la muestra, aparece el problema de cómo realizar la toma de datos. La encuesta es el instrumento idóneo para este fín.

Se debe establecer en primer lugar el objetivo de la encuesta, desmenuzando el problema a investigar, eliminando lo que resulte superfluo, y centrándonos en los aspectos más relevantes.

A partir de aquí, se elabora un cuestionario, formado por un conjunto de preguntas que han de ser respondidas por los encuestados.

De la calidad de éste último depende en gran parte el resultado del trabajo. Existen una serie de factores que se han de tener en cuenta a la hora de redactar el cuestionario, entre los que destacan los siguientes:

• Las preguntas han de ser pocas (no más de 30) y cortas.

• Cerradas ( es decir que aparezcan todas las posibles repuestas ). Si preguntamos a un encuestado si le gustan las matemáticas, no podemos dejar que aparezcan respuestas de todo índole, sino que responda de acuerdo a una escala numérica o de valor. Por ejemplo podemos valorar su gusto de 1 a 5, o bien : Nada, Poco, Normal, Mucho, Muchísimo.

Page 156: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

• Numéricas o al menos codificables ( es decir que podamos traducir las respuestas a números, por ejemplo asignando números del 1 al 5 a las respuestas del apartado anterior).

• Deben ser redactadas de forma concreta y precisa (sin palabras abstractas o ambiguas), de manera que las repuestas puedan ser inequívocas.

A partir de aquí, debe ser realizado el "trabajo de campo", es decir las entrevistas previstas, por medio de los encuestadores. Este trabajo también ha de hacerse bajo unas ciertas condiciones, que garanticen que las respuestas sean sinceras.

Una vez recopilados todos los datos, se procede a tabularlos, y describirlos, utilizando las técnicas que ya conoces de cursos anteriores.

12.4. TEOREMA CENTRAL DEL LÍMITE

12.4.1. DISTRIBUCIONES MUESTRALES DE MEDIAS

Hemos dicho ya, que el objetivo de nuestro estudio es poder extender a la población lo que obtengamos de una muestra.

Imagina que de la población formada por todos los alumnos del instituto, extraes aleatoriamente una muestra de 40 alumnos, y les preguntas por su edad, encontrando que la edad media obtenida es de 15,8 años .

Pero, ¿qué ocurriría, si extrajéramos otra muestra?. ¿Coincidirían las medias ?.¿Y coincidirían con la media de la población?. Lo cierto es que parece lógico pensar que aunque no tengan porqué coincidir, si deberían estar bastante próximas. Pero, ¿cuánto de próximas?, ¿dependería esta proximidad del tamaño de las muestras que elegimos?.

Parece necesario, que estudiemos la variabilidad de las medias obtenidas de las muestras que repetidamente se extraigan. El siguiente resultado, responde claramente a las preguntas planteadas.

12.4.2. EL TEOREMA CENTRAL DEL LÍMITE (TCL)

Imagina que tienes una población con media y desviación típica . y que extraes aleatoriamente todas las posibles muestras, todas ellas de tamaño n. Si obtuvieras las medias de todas estas muestras, y las consideras una distribución de datos (la distribución muestral de medias), comprobarías que:

a) La media de los datos, es la media de la población , es decir la media de las medias de las muestras, es igual que la media de la población.

Page 157: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

b) Estas medias se distribuyen alrededor de la media de la población, con una desviación típica (llamada desviación típica de la media, ) igual a la de la población dividida por la raíz de n, es decir, la d.t. de la media es

c) La distribución de las medias muestrales, es una distribución de tipo "normal", siempre que la población de procedencia lo sea, o incluso si no lo es, siempre que el tamaño de las muestras sea 30 o mayor.

En consecuencia, "si una población tiene media y d.t. , y tomamos muestras de tamaño n ( de tamaño al menos 30, o cualquier tamaño, si la población es "normal"), las medias de estas muestras siguen aproximadamente la distribución

(1)

Además, cuanto mayor es el valor de n, mejor es la aproximación "normal".

Hemos nombrado un concepto importante: la d.t. de la media , que es el grado de variabilidad de las medias muestrales. Cuanto menor sea, más ajustadas a la media de la población serán las medias que obtengamos de una muestra. De su propia definición, es fácil darse cuenta de que cuanto mayor es el tamaño de la muestra, menor es este grado de variabilidad, y por tanto más similar a la media de la población será la media obtenida de la muestra.

NOTAS IMPORTANTES

Nuestra afirmación de que la desviación típica de la media es , se hace asumiendo que la población es infinita ( o el muestreo se realiza con reemplazamiento ). En caso contrario, se debe utilizar el "factor de corrección para poblaciones finitas", de forma que la d.t. de la media quedaría:

donde N es el tamaño de la población y n el de la muestra.

En la práctica y como regla general, se usa el coeficiente anterior tan sólo cuando el tamaño de una muestra es superior al 5% de la población. Nosotros no tendremos en cuenta este factor, pues no se resta profundidad a los conceptos estudiados al tiempo que se simplifica su estudio.

Page 158: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Además estudiaremos tan sólo el caso correspondiente a muestras de más de 30 elementos. llamadas "muestras grandes". Para muestras de menor tamaño, se han de utilizar distribuciones distintas de la Normal, y está fuera del alcance de este curso.

Habremos de suponer que conocemos la desviación típica de la población ( <>), (aunque resulta improbable conocerla y desconocer la media), o bien al menos la desviación típica muestral (s) (también llamada cuasivarianza, que resulta ser una buena aproximación de la desviación típica de la población para muestras grandes).

Este último parámetro se define como

donde es la media de la muestra. Es decir es la desviación típica de la muestra corregida dividiendo por n-1 en lugar de por n . Al hacer esto, el valor de s aumentará. Se trata pues de hacer una sobreestimación de la desviación típica, para compensar el error cometido al tomar una muestra. En las calculadoras que utilizamos se obtiene pulsando .

En términos mas coloquiales, lo que en definitiva establece el TCL, es que la distribución de la media, o de las sumas , de diferentes valores da como resultado una distribución normal. De ahí la omnipresente aparición de distribuciones normales. Piensa en los factores biológicos y antropométricos. Por ser el resultado de diferentes combinaciones genéticas y suma de muchos diferentes factores, dan como resultados distribuciones normales. También por análogas razones muchísimos parámetros sociológicos, económicos, físicos,.. siguen distribuciones de este tipo.

EJEMPLO:

Una compañía aérea sabe que el equipaje de sus pasajeros tiene como media 25 kg. con una d.t. de 6 kg. Si uno de sus aviones transporta a 50 pasajeros, el peso medio de los equipajes de dicho grupo estará en la distribución muestral de medias

. La probabilidad de que el peso medio para estos pasajeros sea superior a 26 kg sería:

Si el avión no debe cargar más de 1300 kg en sus bodegas, la media del conjunto de los 50 pasajeros no debe superar los

Page 159: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

En consecuencia en un 11,9% de los casos los aviones de esta compañía superan el margen de seguridad.

Hemos estudiado ya el T.C.L., que nos permite conocer de que forman se distribuyen las medias de las muestras de una población.

Ahora invertiremos el caso: se selecciona una muestra de una población de la que se desconoce la media, y se calcula la media muestral. A partir de aquí haremos una inferencia sobre la media poblacional, con base en la media muestral.

Imaginemos que preguntamos a una muestra de 40 alumnos, por el recorrido en km. que tienen que hacer todos los días para llegar al instituto, y que la media de tal muestra es de 3 km. Las dos preguntas siguientes responden a las dos formas de inferencia que estamos estudiando:

1º.- Si nos habían dicho que la media de distancia de todo el instituto era el año pasado de 3,8 km, ¿es significativamente diferente esta media?, o lo que es lo mismo, ¿podemos decir que la media del instituto ha cambiado este año, o por el contrario la diferencia de medias es normal y se debe al azar al elegir los elementos de la muestra?.

Esta pregunta implica una decisión, que podremos tomar a través de los denominados test de contraste de hipótesis.

2º.- Tomando como base la muestra (es decir si suponemos que desconocemos la distancia media), ¿qué estimación puede hacerse sobre la media poblacional (es decir la de todo el Colegio)?.

Esta pregunta implica una estimación, que aprenderemos a hacer ahora.

PRACTIQUEMOS N° 15

1.-Encuentra en un periódico o revista, un artículo o información en la que a tu juicio se esté haciendo uso de una muestra.

2.-Utilizando una tabla de números aleatorios, elige 15 elementos de una población numerada del 1 al 89.

3.- Dí de que forma elegirías una muestra de 50 alumnos de tu instituto, por muestreo aleatorio simple, sistemático y estratificado (cada estrato una clase, o un nivel).

Page 160: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

4.- Establece un método para elegir una muestra de vecinos de una calle.

5.- De los 500 directores de complejos turísticos de las costas peruanas, 300 corresponden a complejos de 20 o menos habitaciones, 150 a complejos de entre 20 y 50 habitaciones y por último 50 corresponden a complejos de más de 50 habitaciones.

6. Si pretendieras hacer una encuesta a una muestra de tamaño 50, ¿cómo la tomarías?, ¿sería indiferente el aspecto estadístico que tuvieras que estudiar?.

7.- Un hospital dispone de un listado de los pacientes, organizados por áreas de atención (neurología, traumatología,....). Dí que tipos de muestreo podrían realizarse, y como los harías.

8.- Para realizar una encuesta sobre el consumo de un producto en una ciudad, se tomó una muestra de forma que de cada barrio se consultaba a un número de personas proporcional a la superficie ocupada por el barrio. ¿Te parece un método fiable?. Escribe un comentario.

9.- Un mayorista de alimentos, quiere enviar muestras de sus productos, a una muestra de supermercados. Elige de las 5 grandes cadenas de supermercados , una muestra de cada, y manda sus productos para ponerlos a prueba. ¿Qué tipo de muestreo está utilizando?

10.-Sabemos que el tiempo medio de espera en las colas del Banco "El interés interesado" es de 15 min. con una desviación típica de 5 minutos. Si tomásemos al azar a un grupo de 35 clientes:

a) ¿Cuál es la probabilidad de que el tiempo medio de espera del grupo fuera menor de 17 minutos?.

b) ¿Cuál es la probabilidad de que estuviera entre 12 y 16 minutos?.

c) ¿Entre qué valores se encontraría el tiempo medio con una seguridad del 95%?. ¿Y del 99%?.

11.-En un almacén se trabaja con bultos de igual volúmen, cuyo peso se distribuye según N(250,45) expresados en kg. Los elevadores encargados de su transporte dentro del almacén, pueden aguantar hasta un peso máximo total de 2000 kg. Si la empresa decide que las carretillas se carguen con 7 bultos cada vez:

a) ¿Cuál es la probabilidad de que se supere el peso máximo de seguridad?.

Page 161: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

b) ¿Cuántos bultos de cada vez harían falta para que dicha probabilidad fuera menor del 0,1%?.

12.-En unos grandes almacenes, la media de los salarios es de 105.000 pts, con una d.t. de 25.000 pts. Si preguntaramos a 35 empleados elegidos aleatoriamente, por su sueldo, ¿Cuál es la probabilidad de que la media correspondiente a los 35 fuera inferior a 100.000 pts?.

13.- En unas negociaciones sindicales correpondientes al sector turístico, la patronal alega que en un establecimiento tipo de 40 empleados, en el 90% de los casos la suma de los sueldos mensuales pagados superan los 5.000.000 de pts. Los sindicatos disponen de cifras oficiales según las cuales, en el sector la media de sueldos es de 120.000 pts con una d.t. de 10.000 pts. ¿Pueden rebatir "estadísticamente" lo alegado por la patronal? Los sindicatos te piden redactar un informe ilustrado con cifras que les permita contestar a la patronal.

Page 162: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 13Las Técnicas de Estimación

********************************

13.1. ESTIMACIÓN

Llamaremos así al procedimiento utilizado cuando se quiere conocer las características de un parámetro poblacional, a partir del conocimiento de la muestra.

Imaginemos que hemos hecho la encuesta a la que se aludía en el apartado anterior, y queremos saber cual es la verdadera media del instituto. Podemos hacer una primera aproximación, utilizando la media muestral km. Sin embargo , este valor está sesgado debido a que solo representa a una muestra.

Podríamos decir que la media buscada es próxima a 3, pero ¿cuánto de próxima?. ¿Digamos que 200 metros más o menos?. Esto significaría que la media estaría entre 2,8 y 3,2. Esto último se denomina estimar por intervalo, y es el método que ahora vamos a ver.

INTERVALO DE CONFIANZA

Se llama así a un intervalo en el que sabemos que está un parámetro, con un nivel de confianza específico

Si dijéramos que la media se encuentra en el intervalo (2,8 , 3,2) con un nivel de confianza del 95%, lo que decimos es que si hiciéramos muestras de tamaño 40,

Page 163: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

y fuéramos contabilizando sus medias, a la larga, en el 95% de los casos, la media calculada estaría en dicho intervalo.

Además, al valor 0,2 (200 metros), que mide la mitad de la anchura del intervalo, se le denomina error máximo de la estimación. Lo anteriormente argumentado se expresa en términos estadísticos como:

"A un nivel de confianza del 95%, la media poblacional es 3 km, con un error máximo de estimación de km."

Por tanto:

NIVEL DE CONFIANZA

Probabilidad de que el parámetro a estimar se encuentre en el intervalo de confianza.

Los valores que se suelen utilizar para el nivel de confianza son el 95%, 99% y 99,9%

ERROR DE ESTIMACIÓN MÁXIMO

Es el radio de anchura del intervalo de confianza.

Este valor nos dice en qué margen de la media muestral se encuentra la media poblacional al nivel de confianza asignado.

Durante este curso aprenderemos a realizar estimaciones sobre la media y la proporción de una característica en una población. La estimación de otros parámetros poblacionales, tales como la desviación típica, quedará fuera de nuestro estudio.

13.2. ESTIMACIÓN DE LA MEDIA DE UNA POBLACIÓN

Para estimar la media poblacional por medio de intervalos de confianza, será necesario recordar que el Teorema Central del Límite nos daba información de como se hallaban distribuidas las medias muestrales: "normalmente" con una media igual a la de la población original (que es la que ahora tratamos de conocer) y desviación típica:

Supongamos que hemos analizado la muestra ya nombrada de media Km., y que sabemos que la desv. típica de la población es de =0,4 km., y que nos

Page 164: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

planteamos estimar la media de todo el instituto, con un nivel de confianza del 95% .El proceso para realizar la estimación es el siguiente:

Sabemos por el T.C.L. que las medias muestrales se distribuyen según

La siguiente figura nos ilustrará:

Hallamos el valor k de forma que p(-k<Z<k)=0,95 , o lo que es lo mismo p(Z<k)=0,975. Consultando nuestra tabla de la distribución normal, encontraremos que k=1.96 .

Este valor nos dice que la medias muestrales se encuentran en un 95% de los casos como máximo a 1.96 desviaciones típicas de la media buscada, es decir, nuestra media , en un 95% de los casos, dista de la media poblacional menos de 1,96.0,063=0,124 km.

Si tomamos un intervalo con centro en dicha media muestral , y radio 0,124, en un 95% de los casos la media buscada estará dentro del intervalo.

Encontramos por tanto que a un nivel de confianza del 95%, la media

poblacional es de 3 km. con un error máximo de , o lo que es lo mismo, existe una probabilidad del 95%, de que la media buscada se encuentre en el intervalo de confianza (3-0,124 , 3+0,124) = (2,976 , 3,124 ).

Así pues en general para un proceso de estimación de la media, el intervalo de confianza será:

( - E , + E)

Page 165: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

siendo la media de la muestra, y el error de estimación.

13.3. TAMAÑO DE LA MUESTRA

Pero imaginemos ahora, que nos disponemos a elegir una muestra para poder determinar con un 95% de confianza la media, con un margen de error de 50 metros. Desde luego hará falta una muestra mayor para tener tan poco margen de error ¿Cuál deberá ser el tamaño de la muestra para conseguirlo? .

Despejando en

obtenemos que

Como k=1,96 , E=0,05 y =0,4 calculando obtendremos que n=245,8 es decir, redondeando, hará falta una muestra correspondiente a 246 estudiantes para que el margen de error sea de tan sólo 50 metros.

De la expresión del tamaño de la muestra, se deduce muy fácilmente, que deberá ser mayor cuanto mayor sea:

a) El nivel de confianza asignado

b) El grado de variabilidad de los datos originales

Por el contrario, cuanto mayor sea el tamaño de la muestra, menor será el error de la estimación.

13.4. ESTIMACIÓN DE UNA PROPORCIÓN

Como recordarás, la distribución binomial B(n,p), nos permite conocer como se distribuye el número de éxitos, correspondiente a un experimento realizado n veces, y en el que la probabilidad de éxito en cada experimento es p. Dicha distribución tiene media y desviación típica:

Page 166: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Supongamos que sea X la variable que mide el número de éxitos. Ya sabes

que los posibles valores de X son 0,1,2,...,n. Si utilizaramos la nueva variable, , ésta tomaría los valores correspondientes a las proporciones (en tanto por uno) de éxito.

Si por ejemplo n=200, se tendría:

X=0 , (0 éxitos ) equivale a Y=0 ( es decir un 0% de éxitos)

X=1 , (1 éxito ) equivale a Y=0,005 ( es decir 0,5% de éxitos)

X=2 , Y=0,01 ( es decir 2 éxitos equivalen a un 1% de éxitos)

....

X=n , Y=1 ( n éxitos = 100% de éxitos)

Dividiendo por n, obtendremos la media y desviación típica de la variable Y que representa la proporción de éxitos:

Si ademásnp>5, nq>5, utilizando la aproximación normal a la binomial,podremos afirmar que las proporciones de éxito para un experimento binomial de n pruebas con probabilidad de éxito p en cada prueba, se distribuyen según:

13.5. DISTRIBUCIÓN MUESTRAL DE PROPORCIONES

Imaginemos que sabemos que la proporción del alumnado de nuestro centro que es favorable a realizar una huelga es del 60%. Cuando elegimos a un alumno, y nos preguntamos si es favorable a la huelga, es como si realizaramos una prueba binomial con probabilidad de éxito p=0,6.

Cuando elijamos muestras aleatorias de digamos 70 alumnos, el número de ellos favorable a la huelga, deberá seguir una distribución B(70, 0´6), o bien, la proporción de ellos que es favorablese debe distribuir según

Page 167: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

(Debe notarse que en este caso, n=70, p=0,6, q=0,4 y por tanto np>5, nq>5), o lo que es lo mismo, las proporciones que vayamos encontrando para muestras de tamaño 70, se iran distribuyendo de forma "normal" alrededor del 60%, con una desviaición típica del 5,8%.

Por tanto, si en una población, una determinada característica de tipo binomial (es decir la población se divide entre los que la tienen y los que no), se presenta en una proporción p, al tomar muestras de tamaño n, las proporciones p' obtenidas, se distribuirán según

(a partir de este momento supondremos siempre que np>5,nq>5). A esta distribución se la denomina distribución muestral de proporciones.

EJEMPLO:

En una empresa está establecido que si una máquina opera correctamente, como máximo un 5% de su producción es defectuosa. Si se elige aleatoriamente una muestra de 40 artículos producidos por una máquina y 15 de ellos son defectuosos, ¿existe razón para pensar que la máquina está averiada?.

Las proporciones muestrales para muestras de tamaño 40 en una máquina normal se distribuyen según

, es decir se distribuyen de forma "normal" alrededor del 5% con una d.t. del 3'4%.

En consecuencia, la probabilidad de valores como el registrado

resulta ser:

y podemos asegurar "estadísticamente" que la máquina está averiada.

Page 168: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Ahora que sabemos como se distribuyen las proporciones muestrales, por un proceso similar al utilizado para estimar la media poblacional, podremos realizar estimaciones sobre la proporción poblacional de un carácter, conociendo la proporción en una muestra.

13.6. ESTIMACIÓN DE UNA PROPORCIÓN

Imaginemos que hemos tomado una muestra aleatoria de 500 personas, y que les preguntamos si creen que el Presidente del Gobierno debe dimitir, obteniendo el SÍ un 70%. Supongamos que nos planteamos un intervalo de confianza del 90% para poder estimar el porcentaje p de toda la población que diría SÍ.

Según todo lo dicho, las proporciones del SÍ en las muestras, se distribuirán según:

Como quiera que no conocemos la verdadera proporción p, no podemos

conocer la desviación típica de la distribución muestral , por lo que utilizaremos como sustituto para p, la proporción muestral p'=0,7, que causará poco cambio en los resultados finales.

En consecuencia, las proporciones muestrales, siguen la distribución N(p,0,02) (Nota: puesto que utilizamos tantos por uno, deberemos utilizar en los cálculos una precisión de al menos centésimas, mejorando el resultado si precisamos más)

Llevando a cabo los mismos pasos que en el caso de la estimación de medias, vemos que un 90% de las proporciones muestrales que se obtengan estarán a como

máximo 1,65 desviaciones típicas de p (es decir a ) , y en

Page 169: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

consecuencia, si suponemos que p' es una de tales proporciones ( y será acertado suponerlo en un 90% de los casos ), la verdadera proporción quedará siempre en el intervalo (p'-0'033 , p'+0'033)=(0'667,0'733).

Esto lo podemos expresar como: "Con un nivel de confianza del 90%, la proporción de españoles que creen que el Presidente del Gobierno debe dimitir es de un 70%, con un error máximo de 3,3 % "

13.7. TAMAÑO DE LA MUESTRA

Como ya sabemos, el error máximo depende del tamaño de la muestra: a muestras mayores corresponden errores menores.

Normalmente, cuando queremos hacer una estimación, con un determinado margen de confianza, nos plantearemos que el error máximo tenga un determinado valor.

Imaginemos por ejemplo que queremos conocer el porcentaje de alumnos de nuestro centro, que es favorable a hacer la Fuga de Huamancaca el día 12 de Noviembre (este carácter se considerará como éxito) en contraposición con los que la quieren hacer en otra fecha. Nos marcamos un nivel de confianza del 90%, y queremos que el error máximo no sobrepase el 10%.

Puesto que el error máximo es, el tamaño de la muestra habrá de

ser . Existe un problema: no conocemos p, ni tan siquiera el valor p' de la muestra puesto que aún no ha sido realizada la encuesta (a no ser que por anteriores sondeos, pueda tenerse un valor fiable para p).

Si se tiene información previa sobre el valor de p, puede utilizarse, pero si no, se utilizará inicialmente p=0,5, pues se puede demostrar que para este valor se obtiene el máximo valor del tamaño de la muestra (mirar grafico siguiente) y en consecuencia, quedará asegurado que el error es como máximo del 10%

En este caso concreto, tomando E=0,1, p=0,5 , k=1,65, obtendremos que n=68,08 es el tamaño de la muestra que debemos tomar.

Aunque el error máximo fijado es del 10%, en la práctica resultará en general más pequeño, a medida que la verdadera proporción p se aleje del valor 0,5. En particular, si en lugar de tomar inicialmente p=0,5 , hubieramos supuesto que p=0,95, el error máximo que cometeríamos utilizando 68 personas en la muestra sería: E= 0,043, es decir un 4,3%. Una vez estimado p, podremos reajustar el margen de error cometido. En la práctica normalmente no dispondremos de

Page 170: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

información previa sobre el valor de p, y deberemos partir de p=0,5, tal y como verás que se explicita en la ficha técnica de los estudios que se publican.

La estimación de proporciones es de gran importancia en la vida cotidiana, dado que influyen por ejemplo en la programación de la tv, los productos que consumimos, las leyes que se legislan.

En los periódicos, revistas, televisión y los informativos de radio, es muy corriente que se den informes de encuestas. Sin embargo frecuentemente, se dan porcentajes, sin ninguna indicación del grado de confianza, el margen de error o el tamaño de la muestra. Sin conocer estos datos, no podemos tener una idea clara de la calidad de los resultados obtenidos, por lo que deberías siempre de tratar de conocer la ficha técnica de estos estudios.

PRACTIQUEMOS N° 16.

1.- La Empresa Anquipa S.A., para planificar su política social, ha hecho en un barrio una encuesta, basada en un muestreo aleatorio a 36 adultos, sobre los ingresos medios mensuales, obteniéndose $ 72800 de media y s= $ 12000.

Estimar el valor medio de los ingresos en dicho barrio con un intervalo de confianza del 95% y del 99%.

2.- Súper Mercados Día, desea conocer cuanto gastan como media los poseedores de una de sus tarjetas, a lo largo de un mes. Ha diseñado un muestra de 1000 clientes, y sabe por experiencia que la desv. típica poblacional es de 25.000 puntos. Si desea tener una confianza del 99% en la estimación, ¿cuál será el error máximo que cometerá?.

3.- Se desea establecer, con un nivel de confianza del 95%, el peso medio de las naranjas de un barco que acaba de atracar, de forma que el error no sobrepase los 15 gramos. Si la desviación típica (conocida por numerosos casos anteriores) es de 60 g., ¿cuántas naranjas deberán ser escogidas al azar para poder establecer dicha media?.

4.- Razona que efecto tiene cada uno de los siguientes conceptos sobre el ancho de un intervalo de confianza: a) Nivel de confianzab) Tamaño muestral c) Variabilidad de las características que se miden

5.- Para conocer con un 95% de confianza y un error máximo de 500 pts, se quiere hacer una encuesta a júvenes, sobre sus gastos durante el fín de semana. ¿Cuál deberá ser el tamaño de la muestra? (supóngase que s=750 pts)

Page 171: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

6.- Una encuesta realizada sobre 40 aviones comerciales, revela que la antigüedad media de estos es de 13,41 años, con una desviación típica muestral s=8,28.

a) ¿Cuál es con un 90% de confianza la antigüedad media de toda la flota comercial?.

b) Si se quisiera obtener un nivel de confianza del 95%, cometiendo el mismo error que en el apartado anterior, y suponiendo también s=8,28, ¿cuántos elementos deberían componer la muestra?.

7.- Al medir el tiempo de reacción , un psicólogo estima que la desviación típica del mismo es de 0,5 segundos. ¿Cuál será el número de medidas que deberá hacer para que sea del 99% la confianza de que el error de su estimación no excederá de 0,1 segundos?.

8.- En una muestra de 50 jóvenes encontramos que la dedicación media diaria al ocio es de 400 minutos y la desviación típica muestral de 63 minutos. Calcular el intervalo de confianza de la media de la población al 95% de nivel de confianza.

9.- La duración de las bombillas fabricadas por una empresa sigue una distribución normal de media desconocida y desviación típica 50 horas. Para estimar la duración se experimenta con una muestra de tamaño n. Calcular el valor de n para que, con un nivel de confianza del 95%, se consiga un error en la estimación inferior a las 5 horas.

10.- Una muestra aleatoria de 60 personas tiene una media de 235 mg/dl (miligramos por decilitro) en medidas de colesterol. Suponiendo que la desviación típica de la variable que mide las unidades de colesterol es =28 mg/dl, se pide:

a) Calcular el intervalo de confianza , con un nivel de confianza 0'95 para la media de la población.

b) Determinar el tamaño muestral necesario para reducir el intervalo de confianza anterior a la mitad.

11.- Una revista, tras comentar los resultados de una encuesta, afirma, "En teoría en 19 de cada 20 casos, los resultados de esta encuesta, difieren en un punto porcentual de la proporción que se obtendría si hubiéramos encuestado a todos los españoles". ¿Podrías decir, cual fué el nivel de confianza y el tamaño de la muestra empleados en esta encuesta?.

Page 172: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

12.- Se pretende conocer la proporción de alumnos que beben alcohol durante el fín de semana. Se establece un margen de confianza del 95%, y se quiere que el error máximo sea del 3%. ¿cuántos elementos deberían componer la muestra?.

13.-En una muestra aleatoria de 1000 personas, están a favor del divorcio el 65%. Halla con un 99% de confianza el intervalo para la proporción real en la población. En una encuesta realizada un año antes nos había salido un 69% de favorables al divorcio. ¿Cae este valor dentro del intervalo de la actual encuesta? ¿Qué interpretación das al resultado?.

14.-La ficha técnica de un estudio publicado fué:Ámbito: Región JunínUniverso: Personas mayores de 18 añosMuestra: 1008 casosEntrevistas: Personales en el hogar del encuestadoSelección: Aleatoria de secciones censales para la determinación del hogar y por estratificado por edad y sexo para el entrevistado.Trabajo de campo: Del 19 al 29 de diciembre de 2002Margen de error: ±3,1% para p=q=0,5, y un nivel de confianza del 95,5%Instituto responsable: ITEC.

a) Calcula el error correspondiente a las estimaciones.

b) Si en una de las preguntas ha contestado afirmativamente el 68,3% de los encuestados, ¿cuál es el intervalo de confianza según los datos técnicos?.

15.- a) En una encuesta realizada, se ha detectado que de 2000 adultos encuestados (elegidos aleatoriamente), 1280 tenían alguna cuenta corriente. Halla una estimación con un 95% de confianza de la verdadera proporción de adultos con cuenta corriente.

b) Si hubiera sido menor el número de encuestados, explica razonadamente cuál habría sido la repercusión sobre el error de estimación.

c) ¿Cuántos elementos deberían haber compuesto la muestra para que el error fuera del 2%, suponiendo un 95% de confianza, y que no se tiene información previa sobre la verdadera proporción?.

16.- El presidente de una compañía mandó una carta a una empresa de investigación estadística, en la que argumentaba:

Page 173: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

"¡Cuando ustedes o cualquier otro intentan decirme que 1223 personas, sirven para conocer las opiniones y gustos en España, me vuelvo loco!. ¡Cómo se atreven!. Deberían ustedes ser detenidos y encarcelados".

Más adelante, afirmaba: " Dado que 1223 personas representan a 40 millones, mi carta representa la opinión de 32706 personas (división de 40 millones entre 1223) que comparten mi punto de vista".

a) Encuentra para n=1223, a un nivel de confianza del 95%, el margen de error que se comete al estimar una proporción.

b) Este señor argumenta que 1223 personas es una muestra demasiado pequeña para tener significancia. ¿estás de acuerdo?. Escribe una respuesta para apoyar o refutar sus tesis.

c) También argumenta que él representa a 32706 personas. ¿Es correcto este argumento?. Razona la respuesta.

17.-En un sondeo a 800 personas elegidas al azar, realizado antes de una elección con sólo dos candidatos A y B, se obtuvo el siguiente resultado: 57% para A y 43% para B. ¿Cuál es la probabilidad de que A gane las elecciones?. ¿Y si la muestra hubiera estado formada por 2000 personas?.

18.-Se realizó una encuesta a 350 familias, preguntando si poseían ordenador en casa o no, encontrándose que 75 de ellas lo poseían. Estima la proporción real de familias que dispone de ordenador, con un intervalo de confianza del 95%. ¿Cuál es el error máximo de la estimación?.

Page 174: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Capítulo 14Test y Pruebas de Hipótesis

**********************************

Veremos ahora la forma de tomar una decisión en base a datos estadísticos, controlando el margen de error que podemos cometer.

Supongamos que una empresa privada, decide otorgar una premio a aquellos centros, en los que la nota media de una prueba realizada por los alumnos supere los 7 puntos.

Como no puede (por razones económicas, de tiempo, disponibilidad, etc) realizar la prueba en todos los alumnos en cada centro, decide elegir una muestra aleatoria de 45 alumnos de cada centro, y que sean ellos los que realicen la prueba.

Imagina que en nuestro centro, se han obtenido los siguientes resultados: (recuerda que podía considerarse un buen sustituto de la desviación

típica de la población, y que por tanto a partir de ahora asumiremos que =2'95)

Ahora bien, la empresa se plantea la siguiente duda, ¿puede afirmar con seguridad que la media del centro es superior a 7, o por el contrario el resultado obtenido se debe al azar en la elección de la muestra ( es decir, en la muestra entraron por casualidad muchos empollones)?.

Nuestro centro, dado su convencimiento de merecer el premio, propone el siguiente proceso:

Page 175: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Para probar que " la media es superior a 7 " (1), supondremos en principio lo contrario, es decir que " la media es menor o igual que 7 " (2), y veremos en términos probabilísticos la posibilidad de que esto último ocurra. Llegan al acuerdo de que si la probabilidad de que " la media sea menor o igual a 7 " es menor del 5%, se aceptará la hipótesis del centro y se concederá el premio.

El centro argumenta lo siguiente:

Si la hipótesis (2) fuera cierta, es decir, la media menor o igual a 7,en el caso extremo la media sería 7, y la distribución muestral de medias sería N(7, 0'44).

Si esto es así, en como mínimo (*) el 95% de los casos, la media muestral habría de ser menor que el valor t=7,726 para el que se verifica que

Este valor t se obtiene buscando en primer lugar la puntuación típica k para la que p(Z<k)=0,95 , que resulta ser k=1,65. Los valores que se encuentran a más de 1,96 desviaciones de la media, es decir, superiores a t=7+1,65x0,44=7,726 son los que forman la región crítica, es decir las notas medias que tienen una probabilidad de producirse menor del 5%.

Podría ocurrir que la hipótesis (2) fuera cierta y la media muestral 7'9 perteneciera a esa distribución y fuera un valor correspondiente a la región crítica (y la probabilidad de que ello ocurra es del 5%), o bien que lo que ocurra realmente, es que (2) sea falsa, y la media obtenida pertenezca a una distribución muestral con media superior ( por ejemplo 7,5 ), con lo cual tal valor no sería tan raro.

En estadística, "se apuesta" a lo que tiene mayor probabilidad de ocurrir, por lo que se considera que la segunda elección es la correcta. (aunque nunca podremos saber si lo que realmente sucede es esto)

Puesto que suponiendo que la media poblacional es como máximo 7 en al menos 95 de cada 100 muestras la media muestral debería de ser menor que 7,726, y dado que la media muestral obtenida fue 7,9 (que se encuentra en la región crítica), el centro concluye que:

Page 176: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

"Con un nivel de significación del 5%, ( probabilidad de equivocarnos al rechazar que la media pueda ser menor o igual a 7), existe evidencia suficiente de que la media del centro es superior a 7 ".

Si el nivel de significación fuera menor , la región crítica disminuiría, y tendremos más confianza en una decisión de rechazo de la hipótesis nula (**)

Si hubiéramos obtenido de la muestra que , al nivel de significación especificado no podríamos rechazar que realmente la media del centro fuera inferior a 7, es decir., "no existiría evidencia suficiente de que la media fuera superior a 7". Es evidente que al no rechazar que la media poblacional sea menor o igual a 7, también estaríamos arriesgándonos a cometer un error.

En cualquier caso, lo que hacemos es tomar una decisión, una vez vistas las evidencias (datos obtenidos de la muestra), y asumido un margen de error para nuestra decisión.

14.1. ELEMENTOS DE LOS TEST DE HIPÓTESIS:

El proceso que hemos descrito en el apartado anterior se denomina "test de contraste de hipótesis", y ahora detallaremos de forma más precisa, los elementos que intervienen en él.

En primer lugar se han de hacer dos hipótesis (1) y (2) que barran el conjunto de posibilidades para la media ( o en general el parámetro poblacional sobre el que se quiere tomar una decisión). En el caso estudiado fué:

A la hipótesis (2) que en principio se consideró cierta, se la denomina hipótesis nula (H0 ) ,por ser el punto de partida, y siempre ha de incluir una igualdad . Esta es la hipótesis que se trata de contrastar, de forma que al final del proceso, la rechazaremos o no.

A la hipótesis (1) que es complementaria de la (2), se la denomina hipótes¡s alternativa (HA ) El rechazo de la hipótesis nula lleva emparejado la aceptación de la hipótesis alternativa.

Cuando se lleva a cabo un test de contraste de hipótesis, se ha de comenzar por establecer las hipótesis nula y alternativa, recordando que la hipótesis nula ha de contener obligatoriamente una igualdad.

Page 177: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Por lo general, se establece como hipótesis alternativa, la que trata de probar algo que significa un cambio sobre lo que se encuentra preestablecido (por resultados anteriores al test o por inercia) y que está representado por la hipótesis nula. La hipótesis nula es siempre conservadora, frente a la alternativa que propugna el cambio.

Establecidas las hipótesis nula y alternativa, Se toma la muestra, y se calculan los datos necesarios para el contraste, en nuestro caso, la media, y la desviación típica muestral

En segundo lugar se establece el nivel de significación que es la probabilidad de que rechacemos la hipótesis nula, siendo en realidad cierta. Utilizaremos la letra para denominarlo. Este nivel de significación es la cantidad de error que nos podemos permitir, y su elección depende en cada caso de la persona que realiza el test. Los más usuales son 10%, 5%, 1% , 0,1%. Se le denomina error de tipo I

Puede también ocurrir que no rechacemos la hipótesis nula, y sea en realidad falsa. Este tipo de error denominado de tipo II y denotado con la letra , es un error que va directamente ligado al valor

Para este nivel de significación habrá de estudiarse la región crítica asociada. En el caso anterior, dado que la hipótesis nula establece que la media es igual o inferior a 7, la región crítica queda a la derecha. Cuando la hipótesis nula establezca que la media es igual o superior a un valor, la región crítica quedará a la izquierda. Por último, si la hipótesis nula establece que la media tiene un valor determinado, la región crítica se habrá de establecer a ambos lados, de forma que el área total que ocupen las dos subregiones sea igual al nivel de significación:

Se estudia para el nivel de significación dado, si se puede rechazar o no la hipótesis nula. Esto se hace viendo si la media obtenida se encuentra dentro de la región crítica asociada al nivel de significación, o si por el contrario, está fuera.

Si "se rechaza la hipótesis nula", la conclusión debe ser redactada:

"Existe evidencia suficiente al nivel de significación para indicar que ..(significado de la hipótesis alternativa)".

Page 178: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Si por el contrario la decisión es "no se puede rechazar la hipótesis nula", la conclusión debería ser redactada:

"No existe suficiente evidencia al nivel de significación que indique que ...(significado de la hipótesis alternativa)"

Veremos ahora varios ejemplos que nos ilustrarán sobre el proceso y los diferentes casos que pueden presentarse.

EJEMPLO 1:

El instituto cree poder probar que la edad media de los alumnos del turno de Noche es inferior a los 30 años. Se ha tomado una muestra de 40 alumnos, y ha resultado que la media es 29,5 , y la desviación típica muestral es s=2.

Se deberá en primer lugar establecer las hipótesis nula y alternativa, que deberían ser:

En segundo lugar elegimos nivel de significación. Dado que no es demasiado grave equivocarse, se elige un nivel del 10%.

Razonando de forma similar al ejemplo anterior, la región crítica correspondiente a un 10% de significación, sería la que correspondiese a la figura:

Donde:

y k=1'28 es la puntuación típica asociada a un 10% de significación.

Puesto que la media muestral 29,5 está dentro de la región crítica, tendremos que rechazar la hipótesis nula, y por tanto:

Page 179: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

"A un nivel de significación del 10%, existe evidencia suficiente de que la media de edad en el turno de noche es inferior a 30 años"

EJEMPLO 2:

Un estudiante, ha leído en la prensa, que el coste medio de un menú en las cafeterías de Las Palmas es de 500 pts. Como no está conforme, hace un test de hipótesis, para tratar de probar que no es así.

Establece como hipótesis:

H0:

HA:

Fija un nivel de significación del 5%, y obtiene una muestra aleatoria de 45 cafeterías, obteniendo como media 518 pts, y s=70 pts.

La región crítica asociada a este nivel de significación para las hipótesis planteadas sería:

Ahora k=1'96 y por tanto

, y

En consecuencia, no puede rechazarse a este nivel de significación la hipótesis nula y por tanto:

"A un nivel de significación del 5% no existe evidencia suficiente de que la media de precios sea diferente de 500 pts."

De hecho, esto no significa que sea cierta la hipótesis nula, sino sólo que no se puede rechazar a este nivel de significación. Si hubiéramos tomado un nivel de significación del 10%, la región crítica correspondiente habría estado delimitada

Page 180: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

por los valores 482'78 y 517'22, con lo que habríamos rechazado la hipótesis nula para ese nivel de significación.

De la misma forma que hemos estado realizando tests sobre medias, pueden ser realizados tests sobre otros parámetros de una población. En particular resulta muy interesante hacerlo sobre una proporción en una determinada población. Veremos ahora un ejemplo de como hacerlo:

EJEMPLO 3:

Diego dice a Diana que al menos un 15% de los alumnos del Instituto, tiene una moto. Como discrepan, Luis realiza una encuesta aleatoria a 200 compañeros del Instituto, y encuentra que 18 de ellos tiene moto. A un nivel de significación del 10%, ¿cual de los dos tiene estadísticamente la razón?

Establecemos la hipótesis nula y alternativa.

Encontramos que la proporción buscada en la muestra es p'= 18/200=0,09.

Supongamos que H0 es cierta, y que por tanto en el peor de los casos sería p=0,15. Sabemos que si así fuera, las proporciones muestrales, se habrían de distribuir según:

Puesto que a un nivel de significación del 10%, la región crítica es la correspondiente a valores menores que k=0,15-1,28x0,0252=0,118 , ésta la forman los porcentajes inferiores al 11,8%. El porcentaje obtenido en la muestra queda dentro de esta región y por tanto rechazamos la hipótesis nula, redactando la conclusión como:

"A un nivel de significación del 10%, existe suficiente evidencia de que la proporción de alumnos con bicicleta es inferior al 15%".

Aunque el resultado dé la razón a Diana, podemos habernos equivocado (con una probabilidad del 10%), . Si hubiera sido otro el resultado, y le hubiéramos dado la razón a Diego, también podríamos habernos equivocado (recuerda el error de tipo II).

13.2. PRUEBAS DE HIPÓTESIS:

Page 181: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

El uso de la Estadística es de gran importancia en la investigación científica. Casi todas las investigaciones aplicadas requieren algún tipo de análisis estadístico para que sea posible evaluar sus resultados. En algunos casos, para resolver un problema de carácter empírico, es preciso llevar a cabo un análisis bastante complejo; otras veces, basta con efectuar un análisis muy simple y directo. La elección de uno u otro tipo de análisis estadístico depende del problema que se plantee en el estudio así como de la naturaleza de los datos. Desde este punto de vista, la Estadística constituye un instrumento de investigación y no un producto final de esta última.

El trabajo coherente, las acciones integradas, la no extrapolación de elementos de un lugar a otro, el verdadero diagnóstico de la realidad han de ser prácticas permanentes en el accionar del investigador y el estadístico aplicado.

Dentro de la estadística se aplican en la investigación los tests o dócimas paramétricos y no paramétricos, el presente trabajo esta dedicado al estudio de dos pruebas no paramétricas que por su importancia merecen ser tratadas de forma independiente, ellas son las pruebas de Kolmogorov-Smirnov para una y dos muestras.

Entre los tests no paramétricos que comúnmente se utilizan para verificar si una distribución se ajusta o no a una distribución esperada, en particular a la distribución normal se encuentran el test de Kolmogorov-Smirnov. El test de Kolmogorov-Smirnov es bastante potente con muestras grandes. El nivel de medición de la variable y su distribución son elementos que intervienen en la selección del test que se utilizará en el procesamiento posterior. De hecho, si la variable es continua con distribución normal, se podrán aplicar técnicas paramétricas. Si es una variable discreta o continua no normal, solo son aplicables técnicas no paramétricas pues aplicar las primeras arrojaría resultados de dudosa validez.

13.3. DÓCIMA DE UNA MUESTRA DE KOLMOGOROV-SMIRNOV.

Premisas

La única premisa que se necesita es que las mediciones se encuentren al menos en una escala de intervalo. Se necesita que la medición considerada sea básicamente continua. Además dicha prueba es aplicable cualquiera sea el tamaño de la muestra.

Potencia-Eficiencia

La prueba de una muestra de K-S puede en todos los casos en que se aplique ser más poderosa que su prueba alternativa, la prueba de 2 ( ji-cuadrado.

Page 182: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Características de la dócima

La prueba de K-S de una muestra es una dócima de bondad de ajuste. Esto es, se interesa en el grado de acuerdo entre la distribución de un conjunto de valores de la muestra y alguna distribución teórica específica. Determina si razonablemente puede pensarse que las mediciones muéstrales provengan de una población que tenga esa distribución teórica. En la prueba se compara la distribución de frecuencia acumulativa de la distribución teórica con la distribución de frecuencia acumulativa observada. Se determina el punto en el que estas dos distribuciones muestran la mayor divergencia.

Hipótesis

Ho: La distribución observada se ajusta a la distribución teórica.

F(x) = Ft(x) para todo x.

H1: La distribución observada no se ajusta a la distribución teórica.

También:

F(x) Ft(x) para algún x

F(x): es función desconocida

Ft(x): es la función teórica. Esta puede ser por ejemplo la función normal con cierta media y varianzas conocidas.

Estadígrafo y distribución muestral

D = máxima

Sn(x): es la función de distribución empírica.

Ejemplo

El entrenador de salto de un grupo de atletas, desea conocer con vistas al procesamiento de los datos por el obtenidos sobre salto de una muestra aleatoria de atletas de esa especialidad en un CVD, si las mediciones realizadas por él están distribuidas normalmente. Los datos son los siguientes:

Salto_Largo1 1.602 1.65 Ho: Los datos están distribuidos normalmente3 1 .55 H1: Los datos no están distribuidos normalmente.

Page 183: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

4 1.625 1.646 1.707 1.718 1.689 1.6610 1.6711 1.6512 1.6813 1.6914 1.70

Salidas de la dócima

Conclusiones:

No se rechaza a Ho, por tanto la distribución de los datos es normal.

Técnicas adicionales a la dócima

Tabla de frecuencias

Histograma.

Estadígrafos que deben acompañar a los estadígrafos de la dócima

1-Tabla de frecuencias.

Técnicas auxiliares para respaldar los resultados obtenidos en la conclusión.

1-Histogramas.

Page 184: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Dócima de Kolmogorov-Smirnov para dos muestras independientes.

Estructura de la base de datos

Normalmente la estructura que tiene la base de datos es la de utilizar una variable para entrar los resultados de la medición y la otra donde se particione a estos resultados en los dos grupos.

Premisas

La única premisa que se necesita es que las mediciones se encuentren al menos en una escala ordinal. Adicionalmente se necesita que la medición considerada sea básicamente continua.

Potencia-Eficiencia

Comparada ante la alternativa paramétrica de la t de student para dos muestras independientes (o el modelo de Análisis de Varianza clasificación simple para dos muestras), cuando las premisas paramétricas se cumplen, tiene una potencia eficiencia de cerca del 96%, que tiende a decrecer ligeramente a medida que se aumentan los tamaños de muestra.

Existen autores que plantean1 "que la dócima de Kolmogorov-Smirnov, para muestras muy pequeñas es más potente que la dócima de la U de Mann-Whitney, pero que para muestras de tamaño grande ocurre lo contrario.

Características de la dócima

Page 185: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

La dócima de Kolmogorov-Smirnov está construida, teniendo como base detectar las discrepancias existentes entre las frecuencias relativas acumuladas de las dos muestras objeto de estudio. Lo anterior propicia que esta dócima pueda advertir diferencias no tan solo entre los promedios, sino que éstas sean debidas a la dispersión, o la simetría o la oblicuidad. Esta característica la hace distintiva de aquellas en que solamente se ocupan de analizar las diferencias entre los promedios.

La dócima admite que los tamaños de las muestras no sean iguales.

Hipótesis

Las hipótesis de esta dócima, expresadas en palabras son:

Ho: Las distribuciones poblacionales son iguales.

H1: Las distribuciones poblacionales son distintas.

Ahora bien se recomienda en general hacer el enunciado de las hipótesis de forma tal que indique en un mayor grado la característica que va a ser docimada.

Estadígrafo y distribución muestral.

Designemos por T1 y por T2 las tablas de distribución de frecuencias relativas acumuladas, particionadas en k categorías. Donde el primer subíndice corresponde al número de la muestra y el segundo al orden de la clase.

TABLA1 TABLA2 DIFERENCIAS

Clase Frecuencia relativa acumulada

Frecuencia relativa acumulada

Diferencia de lasFrecuencias

1 p11 p21 p11-p21

2 p12 p22 p12-p21

... ... ... ...

I p1i p2i p1i-p2i

... ... ... ...

k p1k p2k p1k-p2k

Se analiza entonces en la columna de las diferencias de las frecuencias, en qué clases se obtiene el valor máximo. Se tendrá entonces en símbolos:

Page 186: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

El estadígrafo de esta dócima se designa por χ2 y para tamaños de muestra suficientemente grandes, está distribuido según chi-cuadrado con dos grados los de libertad. En símbolos:

Goodman , ha demostrado que si los tamaños de muestra son pequeños la dócima se comporta conservadoramente.

Salidas de la dócima

Las salidas usuales de la dócima son tres:

• Máxima diferencia negativa. Donde se muestra cuál es la mayor diferencia negativa alcanzada.

• Máxima diferencia positiva. Donde se muestra la mayor diferencia positiva alcanzada.

• Valor de la probabilidad para dos colas.

Es necesario señalar que las dos primeras opciones suministran información en los casos en que sea conveniente realizar una dócima unilateral, además de reflejar información acerca de lo que está ocurriendo en la dócima.

Técnicas adicionales a la dócima

Existe un grupo de técnicas adicionales a la dócima, las que hemos dividido en los siguientes grupos.

Estadígrafos que deben acompañar a los estadígrafos de la dócima.

Entre ellos se encuentran:• Tamaños en cada una de las muestras (casos válidos en el análisis) • Media aritmética de cada una de las muestras. • Desviación estándar de cada una de las muestras.

Técnicas auxiliares para respaldar los resultados obtenidos en la conclusión• Diagrama de caja y bigotes de cada una de las muestras. • Histograma de cada una de las muestras.

Ejemplo

Se muestran las pérdidas en peso (medidos en kilogramos), de dos grupos de personas que han sido sometidas a dos tipos diferentes de medicamentos,

Page 187: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

designado por Grupo1 y Grupo2. Los resultados obtenidos se muestran en la siguiente tabla:

GRUPO1 (n1=10) GRUPO2 (n2=125.49 3.763.08 4.224.13 4.175.03 5.03

7 4.856.03 2.094.45 4.455.13 3.584.26 3.864.62 4.13

4.42.81

Salida de la dócima

La salida básica de la dócima muestra los valores máximos positivos, máximos negativos y el valor de probabilidad, los que se muestran a continuación.

mediciónmáxima diferencia

negativamáxima diferencia

positivavalor de

probabilidad

perdida de peso 0 0.4666667 p > .10

Según podemos observar, no existen diferencias significativas entre los resultados de la medición realizada a los dos grupos.

Estadígrafos que deben acompañar a los estadígrafos de la dócima.

Resulta conveniente incluir también, además de los mencionados en la tabla anterior, el tamaño en cada una de las muestras, así como la media aritmética de cada una de ellas y su desviación estándar. Las que se muestran en la siguiente tabla.

Tamaños de muestra Media aritmética Desviación. Estándar

GRUPO 1 10 4.73900 .8235661

GRUPO 2 12 3.945834 .8235661

Page 188: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Técnicas auxiliares para respaldar los resultados obtenidos en la conclusión

Las técnicas que ha continuación se mencionan es conveniente su utilización:

Diagramas de Caja y Bigotes.

El siguiente diagrama muestra los resultados obtenidos tomando como promedio la mediana, el rango intercuartílico para la caja y el máximo-mínimo para los bigotes.

En este diagrama observamos que aunque en la segunda muestra ha existido una disminución en el valor mediano, las diferencias no son significativas. Obsérvese que en la segunda muestra se ha producido una disminución en la dispersión y los máximos y mínimos han sido reducidos.

Histogramas

A continuación se muestran los histogramas de las dos muestras. Los que pueden proporcionar una mayor idea del proceso ocurrido.

Page 189: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf
Page 190: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Glosario de Términos1. Alcance: distancia entre los valores más bajo y más alto de un conjunto de datos. 2. Codificación: método para calcular la media de datos agrupados mediante la recodificación de los valores de los puntos medios de las clases a valores más sencillos. 3. Coeficiente de variación: medida relativa de la dispersión, comparable por medio de distribuciones diferentes, que expresa la desviación estándar como porcentaje de la media. Proporción o porcentaje de la media que representa la desviación estándar. 4. Cuartiles: fractiles que dividen los datos en cuatro partes iguales. 5. Curtosis: el grado de agudeza de una distribución de puntos. 6. Datos: colección de cualquier número de observaciones relacionadas sobre una o más variables. 7. Deciles: fractiles que dividen los datos en diez partes iguales. 8. Dependencia estadística: condición en la que la probabilidad de presentación de un evento depende de la presentación de algún otro evento, o se ve afectada por ésta. 9. Desviación estándar: raíz cuadrada positiva de la varianza; medida de dispersión con las mismas unidades que los datos originales. 10. Diagrama de barras: representación gráfica de la distribución de frecuencias de un atributo o de una variable discreta. 11. Dispersión: la extensión o variabilidad de un conjunto de datos. 12. Distribución binomial: modelo para variable aleatoria discreta que permite calcular la probabilidad de obtener x éxitos en n ensayos repetidos de tipo Bernoulli. Distribución discreta que describe los resultados de un experimento conocido como proceso de Bernoulli. 13. Distribución continua de probabilidad: distribución de probabilidad en la que la variable tiene permitido tomar cualquier valor dentro de un intervalo dado. 14. Distribución de frecuencias: despliegue organizado de datos que muestran el número de observaciones del conjunto de datos que entran en cada una de las clases de un conjunto de clases mutuamente exclusivas y colectivamente exhaustivas. Asignación de frecuencias a cada uno de los valores de una variable o atributo. 15. Distribución de Poisson: modelo para variable aleatoria discreta que permite calcular la probabilidad de obtener x éxitos en un intervalo continuo.16. Distribución de probabilidad: lista de los resultados de un experimento con las probabilidades que se esperarían ver asociadas con cada resultado. 17. Distribución exponencial: modelo para variable aleatoria continua que permite representar variables del tipo "tiempo entre" o "distancia entre" dos eventos y vida útil de ciertos componentes.

Page 191: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

18. Distribución normal: modelo para variable aleatoria continua que permite representar un gran número de fenómenos físicos. Distribución de una variable aleatoria continua que tiene una curva de un solo pico y con forma de campana.19. Error de muestreo: error o variación entre estadísticas de muestra debido al azar, es decir, diferencias entre cada muestra y la población, y entre varias muestras, que se deben únicamente a los elementos que elegimos para la muestra. 20. Error estándar: la desviación estándar de la distribución de muestreo de una estadística. 21. Espacio muestral: conjunto de todos los resultados posibles de un experimento aleatorio. 22. Estimación: valor particular de un estimador, que caracteriza a una muestra específica. 23. Evento: uno o más de los resultados posibles de hacer algo, o uno de los resultados posibles de realizar un experimento. 24. Experimento aleatorio actividad que tiene como resultado o que produce un evento. Prueba donde existen dos o más resultados posibles, y no se pude anticipar cuál de ellos va a ocurrir. 25. Histograma: gráfica de un conjunto de datos compuesta de una serie de rectángulos, cada uno con un ancho proporcional al alcance de los valores de cada clase y altura proporcional al número de elementos que entran en la clase, o altura proporcional a la fracción de elementos de la clase.26. Independencia estadística: condición en la que la presentación de algún evento no tiene efecto sobre la probabilidad de presentación de otro evento. 27. Inferencia estadística: proceso de análisis que consiste en inferir las propiedades de una población en base a la caracterización de la muestra. 28. Media: medida de tendencia central que representa el promedio aritmético de un conjunto de observaciones. 29. Mediana: punto situado a la mitad de conjunto de datos, medida de localización que divide al conjunto de datos en dos partes iguales. 30. Medida de dispersión: medida que describe cómo se dispersan o distribuyen las observaciones de un conjunto de datos. Cantidades que describen la variabilidad de los datos. 31. Medida de tendencia central: medida que indica el valor esperado de un punto de datos típico o situado en el medio. Cantidades numéricas que dan una idea sobre la ubicación de la distribución de frecuencias. 32. Moda: el valor que más a menudo se repite en un conjunto de datos. Está representado por el punto más alto de la curva de distribución de un conjunto de datos. 33. Muestra representativa: muestra que contiene las características importantes de la población en las mismas proporciones en que están contenidas en la población. 34. Muestra: subconjunto de la población seleccionado mediante algún criterio particular. Porción de elementos de una población elegidos para su examen o medición directa. 35. Muestreo aleatorio simple: métodos de selección de muestras que permiten a cada muestra posible una probabilidad igual de ser elegida y a cada elemento de la población completa una oportunidad igual de ser incluido en la muestra.

Page 192: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

36. Muestreo aleatorio: conformación de la muestra usando métodos al azar.37. Muestreo no aleatorio: conformación de la muestra en base al conocimiento o experiencia del observador. 38. Parámetro: valor fijo que caracteriza a una población. Valores que describen las características de una población. 39. Población: conjunto formado por todas las unidades objeto de un estudio estadístico. Colección de todos los elementos que se están estudiando y sobre los cuales intentamos llegar a conclusiones. 40. Probabilidad clásica: número de resultados favorables a la presentación de un evento dividido entre el número total de resultados posibles. Asignación de probabilidad "a priori", si necesidad de realizar el experimento. 41. Probabilidad condicional: probabilidad de que se presente un evento, dado que otro evento ya se ha presentado. 42. Probabilidad subjetiva: probabilidad basada en las creencias personales de quien hace la estimación de probabilidad. Asignación de probabilidad en forma intuitiva, en base a la experiencia o el conocimiento. 43. Probabilidad: la posibilidad de que algo suceda. 44. Prueba de Kolmogorrov-Smirnov: prueba no paramétrica que no requiere que los datos se agrupen de ninguna manera para determinar si existe diferencia significativa entre la distribución de frecuencia observada y la distribución de frecuencia teórica. 45. Pruebas de bondad de ajuste: pruebas de hipótesis que ponen bajo prueba una afirmación acerca de la distribución de una variable aleatoria. 46. Pruebas no paramétricas: técnicas estadísticas que no hacen suposiciones restrictivas respecto a la forma de la distribución de población al realizar una prueba de hipótesis. 47. Sesgo: grado en que una distribución de puntos está concentrada en un extremo o en el otro; falta de simetría. Asimetría en distribuciones de frecuencias no simétricas. 48. Simétrica: característica de una distribución en la que cada mitad es la imagen especular de la otra. 49. Tabla de frecuencias: tabla donde se asienta la distribución de frecuencias. 50. Teorema del Límite Central: teorema que especifica las condiciones bajo las cuales puede esperarse que una variable aleatoria tenga distribución normal. 51. Unidad de observación: persona o casa sobre la que se mide una o varias características de interés. 52. Valor esperado: promedio pesado de los resultados de un experimento. 53. Variable aleatoria continua: variable aleatoria que puede tomar infinitos valores dentro de un rango cualquiera. 54. Variable aleatoria discreta: variable que toma un número finito o infinito de valores numerables. 55. Variable aleatoria: variable que toma diferentes valores como resultado de un experimento aleatorio. 56. Varianza: medida de la distancia cuadrada promedio entre la media y cada observación de la población. Promedio de los desvíos cuadráticos con respecto a la media.

Page 193: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Referencias

Libros:

1. Alatorre, et al., Introducción a los métodos estadísticos, México, UPN. 1998.2. Azorín, Poch. Francisco. Curso de muestreo y aplicaciones, Aguilar, 1989.3. Barahoma, Abel y otro. Metodología de trabajos científicos, Ipler, 1999.4. Bencardino M., Ciro. Estadística, Apuntes y 600 Problemas Resueltos, 2a

Edición, Ecoe, 1992.5. Castillo, Juana, Estadística inferencial básica, México, CCH, UNAM. 1996.6. CHAO. Lincoln L. Estadística para Ciencias Administrativas, 2a Edición, MCGRAW-HILL, 1990.7. Dixon, Wilfrid J y otro. Introducción al Análisis Estadístico, 2a Edición, MCGRAW-HILL, 1995.8. Doms, Fernan P. La Estadística Qué Sencilla, 5a Edición, Paraninfo, 1999.9. Downie, N. M. y otro. Métodos Estadísticos Aplicados. Harper Row Publishers Inc., 2000.10. Giardina, Basilio. Manual de Estadística, 3 Edición, 1992.11. Haber, Audrey. Estadística General, Fondo Educativo Interamericano, 1993.12. Hoel, Paul G. Estadística Elemental, México, CECSA. 2001.13. Johnson, Robert, Estadística elemental, Buenos Aires, Grupo Editorial Iberoamericana. 1996.14. Kazmier, Leonard J. Estadística Aplicada a la Administración y la Economía, MCGRAW-HILL, 1998.15. Levin Yack. Fundamentos de Estadística en la Investigación Social, 2a

Edición, Harla S., 1997.16. Llerena, León, Ricardo y otro. Curso de Estadística General, U. de A., 1991.17. Mejía V., William. Bioestadística General, Escuela Nal. De Salud Pública, U. de A., 1990.18. National Council of Teachers. Of. Mathematics USA. Recopilación, Organización e interpretación de Datos, Trilla, 2000.19. Portilla, Ch. Enrique. Estadística, Primer Curso. Interamericano, 1990.20. Richards, Larry E. Y otro. Estadística en los Negocios. ¿porqué y cuándo?, MCGRAW-HILL,1998.

Page 194: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

21. Seymour, Lipschutz, Teoría y problemas de probabilidad, México, McGraw-Hill. 1970.22. Shao, Stephen P. Estadística para Economistas y Administradores de Empresas, 15a Edición, 1989.23. Spiegel, Murray R. Estadística, MCGRAW-HILL, 1970.24. Spiegel, Murray, Teoría y problemas de estadística, México, McGraw-Hill. 1970.25. Stevenson, William, Estadística, México, Harla. 1981.26. Yamane, Taro, Estadística, México, Harla. 1986.

Páginas Web:1. Librería Virtual Elaleph: www.elaleph.com/ 2. Universidad Nacional de Colombia sede Medellín: www.unalmed.edu.co/ 3. El Portal de las Matemáticas: www.matematicas.net/ 4. Libros y Software Gratis: www.recursosgratis.com/ 5. DANE Colombia: www.dane.gov.co/ 6. Planeación Nacional Colombia N.N.P.: www.dnp.gov.co/ 7. Ministerio de Desarrollo Colombia: www.mindesa.gov.co/ 8. Web Estadístico de Navarra: www.lander.es/ 9. Bioestadística: Métodos y Aplicaciones: ftp.medprev.uma.es/libro 10. Aula Fácil: www.aulafacil.org/ 11. Probabilidad y Estadística: www.mor.itesm.mx/ 12. Diseño de Experimentos y Teoria de Muestras:www.libros.netstoreusa.com/13. Distribuciones Estadísticas:www.sisweb.com/ 14. Probabilidad:www.thales.cica.es/15. Distribución de Poisson:www.ual.es/16. Tratamiento de la Incertidumbre:www.dc.fi.udc.es/ 17. Universidad de Antioquia:extension.udea.edu.co/ 18. Estadística Lejarza:www.uv.es/

Page 195: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Anexos

Page 196: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Anexo N° 1:Tabla de la Distribución Normal

Áreas limitadas por N(0,1) , desde - ∞ hasta k

p(Z<k)

k 0 '00 0'01 0'02 0'03 0'04 0'05 0'06 0'07 0'08 0'09

0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.535860.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.575350.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.614090.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.651730.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.687930.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.722400.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.754900.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.785240.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.813270.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.838911.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.862141.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.882981.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.901471.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.917741.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92786 0.92922 0.93056 0.931891.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.944081.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.954491.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.963271.8 0.96407 0.96485 0.96562 0.96637 0.96712 0.96784 0.96856 0.96926 0.96995 0.970621.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.976702.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.981692.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.985742.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.988992.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.991582.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.993612.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.995202.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.996432.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.997362.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.998072.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.998613.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99897 0.999003.1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.999293.2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.999503.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.999653.4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.999763.5 0.99977 0.99978 0.99978 0.99979 0.99980 0.99981 0.99981 0.99982 0.99983 0.999833.6 0.99984 0.99985 0.99985 0.99986 0.99986 0.99987 0.99987 0.99988 0.99988 0.999893.7 0.99989 0.99990 0.99990 0.99990 0.99991 0.99991 0.99991 0.99992 0.99992 0.99992

Page 197: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Anexo N° 2

Tabla de 500 Números Generados Aleatoriamente.

49035 39250 26420 44343 86730 00094 74043 65106 72384 4029834650 61029 41870 93056 07492 11854 54849 48034 53807 3285137944 42974 47550 91625 95455 66107 49743 94663 15075 1699896501 14020 97799 58005 70661 12170 49250 29349 13070 6706683882 97885 21981 99586 14053 62953 87632 62027 22690 5228313967 58987 51301 06732 90588 40925 74328 74721 95415 3588376357 15538 32168 66301 00456 45252 36652 35549 93901 4981221965 62747 41846 36966 75159 94638 49952 01953 66456 2973213808 41499 87080 52612 95907 66465 92820 95272 20290 3556397901 17521 90387 60885 37302 29952 37418 20541 95588 70662

Page 198: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

ANEXO N° 3: Contraste de Hipótesis a partir del p-Valor

El entrenador de nuestro equipo de baloncesto asegura que en los entrenamientos sus jugadores encestan más del 90% de los tiros libres. Para investigar esta afirmación, se ha seleccionado aleatoriamente 50 lanzamientos de los que 42 han sido canasta. ¿evidencia esto que el entrenador se equivoca, o no?

La proporción encontrada en la muestra es p'=42/50=0,84. Las hipótesis que hay que establecer son:

Suponiendo cierta la hipótesis nula, y en el mejor de los casos si p=0,9 , las proporciones muestrales se deberían distribuir según :

Los valores menores o iguales a 0,85 tienen una probabilidad de ocurrencia:

(I)

En consecuencia, si el nivel de significación que se tome es inferior al 7,93% se puede rechazar la hipótesis nula, y habrá que aceptarla en cualquier otro caso.

Esta forma de abordar los tests, nos permite una visión más amplia, por cuanto nos dá información de para qué niveles de significación puede rechazarse la hipótesis nula, y para cuales no se puede.

Al valor calculado en la expresión (I) se le denomina p-valor, y al procedimiento expresado para realizar el test de hipótesis, método del p-valor.

Page 199: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

ANEXO N° 4. Error de Tipo II – Cálculo

Hemos comentado ya, que cuando se establecen la hipótesis nula y alternativa, y se lleva a cabo el test, pueden ocurrir cada uno de los cuatro casos:

La hipótesis nula es verdadera La hipótesis nula es falsa

No se rechaza la H.Nula

Decisión correcta Error tipo II

Se rechaza la H.Nula Error tipo I Decisión correcta

Para estimar la diferencia existente entre cada uno de los casos, imagina a un médico que acaba de llegar al lugar de un accidente, y debe contrastar la hipótesis nula: "esta víctima está viva". Mirando la tabla anterior, podemos ver los 4 resultados posibles, y la gravedad de cada tipo de error.

Aunque nos gustaría que no existiera posibilidad de error, esto es imposible dado que utilizamos para tomar nuestra decisión información muestral y no poblacional. Se trata pues de que estos errores sean lo menores posibles. En cada caso en concreto se debería de estudiar la gravedad de cada tipo de error, para minimizar los riesgos inherentes a un proceso de decisión de este tipo.

En general, en la práctica, se fijan siempre el nivel de significación (error tipo I) y el tamaño de la muestra (que deberá ser tan grande como las posibilidades de tiempo, costo,... nos permitan).

Ahora veremos el procedimiento para el cálculo del error del tipo II, suponiendo que ya han sido fijados el de tipo I y el tamaño de la muestra.

Imaginemos el caso con el que se introdujeron los tests de contraste en el que

y habíamos asignado un nivel de significación =0'05 . Recordemos que habíamos razonado de la siguiente forma:

"Si H0 es cierta, en el mejor de los casos =7, y por tanto en al menos un 95% de los casos, la media muestral que obtengamos habrá de ser menor que 7'726"

Page 200: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Es decir, rechazaremos la hipótesis nula, siendo en realidad cierta en como máximo un 5% de los casos ( los correspondientes a la región sombreada). Imaginemos que H0 fuese en realidad falsa, es decir que por ejemplo =7'5. ¿Cuál es el riesgo de que aceptemos que la media es menor o igual a 7?

Si un valor es menor que 7,726, estaremos aceptando que la media es menor que 7, a pesar de

ser 7'5. La probabilidad de que esto ocurra es sobre N(7'5,0'44).

Podemos observar a la vista de lo expuesto, que fijado el valor de n, cuanto menor es el valor del riesgo , mayor es el valor del riesgo , o lo que es lo mismo, para un determinado tamaño muestral, no podemos reducir simultáneamente los dos errores, de forma que deberemos de sacrificar uno de los errores si queremos disminuir el otro.

Asimismo, se observa que si está prefijado, al aumentar el tamaño muestral n, disminuiremos la variabilidad muestral y en consecuencia, también disminuirá el riesgo , es decir la manera de reducir simultáneamente los dos tipos de error es aumentar el tamaño muestral.

Por último, vemos que el riesgo de aceptar erróneamente una hipótesis nula es función del verdadero parámetro poblacional, de forma que cuanto más alejado esté éste de los valores ponderados en la hipótesis nula, menor es el riesgo es decir, mayor la probabilidad de tomar la decisión correcta.

Page 201: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Anexo N° 5. Guía para elaborar una TesisElaboración de un plan de trabajo.

Para iniciar una investigación, es necesario organizar adecuadamente las actividades y tener un conocimiento amplio sobre el tema u objeto de estudio. Hay que distinguir aquellas actividades que requerirán de mayor tiempo para su concreción y aquellas que demandan un esfuerzo personal más específico.

Elaboración de un anteproyecto.

Antes de elaborar este anteproyecto, debe realizarse una amplia búsqueda bibliográfica, que brindará una idea más clara del tema. También es importante relacionarse con personas que traten o trabajen en el tema.

Esquema.

1. Definición del problema: título descriptivo del proyecto, formulación del problema. Formular un problema es caracterizarlo, definirlo, enmarcarlo teóricamente. La caracterización o definición del problema nos lleva a otorgarle un título en el que de manera clara indiquemos los elementos esenciales. La formulación del problema es la estructuración de toda la información. Se debe sintetizar la cuestión proyectada para investigar a través de un interrogante.

2. Justificación: una vez que se ha seleccionado el tema de investigación, definido por el planteamiento del problema, y establecido los objetivos, se debe indicar las motivaciones que llevan al investigador a desarrollar el proyecto. Responde a la pregunta: ¿por qué se investiga?.

3. Definiciones.

4. Objetivos: Es el propósito de la investigación. Responde a la pregunta ¿para qué?. Un objetivo debe redactarse con verbos en infinitivo.

5. Hipótesis: Es una proposición de carácter afirmativo enunciada para responder tentativamente a un problema. Toda hipótesis constituye un juicio, o sea una afirmación o una negación de algo.

6. Limitaciones y delimitaciones: Es pertinente precisar los límites del problema, su alcance, para ello es necesario tener en cuenta la viabilidad, lugar, tiempo y financiación.

7. Marco de referencia: Fundamentos teóricos, antecedentes del problema. Debe ser una búsqueda detallada y concreta, donde el tema y la temática del objeto a investigar tenga un soporte teórico, que se pueda debatir, ampliar, conceptualizar y concluir. Ninguna investigación debe privarse de un fundamento o marco teórico o de referencia. Estos fundamentos teóricos permiten presentar una serie de conceptos, que constituyen un cuerpo unitario y no un simple conjunto arbitrario de definiciones.

8. Metodología: diseño de técnicas de recolección, población y muestras, técnicas de análisis, índice analítico tentativo, guía de trabajo de campo.

9. Cronograma: es un plan de trabajo o plan de actividades, que muestra la duración del proceso investigativo.

10. Presupuesto.

11. Bibliografía.

Page 202: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

Anexo N° 6: Registro de la Información. Modelos de Fichas.Cuando una publicación ingresa a una biblioteca se registra, se anotan los datos más importantes para localizarla fácilmente. El criterio que se sigue en las bibliotecas para clasificar libros, revistas, tesis y artículos sueltos, es el siguiente: Por autor, p or título y por tema.Ficha bibliográfica.Los índices que se refieren a los libros se encuentran generalmente en cajones que contienen tarjetas de 3 x 5 pulgadas, ordenadas alfabéticamente. Los datos que se enumeran a continuación son los que se registran en las fichas:

1. Autor. Apellido, nombre 2. Título (siempre va subrayado) 3. Subtítulo (si lo hay) 4. Traductor, prologuista, etc. (si el original se escribió en otro idioma) 5. Edición (si es la primera no se anota, se anota a partir de la segunda) 6. Número de volumen (si cuenta con más de uno) 7. Lugar (donde se editó la obra) 8. Editorial 9. Fecha 10. Número total de páginas, láminas, ilustraciones 11. Colección o serie.

Los datos que corresponden a 7, 8 y 9 se conocen como pie de imprenta. Entre paréntesis rectangulares o corchetes, se anotan los datos que se deseen agregar: si contiene mapas, ilustraciones, comentarios o apreciaciones personales sobre el libro.Cuando no aparecen algunos datos indispensables, se usan las siguientes abreviaturas:[et. al]: cuando son varios autores se anotan los datos del primero y esta abreviatura significa: y otros. [s. tr.]: sin traductor, [s. l.]: sin lugar, [s. f.]: sin fecha, [s. e.]: sin editorial, [s. p. i.]: sin pie de imprenta.Las anotaciones particulares, hechas por el investigador para su empleo personal, se encierran también entre corchetes.En algunas fichas se incluye también un breve resumen del libro y/o un índice de contenido. A este fichero se recurre cuando se conoce el nombre del autor del libro que se desea consultar.Otras veces se recurre a ficheros clasificados por temas y por título, porque se desconoce el nombre del autor. En ocasiones, cuando no hay referencias en el fichero sobre el concepto investigado, se deben buscar sinónimos o temas afines.Ficha de diarios y revistas.En las bibliotecas existen generalmente dos formas de clasificar las revistas: por tema y por artículo.La clasificación por temas es muy general y se refiere principalmente a disciplinas tan amplias como la psicología, la sociología, la economía, la antropología, etc.A la clasificación que con mayor frecuencia se recurre en relación con las revistas, es a la clasificación por títulos, ya que es la manera más práctica de hacerlo.Una ficha, cuando el dato se toma de diarios y revistas, debe contener:

1. Nombre del autor 2. Título y subtítulo del artículo (entre comillas) 3. Título y subtítulo del periódico o revista (subrayado). Institución que la publica 4. Número del columen, año, tomo (con números romanos) 5. Número del fascículo (con números arábigos) 6. Fecha 7. Número de página o páginas que ocupa el artículo o dato 8. Información (dato). Cuando aparece sin datos de lo que trata el artículo, se le conoce como ficha de artículo.

En ocasiones se recorta el artículo o parte de él. En estos casos, los datos de esta ficha se anotan en la hoja o tarjeta en donde se pegó el recorte.Ficha de tesis.Las tesis se encuentran archivadas en un fichero especial y están clasificadas de la misma manera que los libros, es decir, tanto por tema como por autor.Los datos que deben contener son:

1. Autor 2. Título 3. Tesis (se menciona al grado que se aspira con ella) 4. Lugar (colegio o institución donde se presenta) 5. Editor (si lo hay) 6. Fecha 7. Número de páginas (cuando el texto está escrito por un solo lado de la hoja, se usará la abreviatura h, en lugar de p).

Ficha de publicación oficial.1. País

Page 203: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

2. Dependencia 3. Año 4. Título (época que comprende el trabajo, ensayo, memoria, etc.) 5. Editorial (o los talleres donde se imprimió) 6. Número de páginas (si la dependencia que la publica no es la responsable del contenido, el registro se iniciará con el

nombre del autor. Ficha de textos jurídicos.

1. Territorio en donde se aplican 2. Referencia al tipo de normas de que trata 3. Nombre de la ley o decreto (subrayado) 4. Editor o talleres donde se imprimió (o el conducto por el cual se dio a conocer) 5. Fecha 6. Número de páginas.

Ficha de documentos nacionales.1. Título (o asunto de que trata) 2. Lugar 3. Fecha 4. Archivo 5. Legajo 6. Foja 7. Demás especificaciones 8. Número de páginas 9. Características de interés particular, si el investigador juzga indispensable registrarlas)

Ficha de documentos internacionales.1. Órgano responsable 2. Título (o asunto) 3. Número, clave o codificación 4. Lugar donde se publicó 5. Editor (o conducto por el que se da a conocer 6. Fecha

Ficha de registro de obras de recopilación de constituciones o leyes.1. Nombre del compilador o editor 2. Referencia al tipo de norma o documento (subrayado) 3. Número de volumen (con números romanos) 4. Lugar 5. Editor 6. Fecha 7. Número de páginas en donde está comprendido.

Ficha de registro de pactos, acuerdos o tratados internacionales.1. País u organismo (con mayúsculas) 2. Tipo de norma o documento 3. Autor del prólogo, comentario o nota 4. Lugar 5. Editor 6. Fecha 7. Número de páginas en donde está comprendido.

Ficha de artículos contenidos en libros o enciclopedias.1. Autor del capítulo o artículo 2. Título del capítulo o artículo (entre comillas) 3. Páginas en que está comprendido 4. Autor de la obra que contiene el artículo o capítulo 5. Título de la obra (subrayado) 6. Demás datos de la ficha bibliográfica de la obra.

Ficha de campo.1. Tema de investigación 2. Nombre del investigador 3. Institución 4. Lugar 5. Fecha 6. Hora 7. Datos de la fuente (edad, sexo, ocupación).

Ficha de noticiario.1. Agencia noticiosa / comentarista 2. Nombre del noticiario 3. Número / horario 4. Estación / canal / cine 5. Lugar

Page 204: Oseda, D. - 2010 - Estadística Descriptiva e Inferencial.pdf

6. Fecha 7. Noticia o comentario

Ficha de institución.Nombre de la institución (subrayado)

1. Institución de la que forma parte 2. Objetivos que tiene en su función 3. Ubicación • Dirección

• Lugar que ocupa en la disciplina a la que pertenece o practica 1. Funciones y servicios 2. Información que puede proporcionar 3. Conexión, nexos, relación con otras fuentes similares 4. Forma de acceso (procedimientos para obtener sus servicios, o persona u oficina por cuyo conducto se pueden obtener

sus servicios). 5. Publicaciones que emite 6. Otros datos importantes.

Ficha para registrar información que aparece en mapas, dibujos, fotografías, etc.1. Nombre (de lo que se trata, subrayado) 2. Autor 3. Fuente (lugar, libro, revista, museo, etc., dónde está) 4. Descripción del objeto (colores, medidas, material de que está hecho, datos indispensables para tener noción de cómo

es) 5. Contenido (descripción de lo que se ilustra o representa) 6. Otros datos que interesen al investigador (fecha, sala, en el caso de museos, exposición, etc.)

FICHA DE TRABAJO.Es aquella donde se registran los datos que interesan al investigador.Cuando el dato está contenido en más de una tarjeta, las tarjetas que ocupe constituirán una sola ficha. En estos casos, conviene marcar las tarjetas con el número de ficha y una letra (ej.: 5a y 5b).Una ficha debe contener un solo dato, éste puede ser un solo detalle (una fecha, un nombre, un acontecimiento, etc.) o estar formado por más información (una carta, la descripción de un hecho, una biografía, etc.). Para saber qué información debe registrarse en una ficha de trabajo, en el momento de hacer la anotación debe pensarse si esa información va a aparecer en un solo lugar o hay detalles que se utilizarán en otros lugares del escrito; en el primer caso se tratará de una ficha; en el segundo, será necesario hacer una ficha por cada información que aparecerá en distintas partes del escrito.El regesto es el asunto, tema o título del contenido de la ficha de trabajo. Debe ser breve y reflejar fielmente la información anotada.La información (dato) puede registrarse textualmente o resumirse.Datos fundamentales:

1. Autor 2. Título (entre comillas) 3. Número de página (s) donde aparece el dato 4. Regesto (asunto, tema; va subrayado)

Datos complementarios:1. Fecha en que se recogió el dato 2. Razón o motivo por el que se recabó la información.

Ficha de transcripción textual.Como su nombre lo indica, es aquella a la que se traslada íntegramente el texto tomado de la fuente, por lo que esta información siempre irá entre comillas.Ficha de síntesis.Es la que se utiliza para consignar, en pocas palabras, el extracto del texto consultado. Se debe tener cuidado de no omitir o tergiversar el contenidoNo es necesario utilizar una tarjeta especial para los comentarios personales acerca de la fuente, puesto que es conveniente incluirlos en la misma ficha que la registra. Se escriben entre corchetes.Fichas metodológicas.Se refieren a aquellos puntos obtenidos de las lecturas, concretamente relacionados con notas metodológicas, es decir, con qué sujetos se hizo la investigación, cómo se eligieron éstos, qué hipótesis se emplearon, cómo se analizaron los datos, algún instrumento original que se utilizó, alguna cuestión interesante que se investigó, es decir, con las cuestiones operativas del estudio. El origen de estas fichas, al igual que en los casos anteriores, debe identificarse utilizando la abreviación de la fuente original y el número de página.