44
UNIDAD I: CONCEPTOS BÁSICOS 1.1. Introducción 1.2. Qué es la estadística 1.3. Importancia de la estadística 1.4. Aplicación y campos de aplicación de la Estadística 1.5. División de la estadística 1.6. La Estadística como ciencia y método de la investigación científica 1.7. Población y Muestra 1.8. Escalas de Medición 1.9. Tipos de variables 1.10. Ejercicios 1.11. Glosario 1.12. Presentación de Datos 1.13. Distribución de Frecuencias 1.14. Distribución de Frecuencias Absolutas y Relativas 1.15. Distribución de Frecuencias Acumuladas 1.16. Gráficas 1.17. Histograma y Polígono de Frecuencias 1.18. Polígono de Frecuencia 1.19. Polígono de Frecuencia Acumulada 1.20. Gráficas circulares, Diagramas de Barras, Pictogramas y Gráfico de líneas.

Unidad i

Embed Size (px)

Citation preview

UNIDAD I:

CONCEPTOS BÁSICOS

1.1. Introducción

1.2. Qué es la estadística

1.3. Importancia de la estadística

1.4. Aplicación y campos de aplicación de la Estadística

1.5. División de la estadística

1.6. La Estadística como ciencia y método de la investigación científica

1.7. Población y Muestra

1.8. Escalas de Medición

1.9. Tipos de variables

1.10. Ejercicios

1.11. Glosario

1.12. Presentación de Datos

1.13. Distribución de Frecuencias

1.14. Distribución de Frecuencias Absolutas y Relativas

1.15. Distribución de Frecuencias Acumuladas

1.16. Gráficas

1.17. Histograma y Polígono de Frecuencias

1.18. Polígono de Frecuencia

1.19. Polígono de Frecuencia Acumulada

1.20. Gráficas circulares, Diagramas de Barras, Pictogramas y Gráfico de líneas.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 7

1.1. Introducción

La estadística es una de las herramientas más ampliamente utilizadas en la investigación

científica. Su aplicación en instituciones gubernamentales y educativas, en los negocios

y en la industria, en la banca y en otros quehaceres diarios hace de la estadística una

herramienta indispensable.

Actualmente, son de uso cotidiano las diferentes técnicas estadísticas que partiendo de

observaciones muestrales o históricas, crean modelos lógico-matemáticos que permiten

describir o pronosticar un determinado fenómeno con cierto grado de incertidumbre.

El avance tecnológico en la informática ha contribuido enormemente al desarrollo de la

estadística, sobre todo en la manipulación de la información, pues en el mercado existen

paquetes estadísticos de excelente calidad, como por ejemplo el SAS, SPSS, SCA,

STATGRAPHICS, G-STAT STUDENTS, que corren en un ordenador sin mayores

exigencias técnicas, permitiendo el manejo de grandes volúmenes de información y de

variables.

La estadística, es una herramienta imprescindible en todas las ciencias, de donde

proviene la desconcertante des-uniformidad en las definiciones de los diferentes autores,

ya que cada estudioso la define de acuerdo con lo que utiliza de ella.

La estadística hace inferencias sobre una población, partiendo de una muestra

representativa de ella. Es a partir del proceso del diseño y toma de la muestra desde

donde comienzan a definirse las bondades y confiabilidad de nuestras aseveraciones,

hechas, preferentemente, con un mínimo costo y mínimo error posible.

1.2. ¿Qué es la Estadística?

Son muchas las definiciones que se han dado de la Estadística, considerada por algunos

como ciencia y por otros como un método científico utilizado por diversas ciencias.

Entre estas tenemos:

1. Es una ciencia que estudia los fenómenos colectivos, mediante la observación

numérica, el análisis matemático y la interpretación lógica, investigando

especialmente sus causas y sus leyes.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 8

2. Conjunto de métodos destinados a medir y analizar los hechos por medio de

números investigando las relaciones existentes entre los mismos.

3. Es un método que permite no solo describir el hecho o fenómeno, sino deducir y

evaluar conclusiones acerca de una población, utilizando resultados

proporcionados por una muestra.

4. Rama de las matemáticas que se ocupa de reunir, organizar y analizar datos

numéricos y que ayuda a resolver problemas como el diseño de experimentos y

la toma de decisiones.

5. Es un conjunto de técnicas que se han desarrollado para la recolección,

organización, análisis e interpretación de datos numéricos y el uso de tales datos

para la toma de decisiones racionales.

1.3. Importancia de la estadística

Su importancia radica en que hace una simbiosis (unión, fusión) con la vida

contemporánea, porque esta requiere de la Estadística para indicar en términos

cuantitativos el comportamiento y tendencia de casi todos los fenómenos colectivos,

sean estos: económicos, sociales, educativos, políticos, meteorológicos, físicos,

químicos, médicos, religiosos y demográficos, y por el lado de la Estadística, este uso

frecuente y necesario coadyuva a su desarrollo y a la búsqueda de su perfección como

disciplina científica.

1.4. Aplicación y campos de aplicación de la estadística

La aplicación puede darse en varios niveles, desde lo que requieren técnicas muy

elaboradas hasta los que solo necesitan la organización de un conjunto de datos en

tablas, la construcción de algunas graficas o el cálculo de ciertos promedios.

La compresión y uso de la Estadística nos permite comunicar más exactamente los

descubrimientos de las investigaciones estadísticas; es también un instrumento, que

utilizado con cuidado y precisión, no permite describir nuestros resultados y adoptar

decisiones respecto a lo que nos dicen.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 9

La teoría general de la Estadística es aplicable a cualquier tamaño científico en el cual

se hacen observaciones. Las primeras aplicaciones se dieron en los asuntos de

gobierno, luego se utilizaron las compañías de seguros y los empresarios de juegos de

azar, después los comerciantes, los industriales, los educadores, etc. Actualmente es

difícil indicar profesiones que no utilicen la Estadística. Esta puede utilizarse en varios

niveles, desde los que requieren técnicas muy elaboradas hasta los que solo necesitan la

organización de un conjunto de datos en tablas, la construcción de algunas graficas o el

cálculo de ciertos promedios.

La Estadística en los negocios:

a) Es el medio que utilizan los comerciantes para conocer y prever el crecimiento

de sus negocios.

b) Sirve para preparar la campaña de propaganda, conocer las ventas, controlar los

procesos de producción, fluctuaciones de precios, necesidad de compras.

Porque es necesario seguir el movimiento de las mercaderías, la marcha de las

importaciones y de las exportaciones. Todo esto se hace actualmente utilizando

las computadoras.

Investigación descriptiva

a) Los estudios descriptivos son diseñados para describir algo, por ejemplo: las

características de los usuarios de un producto dado; el grado en que el uso del

producto varía con el ingreso, la edad, el sexo u otras características; o el

número de personas que vio un anuncio especifico en televisión. La mayoría de

los estudios de investigación de mercados son de este tipo.

1.5. División de la estadística

En base a lo que se ha dicho se concluye, que la Estadística como disciplina o área de

estudio comprende técnicas descriptivas como inferenciales. Incluye la observación y

tratamiento de datos numéricos y el empleo de los datos estadísticos con fines

inferenciales. Para su estudio se clasifica de la siguiente forma:

Estadística descriptiva y

Estadística Inferencial

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 10

1.5.1. Estadística descriptiva

El origen de la Estadística descriptiva puede relacionarse con el interés por mantener

registros gubernamentales hacia fines de la Edad Media. Cuando los estados

nacionalistas empezaron a surgir durante ese período, se volvió necesario obtener

información acerca de los territorios bajo la jurisdicción de cada nación. Esta necesidad

de información numérica acerca de los ciudadanos y recursos lleva al desarrollo de

técnicos para obtener y organizar datos numéricos.

Hacia fines del siglo XVII, ya existían investigaciones semejantes a nuestros censos

modernos. Al mismo tiempo, las compañías de seguros empezaban a recopilar tablas de

mortalidad para determinar las primas de seguros de vida.

En las primeras etapas de desarrollo, la estadística incluía poco más que la obtención,

clasificación y presentación de datos numéricos. Aún hoy en día, estas actividades

siguen siendo una parte importante de la Estadística.

A continuación se da una definición de Estadística Descriptiva.

La Estadística Descriptiva es el estudio que incluye la obtención, organización,

presentación y descripción de información numérica

Ejemplo 1.- Un director de escuela desea conocer las aptitudes de cinco secretarias que

trabajan en dicha institución. Se aplica una prueba de aptitudes a las cinco secretarias y

las calificaciones son 82, 85, 95, 92 y 91. La medida estadística que emplea el Director

es la aptitud promedio o media aritmética, la cual es la suma de los valores obtenidos

dividida por el número de observaciones. Entonces, la calificación promedio es:

82 + 85 + 95 + 92 + 915 =

4455 = 89

El cálculo de la media aritmética, es una parte importante de la estadística descriptiva.

El resultado se limita a los datos obtenidos en este caso particular y no implica ninguna

inferencia o generalización acerca de las aptitudes de otras secretarias.

La descripción de los datos también puede hacerse usando representaciones gráficas

como veremos posteriormente.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 11

1.5.1. Estadística Inferencial

Si el interés del Director de la escuela va más allá de la información obtenida, necesitará

otras técnicas distintas a loa métodos descriptivos. Por ejemplo; podría desear conocer

la aptitud promedio de las demás secretarias, pero carece del tiempo o de los recursos

para aplicar una prueba a todas ellas. Podría utilizar la calificación promedio de las

cinco secretarias como base para realizar una inferencia o estimación acerca de la

aptitud promedio de todas las secretarias. Con ese fin, necesitará conocer otra rama de

la Estadística conocida como Estadística Inferencial o Inferencia Estadística.

La inferencia estadística es una técnica mediante la cual se obtienen generalizaciones

o se toman decisiones en base a una información parcial o completa obtenida

mediante técnicas descriptivas

Para concluir diremos que existe otra gran división de las técnicas estadísticas:

a) Estadística Paramétrica.

b) Estadística No Paramétrica.

La Estadística Paramétrica es un conjunto de técnicas desarrolladas para niveles altos de

medición como el de intervalos. Los métodos paramétricos permiten hacer inferencias

acerca de parámetros poblacionales de las distribuciones. Estos métodos fueron los

primeros en ser desarrollados por los investigadores de la Estadística.

La Estadística no paramétrica es un conjunto de técnicas diseñadas para niveles de

mediciones menores, por ejemplo, el nominal y ordinal, para efectuar estimaciones no

habrá parámetros en estricto sentido. A los procedimientos estadísticos que no

dependen para su validez de la forma funcional de la distribución original de la

población se les denomina procedimientos no paramétricos o libres de distribución.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 12

1.6. La estadística como ciencia y método de la investigación científica

1.6.1. La estadística como ciencia

CIENCIA ESTADÍSTICA

Tienen su propio objeto de estudio. Por

ejemplo: la Matemática, los números y

las magnitudes; las Ciencias Naturales,

los fenómenos físicos

Poseen su método de investigación:

inductivo, deductivo, experimental, etc…

Es un conjunto de conocimiento

ordenados sistemáticamente que

contiene: hipótesis, teorías, principios,

leyes, etc…

Tienen investigadores que contribuyen al

desarrollo de las ciencias

Tienen su propio de estudio: los

fenómenos colectivos de diversa

naturaleza

Posee su método de investigación, que se

denomina precisamente método

estadístico

Es un conjunto de conocimientos

ordenados sistemáticamente que contiene:

hipótesis, teorías, principios, leyes,

etc…(ley de probabilidades)

Tiene investigadores estadísticos que

contribuyen a su desarrollo

1.6.2. La estadística como método de investigación científica

MÉTODO DE INVESTIGACIÓN MÉTODO ESTADÍSTICO

Conjunto de técnicas y procedimientos

ordenados sistemáticamente

Siguen una serie de pasos lógicos y

naturales: planificación, programación,

realización del experimento, observación,

análisis y obtención de resultados

Orientados a establecer la relación entre

causa y efecto

Establecer un camino para tratar de llegar

a la verdad

Es un conjunto de técnicas y

procedimientos ordenados

sistemáticamente

Planificación, programación, recopilación

de datos, procesamiento, análisis e

interpretación de los resultados obtenidos

Tratar de establecer la relación entre causa

y efecto

Establecer un camino para tratar de llegar

a la verdad

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 13

1.7. Población y muestra

Población (ó universo): es la totalidad de elementos sujetos a un estudio, a partir del

cual se podrán sacar conclusiones.

Muestra: es una porción de la población que es seleccionada para su análisis. Si el

objetivo es aplicar la estadística inferencial, la muestra debe ser representativa de la

población para que las inferencias obtenidas de ésta, sean aplicables a toda la población,

para que sea considerada representativa se debe seguir alguna técnica de muestreo

Existen dos métodos para seleccionar muestras:

Muestreo Aleatorio: en este tipo de muestreo todos los elementos de la población tienen

la misma probabilidad de ser seleccionados. Los métodos de muestreo aleatorio son:

Muestreo Simple: La forma más fácil de escoger a los elementos que

conformarán la muestra es mediante el uso de números aleatorios, lo más simple

es generarlos en la calculadora o en la computadora, éstos determinarán la

posición del elemento del listado de la población que ha de ser seleccionado.

Muestreo Sistemático: los elementos son seleccionados dentro de un intervalo

uniforme que se mide con respecto al tiempo, al orden o al espacio. Por ejemplo,

cada 15 min seleccionar a un estudiante, seleccionar a cada décimo estudiante

que entra a la universidad, etc.

Muestreo Estratificado: se divide a la población en grupos relativamente

homogéneos, llamados estratos, y seleccionamos proporcionalmente de cada

estrato los elementos para formar la muestra.

Muestreo por Conglomerado: se divide la población en grupos, donde

suponemos que cada uno de ellos son representativos de la población como un

todo, es decir los elementos de los grupos son heterogéneos entre sí.

Tanto en el muestreo estratificado como en el de por conglomerado, la población de

divide en grupos bien definidos. Usamos el muestreo estratificado cuando cada grupo

tiene una pequeña variación dentro de sí mismo, pero hay una amplia variación entre los

grupos. Usamos el muestreo por conglomerado en el caso opuesto, cuando hay una

considerable variación dentro de cada grupo, pero los grupos son esencialmente

similares entre sí.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 14

Muestreo No Aleatorio o de Juicio: en este tipo de muestreo el criterio que se toma es

el conocimiento y la opinión personal, basada en la experiencia de alguien con la

población, para identificar aquellos elementos de ésta que deben incluirse en la muestra.

1.8. Escalas de medición

Existen cuatro tipos de escalas: nominal, ordinal, de intervalos y de razones.

Las escalas nominales.- se utilizan como medidas de identidad. Los números sirven

de indicativos para identificar objetos o clases. Ejemplo: las personas que puede

clasificar según el sexo, por su religión, el color de los ojos, etc…

La escala ordinal.- es donde los números reflejan el orden o la jerarquía de individuos u

objetos. Estas medidas se disponen desde la más alta a la más baja o viceversa. Las

medidas ordinales revelan que persona u objeto es de mayor o menor talla, o si un

objeto es más duro o más suave que otro, etc…

La escala de intervalos.- Proporciona números que reflejan diferencias entre individuos

u objetos. En este tipo las unidades de medición son iguales. Ejemplo: las escalas de los

termómetros Celsius y Fahrenheit, la del tiempo y las puntuaciones obtenidas en

pruebas o test de inteligencia. Los valores estadísticos que utilizan esta escala son: la

media aritmética, la desviación estándar y el coeficiente de correlación.

La escala de razones.- Son números que indican razones o cocientes entre ciertas

magnitudes de los objetos y los datos obtenidos con estas escalas pueden ser sometidos

a tratamientos estadísticos más elaborados. La escala de razones más comunes

corresponde a medidas de longitud, peso, capacidad, sonido, etc. Ejemplo: un peso de

80 libras es 4 veces mayor que uno de 20 libras.

1.9. Tipos de variables

Una variable es una característica que puede tener diferentes valores en los distintos

elementos o individuos de un conjunto. Ejemplos: el número de jornadas de trabajo con

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 15

que puede funcionar una fabrica, es el que puede ser de 1, 2, o 3; el precio de un

producto, etc.

Los símbolos que se utilizan en las variables son las ultimas letras del alfabeto: 푥, 푦, 푧.

Según el tipo de valores que puede tomar una variable se clasifican en cualitativas y

cuantitativas.

Variables cualitativas.- Son las variables cuyos valores posibles son cualidades o

atributos. Ejemplos: la estatura de un persona que puede ser baja, mediana o alta; el

sexo de una persona, la residencia, el color de los ojos, etc…

Variables cuantitativas.- Son las variables cuyos valores pueden tomar una expresión

numérica. Ejemplos: el precio de un producto, el salario, etc…

Una variable cuantitativa puede ser: continua y discreta.

Variables cuantitativa continua.- Se da cuando los valores numéricos que forman la

variable en un intervalo cualquiera son infinitos. Ejemplos:

Se necesita contratar a una persona para laborar como guardián; un requisito

podría ser que sea con una estatura mínima de 1.65 metros. y una estatura

máxima de 1.70 metros,

El volumen de un cilindro.

La velocidad de un caballo pura sangre.

El tiempo.

Variables cuantitativa discreta.- Es la variable cuyos valores numéricos se pueden

contar o son finitos en un intervalo cualquiera. Ejemplos:

El número de hijos que puede tener una pareja.

El numero 푥 de personas que pueden morir al accidentarse un bus que

lleva adentro 45 personas.

Variables dependientes e independientes

Una variable es dependiente si es el efecto de otra y es independiente si es la causa del

valor de otra.

Variable por atributos

Es la cuantificación de elementos con cualidades.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 16

1.10. Ejercicios

I. Identifica el tipo de variable y su escala de medición en cada uno de los siguientes

casos:

a) El salario de los trabajadores de una empresa

b) El número de personas que votan por un partido político

c) La calidad del servicio de una telefonista

d) El recorrido diario de los autobuses de Macas

e) El número de familias que asisten al día a un centro de diversiones

f) Estado civil de un grupo de trabajadores

II. Contesta las preguntas de los siguientes casos prácticos:

1. Se quiere saber el gasto que un estudiante realiza al mes. Uno de los gastos que hace

un estudiante es su alimentación y transporte. Se toma una muestra de 30 alumnos para

realizar el estudio. Sea "x" el gasto mensual en alimentación y transporte que realiza un

estudiante de cierta Universidad. Describa cuidadosamente:

a) La población.

b) La muestra

c) La variable y de qué tipo es

d) Escala de medición empleada

2. En un estudio realizado a jóvenes de la Ciudad de Quito, se determinó que el 30% del

grupo estudiado realiza un deporte fuera de su actividad escolar. Describe:

a) La población

b) La muestra

c) La variable y de qué tipo es

d) Escala de medición empleada

e) Es observación ó experimento

f) Es un estadístico ó parámetro

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 17

3. Indica a que escala de medición se refiere cada enunciado:

a) Calificación de los alumnos de un grupo de probabilidad

b) Clasificación de los empleados de una universidad (administrativos, de

servicios, docentes).

c) Edades de mujeres que trabajan en el sector productivo.

d) La temperatura en °C en los últimos días de cierta ciudad

e) Servicio de la cajera de una tienda departamental

4. Suponga que se obtiene la siguiente información de Juan Domínguez, a su ingreso a

la enfermería de la escuela:

a) Sexo: Masculino

b) Residencia: Santiago

c) Clase: 2° año

d) Temperatura: 37°C

e) Pulso: 70 pulsaciones por minuto

f) Presión arterial: 130/80 mgs/mm

g) Tipo de sangre: B positiva

h) Alergias conocidas a medicamentos: no

i) Diagnóstico preliminar: gripe

j) Permanencia estimada de reposo: 3 días

Clasifique cada una de las diez respuestas de acuerdo con el tipo de datos y con la

escala de medición.

5. En una encuesta que realiza Banamex a sus cuenta- habientes, aparecen las siguientes

preguntas entre otras:

¿Cuenta con Tarjeta de crédito?

¿Cuál es su límite de crédito?

¿Cómo es el trato que recibe del ejecutivo de su sucursal?

¿Cuántos son los movimientos que realiza normalmente en el banco?

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 18

La intención es realizar el estudio a un grupo de 50 clientes para tomar decisiones en

cuanto a la capacitación que debe recibir el personal de las sucursales del estado de

Puebla. Responde las siguientes preguntas:

a) Describe cada una de las variables consideradas en el estudio y de qué tipo

son.

b) Que escala de medición emplearías en cada una de las variable y porqué?

c) Describe la población

d) Describe la muestra

e) Los resultados obtenidos del estudio serían estadísticos ó parámetros.

1.11. Glosario

Estadística descriptiva: Consiste esencialmente en la recopilación de datos, su

organización y presentación ( en forma tabular y/o gráfica ) así como el cálculo de

medidas estadísticas representativas con el objeto de poder analizar en forma fácil y

rápida al conjunto de datos.

Estadística inferencial: Consiste en la interpretación y generalización de los resultados

obtenidos del estudio estadístico descriptivo de una muestra para su utilización en la

toma de decisiones de una población.

Estadística: Conjunto de técnicas para la colección, organización, presentación, manejo,

descripción y análisis de información, de manera que las conclusiones obtenidas de ella

tengan un grado de confiabilidad especificado.

Población: Conjunto de todos los elementos (individuos u objetos) que se están

estudiando, acerca de los cuales se intenta sacar conclusiones.

Muestra: Es un subconjunto de elementos de una población, que es considerada como

representativa de la cual pueden obtenerse importantes inferencias de toda la población.

Variable: Característica de interés acerca de cada elemento de una población o una

muestra.

Dato: Valor de la variable asociado a un elemento de una población o una muestra.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 19

Parámetro: Característica que describe a una población.

Estadística: Característica que describe a una muestra.

Dato cualitativo o atributo: Resultado de un proceso que categoriza o describe un

elemento de una población.

Dato cuantitativo o numérico: Resultado de un proceso que cuantifica, que cuenta o

mide.

Datos numéricos discretos: Aquellos que surgen de un conteo.

Datos numéricos continuos: Aquellos que surgen de una medición.

Observación: Observar y Medir características especificas, sin manipular ni modificar a

los sujetos estudiados

Experimento: Aplicación de un tratamiento a los sujetos de estudio, observación y

medición de su efecto sobre los sujetos

Escala de medición nominal: Sólo categorías. Los datos no pueden acomodarse en un

esquema de ordenamiento. No existe una relación de magnitud entre las categorías

Escala de medición ordinal: Las categorías están ordenadas, pero no es posible

determinar diferencias, o éstas carecen de significado. Ordenan los elementos de

acuerdo si poseen más, menos o igual cantidad de la variable medida

Escala de medición intervalo: Se pueden calcular diferencias entre valores, pero no

existe un punto de partida inherente. Los cocientes no tienen significado

Escala de medición de razón o proporción: Con un punto de partida inherente. Los

cocientes tienen significado.

1.12. Presentación de datos

Una vez que se han obtenido los datos y que se ha hecho el estudio de los valores que

pueden tomar las variables, la primera tarea de la Estadística es la de ordenar y presentar

los datos en tablas que permitan ver la tendencia de los mismos. Ordenados los datos se

facilita su representación en diagramas y gráficas de diferentes tipos.

En esta unidad se verá la forma de describir, presentar, ordenar, resumir la información

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 20

en tablas y su presentación en diferentes tipos de gráficas.

1.13. Distribución de frecuencias

Los datos agrupados en tablas, nos permiten ver con facilidad el número de

observaciones iguales o comprendidos en un intervalo, a este número de repeticiones

iguales de la variable se llama frecuencia y se denota por 푓푖. Otros valores relacionados

con la frecuencia son:

La frecuencia relativa que se denota por 푓푟.

La frecuencia acumulada que se denota por 퐹푖.

La frecuencia relativa acumulada que se denota 퐹푟.

En esta unidad analizaremos, ejemplificaremos y graficaremos los datos de estos

conceptos.

Escalas de Medición.

La clasificación que hemos hecho de las variables, depende del nivel de medición de la

característica deseada. El nivel de medición también denominados escalas de medición,

lo podemos clasificar en:

1. Nominal.

2. Ordinal.

3. Por intervalo.

De acuerdo con esta clasificación podrás notar que dependen del tipo de variable que se

analiza y por lo tanto reciben el mismo nombre de éstas.

Ejemplo 1.1. En una carrera de caballos realizada en el hipódromo de la ciudad de

Quito en septiembre del año 2010 corrieron 10 caballos, los cuales se numeraron de la

siguiente forma:

10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 21

Al finalizar la carrera, el primer lugar lo obtuvo el 13, el segundo lugar el 19, y el tercer

lugar el 16. El primer lugar hizo un tiempo de 15.3 minutos, el segundo lugar 15.5 y el

tercer lugar 15.8 minutos.

Definición de variables:

a) Número de caballo (variable cualitativa nominal).

b) Lugar que ocupó (variable cualitativa ordinal).

c) Tiempo que hizo (variable cuantitativa continua).

Definición de escalas de medición:

a) Nominal (numeración de los caballos).

b) Ordinal (lugar ocupado en la carrera).

c) Por intervalos (tiempo durante el recorrido).

A partir de este ejemplo podemos establecer las siguientes definiciones:

Escala nominal es la que se usa para asignarle una etiqueta a las categorías que se

construyen de la variable con el único fin de distinguir unas de otras.

Escala ordinal es la que permite ordenar o jerarquizar las categorías que se construyen

de la variable que se evalúa.

Escala de medición por intervalos es la que permite clasificar, ordenar y cuantificar las

categorías que se establecen de la variable.

La escala de medición por intervalos es la de mayor nivel de medición e incluye las dos

anteriores; para poder usarse con la precisión deseada es necesario fijar un patrón de

medida que cuantifique a la variable con la misma exactitud, cuantas veces sea medida.

Algunos de los patrones que se usan son: Años, kilos, litros, pesos, etcétera.

1.14. Distribución de frecuencias absolutas y relativas

Las primeras tareas de la Estadística descriptiva son ordenar, clasificar y resumir los

datos obtenidos en la investigación de campo, para ello se concentran en tablas de

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 22

frecuencia y éstas pueden ser:

a) Absoluta.

b) Relativa.

c) Acumulada.

Con el análisis de las frecuencias podemos determinar la tendencia de la variable en

estudio que como ya se dijo, ésta puede ser nominal, ordinal o cuantitativa y sus

respectivas escalas de medición: nominal, ordinal o por intervalos, respectivamente.

Definición 1.1. Frecuencia es el número de veces que se repite la misma observación.

Se simboliza con 푓푖

Ejemplo 1.2. Un docente de la ESPOCH, extensión Morona Santiago dio una

conferencia a un grupo de estudiantes de nivel medio de la ciudad de Macas sobre las

características y bondades de las carreras de Ecoturismo (E), Sistemas (S), Minas (M) y

Zootecnia (Z). Al final de la conferencia pidió que llenaran un cuestionario donde

especificaron además de los datos personales, la carrera de preferencia. Se obtuvieron

los siguientes resultados:

E, Z, M, S, S, M, Z, E, M, S, Z, S, E, S, M, S, M, M, Z, S, E, S, M, E, E, S, M, M, Z, E,

M, Z, Z, S, E, M, S, S, Z, M, Z, S, M, Z, S,

Con estos datos, se elabora la siguiente tabla de frecuencias:

Carreras que prefieren los estudiantes de nivel medio de la ciudad de Macas

Carreras Número de estudiantes Frecuencia 풇

Ecoturismo 8

Sistemas 14

Minas 13

Zootecnia 10

Total 45

El número de columnas de una tabla es variable y depende de la información que se

quiera registrar. En nuestro ejemplo podemos suprimir la columna 2 que representa el

conteo de la variable el cual se puede realizar en otras hojas de trabajo. Mientras que en

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 23

la tercera columna se registra la frecuencia.

Del ejemplo se deduce la siguiente información:

a) Variable: Carrera de preferencia.

b) Tipo de variable: Cualitativa nominal.

c) Tipo de escala: Nominal.

d) Carrera de mayor aceptación: Sistemas.

e) Carrera de menor aceptación: Zootecnia.

Considerando la tabla del ejemplo 1.2 podemos notar que las partes de una tabla de

frecuencias deben contener las siguientes partes:

1. Título. Describe la información más importante del problema como es:

a) La variable.

b) La muestra o población.

c) A quién corresponde la muestra.

2. Encabezado. Describe el tipo de información que se describe en cada columna.

3. Cuerpo. Agrupa el contenido de la información.

4. Final. En el final se registran los totales.

5. Fuente. En esta parte se debe especificar: cómo, quién, en dónde y cuándo se

tomaron los datos.

Estas partes son comunes a todas las tablas que se elaboren en un estudio, para que el

que las analice tenga toda la información y pueda hacer deducciones de los resultados.

Ejemplo 1.3. El gerente de una Empresa, Kimberly preocupado por el pago de energía

consumida solicito al jefe de planta, un estudio del consumo diario durante el mes de

agosto. Los resultados obtenidos. 푘푤/ℎ (Kilowatios por hora) son los siguientes:

Consumo (푘푤/ℎ) 풇풊

5 2

6 3

7 4

8 5

9 6

10 5

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 24

11 3

12 2

Total 30

Contestar las siguientes preguntas:

a) Definir la variable del problema R. Consumo en 푘푤/ℎ

b) ¿Qué tipo de variable es? R. Cuantitativa

c) ¿Qué valores toma la variable? R. rango de 5 a 12 푘푤/ℎ

d) ¿Qué tipo de escala define la variable? R. Por intervalos

e) ¿Cuál es la mayor frecuencia de la variable? R. 6

f) ¿Qué frecuencia tiene la variable cuya categoría es 10? R. 5

Ya quedó establecido que el número de veces que se repite la misma observación se

llama frecuencia absoluta (푓푖) y el conocimiento de esta variable nos permite inferir

otro conocimiento. En el ejemplo 3.3 podemos ver en cuántos días hubo el mismo

consumo, en cuántos días hubo el menor consumo o en cuántos días hubo el mayor

consumo. También podemos inferir hacia dónde se carga el mayor o menor consumo.

Otro parámetro importante es la frecuencia relativa que simbolizaremos con 푓푟, ésta se

obtiene dividiendo la frecuencia absoluta (푓푖) entre el número de elementos de la

muestra que simbolizaremos con (푛). La definición matemática es:

푓푟 = (ec. 1)

De la ecuación (1) se puede observar que la frecuencia relativa se expresa como una

razón, como una proporción o como un porcentaje (%).

Ejemplo 1.4. La puntuación obtenida en un examen que se aplicó a 100 obreros de la

fábrica de vidrio el Fanal, es la que se muestra en la siguiente tabla de frecuencias:

Puntuación 풇풊 razón Frecuencia relativa 풇풓

proporción porcentaje

0 1 1/100 0.01 1 %

1 2 2/100 0.02 2 %

2 3 3/100 0.03 3 %

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 25

3 5 5/100 0.05 5 %

4 6 6/100 0.06 6 %

5 8 8/100 0.08 8 %

6 20 20/100 0.20 20 %

7 25 25/100 0.25 25 %

8 15 15/100 0.15 15 %

9 10 10/100 0.10 10 %

10 5 5/100 0.05 5 %

Total 100 100/100 1.00 100 %

Analizar la tabla anterior y contestar las siguientes preguntas:

a) ¿Cuál es la variable del problema?

b) ¿Qué escala define a la variable?

c) ¿Qué puntuación tiene la mayor frecuencia?

d) ¿Qué porcentaje de obreros reprobó el examen si la calificación aprobatoria es

de 6 a 10?

e) De este resultado, ¿qué puede inferir el jefe del departamento de capacitación?

Definición 1.2. La frecuencia relativa es la proporción de elementos que pertenecen a

una categoría y ésta se obtiene dividiendo su frecuencia absoluta entre el número total

de elementos de la muestra.

Hasta el momento, en los problemas que se han analizado las muestras son pequeñas (푛

es pequeño). Sin embargo cuando la muestra o población se compone de un

considerable número de elementos, la tabla de frecuencias se elabora agrupando los

datos en clases y ahora la tabla se llama Tabla de frecuencias con datos agrupados.

La formación de clases o intervalos de clase que se simboliza con (푘) es muy variado y

depende generalmente del tamaño del rango de la población o muestra.

Definición 1.3. El rango (푅) es el intervalo en que se distribuyen los datos en

observaciones de una muestra y se determina restándole al mayor valor el menor valor.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 26

La definición matemática del rango es:

푅 = 푥 − 푥 (ec. 2)

Donde: 푥 es el valor mayor y 푥 es el valor menor.

No existe alguna ley que defina cómo obtener el número de clases; pero la experiencia

recomienda que no sea menor que 5 ni mayor de 20, esto es:

5 ≤ 푘 ≤ 20 (ec. 3)

Donde 푘 corresponde al número de clases. Una vez definido el número de clases (푘),

para obtener la amplitud de clase (퐴) se aplica la siguiente ecuación:

퐴 = (ec. 4)

Otra forma de determinar el número de intervalos de clase (푘) es mediante la ecuación

de Sturges y ésta es:

푘 = 1 + 3.322 (푙표푔 푛) (ec. 5)

Donde: 푘 es el número de intervalos, 푛 el tamaño de la muestra y 푙표푔 corresponde a un

logaritmo en base 10.

Ejemplo 1.5. El gerente de una compañía de ventas al mayoreo de diferentes tipos de

mercancías desea conocer el comportamiento de las llamadas telefónicas durante los

meses de marzo y abril del año en curso; por lo que le encomienda a su secretaria que

realice esa investigación. La secretaria obtuvo los siguientes datos, en número de

llamadas por día:

30, 38, 36, 35, 29, 28, 30, 35, 40, 48, 50, 20, 25, 56, 30

27, 29, 46, 41, 31, 31, 31, 39, 28, 36, 37, 52, 44, 49, 52

56, 58, 40, 39, 38, 40, 27, 24, 30, 32, 35, 38, 26, 25, 24

60, 55, 48, 37, 31, 30, 22, 20, 24, 26, 23, 22, 28, 27, 48

Realizar las siguientes operaciones:

1. Ordenar la información en sentido creciente.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 27

20, 20, 22, 22, 23, 24, 24, 24, 25, 25, 26, 26, 27, 27, 27, 28

28, 29, 29, 30, 30, 30, 30, 30, 31, 31, 31, 32, 35, 35, 35, 36

36, 37, 37, 38, 38, 38, 38, 39, 39, 40, 40, 40, 41, 44, 46, 48

48, 48, 49, 50, 52 ,52, 55, 56, 56, 57, 58, 60

2. Determinar 푥 y 푥

푥 = 20 y 푥 = 60

3. Calcular el rango 푅.

푅 = 푥 − 푥 = 60− 20 = 40

4. Calcular 푘 mediante la ecuación de Sturges.

푘 = 1 + 3.322 (푙표푔 푛) = 1 + 3.322 (푙표푔 60) = 6.9 ∼ 7

5. Determinar la amplitud de la clase 퐴.

퐴 = = = 5.7

6. Elaboramos la tabla de frecuencias con datos agrupados; para ello colocamos el

primer intervalo en el primer renglón y formamos los siguientes de acuerdo con

la amplitud.

Cada uno de los intervalos de clase debe contener 6 valores en total.

Clases (풌) 풇풊 Razón Frecuencia relativa 풇풓

proporción porcentaje

20 - 25 10 10/60 0.17 17 %

26 – 31 17 17/60 0.28 28 %

32 – 37 8 8/60 0.13 13 %

38 – 43 10 10/60 0.17 17 %

44 – 49 6 6/60 0.10 10 %

50 – 55 4 4/60 0.07 7 %

56 – 61 5 5/60 0.08 8 %

Total 60 60/60 1.00 100 %

El uso de los intervalos de clase es con la finalidad de condensar la información para

facilitar su manejo. Los valores extremos de cada clase se conocen como límites de

clase. El valor menor se llama límite inferior de la clase y el mayor se llama límite

superior de clase.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 28

Si analizamos los intervalos de clase del ejemplo anterior podemos notar lo siguiente:

De un intervalo a otro hay un salto por ejemplo:

1er. Intervalo 20 – 25

2do. Intervalo 26 – 31

Veamos en la siguiente gráfica lineal.

En la gráfica podemos ver que al formar los intervalos de clase hay un valor entre clase

y clase que se pierde. Como la variable es discreta sabemos que entre estos valores no

hay ninguna información que se pierda; pero ¿qué pasa si la variable es continua?, en

estos casos si hay la posibilidad que entre el 25 y 26 se pierdan los valores

comprendidos como es 25.1, 25.3, 25.6, etcétera.

Para evitar este error, si la variable es continua, entonces después de haber determinado

los límites de clase, se fijan otros límites que inician medio punto antes y medio punto

después; de esta forma no hay posibilidad de perder información. A cada uno de estos

nuevos límites se le llama límite real de clase. Consideremos el mismo ejemplo

anterior.

Clases (풌) Límites reales

20 - 25 19.5 – 25.5

26 – 31 25.5 – 31.5

32 – 37 31.5 – 37.5

38 – 43 37.5 – 43.5

44 – 49 43.5 – 49.5

50 – 55 49.5 – 55.5

56 – 61 55.5 – 61.5

Si representamos los límites reales de clase en una gráfica lineal podemos observar que

ya no hay saltos entre cada clase:

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 29

Al cambiar los límites reales de clase, el valor del intervalo de clase (A) no cambia y

para determinarlo aplicamos la siguiente ecuación:

퐴 = 푥 − 푥 (ec. 6)

Donde: 푥 es el límite superior de cualquier clase y 푥 es el límite inferior de la misma

clase considerada. Por ejemplo para la 4ta. Clase del ejemplo anterior, tendremos:

푥 = 43.5 y 푥 = 37.5, que sustituyendo en (6) obtenemos 퐴 = 43.5 – 37.5 = 6.

Apliquemos ahora la misma ecuación para la misma clase si la variable es discreta:

푥 = 43 y 푥 = 38, entonces 퐴 = 43 – 38 = 5. De este resultado se infiere que para la

variable discreta debe aplicarse la siguiente ecuación:

퐴 = 푥 − 푥 + 1 (ec. 7)

Otra característica importante del intervalo de clase o marca de clase es el punto medio

de clase o marca de clase (푀푖)

Definición 1.4. La marca de clase es el valor del punto que se localiza a la mitad del

intervalo de cada clase o intervalo real de clase.

Su definición matemática es:

푚 = (ec. 8)

Determinemos los puntos medios o marcas de clase para el ejemplo 1.5 anterior en los

dos tipos de intervalos.

Límite de Clases

(variable discreta)

Límites reales de clase

(variable continua)

clases 푴풊 clases 푴풊

20 - 25 22.5 19.5 – 25.5 22.5

26 – 31 28.5 25.5 – 31.5 28.5

32 – 37 34.5 31.5 – 37.5 34.5

38 – 43 40.5 37.5 – 43.5 40.5

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 30

44 – 49 46.5 43.5 – 49.5 46.5

50 – 55 52.5 49.5 – 55.5 52.5

56 – 61 58.5 55.5 – 61.5 58.5

De la tabla se deduce que el punto medio de clase (푀푖) o marca de clase es el mismo en

cada clase para ambas variables (discreta o continua).

Hasta el problema anterior hemos mostrado cómo organizar los datos en una tabla de

frecuencia de datos agrupados en clases y también hemos incluido la fracción o

porcentaje de cada clase (푓푟). Esta información nos ha permitido hacer algunas

inferencias.

A continuación veremos otra característica de la muestra que nos permitirá un análisis

más amplio de los resultados.

1.15. Distribución de frecuencias acumuladas

La frecuencia acumulada (퐹푖) es otra característica de la muestra que nos permitirá

determinar la posición de un caso particular que nos interese en comparación con el

total de los elementos.

Definición 1.5. Frecuencia acumulada (퐹푖) de una clase es la que se obtiene sumando

las frecuencias de las clases anteriores con la frecuencia de ésta.

Su definición matemática es:

퐹 = ∑ 푓 + 푓 + 푓

퐹 = ∑ 푓 + 푓 + ⋯+ 푓 (ec. 9)

Al calcular la frecuencia acumulada (퐹푖) podemos determinar su frecuencia relativa

acumulada (퐹푟) en la forma ya explicada mediante la ecuación (1), esto es:

퐹푟 = (ec. 10)

Regresemos al problema de las llamadas telefónicas en el ejemplo 3.5 y calculemos la

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 31

frecuencia acumulada (퐹푖) y la frecuencia relativa acumulada (퐹푟).

Clases Límites reales Marca de Clase (푴풊) 풇풊 풇풓 Frecuencia acumulada

푭풊 푭풓

20 - 25 19.5 – 25.5 22.5 10 0.17 10 0.17

26 – 31 25.5 – 31.5 28.5 17 0.28 27 0.45

32 – 37 31.5 – 37.5 34.5 8 0.13 35 0.58

38 – 43 37.5 – 43.5 40.5 10 0.17 45 0.75

44 – 49 43.5 – 49.5 46.5 6 0.10 51 0.85

50 – 55 49.5 – 55.5 52.5 4 0.07 55 0.92

56 – 61 55.5 – 61.5 58.5 5 0.08 60 1.00

Total 60 1.00

La frecuencia acumulada para la 4ta. Clase es 퐹 = 45; de este valor se infiere que hasta

esta clase corresponden 45 de las 60 observaciones realizadas. También se infiere que a

esta clase corresponden un número menor o igual a 43 llamadas telefónicas.

La frecuencia relativa de esta clase es F = 0.75. este valor significa que hasta esta clase

corresponde el 75% de todas las llamadas.

Cómo se puede observar en la tabla anterior, la frecuencia acumulada nos permite

determinar el número de llamadas menor o igual que el límite superior de la clase

correspondiente, por lo tanto a esta columna la podemos significar con el término menor

que.

Si queremos determinar el número de llamadas mayor que, lo que tenemos que hacer es

des acumular la frecuencia y para ello en lugar de sumar restamos al número de

observaciones (푛) la frecuencia de la clase (퐹푖) correspondiente. Esto es:

Clases Marca de Clase

(푴풊) 풇풊 풇풓

푭풊 acumulada 푭풓 relativa

menos que más que menos más

20 - 25 22.5 10 0.17 10 50 0.17 0.83

26 – 31 28.5 17 0.28 27 33 0.45 0.55

32 – 37 34.5 8 0.13 35 25 0.58 0.42

38 – 43 40.5 10 0.17 45 15 0.75 0.25

44 – 49 46.5 6 0.10 51 9 0.85 0.15

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 32

50 – 55 52.5 4 0.07 55 5 0.92 0.08

56 – 61 58.5 5 0.08 60 0 1.00 0.00

Total 60 1.00

La columna 6 correspondiente a más que se interpreta de la siguiente forma: para 퐹 =

15 significa que 15 de los 60 días que se analizan, tuvieron un número de llamadas

mayor o igual a 44 y a este número de llamadas equivale al 25% del total.

Con los ejemplos anteriores se puede considerar que la tabla de frecuencias nos permite

inferir ciertos conocimientos de la variable que se analiza. Otra forma de analizar la

información e inferir ciertos conocimientos, es mediante la representación gráfica de los

mismos.

1.16. Gráficos

Al representar en una gráfica la información concentrada en la tabla de frecuencias, ésta

es un recurso visual que nos permite tener una idea clara, precisa, global y rápida acerca

de las observaciones de una muestra o población.

Existen muchos tipos de gráficas en las que se pueden representar la frecuencia absoluta

(푓푖), relativa (푓푟) y acumulada (퐹푖) y con ellas podemos estimar algunos valores con la

simple observación.

Los diferentes tipos de gráfica que podemos usar para representar las observaciones de

un determinado problema y la selección de este tipo, dependen de la variable en estudio.

Si la variable en estudio es del tipo cualitativo, los gráficos pueden ser:

a) De barras; horizontales o verticales.

b) Circulares.

c) Pictogramas, etcétera.

Si la variable en estudio es de tipo cuantitativo, los gráficos que podemos usar para su

representación gráfica son:

a) Histogramas.

b) Polígonos de frecuencias que a continuación analizaremos.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 33

1.17. Histograma y polígono de frecuencia

El histograma es la forma más usual para analizar las características observables de una

variable continua.

Definición 1.6. Histograma es la representación gráfica en el plano coordenado de las

características concentradas en la tabla de frecuencias de una variable continua.

Para trazar el histograma, la secuencia de operaciones es:

1. En los ejes coordenados del plano cartesiano representamos los datos de la

siguiente forma:

a) En el eje de las abscisas (horizontal) se representan las clases con sus límites

reales de clase y las marcas de clase (Mi) de cada intervalo.

b) En el eje de las ordenadas (vertical) representamos las frecuencias absolutas

en que ocurre la variable.

2. Por los límites reales superior e inferior de cada clase se trazan barras verticales

que se cortan mediante una horizontal que se traza a la altura del punto

correspondiente a la frecuencia de cada clase.

3. Por la naturaleza continua de la variable, los rectángulos se trazan adyacentes,

toda vez que en esta forma se debe dividir el eje horizontal.

4. El área representada por cada barra es equivalente a la proporción de la

frecuencia del intervalo de clase correspondiente con respecto al total.

Ejemplo 1.6. Al gerente general de la empresa “Conductores Monterrey” le interesa

conocer la antigüedad de sus trabajadores, por lo que le indica al gerente de personal

que realice un análisis del problema. El gerente de personal recabó de los expedientes

la siguiente información sobre los años de antigüedad:

13, 19, 22, 14, 13, 16, 19, 21, 23, 11, 27, 25, 17, 17, 13, 20

23, 17, 26, 20, 24, 15, 20, 21, 23, 17, 29, 17, 19, 14, 20, 20

10, 22, 18, 25, 16, 23, 19, 20, 21, 17, 18, 24, 21, 20, 19, 26

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 34

Con esta información hacer una gráfica (histograma).

Para graficar la información en un histograma, consideremos la siguiente secuencia de

operaciones:

1. Ordenamos los datos en sentido creciente:

10, 11, 13, 13, 13, 14, 14, 15, 16, 16, 17, 17, 17, 17, 17, 17, 18,

18, 19, 19, 19, 19, 19, 20, 20, 20, 20, 20, 20, 20, 21, 21, 21, 21,

22, 22, 23, 23, 23, 23, 24, 24, 25, 25, 26, 26, 27, 29.

2. Calculamos el rango 푅, para ello determinamos los valores mayor y menor de las

puntuaciones.

푥 = 29 y 푥 = 10

3. Calculamos 푅 = 푥 – 푥 = 29 – 10 = 19 → 푅 = 19

4. Calculamos el número de clases (푘), para ello determinamos (푛)

푛 = 48; 푘 = 1 + 3.322 푙표푔48 = 1 + 5.58 = 6.58 ~ 7

5. Determinamos la amplitud de cada clase (퐴)

퐴 = = = 2.7 ~ 3

Se han redondeado los valores de 푘 y 퐴 porque el número de clases y la amplitud

de la clase nunca serán fraccionarios.

6. Determinamos cada intervalo de clase y para ello calculamos los límites de clase y

los registramos en la primera columna de la tabla. Luego se construye la misma.

Clases Límites reales Punto medio

de la clase 풇풊 풇풓

Frecuencia acumulada

menor que mayor que 푭풓

10-12 9.5-12.5 11 2 0.042 2 46 0.042

13-15 12.5-15.5 14 6 0.125 8 40 0.167

16-18 15.5-18.5 17 10 0.208 18 30 0.375

19-21 18.5-21.5 20 16 0.333 34 14 0.708

22-24 21.5-24.5 23 8 0.167 42 6 0.875

25-27 24.5-27.5 26 5 0.104 47 1 0.979

28-30 27.5-30.5 29 1 0.021 48 0 1.00

Total 48 1.000

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 35

7. Trazamos los ejes del plano coordenado, fijamos una escala para cada eje y

representamos en el eje vertical las frecuencias y en el eje horizontal las clases. La

mayor frecuencia es 푓 = 16 por lo que con la escala establecida en 푐푚. Marcamos

16 divisiones en el eje vertical. En el eje horizontal no es necesario iniciar por el

cero, en nuestro ejemplo podemos iniciar a partir de 9, indicando que se trunca una

parte del eje horizontal.

Figura 3.1.- Gráfica del histograma que representa la información planteada en el ejemplo 3.6.

Las líneas verticales punteadas corresponden al punto medio o marca de clase, el cual

indica el promedio de las puntuaciones en cada clase. En el ejemplo 3.6 para la tercera

barra, el promedio en años cumplidos de los obreros de la empresa ubicados en esa clase

es de 푀 = 17 años y como la frecuencia es 푓 = 10 obreros con la misma antigüedad.

Otra gráfica que permite describir los datos de una distribución de frecuencias es el

polígono de frecuencias.

1.18. Polígono de frecuencia

El polígono de frecuencia se construye a partir de los datos de la tabla de frecuencias.

Sobre el eje horizontal se levanta por el punto medio segmentos verticales punteados

que terminan a la altura de su frecuencia de clase, se unen los puntos superiores con un

segmento de recta que empieza medio punto antes del límite superior de la última clase.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 36

Del ejemplo 1.6 obtenemos:

Figura 1.2.- Gráfica del polígono de frecuencia que representa la información planteada en el ejemplo 1.6.

Otra forma de trazar el polígono de frecuencias es:

a) Sobre el histograma se trazan segmentos punteados que inician en el punto

medio de clase y terminan a la altura del rectángulo.

b) Se unen los puntos finales de éstos segmentos con una línea continua que inicia

medio punto antes del límite inferior de la primera clase y termina medio punto

después del límite superior de la última clase (ver figura 1.1).

Si en la escala vertical en lugar de representar las frecuencias absolutas, representamos

la frecuencia relativa, obtenemos un polígono de frecuencia acumulada.

Para el ejemplo 1.6 tendremos:

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 37

Figura 1.3.- Gráfica del polígono de frecuencia acumulada que representa la información planteada en el ejemplo 1.6.

Si observamos las gráficas 1.2 y 1.3 se nota que son muy parecidas y que su tamaño

depende, únicamente de la escala que se utilice.

Si los intervalos de clase se toman cada vez más pequeños, entonces los puntos se unen

con segmentos curvos que van suavizando la forma del polígono de frecuencias.

1.19. Polígono de frecuencia acumulada

La gráfica de la frecuencia acumulada es muy útil porque en ella se determina cuántas

observaciones hay por arriba o por debajo de algún valor que nos interese. La gráfica

que se obtiene de la frecuencia acumulada también se conoce con el nombre de ojiva.

Para trazar dicha gráfica se procede como en los gráficos anteriores, es decir, en el eje

horizontal se trazan los intervalos de clase y marcas de clase y en el vertical las

frecuencias acumuladas.

Del ejemplo 1.6 tomando los datos de las columnas 6 y 7 de la tabla, obtenemos:

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 38

Figura 1.4.- Gráfica del polígono de frecuencia acumulada u ojiva menos que, que representa la información planteada en el ejemplo 1.6.

Figura 1.5.- Gráfica del polígono de frecuencia acumulada u ojiva menos que, que representa la información planteada en el ejemplo 3.6.

La variable del problema analizado es de tipo cuantitativa continua, si la variable en

análisis es cuantitativa discreta, se da el mismo tratamiento para el trazo de las gráficas

o a su vez se puede prescindir de la columna número 2 y trazar el histograma con los

saltos que da la variable de un intervalo a otro.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 39

1.20. Gráficas circulares, Diagramas de Barras, Pictogramas y Gráfico de líneas.

1.20.1. Gráficas Circulares.

Una forma de representar datos u observaciones de una variable cualitativa es mediante

un diagrama circular. Para trazar la gráfica, se hace una distribución proporcional de las

frecuencias del problema con respecto a la circunferencia determinando sectores

circulares para cada categoría.

Ejemplo 1.7. El gobierno municipal de Riobamba promocionó cursos dominicales para

todas las personas que quieran aprender alguna habilidad artesanal o artística; los cursos

se realizarán de 8:00 a 12:00 ℎ. Las inscripciones quedan abiertas todo el mes de

marzo. Al final del mes, la inscripción fue la que se muestra en la siguiente tabla:

Cursos Número de participantes 풇풊

Música 250

Pintura 350

Danza 200

Tejido 400

Bordado 100

Ajedrez 500

Total 1800

Para distribuir cada clase en la circunferencia se aplica una regla de tres simple

relacionando el total de inscritos (1800) a 360º que tiene la circunferencia y de esta

relación determinamos la parte que le corresponde a cada curso.

El planteamiento de cada distribución es: 1800 es a 360º como 250 es a 푥 para el caso

de música. Es decir:

푥 = × ° = 50°

Se debe hacer lo mismo en todos los casos. Los resultados que se obtienen son los

siguientes:

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 40

Cursos Número de participantes 풇풊 grados

Música 250 50º

Pintura 350 70º

Danza 200 40º

Tejido 400 80º

Bordado 100 20º

Ajedrez 500 100º

Total 1800 360º

Para representarlos en el círculo, medimos los sectores con un transportador y trazamos

las divisiones. La gráfica que se obtiene es:

Figura 1.6.- Gráfica circular en grados, que representa la información planteada en el ejemplo 1.7.

Una forma más útil de representar las regiones de cada categoría es distribuyéndolos en

un porcentaje y para ello la regla de tres que se plantea, se relaciona 360º representa el

100% y en base a ésta se determina el porcentaje que le corresponde a los grados de

cada categoría.

Los resultados que se obtienen al realizar este planteamiento son los siguientes:

Cursos Número de participantes 풇풊 grados Porcentaje %

Música 250 50º 13.9

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 41

Pintura 350 70º 19.4

Danza 200 40º 11.1

Tejido 400 80º 22.2

Bordado 100 20º 5.6

Ajedrez 500 100º 27.8

Total 1800 360º 100.0

Para la representación gráfica se divide el círculo con un transportador de acuerdo a los

grados que le corresponde a cada categoría, pero ahora se registra el porcentaje. La

gráfica que se obtiene es la siguiente:

Figura 1.7.- Gráfica circular en porcentaje, que representa la información planteada en el ejemplo 1.7.

1.20.2. Gráficas de Barras

Para construir la gráfica de barras se trazan ejes coordenados; en el eje horizontal se

representan los valores de la variable y se traza un segmento perpendicular por cada

valor. Si se usan barras, éstas deberán tener el mismo ancho de la base. En el eje

vertical se representa la frecuencia de cada clase usando una escala conveniente para

cada puntuación. La frecuencia marca la altura de cada segmento perpendicular o barra.

Ejemplo 1.8. El docente de estadística en la carrera de Biotecnología Ambiental de la

ESPOCH utiliza una escala de clasificación del 5 al 10, aprobatoria a partir de 6.

Cualquier calificación reprobatoria se refleja en un 5.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 42

Las calificaciones obtenidas por el grupo son las que se muestran en la tabla siguiente:

Calificación 5 6 7 8 9 10

Número de estudiantes 3 8 12 8 5 4

Representamos la información en una gráfica de segmentos y barras. Es decir:

Figura 1.8.- Diagrama de segmentos verticales, que representa la información planteada en el ejemplo 1.8.

Figura 1.9.- Diagrama de barras, que representa la información planteada en el ejemplo 1.8.

Otra forma de representar la información es mediante barras horizontales, en este caso

se invierten las escalas, es decir, en el eje horizontal se representan las frecuencias y en

el vertical los valores de la variable. Es decir:

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 43

Figura 1.10.- Diagrama de barras horizontales, que representa la información planteada en el ejemplo 1.8.

1.20.3. Pictograma

Es otra forma de representación gráfica de la información de un determinado problema.

En este tipo de gráfica se usa la imagen de la variable, por ejemplo:

a) Árboles: si la variable representa árboles.

b) Libros: si la variable representa libros.

c) Casas: si la variable representa casas.

d) Figuras de personas: si la variable son personas, etcétera.

Ejemplo 1.9. El delegado de la subsecretaría de turismo en la ciudad de Macas envió a

5 delegaciones el siguiente número de árboles para reforestar su zona: Sucúa 5000

árboles, Huamboya 3000 árboles, Proaño 4000 árboles, Sevilla 6000 árboles y Zuñac

7000 árboles.

La representación gráfica de la variable mediante un pictograma es la que se muestra a

continuación:

Delegación Número de árboles

(en miles)

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 44

Sucúa

Huamboya

Proaño

Sevilla

Zuñac Para poder determinar la cantidad de elementos que representa el pictograma, se le

asigna un valor a la figura representativa. En nuestro ejemplo cada árbol representa a

mil de éstos.

1.20.4. Gráfico de Líneas

Una forma de representar gráficamente los valores de la variable de un problema en

estudio, es mediante un gráfico de líneas. Para trazar la gráfica de líneas se usa el plano

coordenado; en el eje horizontal se representa a la variable y en el eje vertical la

frecuencia. Se determinan los puntos de corte del valor de la variable con su frecuencia

y se unen estos puntos obteniéndose la gráfica de línea que nos muestra con claridad los

cambios que experimentó la variable.

Ejemplo 1.10. La producción en la segunda semana de febrero de 2011 obtenida por un

obrero calificado que opera un torno revólver, con el que produce tornillos de cuerda

milimétrica, es la siguiente:

Día Cantidad

Lunes (L) 4000

Martes (Ma) 5500

Miércoles (M) 6000

Jueves (J) 6500

Viernes (V) 5500

El gráfico de líneas que corresponde a los datos de la tabla es el siguiente:

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 45

Figura 1.11.- Gráfico de líneas, que representa la información planteada en el ejemplo 1.10.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 46

1.21. Ejercicios.

1. Se tiene una urna con 50 esferas numeradas progresivamente. El experimento

consiste en sacar una esfera, anotar su número y devolverla a la urna.

a) ¿Cuál es la variable? ______________________________________

b) ¿La variable es cualitativa o cuantitativa? ____________________

c) Si podemos sacar una esfera por tiempo indefinido, entonces ¿cómo es la

población?

___________________________________________________________

d) Si únicamente podemos hacer 100 extracciones, entonces, ¿cómo es la

población?

____________________________________________________________

2. En la ESPOCH ingresaron 8000 estudiantes. De estos se seleccionaron 500 para

estudiar las características que indican. Escribe en la línea si la variable asociada

está definida por una expresión o un número; determina si es cualitativa o

cuantitativa e indica el tipo de escala.

a) Estado de salud de cada estudiante. _________________________

b) Estatura de cada uno _________________________

c) Número de estudiantes que ingresan _________________________

d) Sexo de cada estudiante _________________________

e) ¿Cuál es y cómo es la población? _________________________

f) ¿Cuál es la muestra? _________________________

3. Analiza el siguiente problema y establece todas las variables que consideres

importantes, clasifícalas y determina el tipo de escala que se usaría en cada una.

Problema: El 23 de diciembre del año pasado, se llevó a cabo el maratón de la

libertad; en él participaron 15 mil maratonistas, quienes por su esfuerzo todos

recibieron una medalla de participación y los premios que se repartieron fueron

los siguientes: 1er lugar: $ 100 000, 2do lugar: una casa, 3er lugar: una camioneta,

4to lugar: un automóvil, 5to lugar: una motocicleta

4. En el siguiente problema, elabora una tabla de frecuencia de datos agrupados con

5 columnas con el siguiente encabezado:

1. Clases

2. Límites reales de clase

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 47

3. Punto medio de clase o marca de clase.

4. Frecuencia absoluta (푓푖)

5. Frecuencia relativa (푓푟).

Problema: En una cadena de tiendas, la venta de líquido anticongelante para

automóviles, (en número de litros) en un determinado día de diciembre fue el que

se indica:

216, 269, 235, 235, 224, 249, 244, 240, 252, 210, 256

228, 233, 239, 253, 237, 221, 273, 229, 236, 215, 260

230, 228, 230, 255, 245, 244, 230, 231, 240, 222, 223

5. En el siguiente problema elaborar la tabla de frecuencias y explicar lo que se

deduce de las clases 3 y 5.

Problema: En la caseta de cobro de la autopista a Riobamba ingresaron durante

las 48 horas del 19 de septiembre, después del puente, el número de vehículos por

hora que a continuación se indica:

13 19 22 14 13 16 19 21 23 11 27 25 17 17 13 20

23 17 26 20 24 15 20 21 10 22 18 25 16 23 19 20

21 17 18 24 21 20 19 26

6. En la Fuerza Aérea Ecuatoriana, los aviadores toman un examen médico general

en cada 150 horas de vuelo, por lo que se analizan los expedientes de cada piloto

para citarlos a su examen. Los resultados obtenidos se muestran en la siguiente

tabla correspondiente a las horas de vuelo.

222, 220, 199, 212, 201, 217, 214, 213, 212, 215, 214,

196, 192, 208, 207, 212, 214, 209, 202, 206, 196, 202,

219, 194, 206, 204, 194, 211, 216, 209, 212, 216, 206,

201, 201, 210, 200, 206, 201, 205, 217, 219, 212, 207,

211, 204, 212, 212, 205, 207, 214, 211, 220, 205, 201,

218, 193, 199, 206, 209, 205, 205, 221, 216, 211, 204,

215, 203, 213, 207, 209, 197, 197, 199, 208, 209, 218,

204, 207, 202, 209, 195, 207, 209, 205, 210, 197, 209,

211, 208, 211, 198, 217, 209, 199, 192, 218, 193, 208,

209, 194, 211,

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 48

a) Ordena los datos en una tabla de frecuencias.

b) Calcula el rango de los datos.

c) Calcula el número de clase mediante la aplicación de la fórmula de Sturges

d) Calcula la amplitud del intervalo

e) Determina los límites de clase.

f) Determina los límites reales de clase.

g) Determina los puntos medios de clase 푀푖

h) Determina la frecuencia 푓푖

i) Determina la frecuencia relativa 푓푟

j) Determina la frecuencia acumulada 퐹푖

k) Determina la frecuencia acumulada relativa 퐹푟

l) Traza el histograma y el polígono de frecuencia.

m) Traza el polígono de frecuencia acumulada relativa (ojiva).

n) Traza el polígono de frecuencia acumulada menos que.

o) Traza el polígono de frecuencia acumulada más que.

p) Traza un gráfico circular.

7. En el siguiente problema representa los datos de la variable mediante un

pictograma.

Problema: Se hizo una investigación del crecimiento poblacional del municipio

de Puyo, la información obtenida de los archivos son:

Año Número de habitantes

2001 8000

2002 9000

2003 10000

2004 11000

2005 12000

2006 13000

8. El consumo en miles de litros de agua de una industria durante los primeros 10

meses del año 2009 son los que se muestran en la siguiente tabla.

Mes Ene Feb mar Abr May Jun Jul ago sep oct

Número de litros (en miles) 50 58 62 70 80 85 80 70 65 60

Representa los datos de la tabla en un diagrama lineal.

Bioestadística Unidad I: Introducción a la Bioestadística

ESPOCH-Ingeniería en Biotecnología Ambiental Página 49

RESUMEN