18
Histograma En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados, ya sea en forma diferencial o acumulada. Sirven para obtener una "primera vista" general, o panorama, de la distribución de la población, o la muestra, respecto a una característica, cuantitativa y continua, de la misma y que es de interés para el observador (como la longitud o la masa). De esta manera ofrece una visión en grupo permitiendo observar una preferencia, o tendencia, por parte de la muestra o población por ubicarse hacia una determinada región de valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la característica. Así pues, podemos evidenciar comportamientos, observar el grado de homogeneidad, acuerdo o concisión entre los valores de todas las partes que componen la población o la muestra, o, en contraposición, poder observar el grado de variabilidad, y por ende, la dispersión de todos los valores que toman las partes, también es posible no evidenciar ninguna tendencia y obtener que cada miembro de la población toma por su lado y adquiere un valor de la característica aleatoriamente sin mostrar ninguna preferencia o tendencia, entre otras cosas. En el eje vertical se representan las frecuencias, es decir, la cantidad de población o la muestra, según sea el caso, que se ubica en un determinado valor o sub-rango de valores de la característica que toma la característica de interés, evidentemente, cuando este espectro de valores es infinito o muy grande el mismo es reducido a sólo una parte que muestre la

HistoGrama

Embed Size (px)

DESCRIPTION

conceptos basicos

Citation preview

Page 1: HistoGrama

Histograma En estadística, un histograma es una representación gráfica de una variable en forma de barras,

donde la superficie de cada barra es proporcional a la frecuencia de los valores representados, ya

sea en forma diferencial o acumulada. Sirven para obtener una "primera vista" general, o

panorama, de la distribución de la población, o la muestra, respecto a una característica,

cuantitativa y continua, de la misma y que es de interés para el observador (como la longitud o la

masa). De esta manera ofrece una visión en grupo permitiendo observar una preferencia, o

tendencia, por parte de la muestra o población por ubicarse hacia una determinada región de

valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la

característica. Así pues, podemos evidenciar comportamientos, observar el grado de

homogeneidad, acuerdo o concisión entre los valores de todas las partes que componen la

población o la muestra, o, en contraposición, poder observar el grado de variabilidad, y por ende,

la dispersión de todos los valores que toman las partes, también es posible no evidenciar ninguna

tendencia y obtener que cada miembro de la población toma por su lado y adquiere un valor de la

característica aleatoriamente sin mostrar ninguna preferencia o tendencia, entre otras cosas.

En el eje vertical se representan las frecuencias, es decir, la cantidad de población o la muestra, según sea el caso, que se ubica en un determinado valor o sub-rango de valores de la característica que toma la característica de interés, evidentemente, cuando este espectro de valores es infinito o muy grande el mismo es reducido a sólo una parte que muestre la tendencia o comportamiento de la población, en otras ocasiones este espectro es extendido para mostrar el alejamiento o ubicación de la población o la muestra analizada respecto de un valor de interés.

En general se utilizan para relacionar variables cuantitativas continuas, pero también se lo suele

usar para variables cuantitativas discretas, en cuyo caso es común llamarlo diagrama de

frecuencias y sus barras están separadas, esto es porque en el "x" ya no se representa un espectro

continuo de valores, sino valores cuantitativos específicos como ocurre en un diagrama de barras

cuando la característica que se representa es cualitativa o categórica. Su utilidad se hace más

evidente cuando se cuenta con un gran número de datos cuantitativos y que se han agrupado en

intervalos de clase.

Page 2: HistoGrama

Ejemplos de su uso es cuando se representan franjas de edades o altura de la muestra, y, por

comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que

los datos son cualitativos (no numéricos), como sexto grado de acuerdo o nivel de estudios, es

preferible un diagrama de sectores.

Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias

naturales y exactas. Y permite la comparación de los resultados de un proceso.

Tipos de histograma:

Diagramas de barras simples

Representa la frecuencia simple (absoluta o relativa) mediante la altura de la barra la cual es

proporcional a la frecuencia simple de la categoría que representa.

Diagramas de barras compuesta

Se usa para representar la información de una tabla de doble entrada o sea a partir de dos

variables, las cuales se representan así; la altura de la barra representa la frecuencia simple de las

modalidades o categorías de la variable y esta altura es proporcional a la frecuencia simple de

cada modalidad.

Diagramas de barras agrupadas

Se usa para representar la información de una tabla de doble entrada o sea a partir de dos

variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a

las diferentes modalidades.

Polígono de frecuencias

Es un gráfico de líneas que de las frecuencias absolutas de los valores de una distribución en el

cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de

dicho valor.

Ojiva porcentual

Es un gráfico acumulativo, el cual es muy útil cuando se quiere representar el rango porcentual de

cada valor en una distribución de frecuencias.

En los gráficos las barras se encuentran juntas y en la tabla los números poseen en el primer

miembro un corchete y en el segundo un paréntesis, por ejemplo: (10-20) aunque existen algunas

otras. no hay nada bueno.

Page 3: HistoGrama

Elaboración de un histograma:

Paso 1

Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor.

Paso 2

Obtener todos los números de clases, existen 2 criterios para determinar el número de clases (o

barras) –por ejemplo, la regla de Sturges. Sin embargo ninguno de ellos es exacto. Algunos autores

recomiendan de cinco a quince clases, dependiendo de cómo estén los datos y cuántos sean. Un

criterio usado frecuentemente es que el número de clases debe ser aproximadamente a la raíz

cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 (número de artículos) es

mayor que cinco, por lo que se seleccionan seis clases.

Paso 3

Establecer la longitud de clase: es igual al rango dividido por el número de clases.

Paso 4

Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en

relación al resultado del PASO 2 en intervalos diferentes

Paso 5

Graficar el histograma: En caso de que las clases sean todas de la misma amplitud, se hace una

gráfica de pastel, las bases de las barras son los intervalos de clases y la altura es la frecuencia de

las clases. Si se unen los puntos medios de la base superior de los rectángulos se obtiene el

polígono de frecuencias.

Page 4: HistoGrama

ESTADISTICA UNIVARIADASe llama univariada cuando de cada elemento en estudio se toma una solo variable. Por ejemplo se estudian personas y se toma solo su edad. La Estadística que se aplicará será la univariada en contraposición a la multivariada que aparece cuando se toma más de una variable por elemento del universo.

PARAMETROA ESTADISTICOS

Hay tres t ipos parámetros estadísticos :

De central ización.

De posición.

De dispersión.

Page 5: HistoGrama

Medidas de Posición: Cuantiles

Los cuantiles son valores de la distribución que la dividen en partes iguales, es decir, en intervalos, que comprenden el mismo número de valores. Los más usados son los cuartiles, los deciles y los percentiles.

PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Ejemplo, el percentil de orden 15 deja por debajo al 15% de las observaciones, y por encima queda el 85%

CUARTILES: son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, son un caso particular de los percentiles:

- El primer cuartil Q 1 es el menor valor que es mayor que una cuarta parte de los datos- El segundo cuartil Q 2 (la mediana), es el menor valor que es mayor que la mitad de los datos- El tercer cuartil Q 3 es el menor valor que es mayor que tres cuartas partes de los datos

DECILES: son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son también un caso particular de los percentiles.

Ejemplo:

Dada la siguiente distribución en el número de hijos (Xi) de cien familias, calcular sus cuartiles.

xi ni Ni

0 14 14

1 10 24

2 15 39

3 26 65

4 20 85

5 15 100

n=100

Solución:

1.Primer cuartil:

Page 6: HistoGrama

2.Segundo cuartil:

3.Tercer cuartil:

Medidas de Centralización

Nos dan un centro de la distribución de frecuencias, es un valor que se puede tomar como representativo de todos los datos. Hay diferentes modos para definir el "centro" de las observaciones en un conjunto de datos. Por orden de importancia, son:

MEDIA:  (media aritmética o simplemente media). Es el promedio aritmético de las observaciones, es decir, el cociente entre la suma de todos los datos y el número de ellos. Si xi es el valor de la variable y ni su frecuencia, tenemos que:

Si los datos están agrupados utilizamos las marcas de clase, es decir ci en vez de xi.

MEDIANA  (Me):es el valor que separa por la mitad las observaciones ordenadas de menor a mayor, de tal forma que el 50% de estas son menores que la mediana y el otro 50% son mayores. Si el número de datos es impar la mediana será el valor central, si es par tomaremos como mediana la media aritmética de los dos valores centrales.

MODA (M0): es el valor de la variable que más veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. No tiene porque ser única.

Page 7: HistoGrama

Medidas de Dispersión

Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión nos dicen hasta que punto estas medidas de tendencia central son representativas como síntesis de la información. Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central.Distinguimos entre medidas de dispersión absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirán comparar varias muestras.

MEDIDAS DE DISPERSIÓN ABSOLUTAS

VARIANZA  ( s2  ): es el promedio del cuadrado de las distancias entre cada observación y la media aritmética del conjunto de observaciones.

Haciendo operaciones en la fórmula anterior obtenemos otra fórmula para calcular la varianza:

Si los datos están agrupados utilizamos las marcas de clase en lugar de Xi.

DESVIACIÓN TÍPICA (S): La varianza viene dada por las mismas unidades que la variable pero al cuadrado, para evitar este problema podemos usar como medida de dispersión la desviación típica que se define como la raíz cuadrada positiva de la varianza

Para estimar la desviación típica de una población a partir de los datos de una muestra se utiliza la fórmula (cuasi desviación típica):

Page 8: HistoGrama

RECORRIDO O RANGO MUESTRAL (Re). Es la diferencia entre el valor de las observaciones mayor y el menor. Re = xmax - xmin

MEDIDAS DE DISPERSIÓN RELATIVAS

COEFICIENTE DE VARIACIÓN DE PEARSON: Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variación de Pearson que se define como el cociente entre la desviación típica y el valor absoluto de la media aritmética

CV representa el número de veces que la desviación típica contiene a la media aritmética y por lo tanto cuanto mayor es CV mayor es la dispersión y menor la representatividad de la media.

Medidas de Forma

Comparan la forma que tiene la representación gráfica, bien sea el histograma o el diagrama de barras de la distribución, con la distribución normal.

MEDIDA DE ASIMETRÍA

Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética coinciden.

Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más lentamente por la derecha que por la izquierda.

Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la distribución es asimétrica a la izquierda.

Existen varias medidas de la asimetría de una distribución de frecuencias. Una de ellas es el Coeficiente de Asimetría de Pearson:

Page 9: HistoGrama

Su valor es cero cuando la distribución es simétrica, positivo cuando existe asimetría a la derecha y negativo cuando existe asimetría a la izquierda.

MEDIDA DE APUNTAMIENTO O CURTOSIS

Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de distribuciones según su grado de curtosis:

Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

Page 10: HistoGrama

EJEMPLO 1

El número de diás necesarios por 10 equipos de trabajadores para terminar 10 instalaciones de iguales características han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular la media, mediana, moda, varianza y desviación típica.

SOLUCIÓN:

La media: suma de todos los valores de una variable dividida entre el número total de datos de los que se dispone:

La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:

15, 21, 32, 59, 60, 60,61, 64, 71, 80.

Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores nos dará a su vez 60, que es el valor de la mediana.

La moda: el valor de la variable que presenta una mayor frecuencia es 60

La varianza S2: Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.

Sx2=

La desviación típica S: es la raíz cuadrada de la varianza.

S = √ 427,61 = 20.67

El rango: diferencia entre el valor de las observaciones mayor y el menor

80 - 15 = 65 días

El coeficiente de variación: cociente entre la desviación típica y el valor absoluto de la media aritmética

CV = 20,67/52,3 = 0,39

Page 11: HistoGrama

DISTRIBUCION NORMAL Y LOGNORMALDistribucion normal:

En estadística y probabilidad se llama distribución normal, distribución de

Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable

continua que con más frecuencia aparece aproximada en fenómenos reales.[cita requerida]

La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto

de un determinado parámetro estadístico. Esta curva se conoce como campana de

Gauss y es el gráfico de una función gaussiana.

La importancia de esta distribución radica en que permite modelar numerosos fenómenos

naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran

parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables

incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse

asumiendo que cada observación se obtiene como la suma de unas pocas causas

independientes.

De hecho, la estadística descriptiva sólo permite describir un fenómeno, sin explicación

alguna. Para la explicación causal es preciso el diseño experimental, de ahí que al uso de

la estadística en psicología y sociología sea conocido como método correlacional.

La distribución normal también es importante por su relación con la estimación

por mínimos cuadrados, uno de los métodos de estimación más simples y antiguos.

Algunos ejemplos de variables asociadas a fenómenos naturales que siguen el modelo de

la normal son:

caracteres morfológicos de individuos como la estatura;

caracteres fisiológicos como el efecto de un fármaco;

caracteres sociológicos como el consumo de cierto producto por un mismo grupo de

individuos;

caracteres psicológicos como el cociente intelectual;

nivel de ruido en telecomunicaciones;

errores cometidos al medir ciertas magnitudes;

etc.

La distribución normal también aparece en muchas áreas de la propia estadística. Por

ejemplo, la distribución muestralde las medias muestrales es aproximadamente normal,

cuando la distribución de la población de la cual se extrae la muestra no es

normal.1 Además, la distribución normal maximiza la entropía entre todas las

Page 12: HistoGrama

distribuciones con media y varianza conocidas, lo cual la convierte en la elección natural

de la distribución subyacente a una lista de datos resumidos en términos de media

muestral y varianza. La distribución normal es la más extendida en estadística y muchos

tests estadísticos están basados en una "normalidad" más o menos justificada de la

variable aleatoria bajo estudio.

En probabilidad, la distribución normal aparece como el límite de varias distribuciones de

probabilidad continuas y discretas.

Distribucion Log- normal

En probabilidades y estadísticas, la distribución log-normal es una distribución de

probabilidad de una variable aleatoria cuyo logaritmo está normalmente distribuido. Es decir,

si X es una variable aleatoria con una distribución normal, entonces exp(X) tiene una

distribución log-normal.

La base de una función logarítmica no es importante, ya que loga X está distribuida

normalmente si y sólo si logb X está distribuida normalmente, sólo se diferencian en un factor

constante.

Log-normal también se escribe log normal o lognormal.

Una variable puede ser modelada como log-normal si puede ser considerada como

un producto multiplicativo de muchos pequeños factores independientes. Un ejemplo típico es

un retorno a largo plazo de una inversión: puede considerarse como un producto de muchos

retornos diarios.

La variable T sigue una distribución lognormal si lnT tiene una distribución normal de media μ y varianza σ². En consecuencia, la variable

es un variable normal reducida, es decir de media igual a 0 y desviación típica igual a 1. Por lo tanto, la función de supervivencia se puede escribir

siendo la función de distribución acumulativa de la normal reducida. Por lo tanto un modo gráfico de verificar esta distribución es comparar la función de supervivencia dibujada en papel lognormal con una recta.

Page 13: HistoGrama

La función están caracterizadas por los dos parámetros μ y σ, que no son su media y desviación típica. La estimación de estos parámetros sólo es sencilla en el caso de que no haya pérdidas y ésta es la que implementa el PRESTA.

Se ha usado esta función para estudiar tanto la supervivencia en SIDA (1), como el tiempo hasta la seroconversión de HIV+ (2).

Ejemplo

Estímese las función de supervivencia, asumiendo el modelo lognormal y realícese la prueba de la bondad de ajuste, para los datos de la tabla.

La salida del PRESTA es (nótese que se denomina parámetro A a m y parámetro B a s2

NUMERO DE CASOS: 121CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO: 0

PARAMETRO ERROR STANDARD

A 2.32263 .04138

B .20719 .02664

MATRIZ DE COVARIANZAS

A B

A .00171 .00000

B .00000 .00071

TABLA DE VALORES OBSERVADOS Y ESPERADOS(SOLO CUENTAN LOS EVENTOS)

INTERVALO OBSERVADOS ESPERADOS CONT. JI2

< 5.69 10.00 12.10 .3645

Page 14: HistoGrama

5.69 - 6.96 9.00 12.10 .7942

6.96 - 8.04 18.00 12.10 2.8769

8.04 - 9.09 12.00 12.10 .0008

9.09 - 10.20 17.00 12.10 1.9843

10.20 - 11.45 12.00 12.10 .0008

11.45 - 12.95 8.00 12.10 1.3893

12.95 - 14.96 9.00 12.10 .7942

14.96 - 18.28 16.00 12.10 1.2570

> 18.28 10.00 12.10 .3645

PRUEBA DE BONDAD DE AJUSTEJI-CUADRADO: 9.82645 G.L.: 7 p= .197686

Con la prueba de bondad de ajuste basada en la ji-cuadrado, que en este caso que no hay pérdidas “funciona” mejor, no se rechaza la hipótesis nula de modelo lognormal y en la gráfica también se observa que el modelo es satisfactorio.

Aceptando que el modelo es bueno, calcúlese la supervivencia a 8 años (suponiendo los tiempos en años) y la mediana de supervivencia.

Page 15: HistoGrama

En la gráfica se observa que para T=8, S(t) es aproximadamente 0,7 y que S(t)=0,5 para t=10 aproximadamente. O bien, más laborioso pero más preciso, usando lasfórmulas

y mirando en la tabla de la normal

es decir la probabilidad de supervivencia a los 8 años es 0,7019. La mediana es el tiempo en el que S(t)=0,5

y mirando en la tabla de la normal