Upload
fernando-palacios
View
215
Download
0
Embed Size (px)
DESCRIPTION
conceptos basicos
Citation preview
Histograma En estadística, un histograma es una representación gráfica de una variable en forma de barras,
donde la superficie de cada barra es proporcional a la frecuencia de los valores representados, ya
sea en forma diferencial o acumulada. Sirven para obtener una "primera vista" general, o
panorama, de la distribución de la población, o la muestra, respecto a una característica,
cuantitativa y continua, de la misma y que es de interés para el observador (como la longitud o la
masa). De esta manera ofrece una visión en grupo permitiendo observar una preferencia, o
tendencia, por parte de la muestra o población por ubicarse hacia una determinada región de
valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la
característica. Así pues, podemos evidenciar comportamientos, observar el grado de
homogeneidad, acuerdo o concisión entre los valores de todas las partes que componen la
población o la muestra, o, en contraposición, poder observar el grado de variabilidad, y por ende,
la dispersión de todos los valores que toman las partes, también es posible no evidenciar ninguna
tendencia y obtener que cada miembro de la población toma por su lado y adquiere un valor de la
característica aleatoriamente sin mostrar ninguna preferencia o tendencia, entre otras cosas.
En el eje vertical se representan las frecuencias, es decir, la cantidad de población o la muestra, según sea el caso, que se ubica en un determinado valor o sub-rango de valores de la característica que toma la característica de interés, evidentemente, cuando este espectro de valores es infinito o muy grande el mismo es reducido a sólo una parte que muestre la tendencia o comportamiento de la población, en otras ocasiones este espectro es extendido para mostrar el alejamiento o ubicación de la población o la muestra analizada respecto de un valor de interés.
En general se utilizan para relacionar variables cuantitativas continuas, pero también se lo suele
usar para variables cuantitativas discretas, en cuyo caso es común llamarlo diagrama de
frecuencias y sus barras están separadas, esto es porque en el "x" ya no se representa un espectro
continuo de valores, sino valores cuantitativos específicos como ocurre en un diagrama de barras
cuando la característica que se representa es cualitativa o categórica. Su utilidad se hace más
evidente cuando se cuenta con un gran número de datos cuantitativos y que se han agrupado en
intervalos de clase.
Ejemplos de su uso es cuando se representan franjas de edades o altura de la muestra, y, por
comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que
los datos son cualitativos (no numéricos), como sexto grado de acuerdo o nivel de estudios, es
preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias
naturales y exactas. Y permite la comparación de los resultados de un proceso.
Tipos de histograma:
Diagramas de barras simples
Representa la frecuencia simple (absoluta o relativa) mediante la altura de la barra la cual es
proporcional a la frecuencia simple de la categoría que representa.
Diagramas de barras compuesta
Se usa para representar la información de una tabla de doble entrada o sea a partir de dos
variables, las cuales se representan así; la altura de la barra representa la frecuencia simple de las
modalidades o categorías de la variable y esta altura es proporcional a la frecuencia simple de
cada modalidad.
Diagramas de barras agrupadas
Se usa para representar la información de una tabla de doble entrada o sea a partir de dos
variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a
las diferentes modalidades.
Polígono de frecuencias
Es un gráfico de líneas que de las frecuencias absolutas de los valores de una distribución en el
cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de
dicho valor.
Ojiva porcentual
Es un gráfico acumulativo, el cual es muy útil cuando se quiere representar el rango porcentual de
cada valor en una distribución de frecuencias.
En los gráficos las barras se encuentran juntas y en la tabla los números poseen en el primer
miembro un corchete y en el segundo un paréntesis, por ejemplo: (10-20) aunque existen algunas
otras. no hay nada bueno.
Elaboración de un histograma:
Paso 1
Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor.
Paso 2
Obtener todos los números de clases, existen 2 criterios para determinar el número de clases (o
barras) –por ejemplo, la regla de Sturges. Sin embargo ninguno de ellos es exacto. Algunos autores
recomiendan de cinco a quince clases, dependiendo de cómo estén los datos y cuántos sean. Un
criterio usado frecuentemente es que el número de clases debe ser aproximadamente a la raíz
cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 (número de artículos) es
mayor que cinco, por lo que se seleccionan seis clases.
Paso 3
Establecer la longitud de clase: es igual al rango dividido por el número de clases.
Paso 4
Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en
relación al resultado del PASO 2 en intervalos diferentes
Paso 5
Graficar el histograma: En caso de que las clases sean todas de la misma amplitud, se hace una
gráfica de pastel, las bases de las barras son los intervalos de clases y la altura es la frecuencia de
las clases. Si se unen los puntos medios de la base superior de los rectángulos se obtiene el
polígono de frecuencias.
ESTADISTICA UNIVARIADASe llama univariada cuando de cada elemento en estudio se toma una solo variable. Por ejemplo se estudian personas y se toma solo su edad. La Estadística que se aplicará será la univariada en contraposición a la multivariada que aparece cuando se toma más de una variable por elemento del universo.
PARAMETROA ESTADISTICOS
Hay tres t ipos parámetros estadísticos :
De central ización.
De posición.
De dispersión.
Medidas de Posición: Cuantiles
Los cuantiles son valores de la distribución que la dividen en partes iguales, es decir, en intervalos, que comprenden el mismo número de valores. Los más usados son los cuartiles, los deciles y los percentiles.
PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Ejemplo, el percentil de orden 15 deja por debajo al 15% de las observaciones, y por encima queda el 85%
CUARTILES: son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, son un caso particular de los percentiles:
- El primer cuartil Q 1 es el menor valor que es mayor que una cuarta parte de los datos- El segundo cuartil Q 2 (la mediana), es el menor valor que es mayor que la mitad de los datos- El tercer cuartil Q 3 es el menor valor que es mayor que tres cuartas partes de los datos
DECILES: son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son también un caso particular de los percentiles.
Ejemplo:
Dada la siguiente distribución en el número de hijos (Xi) de cien familias, calcular sus cuartiles.
xi ni Ni
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
n=100
Solución:
1.Primer cuartil:
2.Segundo cuartil:
3.Tercer cuartil:
Medidas de Centralización
Nos dan un centro de la distribución de frecuencias, es un valor que se puede tomar como representativo de todos los datos. Hay diferentes modos para definir el "centro" de las observaciones en un conjunto de datos. Por orden de importancia, son:
MEDIA: (media aritmética o simplemente media). Es el promedio aritmético de las observaciones, es decir, el cociente entre la suma de todos los datos y el número de ellos. Si xi es el valor de la variable y ni su frecuencia, tenemos que:
Si los datos están agrupados utilizamos las marcas de clase, es decir ci en vez de xi.
MEDIANA (Me):es el valor que separa por la mitad las observaciones ordenadas de menor a mayor, de tal forma que el 50% de estas son menores que la mediana y el otro 50% son mayores. Si el número de datos es impar la mediana será el valor central, si es par tomaremos como mediana la media aritmética de los dos valores centrales.
MODA (M0): es el valor de la variable que más veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. No tiene porque ser única.
Medidas de Dispersión
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión nos dicen hasta que punto estas medidas de tendencia central son representativas como síntesis de la información. Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central.Distinguimos entre medidas de dispersión absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirán comparar varias muestras.
MEDIDAS DE DISPERSIÓN ABSOLUTAS
VARIANZA ( s2 ): es el promedio del cuadrado de las distancias entre cada observación y la media aritmética del conjunto de observaciones.
Haciendo operaciones en la fórmula anterior obtenemos otra fórmula para calcular la varianza:
Si los datos están agrupados utilizamos las marcas de clase en lugar de Xi.
DESVIACIÓN TÍPICA (S): La varianza viene dada por las mismas unidades que la variable pero al cuadrado, para evitar este problema podemos usar como medida de dispersión la desviación típica que se define como la raíz cuadrada positiva de la varianza
Para estimar la desviación típica de una población a partir de los datos de una muestra se utiliza la fórmula (cuasi desviación típica):
RECORRIDO O RANGO MUESTRAL (Re). Es la diferencia entre el valor de las observaciones mayor y el menor. Re = xmax - xmin
MEDIDAS DE DISPERSIÓN RELATIVAS
COEFICIENTE DE VARIACIÓN DE PEARSON: Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variación de Pearson que se define como el cociente entre la desviación típica y el valor absoluto de la media aritmética
CV representa el número de veces que la desviación típica contiene a la media aritmética y por lo tanto cuanto mayor es CV mayor es la dispersión y menor la representatividad de la media.
Medidas de Forma
Comparan la forma que tiene la representación gráfica, bien sea el histograma o el diagrama de barras de la distribución, con la distribución normal.
MEDIDA DE ASIMETRÍA
Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética coinciden.
Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más lentamente por la derecha que por la izquierda.
Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la distribución es asimétrica a la izquierda.
Existen varias medidas de la asimetría de una distribución de frecuencias. Una de ellas es el Coeficiente de Asimetría de Pearson:
Su valor es cero cuando la distribución es simétrica, positivo cuando existe asimetría a la derecha y negativo cuando existe asimetría a la izquierda.
MEDIDA DE APUNTAMIENTO O CURTOSIS
Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de distribuciones según su grado de curtosis:
Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.
EJEMPLO 1
El número de diás necesarios por 10 equipos de trabajadores para terminar 10 instalaciones de iguales características han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular la media, mediana, moda, varianza y desviación típica.
SOLUCIÓN:
La media: suma de todos los valores de una variable dividida entre el número total de datos de los que se dispone:
La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:
15, 21, 32, 59, 60, 60,61, 64, 71, 80.
Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores nos dará a su vez 60, que es el valor de la mediana.
La moda: el valor de la variable que presenta una mayor frecuencia es 60
La varianza S2: Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.
Sx2=
La desviación típica S: es la raíz cuadrada de la varianza.
S = √ 427,61 = 20.67
El rango: diferencia entre el valor de las observaciones mayor y el menor
80 - 15 = 65 días
El coeficiente de variación: cociente entre la desviación típica y el valor absoluto de la media aritmética
CV = 20,67/52,3 = 0,39
DISTRIBUCION NORMAL Y LOGNORMALDistribucion normal:
En estadística y probabilidad se llama distribución normal, distribución de
Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable
continua que con más frecuencia aparece aproximada en fenómenos reales.[cita requerida]
La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto
de un determinado parámetro estadístico. Esta curva se conoce como campana de
Gauss y es el gráfico de una función gaussiana.
La importancia de esta distribución radica en que permite modelar numerosos fenómenos
naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran
parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables
incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse
asumiendo que cada observación se obtiene como la suma de unas pocas causas
independientes.
De hecho, la estadística descriptiva sólo permite describir un fenómeno, sin explicación
alguna. Para la explicación causal es preciso el diseño experimental, de ahí que al uso de
la estadística en psicología y sociología sea conocido como método correlacional.
La distribución normal también es importante por su relación con la estimación
por mínimos cuadrados, uno de los métodos de estimación más simples y antiguos.
Algunos ejemplos de variables asociadas a fenómenos naturales que siguen el modelo de
la normal son:
caracteres morfológicos de individuos como la estatura;
caracteres fisiológicos como el efecto de un fármaco;
caracteres sociológicos como el consumo de cierto producto por un mismo grupo de
individuos;
caracteres psicológicos como el cociente intelectual;
nivel de ruido en telecomunicaciones;
errores cometidos al medir ciertas magnitudes;
etc.
La distribución normal también aparece en muchas áreas de la propia estadística. Por
ejemplo, la distribución muestralde las medias muestrales es aproximadamente normal,
cuando la distribución de la población de la cual se extrae la muestra no es
normal.1 Además, la distribución normal maximiza la entropía entre todas las
distribuciones con media y varianza conocidas, lo cual la convierte en la elección natural
de la distribución subyacente a una lista de datos resumidos en términos de media
muestral y varianza. La distribución normal es la más extendida en estadística y muchos
tests estadísticos están basados en una "normalidad" más o menos justificada de la
variable aleatoria bajo estudio.
En probabilidad, la distribución normal aparece como el límite de varias distribuciones de
probabilidad continuas y discretas.
Distribucion Log- normal
En probabilidades y estadísticas, la distribución log-normal es una distribución de
probabilidad de una variable aleatoria cuyo logaritmo está normalmente distribuido. Es decir,
si X es una variable aleatoria con una distribución normal, entonces exp(X) tiene una
distribución log-normal.
La base de una función logarítmica no es importante, ya que loga X está distribuida
normalmente si y sólo si logb X está distribuida normalmente, sólo se diferencian en un factor
constante.
Log-normal también se escribe log normal o lognormal.
Una variable puede ser modelada como log-normal si puede ser considerada como
un producto multiplicativo de muchos pequeños factores independientes. Un ejemplo típico es
un retorno a largo plazo de una inversión: puede considerarse como un producto de muchos
retornos diarios.
La variable T sigue una distribución lognormal si lnT tiene una distribución normal de media μ y varianza σ². En consecuencia, la variable
es un variable normal reducida, es decir de media igual a 0 y desviación típica igual a 1. Por lo tanto, la función de supervivencia se puede escribir
siendo la función de distribución acumulativa de la normal reducida. Por lo tanto un modo gráfico de verificar esta distribución es comparar la función de supervivencia dibujada en papel lognormal con una recta.
La función están caracterizadas por los dos parámetros μ y σ, que no son su media y desviación típica. La estimación de estos parámetros sólo es sencilla en el caso de que no haya pérdidas y ésta es la que implementa el PRESTA.
Se ha usado esta función para estudiar tanto la supervivencia en SIDA (1), como el tiempo hasta la seroconversión de HIV+ (2).
Ejemplo
Estímese las función de supervivencia, asumiendo el modelo lognormal y realícese la prueba de la bondad de ajuste, para los datos de la tabla.
La salida del PRESTA es (nótese que se denomina parámetro A a m y parámetro B a s2
NUMERO DE CASOS: 121CASOS QUITADOS POR CONTENER ALGUN VALOR NO ESPECIFICADO: 0
PARAMETRO ERROR STANDARD
A 2.32263 .04138
B .20719 .02664
MATRIZ DE COVARIANZAS
A B
A .00171 .00000
B .00000 .00071
TABLA DE VALORES OBSERVADOS Y ESPERADOS(SOLO CUENTAN LOS EVENTOS)
INTERVALO OBSERVADOS ESPERADOS CONT. JI2
< 5.69 10.00 12.10 .3645
5.69 - 6.96 9.00 12.10 .7942
6.96 - 8.04 18.00 12.10 2.8769
8.04 - 9.09 12.00 12.10 .0008
9.09 - 10.20 17.00 12.10 1.9843
10.20 - 11.45 12.00 12.10 .0008
11.45 - 12.95 8.00 12.10 1.3893
12.95 - 14.96 9.00 12.10 .7942
14.96 - 18.28 16.00 12.10 1.2570
> 18.28 10.00 12.10 .3645
PRUEBA DE BONDAD DE AJUSTEJI-CUADRADO: 9.82645 G.L.: 7 p= .197686
Con la prueba de bondad de ajuste basada en la ji-cuadrado, que en este caso que no hay pérdidas “funciona” mejor, no se rechaza la hipótesis nula de modelo lognormal y en la gráfica también se observa que el modelo es satisfactorio.
Aceptando que el modelo es bueno, calcúlese la supervivencia a 8 años (suponiendo los tiempos en años) y la mediana de supervivencia.
En la gráfica se observa que para T=8, S(t) es aproximadamente 0,7 y que S(t)=0,5 para t=10 aproximadamente. O bien, más laborioso pero más preciso, usando lasfórmulas
y mirando en la tabla de la normal
es decir la probabilidad de supervivencia a los 8 años es 0,7019. La mediana es el tiempo en el que S(t)=0,5
y mirando en la tabla de la normal