Estadística descriptiva

Preview:

DESCRIPTION

Carlos Gabriel ContrerasEstadística descriptiva

Citation preview

Estadística descriptiva.

Carlos Gabriel Contreras Msc Estadístico UCLA

Principios.

•Determinar la naturaleza de la información.

•Conocer la distribución de los datos.•Los datos que no han sido procesados ni

ordenados se conocen como datos brutos.•A los números individuales utilizados para

describir datos se les llama medidas descriptivas.

Arreglo ordenado.

•Es el primer paso para organizar datos.•Es una lista de valores de un grupo en

orden de magnitud, de menor a mayor.•Esto permite detectar con rapidez los

valores de las mediciones mas pequeñas.•Sí se hace uso de un computador, no se

requiere un arreglo ordenado ya que los datos se pueden pedir puntualmente.

Datos agrupados y distribuciones de frecuencias.

•Estrategia de agrupación de datos.•Cuando se tiene un dato agrupado, se puede

resumir.•Para agrupar un conjunto de observaciones se

debe seleccionar un conjunto de intervalos contiguas que no se traslapen, para que cada valor en el conjunto de observaciones pueda ser puesto en uno y solo uno de los intervalos. Estos intervalos normalmente se identifican como intervalos de clase.

Intervalos de clase.

•¿Cuántos intervalos se deben incluir?

•Pocos intervalos generan perdida de observaciones.

•Muchos intervalos no permiten cumplir con el objetivo de resumir información.

•Empíricamente se ha dicho que se recomienda hacer intervalos de clase de 6 a 15.

Formula de Sturges.

k = 1 + 3.322 (log10n)

K: números de intervalos de clase.n: número de valores en el conjunto de datos en observación.

La respuesta que se obtiene con esta regla no es definitiva, de hecho constituye solo una guía.

Amplitud del intervalo de clase.•Los intervalos de clase deben tener la

misma amplitud.•Siendo w la amplitud del intervalo, k el

numero de intervalos de clase y R el rango (diferencia entre la observación mínima y la observación máxima)

w= R/k

Frecuencia absoluta.

•Numero de observaciones que caen dentro de un intervalo de clases.

Frecuencia relativa.

•Proporción de las observaciones que caen dentro de un intervalo de clase.

•Se obtiene dividiendo el numero de valores en un intervalo de clase particular, entre el número total de valores.

Frecuencias acumuladas y relativas acumuladas.

• Para determinar la frecuencia de valores que caen dentro de dos o mas intervalos de clase, se obtiene la suma del numero de valores que caen dentro de los intervalos de clase correspondientes.

• Análogamente, Sí se pretende conocer la frecuencia relativa de ocurrencia de valores que caen dentro de dos o mas intervalos de clase, entonces se suman las frecuencias relativas para facilitar la obtención de información acerca de las frecuencias.

Ejemplo.

•Base de datos de distribución de cáncer de mama y variables asociadas a los tumores de mama.

•Descripción de la variable edad en términos de frecuencias haciendo uso de StatGraphics.

Generalidades.

•En términos generales la variable edad es una variable numérica.

•Por lo que es necesario hacer la descripción en términos cuantitativos y unidimensionales.

Aplicación de Sturges

•k = 1 + 3.322 (log10n)

•k = 1 + 3.322 (log1066)

•k = 1 + 3.322 (1,81)

•7.82.

Amplitud del intervalo de clase.

•w= R/k

•w= 66/7.82

•W= 8.43

Estimación de rangos.•Valor mínimo (22) y valor máximo (88)

• 22-29 (1)• 30-38 (2)• 39-47 (3)• 48-56 (4)• 57-65 (5)• 66-74 (6)• 75-84 (7)

• Mas de 85 (8)

Grafico de barras.

•Variables cualitativas.

•Eje X intervalos de clase.

•Eje Y frecuencia absoluta o relativa.

•Las barras son separadas.

•Otra alternativa grafica es el grafico de pastel.

El histograma.

•Es una manera de ver gráficamente una distribución de frecuencias relativas o absolutas de una variable cuantitativa.

•Los valores de la variable respectiva se ponen en el eje horizontal y las frecuencias o frecuencias relativas en el eje vertical.

•Las celdas en el grafico son conjuntas.

Ejemplo 2.

•Aun cuando para fines descriptivos, la variable edad se paso a una escala ordinal para poder resumir adecuadamente los datos, la naturaleza de la variable es cuantitativa, por ello se pude analizar haciendo uso de un histograma.

•A continuación se describirá gráficamente la variable tiempo de muerte de la base de datos de cáncer de mama.

Despliegues de tallos y hojas.• Representación de datos cuantitativos.• Proporciona información sobre el rango del

conjunto de datos, muestra la ubicación de la mayor concentración de observaciones, revela la presencia o ausencia de simetría.

• Cada observación se divide en dos, el tallo y las hojas.

• El tallo, se forma con uno o mas dígitos iníciales de la medición, y las hojas se forman con uno o mas de los dígitos restantes.

• El tallo se ordena de mayor a menor.

Medidas de tendencia central.

•Hay otras formas para resumir los datos.•Aveces se requiere condensar los datos

haciendo uso de alguna medida descriptiva.

•Las medidas descriptivas pueden calcularse para las muestras o para las poblaciones de datos.

•Una medida descriptiva calculada a partir de los datos de una muestra se llama estadística.

•Una medida descriptiva calculada a partir de los datos de una población se llama parámetro.

Medidas de tendencia central.

•Las medidas de tendencia central es un valor del conjunto de datos, se considera como la representación del todo.

•Las medidas de tendencia central conllevan información respecto al valor promedio de un conjunto de valores.

•Las tres medidas son: media, mediana y moda.

La media aritmética.

•Comúnmente conocida como promedio.

•Se obtiene sumando todos los valores en una población o muestra y dividiendo entre el numero de valores sumados.

•Es aritmética porque se obtiene por dichos procedimientos matemáticos, además se usa para distinguirse de otros tipos de media.

Formula general de la media.

•m= Sx/N _:...........•x= Sx/n

Propiedades de la media.• Es única, es decir, para un grupo de datos existe solo

una media.

• Simplicidad: el calculo y comprensión son sencillos.

• La media es afectada por cada valor de la muestra o la población.

• La media es susceptible a valores extremos.

• Solo es útil para describir datos intervalares y de razón

La mediana.•Divide al conjunto de datos en dos 50 y 50•Sí el numero de valores es impar, la mediana

es el valor medio o central siempre y cuando todas las variables sean arregladas en orden de magnitud.

•En caso que el numero sea par, no existe un valor medio único, sino que existen dos valores medios, en este caso, la mediana corresponde a la media de estos valores centrales cuando todos los valores son arreglados en orden de magnitud.

Propiedades de la mediana.

• Es única al igual que la media.

• Simplicidad: es fácil de calcular.

• Los valores extremos no tienen efectos importantes sobre la mediana, lo que Sí ocurre con la media.

• Se puede utilizar para describir datos ordinales intervalares y de razón.

Moda.• La moda de un conjunto de valores es el valor

que ocurre con mayor frecuencia.

• Sí todos los valores son diferentes, no hay moda.

• Un conjunto de valores puede tener mas de una moda (distribución bi-modal)

• La moda se puede utilizar para describir datos cualitativos y variables medidas a nivel nominal, ordinal, intervalar y de razón.

Ejemplo 3.•Siguiendo con la variable tiempo de muerte

para la base de datos de cáncer de mama.

•Se estimaran los estadísticos de tendencia central.

•Sí el dato es nominal: solo la moda es útil.•Sí el dato es ordinal: moda y mediana.•Sí los datos son en intervalo o razón: media,

mediana y moda son útiles.

Medidas de dispersión.

•Se refiere a la variedad de las observaciones de una muestra o población.

•Variabilidad total de un conjunto de datos.•Sí todos los datos son iguales no hay

dispersión.•La magnitud de la dispersión es pequeña

cuando los datos tienden a ser parecidos entre Sí.

•Dos muestras pueden tener medias iguales pero dispersiones distintas.

El rango o intervalo de variación.•Es la diferencia entre el valor máximo y el

valor mínimo.

•La utilidad del rango es limitada.

•Es una medida pobre de dispersión ya que solo toma dos valores.

•Su principal ventaja es la simplicidad del calculo.

La varianza• Cuando los valores de un conjunto de

observaciones se encuentran ubicados cerca de su media, la dispersión es menor que cuando están esparcidos.

• La magnitud de esta distancia se mide con la varianza.

• Se resta la media de cada uno de los valores individuales, las diferencias se elevan al cuadrado y después se suman entre Sí.

• Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a la media se divide por el tamaño de la muestra menos 1.

La varianza de la muestra.

•S2=Sn(x-X)/n-1

Varianza poblacional.

•s2= S (X-m)/N

Desviación estándar.

•La varianza es una medida de dispersión al cuadrado, por lo que no expresa del todo la dispersión de los datos originales.

•Se utiliza la desviación estándar que en ultimas es la dispersión original del dato.

•Es la raíz cuadrada de la varianza.

Ejemplo 4

•Interpretar las siguientes desviaciones estandar.

•30•0.22•23•33•13

Coeficiente de variación.

•Se utiliza cuando se quiere comparar la dispersión de dos conjuntos de datos

•La comparación de las dos desviaciones estándar puede dar un resultado equivocado.

C.V. = s/media (100)

Ejemplo 5

•Hay dos muestras de varones con estos datos:

Muestra 1 Muestra 2

Edad. 25 años. 11 años

Peso promedio 145 libras 80 libras

Desviación E. 10 libras 10 libras

• ¿Cuál de los dos grupos tiene mayor variabilidad.

Ejemplo 5

•C.V. = 10/145 (100)= 6.9

•C.V. =10/80 (100)=12.5

C.V. = s/media (100)

Percentiles y cuartiles.• Parámetros de localización.

• Cado un conjunto de n observaciones x1, x2. x3 ….xn, el p-esimo percentil P es el valor de X, tal que p por ciento o menos de las observaciones son menores que P y (100-p) por ciento o menos de las observaciones son mayores que P.

• Sí una persona queda en percentil 22 quiere decir que supero al 22% de la población y fue superada por el 78%

Percentiles y cuartiles.

•Los sub-índices en los percentiles indican su ubicación, por ejemplo P22 es el percentil 22.

•P50 por definición es la mediana.

•P25 es el primer cuartil y se expresa como Q1.

•P50 es el segundo cuartil y se conoce como Q2.

•P75 es el tercer cuartil y se conoce como Q3

Ejemplo 6

•A un grupo de niños se les hizo la prueba de coeficiente intelectual, quedando en los siguientes percentiles, interprételos.

•P33

•P99

•P39

•p13

IQR o rango intercuartilico.

•Es la diferencia entre cuartil 3 y cuartil 1.

•IQR: Q3-Q1

Grafico de cajas.