9
Introducción a la estadística Estadística. La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis. Estadística descriptiva. Ciencia que estudia las técnicas mediante las cuales se recopilan, coleccionan, y organizan datos e información los cuales pueden representarse gráficamente. Probabilidad. Ciencia que estudia la posibilidad de que suceda un evento de interés, llamado experimento, por ejemplo: 1. El lanzamiento de un par de dados y sus posibles resultados. 2. El lanzamiento de una moneda honrada. 3. La adquisición de un boleto para un determinado sorteo. En los últimos años el estudio de la estadística ha revolucionado, lo cual ha dado vida a una nueva rama: la Estadística Inferencial. Estadística Inferencial. Ciencia que auxiliándose en la recolección de datos y gráficas de la estadística descriptiva y las leyes de la probabilidad nos ayuda a tomar decisiones razonadas. La industria, la salud, la agricultura, la ciencia política, la mercadotecnia y principalmente el control de calidad, son algunas de las muchas aplicaciones de la estadística con sus dos ramas. Simplificando podemos obtener la siguiente definición de E e stadística: Estadística. La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis. La encuesta es una de muchas herramientas disponibles para recolectar datos. Una meta común de las encuestas es reunir datos de una pequeña parte de un grupo más grande para aprender algo acerca de este último. Una meta común e importante de la estadística es aprender acerca de un grupo examinando los datos de algunos de sus miembros. En dicho contexto los términos muestra y población adquieren importancia. Definiciones

Introducción a la estadística (Guia N° 01)

Embed Size (px)

Citation preview

Page 1: Introducción a la estadística (Guia N° 01)

Introducción a la estadística

Estadística. La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis.

Estadística descriptiva. Ciencia que estudia las técnicas mediante las cuales se recopilan, coleccionan, y organizan datos e información los cuales pueden representarse gráficamente. Probabilidad. Ciencia que estudia la posibilidad de que suceda un evento de interés, llamado experimento, por ejemplo: 1. El lanzamiento de un par de dados y sus posibles resultados.2. El lanzamiento de una moneda honrada.3. La adquisición de un boleto para un determinado sorteo. En los últimos años el estudio de la estadística ha revolucionado, lo cual ha dado vida a una nueva rama: la Estadística Inferencial. Estadística Inferencial. Ciencia que auxiliándose en la recolección de datos y gráficas de la estadística descriptiva y las leyes de la probabilidad nos ayuda a tomar decisiones razonadas. La industria, la salud, la agricultura, la ciencia política, la mercadotecnia y principalmente el control de calidad, son algunas de las muchas aplicaciones de la estadística con sus dos ramas. Simplificando podemos obtener la siguiente definición de Eestadística:

Estadística. La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis.

La encuesta es una de muchas herramientas disponibles para recolectar datos. Una meta común de las encuestas es reunir datos de una pequeña parte de un grupo más grande para aprender algo acerca de este último. Una meta común e importante de la estadística es aprender acerca de un grupo examinando los datos de algunos de sus miembros. En dicho contexto los términos muestra y población adquieren importancia.

DefinicionesDatos son las observaciones recolectadas (como mediciones, géneros, respuestas de encuesta).

Población es la colección completa de todos los elementos (puntuaciones, personas, mediciones, etcétera) a estudiar. Se dice que la colección es completa, pues incluye a todos los sujetos que se estudiarán.

Censo es la colección de datos de cada uno de los miembros de la población.

Muestra es un subconjunto de miembros seleccionados de una población.

Page 2: Introducción a la estadística (Guia N° 01)

Nota: debemos enfocarnos en los siguientes conceptos clave:*Los datos muéstrales deben reunirse de una forma adecuada, como en un proceso de selección aleatoria.*Si los datos muéstrales no se reúnen de forma adecuada, resultarían tan inútiles que ninguna cantidad de tortura estadística podría salvarlos.

Tipos de datosParámetro es una medición numérica que describe algunas características de una población.

Estadístico es una medición numérica que describe algunas características de una muestra.

Los datos cuantitativos consisten en números que representan conteos o mediciones.

Los datos cualitativos (o categóricos o de atributo) se dividen en diferentes categorías que se distinguen por alguna característica no numérica.

Datos discretos resultan cuando el número de posibles valores es un número finito, o bien, un número que puede contarse. (Es decir, el número de posibles valores es 0, 1, 2, etcétera).

Datos continuos (numéricos) resultan de un infinito de posibles valores que pueden asociarse a puntos de alguna escala continua, cubriendo un rango de valores sin huecos ni interrupciones.

Nivel de medición nominal son los datos consistentes exclusivamente en nombres, etiquetas o categorías que no pueden acomodarse según un esquema de orden (por ejemplo, de bajo a alto).Los datos están en el nivel de medición ordinal cuando pueden acomodarse en algún orden, aunque no es posible determinar diferencias entre los valores de los datos o tales diferencias carecen de significado.

El nivel de medición de intervalo se parece al nivel ordinal, pero con la propiedad adicional de que la diferencia entre dos valores de datos cualesquiera tiene un significado. Sin embargo, los datos en este nivel no tienen un punto de partida inherente (natural) desde cero (donde nada de la cantidad esté presente).

El nivel de medición de razón se parece al nivel de intervalo, aunque tiene la propiedad adicional de que sí tiene un punto de partida o cero inherente (donde cero indica que nada de la cantidad está presente). Para valores en este nivel, tanto las diferencias como las proporciones tienen significado.

Muestra de respuesta voluntaria (o muestra autoseleccionada) es aquella donde los sujetos deciden ser incluidos por sí mismos.

Page 3: Introducción a la estadística (Guia N° 01)

Diseño de experimentosExisten dos puntos principales que son bastante sencillos. Es necesario entender que el método usado para reunir los datos es extremadamente importante, y debemos reconocer que la aleatoriedad resulta importante en particular.*Si los datos muestrales no se reúnen de manera adecuada, éstos podrían resultar inútiles por completo, de tal forma que ninguna cantidad de tortura estadística los salvaría.*La aleatoriedad por lo general juega un papel crucial para determinar cuáles son los datos a reunir.Los métodos estadísticos se rigen por los datos. Por lo regular obtenemos datos de dos fuentes distintas: los estudios observacionales y los experimentos.En un estudio observacional, observamos y medimos características específicas, aunque no intentamos manipular a los sujetos que estamos estudiando.En un experimento aplicamos algún tratamiento y luego procedemos a observar sus efectos sobre los sujetos.Hay diferentes tipos de estudios observacionales:Estudio transeccional, los datos se observan, miden y reúnen en un solo momento.Estudio retrospectivo (o de control de caso), los datos se toman del pasado (a través del examen de registros, entrevistas y otros medios).Estudio prospectivo (o longitudinal o cohorte), los datos se reúnen en el futuro y se toman de grupos (llamados cohortes) que comparten factores comunes.

Elementos claves en el diseño de experimentos:1.- Controlar efectos de las variables a través de un estudio ciego, bloques, diseños experimental completamente aleatorizado, diseño experimental rigurosamente controlado.2.- Replica3:- Aleatorización.

Los resultados de los experimentos algunas veces se empobrecen a causa de la confusión.

La confusión ocurre en un experimento cuando el experimentador no es capaz de distinguir entre los efectos de diferentes factores.

Intente planear el experimento de manera que no se presente confusión.

Ahora definiremos algunos de los métodos de muestreo más comunes.Muestra aleatoria los miembros de una población se seleccionan de manera que cada miembro individual tiene la misma posibilidad de ser elegido.Muestra aleatoria simple del tamaño de n sujetos, se selecciona de manera que cada posible muestra del mismo tamaño n tenga la misma posibilidad de ser elegida.Además del muestreo aleatorio, hay otras técnicas de muestreo en uso, y las más comunes se describen aquí:En el muestreo sistemático, elegimos algún punto de partida y luego seleccionamos cada k-ésimo (por ejemplo cada quincuagésimo) elemento en la población.

Page 4: Introducción a la estadística (Guia N° 01)

Con el muestreo de conveniencia, simplemente se utilizan resultados que sean muy fáciles de obtener.Con el muestreo estratificado, subdividimos la población en al menos dos diferentes subgrupos (o estratos) que comparten las mismas características (por ejemplo, el género o la categoría de edad) y después realizamos un muestreo de cada subgrupo (o estrato).En el muestreo por racimos, primero dividimos el área de la población en secciones (o racimos), después seleccionamos aleatoriamente algunos de estos racimos, y luego elegimos a todos los miembros de los racimos seleccionados.

Errores de muestreoPor muy bien que usted planee y ejecute el proceso de recolección de muestras, es probable que ocurra algún error en los resultados:Un error de muestreo es la diferencia entre el resultado de una muestra y el verdadero resultado de la población; tal error es consecuencia de las posibles fluctuaciones de las muestras.Un error no de muestreo ocurre cuando los datos de una muestra se obtienen, registran o analizan de forma incorrecta (como cuando se selecciona una muestra sesgada o predispuesta, cuando se usa un instrumento de medición defectuoso o cuando se cometen errores al copiar los datos).

Descripción, exploración y comparación de datosCaracterísticas importantes de los datos1. Centro: Valor representativo o promedio que indica la localización de la mitad del conjunto de los datos.2. Variación: Medida de la cantidad en que los valores de los datos varían entre sí.3. Distribución: Naturaleza o forma de la distribución de los datos (tales como normales, uniformes o sesgadas).4. Datos distantes: Valores muestrales que están muy alejados de la vasta mayoría de los demás valores de la muestra.5. Tiempo: Características cambiantes de los datos a través del tiempo.

DISTRIBUCIONES DE FRECUENCIAS Tomas o Filas de Datos: Una toma o fila de datos consiste en datos obtenido que no han sido organizados numéricamente, por ejemplo los pesos de los estudiantes de quinto semestre de la especialidad electrónica del plantel compuertas. Ordenación: Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. La deferencia entre el mayor y el menor se llama rango de ese conjunto de datos. Distribución de Frecuencias: Una distribución de frecuencias es una tabla en la cual se agrupa en clases los valores posibles para una variable y se registra el número de valores observados que corresponde a cada clase. Los datos organizados en una distribución de frecuencias se denominan datos agrupados; por el contrario, para los datos no agrupados, se enumeran todos los valores observados de la variable aleatoria. Número de clase: El número de clase, es la división en la cual podemos ordenar la toma de datos obtenidos en campo. Una fórmula de aproximación para calcular el número de clases es la llamada Regla de Sturges, la cual matemáticamente se define como:

Page 5: Introducción a la estadística (Guia N° 01)

N0 = 1 + 3, 22 log N

donde:

N0 = total de numero de clases

N= total de datos obtenidos en campo.

log = logaritmo de Briggs.

Amplitud de clase. Es el valor que se le aumenta a la cantidad menor de los datos o valores obtenidos, para así elaborar las distribuciones de frecuencia, matemáticamente se expresa:

donde: maxV = valor máximo de los datos obtenidos en campo. minV = valor mínimo. N0= número de clases= 1 + 3, 22 log N

El resultado final de la amplitud de clase debe estrictamente obtenerse en numero entero; en caso contrario deberá redondearse, si el decimal es mayor a 0.5 se aumentara una unidad al resultado obtenido.

Intervalos de clase. Indica el rango de los valores incluidos dentro de una clase y puede ser determinar restando el límite exacto inferior de clase de su límite exacto superior.Los límites de clase inferiores son las cifras más pequeñas que pueden pertenecer a las diferentes clases. (Los límites de clase inferiores de la tabla son 0, 100, 200, 300 y 400).Los límites de clase superiores son las cifras más grandes que pueden pertenecer a las diferentes clases. (Los límites de clase superiores de la tabla son 99, 199, 299, 399 y 499).Las fronteras de clase son las cifras utilizadas para separar las clases, aunque sin los espacios creados por los límites de clase. Se obtienen de la siguiente manera: se determina el tamaño del espacio entre el límite de clase superior de una clase y el límite de clase inferior de la siguiente. Se suma la mitad de esa cantidad a cada límite de clase superior, para obtener las fronteras de clase superiores; se resta la mitad de esa cantidad de cada límite de clase inferior, para obtener las fronteras de clase inferiores.

A=V max−Vnin1+3 ,22 log N

Page 6: Introducción a la estadística (Guia N° 01)

(Los espacios de la tabla son exactamente de una unidad, de modo que a los límites de clase superiores se les suma 0.5 y a los límites de clase inferiores se les resta - 0.5. Las fronteras de la primera clase son - 0.5 y 99.5, en tanto que las de la segunda clase son 99.5 y 199.5, y asísucesivamente. La lista completa de fronteras utilizadas para todas las clases es la siguiente: 0.5, 99.5, 199.5, 299.5, 399.5 y 499.5.)Las marcas de clase son los puntos medios de las clases. (Las marcas de clase de la tabla son 49.5, 149.5, 249.5, 349.5 y 449.5). Cada marca de clase se calcula sumando el límite de clase inferior con el límite de clase superior y dividiendo la suma entre dos. Se representa por xLa anchura de clase es la diferencia entre dos límites de clase inferiores consecutivos o dos fronteras de clase inferiores consecutivas. (La anchura de clase que se utiliza en la tabla es igual a 100).Tabla 2-2Distribución de frecuencias de los niveles de cotinina (Tabla)de los fumadoresCotinina Frecuencia0–99 11100–199 12200–299 14300–399 1400–499 2

Frecuencia. Se define como el número de veces en que se repite un suceso y se representa por la letra f

Histograma. Un Histograma o Histograma de frecuencias, consiste en un conjunto de rectángulos, que pueden ser:

(a) Con bases en el eje x horizontal, centros en las marcas de clase y longitudes iguales a los tamaños de los intervalos de clase.

(b) Áreas proporcionales a las frecuencias de clase.

Polígono de Frecuencias. Es un gráfico de trozos de la frecuencia de clase con relación a la marca de clase. Puede obtenerse conectando los puntos medios de las partes superiores de los rectángulos del Histograma.

Distribuciones de Frecuencias Relativas. La frecuencia relativa de una clase es su frecuencia dividida por la frecuencia total de todas las clases y se expresa generalmente como un porcentaje, por lo tanto la suma de las frecuencias relativas de todas las clases es 100. Si se acumulan las frecuencias relativas de varias clases, a la tabla obtenida, se le llama “tabla de frecuencia relativas”.

Distribuciones de Frecuencias Acumuladas. La frecuencia total de todos los valores menores que la frontera de clase superior de un intervalo de clase dado se llama frecuencia acumulada hasta ese intervalo de clase. Una

Page 7: Introducción a la estadística (Guia N° 01)

tabla que presenta varias frecuencias acumuladas se llama “tabla de frecuencias acumuladas” A las distribuciones de frecuencias acumuladas también se les conoce como “ojivas”.

Curvas de FrecuenciaLos datos obtenidos pueden considerarse usualmente como pertenecientes a una muestra de una población grande. Ya que son posibles muchas observaciones sobre esa población, siendo posible escoger intervalos de clase muy pequeñas y tener todavía números razonables en cada clase.