10
USAC-CUNSURORI. JALAPA ZOOTECNIA 1 Consideraciones generales de análisis exploratorio de datos POBLACION (N) Y MUESTRA (n) 1 Cuando se realiza un estudio de investigación, se pretende generalmente inferir o generalizar resultados de una muestra a una población. Este proceso de inferencia se efectúa por medio de métodos estadísticos basados en la probabilidad. 1. Población ( N ): Representa el conjunto de todos los individuos que deseamos estudiar y generalmente suele ser inaccesible. Tienen en común alguna característica observable y del que se pretende obtener una serie de conclusiones. 2. Muestra ( n ): Es el conjunto menor de individuos accesible y limitado de la población sobre el que realizamos las mediciones o el experimento con la idea de obtener conclusiones generalizables a la población. El individuo es cada uno de los componentes de la población y la muestra. Al número de individuos que forman la muestra se llama tamaño muestral (n). La muestra debe ser representativa de la población y con ello queremos decir que cualquier individuo de la población en estudio debe haber tenido la misma probabilidad de ser elegido. Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos señalar: 1. Ahorrar tiempo. 2. Ahorrar costos. 1 Texto paralelo. Élfego Alarcón 468

Analisis de datos exploratorios julio 15

Embed Size (px)

Citation preview

USAC-CUNSURORI. JALAPA ZOOTECNIA

1

Consideraciones generales de análisis exploratorio de datos

POBLACION (N) Y MUESTRA (n) 1

Cuando se realiza un estudio de investigación, se pretende generalmente inferir o generalizar resultados de una muestra a una población. Este proceso de inferencia se efectúa por medio de métodos estadísticos basados en la probabilidad.

1. Población ( N ):

Representa el conjunto de todos los individuos que deseamos estudiar y generalmente suele ser inaccesible. Tienen en común alguna característica observable y del que se pretende obtener una serie de conclusiones.

2. Muestra ( n ):

Es el conjunto menor de individuos accesible y limitado de la población sobre el que realizamos las mediciones o el experimento con la idea de obtener conclusiones generalizables a la población. El individuo es cada uno de los componentes de la población y la muestra. Al número de individuos que forman la muestra se llama tamaño muestral (n). La muestra debe ser representativa de la población y con ello queremos decir que cualquier individuo de la población en estudio debe haber tenido la misma probabilidad de ser elegido.

Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos señalar:

1. Ahorrar tiempo. 2. Ahorrar costos.

1 Texto paralelo. Élfego Alarcón 468

USAC-CUNSURORI. JALAPA ZOOTECNIA

2

3. Estudiar la totalidad de los individuos con una característica determinada en muchas ocasiones puede ser una tarea inaccesible o imposible de realizar.

4. Aumentar la calidad del estudio. 5. La selección de muestras específicas nos permitirá reducir la

heterogeneidad de una población al indicar los criterios de inclusión y/o exclusión.

3. Muestreo:

El proceso de selección de los individuos se puede realizar mediante distintas técnicas de muestreo:

1. Muestreo aleatorio simple � Cada individuo tiene las mismas posibilidades de ser elegido para formar parte de la muestra.

2. Muestreo aleatorio estratificado � Aseguras que la muestra tenga la misma proporción de una(s) variables que la población de la que procede.

3. Muestreo sistemático � El proceso de selección se basa en alguna regla sistemática simple, por ejemplo, elegir uno de cada “n” individuos.

4. Muestreo por etapas � La selección se realiza en 2 ó más etapas sucesivas o dependientes.

VARIABLES

Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso, talla, producción, etc.). Los datos son los valores que toma la variable en cada caso. Lo que vamos a realizar es medir, es decir, asignar valores a las variables incluidas en el estudio. Deberemos además concretar la escala de medida que aplicaremos a cada variable.

Un consejo: “Recoger tantas variables como sean necesarias y tan pocas como sea posible”.

Una variable es una característica observable que se desea estudiar en una muestra de individuos, pudiendo tomar diferentes valores. Las clasificaremos en dos tipos: variables cuantitativas o variables cualitativas.

USAC-CUNSURORI. JALAPA ZOOTECNIA

3

a. Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o expresarse numéricamente. Las variables cuantitativas pueden ser de dos tipos:

1. Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango numérico determinado (edad, peso, talla).

2. Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango. Suelen tomar solamente valores enteros (número de hijos, número de partos, número de hermanos, etc.).

b. Variables cualitativas. Este tipo de variables representan una cualidad o atributo que clasifica a cada caso en una de varias categorías.

1. Dicotómicas (escalas nominales): La situación más sencilla es aquella en la que se clasifica cada caso en uno de dos grupos (hombre/mujer, enfermo/sano, si o no fumador).

2. Ordinal (escalas ordinales): Se requiere de un mayor número de categorías (color de la piel, fenotipo,

USAC-CUNSURORI. JALAPAZOOTECNIA

Se considera la estadística descriptiva como el conjunto de técnicas que facilitan la organización, resumen y comunicación de datos.

Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al análisis descr

Para variables categóricasde casos en cada una de las categorías, reflejando habitualmente el porcentaje que representan del total, y expresándolo en una

Para variables numéricasvalores observados distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes preguntas:

a. ¿Alrededor de qué valor se agrupan los datos? b. Supuesto que se agrupan a

hacen? ¿muy concentrados? ¿muy dispersos?

1) Medidas de tendencia central

Las medidas de centralización vienen a responder a la primera pregunta. Nos indican alrededor de qué valores se agrupan los datos observados. Distinguimos:

4. Media aritméticauna variable dividida entre el número total de datos de los que se dispone.

5. Mediana ordenados en 2 partes iguales, es decir, el 50% de los datos será menor que ella y el 50% de los datos mayor. En una distribución

2 Investigación estudiantil

CUNSURORI. JALAPA

4

ESTADISTICA DESCRIPTIVA

Se considera la estadística descriptiva como el conjunto de técnicas que facilitan la organización, resumen y comunicación de datos.

Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al análisis descriptivo de los mismos.

variables categóricas, como el sexo o se quiere conocer el número de casos en cada una de las categorías, reflejando habitualmente el porcentaje que representan del total, y expresándolo en una tabla de frecuencias

variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes preguntas:

¿Alrededor de qué valor se agrupan los datos? Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados? ¿muy dispersos?

Medidas de tendencia central :

Las medidas de centralización vienen a responder a la primera pregunta. Nos indican alrededor de qué valores se agrupan los datos observados.

Media aritmética � No es más que la suma de todos los valores de una variable dividida entre el número total de datos de los que se

Mediana � valor numérico que divide al conjunto de datos ordenados en 2 partes iguales, es decir, el 50% de los datos será menor que ella y el 50% de los datos mayor. En una distribución

Investigación estudiantil

Se considera la estadística descriptiva como el conjunto de técnicas que

Una vez que se han recogido los valores que toman las variables de iptivo de los mismos.

, como el sexo o se quiere conocer el número de casos en cada una de las categorías, reflejando habitualmente el porcentaje

tabla de frecuencias2.

, en las que puede haber un gran número de valores observados distintos, se ha de optar por un método de análisis distinto,

lrededor de un número, ¿cómo lo

Las medidas de centralización vienen a responder a la primera pregunta. Nos indican alrededor de qué valores se agrupan los datos observados.

No es más que la suma de todos los valores de una variable dividida entre el número total de datos de los que se

valor numérico que divide al conjunto de datos ordenados en 2 partes iguales, es decir, el 50% de los datos será menor que ella y el 50% de los datos mayor. En una distribución

USAC-CUNSURORI. JALAPA ZOOTECNIA

5

simétrica, la mediana coincide con la media aritmética, pero no en una asimétrica. Es la observación equidistante de los extremos.

6. Moda � Siendo éste el valor de la variable que presenta una mayor

frecuencia. Pueden existir distribuciones con más de una moda. 7. Media Geométrica � Muy utilizada en microbiología y serología,

cuyos datos tienen marcada una asimetría positiva (hacia derecha).

Aunque desde un punto de vista puramente descriptivo las 3 medidas proporcionan información complementaria, sus propiedades son muy distintas: La media utiliza todos los datos y es, por tanto, preferible si los datos son homogéneos. Tiene el inconveniente de que es muy sensible a observaciones atípicas, y un error de datos o un valor anormal puede modificarla totalmente.

Por el contrario, la mediana utiliza menos información que la media, ya que sólo tiene en cuenta el orden de los datos y no su magnitud, pero en contrapartida, no se verá alterada si una observación es extrema o contiene errores grandes de la medida de transcripción.

En consecuencia, es recomendable calcular la media y la mediana: Si ambas difieren mucho, la distribución es asimétrica, lo que sugiere que los datos son heterogéneos.

2) Medidas de dispersión:

Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es la dispersión de los mismos. Éstas complementan la información sobre la distribución de la variable, indicando si los valores de la variable están muy dispersos o se concentran alrededor de la medida de centralización.

• Rango o recorrido � Cuando se quieren señalar valores extremos en una distribución de datos, se suele utilizar la amplitud como medida de dispersión. La amplitud es la diferencia entre el valor mayor y el menor de la distribución.

USAC-CUNSURORI. JALAPAZOOTECNIA

8. Varianza �las diferencias entre cada de la distribución.

Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la estudiada.

9. Desviación típicala varianza. Expresa la dispersión de la distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica es la medida de dispersión más

Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1.

Por tandada por:

El haber cambiado el denominador de n por nal hecho de que esta segunda fórmula es una estimación más precisa de la desviación estándarpropiedades que necesitamos para realizar inferencias a la población.

CUNSURORI. JALAPA

6

�(S2) es la más utilizada. Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.

Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la

Desviación típica � La desviación típica (S) es la raíz cuadrada de la varianza. Expresa la dispersión de la distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica es la medida de dispersión más utilizada en estadística.

Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el

Por tanto, la medida que se utiliza es la cuasidesviación típica

El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda fórmula es una estimación más precisa de

desviación estándar verdadera de la población y ppropiedades que necesitamos para realizar inferencias a la población.

) es la más utilizada. Es la media de los cuadrados de valor de la variable y la media aritmética

Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable

(S) es la raíz cuadrada de la varianza. Expresa la dispersión de la distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica

Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el

cuasidesviación típica,

1 está en relación al hecho de que esta segunda fórmula es una estimación más precisa de

verdadera de la población y posee las propiedades que necesitamos para realizar inferencias a la población.

USAC-CUNSURORI. JALAPA ZOOTECNIA

7

Propiedades de la media, varianza y desviación típica:

1. Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy alejados de la media, el numerador de sus fórmulas será grande y la varianza y la desviación típica lo serán.

2. Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica. Para reducir a la mitad la desviación típica, la muestra se tiene que multiplicar por 4.

3. Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son iguales a 0.

4. Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor será detectado. Es decir, si a todos los valores de una distribución se les multiplica por una constante, su media y desviación típica quedan multiplicadas por la misma constante, mientras que la varianza queda multiplicada por el cuadrado de esa constante. Si a todos los valores de una distribución se les suma una constante, su media queda aumentada en ese valor, mientras que su varianza no se modifica. 10. Coeficiente de variación � Es una medida de dispersión a

dimensional relativa de los datos y se calcula dividiendo la desviación típica muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de dos o más grupos. Es el método de elección para comparar la variabilidad o dispersión relativa de las variables que estén expresadas en las mismas o en diferentes unidades.

Ejemplo para hacer uso de la calculadora científica

La casa comercial

USAC-CUNSURORI. JALAPAZOOTECNIA

La representación gráfica de los datos facilita un análisis visual. Según la naturaleza de las variables estudiadas se utilizan distintos tipos de representación.

• Variables cualitativasde proporcionalidad de las áreas a las frecuencias absolutas.

5. Diagrama de rectángulos proporcional a la frecuencia absoluta correspondiente.

6. Diagrama sectorial (pastel) frecuencia absoluta correspondiente, por lo que también es su área.

CUNSURORI. JALAPA

8

REPRESENTACIÓN GRÁFICA

La representación gráfica de los datos facilita un análisis visual. Según la naturaleza de las variables estudiadas se utilizan distintos tipos de

Variables cualitativas: En todos los casos se debe cumplir el principde proporcionalidad de las áreas a las frecuencias absolutas.Diagrama de rectángulos � Tienen una base constante y una altura proporcional a la frecuencia absoluta correspondiente.

Diagrama sectorial (pastel) � El ángulo central es proporcional a la frecuencia absoluta correspondiente, por lo que también es su área.

La representación gráfica de los datos facilita un análisis visual. Según la naturaleza de las variables estudiadas se utilizan distintos tipos de

: En todos los casos se debe cumplir el principio de proporcionalidad de las áreas a las frecuencias absolutas.

Tienen una base constante y una altura

El ángulo central es proporcional a la

frecuencia absoluta correspondiente, por lo que también es su área.

USAC-CUNSURORI. JALAPAZOOTECNIA

11. Variables cuantitativaso Discretas: DIAGRAMA DE BARRAS

puede tomar la variable se levanta una barra cuya altura mide exactamente la frecuencia absoluta del valor.

o Continuas:�

CUNSURORI. JALAPA

9

Variables cuantitativas: Discretas: DIAGRAMA DE BARRAS � Sobre el valor que puede tomar la variable se levanta una barra cuya altura mide exactamente la frecuencia absoluta del valor.

Continuas: HISTOGRAMA � Gráfico formado por rectángulos

adyacentes que tienen por base cada uno de los intervalos y por altura las frecuencias absolutas.

POLÍGONO DE FRECUENCIAS� Es una línea quebrada que une los puntos medios de las barras superiores de los rectangulos del histograma.

Sobre el valor que puede tomar la variable se levanta una barra cuya altura mide

Gráfico formado por rectángulos adyacentes que tienen por base cada uno de los intervalos

Es una línea quebrada que une los puntos medios de las barras

os rectangulos del histograma.

USAC-CUNSURORI. JALAPA ZOOTECNIA

10