View
46
Download
2
Category
Preview:
DESCRIPTION
Estadística descriptiva
Citation preview
TRABAJO DE ESTADÍSTICA Y PROBABILIDADES
ESTADÍSTICA DESCRIPTIVA, GRÁFICOS, PROBABILIDADES Y ANÁLISIS DE
DATOS
INTEGRANTES:
Carolina Ramírez Gaviria CC. 1152462421
Daniela Franco Vanegas CC. 1018376321
Profesor(a): Luz Marcela Restrepo
Asignatura: Estadística y Probabilidades
UNIVERSIDAD DE MEDELLÍN
FACULTAD DE INGENIERÍA
INGENIERÍA AMBIENTAL
MEDELLÍN 2015-2
Objetivos:
1. Identificar tipos de variables aleatorias y su tratamiento estadístico.
2. Analizar descriptivamente la base de datos entregada.
3. Afianzar el uso del software estadístico R.
Adjunto a este archivo, encontrará una base de datos asociada a 5 marcas
diferentes de bebidas energéticas. Seleccione 2 marcas de las 5 y desarrolle cada
uno de los siguientes puntos:
1. Enuncie e identifique el tipo de variables que tiene la base de datos.
La base de datos está dada en un archivo en Excel, bajo la extensión xlsx. Para
cargarla al área de trabajo de R se ha optado por guardarla bajo una extensión
csv, de manera que se puedan usar funciones para lectura de tablas, tales como
read.csv(), sin necesidad de cargar paquetes adicionales para ello. De las 5
marcas posibles, se seleccionan la 2 y la 5.
Aunque el archivo posee 6 columnas (entre A y F), solamente 5 de ellas son
variables de interés. La primera columna sólo nos indica el orden de las muestras.
La variable Marca representa una variable cualitativa, ya que asocia las bebidas
como una categoría. Así, por ejemplo, en vez de llamar una bebida Marca 1 o
Marca 3, se pueden haber llamado Marca A y Marca C; por lo tanto es una
característica que no proviene de una medición como tal. Las demás variables se
pueden considerar cuantitativas, donde el contenido de taurina y cafeína
provienen de una medición continua, mientras que el precio y el rango de tiempo
faltante para vencimiento se toman como mediciones discretas.
Por facilidad, la variable rango de tiempo faltante para vencimiento (RTFV) se
trabaja de manera discreta en 6 niveles, correspondientes a la siguiente tabla.
Entre 0 y 1 mes 1
Entre 1 y 2 meses 2
Entre 2 y 3 meses 3
Entre 3 y 4 meses 4
Entre 4 y 5 meses 5
Más de 5 meses 6
El procedimiento siguiente es calcular cada vector de medidas (media, mediana,
desviación estándar…) para la base de datos truncada (es decir, tomando en
cuenta sólo las dos marcas seleccionadas). De igual manera se calculan los
estadísticos considerando los conjuntos de datos de cada marca por separado.
2. Calcule medidas de tendencia central: media, mediana, moda.
Con la ayuda del programa R se obtiene un vector de medias y medianas. Para la
moda, es necesario instalar el paquete modeest, ya que dentro de las funciones
con las que viene el programa no aparece una forma compacta de calcularla.
Estas medidas determinan la posición que toma la muestra, y en general la mayor
concentración de los datos. Algunas de ellas analizan la tendencia hacia la
posición central, mientras que los cuantiles por ejemplo, determinan posiciones no
centrales. Se definen las siguientes:
Moda
Representada como 𝑀𝑜 representa el dato (o datos) con mayor frecuencia
absoluta. Para datos agrupados, de manera similar, representa el intervalo (o
intervalos) que presentan la mayor frecuencia. No tiene que ser única, y se calcula
para variables cualitativas y cuantitativas.
Mediana
Denotada por 𝑀𝑒 es el valor que tiene la propiedad de dejar a su izquierda el 50%
de las observaciones y a su derecha el 50% restante, siempre y cuando los datos
sean ordenados. Tiene como propiedad que no es tan sensible a los datos
atípicos.
Si la cantidad de datos es impar, la mediana se obtiene de manera fácil, pero
cuando los datos son pares, ésta se determina como
𝑀𝑒 =𝑎 + 𝑏
2
Donde 𝑎 y 𝑏 son los dos valores centrales. Para datos agrupados, el intervalo
mediano o que contiene la mediana con frecuencia 𝑓𝑖, es el primer intervalo cuya
frecuencia absoluta acumulada 𝐹𝑖 es igual o mayor que 𝑛 2⁄
𝑀𝑒 = 𝑙𝑖 +
𝑛2 − 𝐹𝑖−1
𝑓𝑖
(𝑙𝑖+1 − 𝑙𝑖)
Para las demás medidas de tendencia central (medias), conviene conocer lo que
es la media generalizada (también conocida como Medias de Hölder) las cuales se
agrupan como
�̅�(𝑚) = (1
𝑛∑ 𝑥𝑖
𝑚
𝑛
𝑖=1
)
1𝑚⁄
Desafortunadamente las medias, dado que consideran todos los datos de la
muestra, son vulnerables a errores por parte de los datos atípicos o anómalos.
Media aritmética
Cuando 𝑚 = 1 se tiene la media aritmética (también conocida como ‘promedio’).
Se define como
�̅� =1
𝑛∑ 𝑥𝑖
𝑛
𝑖=1
Como propiedades se tiene que el promedio representa el centro de gravedad de
los datos, de modo que si 𝑦𝑖 = 𝑥𝑖 − �̅�, entonces �̅� = 0. También aplica que para
transformaciones lineales, si 𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 entonces �̅� = 𝑎 + 𝑏�̅�.
Para el análisis multivariado, sean 𝑋1, 𝑋2, … 𝑋𝑁 las diferentes variables en estudio,
y 𝑗 el número de variables. La matriz de datos tendrá dimensiones 𝑛 × 𝑘,
representándose como
𝑿 = [
𝑥11
𝑥21
⋮𝑥𝑛1
𝑥12
𝑥22
⋮𝑥𝑛2
……⋱…
𝑥1𝑘
𝑥2𝑘
⋮𝑥𝑛𝑘
] = [𝑥1 … 𝑥𝑘]
Se define el vector de medias aritméticas como
�̅� = [
𝑥1̅̅̅⋮
𝑥�̅�
] =1
𝑛𝑿′𝟏
Con la ayuda del programa R se obtienen las medidas de tendencia central.
3. Calcule medidas de dispersión: rango, varianza, desviación.
Las medidas de dispersión se utilizan para describir la variabilidad o esparcimiento
de los datos de la muestra respecto a la posición central. Entre ellos se
encuentran:
Recorrido o rango
Denotada por 𝑅 es una medida de dispersión global definida como la diferencia
entre el mayor y el menor valor
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
Es una medida bastante susceptible a los datos atípicos. Si el recorrido es
pequeño entonces los datos están poco dispersos.
Cuasivarianza
También conocida como varianza insesgada o varianza corregida, se define como
𝑆𝑥2 =
∑ (𝑥𝑖 − �̅�)2𝑓𝑖𝑘𝑖=1
𝑛 − 1=
(∑ 𝑥𝑖2𝑓𝑖
𝑘𝑖=1 ) − 𝑛�̅�2
𝑛 − 1
La varianza y la cuasivarianza se relacionan como
(𝑛 − 1)𝑆𝑥2 = 𝑛𝑠𝑥
2
Cuasidesviación típica
Es la raíz cuadrada de la cuasivarianza
𝑆𝑥 = √∑ (𝑥𝑖 − �̅�)2𝑓𝑖
𝑘𝑖=1
𝑛 − 1= √
(∑ 𝑥𝑖2𝑓𝑖
𝑘𝑖=1 ) − 𝑛�̅�2
𝑛 − 1
Las medidas de dispersión calculadas con R para las marcas seleccionadas se
muestran a continuación.
4. Calcule cuartiles y deciles.
Se define el cuantil 𝑝 como el número que deja a su izquierda una frecuencia
relativa 𝑝. Esto es equivalente a decir que la frecuencia relativa acumulada hasta 𝑝
es 𝑝. Cuando los datos están ordenados y agrupados por clases, el cuantil 𝑝 (𝐶𝑝)
se calcula como
𝐶𝑝 = 𝑙𝑖 +𝑛𝑝 − 𝐹𝑖−1
𝑓𝑖
(𝑙𝑖+1 − 𝑙𝑖)
Como casos particulares de los cuantiles están los cuartiles (cuartiles de orden
0.25, 0.5, 0.75), los deciles (cuartiles de orden 01… 0.9) y los percentiles (cuartiles
de orden 0.01, 0.02, 0.03… 0.99)
A continuación se muestran los cuartiles y deciles para la base de datos truncada,
así como para marca de manera independiente. Cabe resaltar que 𝑄2 = 𝐷5 y este
valor corresponde a la mediana.
5. Calcule medidas de forma: asimetría y curtosis.
Las medidas de forma tratan de medir el grado de simetría y apuntamiento de los
datos. Cuando la distribución presenta una asimetría positiva o por la derecha, los
valores en su polígono de frecuencias tienden a ser menores a cero, de igual
manera si se presenta asimetría negativa, la mayoría de los valores tienden a ser
mayores a cero. También se da el caso que la distribución se asemeje a una
distribución Normal o Gaussiana, es decir, que sea simétrica. La siguiente figura
ilustra la situación.
Figura 1. Asimetrías de las distribuciones
Coeficiente de asimetría
Para distribuciones unimodales, se suele establecer el coeficiente de simetría de
Pearson, el cual se define como
𝐶𝐴 =�̅� − 𝑀𝑜
𝑠𝑥
Se distinguen los siguientes casos
Si 𝐶𝐴 = 0 la distribución es simétrica
Si 𝐶𝐴 < 0 la distribución es asimétrica por la izquierda
Si 𝐶𝐴 > 0 la distribución es asimétrica por la derecha
También se suele emplear el coeficiente de asimetría de Fisher (cuando la
distribución no es unimodal), el cual se define como
𝑔1 =𝑚3
𝑠𝑥3 =
∑ (𝑥𝑖 − �̅�)3𝑛𝑖=1
𝑛𝑠𝑥3
A 𝑚3 se le conoce como el tercer momento estadístico respecto a la media. De
manera similar se establecen los casos
Si 𝑔1 = 0 la distribución es simétrica
Si 𝑔1 < 0 la distribución es asimétrica por la izquierda
Si 𝑔1 > 0 la distribución es asimétrica por la derecha
Apuntamiento o Coeficiente de curtosis
Mide el grado de concentración de una variable respecto a su medida de
centralización usual (generalmente el promedio). Si el polígono de frecuencias es
análogo a la curva Normal, se dice que la distribución es mesocúrtica. Si es más
elevado y estrecho que la curva normal, se le llama distribución leptocúrtica. Y si
es menos elevado y más ancho que la curva normal, se le denomina platicúrtica.
La siguiente gráfica ilustra éstos casos.
Figura 2. Apuntamiento de las distribuciones
Como medida de apuntamiento se define el coeficiente de curtosis, dado por:
𝑔2 =𝑚4
𝑠𝑥4
− 3 =∑ (𝑥𝑖 − �̅�)4𝑛
𝑖=1
𝑛𝑠𝑥4
Se conoce a 𝑚4 como el cuarto momento estadístico respecto a la media. Como el
apuntamiento de la distribución Normal es 3, se toma éste como valor de
referencia. Aquí los casos que se presentan son
Si 𝑔2 = 0 distribución mesocúrtica
Si 𝑔2 < 0 distribución platicúrtica
Si 𝑔2 > 0 distribución leptocúrtica
Las medidas de forma obtenidas en R para la base de datos truncada y las
respectivas marcas se muestran a continuación.
6. Analice la variable “Rango de tiempo faltante para vencimiento”;
realice todas las gráficas respectivas. Interprete.
Se define el tamaño de muestra 𝑛 como el número de elementos o individuos de la
muestra. Para la elaboración de histogramas y tablas de frecuencias es necesario
agrupar los datos en clases, de modo que faciliten su comprensión sin tener una
perdida excesiva de la información que aporta la muestra. Para ello se debe
establecer el número de intervalos de clase en los cuales se sitúan los diferentes
datos. Para el análisis univariado y dado que el número de elementos en cada
variable es el mismo, podemos manejar el mismo número de intervalos.
Para determinar la cantidad de intervalos existen dos fórmulas sugeridas (en
muchos casos depende de la naturaleza de los datos, y no es absolutamente
necesario seguir dichas fórmulas): Una siguiendo la parte entera del raíz cuadrada
de la cantidad de datos, esto es
𝑘 = ⌊√𝑛⌋
La otra fórmula es la conocida regla de Sturges, propuesta por Herber Sturges en
1926, indica que el número 𝑘 de intervalos está dado por
𝑘 = 1 + 3,322 log10 𝑛
Por lo general ambos valores coinciden, y son útiles para muestras con más de 20
datos; con una cantidad menor a éste valor se sugiere un diagrama de puntos.
Ahora es necesario conocer la amplitud de cada intervalo, y definir la marca de
clase que no es más que un valor que representa el intervalo.
La amplitud del intervalo de clase (𝑙𝑖, 𝑙𝑖+1) se calcula como
𝑑 = 𝑙𝑖+1 − 𝑙𝑖
Y la marca de clase del intervalo
𝑥𝑖 =𝑙𝑖 + 𝑙𝑖+1
2
Si los intervalos han de tener la misma amplitud, se considera el recorrido de las
observaciones
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
De modo que la amplitud de cada intervalo será la relación entre el recorrido y el
número de intervalos
𝑑 =𝑅
𝑘
Por lo general dicha amplitud es necesario ajustarla, de modo que la diferencia se
reparte en el intervalo inferior, el superior, o en ambos
𝑅′ = 𝑘𝑑′ = 𝑑 ± 𝑤
De modo que las observaciones mínima y máxima serán
𝑥𝑚𝑖𝑛′ = 𝑥𝑚𝑖𝑛 ∓
𝑤
2 𝑥𝑚𝑎𝑥
′ = 𝑥𝑚𝑎𝑥 ±𝑤
2
Con base en lo anterior, se calculan las tablas de frecuencias tanto absolutas
como acumuladas, así como la relativa, de la variable RTFV, mostrándose en la
siguiente figura.
Para el caso de esta variable se realiza un gráfico de barras, para facilidad de
visualización al ser una variable cuantitativa discreta. El diagrama de barras y el
diagrama de cajas y bigotes se muestran en la siguiente figura.
Algo que se nota desde el diagrama de barras, es que la mayoría de las bebidas
expiran en un período de tiempo mayor a 5 meses, y en los demás, el tiempo
faltante antes de vencer se distribuye casi equitativamente para los demás
períodos de meses. Según el diagrama de cajas y bigotes no se presentan datos
atípicos, y la media, al igual que el rango intercuartílico es el mismo para cada
marca, al igual que para la base de datos truncada.
7. Para la variable “Contenido de Taurina”, elabore una tabla de
distribución de frecuencias, un histograma de frecuencias absolutas y
un histograma de frecuencias absolutas acumuladas. Interprete.
Al determinar el número de intervalos por la regla de Sturges, se obtienen 12
intervalos, de modo que las tablas de frecuencias (absolutas y relativas) se
muestran a continuación.
En dichas tablas se observa que prácticamente todas las muestras pertenecientes
a la marca A (2) se encuentran a partir del cuarto intervalo, y de hecho, hasta ese
mismo intervalo están las correspondientes a la marca B. Esto inmediatamente
hace pensar que la concentración de taurina en la marca A es más elevada que en
la marca B, y se corrobora con los valores para las medias, calculadas
anteriormente.
En la figura siguiente se muestran los diferentes histogramas para la variable
Taurina, y en el primero de ellos se muestra una comparación de la densidad de la
distribución (marcada en rojo) para compararla con una distribución normal
(marcada en azul).
8. Para la variable “Contenido de Cafeína”, elabore una tabla de
distribución de frecuencias, un histograma de frecuencias absolutas y
un histograma de frecuencias absolutas acumuladas. Interprete.
Similar al numera anterior, por medio de la regla de Sturges se calculan 12
intervalos. En ellos se observa, a diferencia de la concentración de taurina, que
existen algunos intervalos donde ambas muestras se solapan, pero en general, los
valores de cantidad de cafeína en la marca A tienden a ser más bajos que los de
la marca B. y de hecho en la marca B, no se encuentran valores de cafeína por
debajo de 66.2 mg. En la figura siguiente se observan tales tablas.
En la figura siguiente se muestran los diferentes histogramas para la variable
Cafeína, y en el primero de ellos se muestra una comparación de la densidad de la
distribución (marcada en rojo) para compararla con una distribución normal
(marcada en azul).
9. Realice un estudio de dispersión de los precios de las bebidas de las
dos marcas. Analice curtosis y elabore diagramas de cajas y bigotes
para comparar.
Para realizar un estudio de la dispersión de los precios en ambas marcas, nos
remitimos a los valores obtenidos por las medidas de dispersión. Si se comparan
inicialmente los rangos, no se nota una variación significativa de precios entre las
marcas, ya que es la misma para ambas. Pero en las cuasi-desviaciones estándar
se observa que respecto a la base de datos truncada, la marca A (2) presenta
precios más elevados que la marca B (5), y según la cuasi-desviación estándar,
éstos últimos varían mucho más que los de la marca A (una variación de alrededor
de $590 en la marca B comparado con $561 de la marca A).
De hecho, esto es algo que se puede observar en el diagrama de cajas y bigotes,
donde se relaciona la mediana y el rango intercuartílico, ya que la variación en A
es menor que en B. En la gráfica siguiente se observa el diagrama de cajas y
bigotes para la variable Precio.
En la tabla siguiente se muestran los coeficientes de curtosis comparativos para
ambas marcas. Se observa que todos ellos son negativos, lo que indica que
presentan un apuntalamiento platicúrtica respecto a una curva normal. Ello indica
que la distribución es más “achatada” si se le compara con una curva con
distribución normal.
Curtosis de la BD -1.218
Curtosis de la marca A (2) -1.161
Curtosis de la marca B (5) -1.257
10. Determine si la distribución del precio de las bebidas de aproxima a
una curva simétrica.
Sabemos que uno de los criterios para verificar si hay simetría en la distribución es
determinar qué tan próximos se encuentran la media, la mediana y la moda. De
los datos antes obtenidos, sólo la media y la mediana presentan valores algo
similares, pero la moda es significativamente distinta para ésta variable. Sin
embargo entre los descriptores obtenidos, el que determina mejor el nivel de
simetría de la distribución respecto a una curva normal es el coeficiente de
simetría.
Para este caso, los valores obtenidos son los siguientes.
Asimetría de la BD -0-037
Asimetría de la marca A (2) -0.03
Asimetría de la marca B (5) 0.03
Efectivamente, estos valores son muy cercanos a 0, lo que indica que el precio
presenta cierta simetría. De hecho las dos primeras (la base de datos truncada y
la marca A) presentan asimetría por la izquierda, y la marca B, por la derecha.
11. Realice un estudio de dispersión del contenido de cafeína de las
bebidas de las dos marcas. Analice curtosis y elabore diagramas de
cajas y bigotes para comparar.
Para el estudio de la dispersión de la cafeína en ambas marcas, nos remitimos a
los valores obtenidos por las medidas de dispersión. El rango en ambas se
mantiene igual, aunque varía un poco cuando se toma en cuenta la base de datos
truncada. Incluso en las cuasi-desviaciones estándar, la concentración de valores
de cafeína en ambos es muy similar.
De hecho, en el diagrama de cajas y bigotes que se muestra a continuación, se
observa que la mediana de la marca A está más próxima a la de la base de datos
truncada que la de la marca B (y se ratifica también en los valores de la media). Y
además se puede apreciar que el rango intercuartílico para ambas marcas es muy
similar.
La tabla siguiente muestra los coeficientes de apuntalamiento, y en todos ellos se
obtienen valores negativos, lo que indica que las distribuciones son más
aplanadas que las de una distribución normal. Además, la marca B tiene una
distribución más aplanada que la marca A.
Curtosis de la BD -0.826
Curtosis de la marca A (2) -1.236
Curtosis de la marca B (5) -1.174
12. Determine si la distribución del contenido de cafeína de las bebidas se
aproxima a una curva simétrica.
Para este caso, los valores obtenidos del coeficiente de asimetría para la variable
Cafeína son los siguientes.
Asimetría de la BD 0.0027
Asimetría de la marca A (2) 0.073
Asimetría de la marca B (5) -0.046
Esto muestra que las distribuciones tienden a presentar cierta simetría cuando se
comparan con una curva normal. Solo la marca B presenta cierta asimetría por la
izquierda, las otras dos distribuciones (la de la base de datos truncada y la de la
marca A) presentan asimetría por la derecha.
13. Realice un estudio de dispersión del contenido de taurina de las
bebidas de las dos marcas. Analice curtosis y elabore diagramas de
cajas y bigotes para comparar.
Para el estudio de la dispersión de la taurina en ambas marcas, nos remitimos a
los valores obtenidos por las medidas de dispersión. Es notoria la variación en el
rango de ambas marcas (para la marca A es el doble que para la marca B), y de
hecho difieren respecto a la base de datos truncada. Además, en las cuasi-
desviaciones estándar, la concentración de valores de taurina es mucho mayor en
la marca B (5), ya que éste estadístico es mucho menor que el presentado en la
marca A (2). Por lo tanto, la variación de concentración de cafeína para la marca
B, que es de alrededor de 59.5 mg, frente a los 118.9 mg de la marca A, indica
una tendencia mayor a mantener un valor de taurina más estable.
De hecho, en el diagrama de cajas y bigotes que se muestra a continuación, se
observa que la mediana de la marca A está más próxima a la de la base de datos
truncada que la de la marca B (y se ratifica también en los valores de la media).
Además se puede apreciar que el rango intercuartílico en la marca B es menor
que en A.
La tabla siguiente muestra los valores obtenidos para el coeficiente de curtosis. En
ella se ve que todos los valores son negativos, es decir, las distribuciones son más
aplanadas que la de una normal. Sin embargo, se observa que para ésta variable,
Taurina, ambas marcas tienden a ser igual de “achatadas”, ya que tienen valores
de apuntalamiento muy cercanos.
Curtosis de la BD -1.122
Curtosis de la marca A (2) -1.247
Curtosis de la marca B (5) -1.275
14. Determine si la distribución del contenido de taurina de las bebidas se
aproxima a una curva simétrica.
Para este caso, los valores del coeficiente de asimetría en la Taurina son los
siguientes
Asimetría de la BD 0.412
Asimetría de la marca A (2) -0.036
Asimetría de la marca B (5) 0.058
Esto muestra que las distribuciones tienden a presentar cierta simetría cuando se
comparan con una curva normal. Solo la marca B presenta cierta asimetría por la
izquierda, las otras dos distribuciones (la de la base de datos truncada y la de la
marca A) presentan asimetría por la derecha.
15. ¿Cuál es la probabilidad de que una bebida tenga menos de 68 mg de
cafeína?
Para calcular este valor, nos remitimos a la gráfica de frecuencias absolutas
relativas, donde la probabilidad equivale al área bajo su curva. Esto es lo mismo
que tomar la gráfica de frecuencias relativas acumuladas y ubicar el valor de 68
allí. Como valor tentativo aparece que es cercano a 0.5 (se encuentra casi en la
mitad del rango de la distribución). Como se está tomando la variable agrupada, el
cálculo se realizará tomando los valores medios de los intervalos, a fin de
aproximar el más cercano al valor pedido.
Para el intervalo 7, se tiene que éste se define por los límites (67.5, 68.8], lo que
da un valor medio de intervalo para la cantidad de cafeína de 68,15 (muy cercano
al valor pedido). Basándonos en ello y usando el programa R se obtiene lo
siguiente.
De manera que tomando el séptimo intervalo, la probabilidad pedida es de 0.585,
o lo que es lo mismo, del 58,5%.
16. ¿Cuál es la probabilidad de que una bebida tenga menos de 70 mg de
cafeína dado que es de la primera marca seleccionada?
El procedimiento es similar al numeral anterior, sólo que ésta vez hay que
considerar solamente la marca A. Hay dos intervalos tentativos para tomar el valor
medio de intervalo (dado que se trabaja con valores agrupados). Éstos intervalos
son el 8 (68.8, 70.1] y el 9 (70.1, 71.4]. Sin embargo al comparar ambos, es más
conveniente tomar el intervalo 8 (la distancia al valor pedido con el punto medio
del intervalo 8 es más cercana, 69,5 frente a 70,75 del intervalo 9).
De nuevo, usando el programa R se obtiene que la probabilidad de que una
bebida tenga menos de 70mg de cafeína dado que es de la marca A, es de
0.50270, o lo que es lo mismo, del 50,27%.
17. Redacte las conclusiones que puede tomar a partir del análisis general
de las dos marcas de bebidas energizantes que ha estudiado. ¿Para
qué le puede servir esta información?
Realizando un análisis general de ambas marcas, la marca A (2) es mucho más
económica que la marca B (5), posiblemente debido a una menor cantidad de
taurina y poco control sobre la cafeína. En ambas muestras se presenta una cierta
simetría respecto a una curva normal, algo que es importante cuando se habla de
control de calidad de un producto (ya que se habla de que una variable sea
consecuente a un valor esperado para cierto producto).
Este tipo de información y de análisis ayuda a determinar aspectos importantes al
comparar productos por ejemplo. Si los valores son representativamente cercanos
al valor esperado (medidas de dispersión), comparación de características
(medidas de tendencia central), y su respectiva observación gráfica, la cual
muestra información que se puede analizar de manera más simple y de fácil
abstracción.
Todo ello se enfoca en tomar la mayor información posible que describa una
muestra, la cual se espera sea representativa de una población. A partir de allí, es
posible tomar decisiones a partir de las características observadas, como por
ejemplo en éste caso, cual puede ser más dañina para la salud en términos de
cafeína, cual marca es más barata, que se puede esperar de los productos
ofrecidos en el mercado, entre otros aspectos.
Recommended