21
Cap´ ıtulo 4: Estad´ ıstica descriptiva (Fundamentos Matem´ aticos de la Biotecnolog´ ıa) Departamento de Matem´ aticas Universidad de Murcia

Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

(Fundamentos Matematicos de la Biotecnologıa)

Departamento de MatematicasUniversidad de Murcia

Page 2: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Contenidos

Introduccion a la estadıstica

Tabulacion de datos y representaciones graficas

Medidas de posicion y dispersionLa media aritmetica y la medianaLa varianza y la desviacion tıpicaLa covarianza

Curvas de regresionLa recta de regresionLa regresion exponencialLa regresion potencialLa regresion logarıtmicaEl coeficiente de correlacion lineal

Page 3: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Introduccion a la estadıstica

Definicion de Estadıstica

¿Que es la Estadıstica?

Es la ciencia que se ocupa de recoger, clasificar, representar y resumir losdatos de muestras extraıdas de poblaciones y que, a partir de esasmuestras, valiendose del calculo de probabilidades, se encarga de hacerinferencias acerca de las poblaciones.

1 Estadıstica descriptiva: es la parte de la estadıstica que se ocupa derecoger, clasificar, representar y resumir los datos de muestrasextraıdas de poblaciones.

2 Estadıstica inferencial: es la parte de la estadıstica que se ocupa desacar conclusiones (inferencias) acerca de las poblaciones a partir delos datos de las muestras extraıdas de ellas.

Page 4: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Introduccion a la estadıstica

Conceptos generales

Poblacion: conjunto de individuos sobre los que se realiza lainvestigacion estadıstica.

Muestra: subconjunto de individuos de la poblacion.

Tamano muestral: numero de individuos de la muestra.

Variable: propiedad o cualidad que puede manifestarse bajo dos omas formas distintas en un individuo de una poblacion.

1 Cuantitativas: se expresan numericamente. Pueden ser discretas(toman valores numericos aislados: edad, no de hijos...) y continuas(toman cualquier valor dentro de unos lımites: altura, peso...).

2 Cualitativas: no se expresan numericamente. Pueden ser dicotomicas(solo aceptan dos posibles resultados: sexo...), ordinales (admitenuna ordenacion ascendente: escala militar...) y nominales (ningunode los dos tipos anteriores: color...).

Dato o valor: resultado de una variable obtenido en un individuo deuna muestra.

Clases: distintas formas en que se manifiesta una variable.

Page 5: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Tabulacion de datos y representaciones graficas

Tabulacion de datos

Frecuencia absoluta de la clase i-esima: fi= numero de veces que seda dicha clase.

Frecuencia relativa de la clase i-esima: hi=fin

, con n el tamano

muestral.

Porcentaje de la clase i-esima: %i= hi · 100.

Si k = numero de clases distintas, se tiene que:

f1 + f2 + · · ·+ fk = n,

h1 + h2 + · · ·+ hk = 1,

%1 + %2 + · · ·+ %k = 100,

Page 6: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Tabulacion de datos y representaciones graficas

Ejemplo de tabulacion de datos

Tabla de recogida (no ordenada) de unos datos cualitativos:

frances ingles frances ingles frances aleman ruso espanolfrances ingles frances ingles espanol frances espanol francesaleman ingles espanol ingles ingles espanol ingles francesespanol ruso aleman frances ingles espanol aleman inglesespanol frances aleman ingles ingles ingles espanol frances

La distribucion de frecuencias de estos datos es:

clases fi hi % i

aleman 5 0,125 12,5espanol 9 0,225 22,5frances 11 0,275 27,5ingles 13 0,325 32,5ruso 2 0,050 5,0

suma 40 1 100

Page 7: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Tabulacion de datos y representaciones graficas

Representaciones graficas de variables cualitativas

Diagrama de barras (vertical): lasclases se situan en el eje OX y sobrecada una de ellas se levanta una“barra” (o un segmento rectilıneo...)de altura igual a la frecuencia oporcentaje de cada clase. De modoanalogo se representarıa el diagramade barras horizontal.

Grafico de sectores: se divide el areade un cırculo en sectores circularesde angulos proporcionales a lasfrecuencias (o porcentajes) de lasclases. Esto implica que las areas delos sectores tambien sonproporcionales a las frecuencias(porcentajes).

Page 8: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Tabulacion de datos y representaciones graficas

Representaciones graficas de variables cuantitativas

Diagrama de barras: igual que en las variables cualitativas.

Polıgono de frecuencias o diagramade lıneas: se situan en el eje deabscisas los resultados de la variabley en el eje de ordenadas susfrecuencias o porcentajes, uniendodespues los puntos mediantesegmentos rectilıneos.

Page 9: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Medidas de posicion y dispersion

La media aritmetica y la mediana

Medidas de posicion: media aritmetica (o media)

La media aritmeticaSi x1, . . . , xn son n valores de una muestra, su media aritmetica es:

x =x1 + x2 + · · ·+ xn

n.

Notacion:

x =

∑ni=1 xi

n

Si los datos son x1, x2, . . . , xk , con frecuencias absolutas respectivas f1,f2, . . ., fk (con f1 + f2 + · · ·+ fk = n), la media aritmetica es:

x =

∑ki=1 xi fin

.

Page 10: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Medidas de posicion y dispersion

La media aritmetica y la mediana

Medidas de posicion: la mediana

La mediana Me

La mediana es el valor que deja por debajo el 50% de los datos y porarriba el 50 % restante, siempre que estos se hayan ordenado de menor amayor.

Si el no de datos es impar, Me es el unico dato central.

Si el no de datos es par, Me es la media aritmetica de los dos datoscentrales.

Generalizacion de la mediana: el percentil al r% es el valor que dejapor debajo el r% de los datos y por arriba el (100-r) % restante.

Page 11: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Medidas de posicion y dispersion

La varianza y la desviacion tıpica

Medidas de dispersion: varianza y desviacion tıpica

Las medidas de dispersion son valores que miden el grado de separacionde las observaciones entre sı o con respecto a ciertas medidas de posicion.

La varianza y la desviacion tıpica

Si x1, . . . , xn son n valores de una muestra, se definen la varianza como

s2 =

∑ni=1 x2

i

n− x2,

y la desviacion tıpica como

s =√

s2.

Si s2 ≈ 0, los datos estan cerca de la media.

Page 12: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Medidas de posicion y dispersion

La covarianza

Covarianza entre dos variables estadısticas

La covarianzaDadas dos variables X e Y , la covarianza entre X e Y es:

sxy =

∑ni=1 xi yi

n− xy .

Ejemplo:

xi 61 118 57 123 125 122 122 85 85yi 15 28 15 30 31 30 30 23 22

x =898

9= 99.7, y =

224

9= 24.8,

sxy =23784

9− 898

9

224

9= 159,3086419...

Page 13: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Curvas de regresion

Representaciones graficas bidimensionales

La representacion grafica mas usual es el diagrama de dispersion o nubede puntos.

xi 61 118 57 123 125 122 122 85 85 85 83 78 76 76 73 70 97 107yi 15 28 15 30 31 30 30 23 22 22 23 23 23 21 21 21 25 29

Y

X

60 70 80 90 100 110 120 130

0

5

10

15

20

25

30

35

¿Podemos construir una curva que la “aproxime”?

Page 14: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Curvas de regresion

Curvas de regresion

Curva de regresion: curva ideal hacia la que tienden los puntos deldiagrama de dispersion.

Las curvas de regresion se pueden considerar:

1 de Y sobre X , o de X sobre Y (nos centraremos en las de Y sobreX ; las otras son analogas).

2 de un tipo especial: lineal, parabolica, potencial, exponencial,logarıtmica, etc.

Recta de regresion de Y sobre X : lınea recta que mejor se aproximaal diagrama de dispersion cuando los valores de la variable X estanen el eje horizontal y los valores de Y estan en el eje vertical (esdecir, X es la variable independiente e Y es la variable dependiente).

Page 15: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Curvas de regresion

La recta de regresion

Recta de regresion mınimo cuadratica

La recta de regresion (mınimo cuadratica) de Y sobre X es un ajuste a larecta y = a + bx (por el “metodo de mınimos cuadrados”).

Regresion lineal

La ecuacion de la recta de regresion de Y sobre X que mejor se ajustaviene dada por

y = a + bx , donde b =sxys2x

, a = y − sxys2x

x .

Page 16: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Curvas de regresion

La regresion exponencial

Regresion exponencialLa regresion exponencial es el ajuste (por el metodo de mınimoscuadrados) a una curva

y = aebx .

Tomamos logaritmos neperianos: ln y = ln a + bx .

Regresion exponencial

Haciendo el cambio y ′ = ln y , A = ln a, queda

y ′ = A + bx ,

con lo que se reduce a un ajuste lineal entre las variables Y ′ y X .

Tambien puede considerarse el ajuste a una curva y = abx . En este caso:

ln y = ln a + x ln b,

y haciendo el cambio y ′ = ln y , A = ln a, B = ln b, queda reducidotambien al ajuste lineal y ′ = A + Bx .

Page 17: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Curvas de regresion

La regresion potencial

Regresion potencial

La regresion potencial es el ajuste (por el metodo de mınimos cuadrados)a una curva

y = axb.

Tomamos logaritmos neperianos: ln y = ln a + b ln x .

Regresion potencial

Haciendo el cambio y ′ = ln y , A = ln a, x ′ = ln x , queda

y ′ = A + bx ′,

con lo que se reduce a un ajuste lineal entre las variables Y ′ y X ′.

Page 18: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Curvas de regresion

La regresion logarıtmica

Regresion logarıtmica

La regresion logarıtmica es el ajuste (por el metodo de mınimoscuadrados) a una curva

y = a + b ln x .

Regresion logarıtmica

Haciendo el cambio x ′ = ln x , queda

y = a + bx ′,

con lo que se reduce a un ajuste lineal entre las variables Y y X ′.

Page 19: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Curvas de regresion

La regresion logarıtmica

Curvas de regresion

Regresion lineal

¿Regresion logarıtmica?

Regresion exponencial

Page 20: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Curvas de regresion

El coeficiente de correlacion lineal

Coeficiente de correlacion lineal de Pearson

El coeficiente de correlacion lineal de Pearson de las variables X e Y es:

r =sxysxsy

.

1 −1 ≤ r ≤ 1.

2 Si r = 1 (r = −1), existe dependencia lineal positiva (negativa)exacta entre X e Y .

3 Si r = 0, no existe dependencia lineal entre X e Y .

4 Si r se aproxima a 1 (o a −1), mayor es la dependencia lineal entreX e Y : los puntos del diagrama de dispersion estaran proximos a larecta de regresion, que puede usarse para calcular, de formaaproximada, el valor de Y a partir del valor de X .

5 Si r se aproxima a 0, mayor es la independencia lineal entre X e Y .

6 Si r > 0 (r < 0), al aumentar X aumenta (disminuye) Y .

Page 21: Cap´ıtulo 4: Estad´ıstica descriptiva · datos de muestras extra´ıdas de poblaciones y que, a partir de esas muestras, vali´endose del c´alculo de probabilidades, se encarga

Capıtulo 4: Estadıstica descriptiva

Curvas de regresion

El coeficiente de correlacion lineal

EjemploLa ley de Hook establece que el alargamiento de un muelle es proporcional a lafuerza aplicada: L = L0 + αF (L0 = longitud inicial, α = constante del muelle).

Se han obtenido los siguientes datos experimentalmente:

Fuerza xi Longitud yi

2 3

4 6

6 8

8 9

Suma: 20 26

x2i y 2

i xiyi

4 9 6

16 36 24

36 64 48

64 81 72

120 190 150

¿Cual es la constantedel resorte? ¿Y lalongitud inicial?

y = L0 + αx , ¿L0, α?

x =20

4= 5, y =

26

4=

13

2, s2

x =

∑x2

i

n− x2 =

120

4− 25 = 5.

sxy =

∑xiyi

n− xy =

150

4− 65

2= 5.

α =sxy

s2x

=5

5= 1; L0 = y − αx =

13

2− 5 =

3

2.

¿Fiabilidad? r =sxy

sxsy=

5√5 · 5,25

≈ 0,975 −→ muy bueno.