77
3.12.4 Regresión lineal La forma de la función f en principio podría ser arbitraria, y tal vez se tenga que la relación más exacta entre las variables peso y altura definida anteriormente sea algo de la forma 3.1 Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos vamos a limitar al caso de la regresión lineal. Con este tipo de regresiones nos conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir con el menor error posible entre e Y, o bien de forma que sea una variable que toma valores próximos a cero. 3.12.4.1 Observación Obsérvese que la relación 3.12 explica cosas como que si X varía en 1 unidad, varía la cantidad b. Por tanto: Si b>0, las dos variables aumentan o disminuyen a la vez;

3.Doc Estadistico

Embed Size (px)

Citation preview

Page 1: 3.Doc Estadistico

    3.12.4 Regresión lineal

La forma de la función f en principio podría ser arbitraria, y tal vez se tenga que la relación más exacta entre las variables peso y altura definida anteriormente sea algo de la forma3.1

Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos vamos a limitar al caso de la regresión lineal. Con este tipo de regresiones nos conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir

 

con el menor error posible entre e Y, o bien

de forma que sea una variable que toma valores próximos a cero.

3.12.4.1 Observación

Obsérvese que la relación 3.12 explica cosas como que si X varía en 1 unidad, varía la cantidad b. Por tanto:

Si b>0, las dos variables aumentan o disminuyen a la vez; Si b<0, cuando una variable aumenta, la otra disminuye.

Por tanto, en el caso de las variables peso y altura lo lógico será encontrar que b>0.

El problema que se plantea es entonces el de cómo calcular las cantidades a y b a partir de un conjunto de n observaciones

Page 2: 3.Doc Estadistico

de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar son de forma esquemática, las que siguen:

1. Dadas dos variables X, Y, sobre las que definimos

medimos el error que se comete al aproximar Y mediante calculando la suma de las diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y no se compensen los errores):

2.

Una aproximación de Y, se define a partir de dos cantidades a y b. Vamos a calcular aquellas que minimizan la función

 

3. Posteriormente encontraremos fórmulas para el cálculo directo de a y b que sirvan para cualquier problema.

3.12.4.2 Regresión de Y sobre X

Para calcular la recta de regresión de Y sobre X nos basamos en la figura 3.9.

Page 3: 3.Doc Estadistico

   Figura: Los errores a minimizar son las

cantidades

Una vez que tenemos definido el error de aproximación mediante la relación (3.13) las cantidades que lo minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los mínimos cuadrados):

  

La relación (3.15), no es más que otra manera de escribir la relación (3.14), que se denomina ecuaciones normales. La primera de (3.14) se escribe como

Page 4: 3.Doc Estadistico

Sustituyendo se tiene que

Lo que nos da las relaciones buscadas:

La cantidad b se denomina coeficiente de regresión de Y Sobre X.

3.12.4.3 Regresión de X sobre Y

Las mismas conclusiones se sacan cuando intentamos hacer la regresión de X sobre Y, pero ¡atención!: Para calcular la recta de regresión de X sobre Y es totalmente incorrecto despejar de

Pues esto nos da la regresión de X sobre , que no es lo que buscamos. La regresión de X sobre Y se hace aproximando X por , del modo

Page 5: 3.Doc Estadistico

donde

pues de este modo se minimiza, en el sentido de los mínimos cuadrados, los errores

entre las cantidades xi y las (figura 3.10.)

  Figura: Los errores a minimizar son las

cantidades

3.12.4.4 Ejemplo

En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropométricas X e Y. Los resultados se muestran resumidos en los siguientes estadísticos:

Page 6: 3.Doc Estadistico

Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.

Solución:

Lo que se busca es la recta, , que mejor aproxima los valores de Y (según el criterio de los mínimos cuadrados) en la nube de puntos que resulta de representar en un plano (X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:

Así, el modelo lineal consiste en:

Por tanto, si x=15, el modelo lineal predice un valor de Y de:

En este punto hay que preguntarse si realmente esta predicción puede considerarse fiable. Para dar una respuesta, es necesario estudiar propiedades de la regresión lineal que están a continuación.

3.12.4.5 Propiedades de la regresión lineal

Page 7: 3.Doc Estadistico

Una vez que ya tenemos perfectamente definida , (o bien ) nos preguntamos las relaciones que hay entre la media y la varianza de esta y la de Y (o la de X). La respuesta nos la ofrece la siguiente proposición:

3.12.4.6 Proposición

En los ajustes lineales se conservan las medias, es decir

En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las variables X e Y y sus aproximaciones y , pues sólo se mantienen en un factor de r2, es decir,

Demostración Basta probar nuestra afirmación para la variable Y, ya que para X es totalmente análogo:

Page 8: 3.Doc Estadistico

donde se ha utilizado la magnitud que denominamos coeficiente de correlación, r, y que ya definimos anteriormente como

3.12.4.7 Observación

Como consecuencia de este resultado, podemos decir que la proporción de varianza

explicada por la regresión lineal es del .

Nos gustaría tener que r=1, pues en ese caso ambas variables tendrían la misma varianza, pero esto no es cierto en general. Todo lo que se puede afirmar, como sabemos, es que

y por tanto

La cantidad que le falta a la varianza de regresión, , para llegar hasta la varianza

total de Y, , es lo que se denomina varianza residual, que no es más que la varianza

de , ya que

Page 9: 3.Doc Estadistico

El tercer sumando se anula según las ecuaciones normales expresadas en la relación (3.15):

Por ello

Obsérvese que entonces la bondad del ajuste es

Page 10: 3.Doc Estadistico

Para el ajuste contrario se define el error como , y su varianza residual es también proporcional a 1-r2:

y el coeficiente de determinación (que sirve para determinar la bondad del ajuste de X en función de Y) vale:

lo que resumimos en la siguiente proposición:

3.12.4.8 Proposición

Para los ajustes de tipo lineal se tiene que los dos coeficientes de determinación son iguales a r2, y por tanto representan además la proporción de varianza explicada por la regresión lineal:

Por ello:

Si el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de X y viceversa).

Si las variables X e Y no están relacionadas (linealmente al menos), por tanto no tiene sentido hacer un ajuste lineal. Sin embargo no es seguro que las dos variables no posean ninguna relación en el caso r=0, ya que si bien el ajuste lineal puede no ser procentente, tal vez otro tipo de ajuste sí lo sea.

3.12.4.9 Ejemplo

Page 11: 3.Doc Estadistico

De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se obtiene la siguiente información:

Calcule:

1. La recta de regresión de Y sobre X. Explique el significado de los parámetros.

2. El coeficiente de determinación. Comente el resultado e indique el tanto por ciento de la variación de Y que no está explicada por el modelo lineal de regresión.

3.

Si el modelo es adecuado, ¿cuál es la predicción para x=4.

Solución:

1. En primer lugar calculamos las medias y las covarianza entre ambas variables:

Con estas cantidades podemos determinar los parámetros a y b de la recta. La pendiente de la misma es b, y mide la variación de Ycuando X aumenta en una unidad:

Page 12: 3.Doc Estadistico

Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a medida que X aumenta, la tendencia es a la disminución de Y. En cuanto al valor de la ordenada en el origen, a, tenemos:

Así, la recta de regresión de Y como función de X es:

2. El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinación:

Es decir, el modelo de regresión lineal explica el de la variabilidad de Y en

función de la de X. Por tanto queda un de variabilidad no explicada.

3. La predicción que realiza el modelo lineal de regresión para x=4 es:

Page 13: 3.Doc Estadistico

la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado anterior, ay una razonable cantidad de variabilidad que no es explicada por el modelo.

3.12.4.10 Ejemplo

En un grupo de 8 pacientes se miden las cantidades antropométricas peso y edad, obteniéndose los siguientes resultados:

  Resultado de las mediciones

edad 12 8 10 11 7 7 10 14

peso 58 42 51 54 40 39 49 56

¿Existe una relación lineal importante entre ambas variables? Calcular la recta de regresión de la edad en función del peso y la del peso en función de la edad. Calcular la bondad del ajuste ¿En qué medida, por término medio, varía el peso cada año? ¿En cuánto aumenta la edad por cada kilo de peso?

Solución:

Para saber si existe una relación lineal entre ambas variables se calcula el coeficiente de correlación lineal, que vale:

ya que

Page 14: 3.Doc Estadistico

Por tanto el ajuste lineal es muy bueno. Se puede decir que el ángulo entre el vector formado por las desviaciones del peso con respecto a su valor medio y el de la edad con respecto a su valor medio, , es:

es decir, entre esos vectores hay un buen grado de paralelismo (sólo unos 19 grados de desviación).

La recta de regresión del peso en función de la edad es

La recta de regresión de la edad como función del peso es

que como se puede comprobar, no resulta de despejar en la recta de regresión de Y sobre X.

La bondad del ajuste es

Page 15: 3.Doc Estadistico

por tanto podemos decir que el de la variabilidad del peso en función de la edad es explicada mediante la recta de regresión correspondiente. Lo mismo podemos decir en cuanto a la variabilidad de la edad en función del peso. Del mismo modo puede

decirse que hay un de varianza que no es explicada por las rectas de regresión. Por tanto la varianza residual de la regresión del peso en función de la edad es

y la de la edad en función del peso:

Por último la cantidad en que varía el peso de un paciente cada año es, según la recta de regresión del peso en función de la edad, la pendiente de esta recta, es decir, b1=2,8367 Kg./año. Cuando dos personas difieren en peso, en promedio la diferencia de edad entre ambas se rige por la cantidad b2=0,3136 años/Kg de diferencia.

Cuando se trabaja con dos o más variables, es importante conocer la relación entre ellas. Si una o más variables son aleatorias, no habrá una relación unívoca entre los valores de dos de las variables -es decir, dado un valor de una variable (la variable controlada), hay un posible rango de valores de la otra- y por lo tanto se requiere una descripción probabilística. La relación probabilística de las variables, que se describe con la media y la varianza de una variable aleatoria en función de los valores de la otra variable, se conoce como análisis de regresión. Cuando el análisis se limita a funciones lineales, se trata de una regresión lineal, pero la regresión puede ser también de tipo no lineal. En algunos casos, problemas de regresión no lineal pueden convertirse en lineales mediante una transformación de las variables originales.

 

Regresión con varianza constante

Cuando se ubican en una gráfica bidimensional las parejas de datos de dos variables X y Y, debe tenerse en cuenta que los valores de Y por ejemplo, dependen de X, y por tanto los datos de Y han de analizarse (para determinar la media, la varianza, etc.) con la debida consideración de X. En la figura 1 se observa una tendencia general de los valores de Y, a aumentar directamente

Page 16: 3.Doc Estadistico

proporcionales con X (X puede ser determinística o aleatoria). Entonces la media de los valores de Y aumentará con el aumento de los valores de X, aunque los valores reales de Y no necesariamente tienen que incrementarse directamente con los valores de X.

Supongamos que esta relación es lineal, es decir,

(1)

donde y son constantes, y la varianza de Y puede ser independiente o ser función de X. Esta ecuación se conoce como la regresión lineal de Y sobre X.

Vamos a considerar el caso con = constante.

Muchas rectas, pueden satisfacer la función del valor medio de Y, dependiendo

de los valores de y . La mejor línea será la que pase entre los puntos de los datos con el mejor ajuste. En la figura 1, se muestra la diferencia entre cada

valor observado y la recta , es decir, . Entonces la mejor línea es aquella con la diferencia total mínima, y se obtiene minimizando la suma de los errores (diferencias) cuadrados, o sea minimizando

(2)

Donde n es el número de puntos de los datos. Este es el método conocido

como de los mínimos cuadrados. Para obtener los estimados y se procede a derivar la ecuación (2):

 

Page 17: 3.Doc Estadistico

 

 

Figura 1. Análisis de Regresión lineal de datos de dos variables

 

de donde se obtiene

(3)

(4)

donde

La línea de regresión de los mínimos cuadrados es entonces:

(5)

Esta línea de regresión es válida solamente en el rango de valores de x observados. Las ecuaciones (1) a (5) se refieren a la regresión de Y sobre X. Si X y Y son ambas variables aleatorias, puede obtenerse también la regresión de X sobre Y, siguiendo el mismo procedimiento; en este caso se obtendría la

ecuación de regresión de . En general, esta es una ecuación lineal

diferente de . Sin embargo las dos ecuaciones siempre se interceptan

en .

Ya que la tendencia general de la relación se explica con la línea de regresión de la ecuación (5), la varianza alrededor de esta línea es la medida de

dispersión, que es la varianza condicional . Para el caso en el cual

Page 18: 3.Doc Estadistico

la varianza condicional se asume constante en el rango de interés de x, un estimado imparcial de la varianza es

(6)

que es igual a

Y por lo tanto, la desviación estándar condicional es .

Los coeficientes , y , son estimados de los valores reales de , y

.

 

Análisis de correlación. Estimación del coeficiente de correlación

El estudio del grado de relación lineal entre variables aleatorias se conoce como análisis de correlación. La exactitud de una predicción lineal dependerá de la correlación entre las variables.

Matemáticamente la correlación entre dos variables X y Y, se mide por el coeficiente de correlación definido como

Basado en un grupo de valores observados X y Y, el coeficiente de correlación puede ser estimado por

(7)

Donde , , y son respectivamente las medias muestrales y las

desviaciones estándares muestrales de X y Y. El valor de está comprendido

Page 19: 3.Doc Estadistico

entre –1 y 1 y es una medida de la relación lineal entre las variables X y Y. Si el

estimado está cercano a 1 ó -1, hay una fuerte relación lineal entre X y Y, y el

análisis de regresión lineal puede ser realizado; si , no existe una buena relación lineal entre las variables.

De las ecuaciones (4) y (7) puede demostrarse que

(8)

la cual es una relación útil entre el estimado de y el coeficiente de regresión

. Sustituyendo (8) en (6) se obtiene

de lo cual se tiene

A mayor valor de , mayor será la reducción en la varianza y por tanto, mejor será la predicción basada en la ecuación de regresión.

Regresión multiple

I.- INTRODUCCIÓN

Como la Estadística Inferencial nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación de la otra variable llamándose Regresión Lineal y una variable en relación a otras variables llamándose Regresión múltiple.

Casi constantemente en la practica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.

II.- MARCO TEORICO

REGRESIÓN.-

Se define como un procedimiento mediante el cual se trata de determinar si existe o no relación de dependencia entre dos o más variables. Es decir,

Page 20: 3.Doc Estadistico

conociendo los valores de una variable independiente, se trata de estimar los valores, de una o más variables dependientes.

La regresión en forma grafica, trata de lograr que una dispersión de las frecuencias sea ajustada a una línea recta o curva.

Clases de Regresión

La regresión puede ser Lineal y Curvilínea o no lineal, ambos tipos de regresión pueden ser a su vez:

a. Esta regresión se utiliza con mayor frecuencia en las ciencias económicas, y sus disciplinas tecnológicas. Cualquier función no lineal, es linealizada para su estudio y efectos prácticos en las ciencias económicas, modelos no lineales y lineales multiecuacionales.

Objetivo: Se utiliza la regresión lineal simple para:

1.- Determinar la relación de dependencia que tiene una variable respecto a otra.

2.- Ajustar la distribución de frecuencias de una línea, es decir, determinar la forma de la línea de regresión.

3.- Predecir un dato desconocido de una variable partiendo de los datos conocidos de otra variable.

Por ejemplo: Podría ser una regresión de tipo lineal:

En una empresa de servicio de Internet busca relacionar las ganancias que obtiene cada computadora con el numero de usuarios que ingresan a dicha cabina diariamente. En la tabla representa Y (Ganancias S/.) e X (Numero de usuarios)

Y 100 98 99 102 102 111 97 104 102 96

X 116 96 110 105 99 106 100 109 98 108

Coeficiente de Regresión

Indica el número de unidades en que se modifica la variable dependiente "Y" por efecto del cambio de la variable independiente "X" o viceversa en una unidad de medida.

Clases de coeficiente de Regresión:

El coeficiente de regresión puede ser: Positivo, Negativo y Nulo.

Es positivo cuando las variaciones de la variable independiente X son directamente proporcionales a las variaciones de la variable dependiente "Y"

Es negativo, cuando las variaciones de la variable independiente "X" son inversamente proporcionales a las variaciones de las variables dependientes "Y"

Es nulo o cero, cuando entre las variables dependientes "Y" e independientes "X" no existen relación alguna.

Page 21: 3.Doc Estadistico

Procedimiento para hallar el Coeficiente de Regresión

Para determinar el valor del coeficiente de regresión de una manera fácil y exacta es utilizando el método de los Mínimos Cuadrados de dos maneras:

1.- Forma Directa

De la ecuación de la recta:

Si y , se obtienen a partir de las ecuaciones normales:

Page 22: 3.Doc Estadistico

 

Aplicando normales Y sobre X tenemos:

 

El Coeficiente de Regresión es

De la misma manera la recta de regresión de "X" sobre "Y" será dada de la siguiente manera:

Donde: y se obtienen a partir de las ecuaciones normales:

 

Aplicando normales X sobre Y tenemos:

 

2.- Forma Indirecta del Método de los Mínimos Cuadrados.

El fundamento de este método es de las desviaciones de X respecto a su media aritmética. X

Page 23: 3.Doc Estadistico

Ecuación de y sobre x Ecuación de y sobre x

Donde:

x, y = desviaciones

X = media aritmética

Y = media aritmética

b. Regresión Simple: Este tipo se presenta cuando una variable independiente ejerce influencia sobre otra variable dependiente. Ejemplo: Y = f(x)

c. Regresión Múltiple: Este tipo se presenta cuando dos o más variables independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z).

Por ejemplo: Podría ser una regresión de tipo múltiple:

Una Empresa de desarrollo de software establece relacionar sus Ventas en función del numero de pedidos de los tipos de software que desarrolla (Sistemas, Educativos y Automatizaciones Empresariales), para atender 10 proyectos en el presente año.

En la Tabla representa Y (Ventas miles de S/.) e X (Nº pedidos de sistemas), W (Nº de pedidos de Aplicaciones Educativas) y Z (Nº de pedidos de Automatizaciones empresariales).

Y 440 455 470 510 506 480 460 500 490 450

X 50 40 35 45 51 55 53 48 38 44

W 105 140 110 130 125 115 100 103 118 98

Z 75 68 70 64 67 72 70 73 69 74

Objetivo: Se presentara primero el análisis de regresión múltiple al desarrollar y explicar el uso de la ecuación de regresión múltiple, así como el error estándar múltiple de estimación. Después se medirá la fuerza de la relación entre las variables independientes, utilizando los coeficientes múltiples de determinación.

Page 24: 3.Doc Estadistico

Análisis de Regresión Múltiple

Dispone de una ecuación con dos variables independientes adicionales:

Se puede ampliar para cualquier número "m" de variables independientes:

Para poder resolver y obtener y en una ecuación de regresión múltiple el cálculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el método de mínimo de cuadrados:

 

Para poder resolver se puede utilizar programas informáticos como AD+, SPSS y Minitab y Excel.

El error estándar de la regresión múltiple

Es una medida de dispersión la estimación se hace más precisa conforme el grado de dispersión alrededor del plano de regresión se hace mas pequeño.

Para medirla se utiliza la formula:

Y : Valores observados en la muestra

: Valores estimados a partir a partir de la ecuación de regresión

n : Número de datos

m : Número de variables independientes

Page 25: 3.Doc Estadistico

El coeficiente de determinación múltiple

Mide la tasa porcentual de los cambios de Y que pueden ser explicados por ,

y simultáneamente.

III.- APLICACION DE REGRESION MULTIPLE

Mediante el siguiente problema podremos ilustrar la aplicación de Regresión Multiple:

En la Facultad de Ingeniería de Sistemas y Computo de la Universidad "Inca Garcilaso de la Vega" se quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo cual se escoge al azar una muestra de 15 alumnos y ellos registran notas promedios en las asignaturas de Algoritmos, Base de Datos y Programación como se muestran en el siguiente cuadro.

Alumno PHP Algoritmos Base de Datos Programación

1 13 15 15 13

2 13 14 13 12

3 13 16 13 14

4 15 20 14 16

5 16 18 18 17

6 15 16 17 15

7 12 13 15 11

8 13 16 14 15

9 13 15 14 13

10 13 14 13 10

11 11 12 12 10

12 14 16 11 14

13 15 17 16 15

Page 26: 3.Doc Estadistico

14 15 19 14 16

15 15 13 15 10

Lo que buscamos es construir un modelo para determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos, Base de Datos y Programación.

Se presentara la siguiente ecuación a resolver:

Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de regresión o utilizando Regresión de Análisis de datos, en la Hoja de Calculo de Excel podemos calcular también los coeficientes de regresión:

Por lo tanto podemos construir la ecuación de regresión que buscamos:

El Error Estándar de Regresión Múltiple

Mediante esta medida de dispersión se hace más preciso el grado de dispersión alrededor del plano de regresión, se hace más pequeño.

Para calcularla se utiliza la formula siguiente:

En los resultados de Excel se llama error típico y para explicar la relación del aprendizaje de PHP que se viene desarrollando es de 0.861

El coeficiente de determinación múltiple (r2)

Page 27: 3.Doc Estadistico

Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables múltiples, utilizando la si siguiente formula:

 

IV.- CONCLUSIONES

El 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las notas obtenidas por las asignaturas de Algoritmos, Base de Datos y Programación.

Regresión Lineal Simple

Generalidades

La regresión y los análisis de correlación nos muestran como determinar tanto la naturaleza como la fuerza de una relación entre dos variables

En el análisis de regresión desarrollaremos una ecuación de estimación, esto es, una formula matemática que relaciona las variables conocidas con la variable desconocida. Entonces podemos aplicar el análisis de correlación para determinar el grado de en el que están relacionadas las variables. El análisis de correlación, entonces, nos dice qué tan bien están relacionadas las variables. El análisis de correlación, entonces, nos dice que tan bien la ecuación de estimación realmente describe la relación

Principales técnicas utilizadas en el análisis de regresión lineal simple

1) Ordenamiento y análisis de la información original

3) Diagrama de dispersión e interpretación

El primer paso para determinar si existe o no una relación entre dos variables es observar la grafica de datos observados. Esta grafica se llama diagrama de dispersión.

Un diagrama nos puede da dos tipos de información, visualmente podemos buscar patrones que nos indiquen que las variables están relacionadas. Entonces si esto sucede, podemos ver que tipo de línea, o ecuación de estimación, describe esta relación.

Page 28: 3.Doc Estadistico

Primero tomamos los datos de la tabla que deseamos analizar y dependiendo de que se desea averiguar se construye la grafica colocando la variable dependiente en el eje Y y la independiente en el eje X, Cuando vemos todos estos puntos juntos, podemos visualizar la relación que existe entre estas dos variables. Como resultado, también podemos trazar, “o ajustar” una línea recta a través de nuestro diagrama de dispersión para representar la relación. Es común intentar trazar estas líneas de forma tal que un numero igual de puntos caiga a cada lado de la línea.

Diagrama de dispersión

Estimación mediante la línea de regresión

Hasta el momento las líneas de regresión se colocaron al ajustar las líneas visualmente entre los puntos de datos, pero para graficar estas líneas de una forma más precisa podemos utilizar una ecuación que relaciona las dos variables matemáticamente.

La ecuación para una línea recta donde la variable dependiente Y esta determinada por la varianza dependiente X es:

Usando esta ecuación podemos tomar un valor dado en X y calcular el valor de Y la a se denomina intersección en Y por que su valor es el punto en el cual la línea de regresión cruza el eje Y por que su valor es el punto en el cual la línea de regresión cruza el eje Y, es decir el eje vertical. La b es la pendiente de la línea, representa que tanto cada cambio de unidad de la variable independiente X cambia l

a variable dependiente Y. Tanto a como b son constantes numéricas, puesto que para cada recta dada, sus valores no cambian.

Recta de regresión por el método de mínimos cuadrados.

Ahora que hemos visto como determinar la ecuación para una línea recta, pensemos como podemos calcular una ecuación para una línea dibujada en medio de un conjunto de puntos en un diagrama de dispersión. Para esto debemos minimizar el error entre los puntos estimados en la línea y los verdaderos puntos observados que se utilizaron para trazarla.

Page 29: 3.Doc Estadistico

Para esto debemos introducir un nuevo símbolo, para simbolizar los valores individuales de los puntos estimados, esto es, aquellos puntos que caen en la línea de estimación. En consecuencia escribiremos la ecuación para la línea de estimación como

Una forma en que podemos medir el error de nuestra línea de estimación es sumando todas las diferencias, o errores, individuales entre los puntos observados y los puntos estimados.

La suma de las diferencias individuales para calcular el error no es una forma confiable de juzgar la bondad de ajuste de una línea de estimación.

El problema al añadir los errores individuales es el efecto de cancelación de los valores positivos y negativos, por eso usamos valores absolutos en esta diferencia a modo de cancelar la anulación de los signos positivos y negativos, pero ya que estamos buscando el menor error debemos buscar un método que nos muestre la magnitud del error, decimos que la suma de los valores absolutos no pone énfasis en la magnitud del error.

Parece razonable que mientras más lejos este un punto de la línea e estimación, mas serio seria el error, preferiríamos tener varios errores pequeños que uno grande. En efecto, deseamos encontrar una forma de “penalizar” errores absolutos grandes, de tal forma que podamos evitarlos. Puede lograr esto si cuadramos los errores individuales antes de sumarlos. Con estos se logran dos objetivos:

penaliza los errores más grandes

cancela el efecto de valores positivos y negativos

Como estamos buscando la línea de estimación que minimiza la suma de los cuadrados de los errores a esto llamamos método de mínimos cuadrados.

Si usamos el método de mínimos cuadrados, podemos determinar si una línea de estimación tiene un mejor ajuste que otro. Pero para un conjunto de puntos de datos a través de los cuales podríamos trazar un numero infinito de líneas de estimación, ¿cómo podemos saber cuando hemos encontrado la mejor línea de ajuste?

Los estadísticos han derivado dos ecuaciones que podemos utilizar para encontrar la pendiente y la intersección Y de la línea de regresión del mejor ajuste. La primera formula calcula la pendiente.

b = pendiente de la línea de estimación de mejor ajuste X = valores de la variable independiente Y = valores de la variable dependiente = media de los valores de la variable independiente = media de los valores de la variable dependiente n = numero de puntos de datos

La segunda ecuación calcula la intersección en Y

a = intersección en Y b = pendiente de la ecuación anterior = media de los valores de la variable dependiente = media de los valores de la variable independiente

Verificación de la ecuación de estimación

Ahora que sabemos como calcular la línea de regresión, podemos verificar que tanto se ajusta.

Tomando los errores individuales positivos y negativos deben dar cero

5) Error estándar de la estimación

Page 30: 3.Doc Estadistico

El error estándar nos permite deducir la confiabilidad de la ecuación de regresión que hemos desarrollado.

Este error se simboliza Se y es similar a la desviación estándar en cuanto a que ambas son medidas de dispersión.

El error estándar de la estimación mide la variabilidad, o dispersión de los valores observados alrededor de la línea de regresión y su formula es la siguiente

= media de los valores de la variable dependiente Y = valores de la variable dependiente n = numero de puntos de datos

Método de atajo para calcular el error estándar de la estimación

Dado que utilizar la ecuación anterior requiere una serie de cálculos tediosos, se ha diseñado una ecuación que puede eliminar unos de estos pasos, la ecuación es la siguiente:

X = valores de la variable independiente Y = valores de la variable dependiente a = intersección en Y b = pendiente de la ecuación de la estimación n = numero de puntos de datos

interpretación del error estándar de la estimación

Como se aplicaba en la desviación estándar, mientras más grande sea el error estándar de estimación, mayor será la dispersión de los puntos alrededor de la línea de regresión. De manera que inversa, si Se = 0, esperemos que la ecuación de estimación sea un estimador perfecto de la variable dependiente. En este caso todos lo puntos deben caer en la línea de regresión y no habría puntos dispersos.

Usaremos el error estándar como una herramienta de igual forma que la desviación estándar. Esto suponiendo que los puntos observados están distribuidos normalmente alrededor de la línea de regresión, podemos encontrar un 68% de los puntos en + 1 Se, 95.5% en + 2 Se y 99.7% de los puntos en + 3 Se. Otra cosa que debemos observar es que el error estándar de la estimación se mide a lo largo del eje Y, y no perpendicularmente de la línea de regresión.

Intervalos de confianza utilizando desviación estándar

En estadística, la probabilidad que asociamos con una estimación de intervalo se conoce como el nivel de confianza

Esta probabilidad nos indica que tanta confianza tenemos en que la estimación del intervalo incluya al parámetro de la población. Una probabilidad mas alta significa mas confianza.

El intervalo de confianza es el alcance de la estimación que estamos haciendo pero a menudo hacemos el intervalo de confianza en términos de errores estándar, para esto debemos calcular el error estándar de la media así:

Donde es el error estándar de la media para una población infinita, es la desviación estándar de la población.

Con frecuencia expresaremos los intervalos de confianza de esta forma: en la que:

= limite superior del intervalo de confianza

= limite inferior del intervalo de confianza

Relación entre nivel de confianza e intervalo de confianza

Page 31: 3.Doc Estadistico

Podría pensarse que deberíamos utilizar un alto nivel de confianza, como 99% en todos los problemas sobre estimaciones, pero en algunos casos altos niveles de confianza producen intervalos de confianza alto por lo tanto imprecisos.

Debe tenerse un intervalo de confianza que vaya de acuerdo al tema que se este estimando.

6) intervalos de predicción aproximados

una forma de ver el error estándar de la estimación es concebirla como la herramienta estadística que podemos usar para hacer un enunciado de probabilidad sobre el intervalo alrededor del valor estimado de , dentro del cual cae el valor real de Y.

Cuando la muestra es mayor de 30 datos, se calcula los intervalos de predicción aproximados de la siguiente manera,

Si queremos estar seguros en aproximadamente 65% de que el valor real de Y caerá dentro de + 1 error estándar de . Podemos calcular los limites superior e inferior de este intervalo de predicción de la siguiente manera:

= Limite superior del intervalo de predicción

= Limite inferior del intervalo de predicción

Si, en lugar decimos que estamos seguros en aproximadamente 95.5% de que el dato real estará dentro de + 2 errores estándar de la estimación de . Podríamos calcular los limites de este intervalo de la siguiente manera:

= Limite superior del intervalo de predicción

= Limite inferior del intervalo de predicción

y por ultimo decimos que estamos seguros en aproximadamente el 99.7% cuando usamos + 3 errores estándar de la estimación de Podríamos calcular los limites de este intervalo de la siguiente manera:

= Limite superior del intervalo de predicción

= Limite inferior del intervalo de predicción

Como ya habíamos mencionado solo se usa para grandes muestras (mayores de 30 datos) para muestras más pequeñas se usan la distribución T

Debemos poner énfasis en que los intervalos de predicción son solo aproximaciones, de hecho los estadísticos pueden calcular el error estándar exacto para la predicción Sp, usando la formula:

en la que:

X0 = valor especifico de x en el que deseamos predecir el valor de Y

Análisis de correlación

El análisis de correlación es la herramienta estadística que podemos usar para describir el grado hasta el cual una variable esta linealmente relacionada con la otra. Con frecuencia el análisis de correlación se utiliza junto con el análisis de regresión para medir que tan bien la línea de regresión explica los cambio de la variable dependiente Y. Sin embargo, la correlación también se puede usar sola para medir el grado de asociación entre dos variables.

Los estadísticos han desarrollado dos medidas para describir la correlación entre dos variables: el coeficiente de determinación y el coeficiente de correlación.

Coeficiente de determinación

Page 32: 3.Doc Estadistico

El coeficiente de determinación es la principal forma en que podemos medir la extensión, o fuerza de asociación que existe entre dos variables, X y Y. Puesto que hemos desarrollado una muestra de puntos para desarrollar las líneas de regresión, nos referimos a esta medida como el coeficiente de determinación de la muestra.

El coeficiente de determinación de la muestra se desarrolla de la relación entre dos tipos de variación: la variación de los valores Y en conjunto de los datos alrededor de

la línea de regresión ajustada

su propia media

el termino variación en estos dos casos se refiere a “la suma de un grupo de desviaciones cuadradas”. Al usar esta definición, entonces es razonable expresar la variación de los valores Y alrededor de la línea de regresión con esta ecuación:

variación de los valores Y alrededor de la línea de regresión =

la segunda variación, la de los valores de Y con respecto a su propia media, esta determinada por

variación de los valores de Y alrededor de su propia media =

uno menos la razón entre estas dos variaciones es el coeficiente de determinación de la muestra que se simboliza r2

esta ecuación es una medida del grado de asociación lineal entre X y Y

Una correlación perfecta es aquella en que todos los valores de Y caen en la línea de estimación , por lo tanto el coeficiente de determinación es 1

Cuando el valor del coeficiente de determinación es 0 quiere decir que no hay correlación entre las dos variables

En los problemas con que se topa la mayoría de los responsables de la toma de decisiones, r2 caerá en alguna parte entre estos dos extremos de 1 y 0. recuerde, no obstante que un r2 cercano a 1 indica una fuerte correlación entre X y Y, mientras que un r2 cercano a 0 significa que existe poca correlación entre estas dos variables.

Un punto que debemos subrayar fuertemente es que r2 mide solo la fuerza de una relación lineal entre dos variables.

Otra interpretación de r2

Los estadísticos también interpretan el coeficiente de determinación viendo la cantidad de variación en Y que es explicada por la línea de regresión.

Método de atajo para calcular el coeficiente de determinación (r2)

Hay una formula que nos ahorra muchos cálculos tediosos y esta es:

en la que:

r2= coeficiente de determinación de la muestra a = intersección en Y b = pendiente de la línea de estimación de mejor ajuste n = numero de puntos de datos X = valores de la variable independiente Y = valores de la variable dependiente = media de los valores observados de la variable dependiente

Page 33: 3.Doc Estadistico

el coeficiente de correlación

el coeficiente de correlación es la segunda medida que podemos usar para describir que también una variable es explicada por la otra. Cuando tratamos con muestras, el coeficiente de variación de muestra se denomina como r y es la raíz cuadrada del coeficiente de determinación de muestra:

cuando la pendiente de estimación de la muestra es positiva, r es la raíz cuadrada positiva, pero si b es negativa, r es la raiz cuadrada negativa. Por lo tanto, el signo de indica la dirección de la relación entre las dos variables X y Y. Si existe una relación inversa, esto es , si y disminuye

Y

X

Intersección Y

Variable dependiente

Pendiente de la línea

Variable independiente

Regresión lineal simple

1. INTRODUCCIÓN

Si sabemos que existe una relación entre una variable denominada dependiente y otras denominadas independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma múltiples valores para una combinación de valores de las independientes.

La dependencia a la que hacemos referencia es relacional matemática y no necesariamente de causalidad. Así, para un mismo número de unidades producidas, pueden existir niveles de costo, que varían empresa a empresa.

Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en los cuales se obtiene una nueva relación pero de un tipo especial denominado función, en la cual la variable independiente se asocia con un indicador de tendencia central de la variable dependiente. Cabe recordar que en términos generales, una función es un tipo de relación en la cual para cada valor de la variable independiente le corresponde uno y sólo un valor de la variable dependiente.

2. ASPECTOS TEÓRICOS

REGRESIÓN SIMPLE Y CORRELACIÓN

Page 34: 3.Doc Estadistico

La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios.

Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable.

Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple.

"Y es una función de X"

Y = f(X)

Como Y depende de X,

Y es la variable dependiente, y

X es la variable independiente.

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente.

En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:

Y = f (X)

"Y está regresando por X"

La variable dependiente es la variable que se desea explicar, predecir. También se le llama REGRESANDO ó VARIABLE DE RESPUESTA.

La variable Independiente X se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza para EXPLICAR Y.

ANÁLISIS ESTADÍSTICO: REGRESIÓN LINEAL SIMPLE

En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación:

Y = a + b X + e

Donde:

a es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.

b es el coeficiente de regresión poblacional (pendiente de la línea recta)

e es el error

SUPOSICIONES DE LA REGRESIÓN LINEAL

1. Los valores de la variable independiente X son fijos, medidos sin error. 2. La variable Y es aleatoria 3. Para cada valor de X, existe una distribución normal de valores de Y

(subpoblaciones Y) 4. Las variancias de las subpoblaciones Y son todas iguales.

Page 35: 3.Doc Estadistico

5. Todas las medias de las subpoblaciones de Y están sobre la recta. 6. Los valores de Y están normalmente distribuidos y son estadísticamente

independientes.

ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN MUESTRAL

Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuación de regresión muestral estimada es

Que se interpreta como:

a es el estimador de a

Es el valor estimado de la variable Y cuando la variable X = 0

b es el estimador de b , es el coeficiente de regresión

Está expresado en las mismas unidades de Y por cada unidad de X. Indica el número de unidades en que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresión).

Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada unidad de aumento en X.

3. ANTECEDENTES DEL PROBLEMA

Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de una muestra de 12 hombres adultos. Para cada estatura fijada previamente se observó el peso de una persona seleccionada de entre el grupo con dicha estatura, resultando:

X 152 155 152 155 157 152 157 165 162 178 183 178

Y 50 61.5 54.5 57.5 63.5 59 61 72 66 72 84 82

Con estos datos vamos a plantear una ecuación de regresión simple que nos permita pronosticar los pesos conociendo las tallas. Utilizaremos a = 0.05, y contrastaremos nuestra hipótesis con la prueba F.

4. DESARROLLO

Representación matemática y gráfica de los datos:

Representación Matemática

Page 36: 3.Doc Estadistico

estatura pesos Regresión LinealI.C. para la

mediaI. C. individual

datos x y x ^2 y ^2 xy y est. Residual L. I. L. S. L. I. L. S.

1 152 50 23104 2500 7600 56.43 -6.43 53.07 59.79 47.30 65.56

2 155 61.5 24025 3782.3 9532.5 59.03 2.47 56.09 61.97 50.05 68.02

3 152 54.5 23104 2970.3 8284 56.43 -1.93 53.07 59.79 47.30 65.56

4 155 57.5 24025 3306.3 8912.5 59.03 -1.53 56.09 61.97 50.05 68.02

5 157 63.5 24649 4032.3 9969.5 60.77 2.73 58.05 63.48 51.85 69.68

6 152 59 23104 3481 8968 56.43 2.57 53.07 59.79 47.30 65.56

7 157 61 24649 3721 9577 60.77 0.23 58.05 63.48 51.85 69.68

8 165 72 27225 5184 11880 67.71 4.29 65.17 70.24 58.85 76.57

9 162 66 26244 4356 10692 65.11 0.89 62.65 67.56 56.27 73.94

10 178 72 31684 5184 12816 78.99 -6.99 74.65 83.33 69.45 88.52

11 183 84 33489 7056 15372 83.32 0.68 78.01 88.64 73.31 93.34

12 178 82 31684 6724 14596 78.99 3.01 74.65 83.33 69.45 88.52

Representación Gráfica

Page 37: 3.Doc Estadistico

5. HIPÓTESIS

HO: No hay relación entre la variable peso y la variable estatura.

HA: Hay relación entre la variable peso y la variable estatura.

Tabla de análisis de varianza

Fuente de Grados de Suma de Cuadrados

Variación libertad cuadrados medios estadístico F

Debido a

la regresión 1 1061.1 1061.1 73.08

error 10 145.2 14.5

total 11 1206.3

Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hipótesis nula y aceptamos que la variable estatura está relacionada con la variable peso con un 95% de confianza.

De acuerdo al desarrollo matemático hemos obtenido los siguientes cálculos:

Lo que nos permite obtener los coeficientes a y b.

Luego,

b = 1223 / 1409.667 = 0.8676

a = 65.25 – (0.8676) (162.167) = -75.446

Page 38: 3.Doc Estadistico

6. INTERPRETACIÓN

La ecuación de regresión estimada es:

Coeficiente de correlación: R= 0.9379

Coeficiente de determinación: R²=0.8796

El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio, por cada centímetro de aumento en la estatura de los hombres adultos.

El valor de a, no tiene interpretación práctica en el ejemplo, se interpretaría como el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0.

Utilizando la ecuación de regresión para estimar o predecir valores de la variable Y: Para una talla de 180 se obtiene un peso de 80.7 kg.

¿Cuánto se espera que pese (en promedio) una persona que mide 1.60 m?

Sustituyendo el valor de interés en la ecuación:

Se obtiene:

7. CONCLUSIÓN

La ecuación de Regresión Lineal estimada para las variables estatura y peso muestran, de acuerdo a la prueba F, relación.

Esta relación se ha estimado en un R = 93.7, que indica una fuerte relación positiva.

Además si consideramos el coeficiente de determinación R² = 87.9 podemos indicar que el 87.9% de las variaciones que ocurren en el peso se explicarían por las variaciones en la variable estatura.

MARÍA YSABEL RINCÓN PINO

jazminet22[arroba]yahoo.com

UNIVERSIDAD NACIONAL

FEDERICO VILLARREAL

MAESTRÍA EN SALUD REPRODUCTIVA

CURSO ESTADÍSTICA

LIMA – PERÚ

Correlación

En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían

Page 39: 3.Doc Estadistico

sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad (Véase Cum hoc ergo propter hoc).

Fuerza, sentido y forma de la correlación [editar]

La relación entre dos super variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:

La fuerza extrema segun el caso, mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.

El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la relación es negativa.

La forma establece el tipo de línea que define el mejor ajuste: la línea rectal, la curva monotónica o la curva no monotónica.

Coeficientes de correlación [editar]

Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es el coeficiente de correlación de Pearson (introducido en realidad por Francis Galton), que se obtiene dividiendo la covarianza de dos variables por el producto de sus desviaciones estándar. Otros coeficientes son:

Coeficiente de correlación de Spearman Correlación canónica

Interpretación geométrica [editar]

Ambas series de valores e pueden estar consideradas como vectores en un espacio a n dimensiones. Reemplacemoslos por vectores centrados:

e .

El coseno del ángulo alfa entre estos vectores es dada por la fórmula siguiente :

Page 40: 3.Doc Estadistico

Pues cos(α) es el coeficiente de correlación de Pearson.

¡ El coeficiente de correlación es el coseno entre ambos vectores centrados!

Si r = 1, el ángulo α = 0°, ambos vectores son colineales (paralelos). Si r = 0, el ángulo α = 90°, ambos vectores son ortogonales. Si r =-1, el ángulo α = 180°, ambos vectores son colineales de dirección opuesto. Más generalmente : α = arcCos(r).

Por supuesto, del punto vista geométrica, no hablamos de correlación lineal: el coeficiente de correlación tiene siempre un sentido, cualquiera que sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, que sobre su distancia angular en la hyperesfera a n dimensiones.

La Iconografía de las correlaciones es un método de análisis multidimensional que reposa en esta idea.

la coorrelacion lineal se da cuando en una nube de puntos estos se encuentran o se distribuyen alrededor de una recta.

Obtenido de "http://es.wikipedia.org/wiki/Correlaci%C3%B3n"Categoría: Covarianza y correlación

Correlación de Pearson

La correlación entre dos variables refleja el grado en que las puntuaciones están asociadas. La formulación clásica, conocida como correlación producto

momento de Pearson, se simboliza por la letra griega rho ( xy) cuando ha sido calculada en la población. Si se obtiene sobre una muestra, se designa por la letra "rxy". Este tipo de estadístico puede utilizarse para medir el grado de relación de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razón (variables cuantitativas). La formula suele aparecer expresada como:

Page 41: 3.Doc Estadistico

-La primera expresión se resuelve utilizando la covarianza y las desviaciones típicas de las dos variables (en su forma insesgada). -La segunda forma se utiliza cuando partimos de las puntuaciones típicas empíricas. Este estadístico, refleja el grado de relación lineal que existe entre dos variables. El resultado numérico fluctua entre los rangos de +1 a -1.

1. Una correlación de +1 significa que existe una relación lineal directa perfecta (positiva) entre las dos variables. Es decir, las puntuaciones bajas de la primera variable (X) se asocian con las puntuaciones bajas de la segunda variable (Y), mientras las puntuaciones altas de X se asocian con los valores altos de la variable Y.

2. Una correlación de -1 significa que existe una relación lineal inversa perfecta (negativa) entre las dos variables. Lo que significa que las puntuaciones bajas en X se asocian con los valores altos en Y, mientras las puntuaciones altas en X se asocian con los valores bajos en Y.

Page 42: 3.Doc Estadistico

3. Una correlación de 0 se interpreta como la no existencia de una relación lineal entre las dos variables estudiadas.

E l coef ic iente de correlac ión l ineal es e l coc iente ent re la

covar ianza y e l p roducto de las desviac iones t íp icas de ambas

var iab les .

E l coef ic iente de correlac ión l ineal se expresa med iante la

le t ra r .

Page 43: 3.Doc Estadistico

Propiedades del coeficiente de correlación

1. E l coef ic iente de correlac ión no var ía a l hacer lo la esca la de

med ic ión .

Es dec i r , s i expresamos la a l tu ra en metros o en cent ímet ros e l

coe f i c iente de cor re lac ión no var ía .

2. E l s igno de l coef ic iente de correlac ión es e l mismo que e l de

la covar ianza .

S i l a covar ianza es pos i t i va , l a cor re lac ión es d i rec ta .

S i l a covar ianza es negat iva , l a cor re lac ión es inversa .

S i l a covar ianza es nu la , no ex i s te cor re lac ión .

3. E l coef ic iente de correlac ión l ineal es un número rea l

comprend ido ent re −1 y 1 .

−1 ≤ r ≤ 1

4. S i e l coef ic iente de correlac ión l ineal toma va lo res cercanos

a −1 la cor re lac ión es fuerte e inversa , y será tanto más fuer te cuanto

más se aprox ime r a −1.

5. S i e l coef ic iente de correlac ión l ineal toma va lo res cercanos

a 1 la cor re lac ión es fuerte y d irecta , y será tanto más fuer te cuanto

más se aprox ime r a 1 .

6. S i e l coef ic iente de correlac ión l ineal toma va lo res cercanos

a 0 , l a cor re lac ión es débi l .

Page 44: 3.Doc Estadistico

7. S i r = 1 ó −1, los puntos de la nube es tán sobre la rec ta

c rec iente o decrec iente . Ent re ambas var iab les hay dependencia

funcional .

Ejemplos

Las notas de 12 alumnos de una clase en Matemáticas y Física son las

siguientes:

Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10

Física 1 3 2 4 4 4 6 4 6 7 9 10

Hal la r e l coef ic iente de correlac ión de la distribución e

interpretarlo.

x i y i

x i

·y i

x i2 y i

2

2 1 2 4 1

3 3 9 9 9

4 2 8 16 4

4 4 16 16 16

5 4 20 25 16

6 4 24 36 16

6 6 36 36 36

Page 45: 3.Doc Estadistico

7 4 28 49 16

7 6 42 49 36

8 7 56 64 49

1

09 90

10

081

1

0

1

0

10

0

10

0

10

0

7

2

6

0

43

1

50

4

38

0

1º Hal lamos las med ias a r i tmét icas .

2º Ca lcu lamos la covar ianza .

3º Ca lcu lamos las desv iac iones t íp i cas .

4º Ap l i camos la fó rmula de l coef ic iente de correlac ión l ineal .

Page 46: 3.Doc Estadistico

Al ser e l coef ic iente de correlac ión pos i t i vo , l a cor re lac ión es

d i rec ta .

Como coef ic iente de correlac ión es tá muy próx imo a 1 la

cor re lac ión es muy fuer te .

Los valores de dos variables X e Y se distribuyen según la tabla siguiente:

Y/X 0 2 4

1 2 1 3

2 1 4 2

3 2 5 0

Determinar e l coef ic iente de correlac ión .

Convertimos la tabla de doble entrada en tabla simple.

x i y i f i

x i ·

f i

x i2 ·

f i

y i ·

f i

y i2

·

f i

x i · y i

· f i

0 1 2 0 0 2 2 0

0 2 1 0 0 2 4 0

0 3 2 0 0 6 18 0

2 1 1 2 4 1 1 2

2 2 4 8 16 8 16 16

Page 47: 3.Doc Estadistico

2 3 5 10 20 15 45 30

4 1 3 12 48 3 3 12

4 2 2 8 32 4 8 16

    20 40 120 41 97 76

Al ser e l coef ic iente de correlac ión negat ivo , l a cor re lac ión es

inversa .

Como coef ic iente de correlac ión está muy próximo a 0 la correlación

es muy débil.

Tipos de regresión 

Podemos clasificar los tipos de regresión según diversos criterios.

En primer lugar, en función del número de variables independientes:

Regresión simple: Cuando la variable Y depende únicamente de una única variable X.

Regresión múltiple: Cuando la variable Y depende de varias variables

Page 48: 3.Doc Estadistico

(X1, X2, ..., Xr)

En segundo lugar, en función del tipo de función f(X):

Regresión lineal: Cuando f(X) es una función lineal.

Regresión no lineal: Cuando f(X) no es una función lineal.

En tercer lugar, en función de la naturaleza de la relación que exista entre las dos variables:

La variable X puede ser la causa del valor de la variable Y.

Por ejemplo, en toxicología, si  X = Dosis de la droga e Y = Mortalidad, la mortalidad se atribuye a la dosis administrada y no a otras causas.

Puede haber simplemente relación entre las dos variables.

Por ejemplo, en un estudio de medicina en que se estudian las variables X = Peso e Y = Altura de un grupo de individuos, puede haber relación entre las dos, aunque difícilmente una pueda considerarse causa de la otra.

En este tema se tratará únicamente de la Regresión lineal simple.

Historia [editar]

La primer forma de regresiones lineales documentada fue el método de los mínimos cuadrados, el cual fue publicado por Legendre en 1805,1 y por Gauss en 1809.2 El término "mínimos cuadrados" proviene de la descripción dada por Legendre "moindres carrés". Sin embargo Gauss aseguró que conocía dicho método desde 1795.

Tanto Legendre como Gauss aplicaron el método para determinar, a partir de observaciones astronómicas, las órbitas de cuerpos alrededor del sol. En 1821, Gauss publicó un trabajo en dónde desarrollaba de manera más profunda el método de los mínimos cuadrados,3 y en dónde se incluía una versión del teorema de Gauss-Márkov.

Etimología [editar]

El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e hijos, resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio.4 La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.

Page 49: 3.Doc Estadistico

El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matemática. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágil y con un soporte teórico por parte de la matemática y la estadística mucho más extenso.

El modelo de regresión lineal [editar]

El modelo lineal relaciona la variable dependiente Y con K variables explicativas Xk (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros βk

desconocidos:

(2)

donde es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo de dos variables explicativas, el hiperplano es una recta:

(3)

El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos βk, de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).

(4)

Los valores escogidos como estimadores de los parámetros, , son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en

(5)

Los valores son por su parte estimaciones de la perturbación aleatoria o errores.

Supuestos del modelo de regresión lineal [editar]

Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los siguientes supuestos:5

1. La relación entre las variables es lineal. 2. Los errores son independientes. 3. Los errores tienen varianza constante. 4. Los errores tienen una esperanza matemática igual a cero. 5. El error total es la suma de todos los errores.

Page 50: 3.Doc Estadistico

Tipos de modelos de regresión lineal [editar]

Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:

Regresión lineal simple [editar]

Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma:6

(6)

donde es el error asociado a la medición del valor Xi y siguen los supuestos de modo

que (media cero, varianza constante e igual a un σ y con

).

Análisis [editar]

Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:7

(7)

(8)

Calculando y . Para esto se buscan dichos parámetros que minimicen

Derivando respecto a y e igualando a cero, se obtiene:7

(9)

(10)

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:6

(11)

Page 51: 3.Doc Estadistico

(12)

La interpretación del parámetro beta 2 es que un incremento en Xi de una unidad, Yi incrementará en beta 2

Regresión lineal múltiple [editar]

Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma:8

(13)

donde es el error asociado a la medición i del valor Xip y siguen los supuestos de

modo que (media cero, varianza constante e igual a un σ y

con ).

Rectas de regresión [editar]

Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución binomial. Matemáticamente, son posibles dos rectas de máximo ajuste:9

La recta de regresión de Y sobre X:

(14)

La recta de regresión de X sobre Y:

(15)

La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el ajuste será bueno; si r es cercano o igual a 0, se tratará de un ajuste malo. Ambas rectas de regresión se intersectan en un punto llamado centro de gravedad de la distribución.

Aplicaciones de la regresión lineal [editar]

Líneas de tendencia [editar]

Véase también: Tendencia

Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través de un largo periodo de tiempo. Este tipo de líneas puede decirnos si un conjunto de

Page 52: 3.Doc Estadistico

datos en particular (como por ejemplo, el PBI, el precio del petróleo o el valor de las acciones) han aumentado o decrementado en un determinado periodo de tiempo.10 Se puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera más precisa utilizando técnicas estadísticas como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la línea.

Medicina [editar]

En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco11 vinieron de estudios que utilizaban la regresión lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-económico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educación o posición económica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresión.12 13

En el ejemplo del tabaquismo, un hipotético gen podría aumentar la mortalidad y aumentar la propensión a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razón, en la actualidad las pruebas controladas aleatorias son consideradas mucho más confiables que los análisis de regresión.

Matemáticas finitas tema en-línea: regresión lineal y exponencial

Note: Las matemáticas en esta página han sido mecanografiado por jsMath. Para ver jsMath a su mejor expresión, debe instalar las fuentes jsMath TeX. Haga clic en el botón de jsMath en la parte inferior derecha de la pagina para ver más detalles. Ya hemos visto como ajustar una recta a un conjunto de dos puntos de datos: Se calcula la ecuación de la recta que pasa por dos puntos dados. (Vea la resumen de funciones para algunos ejemplos.) Sin embargo, por lo general se tiene más que dos puntos de datos, y raras veces están todos en una sola recta. El problema es que hallar la recta que ajusta los datos tan estrechamente que posible. 1. Recta de mejor ajuste (Recta de regresión)Empezamos intentando construir una función lineal de demanda. Suponga que su investigación de mercado muestra las siguientes estadísticas de venta para casas de varios precios durante el año pasado:

Precio (Miles de dólares) 160 180 200 220 240 260 280

Ventas de nueva casas este año 126 103 82 75 82 40 20

Queremos utilizar estos datos para construir una función de demanda para el mercado de los bienes raíces. (Recuerde que una función de demanda especifica la demanda, y, medida aquí por ventas anual, como una función del precio, x.) Aquí está una traza de y contra x:

Page 53: 3.Doc Estadistico

Los datos sugiera una recta, más o menos, y entonces una relación lineal entre y y x. Aquí son varias rectas que se acercan a los puntos:

P ¿Cuál recta ajusta los puntos lo más estrechamente que posible? R Nos gustaría que las ventas que pronosticara la recta (los valores pronosticados ) estuvieran tan cerca como fuera posible de las ventas reales (los valores observados). Las diferencias entre los valores esperados y los valores pronosticados, que son los errores residuales, son las distancias verticales que se marcan in la figura más abajo. Error residual = Valor observado - Valor pronosticado

P ¿Entonces como podemos hacerlo? R Sumamos primero todos los cuadrados de los errores residuales para obtener un solo error que se llama el suma de los errores al cuadrado (SSE -- siglas en inglés de "Sum of Squares Error") y escogemos la recta que se da el más pequeño valor de SSE. Esta recta se llama la recta de mejor ajuste, recta de regresión, o recta de mínimos cuadrados asociada a los datos.

Page 54: 3.Doc Estadistico

 Ejemplo 1: Calculando SSE para una recta dadaSupóngase que nos gustaría calcular SSE para una recta especifica, como y=−x+300 como mostrada más abajo:

Tenemos la siguiente tabla de valores: Principio del formulario

 x 

y Observadoy 

y Pronosticadoy=−x+300 

Error residualy−y 

    160     126 140 -14

180 103 120 -17

200 82 100 -18

220 75

240 82

260 40

   

   

   

   

Page 55: 3.Doc Estadistico

280 20

Final del formularioEntonces, para la recta y=−x+300

SSE = Suma de los valores de errores residuales = - 14 - 17 - 18 - 5 + 22 + 0 + 0 = -32

P Muy bien. Ahora sabemos como se calcula el valor de SSE para una recta ya dada. ¿Como hallamos la recta de mejor ajuste; es decir, la recta para que SSE es lo menor? R Presentaremos aquí la formula que la determina. Justificarla necesita cálculo; puede consultar el capitulo de funciones de varias variables en Cálculo Aplicado para una explicación detallada.

Recta de regresión (o mejor ajuste) La recta que se ajusta mejor a los n puntos (x1y1)(x2y2) (xnyn) tiene la forma y=mx+bdonde Pendiente=m=n(x2)− x2nxy− x y

  Intersección=b=ny−m x Aquí, significa "la suma de." Así, xy= suma del productos =x1y1+x2y2+ +xnyn x= suma del valores de x=x1+x2+ +xn y= suma del valores de y=y1+y2+ +yn x2= suma del valores de x2=x21+x22+ +x2n  

El uso de las formulas as bastante fácil, como se muestra el siguiente ejemplo. Ejemplo 2: Calculando la recta de regresión a mano

Determine la recta de regresión asociada a los siguientes datos:

xx 1 2 3 4

yy 1.5 1.6 2.1 3.0

Solución Para aplicar las formulas, es mejor organizar los datos en forma de tabla como sigue: (Cuando ha rellenado los valores de xy y x2 correctamente, pulse "Sumas" para obtener la suma de cada columna.) Principio del formulario

xx yy xyxy x2x2  

Page 56: 3.Doc Estadistico

1 1.5    

2 1.6    

3 2.1    

4 3.0    

x=  10

y=  8.2

xy=        x2=       

Final del formularioSustituyendo los valores correctos de la tabla más arriba en las formulas, obtenemos Pendiente=m=n(x2)− x2nxy− x y=4(30)−1024(23)−(10)(82)=05 Intersección=b=ny−m x=482−(05)(10)=08  Por lo tanto, la recta de regresión es y=05x+08Antes de seguir... Aquí esta una traza de los pontos de dados y la recta de regresión.

Observe que ni siquiera pasa la recta por uno de los puntos, pero es la recta que se ajusta mejor a los puntos.

Regresamos a los datos sobre la demanda para el mercado de los bienes raíces con la que empezamos este tema.

 Ejemplo 3: Función de demanda

Page 57: 3.Doc Estadistico

Obtenga la ecuación de demanda que se ajusta mejor a los siguientes datos, y úsela para pronosticar ventas anuales de casas preciadas a $140,000.

Precio (Miles de dólares) 160 180 200 220 240 260 280

Ventas de nueva casas este año 126 103 82 75 82 40 20

Solución Aquí esta una tabla como la que usamos más arriba para organizar las calculaciones:

xx yy xyxy x2x2

160 126 20,160 25,600

180 103 18,540 32,400

200 82 16,400 40,000

220 75 16,500 48,400

240 82 19,680 57,600

260 40 10,400 67,600

280 20 5,600 78,400

x=1540  y=528 xy=107280 

x2=350000 

Sustituyendo estos valores en la formula (con n=7), obtenemos Pendiente=m=n(x2)− x2nxy− x y=7(350000)−154027(107280)−(1540)(528)−07929 Intersección=b=ny−m x 7528−(−07928571429)(1540)2499  Observe que usamos el valor más exacto que pudimos obtener en la calculadora, m −07928571429, en lugar del valor redondeado (−07929) en la calculación de b. Eso ilustra la sigiuente regla general: Al calcular, no redondee los resultados intermedios; en vez de eso, utilice los resultados más exactos que puede obtener, usando los valores guardados en su computadora o calculadora si es posible. Por lo tanto, la recta de regresión es y=−07929x+2499Ahora podemos utilizar esta ecuación pronosticar las ventas anuales de casa cuyo precio es $140,000: Principio del formulario

Ventas anuales de casas preciadas a $140,000 ≈

redondee al número entero más cercano

     

 Final del formularioAntes de seguir... Más abajo está una traza de la recta de regresión.

Page 58: 3.Doc Estadistico

P Si mis puntos están en una recta, ¿está la recta de mejor ajuste? R Sí. Si los puntos están en una recta, el valor mínimo posible de SSE es cero, y eso sucede si se usa la recta que pasa por todos los puntos. Una consecuencia de este hecho es que se puede usar la herramienta regresión en su graficadora o la herramienta regresión en este sitio para calcular la ecuación de la recta que pasa por dos puntos especificados. P Si no todos los untos están en una recta, ¿cómo puedo saber cuánto se acercan a una recta? R Hay un número que mide la "bondad de ajuste" de la recta de regresión llamado coeficiente de correlación. Este número, que se representa por r, está entre −1 y 1. Cuanto más se acerca r a−1 o 1, el ajuste es mejor. Si el ajuste es malo, se acerca r a 0. Si el ajusto es exacto, r=−1 para una recta con pendiente negativa, o r=1 para una recta de pendiente positiva. La figura más abajo muestra varios conjuntos de puntos con sus rectas de regresión, y los valores correspondientes de r.

El coefficiente de correlación se puede calcular con la siguiente formula. Para obtener la se requieren buenos conocimientos de estadística.

Coeficiente de correlación   Coeficiente de correlación =r=n xy− x y n x2− x2 n y2− y2

2. Curva exponencial de mejor ajuste (Curva exponencial regresión)P Ahora sabemos como ajustar una recta a un conjunto de datos. ¿Que hay una curva exponencial de la forma y=Arx ?R La idea es convertir una curva exponencial a una recta por medio de logaritmos, como sigue: Empiece con la función exponencial y=Arx

Page 59: 3.Doc Estadistico

y tome el logaritmo de ambos lados: logy=log(Arx)Las propiedades de logaritmos nos dan entonces logy logy =logA+logrx   o =logA+xlogr  Esto expresa logy como una función lineal de x, con Pendiente =m=logr Intersección =b=logA  Por lo tanto, si calculamos la recta de mejor ajuste usando logy como una función de x, entonces la pendiente y la intersección en y serían dados como más arriba, y después podemos obtener los coeficientes r y A por r A =10m =10b  Para resumir,

Regresión exponencial Para obtener la curva exponencial de mejor ajuste de la forma y=ArxObtenga la recta de regresión usando los datos (x logy). Los coeficientes deseados A y r son entonces r A =10m =10b  donde m y b son la pendiente y intersección de la recta de regresión.

 Ejemplo 4: Ventas de Compaq Ingresos de ventas de computadores Compaq (una marca ahora extinguida) son mostrados en la siguiente tabla, donde t representa años desde 1990.* Obtenga el modelo exponencial de regresión para los datos.

tt  = Año (1990 = 0) 0 2 4 7

RR = Ingreso ($ billón) 3 4 11 25

* Datos son redondeados. Fuente: Informes de compañía/The New York Times, Enero 27, 1998, p. D1.Solución Pues necesitamos modelar logR  como una función lineal de t, primero construimos una tabla con x=t y y=logR , y entonces calculamos la recta de regresión, y=mx+b.

x (=t)x (=t)  0 2 4 7

y (=logR)y (=logR)  0.477121 0.602060 1.04139 1.39794

En lugar de hacer la calculación a mano como hicimos más arriba, podemos utilizar la herramienta regresión en este sitio para hacerlo automáticamente. Simplemente ingrese los valores de x y y y pulse el botón "y=mx+b". (¡Sí, la herramienta puede hacer regresión exponencial directamente, pero preferimos que sabe usted como funciona!) La recta de regresión que obtenemos es y=013907x+042765Por lo tanto, el modelo exponencial deseado es R=Art,donde r=10m=1001390713774, y A=1004276526770. Nuestra modelo de ingresos es, por lo tanto, R=26770(13774)t.

Page 60: 3.Doc Estadistico

Antes de seguir... Vaya a la herramienta regresión, ingrese los datos originales (sin tomar logaritmos) y pulse el botón "y=a(bx)". ¿Qué encuentra? Note: Pues hemos tomado logaritmos antes de hacer la regresión lineal, se puede decir que la curva de regresión exponencial no es la curva que minimiza SSE para los datos originales, esta curva minimiza SSE para los datos tranformados --- es decir, para los datos (x logy). Por lo tanto, la curva de regresión exponencial no es la curva exponencial de mejor ajuste en el sentido "estricto." Vea los libros de texto "Applied Calculus" para un método obtener esta curva.

3. Otras formas de regresiónA la herramienta de regresión se puede encontrar también curvas de regresión de las siguientes formas: y=ax2+bx+c y=ax3+bx2+cx+d y=axb (Regresión cuadrática) ( Regresión cúbica) (Regresión potencia)  En la calculadora TI-83/84, se puede encontrar todos estos y también los siguientes:y=ax4+bx3+cx2+dx+e y=asin(bx+c) (Regresión cuártica) (Regresión seno)  

REGRESIÓN EXPONENCIAL

Será aquella en la que la función de ajuste será una función exponencial del tipo

                                y = a.bx

La regresión exponencial aunque no es lineal es linealizable tomando logaritmos ya que haciendo el cambio de variablev = log y tendremos que la función anterior nos generaría:

                                    v = log y = log( a.bx) = log a + x log b

 

la solución de nuestro problema vendría de resolver la regresión lineal entre v ý x, y una vez obtenida supuesta ésta:v* = A + B x ; obviamente la solución final será:

a = antilog A y b = antilog B.

ir a regresión

REGRESIÓN PARABÓLICA

.Desarrollaremos someramente la regresión Y/X y debe quedar claro que la regresión X/Y resultaría análoga.

Supongamos para simplificar que los datos no están agrupados por frecuencias.

Page 61: 3.Doc Estadistico

En tal caso, obtener la función parabólica y* = a0+a1x+a2 x2 se llevará a cabo determinado los valores de los tres parámetros a0,a1,a2 que minimicen :

(a0,a1,a2)= (yi- (a0+a1x+a2 x2)) 2

Igualando a cero las tres derivadas parciales se obtendrá las ecuaciones normales, que convenientemente manipuladas acaban siendo:

yi =N a0 + a1 xi + a2xi2

yixi = a0 xi + a1 xi2 + a2 xi

3

yixi2 = a0 xi

2 + a1 xi3 + a2 xi

4

Sistema de ecuaciones del que se pueden despejar los valores de los coeficientes de regresión.

REGRESIÓN POTENCIAL

Será aquella en la que la función de ajuste sea una función potencial del tipo:

                                                                y = a. xb

también en este caso se resuelve linealizando la función tomando logaritmos ya que:

                                                log y = log a + b log x

Considerando las nuevas variables v = log y u= log x resolveríamos la regresión lineal entre ellas de forma que si el resultado fuera: v*= A +B u

La solución final quedaría como a= antilog A y b= B

Regresión logística (I)

Interacción y confusión

El empleo de técnicas de regresión sirve para dos objetivos:

Page 62: 3.Doc Estadistico

1. Estimar la relación entre dos variables teniendo en cuenta la presencia de otros factores

2. Construir un modelo que permita predecir el valor de la variable dependiente (en regresión logística la probabilidad del suceso) para unos valores determinados de un conjunto de variables pronóstico

Cuando el objetivo es estimar la relación o asociación entre dos variables, los modelos de regresión permiten considerar que puede haber otros factores que modifiquen esa relación.

Así, por ejemplo, si se está estudiando la posible relación, como factor de riesgo, entre el síndrome de apnea nocturna y la probabilidad de padecer hipertensión, dicha relación puede ser diferente si se tiene en cuenta otras variables como pueden ser la edad, el sexo o el índice de masa corporal. Por ello en un modelo de regresión logística podrían ser incluidas como variables independientes, además del dato de apnea. En la ecuación obtenida al considerar como variables independientes APNEA, EDAD, SEXO, IMC, el exp(coeficiente de la ecuación para APNEA) nos determina el odds ratio debido a la apena, ajustado o controlado para el resto de los factores.

A las variables que, además del factor de interés (en el ejemplo EDAD, SEXO, IMC), se introducen en el modelo, se las denomina en la literatura de diferentes formas: variables control, variables extrañas, covariantes, o factores de confusión.

Interacción

Cuando la relación entre el factor en estudio y la variable dependiente se modifica según el valor de una tercera estamos hablando de interacción. Así en nuestro ejemplo, supongamos que la probabilidad de padecer HTA cuando se tiene síndrome de apnea aumenta con la edad. En este caso decimos que existe interacción entre las variables EDAD y APNEA.

Si nos fijamos sólo en el exponente del modelo logístico, en el caso de no considerar interacción éste será:

Si deseamos considerar la presencia de interacción entre APNEA y EDAD el modelo cambia:

Si la variable APNEA es dicotómica (valores 0 y 1) la relación entre HTA y APNEA vendrá cuantificada por b1 en el primer modelo mientras que en el segundo

es decir que ahora esa relación se modifica en función del valor de la EDAD.

Algunas precauciones

Page 63: 3.Doc Estadistico

La amplia disponibilidad de potentes programas que permiten el acceso a sofisticadas pruebas estadísticas puede conducir a la utilización inadecuada y mecánica de éstas. En particular los modelos de regresión requieren de quien los construye un mínimo de comprensión de la filosofía subyacente, así como no sólo el conocimiento de las ventajas, sino también de los problemas y debilidades de éstas técnicas. La utilización de procedimientos matemáticos a menudo nos convece de que estamos introduciendo "objetividad" en los resultados y ello es así en cierta medida, pero también lleva aparejada una gran carga de subjetividad, donde se incluye desde la misma elección de un modelo matemático determinado, hasta la selección de las variables en él contenidas.

Una de la primeras consideraciones que hay que hacer es que la relación entre la variable independiente y la probabilidad del suceso no cambie de sentido, ya que en ese caso no nos sirve el modelo logístico. Esto es algo que habitualmente no ocurre en los estudios clínicos, pero por ello es más fácil pasarlo por alto cuando se presenta. Un ejemplo muy claro de esa situación se da si estamos evaluando la probabilidad de nacimiento un niño con bajo peso (de riesgo) en función de la edad de la madre. Hasta una edad esa probabilidad puede aumentar a medida que la edad de la madre disminuye (madres muy jóvenes) y a partir de una edad (madres muy mayores) la probabilidad puede aumentar a medida que lo hace la edad de la madre. En este caso el modelo logístico no sería adecuado.

Colinealidad

Otro problema que se puede presentar en los modelos de regresión, no sólo logísticos, es que la variables que intervienen estén muy correlacionadas, lo que conduce a un modelo desprovisto de sentido y por lo tanto a unos valores de los coeficientes no interpretables. A esta situación, de variables independientes correlacionadas, se la denomina colinealidad.

Para entenderlo supongamos el caso extremo, en el que se introduce en el modelo dos veces la misma variable, tendríamos entonces el siguiente término

o lo que es lo mismo

Donde la suma b1+b2 admite infinitas posibilidades a la hora de dividir en dos sumandos el valor de un coeficiente, por lo que la estimación obtenida de b1 y b2 no tiene realmente ningún sentido.

Un ejemplo de esta situación se podría dar si incluimos en la ecuación variables como la hemoglobina y el hematocrito que está altamente correlacionadas.

Tamaño de muestra

Page 64: 3.Doc Estadistico

Como regla "de andar por casa" podemos considerar necesario disponer de al menos 10 . (k + 1) casos para estimar un modelo con k variables independientes; es decir, al menos 10 casos por cada variable que interviene en el modelo, considerando también la variable dependiente (la probabilidad del suceso).

Conviene llamar la atención respecto a que las cualitativas intervienen como c - 1 variables en el modelo, al construir a partir de ellas las correspondientes variables internas.

Selección de modelos

Al estar hablando de modelos que pueden ser multivariantes, un aspecto de interés es cómo seleccionar el mejor conjunto de variables independientes a incluir en el modelo.

La definición de mejor modelo depende del tipo y el objetivo del estudio. En un modelo con finalidad predictiva se considerará como mejor modelo áquel que produce predicciones más fiables, mientras que en un modelo que pretende estimar la relación entre dos variables (corrigiendo el efecto de otras, como se vió más arriba), se considerará mejor áquel con el que se consigue una estimación más precisa del coeficiente de la variable de interés. Esto se olvida a menudo y sin embargo conduce a estrategias de modelado completamente direfentes. Así en el segundo caso un covariante con coeficiente estadísticamente significativo pero cuya inclusión en la ecuación no modifica el valor del coeficiente de la variable de interés, será excluído de la ecuación, ya que no se trata de un factor de confusión: la relación entre la variable de interés y la probabilidad no se modifica si se tiene en cuenta esa variable. Sin embargo si lo que se busca un modelo predicitivo sí que se incluirá en la ecuación pues ahora lo que buscamos es predicciones más fiables.

Otra consideración que hay que hacer siempre que se analizan datos es distinguir entre diferencias numéricas, diferencias estadísticamente significatifvas y diferencias clínicamente relevantes. No siempre coinciden los tres conceptos.

Lo primero que habrá que plantear es el modelo máximo, o lo que es lo mismo el número máximo de variables independientes que pueden ser incluidas en la ecuación, considerando también las interacciones si fuera conveniente.

Aunque existen diferentes procedimientos para escoger el modelo sólo hay tres mecanismos básicos para ello: empezar con una sola variable independiente e ir añadiendo nuevas variables según un criterio prefijado (procedimiento hacia adelante), o bien empezar con el modelo máximo e ir eliminando de él variables según un criterio prefijado (procedimiento hacia atrás). El tercer método, denominado en la literatura "stepwise" , combina los dos anteriores y en cada paso se puede tanto añadir una variable como eliminar otra que ya estaba en la ecuación.

En el caso de la regresión logística el criterio para decidir en cada paso si escogemos un nuevo modelo frente al actual viene dado por el logaritmo del cociente de verosimilitudes de los modelos. La función de verosimilitud de un modelo es una medida de cuán compatible es éste

Page 65: 3.Doc Estadistico

con los datos realmente observados. Si al añadir una nueva variable al modelo no mejora la verosimilitud de forma apreciable, en sentido estadístico, ésta variable no se incluye en la ecuación.

Para evaluar la significación estadística de una variable concreta dentro del modelo, nos fijaremos en el valor de chi² (estadístico de Wald) correspondiente al coeficiente de la variable y en su nivel de probabilidad