88
UNIVERSIDAD GRAN MARISCAL DE AYACUCHO VICERRECTORADO ACADÉMICO ESCUELA DE ADMINISTRACIÒN NÚCLEO EL TIGRE REGRESIÓN, CORRELACIÓN Y ANOVA. DOCENTE: HAMLET MATA MATA INTEGRANTES: PEDRO RODRIGUEZ 26695416 EL TIGRE

REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

UNIVERSIDAD GRAN MARISCAL DE AYACUCHO

VICERRECTORADO ACADÉMICO

ESCUELA DE ADMINISTRACIÒN

NÚCLEO EL TIGRE

REGRESIÓN, CORRELACIÓN Y ANOVA.

DOCENTE: HAMLET MATA MATA

INTEGRANTES: PEDRO RODRIGUEZ

26695416

EL TIGRE

Page 2: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

INTRODUCCIÓN

El objetivo precisar y demostrar que muchas de las decisiones gerenciales

se basan en la relación entre dos o más variables. Muchas veces un

gerente o administrador confía mucho en su intuición para juzgar como se

relacionan dos variables, sin embargo si se pueden obtener datos de una

muestra, se pueden se puede emplear el procedimiento estadístico de

análisis de regresión para plantear una ecuación que muestre cómo

depende una variable de la otra.

La regresión lineal es una técnica estadística utilizada para estudiar la

relación entrevariables cuantitativas. Tanto en el caso de dos variables

(regresión simple) como en el de más de dosvariables (regresión múltiple), el

análisis regresión lineal puede utilizarse para explorar y cuantificar larelación

entre una variable llamada dependiente o criterio (Y) y una o más variables

llamadasindependientes o predictoras (X1, X2, …, Xp), así como para

desarrollar una ecuación lineal con finespredictivos.

El procedimiento más sencillo de análisis de regresión, donde

interviene una variable independiente y una variable dependiente y la

relación que existe entre ellas se aproxima a una línea recta. El análisis de

regresión en donde sólo intervienen dos variables se denomina análisis de

regresión simple.

El análisis de la varianza (o Anova: Analysis of variance) es un

método para comparar dos o más medias, que es necesario porque cuando

se quiere comparar más de dos medias es incorrecto utilizar repetidamente

el contraste basado en la t de Student.

Las medidas de la variable dependiente se hacen para cada nivel del

factor que se piensa que afecta a esta variable. Se pueden examinar dos

factores relevantes al mismo tiempo en el procedimiento de ANOVA con dos

criterios de clasificación, y estudiar los efectos de tres o más factores sobre

Page 3: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

la variable dependiente a través de procedimientos mas avanzados.

El análisis de varianza es un buen ejemplo de una técnica estadística que

resulta muy practica debido al uso generalizado de las computadoras. El

volumen de cálculos es tal que es muy difícil realizar un diseño de cualquier

tamaño útil solo con cálculos manuales. Los programas de computadora que

ejecutan ANOVA están disponibles para computadoras personales al igual

que para las mas grandes. Estos programas, por lo general, realizan análisis

con uno y dos criterios de clasificación y algunas veces también ofrecen

técnicas mas avanzadas.

Por otro lado, en cada comparación la hipótesis nula es que las dos

muestras provienen de la misma población, por lo tanto, cuando se hayan

realizado todas las comparaciones, la hipótesis nula es que todas las

muestras provienen de la misma población y, sin embargo, para cada

comparación, la estimación de la varianza necesaria para el contraste es

distinta, pues se ha hecho en base a muestras distintas.

El método que resuelve ambos problemas es el anova, aunque es

algo más que esto: es un método que permite comparar varias medias en

diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de

alguna manera, es la base del análisis multivariante.

Para elaborar un instrumento adecuado para la recolección de datos,

valido y confiable que proporcione basamentos relevantes, para el logro de

los objetivos planteados y sustentables los hallazgos que realicen con sus

investigaciones.

Describe la validez y la confiabilidad de un instrumento que requiere

de este procedimiento, ya que no todos los instrumentos para recabar datos

que ameritan se realicen una prueba piloto con esta finalidad.

El Alfa de Cronbach es un coeficiente que sirve para medir la

fiabilidad de una escala de medida, y cuya denominación Alfa fue realizada

por Cronbach .

Page 4: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Las series de tiempo es el de predicción, esto es dado una serie

{x(t1),...,x(tn)} nuestros objetivos de interés son describir el comportamiento

de la serie, investigar el mecanismo generador de la serie temporal, buscar

posibles patrones temporales que permitan sobrepasar la incertidumbre del

futuro.

Al analizar una serie de tiempo, lo primero que se debe hacer es

graficar la serie. Esto nos permite detectar las componentes esenciales de

la serie. El gráfico de la serie permitirá: detectar Outlier, detectar tendencias,

variación estacional, variaciones irregulares (o componente aleatoria).

El SPSS es un software que se utiliza mayormente para cálculos

estadísticos, aunque incluye un sin número de utilidades. Actualmente, la

estadística ha adquirido, de manera progresiva, una mayor relevancia en

todos los sectores universitarios y, en general, en la sociedad. Es por ello,

por lo que con este tutorial pretendemos transmitir los conocimientos

necesarios para comprender diversas técnicasestadísticas mediante el uso

paquete estadístico SPSS.

SPSS ofrece una gran cantidad de formatos posibles, incluyendo los

propios. Si su intención es trabajar solamente en SPSS, entonces puede

haber una cierta ventaja a ahorrar en SPSS (*.sav) el formato. Asumo que

este formato permite una lectura y una escritura más rápidas del fichero de

datos. Sin embargo, si sus datos son analizados y mirados por otros

paquetes, sería sugerente ahorrar en un formato más universal (ejemplo

Excel (*.xls)).Lo anterior dicho se ejecutará a la hora de usted salvar.

Page 5: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Regresión Lineal

Es una técnica estadística para modelar e investigar la relación entre

dos o más variables. Tiene aplicación en la industria para investigar la

relación entre el rendimiento de la producción y uno o más factores del (o de

los) que depende, como la temperatura, la humedad ambiental, la presión, la

cantidad de insumos, etc; con base en este análisis se puede pronosticar el

comportamiento de una variable que se desea estimar. Si el ingeniero

industrial logra determinar cómo se relacionan las variables conocidas de un

proceso con el comportamiento futuro de otra variable de interés, podrá

colaborar favorablemente y en gran medida al proceso de toma de

decisiones.

Este modelo matemático para estimar el efecto de una variable sobre

otra está asociado con el coeficiente r de Pearson, sirve para medir variables

de Intervalos y de razón.

Relación entre dos variables medidas a nivel intervalo

Para realizar un correcto análisis de los datos es fundamental conocer

de antemano el tipo de medida de la variable, ya que para cada una de ellas

se utiliza diferentes estadísticos. La clasificación más convencional de las

escalas de medida las divide en cuatro grupos denominados Nominal,

Ordinal, Intervalo y Razón.

Variables medidas a nivel Intervalo

Son variables numéricas cuyos valores representan magnitudes y la

distancia entre los números de su escala es igual. Con este tipo de variables

podemos realizar comparaciones de igualdad/desigualdad, establecer un

orden dentro de sus valores y medir la distancia existente entre cada valor

de la escala. Las variables de intervalo carecen de un cero absoluto, por lo

Page 6: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

que operaciones como la multiplicación y la división no son realizables. Un

ejemplo de este tipo de variables es la temperatura, ya que podemos decir

que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y

17 grados. Lo que no podemos establecer es que una temperatura de 10

grados equivale a la mitad de una temperatura de 20 grados.

Representación gráfica de la nube de puntos.

La regresión lineal se determina con base al diagrama de dispersión.

Este consiste en una gráfica donde se relacionan las puntuaciones de una

muestra en dos variables, el Diagrama de Dispersión o nube de puntos es

un tipo de diagrama matemático que utiliza las coordenadas cartesianas

para mostrar los valores de dos variables para un conjunto de datos.

La representación gráfica se realiza mediante un dibujo realizado en

un sistema bidimensional de coordenadas cartesianas. En este tipo de

diagramas cada punto representa la puntuación que el sujeto obtiene en las

dos variables, determinando su puntuación por la lectura de los valores que

aparecen en la escala vertical y horizontal.

Por ejemplo supongamos los siguientes datos:

X Y

1 1

2 2

3 3

4 5

5 5

6 6

la representación gráfica correspondiente sería:

Page 7: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

De esta forma es sencillo verificar el tipo de relación que se establece

entre las dos variables.

En el siguiente ejemplo, la figura representada refleja la covariación

entre la inteligencia (CI) y el rendimiento escolar (Nota) de los sujetos

estudiados.

A partir de la observación de los puntos, existe una tendencia general

a que los sujetos en la medida que tengan más inteligencia obtendrán

también mejor nota académica. A este tipo de relación se le conoce como

Page 8: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

directa o positiva. Si se observase un proceso contrario, es decir, a medida

que aumenta la inteligencia disminuye el rendimiento académico, la

correlación sería inversa o negativa.

Cálculo de los coeficientes de regresión.

El Coeficiente de regresión indica el número de unidades en que se

modifica la variable dependiente "Y" por efecto del cambio de la variable

independiente "X" o viceversa en una unidad de medida.

Una vez analizado el carácter e intensidad de la relación entre las

variables, podemos proceder a estimar los parámetros de la ecuación de

predicción o de regresión lineal. El criterio para obtener los coeficientes de

regresión B0 y B1 es el de mínimos cuadrados. Este consiste en minimizar

la suma de los cuadrados de los residuos de tal manera que la recta de

regresión que definamos es la que más se acerca a la nube de puntos

observados y, en consecuencia, la que mejor los representa.

Para determinar el valor del coeficiente de regresión de una manera

fácil y exacta es utilizando el método de los Mínimos Cuadrados de dos

maneras:

1.- Forma Directa

De la ecuación de la recta:

Si y , se obtienen a partir de las ecuaciones normales:

Page 9: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Aplicando normales Y sobre X tenemos:

El Coeficiente de Regresión es

De la misma manera la recta de regresión de "X" sobre "Y" será dada de la

siguiente manera:

Donde: y se obtienen a partir de las ecuaciones normales:

Aplicando normales X sobre Y tenemos:

Page 10: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Forma Indirecta del Método de los Mínimos Cuadrados.

El fundamento de este método es de las desviaciones de X respecto a

su media aritmética. X

Ecuación de y sobre x Ecuación de y sobre x

Donde:

x, y = desviaciones

X = media aritmética

Page 11: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Y = media aritmética

SPSS nos permite realizar ajustes por mínimos cuadrados para

modelos lineales en losparámetros, es decir para el caso en que la relación

entre la variable dependiente(también llamada variable respuesta) que nos

interesa Y, y las variables explicativas(también llamados regresores) X1,

X2,..., Xk es

Hemos realizado observaciones del fenómeno: i.e conocemos para varias

combinaciones de valores de las variables independientes cuál ha sido el

valor de lavariable respuesta. Queremos ajustar un modelo de tipo lineal a

las observaciones delas que disponemos. El ajuste consiste en encontrar

valores aproximados de loscoeficientes b1, b2,...,bk.

AJUSTE DE UNA RECTA.

El primer caso particular de importancia corresponde al famoso ajuste

de una recta. Eneste caso sólo consideramos una variable independiente X y

buscamos una relación deltipo

Y=aX+b+e,

que está contemplado en nuestro modelo si consideramos

Y=b1X1+b2X2 +e

Con

X1=1 y X2=X,

en estas condiciones, b1 es la ordenada al origen mientras que b2 es la

pendiente de larecta.

Page 12: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

El coeficiente de determinación y su interpretación

En Estadística, se llama coeficiente de determinación a la proporción

de la varianza de la variable dependiente que está explicada por un modelo

estadístico. En teoría de probabilidad, la varianza (que suele representarse

como ) de una variable aleatoria es una medida de dispersión definida

como la esperanza del cuadrado de la desviación de dicha variable respecto

a su media.

Recordemos que el coeficiente de determinación, se obtiene al elevar

al cuadrado el coeficiente de regresión.

Para una mejor interpretación, lo multiplicamos por 100, y expresamos

el resultado como porcentaje.

En este caso diremos, que el 61% de la variación de la variable "Y"

(variable dependiente), se explica por la variabilidad de la variable "X"

(variable independiente).

Ecuación de Regresión Lineal

En el estudio de la relación funcional entre dos variables

poblacionales, una variable X, llamada independiente, explicativa o de

predicción y una variable Y, llamada dependiente o variable respuesta,

presenta la siguiente notación:

Page 13: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Y = a + X +

Donde:

a es el valor de la ordenada donde la línea de regresión se intercepta

con el eje Y.

es el coeficiente de regresión poblacional (pendiente de la línea recta)

es el error

Suposiciones de la Regresión Lineal

1. Los valores de la variable independiente X son fijos, medidos sin error.

2. La variable Y es aleatoria

3. Para cada valor de X, existe una distribución normal de valores de Y

(subpoblaciones Y)

4. Las variancias de las subpoblaciones Y son todas iguales.

5. Todas las medias de las subpoblaciones de Y están sobre la recta.

6. Los valores de Y están normalmente distribuidos y son estadísticamente

independientes.

La regresión tenemos ecuaciones que nos representan las diferentes

clases de regresión:

Regresión Lineal: y = A + Bx

Regresión Logarítmica: y = A + BLn(x)

Regresión Exponencial: y = Ac(bx)

Regresión Cuadrática: y = A + Bx +Cx2

Page 14: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

La ecuación de Regresión y su ajuste por el método de Mínimos

Cuadrados.

Es una técnica de análisis numérico encuadrada dentro de la

optimización matemática, en la que, dados un conjunto de pares ordenados:

(variable independiente, variable dependiente) y una familia de funciones, se

intenta encontrar la función, dentro de dicha familia, que mejor se aproxime a

los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error

cuadrático.

En su forma más simple, intenta minimizar la suma de cuadrados de

las diferencias ordenadas (llamadas residuos) entre los puntos generados

por la función y los correspondientes en los datos. Específicamente, se llama

mínimos cuadrados promedio (LMS) cuando el número de datos medidos es

1 y se usa el método de descenso por gradiente para minimizar el residuo

cuadrado. Se puede demostrar que LMS minimiza el residuo cuadrado

esperado, con el mínimo de operaciones (por iteración), pero requiere un

gran número de iteraciones para converger.

Desde un punto de vista estadístico, un requisito implícito para que

funcione el método de mínimos cuadrados es que los errores de cada

medida estén distribuidos de forma aleatoria. El teorema de Gauss-Márkov

prueba que los estimadores mínimos cuadráticos carecen de sesgo y que el

muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución

normal. También es importante que los datos recogidos estén bien

escogidos, para que permitan visibilidad en las variables que han de ser

resueltas (para dar más peso a un dato en particular, véase mínimos

cuadrados ponderados).

La técnica de mínimos cuadrados se usa comúnmente en el ajuste de

curvas. Muchos otros problemas de optimización pueden expresarse

también en forma de mínimos cuadrados, minimizando la energía o

maximizando la entropía

Page 15: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

El procedimiento mas objetivo para ajustar una recta a un conjunto de

datos presentados en un diagrama de dispersión se conoce como "el

método de los mínimos cuadrados". La recta resultante presenta dos

características importantes:

1. Es nula la suma de las desviaciones verticales de los puntos a partir de la

recta de ajuste

∑ (Y- - Y) = 0.

2. Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna

otra recta daría una suma menor de las desviaciones elevadas al cuadrado

∑ (Y- - Y)² → 0

(mínima).

El procedimiento consiste entonces en minimizar los residuos al cuadrado

Ci²

Re emplazando nos queda

La obtención de los valores de a y b que minimizan esta función es un

problema que se puede resolver recurriendo a la derivación parcial de la

función en términos de a y b: llamemos G a la función que se va a minimizar:

Tomemos las derivadas parciales de G respecto de a y b que son las

incógnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones

llamadas ecuaciones normales del modelo que pueden ser resueltas por

Page 16: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

cualquier método ya sea igualación o matrices para obtener los valores de a

y b.

Derivamos parcialmente la ecuación respecto de a

Primera ecuación normal

Derivamos parcialmente la ecuación respecto de b

Segunda ecuación normal

Page 17: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Para un valor dado de X, por ejemplo, X1, habrá una diferencia entre

el valor Y1y el correspondiente valor de la curva C. Esta diferencia se denota

por D1, que seconoce como desviación, error o residuo.

De todas las curvas de aproximación a una serie de datos puntuales la curva

quetiene la propiedad de que: D21 + D22 + . . . + D2N Se conoce como

Mejor curva deajuste

La suma de cuadrados de desviación se le llama suma de cuadrados

por falla(SCF). Esta suma de cuadrados proporciona la medida de que tan

bien se ajusta lalínea al conjunto completo de puntos.

Si la SCF es cero, implica que los puntos caen exactamente sobre la

línea. Por elcontrario entre más grande es SCF respecto de cero, menor es

el ajuste. La recta quetenga una suma de cuadrados menor para un conjunto

de puntos, que cualquier otralínea recta es la línea recta llamada línea de

regresión de los mínimos cuadrados.

(X1,

Y1)

D2

1

(XN1, Y1)

DN

(X2,

Y2)

D2

Page 18: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Error estándar en la estimación

El error estándar de la estimación designado por sYX mide la

disparidad promedio" entre los valores observados y los valores estimados

de . Se utiliza la siguiente formula.

Debemos entonces calcular los valores de para cada ciudad sustituyendo

en la ecuación los valores de los porcentajes de graduados de cada ciudad

estudiada.

Y X

4.2 7.2 4.6 -0.4 0.16

4.9 6.7 4.5 0.4 0.16

7.0 17.0 6.6 0.4 0.16

6.2 12.5 5.7 0.5 0.25

3.8 6.3 4.4 -0.6 0.36

7.6 23.9 8.0 -0.4 0.16

4.4 6.0 4.4 0.0 0.00

5.4 10.2 5.2 0.2 0.04

1.29

Page 19: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Syx = 0.46 (decenas de miles $)

Como esta medida trata de resumir la disparidad entre lo observado y

lo estimado, es decir, trata de medir la diferencia promedio entre lo

observado y lo estimado ó esperado de acuerdo al modelo, puede

considerarse como un indicador del grado de precisión con que la ecuación

de regresión, describe la relación entre las dos variables. Este error estándar

se ve afectado por las unidades y sus cambios ya que es una medida

absoluta, pues, se da en la misma unidad de medida que esta dada la

variable Y; en el ejemplo 0.46 serán decenas de miles de pesos, razón por la

cual no es posible comparar con las relaciones de variables dadas en

distinta unidad de medida. Es necesario entonces calcular una medida que

interprete o mida mejor el grado de relación entre las variables.

Coeficiente de determinación

El cambio de la variable Y generalmente depende de muchos

factores, en ocasiones, difíciles de identificar; con el modelo lineal simple,

sólo tenemos presente uno. Por ejemplo, en nuestro caso la mediana del

ingreso depende no sólo del porcentaje de graduados en el nivel superior,

que es, el factor que tenemos presente, pueden entrar a jugar factores tales

como, la distribución de la edad en la población, la distribución por sexo en

la población, la industrialización de la ciudad, el numero de universidades y

muchos otros.

El coeficiente de determinación mide o interpreta la cantidad relativa de la

variación que ha sido explicada por la recta de regresión, es decir, la

proporción de cambio en Y explicado por un cambio en la variable X ( X es el

factor que se utiliza para calcular la recta de ajuste o ecuación de regresión,

Page 20: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

en el ejemplo es el porcentaje de graduados en el nivel superior en cada

ciudad).

Para el ejemplo el Coeficiente de determinación va a medir la proporción del

cambio en el ingreso mediano de cada ciudad, debido o explicado por un

cambio en el porcentaje de graduados en el nivel superior.

Veamos algunos componentes de la variabilidad en el análisis de regresión:

La diferencia entre cada valor de Yー observado y media se denomina

variación de Y.

La diferencia entre estimado y media , es la variación tenida en cuenta

por la ecuación de regresión, razón por la cual se denomina variación

explicada de Y.

La diferencia entre Yー observado y estimado, son variaciones

consideradas debidas a factores diferentes al tenido presente por la

ecuación de regresión por eso se llama: variación no explicada de Y.

La diferencia entre Yー observado y estimado, son variaciones

consideradas debidas a factores diferentes al tenido presente por la

ecuación de regresión por eso se llama: variación no explicada de Y.

Page 21: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

La sumatoria de las diferencias en cada una de las formas de variación la

podemos representar así:

Gráficamente esta relación se puede representar así:

Se dijo anteriormente, que el coeficiente de determinación es la proporción

de cambio explicado en Y, por cambio en X, es decir, la proporción que

representa la variación explicada de la variación total. Recuerde una

proporción es la relación de una parte con el total, por tanto, el coeficiente de

determinación será:

Page 22: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

En otras palabras el coeficiente de determinación es la relación entre la

variación explicada y la variación total. Su valor siempre estará

Para su calculo se procede así:

4.2 5.44 -1.24 1.54 4.6 -0.84 0.71 -0.4 0.16

4.9 5.44 -1.24 0.29 4.5 -0.84 0.88 0.4 0.16

7.0 5.44 1.56 2.43 6.6 1.16 1.35 0.4 0.16

6.2 5.44 0.76 0.58 5.7 0.26 0.07 0.5 0.25

3.8 5.44 1.64 2.69 4.4 -1.04 1.08 -0.6 0.36

7.6 5.44 2.16 4.66 8.0 2.56 6.55 -0.4 0.16

4.4 5.44 1.04 1.08 4.4 -1.04 1.08 0.0 0.00

5.4 5.44 0.4 0.001 5.2 -0.24 0.06 0.2 0.04

43.5 13.271 11.78 1.29

Generalmente esta proporción se expresa como porcentaje por tanto

podemos decir que

r² = 88.76%

Page 23: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

como conclusión podemos decir que el 88.76% de la variación en el ingreso

mediano de las ciudades de la muestra esta relacionada o explicada por la

variación en el porcentaje de graduados en educación Superior en cada

ciudad.

Coeficiente de correlación

Este Coeficiente como ya se dijo mide la fuerza de la relación entre las

variables. El coeficiente tiene el signo que tiene b y su valor estará

El signo menos en el índice significa una relación negativa y

un signo más una correlación positiva. El coeficiente se obtiene sacando la

raíz cuadrada al coeficiente de determinación y se simboliza con "r".

En este caso el coeficiente r tiene signo positivo ya que toma el valor de b

obtenido con las ecuaciones normales toma valor positivo.

A continuación se da, a modo de orientación, como podrían interpretarse los

valores de r (positivo o negativo)

0.0 a 0.2 Correlación muy débil, despreciable

0.2 a 0.4 Correlación débil. bajo

0.4 a 0.7 Correlación moderada

0.7 a 0.9 Correlación fuerte, alto, importante

0.9 a 1.0 Correlación muy fuerte, muy alto

Page 24: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

La correlación entre los valores de dos variables es un hecho. El que lo

consideremos satisfactorio o no, depende de la interpretación. Otro problema

que representa la correlación es cuando se pregunta si una variable, de

algún modo causa o determina a la otra. La correlación no implica

causalidad. Si las variables X e Y están correlacionadas, esto puede ser por

que X causa a Y, o porque Y causa a X o porque alguna otra variable afecta

tanto a X como Y, o por una combinación de todas estas razones; o puede

ser que la relación sea una coincidencia.

Inferencias en la regresión lineal múltiple

Una de las inferencias más útiles que se pueden hacer con respecto a la

calidad de la respuesta pronosticada y0 que corresponde a los valores x10,

x20,...., xk0, es el intervalo de confianza sobre la respuesta media | x10,

x20,...., xk0 . Nos interesa construir un intervalo de confianza sobre la

respuesta media para el conjunto de condiciones dado por

X’0 = [x10, x20,...., xk0]

Aumentamos las condiciones sobre las x por el número 1 a fin de facilitar el

uso de la notación matricial. Como en el caso k = 1 si hacemos la suposición

adicional de que los errores son independientes y se distribuyen de forma

normal, entonces las Bj son normales, con media, varianzas y con varianzas.

también está normalmente distribuida y es, de hecho, un estimador

insesgado para la respuesta media sobre el que intentamos unir los

intervalos de confianza. La varianza de escrita en notación matricial

simplemente como función de , (X'X)1, y el vector de condición x’0, es

Page 25: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Si esta expresión se expande para un caso dado, digamos k = 2, se ve

fácilmente que explica de manera apropiada las varianzas y covarianzas de

las Bi. Después de reemplazar por s2, el intervalo de confianza de 100(1

— α)% sobre | x10, x20,...., xk0 . se puede construir a partir de la estadística:

que tiene una distribución t con n — k — 1 grados de libertad.

Intervalo

de

confianza

para:

| x10,

x20,...., xk0

Un intervalo de confianza de (1 — α)100% para la respuesta media |

x10, x20,...., xk0 es

donde t /2 es un valor de la distribución t con n-k grados de libertad.

La cantidad a menudo se llama error estándar de predicción y

por lo general aparece en el impreso de muchos paquetes de regresión para

computadora.

Ejemplo 1

Con el uso de los datos del ejemplo 1 correspondiente al "Modelo de

regresión lineal con el uso de matrices", construya un intervalo de confianza

de 95% para la respuesta media cuando x1 = 3%, x2 = 8%, y x3 = 9%.

Page 26: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

SOLUCIÓN

De la ecuación de regresión del ejemplo 1 correspondiente al "Modelo de

regresión lineal con el uso de matrices", el porcentaje estimado de

sobrevivencia cuando x1 = 3%, x2 = 8%, y x3 = 9% es

A continuación encontramos que:

Con el uso del cuadrado medio del error, s2 = 4.298 o s = 2.073, y de la tabla

A.4, vemos que t0.025 = 2.262 para 9 grados de libertad. Por tanto, un

intervalo de confianza de 95% para el porcentaje medio de sobrevivencia

para x1 = 3%, x2 = 8%, y x3= 9% está dado por

o simplemente

.

Como en el caso de la regresión lineal simple, necesitamos hacer una clara

distinción entre el intervalo de confianza de la respuesta media y el intervalo

de predicción sobre una respuesta observada. Esta última proporciona un

Page 27: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

límite dentro del cual podemos decir con un grado de certeza preestablecido

que caerá una nueva respuesta observada.

Un intervalo de predicción para una sola respuesta pronosticada se

establece de nuevo al considerar las diferencias de la variable

aleatoria .

Se puede mostrar que la distribución muestral es normal con media

y varianza

De esta manera el intervalo de predicción de (1 — α)100% para un solo

valor de predicción y0 se puede construir a partir de la estadística

que tiene una distribución t con n – k – 1 grados de libertad.

Intervalo

de

predicció

n para y0

Un intervalo de predicción de (1-α)100% para una sola

respuesta y0 está dado por:

donde tα/2 es un valor de la distribución t con n – k –1

grados de libertad.

Page 28: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

PREDICCION.

Existen varias razones para construir una regresión lineal. Una, por

supuesto, es predecir valores de respuesta a uno o mas valores de la

variable independiente. En este aparte nos enfocamos en los errores

asociados con la predicción.

La ecuación ŷ= a +bx se puede usar para predecir o estimar la respuesta

media µyןxס en x = xo no es necesariamente uno de los valores

preseleccionados, o se puede utilizar para predecir un solo valor ỵo de la

variable Yo cuando x = xo. Esperaríamos que el error de predicción fuese

mas alto en el caso de un solo valor predicho en el caso donde se predice

una media. Esto, entonces, afectara el ancho de nuestros intervalos para

valores que se predicen.

Suponga que el experimentador desea construir un intervalo de confianza

para µyןxס. Utilizaremos el estimador puntual Ŷo = A + Bxo para estimar

µyןxס. = + se puede mostrar que la distribución muestral de Ŷo es

normal con media:

Y varianza:

La ultima se sigue del hecho que Cov(Ŷ, B) = 0. De esta forma el intervalo

de confianza de (1 - )100% sobre la respuesta media µyןxס. Se puede

construir a partir de la estadística :

Page 29: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Que tiene una distribución t con n – 2 grados de libertad

Intervalo de confianza para µyןxס.:

CORRELACION

Hasta este punto hemos supuesto que la variable de regresión

independiente x es una variable física o científica pero no una variable

aleatoria. De hecho, en este contexto , x a menudo se llama variable

matemática, que, en el proceso de muestreo, se mide con un error

insignificante. En muchas aplicaciones de las técnicas de regresión es mas

realista suponer que X y Y son variables aleatorias y que las mediciones {(Xi,

Yi) ; i= 1, 2, ..., n} son observaciones de una población que tiene la función

de densidad conjunta f(x, y). Consideremos el problema de medir la relación

entre las dos variables X y Y. Por ejemplo, si X y Y representan la longitud y

circunferencia de una clase particular de hueso en el cuerpo de un adulto,

podemos realizar un estudio antropológico para determinar si los valores

grandes de X se asocian con valores grandes de Y, y viceversa. El análisis

de correlación intenta medir la fuerza de tales relaciones entre dos variables

por medio de un solo numero llamado coeficiente de correlación.

Page 30: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

En En teoría a menudo se supone que la distribución condicional f(y x) de

Y, para valores fijos de X, es normal con una media µyןx = + y

varianza ²yןx = ² y X también se distribuye con normalmente con µx y

varianza ²x. La densidad conjunta de X y Y es entonces:

Donde X es ahora una variable aleatoria independiente del error aleatorio E.

Como la media del error aleatorio E es cero, se sigue que:

Al sustituir para y ² en la expresión anterior para f( x, y), obtenemos la

distribución normal bivariada:

La constante (rho) se llama coeficiente de correlación poblacional y juega

un papel importante en muchos problemas de análisis de datos de dos

variables. El valor de es 0 cuando = 0 , que resulta cuando en esencia

no hay una regresión lineal; es decir, la línea de regresión es horizontal y

cualquier conocimiento de X no es de utilidad para predecir Y. Como

debemos tener ²y ², y ² 1 por ello -1 1. Los valores de =

Page 31: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

1 solo ocurren cuando ² = 0, en cuyo caso tenemos una relación lineal

perfecta entre las dos variables. de esta manera un valor de igual a +1

implica una relación lineal perfecta con una pendiente positiva, mientras que

un valor de igual a –1 resulta de una relación lineal perfecta con pendiente

negativa. Se puede decir entonces que las estimaciones muéstrales de

cercanas a la unidad en magnitud implican una buena correlación o una

asociación lineal entre X y Y, mientras que valores cercanos a cero indican

poca o ninguna correlación.

Se debe señalar que en estudios de correlación,

como en problemas de regresión lineal, los resultados que se obtienen solo

son tan buenos como el modelo que se supone. En las técnicas de

correlación que aquí se estudian se supone una densidad normal bivariada

para las variables X y Y, con el valor medio de Y en cada valor x linealmente

relacionado con x. Para observar la conveniencia de la suposición de

linealidad, a menudo es útil una graficación preliminar de los datos

experimentales. Un valor del coeficiente de correlación muestral cercano a

cero resultara de datos que muestren un efecto estrictamente aleatorio como

se indica en la figura a :

Page 32: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

en donde se puede observar poca o ninguna relación causal. Es importante

recordar que el coeficiente de correlación entre dos variables es una media

de su relación lineal, y que un valor de r = 0 implica una falta de linealidad

y no una falta de asociación. Por ello, si existe una fuerte relación cuadrática

entre X y Y como se indica en la figura b, podemos aun obtener una

correlación cero que indique una relación no lineal.

formula del calculo de r

SUPUESTOS DE MODELO DE REGRESIÓN LINEAL

Se refiere a una serie de condiciones que deben darse para garantizar

la validez del modelo.

Linealidad

La ecuación de regresión lineal adopta una forma particular, en

concreto la variable dependiente es la suma de un conjunto de elemento: el

origen de la recta, una combinación lineal de variables independientes o

Page 33: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

predictoras y los residuos, el incumplimiento del supuesto de linealidad suele

denominarse error especificación.

Algunos ejemplos son omisión de variables independientes importante,

inclusión de variable independientes y la irrelevantes no es lineal (la relación

entre la variables independientes y la dependiente no es lineal) parámetros

cambiantes (los parámetros no permanecen constantes durante el tiempo

que dura la recogida de datos), no adivitidad (el efecto de algunas variable

independientes es sensible a los niveles de alguna otra variable

independiente.

Independencia

Los residuos son independientes entre si, es decir los residuos constituyen

una variable aleatoria (recordemos que los residuos son las diferencias entre

los valores observados y los pronosticados) Es frecuentes encontrarse con

residuos autocorrelacionados cuando se trabaja con series temporales.

Homocedasticidad

Para cada valor de la variable independiente (o combinación de valores de

las variables independientes), la varianza de los residuos es constante.

La homocedasticidad se presenta en un modelo cuando los errores

presentan en todas las observaciones de la variable endógena la misma

varianza. Dado que hablamos de varianza, la homocedasticidad es un

concepto estadístico.

Un modelo estadístico relaciona el valor de una variable a predecir con el de

otras. Si el modelo es insesgado, el valor predicho es la media de la variable

a predecir. En cualquier caso, el modelo nos da una idea del valor que

tomará la variable a predecir.

Por simplificar el análisis, supongamos que la variable a predecir es escalar -

la llamaremos y que la explicamos mediante un conjunto de variables que

Page 34: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

unimos en el vector . El valor predicho por el modelo lo representaremos

por . El error cometido por el modelo viene dado por:

Este error es una variable aleatoria: tomará un valor distinto cada vez que

usemos el modelo. Hablamos de homocedasticidad si el error cometido por

el modelo tiene siempre la misma varianza. En particular, si el modelo es

homocedástico, el valor de las variables explicativas no afectará a la

varianza del error.

La homocedasticidad es una propiedad fundamental del modelo de regresión

lineal general y está dentro de sus supuestos clásicos básicos.

Se dice que existe homocedasticidad cuando la varianza de los errores

estocásticos de la regresión es la misma para cada observación i (de 1 an

observaciones), es decir:

donde es un escalar constante para todo i. Lo que significaría que habría

una distribución de probabilidad de idéntica amplitud para cada variable

aleatoria.

Normalidad

Para cada valor de la variable independiente (o combinación de

valores de las variables independientes), los residuos se distribuyen

normalmente con media cero.

No-colinealidad

No existen relación lineal exacta entre ninguna de las variables

independientes, el incumplimiento de este supuesto da origen exacta entre

Page 35: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

ninguna de las variables independientes, el incumplimiento de este supuesto

da origen colinealidad o multicolinealidad.

Análisis de regresión lineal mediante SPSS

Muchas de las investigaciones se dedican a estudiar variables de

manera tal que pueda determinarse la existencia de cierta relación entre

ellas con el fin de realizar a cabo explicaciones más precisas sobre la

naturaleza de cierto fenómeno.

La regresión lineal estima los coeficientes de la ecuación lineal, con

una o más variables independientes, que mejor prediga el valor de la

variable dependiente. Por ejemplo, puede intentar predecir el total de ventas

anuales de un vendedor (la variable dependiente) a partir de variables

independientes tales como la edad, la formación y los años de experiencia.

Ejemplo. ¿Están relacionados el número de partidos ganados por un equipo

de baloncesto en una temporada con la media de puntos que el equipo

marca por partido? Un diagrama de dispersión indica que estas variables

están relacionadas linealmente. El número de partidos ganados y la media

de puntos marcados por el equipo adversario también están relacionados

linealmente. Estas variables tienen una relación negativa. A medida que el

número de partidos ganados aumenta, la media de puntos marcados por el

equipo adversario disminuye. Con la regresión lineal es posible modelar la

relación entre estas variables. Puede utilizarse un buen modelo para

predecir cuántos partidos ganarán los equipos.

Estadísticos. Para cada variable: número de casos válidos, media y

desviacióntípica. Para cada modelo: coeficientes de regresión, matriz de

correlaciones,correlaciones parciales y semiparciales, R multiple,

Rcuadrado, Rcuadrado corregida, cambio en Rcuadrado, error típico de la

estimación, tabla de análisis de varianza, valores pronosticados y residuos.

Además, intervalos de confianza al 95% para cada coeficiente de regresión,

Page 36: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

matriz de varianzas-covarianzas, factor de inflación de la varianza,

tolerancia, prueba de Durbin-Watson, medidas de distancia (Mahalanobis,

Cook y valores de influencia), DfBeta, DfAjuste, intervalos de pronóstico y

diagnósticos por caso.

Introducción de datos para análisis de regresión simple

A continuación se muestra paso a paso los comandos para realizar análisis

de regresión simple en SPSS.

Los siguientes datos corresponden a los resultados de una

investigación donde se observa la existencia de dos variables x ,y

donde (x) corresponde a la duración de la cosecha de porotos de soya

en días y (y) corresponde al rendimiento de la cosecha en toneladas

por hectárea:

Se requiere estimar la recta de regresión lineal

(A) Paso 1

Al abrir el programa se nos muestra en la pantalla “Editor de datos”,

selecciona Introducir datos

Page 37: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Figura 1

Paso 2

Introduce los datos de las variables de investigación en la hoja vista de

variables de esta forma:

Figura 2

Paso 3

Introduce los datos de la tabla de resultados en SPSS como se muestra

arriba en la Tabla de resultados de la investigación en la hoja vista de

Page 38: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

datos. Después de la entrada de datos en la pantalla SPSS debería

parecerse a la figura 3.

Figura 3

entrada de datos del valor de los valores de x,y

Paso 4

Selecciona “Analizar” de la Barra de Herramientas de SPSS, al mostrarse el

cuadro de diálogo selecciona “Regresión”, se abrirá un listado de los tipos de

regresión, se debe seleccionar “Lineal” asi:

Figura 4

Page 39: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Paso 5

Se introducen los datos correspondientes a la variable dependiente e

independiente de la tabla de resultados:

Figura 5

Paso 6

Al seleccionar cual es la variable dependiente y la independiente se activará

los controles del lado derecho del panel; selecciona “Aceptar”

Figura 6

Page 40: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Paso 7

Seguidamente se mostrará la pantalla “Resultados”, donde se pódrán

observar todos los estadísticos correspondientes al análisis de regresión de

los datos introducidos

Figura 7

Figura 8

Page 41: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Figura 9

Correlación

La correlación trata de establecer la relación o dependencia que

existe entre las dos variables que intervienen en una distribución

bidimensional.Es decir, determinar si los cambios en una de las

variables influyen en los cambios de la otra. En caso de que suceda,

diremos que las variables están correlacionadas o que

hay correlación entre ellas.

Tipos de correlación

Correlación directa

La correlación directa se da cuando al aumentar una de las

variables la otra aumenta.La recta correspondiente a la nube de

puntos de la distribución es una recta creciente.

Page 42: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Correlación inversa

La correlación inversa se da cuando al aumentar una de las

variables la otra disminuye.La recta correspondiente a la nube de

puntos de la distribución es una recta decreciente.

Correlación nula

La correlación nula se da cuando no hay dependencia de ningún

tipo entre las variables.En este caso se dice que las variables son

incorreladas y la nube de puntos tiene una forma redondeada.

Page 43: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Propiedades de la correlación.

El coeficiente de correlación no varía al hacerlo la escala de

medición. Es decir, si expresamos la altura en metros o en

centímetros el coeficiente de correlación no varía.

El signo del coeficiente de correlación es el mismo que el de la

covarianza.

Si la covarianza es positiva, la correlación es directa.

Si la covarianza es negativa, la correlación es inversa.

Si la covarianza es nula, no existe correlación.

El coeficiente de correlación lineal es un número real comprendido

entre −1 y 1.

−1 ≤ r ≤ 1

Si el coeficiente de correlación lineal toma valores cercanos a −1 la

correlación es fuerte e inversa, y será tanto más fuerte cuanto más

se aproxime r a −1.

Si el coeficiente de correlación lineal toma valores cercanos a 1 la

correlación es fuerte y directa, y será tanto más fuerte cuanto más

se aproxime r a 1.

Page 44: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Si el coeficiente de correlación lineal toma valores cercanos a 0, la

correlación es débil.

Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o

decreciente. Entre ambas variables hay dependencia funcional.

Coeficiente de Correlación “r” de Pearson.

Definición.

El coeficiente de correlación de Pearson (también llamado coeficiente

de correlación del producto-momento) es el índice numérico máscomún que

mide la relación lineal entre dos variables aleatorias cuantitativas (escala

mínima de intervalo) y se representa con el símbolo “r”. Se especifica

"variables relacionadas linealmente". Esto significa que puede haber

variables fuertemente relacionadas, pero no de forma lineal, en cuyo caso no

proceder a aplicarse la correlación de Pearson. Por ejemplo, la relación entre

la ansiedad y el rendimiento tiene forma de U invertida; igualmente, si

relacionamos población y tiempo la relación será de forma exponencial.

El coeficiente de correlación de Pearson es un índice de fácil ejecución e,

igualmente, de fácil interpretación. Sus valores absolutos oscilan entre 0 y 1.

A diferencia de la covarianza, la correlación de Pearson es independiente de

la escala de medida de las variables.

De manera general, podemos definir el coeficiente de correlación de

Pearson como un índice que puede utilizarse para medir el grado de relación

de dos variables siempre y cuando ambas sean cuantitativas.

Fórmula Matemática para el cálculo del coeficiente de correlación.

El coeficiente de correlación “r” de Pearson se define mediante la siguiente

fórmula:

Page 45: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Donde:

r =coeficiente de correlación de Pearson.

xy = sumatoria de los productos de ambas variables.

x = sumatoria de los valores de la variable independiente.

y = sumatoria de los valores de la variable dependiente.

x2 = sumatoria de los valores al cuadrado de la variable independiente.

y2 = sumatoria de los valores al cuadrado de la variable dependiente.

N = tamaño de la muestra en función de parejas

Para datos no agrupados se calcula aplicando la siguiente ecuación:

Para datos agrupados, el coeficiente de Correlación de Pearson se calcula aplicando la siguiente fórmula:

Donde

n = número de datos.

f = frecuencia de celda.

fx = frecuencia de la variable X.

Page 46: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

fy = frecuencia de la variable Y.

dx = valores codificados o cambiados para los intervalos de la variable X,

procurando que al intervalo central le corresponda dx = 0, para que se hagan

más fáciles los cálculos.

dy = valores codificados o cambiados para los intervalos de la variable X,

procurando que al intervalo central le corresponda dy = 0, para que se hagan

más fáciles los cálculos.

Coeficiente de determinación

En un modelo de regresión lineal el coeficiente de determinación se

interpreta como el porcentaje de variación de la variable dependiente El

Coeficiente de Determinación, se calcula elevando al cuadrado el coeficiente

de correlación, luego se multiplica por 100, para expresar el resultado como

porcentaje.

En otras palabras, el Coeficiente de Determinación, indica la proporción o

porcentaje, en que la variable "Y"(variable dependiente) debe su variación a

la variable "X"(variable independiente).

El coeficiente de determinación, también denominado“r2” muestra la

proporción de la variación total en la variable dependiente Y que está

explicada por o se debe a la variación en la variable independiente X. El

coeficiente de determinación es el cuadrado del coeficiente de correlación, y

toma valores de 0 a 1.

Ejemplo: después de haber realizado la recta de regresión lineal:

Una nube de puntos que se agrupa en torno a una recta imaginaria

nos justifica el estudio de la regresión lineal entre las variables.

Normalmente, la variable explicativa no explica (valga la redundancia) al

100% los resultados que se observan en la variable explicada.

Page 47: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

El único caso en el que una variable explica al 100% a la otra variable

es aquel donde los puntos de la nube formen una recta. En ese caso, cada

valor de X nos da el valor exacto de Y. Pero ese no es el caso general.

Vamos a cuantificar la calidad de la explicación de Y por X mediante el

coeficiente de determinación.

Los datos de ambas variables tienen una varianza. No nos vamos a

interesar por la varianza de la X (independiente), pero sí por la de Y, por

estar influenciada por la otra variable. La varianza de Y está generada, de

una parte, por los datos de X (es decir, por la varianza), y de otra parte por

causas desconocidas (a no ser que los datos formen una línea recta).

El coeficiente de determinación va a ser el % de varianza de Y que se

puede explicar por X, y se le suele llamar calidad del ajuste, porque valora lo

cerca que está la nube de puntos de la recta de regresión (o dicho de otro

modo, lo ajustada que está la nube de puntos a la recta de regresión).

Como yi = y*i + ei, desarrollando la expresión de la varianza de Y se

puede llegar a que:

.exp.var

2

.exp.var

2

2

2

l i cno

e

porXl

x

xy

y ss

ss

y por tanto, el % de varianza de Y explicada por X es:

1002

2

2

y

x

xy

s

s

s

que resulta ser

10022

2

yx

xy

ss

s

, es decir, el coeficiente de correlación lineal

r definido en el capítulo anterior, elevado al cuadrado y multiplicado por 100.

Es por ello que al coeficiente de determinación se le llama R2, es decir

Page 48: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

10022

22

yx

xy

ss

sR

Si R2 = 86% para unas variables X e Y, podemos decir que la calidad

del ajuste es bastante alta, aunque no sabemos si la recta de regresión es

creciente o decreciente. Otro ejemplo: si conocemos el coeficiente de

correlación lineal, r = - 0.77, entre dos variables X e Y, ya sabemos que la

recta de regresión es decreciente (por el signo negativo de r), y calculando

R2 = r2 · 100 = 59.29% tenemos una calidad de ajuste media (no es muy

pobre, pero tampoco se puede calificar de buena).

Introducción a la predicción

Generalmente se refiere a la estimación de series temporales o datos

instantáneos. Si bien es cierto, conocer el futuro es algo que parece

imposible, sin embargo existen procedimientos estadísticos que a través de

cálculos matemáticos nos permiten acercarnos al futuro, siempre y cuando

se tenga conocimiento pleno de lo que se quiere predecir.

Son muchas las predicciones de tipo sociólogo, o económico, que

pueden hacerse a partir de la aplicación exclusiva de razonamientos

probabilísticos a conjuntos de datos objetivos como son, por ejemplo, los de

naturaleza demográfica.

Las predicciones estadísticas, difícilmente hacen referencia a sucesos

concretos, pero describen con considerable precisión en el comportamiento

global de grandes conjuntos de sucesos particulares. Son predicciones que,

en general, no acostumbran resultar útiles.

Para saber quien, de entre los miembros de una población importante,

va a encontrar trabajo o a quedarse sin él; o en cuales miembros va a verse

aumentada o disminuida una familia concreta en los próximos meses. Pero

que, en cambio puede proporcionar estimaciones fiables del próximo

Page 49: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

aumento o disminución de la taza de desempleo referido al conjunto de la

población; o de la posible variación de os índices de natalidad o mortalidad.

Con un modelo matemático, determinístico o probabilístico podemos

derivar consecuencias continuando su lógica interna y en esta medida,

efectuar predicciones. Estas siempre están sujetas a la validez del modelo.

En el caso de los modelos probabilísticos, además se debe tener una idea

del grado de incertidumbre en predicciones individuales.

La expresión de la visión determinística: si conocemos perfectamente

el comportamiento de todas las partículas que existe en el universo,

podremos predecir el futuro (Laplace).

Matriz de Correlación.

La matriz de correlaciones es un instrumento muy útil para priorizar

los procesos con base en su valoración del impacto y repercusión con el

usuario del proceso. Una matriz de correlación es una tabla de doble entrada

para A B y C, que detalla una lista multivariable horizontalmente y la misma

lista verticalmente y con el correspondiente coeficiente de correlación

llamado r'

Ya conocemos que para determinar la correlación entre variables se

realizan repetidos procesos matemáticos hasta obtener los resultados los

cuales son mostrados en matrices de correlación, por lo tanto se requiere de

un análisis factorial. El cual se puede utilizar para estudiar series numéricas

o de valores cuantitativos para un determinado número de variables

cuantitativas y mayor de dos. Por ejemplo, tres características o más para

series numéricas con igual número de datos.

Estas variables independientes o explicativas están dispuestas ya en

una matriz de correlación, que es una tabla de doble entrada para A B y C,

ya explicada anteriormente, que muestra una lista multivariable

horizontalmente representada de igual forma verticalmente y con el

correspondiente coeficiente “r” o la relación entre cada pareja en cada celda,

Page 50: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

expresada con un número que va desde 0 a 1. El modelo mide y muestra la

interdependencia en relaciones asociadas o entre cada pareja de variables y

todas al mismo tiempo. En general la matriz de correlación además de

mostrar todos los posibles coeficientes de correlación simple entre todas las

variables:

Es útil para analizar, localizar la correlación de las variables

independientes.

Se muestra que tan fuerte están correlacionadas las variables

independientes con las dependientes.

Es útil para verificar si existe correlación entre las variables

independientes multicolinealidad lo cual distorsionaría el error

estándar y llevaría a conclusiones incorrectas (se tolera entre -0.7 y

0.7) de ser mayor se elimina una variable y se recalcula la ecuación

de regresión.

Ejemplo

Se han aplicado los resultados de una correlación de datos entre tres

variables

Variables A B C

A

B 0,3

C 0,75 0,95

La mejor proporción es B C o C B y desde .95 ya es alta. Los

coeficientes lineales, tal como se localizan las parejas de datos en las series,

integran un cuadrado en la tabla o matriz de correlación, los automatizamos

con un programa de estadística para ordenador, que tenga una capacidad

de utilizar 8 o más variables para series de 500 o más datos cada una.

Page 51: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Donde “r” es igual a la suma de los productos de cada pareja de datos

y dividido por el producto del número de datos por la desviación estándar de

cada variable o serie de datos. Para hacer más potente el análisis factorial

los programas estadísticos incluyen otros análisis multivariables como es el

análisis de pautas o camino, pathanalysis, y otros coeficientes de correlación

como es el de rangos o la correspondencia en el orden entre cada pareja en

las series y se distingue por ro.

Puede emplearse esta técnica para muchos propósitos como es la

Escala de actitud o Prioridades sociales. Además un análisis diacrónico de

triangulación o varias aplicaciones en continuos períodos de tiempo y con

diferentes métodos para cada aplicación.

La representación gráfica de la matriz de correlación es una línea

recta diagonal en los ejes cartesianos en los que las abscisas son las

variables y los coeficientes son una nube de puntos. El test, que está

utilizando un coeficiente de correlación o asociación, no es inferencial o

predictor, ya que es no-paramétrico o libre de probabilidad, y es descriptivo,

no causal. Un test del nivel significativo de los coeficientes de correlación

valida la prueba.

Las tablas de asociación 2 x 2 es el caso más elemental o simple de

variables dicotomizadas, que igualmente miden o describen la significación

estadística. A veces las representaciones gráficas son más descriptivas de la

asociación entre variables.

Tablas de contingencia.

Estas tablas se emplean para registrar y analizar la relación entre dos

o más variables, habitualmente de naturaleza cualitativa (nominales u

ordinales).

Supóngase que se dispone de dos variables, la primera el sexo

(hombre o mujer) y la segunda recoge si el individuo es zurdo o diestro. Se

Page 52: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

ha observado esta pareja de variables en una muestra aleatoria de 100

individuos Cuando se trabaja con variables categóricas los datos suelen

organizarse en tablas de doble entrada en las que cada entrada representa

un criterio de clasificación (una variable categórica) como resultado de esta

clasificación, las frecuencias (el numero de porcentaje de casos) aparecen

organizadas en casillas que contienen información sobre la relación

existente entre ambos criterios.

Pueden utilizarse dos criterios de clasificación para generar una tabla

de contingencia bidimensional y también se puede utilizar tres o más

criterios, lo que nos llevaría a obtener tablas tridimensionales,

cuatridimensionales, etc. Los programas estadísticos como el SPSS

permiten generar tablas de contingencia con cualquier número de

dimensiones.

Ejemplo:

Procedimiento para utilizar tablas de contingencia en el SPSS.

Seleccionar la opción Estadísticos—Tablas de contingencia del menú

Analizar para acceder al cuadro de dialogo Tablas de contingencia. La

lista de variables del archivo muestra todas las variables numéricas y

de cadena corta del archivo. Para obtener una tabla de contingencia:

- Trasladar una variable categórica a la lista de filas, otra a la

lista Columnas y pulsar el botón Aceptar.

Mostrar gráficos de barras agrupadas: activando esta opción, el visor

de resultados muestra un grafico de barras con las categorías de la

variable fija en el eje de abscisas y la categoría de la variable

Administrativo Seguridad Directivo Total

hombre 157 27 74 258

mujer 206 10 216

363 27 84 474Total

sexo

Categoria laboralTabla de contingencia

Page 53: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Columna anidadas dentro de las categorías de la variable fila. Cada

barra por tanto, representa una casilla y su altura viene dada por la

frecuencia de la casilla.

Suprimir tablas: esta opción puede activarse si no se desea obtener

ninguna tabla de contingencia. Esto tendría sentido si solo

estuviéramos interesados en obtener un grafico de barras o alguno de

los estadísticos o medidas de asociación disponibles en el

procedimiento tablas de contingencia.

Matrices de decisionesestadísticas

Un procedimiento puede ser una secuencia de acciones completamente

determinada o puede incorporar toma de decisiones basadas en condiciones

alternativas. Los métodos de documentación de la lógica decisional son:

1)Matricial: Se puede utilizar una matriz para presentar parejas de

condiciones y el resultado de una acción (decisión).

2)Tabla de decisión: Documenta las reglas que seleccionan una o más

acciones basadas en una o más condiciones de un conjunto posible de

condiciones. Es precisa y compacta.

Técnicas de la teoría de decisión estadística.

Son técnicas que evalúan matemáticamente los resultados

potenciales de acciones alternativas en una situación de decisión dada.

Todas las alternativas y resultados se asumen como conocidos, y el decisor

tiene como objetivo la maximización de utilidades. Cómo métodos de

presentar los datos en la teoría de decisión existen la matriz de pagos y el

árbol de decisión. El trabajar con matrices de pago y árboles de decisión

requiere el uso de las estimaciones de probabilidad. Las probabilidades

Page 54: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

objetivas basadas en situación de analogías generalmente no están

disponibles, de tal suerte que las probabilidades utilizadas son subjetivas. La

ventaja de la técnica es que requiere el uso explícito de las probabilidades

subjetivas en lugar de utilizarlas sin hacerlas explícitas.

Todas las técnicas para adoptar decisiones comprender unos

elementos comunes que permiten mostrar de forma cuantitativa la valoración

en términos de beneficios y/o pérdidas de las diferentes opciones que se

presentan

Generalidades de La matriz de decisiones:

Presenta en filas y columnas al conjunto de elementos que se emplea

para decidir

Las estrategias (E1, E2,…, En) se presentan en las filas de la matriz y

son las opciones que el sujeto decisor contempla como realizables.

Los estados de la naturaleza (N1, N2,…, Nn) son los posibles

escenarios o variables externas del entorno queel sujeto no puede

controlar. No muestran necesariamente situaciones de la naturaleza a

pesar de su nombre.

Los resultados previstos (Rij) que dependen de cada estrategia

combinada con cada uno de los posibles estados de la naturaleza.

Las probabilidades (Pj) de que ocurra cada estado de la naturaleza,

como norma en total deben sumar

MATRIZ DE

DECISIONES

ESTADOS DE LA

NATURALEZA N1 N2 NJ

E1 R11 R12 R1J

E2 R21 R22 R2J

E3 R31 R32 R3J

P1 P2 PJ

∑PJ=1

PROBABILIDAD

ESTRATEGIAS

Page 55: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

La forma de elegir varía en función de la información de que disponga

el sujeto decisor. Salvo el caso improbablede información completa y

perfecta, en un ambiente de certeza y, por lo tanto, los estados de la

naturaleza se reducirían a uno con probabilidad igual a uno, los demás

ambientes que se presentan se sitúan entre el riesgo y la incertidumbre.

El riesgo se produce cuando se conocen todos los estados de la

naturaleza que se pueden dar y sus probabilidades de que ocurrany un

ambiente de incertidumbre es aquel en el cual desconocemos las

probabilidades asociadas a cada suceso.

Alfa de Cronbach con SPSS

El Alfa de Cronbach es un índice de consistencia interna que toma

valores entre 0 y 1 que sirve para comprobar si el instrumento que se está

evaluando recopila información defectuosa y por tanto nos llevaría a

conclusiones equivocadas o si se trata de un instrumento fiable que hace

mediciones estables y consistentes.

El Alfa es por tanto un coeficiente de correlación al cuadrado que, a

grandes rasgos, mide la homogeneidad de las preguntas promediando todas

las correlaciones entre todos los ítems para ver que, efectivamente, se

parecen.

Su interpretación será que, cuanto más se acerque el índice al

extremo 1, mejor es la fiabilidad, considerando una fiabilidad respetable a

partir de 0,80.

Page 56: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Confiabilidad

Se puede definir como la estabilidad o consistencia de los resultados

obtenidos, es decir, se refiere al grado en que la aplicación repetida del

instrumento, al mismo sujeto u objeto, produce iguales resultados

Para explicar el alfa de Cronbach, consideraremos una situación de

investigación en la que se quiere evaluar el grado de consistencia interna de

las puntuaciones de una serie de indicadores (ítems

delcuestionario). Suponga que el grupo objetivo de este estudio es que los

estudiantes de la Maestría en gerencia General de la UDO de la corte de El

Tigre en un curso sobre la elaboración del cuestionario. Dos Elementos se

miden,

Valor de la tarea para el aprendizaje de Estadística Financiera

Ansiedad hacia el aprendizaje de Estadística Financiera.

La primera variable de interés es valor de la tarea y representa el grado en

que los estudiantes creen que la tarea en cuestión, en este caso el

aprendizaje de la Estadística Financiera, es valiosa, importante o relevante

por cualquier razón. Los teóricos que estudian valor de la tarea sugieren que

este item puede estar compuesto por cuatro dominios:

1 100%

de confiabilidad en la medición (no hay error).

0 0%

de confiabilidad en la medición

(la medición está contaminada de error).

CONFIABILIDAD

Muy baja Baja Regular Aceptable Elevada

Page 57: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

El costo (esfuerzo necesario para completar la tarea de aprender

Estadística Financiera)

El valor de realización (nivel de importancia que uno pone en el

aprendizaje de la Estadística Financiera),

El valor de uso (nivel en el que la Estadística Financiera se considera

que sea relevante a las actividades actuales o futuras),

El valor intrínseco (el nivel de interés y el disfrute de una experiencia

de aprendizaje de la Estadística Financiera).

Para evaluar el nivel de valor de la tarea que el lugar de los estudiantes en el

aprendizaje de la Estadística Financiera, los ítems del cuestionario se

utilizan las siguientes:

Tabla 1

Elementos de tareas de valor

Nada en

absoluto

o sólo

muy

mínimo

En un

pequeño

grado

En un

grado

moderado

En un grado

considerable

En gran

medida,

1. ¿Hasta qué punto

encuentra el aprendizaje

de la Estadística

Financierainteresante?

1 2 3 4 5

2. ¿Qué nivel o grado de

importancia le da usted a

aprender la Estadística

Financiera?

1 2 3 4 5

3. ¿Qué tan útil cree usted

que la Estadística

Financierade ser para

1 2 3 4 5

Page 58: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

usted?

La segunda variable de interés es el nivel de ansiedad de los

estudiantes hacia el aprendizaje de la Estadística Financiera. Esta variable

se llama ansiedad y refleja el nivel de preocupación y la preocupación que

uno puede experimentar la hora de pensar sobre el aprendizaje de la

Estadística Financiera. La ansiedad sobre el aprendizaje de de la Estadística

Financiera puede consistir en el deterioro en el aprendizaje (perder el foco,

que se confunda), temor o preocupación (pensamientos de fracaso o

insuficiencia), y negativos manifestaciones fisiológicas (náuseas, sudoración,

dificultad para respirar, dolores de cabeza). Para evaluar la ansiedad, los

elementos se utilizan los siguientes:

Tabla 2

Elementos de ansiedad

Nada en

absoluto

o sólo

muy

mínimo

En un

pequeño

grado

En un

grado

moderado

En un grado

considerable

En gran

medida,

1. Cuando se piensa en el

aprendizaje de la

Estadística Financiera, en

qué grado usted comienza

a sentir síntomas físicos de

ansiedad o nerviosismo?

1 2 3 4 5

2. ¿En qué medida le

preocupa que el

aprendizaje de la

Estadística

1 2 3 4 5

Page 59: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Financierapuede ser difícil

para usted?

3. Al pensar en el

aprendizaje de conceptos

matemáticos y

estadísticos, en qué punto

cree usted pierde su

capacidad de

concentración?

1 2 3 4 5

Nota: Los seis elementos son simplemente para propósitos educativos

solamente. Ellos no han sido revisados o probados campo.

Supongamos que estos seis puntos se administran a un grupo de 10

estudiantes y las puntuaciones de cada uno de los elementos se presentan a

continuación en la Tabla 3. A la Tabla de Valores se añaden las letras de los

puntos 1, 2 y 3 para ayudar a identificar las puntuaciones de tareas de valor

y de la letra A, se añade a los artículos 4, 5, y 6 para ayudar a identificar las

puntuaciones de ansiedad. Por lo tanto, representa el punto de Tareas TV1

Valor 1 y A5 representa el punto de ansiedad 5.

Tabla 3

Resultados de la Tabla de Valores de 10 estudiantes

Estudiante TV1 TV2 TV3 A4 A5 A6

A 4 5 4 1 1 1

B 4 4 5 2 3 4

C 1 3 4 3 3 4

D 2 1 2 2 2 1

E 3 4 3 1 1 1

F 1 1 1 4 4 4

G 5 5 4 5 4 3

H 4 4 4 4 4 5

I 2 3 4 1 2 1

J 1 2 1 5 5 5

Page 60: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

En la Tabla 3 en cuenta que el primer estudiante, un elemento, calificado

TV1 un 4, el punto nominal de TV2 a 5, y el tema de TV3 un 4. Así que este

estudiante juzga el valor de la tarea de la EstadísticaFinanciera de ser

importante, o, el promedio de las calificaciones de este alumno en estos tres

items se encuentra entre una calificación de 4 "En gran medida" y una

calificación de 5 "En gran medida." Sin embargo, en términos de ansiedad se

produce como resultado de tener que aprender la EstadísticaFinanciera, un

estudiante proporcionó una calificación de 1 a los tres elementos que sugiere

poca o ninguna ansiedad para este estudiante.

2. SPSS: introducción de datos y comandos de confiabilidad

Con estos datos ahora cómo se calcula en el alfa de Cronbach SPSS para

ambas escalas, valor de la tarea y la ansiedad. A continuación se muestran

paso a paso los comandos para calcular el alfa de Cronbach en SPSS.

(A) Paso 1

Introduce los datos en SPSS como se muestra arriba en la Tabla 3. Después

de la entrada de datos en la pantalla SPSS debería parecerse a la figura 1.

Figura 1

entrada de datos del valor de la tarea y artículos de ansiedad para cada

uno de diez estudiantes

Page 61: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

(B) Paso 2

Seleccione "Analizar"

Seleccione "Escala"

Seleccione "Análisis de Confiabilidad"

La figura 2 muestra cómo la pantalla actual debe aparecer.

Figura 2

Mando análisis de la fiabilidad

Page 62: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

(C) Paso 3

Una ventana pop-up aparecerá para el análisis de la fiabilidad. En esta

ventana son dos cajas, una a la izquierda y uno a la derecha. La izquierda

contiene las variables o elementos, que se consignan en el programa SPSS

(TV1, TV2, etc), el cuadro de la derecha, que se denomina "elementos", es

donde uno mueve los elementos de la escala para la que se desea alfa de

Cronbach. Tenga en cuenta seleccionada son los tres elementos de las

tareas de valor en la Figura 3.

Figura 3

Análisis de Confiabilidad Ventana emergente

En la Figura 4, tenga en cuenta que los tres elementos de las tareas de

valor ahora aparecen en el cuadro de la derecha, el alfa de Cronbach se

calculó para los resultados de tareas de valor de estos tres elementos.

Importante: Si además se quiere obtener el alfa de Cronbach para los

elementos de ansiedad, se tendría que volver a ejecutar el análisis con sólo

los elementos de ansiedad que aparecen en los "Elementos" de la caja. Para

ejecutar el alfa de Cronbach con ambos conjuntos de elementos, valor de la

tarea y la ansiedad, sería un error porque esos seis puntos no están

diseñados para medir el mismo constructo y la alfa que resultaría sería

ininterrumpida.

Page 63: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

zFigura 4

Análisis de Confiabilidad Ventana emergente

(D) Paso 4

Seleccione las estadísticas deseadas para el análisis. Haga clic en el botón

"Estadísticas" (ver Figura 4). Una vez que se selecciona el botón, aparecerá

una ventana emergente con la etiqueta "Estadísticas" aparecerá. Esta

ventana se muestra en la Figura 5 a continuación. Nota en la Figura 5, la

marca de verificación junto a "Escala" y "Escala de si el artículo

eliminado." Las cajas deben ser seleccionados. Después de seleccionar

estas dos opciones, a continuación, haga clic en el botón "Continuar" para

volver al "Análisis de Confiabilidad" pop-up ventana que se muestra arriba en

la Figura 4, a continuación, haga clic en el botón "Aceptar" para ejecutar el

análisis.

Figura 5

Opciones de estadísticas para el análisis de confiabilidad

Page 64: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

3. Análisis de los resultados de Alfa de Cronbach

(A) alfa total

La figura 6 muestra a continuación algunos de los resultados obtenidos a

partir de SPSS. La flecha roja señala el alfa global de los tres elementos de

valor de la tarea. Como los resultados de la Figura 6 muestran, alfa total es

0.907, lo cual es muy elevada e indica una fuerte consistencia interna entre

los tres temas valor de la tarea. Esencialmente, esto significa que los

encuestados que tienden a seleccionar puntajes altos para un producto,

también han tendido a seleccionar altas puntuaciones de los demás, del

mismo modo, los encuestados que seleccionaron un bajo puntaje para un

elemento tienden a seleccionar las puntuaciones bajas de los elementos de

valor otras tareas. Por lo tanto, un elemento de valor de la tarea que le

permiten a uno predecir con cierta exactitud los resultados posibles para los

otros dos elementos de las tareas de valor. Si hubiera sido alfa bajo, esta

capacidad de proyección de valores de un elemento no sería posible.

Figura 6

Resultados estadísticos para el análisis de la fiabilidad (alfa global

resaltado)

Page 65: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

(B) Se ha corregido correlación ítem-total

La figura 7 indica la columna que contiene la "Corrección de correlación

ítem-total" para cada uno de los elementos.Esta columna muestra la

correlación entre un elemento de tareas de valor determinado y la suma de

puntuación de los otros dos elementos. Por ejemplo, la correlación entre el

elemento de tarea Valor 1 y la suma de los puntos 2 y 3 (es decir, el punto 2

punto + 3) es de r = 0,799. Esto significa que hay una correlación fuerte y

positiva entre las puntuaciones en el item uno (punto 1) y la puntuación

combinada de los otros dos (Items 2 y 3). Esta correlación permite

determinar el nivel de consistencia interna de las puntuaciones de un

elemento con las puntuaciones compuestas de todos los demás elementos

destinados a medir el mismo item. Si esta correlación es débil (de Vaus

sugiere nada menos que 0,30 es una correlación débil con fines de análisis

de elemento [de Vaus (2004), Suveys en la investigación social, Routledge,

p. 184]), luego que el tema debe ser removido y no se utiliza para formar una

Page 66: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

puntuación compuesta para la variable en cuestión. Por ejemplo, si la

correlación entre las puntuaciones correspondientes a la partida 1 y las

puntuaciones combinadas de los artículos 2 y 3 fue baja, por ejemplo r =

0,15, entonces cuando una puntuación compuesta, o la puntuación general,

de valor de la tarea se crea, hay que vamos a crear el compuesto utilizando

sólo los elementos 2 y 3 y pasar por alto las puntuaciones de la pregunta 1,

ya que no era consistente con los otros artículos. Esta decisión de eliminar

un elemento, sin embargo, no debe basarse exclusivamente en los

resultados del análisis de ítems - la teoría y la práctica también debe ser una

guía en cuanto a los elementos que debe ser retenido o eliminado.

Figura 7

Resultados estadísticos para el análisis de la fiabilidad (Corregido

correlación ítem-total)

(C) Alfa de Cronbach si el artículo eliminados

La figura 8 muestra el alfa de Cronbach que se produciría si un elemento

determinado se han eliminado. Al igual que la correlación ítem-total

presentado anteriormente en (b), esta columna de la información es valiosa

Page 67: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

para determinar qué elementos de entre un conjunto de elementos

contribuye a la alfa total. El valor presentado en esta columna representa el

valor de alfa si el elemento dado no se incluyeron. Por ejemplo, para el ítem

de tareas de valor 1, el alfa de Cronbach si el artículo 1 se han suprimido

caería del total global de .907 a .880. Desde alfa se reduciría con la

eliminación de TV1, este artículo parece ser útil y contribuye a la coherencia

global del valor de la tarea. Punto 3, sin embargo puede ser menos

valioso. Alfa de Cronbach aumentaría .907 a .911 si el artículo 3 se han

eliminado o no se utiliza para calcular una puntuación de tareas de valor

general. Así que este artículo debe ser eliminado y si el compuesto de tareas

de valor global de crearse sólo desde los puntos 1 y 2? En este caso, la

respuesta es no, una vez debe retener los tres puntos. ¿Por qué? Nótese en

primer lugar que el alfa no se incrementa en gran medida de suprimir el

punto 3. En segundo lugar, tenga en cuenta que sigue siendo el punto 3 se

correlaciona muy bien con el puntaje compuesto de las partidas 1 y 2, la

correlación ítem-total para el artículo 3 es 0.759). Desde supresión del punto

3 resultados en pocos cambios, y desde el punto 3 se correlaciona bien con

la combinación de los puntos 1 y 2, no hay ninguna razón estadística para

colocar el punto 3. En este caso, la teoría y la práctica debe ser una guía en

cuanto a si se debe quitar o mantener el número 3. Si la redacción del punto

3 es teóricamente importante para medir el valor de la tarea, a continuación,

el punto 3 debe permanecer en la formación de la partitura compuesta para

el valor de la tarea.

Figura 8

Resultados estadísticos para el análisis de la fiabilidad (alfa de

Cronbach si el artículo suprimido)

Page 68: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

4. La formación de combinación de los resultados

Cuando el análisis de la contribución de cada elemento es completa ---

análisis de elementos se ejecutan y volver a ejecutar cuando sea necesario

para considerar lo que sucede cuando los elementos se quitan --- entonces

es hora de avanzar hacia la creación de la partitura compuesta para la

construcción de que se trate . Por ejemplo, a partir del análisis anterior se

deduce que los tres elementos diseñados para medir el trabajo de tareas de

valor bien y contribuir a la fiabilidad global de valor de la tarea, así que todo

será retenido. Ahora se debe crear una banda sonora compuesta para llegar

a una medida de valor de la tarea de cada participante del estudio. A

continuación, en el Cuadro 4, son las puntuaciones de los tres elementos de

valor de la tarea de cada estudiante. Dos columnas se han añadido

Page 69: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

nuevas. El primero muestra cómo crear una puntuación total de valor de la

tarea, la segunda una puntuación media de valor de la tarea.

El cálculo de una puntuación compuesta de la media ofrece dos ventajas. En

primer lugar, la puntuación compuesta calcula a partir de la media retendrá

la escala original de medición, el cual, en este ejemplo, oscila entre 1 a

5. Dado que las puntuaciones medias se ven limitados dentro de la métrica

original, por lo tanto son más fáciles de interpretar, es decir, la puntuación

media se puede entender dentro de la escala original. Así, por ejemplo,

puntuación media alumno A es 4,33 lo que indica que las puntuaciones del

estudiante estaban en el extremo superior de la gama de respuestas

mientras que las respuestas del Estudiante D's promedio hacia el extremo

inferior de los resultados (cercana a 1). Una segunda ventaja con la media

es que proporciona puntuación correctamente escalado compuesto cuando

falta de datos se produce siempre que la media se divide por el número de

elementos que contribuyen y no el número total de elementos. La función de

media SPSS y la función de medio de Excel realizar este ajuste

automáticamente.

Combinación de los resultados son importantes porque reflejan el conjunto

total de las respuestas a los ítems diseñados para medir el valor de la tarea,

en este ejemplo. Análisis basado en las puntuaciones de los elementos

individuales serían menos fiables y válidos. Teniendo en cuenta esto, todos

los análisis adicionales para responder a las preguntas de investigación

sobre valor de la tarea se centrará en la calificación global. Así, por ejemplo,

si estaban interesados en la diferencia en el valor de la tarea entre hombres

y mujeres, se podría realizar el ANOVA o t-test con la Tarea de puntuación

media de Valor para cada estudiante (o, si se prefiere, la puntuación se

suman para tareas de valor ). Del mismo modo, si se quisiera saber si valor

de la tarea se relaciona con la ansiedad, se podría calcular la r de Pearson

entre las puntuaciones medias de valor de la tarea y los y las puntuaciones

medias para la ansiedad --- r de Pearson se calcula en base a las dos

variables compuestas, una de Tareas de valor y una para la ansiedad.

Page 70: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Tabla 4

Resultado compuesto de valor de la tarea

Estudiante TV1 TV2 TV3

Opción 1 ---

Puntaje total de

valor de la tarea

Opción 2 --- puntuación

media para el valor de

la tarea

A 4 5 4 4 +5 +4 = 13 4 +5 +4 = 13/3 = 4,33

B 4 4 5 4 +4 +5 = 13 4 +4 +5 = 13/3 = 4,33

C 1 3 4 1 +3 +4 = 8 1 +3 +4 = 8/3 = 2,66

D 2 1 2 2 +1 +2 = 5 2 +1 +2 = 5/3 = 1,66

E 3 4 3 etc etc

F 1 1 1

G 5 5 4

H 4 4 4

I 2 3 4

J 1 2 1

Análisis de Series de Tiempo

Es un conjunto de mediciones de cierto fenómeno o experimento

registradas secuencialmente en el tiempo, por ejemplo a cada hora,

mensualmente, trimestralmente, semestralmente, etc.

Características

1. La mayor parte de las series temporales tienen una tendencia. Sus

valores medios varían a lo largo del tiempo. Ellas son variables o

series no estacionarias.

2. Algunas series suben y bajan sin una tendencia a revertir hacia algún

punto. Este comportamiento es una propiedad de muchas variables

Page 71: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

no estacionarias. Esto es cierto en todas las series objeto de estudio,

con la excepción de la inflación y la tasa de interés.

3. Los cambios repentinos en la serie tienen un alto grado de

persistencia y toman tiempo para decaer. Esto es especialmente

cierto en las variables reales tales como la producción y la inversión.

4. Algunas series se mueven de forma conjunta, es decir tienen un co-

movimiento positivo. Por ejemplo, diferentes tasas de interés se

mueven en forma conjunta, al igual que lo hace la producción en

diferentes países.

Análisis de tendencia (Lineal y Curvilínea) mediante el método de los

mínimos cuadrados y el método de promedios móviles.

Las técnicas más ampliamente utilizadas para la estimación de las

tendencias son: Juicio gráfico, método de los mínimos cuadrados y método

del promedio móvil.

Juicio gráfico: la manera más simple de determinar o estimar una

tendencia futura es a través del juicio gráfico. Esto se logra visualizando la

gráfica y dibujando una línea o curva a mano alzada. La desventaja de este

método es que el trazado de la línea depende mucho del juicio individual y

puede no representar la situación real. Sin embargo, este método es útil

debido a que la habilidad para realizar análisis de sensibilidad (“que pasa si”)

ha aumentado con la introducción de las hojas de cálculo electrónicas.

Método de los mínimos cuadrados: el objetivo para la estimación de una

tendencia utilizando este método es encontrar “la línea del mejor ajuste”,

minimizando la suma de las desviaciones de una línea. Una vez que se

encuentra la línea de mejor ajuste ésta puede ser graficada, y la línea puede

ser extendida para estimar lo que pasará.

La línea de los mínimos cuadrados, se desarrolla a través de los puntos de

datos (X1, Y1), (X2, Y2),… (XN, YN), donde las coordenadas X significan los

Page 72: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

periodos de tiempo y las coordenadas Y representan la variable que el

analista está tratando de predecir. La ecuación de la línea de los mínimos

cuadrados es expresada en la forma:

Y = m * X + b

Donde la variable m representa la pendiente de la línea y b representa el

punto de intersección con Y, el punto en donde la línea intercepta al eje de

las Y.

La ecuación de los mínimos cuadrados además puede ser encontrada de

una manera más eficiente mediante el método computacional que consiste

en el cálculo del centro de gravedad de lo datos tomando y x = X – �̂�, y y = Y

- �̂�y calculando luego la línea de mínimos cuadrados como

y =(∑𝑥𝑦

∑𝑥²)* x

y sustituyendo por último de regreso X – �̂� para x y Y - �̂� para y.

El método de los mínimos cuadrados tiene como ventajas la sencillez

con que puede sercalculado. La interpretación de los pronósticos así

preparados es fácil. Sin embargo, este métodotiene varias desventajas:

supone que la historia de ventas es un buen pronosticador del

futuro(limitación que por lo demás tiene todos los métodos basados en

series de tiempo), supone queno habrá cambios sustanciales en la

estrategia de marketing de la empresa ( es decir correspondea pronósticos

pasivos más que activos) y, por último, da la misma importancia a los ,

independientemente de su antigüedad. El sentido común indica que mientras

másreciente sea un dato histórico es probable que sea mejor estimador del

comportamiento futuropróximo de las ventas que un dato de 8, 10 o más

años de antigüedad.

Método de promedios móviles:este método es útil debido a que algunos

patrones estacionales, cíclicos y aleatorios pueden ser suavizados dejando

el patrón de tendencia. El principio tras los promedios móviles es calcular

mediante aritmética o datos de grupos de periodos usando la ecuación

Page 73: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

𝑌1 + 𝑌2 +⋯+ 𝑌𝑁𝑁

Y calculando luego la siguiente media aritmética, descartando los datos del

periodo más antiguo y añadiendo datos del siguiente periodo.

𝑌1 + 𝑌2 +⋯+ 𝑌𝑁+1𝑁

Y de esta forma se dice que el periodo es móvil.

El método de promedios móviles es útil por su habilidad de suavizado, pero,

al mismo tiempo, tiene muchas desventajas. Primero, se pierden los

proyectados con precisión por el analista y el personal de contabilidad de la

empresa.

SPSS versión 10.0 (StatisticalProduct&ServiceSolutions) es un paquete

estadístico para el análisis de datos con más de 20 años de aplicación en la

investigación de las ciencias sociales y económicas.

SPSS es un conjunto de programas y subprogramas conectados de manera

que funcionan de manera conjunta permitiendo aplicar a un mismo fichero de

datos un conjunto ilimitado de procedimientos estadísticos de manera

sincronizada, sin salir del programa.

GENERALIDADES DEL SPSS

Es uno de los principales paquetes estadísticos. Otros importantes

ejemplos de paquetes estadísticos son SAS, Statistica, Mathlab,

Statgraphicsy Minitab. En el pasado, había otros paquetes estadísticos, como

BMDP y Systat, hoy absorbidos por la firma SPSS.

SPSS analiza con detenimiento las variables implicadas en la investigación,

con el propósito de construir un modelo único que sea capaz de explicar lo

que aconteció, tanto antes como después del análisis estadístico. De alguna

Page 74: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

forma, SPSS trata de obtener información privilegiada a partir de la base de

datos.

Puede acceder a una gran variedad de fuentes de datos incluyendo dBase,

Lotus, Excel y a través de ODBC, Access Paradox, SQL Server, Oracle y

muchos más. Y permite utilizarlos mediante distintas funciones de

manipulación que permiten preparar los datos para el análisis de forma rápida

y sencilla, consiguiendo informes tabulares, gráficos y diagramas de las

distribuciones y de las tendencias.Contiene programas capaces de realizar

desde un simple análisis descriptivo hasta diferentes tipos de análisis

multivariante de datos, como pueden ser: análisis discriminante, análisis de

regresión, cluster, análisis de varianza, etc... También permite analizar series

temporales, obtener tablas de frecuencias, tablas de contingencia

comparación de medias, análisis de la varianza, pruebas no paramétricas,

correlación y regresión lineal múltiple. El análisis estadístico es accesible para

el usuario ocasional y muy práctico para el usuario experto.

El SPSS dispone de módulos opcionales que permite profundizar en

la estadística con nuevos procedimientos que mejoran las capacidades del

SPSS Base.

MODULOS OPCIONALES

Partes del SPSS

Está compuesto por varios programas o rutinas y subprogramas o subrutinas.

A los programas de SPSS se les llama módulos; a los componentes de un

programa (es decir, a los subprogramas), se les conoce con el nombre de

procedimientos.

Así, por ejemplo, el paquete estadístico SPSS tiene, entre otros, los

siguientes programas o módulos:

· Avanzado

Page 75: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

· Base

· Profesional

· Tendencias

A su vez, el módulo Base tiene, por ejemplo, los siguientes subprogramas o

procedimientos:

· Archivo (File)

· Frecuencias (Frequencies)

· Descriptivos (Descriptives)

· Tablas de Contingencia (Crosstabs)

ALGUNOS MODULOS OPCIONALES

ESTADISTICAS

PROFESIONALES

Regresión Logística. Regresión no lineal restringida y no restringida.

Cuadrados mínimos ponderados. Cuadrados mínimos en dos fases.

Escalado multidimensional. Modelos Logit y Probit y Análisis de

Fiabilidad.

ESTADISTICAS

AVANZADAS

Modelo Lineal General(GLM). Análisis Loglineal, Hiloglineal y Genlog.

Estimación de componentes de la varianza. Análisis de Supervivencia:

Estimación Kaplan-Meier, Regresión de Cox con covariables

dependientes en el tiempo. Modelos MANOVA. Biblioteca de Macros.

TABLAS Presentación de resultados de alta calidad mediante las nuevas tablas

pivote con una gran cantidad de opciones de formato y presentación de

estadísticos. Calcula más de 20 estadísticos automáticamente. Anida y

concatena en todas las dimensiones. Maneja datos de respuesta

múltiple. Manejo de valores omitidos. En respuesta múltiple, cálculo de

frecuencias y porcentajes basados en respuestas o casos.

TENDENCIAS Mejora sus previsiones con una potente herramienta de análisis de

series temporales. Desglosa series en sus componentes, guardando

los factores estacionales, tendencias cíclicas y componentes de error

automáticamente. Modelos ARIMA y Box-Jenkins: autorregresión,

diferenciación y medidas móviles, X11ARIMA estima factores

estacionales multiplicativos o aditivos. Alisado Exponencial.

Page 76: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

CATEGORIAS Una solución completa para el análisis de Conjunto, procedimientos de

Escalamiento Optimo, análisis de Correspondencias y Mapas

Perceptuales. Medidas del impacto de atributos individuales en

producto o preferencias de consumidores. Genera tarjetas en las que

los entrevistados pueden ordenar para indicar preferencias en función

de los atributos.

PRUEBAS

EXACTAS

Pruebas exactas para el cálculo de valores de probabilidad, incluso si

se dispone de un conjunto pequeño de datos, pequeños subgrupos o

variables sesgadas.

VALORES

PERDIDOS

Si se han perdido valores de sus datos, este procedimiento puede

encontrar alguna relación entre los valores perdidos y otras variables.

Además, puede estimar cuál sería el valor si no faltaran datos y, la

media, la matriz de covarianza y la matriz de correlación a través de la

regresión o del algoritmo EM.

CHAID Una técnica de segmentación útil en cualquier situación donde se

necesite dividir la población en segmentos basados en un criterio

particular. CHAID es ampliamente utilizado en Marketing de Bases de

Datos, Gestión de Riesgos y Test Psicológicos, pero de utilidad para

cualquiera que trabaje con datos categóricos.

ANSWER TREE AnswerTree es una herramienta de segmentación que trabaja sobre

windows-95 y Windows NT, útil en cualquier situación que se necesite

dividi la población en conjuntos basados en un criterio particular.

AnswerTree es utilizado en Marketing de Base de Datos, Gestión de

Riesgos, Test Psicológicos. etc.

AMOS SPSS AMOS analiza las relaciones estructurales lineales y los modelos

de ecuaciones simultáneas. Los investigadores lo usan para realizar

análisis factorial de confirmación y desarrollo de modelos de rutas

causales, así como otras tareas.

TELEFORM Permite eliminar completamente el proceso de entrada manual de

datos cuando se realizan encuestas. Teleform permite crear formularios

y distribuirlos manualmente o por fax. Los cuestionarios devueltos

pueden ser leídos bien, vía módem o escáner. Teleform lee botones de

elección y escritura manual automáticamente.

MAPINFO Mapinfo, el software de mapas de sobremesa más vendido, permite

visualizar sus datos geográficamente. Creación de mapas temáticos

para visualizar sus datos. Permite elegir entre regiones geográficas

preestablecidas o crear sus propios contornos. Búsqueda dentro de

territorios de relaciones, patrones y tendencias.

Page 77: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

QI ANALYST Mejore el control y la calidad de los procesos con este completo

paquete SPC. Contiene un amplio conjunto de estadísticos SPC y

genera automáticamente 23 gráficos. Reduce disconformidades y

tiempo malgastado. Estadísticos de capacidad como Cpk, Cr, Cp, y

Cpm. Estadísticos de distribución como asimetría, apuntamiento y chi-

cuadrado.

QI ANALYST

GAGE

Mide la calidad de los sistemas de medición a través de estudios de

repetibilidad y reproductibilidad (R&R) calibración.

AllCLEAR Herramienta para el diseño de diagramas de flujo, espina de pescado y

causa-efecto.

CLEAR Process Visualice, analice y mejore su proceso con una eficaz gestión de

diagramas de flujo y de procesos. Utilice CLEAR Process para ver

claramente su proceso y tomar decisiones basadas en una mejor

información para mejorarlo

NEURAL

CONNECTION

Para construir mejores modelos y más precisos. Incluye los términos

Multi-LayerPreceptron, Radical basisFunction y Kohonennetwork.

DIAMOND Explore visualmente sus datos con los innovadores procedimientos de

SPSS Diamond. SPSS le ayudará a visualizar relaciones complejas y

tendencias en datos multivariados, observar si se cumplen las hipótesis

requeridas para sus análisis e identificar puntos atípicos

REMARK OFFICE

OMR

Permite recoger fácilmente información desde formularios de papel y

tratarla con SPSS. Evita la entrada manual de datos pudiendo

realizarse automáticamente mediante scanner.

DELTAGRAF DeltaGraf le permitirá realizar mas de 70 tipos de graficos en función de

sus necesidades. Con este programa podrá realizar gráficos en 3D,

gráficos de Control, gráficos desegmentación, de supervivencia, etc.

Con DeltaGraf dispondrá de una herramienta flexible y fácil de usar.

TRIAL RUN Trial Run es una nueva herramienta par el diseño de experimentos.

Este programa le ofrece 41 tipos de diseños, seis tipos de gráficos y un

amplio rango de resultados estadísticos.

DATA ENTRY SPSS Data Entry es una solución flexible y rápida para diseñar un

cuestionario y recoger los datos inmediatamente. Cuenta con una gran

variedad de ejemplos para adaptar nuestro cuestionario a las

necesidades reales. Data Entry validará los datos que se introduzcan

mediante una serie de reglas y chequeará que los datos son correctos

en todo momento.

TEXTSMART TextSmart utiliza procesos estadísticos para analizar automáticamente

Page 78: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

una lista de palabras clave obtenida de las respuestas abiertas de un

estudio y agrupar cada respuesta en categorías de similar significado

en tan solo unos minutos. Un conjunto de tablas y gráficos permite

verificar las categorías y definirlas rápidamente en nuestros informes.

SAMPLEPOWER SamplePOwer permite a los profesionales de Marketing e

investigadores en general, determinar el tamaño de muestra para

investigación antes de que los datos sean recogidos. Una intuitiva guía

de usuario permite obtener un tamaño adecuado a través del nivel de

confianza, efectos esperados y necesidades del investigador.

NEWVIEW NewView es una herramienta para el análisis de datos e informes. Este

nuevo programa es la única manera de realizar informes analíticos

combinado las características de los convencionales paquetes de

análisis de datos y las herramientas de Query&Reporting (Q&R).

NewView ofrece innovadoras funciones en el área de accesos a datos,

informes analíticos y distribución.

SMART VIEWER SPSS Smart Viewer permite a los usuarios crear informes y gráficos

interactivos en formato electrónico para que la empresa y sus clientes

puedan vía WWW, e-mail o disquete, acceder a la información y

gráficos reflejados en los informes.

TABLE CURVE 2D TableCurve 2D es el primer y único programa que combina el poder de

realizar gráficos en 2Dy la habilidad de encontrar la ecuación ideal que

describe las dos dimensiones del gráfico. TableCurve 2D le presentará

el conjunto de las mejores ecuaciones ajustadas y toda la información

que necesita para elegir la ecuación que mejor se adapte a sus

necesidades.

TABLE CURVE 3D TableCurve 3D es el primer y único programa que combina el poder de

realizar gráficos en 3Dy la habilidad de encontrar la ecuación ideal que

describe las dos dimensiones del gráfico. TableCurve 3D le presentará

el conjunto de las mejores ecuaciones ajustadas y toda la información

que necesita para elegir la ecuación que mejor se adapte a sus

necesidades.

STAT XACT StatXact es una solución completa para todas las necesidades en

análisis categóricos y no-paramétricos. Utiliza mas de 90 test

estadísticos para analizar pequeños grupos de datos, análisis de

subconjuntos en grandes conjuntos de datos y grandes conjuntos de

datos con valores extraños.

LOG XACT Los análisis de regresión logística son muy útiles cuando se trata de

predecir variables dicotómicas. En pequeños grupos de datos, el

análisis de regresión logística común puede provocar problemas de

Page 79: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

convergencia y puede producir errores en la estimación. Log Xact

proporciona los p-valores exactos, intervalos de confianza y test de

hipótesis para resolver estos problemas con pequeños grupos de

datos.

Aplicación no pueden leer los resultados de la versión 10.0.

El SPSS dispone de varias ventanas:

La Ventana de Aplicación

El Editor de Datos

El Visor

El Visor de Borrador

El Editor de Tablas

El Editor de Gráficos

El Editor de Resultados de Texto

El Editor de Sintaxis

El Editor de Procesos

Se puede trabajar de dos formas con el SPSS:

Forma Interactiva: se selecciona directamente el procedimiento y se

ejecuta.

Proceso por Lotes: Se ejecutan uno tras otros los comandos que

contiene un fichero de sintaxis o al menos los seleccionados.

Los Comandos son instrucciones que constan de palabras claves y de

especificaciones. Las primeras son los nombres de los comandos y de

los subcomandos, y las segundas hacen referencia a la información que

necesita el SPSS para adaptar la ejecución de la instrucción a sus datos

y objetivos.

Tipos de comandos:

Page 80: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Comandos de Operación. Indican al sistema la forma de operar,

definiendo el entorno de trabajo de una sesión del SPSS.

Comandos de Definición y Manipulación de Datos. Proporcionan al

sistema información sobre los datos a analizar, y las modificaciones que

se quiere realizar con ellos.

Comandos de Procedimiento. Transforman los datos mediante la

carga y ejecución de los subprogramas correspondientes a los procesos

a realizar.

Existen algunos botones que aparecen en todos los

cuadros de diálogo. Estos son:

Aceptar: Ejecuta el procedimiento elegido y

cierra la ventana.

Pegar: Crea una ventana de sintaxis que incluye

los comandos equivalentes al procedimiento

seleccionado.

Restablecer: Deselecciona cualquier variable

seleccionada, y restablece el cuadro de diálogo con las opciones que

trae por defecto.

Cancelar: Cancela los cambios hechos, y cierra la ventana.

Ayuda: Abre una ventana con información sobre el procedimiento.

En el menú principal de SPSS podemos encontrar los siguientes

submenús:

Archivo: Se utiliza para abrir, grabar, imprimir ficheros, y leer datos

del SPSS u otras aplicaciones.

Edición: Sirve para cortar, copiar, buscar y recuperar datos o texto.

Ver: Sirve para mostrar u ocultar la barra de herramientas, cambiar

la fuente de las letras, mostrar la cuadrícula, mostrar las etiquetas de

valor.

Page 81: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Datos: Aquí se hacen los cambios del fichero de datos: combinar

ficheros, trasponer variables y casos, agrupar casos, etc.

Transformar: Para realizar cambios en determinadas variables,

crear variables nuevas a partir de otras.

Analizar: Aquí se encuentran todos los procedimientos estadísticos.

Gráficos: Sirve para crear Gráficos de Barras, Histogramas,

Diagramas de Sectores, Gráficos de Dispersión, etc.

Utilidades: Visualiza la información sobre el contenido del fichero, o

definir grupos de variables.

Ventana: Se utiliza para activar/desactivar los iconos, para cambiar

el diseño de la ventana de salida o la de sintaxis, o cambiar el entorno

del SPSS.

?.: Abre una ventana de ayuda que contiene información sobre el

uso de cualquier característica o procedimiento.

En la parte inferior de la pantalla podemos encontrar la barra de estado,

que proporciona la siguiente información:

Estado del Comando: Indica el número de casos procesados hasta

el momento, en la ejecución de un procedimiento, o que el sistema está

preparado.

Estado del Filtro: El filtrado indica que se ha seleccionado una

muestra aleatoria o subconjunto de casos del fichero.

Estado de Ponderación: La ponderación indica que se está

utilizando una variable de frecuencias para ponderar los casos en el

análisis que se vaya a realizar.

Estado de división del archivo: La segmentación indica que se ha

dividido el fichero de datos en varios grupos.

Page 82: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

En la ventana principal podemos encontrar una serie de iconos, cuya

utilidades son:

Abrir archivo: Permite abrir un archivo del tipo de la ventana activa:

datos, resultados, sintaxis, o de gráficos.

Guardar archivo: Guarda el fichero de la ventana activa: datos

(.sav), resultados (.spo), sintaxis (.sps) o gráficos (.sct)

Imprimir: Muestra el cuadro de diálogo para imprimir el documento

de la ventana activa.

Recuperar cuadros de Diálogo: Muestra un listado con las

operaciones más recientes hechas con el SPSS.

Deshacer: Para deshacer la última operación llevada a cabo.

Ir a gráficos: Permite pasar de la ventana de datos a la de gráficos.

Ir a caso: Permite desplazar el cursor a un caso concreto en el

editor de datos.

Variables: Muestra una ventana con la lista de variables del fichero

cargado en el editor y la información de la variable seleccionada.

Buscar: Permite buscar una cadena de caracteres, en el editor de

datos o en la ventana de sintaxis.

Insertar caso: Sirve para insertar un caso por encima de la posición

del cursor. nInsertar variable: Se inserta una variable en la columna a la

izquierda de la posición del cursor.

Segmentar archivo: Divide el archivo del editor, según una

determinada condición o categorías de una variable.

Ponderar casos: Indica al sistema que alguna variable representa

las frecuencias absolutas de los valores.

Seleccionar casos: Sirve para elegir una muestra de casos del

archivo, según una condición, de forma aleatoria, etc.

Etiquetas de valor: Conmuta entre los valores de la variable y sus

etiquetas

Page 83: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Usar conjuntos: Permite seleccionar los conjuntos de variables a

usar en los análisis.

Los resultados se muestran en el visor, que se puede emplear para:

examinar los resultados, mostrar u ocultar tablas y gráficos

seleccionados, cambiar el orden de presentación de los resultados

moviendo los elementos seleccionados y mover elementos entre el visor

y otras aplicaciones.

El visor se divide en dos paneles:

El panel izquierdo muestra una vista de titulares del contenido.

El panel derecho contiene tablas estadísticas, gráficos y resultados

de texto.

Puede utilizar las barras de desplazamiento para examinar

los resultados o bien pulsar en un elemento de los titulares para ir

directamente a la tabla o gráfico correspondientes.

Puede pulsar y arrastrar el borde derecho del panel de

titulares para cambiar la anchura del mismo.

Funciones de los iconos del Visor:

Presentación Preliminar: Muestras los resultados dentro de la

página de acuerdo con el formato de ésta.

Exportar: Sirve para exportar el fichero de resultados con el fin de

leerlos con otra base de datos.

Ir a datos: Activa la ventana del editor de datos, y si está

minimizada la devuelve a su tamaño normal.

Seleccionar los últimos resultados: Selecciona los resultados del

último procedimiento.

Designar ventana: Sirve para indicar el visor que recogerá los

resultados.

Ascender: Sirve para subir los resultados a un nivel superior, dentro

de la numeración de los mismos.

Page 84: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Degradar: Realiza el proceso inverso al icono anterior.

Expandir: Muestra los resultados recogidos dentro del título de un

procedimiento.

Contraer: Recoge los resultados dentro de su título.

Mostrar: Muestra los resultados de un procedimiento que estaban

ocultos.

Ocultar: Se ocultan los resultados seleccionados.

Insertar encabezado: Sirve para introducir un encabezado en el

fichero de resultados.

Insertar título: Te permite crear un título para los resultados de un

determinado procedimiento.

Insertar texto: Sirve para introducir algún comentario en los

resultados.

A continuación, describiremos el uso de los iconos de la ventana de

gráficos del visor:

Identificación de puntos: Sirve para identificar cualquier punto en el

gráfico con el caso correspondiente.

Trama de relleno: Permite la selección del relleno a utilizar en el

gráfico.

Color: Sirve para seleccionar los colores del gráfico.

Marcador: Con él se elige la forma de la marca con que se realiza el

gráfico.

Estilos de línea: Permite elegir el estilo de las líneas que se usan en

el gráfico.

Page 85: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

Estilos de barra: Permite seleccionar el formato de la barra que se

utiliza en los diagramas de barras.

Estilos de etiquetas de barra: Sirve para etiquetar las barras con los

valores numéricos que representan.

Interpolación: Permite la unión de los puntos del gráfico, mediante

diversos tipos de líneas.

Texto: Sirve para elegir el tamaño y la fuente del texto que

aparecen en el gráfico.

Rotación 3D: Permite realizar una rotación de los ejes, en los

gráficos tridimensionales.

Intercambiar ejes: Permite intercambiar la colocación de los ejes.

nDesgajar sector: Sirve para extraer de un diagrama de sectores un

sector circular.

Romper líneas en valores perdidos: Permite romper la continuidad

de las líneas en los gráficos, para indicar aquellos valores missing.

Opciones del gráfico: Permite modificar las opciones del gráfico.

Activar/Desactivar el modo giro: Según se pulse o no se activa o no

la posibilidad de girar el gráfico.

Page 86: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

CONCLUSIONES

La aplicación del análisis de regresión simple permitirá estudiar

la relación que existe entre una variable independiente y otra

dependiente, utilizando el modelo de regresión.

El coeficiente de determinación es una medida de la bondad de

ajuste para la ecuación de regresión; este puede interpretar como la

proporción de la variación de la variable dependiente explicada por la

ecuación de regresión.

Se consideró la correlación como una medida descriptiva de la

intensidad de una relación lineal entre dos variables.

El análisis de correlación emplea métodos para medir la

significación del grado o intensidad de asociación entre dos o más

variables. Normalmente, el primer paso es mostrar los datos en un

diagrama de dispersión. El concepto de correlación está

estrechamente vinculado al concepto de regresión, pues, para que

una ecuación de regresión sea razonable los puntos muéstrales

deben estar ceñidos a la ecuación de regresión; además el coeficiente

de correlación debe ser: Grande cuando el grado de asociación es

alto (cerca de +1 o -1, y pequeño cuando es bajo, cerca de cero,

independiente de las unidades en que se miden las variables.

El anova permite distinguir dos modelos para la

hipótesisalternativa:

Modelo I o de efectos fijos en el que la H1 supone que las k

muestras son muestras de k poblaciones distintas y fijas.

Modelo II o de efectos aleatorios en el que se supone que las k

muestras, se han seleccionado aleatoriamente de un conjunto de m>k

poblaciones.

La serie de tiempo en estadística es un procesamiento de señales, y

econometría, una serie temporal es una secuencia de puntos de datos,

Page 87: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

medidos típicamente a intervalos de tiempo sucesivos, y espaciados (con

frecuencia) de forma uniforme.

Con el fin de obtener un modelo de serie de tiempo, es necesario

estimar la tendencia y la estacionalidad. Para estimar la tendencia, se

supone que la componente estacional no está presente. La estimación se

logra al ajustar a una función de tiempo a un polinomio o suavizamiento

de la serie a través de los promedios móviles. Para estimar la

estacionalidad se requiere haber decidido el modelo a utilizar (mixto o

aditivo). Una vez estimada la tendencia y la estacionalidad se esta en

condiciones de predecir.

Page 88: REGRESIÓN, CORRELACIÓN Y ANOVA. · (regresión simple) como en el de más de dosvariables (regresión múltiple), el análisis regresión lineal puede utilizarse para explorar y

BIBLIOGRAFIA

Casuso, Rafael L. "Cálculo de probabilidades e inferencia estadística",

UCAB. Caracas. 1996.

Mendenhall, Schaeffer y Wackely. "Estadística matemática con

aplicaciones", Edit. Iberoamérica. México. 1986.

Mendelhall, William y Sincich. "Probabilidad y estadística para ingeniería y

ciencias", Edit. Prentice may. México. 1997.

Miller, Irwin y otros. "Probabilidad y estadísticas para ingenieros", Edit.

Prentice may. 4ta edición. México. 1992.

Ross, Sheldon. "Probabilidad y estadísticas para ingeniería y ciencias", Edit.

Mc Graw Hill. México. 2001.

Universidad Simón Bolívar , Por: Hernando Sánchez Santibáñez

http://www.usb.edu.co/facultades/administracion/publicaciones/regresion_cor

relacion.pdf

WALPOLE, Myers y Myers (1998), "Probabilidad y Estadística para

Ingenieros", Edit. Prentice Hall, México.

RINCÓN PINO, María YsabelUNIVERSIDAD NACIONAL, FEDERICO

VILLARREAL, MAESTRÍA EN SALUD REPRODUCTIVA