ANALISIS DE DATOS EN CIENCIAS SOCIALES MANEJO DEL PAQUETE SPSS Mercedes Fernández Liporace...

Preview:

Citation preview

ANALISIS DE DATOS EN CIENCIAS SOCIALES

MANEJO DEL PAQUETE SPSS

Mercedes Fernández Liporace

Alejandro Castro Solano

Colaboradora Docente: Ma. Alejandra Carreras

Universidad de Buenos Aires

Investigación científica

Planteo de problemas de investigación Descubrimiento de la organización de los

fenómenos, relaciones entre ellos, leyes que las regulan

Procedimiento para alcanzar un conocimiento riguroso y objetivo de la realidad: replicable, contrastable empíricamente y comunicable

Relevancia y transferencia

Circuito de una investigación

Problema

Teoría

Conceptos

Hipótesis

Datos (empiria)

Fases de una investigación

Planteo del problema Búsqueda de antecedentes teóricos y empíricos Formulación de objetivos e hipótesis Diseño Recogida y análisis de datos Interpretación, discusión y generalización de

resultados Transferencia de conocimientos y de tecnología

Planteo del problema

Pregunta para la que no hay respuesta Requisitos:

Resoluble Claro, sin ambigüedades Circunscripto Contrastable empíricamente

Implica apelar a conocimientos anteriores (marco teórico y antecedentes empíricos)

Objetivos

Son el “qué” de la investigación “¿Qué se va a hacer?” Generales y específicos Determinan el tipo de estudio desde el principio

Exploratorio Descriptivo Correlacional De diferencias entre grupos Explicativo

Hipótesis

“¿Qué resultado se espera obtener?” Afirmaciones que establecen relaciones entre

variables Posible explicación o descripción del problema. Debe ser contrastable empíricamente Hipótesis de trabajo e hipótesis nula Hipótesis alternativa e hipótesis rival plausible

No siempre se dispone de HIPÓTESIS (según tipo de estudio)

Diseño

Plan estructurado de acción para intentar responder al problema

Aspectos que intervienen: objetivos, naturaleza del problema y de las hipótesis, variables, universo, unidades de análisis, muestreo, instrumentos, procedimiento y análisis de datos

Tiene que ver con la estrategia científica de partida:

Observacional Selectiva Cuasiexperimental Experimental

Recogida y análisis de datos

Determinada por el diseño (procedimiento) Estadística: amplio cuadro de herramientas al

servicio del método científico

Estadística Descriptiva e Inferencial Paso previo: Análisis Exploratorio Elección de la prueba estadística: nº de

variables, papel, nivel de medición, distribución

Interpretación de resultados

En ciencia no hay verdades absolutas: los resultados deben expresarse en términos probabilísticos

Margen de error .......Significación ()

Deben relacionarse con los antecedentes y preverse sus implicaciones prácticas. Actitud prospectiva y predictiva

Aceptación o rechazo de la hipótesis de trabajo A LA LUZ DEL MARCO TEORICO

Generalización de resultados

Determinar a qué población es posible generalizar los resultados (muestreo)

Problema de la representatividad de la muestra:

* Sujetos * Contexto

Validez Externa Validez Ecológica

Redacción del informe

Oportunidad de replicación

Requisitos: completo, conciso, preciso, claro, gramaticalmente correcto y ameno

Responder breve y claramente a los objetivos planteados

Apartados de una comunicación científica

Introducción Planteo del problema Objetivos Hipótesis

Método

Resultados Discusión

Referencias y Anexos

Marco Teórico y antecedentes

General y específicosSi corresponde Estudio y diseño Variables e instrumentos Sujetos y muestreoProcedimiento y análisis de datosHallazgos en detalleRelectura de resultados a la luz del

marco teórico

Estadística

Variables

Toda característica o dimensión de un sujeto (u objeto) susceptible de adoptar distintos valores o nombres

Criterios clasificatorios– Nivel de medida (Stevens, 1951):

Nominales o cualitativas Ordinales o semicuantitativas Intervalo Razón Cuantitativas

– Su papel en la investigación Independientes (predictores) Dependientes (criterio)

Variables nominales o cualitativas

Los números no implican cantidad ni orden o jerarquía, sino cualidad, categorías, función identificatoria (sexo, estado civil, lugar de residencia).

Dicotómicas o politómicas

Ejemplos: nacionalidad sexo1. argentino 1. masc2. boliviano 2. fem3. chileno 4. peruano

Variables ordinales

Los números reflejan jerarquía, no cantidad del atributo Establecen relaciones de orden (mayor o menor)

No existe una unidad de medida objetiva Es un nivel semicuantitativo

Ejemplo: En su opinión, la calidad pedagógica de este docente es…..

* Totalmente inadecuada (1)* Algo inadecuada (2)* Bastante adecuada (3)* Muy adecuada (4)* Totalmente adecuada (5)

Variables cuantitativas, métricas o de escala

Intervalos Unidad de medida objetiva

pero no cero absoluto o “ausencia de atributo”

Ejemplos: TEMPERATURA o C.I.

Razones€ Existencia de un cero

absoluto

Ejemplo: NIVEL DE INGRESOS

Niveles de medida débiles y fuertes

Análisis de datos

Análisis descriptivo

Análisis inferencial

Análisis exploratorio

Análisis exploratorio

Razones para examinar los datos

Seguridad activa: Procedimiento de recogida de datos Seguridad pasiva: Problema I: los datos no son buenos

Archivo de datos: depuración de errores e incoherencias.

Problema II: falta de respuesta Tamaño de la muestra (potencia de los contrastes) y

sesgo de los resultados (no se distribuyen al azar) Problema III: casos anómalos

Elección de la prueba o estadístico adecuado; tratamiento de outliers

Problema IV: herramientas estadísticas adecuadas Comprobación de supuestos paramétricos: pruebas

paramétricas vs. no paramétricas.

Depuración de errores e incoherencias

Estimación de la calidad de los datos Cálculo de la cantidad de errores que pueden

contener, antes de proceder a su análisis

¿CÓMO?

Selección de una muestra de datos Comprobación de cuántos errores existen en ella Estimación del total de errores en la muestra total Decidir si es preciso revisar la matriz total o asumir el

error encontrado

Valores perdidos o missings

Se corre grave riesgo en Se corre grave riesgo en dos sentidosdos sentidos::

Reducción excesiva del tamaño de la muestra (disminución de la potencia de los contrastes)

Sesgo en los resultados si los missings no se distribuyen aleatoriamente (ingresos)

Si la ausencia de información es pequeña y al azar, es posible analizar los datos directamente

Identificación de missings

Identificar los sujetos con muchos missings

Identificar las variables con muchos missings

Pertinencia de la sustitución

EN VARIABLES CLAVE:EN VARIABLES CLAVE: Dividir la muestra en dos grupos: los que responden (1)

y los que no responden a esa variable (2) (Recodificar en una nueva variable)

Eliminar los casos missing de manera completa

EN VARIABLES SECUNDARIAS:EN VARIABLES SECUNDARIAS: Mantener los missings si no exceden un porcentaje

razonable

Imputación de missings

El boxplot

20N =

INGRESOS

600000

500000

400000

300000

200000

100000

0

9

10

Comprobación de supuestos

Elegir la prueba estadística adecuada en cada caso

Pruebas paramétricas y no paramétricas

Ejemplos: – t de Student y Anova– U de Mann-Withney y 2

¿Cuáles son esos SUPUESTOS?

LINEALIDAD: relación lineal entre las variables analizadas

ALEATORIEDAD o independencia de las medidas: que los sujetos hayan sido seleccionados al azar

NORMALIDAD: que la VD se distribuya normalmente

HOMOCEDASTICIDAD u homogeneidad de varianzas: que los distintos grupos posean una variabilidad similar

Comprobación de supuestos

NORMALIDAD: prueba K-S

HOMOCEDASTICIDAD: prueba de Levenne

ALEATORIEDAD: prueba de las Rachas

LINEALIDAD: gráfico de dispersión y correlación

Se asume que se cumplen los supuestos, salvo que las pruebas sean significativas (p< 0.05)

Normalidad

Pruebas de normalidad

,257 20 ,001 ,717 20 ,010**INGRESOSEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova

Shapiro-Wilk

Este es un límite superior de la significación verdadera.**.

Corrección de la significación de Lillieforsa.

Si los supuestos no se cumplen

DOS ALTERNATIVAS:

Recurrir a una prueba no paramétrica o

TRANSFORMAR LA VARIABLE

-1/X2 -1/X log X X X X2 X3 antilog X

Fuerte Suave Sin cambio Suave Fuerte

Asimetría + Asimetría -

Cola hacia arriba Cola hacia abajo

Casos próximos al valor pequeño Casos próximo valor grande

Análisis estadístico Tipo de estudio OBJETIVOS

Descriptivo

Inferencial

Exploratorio Descriptivo

Correlacional De diferencias entre

grupos Explicativos

Estadística descriptiva

Objetivo: resumir e ilustrar en forma sencilla el comportamiento de un conjunto de datos

Frecuencias (f, f% y fa) Descriptivos

Medidas de tendencia central Medidas de variabilidad Medidas de posición Medidas de distribución

Tablas con descriptivos y/o % Gráficos

Frecuencias

Sexo

105 34,2 34,3 34,3

201 65,5 65,7 100,0

306 99,7 100,0

1 ,3

307 100,0

masc

fem

Total

Valid

SystemMissing

Total

Frequency Percent Valid PercentCumulative

Percent

Edad

10 3,3 3,3 3,3

90 29,3 29,3 32,6

110 35,8 35,8 68,4

55 17,9 17,9 86,3

27 8,8 8,8 95,1

9 2,9 2,9 98,0

4 1,3 1,3 99,3

2 ,7 ,7 100,0

307 100,0 100,0

12

13

14

15

16

17

18

19

Total

ValidFrequency Percent Valid Percent

CumulativePercent

Edades y estudios

9,6%61,5%

20,5%8,6%

0 20 40 60 80

12 años 13 años 14 años 15 años

40,5%

34,9% 24,7%

Primarios

Medios

Superiores

Descriptivos más utilizados (tendencia central, dispersión, posición)

Statistics

Edad307

0

14,17

14,00

14

4350

Valid

Missing

N

Mean

Median

Mode

Sum Statistics

Edad307

0

1,25

1,57

7

12

19

Valid

Missing

N

Std. Deviation

Variance

Range

Minimum

Maximum

Statistics

Edad307

0

12,00

13,00

13,00

14,00

15,00

16,00

17,00

18,00

Valid

Missing

N

1

5

25

50

75

90

97

99

Percentiles

Comparación de medias

21,18

22,16

20,48

19,520

20,521

21,522

22,5

1988 1993 1998

Estadística inferencial

Objetivos:

Estimación de parámetros

Contrastes de hipótesis Correlacionales De diferencias entre grupos

– Paramétricos – No paramétricos

Regresión

Permite la predicción del comportamiento de una variable (criterio), basándonos en otra variable (predictor)

R2: C.Determinación (proporción de la variación de Y explicada por la variación de x; utilidad del modelo)

Sig: signif del modelo de predicción

Model Summary

,812a ,659 ,652 7,54Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Cantidad de veces queconcurre en trimestre

a.

Correlación

Cuantifica la intensidad y sentido de la relación entre dos variables

No implica causalidad Implica asociación Afectada por los

errores de medición

Correlations

1,000 ,939**

, ,000

750 50

,939** 1,000

,000 ,

50 50

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Puntuación total 8 items

criterio externo 10 valores

Puntuacióntotal 8 items

criterioexterno 10

valores

Correlation is significant at the 0.01 level (2-tailed).**.

Supuestos cumplidos

2 grupos INDEPENDIENTES: t de Student para muestras independ

(puntuación en un test para hombres y mujeres) RELACIONADOS: t de Student para muestras relacionadas

(tasa cardíaca antes y después de la ingesta de unfármaco)

K grupos INDEPENDIENTES: ANOVA One Way

(ingresos económicos en 3 grupos de educación) RELACIONADOS: ANOVA de Medidas Repetidas

(tiempo de reacción antes y después de ingesta fármaco)

PRUEBASPARAMÉTRICAS

VD cuantitativa,normalidad y

homocedasticidad

Group Statistics

375 60,34 11,74 ,61

375 57,86 12,12 ,63

SexoMasculino

Femenino

Puntuación total 8 itemsN Mean Std. Deviation

Std. ErrorMean

Prueba t para grupos independientes

Independent Samples Test

,162 ,687 2,847 748 ,005

2,847 747,227 ,005

Equal variancesassumed

Equal variancesnot assumed

Puntuación total 8 itemsF Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)

t-test for Equality of Means

ANOVA One Way

ANOVA

PJE. BRUTO

4381,311 4 1095,328 6,603 ,000

105674,8 637 165,895

110056,1 641

Between Groups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

PJE. BRUTO

Tukey Ba,b

212 24,78

238 27,81

23 29,26

153 29,59

16 38,81

EDUCACIOADULTOterciario/universitariocompleto

secundariocompleto-terciario/univ.incompleto

NO CONTESTA

primariocompleto-secundarioincompleto

primario incompleto

N 1 2

Subset for alpha = .05

Means for groups in homogeneous subsets are displayed.

Uses Harmonic Mean Sample Size = 41,175.a.

The group sizes are unequal. The harmonic mean of thegroup sizes is used. Type I error levels are notguaranteed.

b.

2 grupos INDEPENDIENTES:

VD nominal: X2 (con corrección de continuidad si es una tabla 2 x2)(tabaquismo presente o ausente según sexo)

VD ordinal: U de Mann – Whitney(Ranking de popularidad entre políticos de dos partidos)

RELACIONADOS:VD Nominal: Mc Nemar (para variables dicotómicas)

(presencia o ausencia de alucinaciones antes y desp de fármaco)VD Ordinal: T de Wilcoxon

(ranking de severidad del trastorno antes y desp de tratamiento)

K grupos INDEPENDIENTES:

VD nominal: X2

(tipo de trastorno psiquiátrico según región geográfica)VD ordinal: Kruskal-Wallis (One Way)

(severidad del retraso intelect sec. según varias enfermed base) RELACIONADOS

VD nominal: Cochran (para variables dicotómicas)(síntoma presente o ausente a lo largo de los últimos seis meses)

VD ordinal: Friedman(ranking de rendimiento académico según ciclo EGB y Polimodal)

PRUEBAS NOPARAMÉTRICAS

VD ordinalnominal o

cuantitativasin supuestos

Prueba t para grupos independientes

Paired Samples Statistics

16,30 20 8,86 1,98

11,05 20 6,92 1,55

Nº DE CIGARRILLOSANTES DELTRATAMIENTO

Nº DE CIGARRILLOSDESPUES DELTRATAMIENTO

Pair1

Mean N Std. DeviationStd. Error

Mean

Paired Samples Test

4,682 19 ,000Nº DE CIGARRILLOS ANTES DELTRATAMIENTO - Nº DE CIGARRILLOSDESPUES DEL TRATAMIENTO

Pair1

t df Sig. (2-tailed)

Mann - Whitney

Ranks

9 6,72 60,50

11 13,59 149,50

20

SEXOHOMBRE

MUJER

Total

ACTITUD ABORTON Mean Rank Sum of Ranks

Test Statisticsb

15,500

60,500

-2,643

,008

,007a

Mann-Whitney U

Wilcoxon W

Z

Asymp. Sig. (2-tailed)

Exact Sig. [2*(1-tailedSig.)]

ACTITUDABORTO

Not corrected for ties.a.

Grouping Variable: SEXOb.

X2

Fracaso escolar * Clases de apoyo Crosstabulation

Count

4 7 11

6 3 9

10 10 20

No

Fracasoescolar

Total

Sí No

Clases de apoyo

Total

Chi-Square Tests

1,818b 1 ,178

,808 1 ,369

1,848 1 ,174

,370 ,185

1,727 1 ,189

20

Pearson Chi-Square

Continuity Correctiona

Likelihood Ratio

Fisher's Exact Test

Linear-by-LinearAssociation

N of Valid Cases

Value dfAsymp. Sig.

(2-sided)Exact Sig.(2-sided)

Exact Sig.(1-sided)

Computed only for a 2x2 tablea.

2 cells (50,0%) have expected count less than 5. The minimum expected count is4,50.

b.

Kruskall Wallis One Way

Ranks

10 26,20

10 13,60

10 13,60

10 28,60

40

ProvinciaCórdoba

Bs As

San Juan

Mendoza

Total

Nivel deContaminación aguas

N Mean Rank

Test Statisticsa,b

16,110

3

,001

Chi-Square

df

Asymp. Sig.

Nivel deContaminación aguas

Kruskal Wallis Testa.

Grouping Variable: Provinciab.