39
Estadística aplicada a las ciencias sociales ESTADÍSTICA (1º pp) Tema 1: EL ANÁLISIS DE DATOS SOCIOLÓGICOS 1. CONCEPTO DE ESTADÍSTICA La estadística trata de buscar un método para examinar los procesos sociales y para suministrar bases a las decisiones en la investigación. Es una ciencia, ya que trata de hallar regularidades en los fenómenos sociales, de manera que sirvan para describir y predecir. Es la colección de métodos científicos que permiten el análisis e interpretación de la información numérica. Hay una actitud poco favorable hacia la estadística que se produce paradójicamente en una sociedad en la que la información cuantitativa invade los aspectos más íntimos de nuestra vida: paro, divorcio, gasto público, etc. Históricamente desde la óptica pagana o cristiana no había azar; todos los fenómenos obedecían a leyes divinas y no a la probabilidad. Hasta que Europa no superó la teología y filosofía medieval no fue posible desarrollar el cálculo de las probabilidades. Desde finales del siglo XIX comienzan a descubrirse regularidades en disciplinas tan diversas, como la genética, biología, meteorología, economía, psicología e incluso en las artes. La demografía y las compañías de seguros ayudaron a desarrollar la estadística; el primer censo de población en España se refiere al año 1860. Las compañías de seguros necesitan tablas de esperanza de vida. Parte del desprestigio de la estadística es porque a veces se utilizan datos numéricos para apoyar razonamientos falsos. 2. APLICACIONES DE LA ESTADÍSTICA EN LAS CIENCIAS SOCIALES Las aplicaciones de la estadística en las ciencias sociales son muy variadas: 1. resumen de los datos y extracción de información relevante de los mismos, e.d., de las mediciones observadas; 1. búsqueda y evaluación de modelos y pautas que ofrecen los datos, pero que se encuentran ocultos por la inherente variabilidad aleatoria de los mismos; 1. contribuir al diseño eficiente de experimentos y encuestas; 1. facilita la comunicación entre los científicos, ya que será más fácil comprender la referencia a un procedimiento estándar sin necesidad de mayor detalle. 3. ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL La estadística cumple dos funciones fundamentales, que se van a definir a su vez en dos tipos de estadística: 1. LA ESTADÍSTICA DESCRIPTIVA; conjunto de técnicas para la reducción de datos cuantitativos y cualitativos de una población o una muestra a un número más pequeño y de lectura más simple, de modo 1

29 Pp - a Aplicada a Las Ciencias Sociales

  • Upload
    alehern

  • View
    217

  • Download
    2

Embed Size (px)

Citation preview

Page 1: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

E S T A D Í S T I C A ( 1 º p p )

Tema 1: EL ANÁLISIS DE DATOS SOCIOLÓGICOS

1. CONCEPTO DE ESTADÍSTICALa estadística trata de buscar un método para examinar los procesos sociales y

para suministrar bases a las decisiones en la investigación. Es una ciencia, ya que trata de hallar regularidades en los fenómenos sociales, de

manera que sirvan para describir y predecir. Es la colección de métodos científicos que permiten el análisis e interpretación de la información numérica.

Hay una actitud poco favorable hacia la estadística que se produce paradójicamente en una sociedad en la que la información cuantitativa invade los aspectos más íntimos de nuestra vida: paro, divorcio, gasto público, etc.

Históricamente desde la óptica pagana o cristiana no había azar; todos los fenómenos obedecían a leyes divinas y no a la probabilidad. Hasta que Europa no superó la teología y filosofía medieval no fue posible desarrollar el cálculo de las probabilidades.

Desde finales del siglo XIX comienzan a descubrirse regularidades en disciplinas tan diversas, como la genética, biología, meteorología, economía, psicología e incluso en las artes.

La demografía y las compañías de seguros ayudaron a desarrollar la estadística; el primer censo de población en España se refiere al año 1860. Las compañías de seguros necesitan tablas de esperanza de vida.

Parte del desprestigio de la estadística es porque a veces se utilizan datos numéricos para apoyar razonamientos falsos.

2. APLICACIONES DE LA ESTADÍSTICA EN LAS CIENCIAS SOCIALESLas aplicaciones de la estadística en las ciencias sociales son muy variadas:

1. resumen de los datos y extracción de información relevante de los mismos, e.d., de las mediciones observadas;

1. búsqueda y evaluación de modelos y pautas que ofrecen los datos, pero que se encuentran ocultos por la inherente variabilidad aleatoria de los mismos;

1. contribuir al diseño eficiente de experimentos y encuestas;1. facilita la comunicación entre los científicos, ya que será más fácil comprender

la referencia a un procedimiento estándar sin necesidad de mayor detalle.

3. ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIALLa estadística cumple dos funciones fundamentales, que se van a definir a su vez en dos

tipos de estadística:1. LA ESTADÍSTICA DESCRIPTIVA; conjunto de técnicas para la reducción de

datos cuantitativos y cualitativos de una población o una muestra a un número más pequeño y de lectura más simple, de modo que podamos caracterizar de forma resumida los valores adoptados por las variables de nuestro estudio. La principal característica es que las conclusiones no superan el límite del colectivo estudiado .

1. LA ESTADÍSTICA INFERENCIAL; conjunto de técnicas para tomar decisiones acertadas que ayuden a los investigadores a hacer inferencias (= deducciones) de las muestras a las poblaciones y, en consecuencia, a comprobar hipótesis relativas a la naturaleza de la realidad social mediante un proceso de deducción - inducción. Se ocupa de la forma en la que se pueden obtener muestras fiables y los resultados obtenidos en ellas se pueden hacer extensibles a la población en general. La principal característica es que las conclusiones superan el límite del colectivo estudiado.

Algunos científicos no distinguen entre las dos ramas mencionadas de la estadística y quizá desde un punto de vista estricto no exista tal división.

La estadística tiene una naturaleza dual; de un lado representa una rama de las matemáticas, de otro trabaja con conceptos abstractos.

4. RELACIÓN ENTRE ESTADÍSTICA Y SOCIOLOGÍAHemos de ser conscientes de las dificultades que plantea el análisis estadístico del

mundo social por varios factores, p.e. la medición de fenómenos, la subjetividad.

1

Page 2: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

En el tratamiento estadístico daremos el error con el que trabajaremos numéricamente y la fiabilidad con que hacemos la investigación.

Hemos de saber que la Ciencia Estadística al dar el resultado de fenómenos sociales es acertada, e.d., no falla el instrumento si está bien utilizado.

Si el problema que nos ocupa no está teóricamente bien definido, de poco servirá la utilización de un gran aparato estadístico. La estadística es siempre una buena ayuda, pero nunca un sustituto para un buen razonamiento teórico y un buen quehacer metodológico. Es un instrumento de la Sociología.

Los fundadores de la sociología reconocieron la importancia de la obtención de información cuantitativa relevante sobre los fenómenos sociales y de su tratamiento estadístico para construir una ciencia sobre la sociedad. "La estadística expresa cierto estado del alma colectiva" (Durkheim).

A finales del siglo XIX los sociólogos disponían de pocos datos pero de mucho genio creador para las bases teóricas; hoy en día se dispone de un mar de datos sociológicos, pero los avances teóricos son muy pobres. El análisis multivariable puede suponer una gran ayuda.

Términos:En los cuestionarios se incluyen preguntas sobre la edad, el nivel de educación, religión,

etc. Estos datos son denominados variables. El "objeto" de la variable es la unidad de análisis, p.e. un individuo, familias, partidos políticos.

Una población estadística o universo lo forman el conjunto de todos los valores de las variables que desea medir el investigador en todas las unidades de análisis. Pueden ser finitas o infinitas.

Los sociólogos seleccionan a un subconjunto de valores llamados muestra estadística. A la obtención de muestras que sean suficientemente representativas de la población que se pretende estudiar dedican los sociólogos notables esfuerzos, ya que se ahorra tiempo y costos.

La estadística debe medir el universo real y por ello se basa en medidas sujetas a error, pues en lo real nunca se puede alcanzar la exactitud perfecta. Uno de los mayores problemas es que el sociólogo no influya excesivamente en la alteración de los fenómenos con su presencia y sus instrumentos de medida.

parámetros: observación que se refieren a una población;estadísticos; observaciones que se refieren a una muestra.

2

Page 3: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Tema 2: EL PROBLEMA DE LA MEDICIÓN EN SOCIOLOGÍA

1. EL PROBLEMA DE LA MEDICIÓN EN SOCIOLOGÍAEn primer lugar hemos de medir los conceptos; hay que cuantificar las variables que

definen el fenómeno social.La medición sería la fase intermedia:1. razonamiento teórico2. medición3. introducción de los métodos estadísticos de investigación.La combinación ponderada de valores que toman cada uno de los indicadores (p.e.

nivel de ingresos, años de escuela y ocupación) forman un índice (status socioecómico), que tomará valores numéricos concretos.

El empleo de las herramientas estadísticas requiere que las variables sociológicas sean cuantificadas siguiendo el nivel de medición que las propiedades exigen.

El procedimiento de medición se busca fijándose en dos aspectos: la fiabilidad; propiedad del instrumento que le permite que al ser utilizado

repetidas veces bajo idénticas circunstancias produzca iguales efectos. la validez; que el instrumento mida lo que realmente queremos medir.

Validez interna: ¿se obtendrían resultados diferentes si se hubieran utilizado procedimientos diferentes?Validez externa: ¿cuán generalizable es el procedimiento utilizado?

Cualquier proceso de medición debe ser exhaustivo, e.d., con categorías suficientes en las que puedan clasificarse cada uno de los casos considerados. Las categorías deben ser mutuamente excluyentes, e.d., que debe ser posible clasificar cada caso individual tan sólo en una categoría. También debe ser lo más preciso posible, e.d, que haya el mayor número de distinciones.

2. TIPOS DE MEDICIÓNLos distintos niveles forman una escala acumulativa de tipo ascendente; el nivel ordinal

posee las propiedades del nominal. Una de las metas más perseguidas por los científicos del comportamiento es la de obtener medidas, cuyas naturalezas admitan el nivel de medición intervalar.

1. Nivel nominalEs el nivel más bajo de medición y permite la clasificación, p.e. religión, sexo, etc., sin

que uno sea superior a otro.No puede teóricamente realizarse directamente operaciones matemáticas con ellas. Se

sustituyen los objetos reales por números o símbolos indicando sólo la diferencia respecto a una cualidad dada, para poder realizar operaciones matemáticas.

2. Nivel OrdinalNos encontramos con un nivel que permite clasificación y orden de mayor a menor o

viceversa, p.e. ingresos medios según clase baja, media y alta. No ofrece ningún tipo de información sobre la magnitud de las diferencias entre las

categorías, sólo que 3 > 2 > 1.3. Nivel IntervalarEste nivel nos clasifica, ordena y nos indica la distancia entre distintas categorías.

Lo característico es la existencia de una unidad de medida común y constante que permite asignar un número real a todos los pares de objetos del conjunto ordenado, p.e. el coeficiente de inteligencia, grados de temperatura.

En este nivel de medición el punto cero está arbitrariamente determinado y no representa ausencia completa de la característica que se mida.

Sigue la discusión sobre la viabilidad del empleo de escalas de intervalo continuas, pues se argumenta que al tener en cuenta el factor psicológico se pierde la propiedad de igualdad de las diferencias entre los intervalos, p.e. no es lo mismo ingresos de 50 - 70.000 que de 500 - 520.000. Pero éste es un hecho social que habrá que tener en cuenta al interpretar los resultados, no al realizar los cálculos estadísticos.

4. Nivel de proporción

3

Page 4: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Es similar al anterior, ya que permite clasificación, orden y distancia, pero el cero en este nivel es absoluto y representa la ausencia completa de la característica que mide, p.e. el peso, la masa, el tiempo.

La distinción con la anterior es puramente académica, ya que una vez establecida la magnitud de la unidad es casi siempre posible concebir 0 unidades.

Si se utilizara un procedimiento estadístico poco apropiado para niveles bajos de medición con puntuaciones definidas a un nivel de medición más alto, no se cometería un error técnico, sino que se produciría una pérdida de información, dado que las propiedades de los niveles de medición son acumulativas.

Situación laboral (ocupado, jubilado, parado) NOMINALPosición ideológica (extrema izq., izq., etc.) ORDINALIngresos mensuales de familias madrileñas INTERVALO (=

proporción)

3. TIPOS DE VARIABLESVariable independiente; son las que influyen en las dependientes; permiten conocer

porqué varía la variable dependiente de la forma en la que lo hace.Variable dependiente; es la que atrae primordialmente la atención del investigador y

cuya variación trata de explicar.Variable interviniente; se supone que tiene un efecto determinado sobre la variable

dependiente que puede ser controlado por la variable independiente.Ej.: estudio sobre las causas del divorcio. La situación matrimonial es la variable

dependiente, que habría que explicar a partir de otras variables independientes.Las variables son:* cualitativas: no pueden adoptar valores numéricos* cuantitativas: sí pueden adoptar valores numéricos:** discretas; valores con números enteros, nº hijos.

** continuas: con infinitos valores fraccionados, p.e., temperaturas.La mayoría de las variables nominales son discretas.

4

Page 5: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Tema 3: ESTADÍSTICA DESCRIPTIVA UNIVARIABLE

1. LA LÓGICA DEL ANÁLISIS COMPARATIVOHablamos de Estadística Descriptiva Univariable cuando es sólo una variable la de

estudio.La información utilizada en el análisis sociológico está basada muchas veces en la

comparación, p.e. el porcentaje de abstención en una CC.AA. fue mayor que en otra.

2. TIPOS DE COMPARACIÓN:Insistimos en que el análisis estadístico sólo puede ser relevante y fructífero una vez se

hayan resuelto, al menos suficientemente, los problemas de teoría, conceptualización, medición y diseño que toda investigación comporta:

entre grupos, dentro del mismo estudio o entre diferentes, p.e. entre un grupo experimental al que se le ha sometido a un tratamiento conocido (p.e. alumnos educación especial) y un grupo de control no sometido a dicho tratamiento.

entre un individuo y un grupo, p.e. nota de 1 alumno y la media de una clase, delincuencia de una ciudad con la sociedad en general. Lo importante consiste en delimitar y definir las características del grupo que se compara con las correspondientes al individuo.

entre el resultado de un estudio y uno estándar, p.e. paro. La teoría sociológica está repleta de resultados que pueden servirnos para contrastar los hallazgos de nuevas investigaciones. Tales comparaciones servirán además para contrastar en el sentido de modificar o rechazar la teoría que sirve como comparación estándar.

3. OPERACIONES BÁSICAS DE COMPARACIÓN3.1. Organización de datosUna vez se hayan obtenido los datos que nos interesan conviene ordenarlos según algún

criterio, que nos permitirá observar con mayor facilidad la distribución de los datos y el lugar dónde termina un grupo y comienza otro.

3.2. Tipos de distribucionesEl agrupamiento de datos no sólo reporta ventajas, sino que presenta el inconveniente

del "error de agrupamiento", que son las alteraciones que se producen al realizar algunos agrupamientos al variar N.

DISTRIBUCIÓN DE FRECUENCIAS; consiste en ordenar los datos de manera que en una columna aparezca la variable (sea del tipo nominal, ordinal o intervalar) y en la otra columna aparezcan las frecuencias absolutas (e.d. el número de veces que se repite cada categoría).

DISTRIBUCIÓN PORCENTUAL; primero hay que calcular la proporción que es igual al número de casos en la categoría dividida por el número total de casos en la distribución (p=a/N). El valor de una proporción no puede ser mayor que 1. Los % se obtienen a partir de las proporciones multiplicado por 100. La suma de los % es 100. En lugar de los valores absolutos en una distribución de frecuencias se utilizan los correspondientes %. Facilita la comparación y evita una importante fuente de error. Es conveniente que el valor de N sea superior a 50; si no es mejor ofrecer el número real de casos. Tampoco los números muy grandes son convenientes, p.e. en lugar de decir que los visitantes del año pasado aumentaron un 1200% es mejor decir que aumentó 12 veces.

DISTRIBUCIÓN ACUMULADA; se forma al indicar para cada categoría el número de casos por debajo de dicha categoría. Son útiles para la comparación cuando se desea comparar la forma en que los casos se distribuyen a lo largo de una escala.

Edad n % Frec. Acumulada % acumulado

de 18 a 20 10 8,3 10 8,3de 21 a 25 14 11,7 24 20,0de 26 a 35 23 19,2 47 39,2

N = 120

4. REGLAS GENERALES PARA FORMAR DISTRIBUCIONES DE FRECUENCIAS1. Distribución de frecuencias para datos nominales Consiste en 2 columnas:

5

Page 6: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

x (sexo) nHombres 25Mujeres 25

n = N = 50

2. Distribución de frecuencias para datos ordinales Se representa el grado en que está presente una característica en particular:

x (estatus) nclase alta 5clase media 30clase baja 15

n = N = 50

3. Distribución de frecuencias para datos intervalares En una columna aparecen los valores de la variable y en otra las frecuencias. Para

facilitar la lectura se constituyen las distribuciones de frecuencias agrupadas.

x (edad) n Límite real20 - 30 10 19,5 - 30,530 - 40 20 30,5 - 40,540 - 50 20 40,5 - 50,5

n = N = 50

n = frecuencia absoluta / N = frecuencia total / x = variable* Intervalo de clase; cada grupo de valores de la variable en una distribución.* Tamaño o amplitud del intervalo de clase; diferencia entre el límite superior e inferior(a= Ls - Li); puede ser idéntico o diferente en cada intervalo.3.1. Conversión a una distribución de frecuencias agrupadas (variable discreta)

x (edad) n10 315 216 620 925 626 635 1540 1645 1750 18

n = N = 98

1. Definir la diferencia entre el máximo valor y el mínimo: Rv = 50 - 10 = 402. Nº de clases que desean formarse (ideal entre 5 y 15): 40 : 5 = 83. x (edad) n

10 - 18 1118 - 26 2126 - 34 034 - 42 3142 - 50 35

n = N = 98

5. DESARROLLO DE LAS TABLAS DE DISTRIBUCIÓN DE FRECUENCIA* Marca de clase (xi); es el punto medio entre el límite superior e inferior del intervalo de clase:

x n10-20 10 Xi = Ls + Li : 2 = 10 + 20 : 2 = 15

6

Page 7: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Consiste en definitiva en pasar de la variable de tipo continuo a una variable de tipo discreto.

* Límites reales de clase;

1. x 2. x 3. x 4. x15 - 20 10 - 20 15 - 20 15 - 19,920 - 30 21 - 30 20,1 - 30 20 - 29,930 - 40 31 - 40 30,1 - 40 30 - 39,9

Los más utilizados son 1. y 2.; porque el valor 20 en el primer caso ¿dónde lo incluiríamos? El segundo caso es el más preciso.

5.1. Cuartiles, deciles y percentilesPodemos dividir las distribuciones, no ya en 2 partes que nos dejen el 50% a cada lado,

sino en 4 (cuatriles), en 10 (deciles) y en 100 (centiles).

Q1 Q2 Q3 Q4--------------------------------------------------------------------

25% 25% 25% 25%

Q1 = valor de la variable que deja a su izquierda el 25% y a su derecha el 75%Q2 = Me; valor de la variable que deja a su izquierda el 50% y a su derecha el 50%Q3 = valor de la variable que deja a su izquierda el 75% y a su derecha el 25%Q4 = coincide el último valor de la variable, que deja a su izquierda el 100%

Nx/4 - Na - 1Qx = Li + ----------------- * C

n

Nx/10 - Na - 1Dx = Li + ------------------- * C

n

Nx/100 - Na - 1Cx = Li + -------------------- * C

n

C20 deja por debajo de su valor un 20% de los casos.

5.2. RazónP.e. si en un parlamento hay 160 diputados de izquierda, 150 de derechas y 80

regionalistas, la razón de los diputados de izquierda a los de derecha = 160/150, y la razón de los de izquierda y regionalistas a los de derecha = 160 + 80/150.

nº de casos en una categoría o valorRazón = ---------------------------------------------------

nº de casos de otra

Las tasas son un tipo de razón para números grandes. Las tasas de crecimiento relativo son muy utilizadas, p.e. tasa de crecimiento de la renta per cápita que ha pasado en 1960 a 1970 de 1500 a 2000. Si el número es negativo es que hay una tasa de decrecimiento.

2000 - 1500---------------- = 0,33 x 100 = 33% 1500

6. TÉCNICAS BÁSICAS DE REPRESENTACIÓN GRÁFICALa representación gráfica se realiza no tanto con fines analíticos como para ofrecer una

imagen asequible de los resultados de las investigaciones.La mayoría de las mediciones en sociología se realizan a escalas que parten desde 0 en

dirección positiva, por lo que muchas veces se omiten los valores negativos.1. Histograma

7

Page 8: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Si la variable es nominal, los rectángulos del histograma se separan ligeramente para visualizar que se trata de categorías diferentes.

Los ordinales se tratan como los intervalares, juntando, si lo permite, los rectángulos.2. PolígonosEs una figura que se cierra al unir los puntos medios de cada intervalo a una altura

proporcional a la frecuencia.El polígono queda cerrado y el área que contiene es igual al área de la suma de los

rectángulos del histograma.3. OjivasSon polígonos de frecuencias acumuladas. El primer punto vendrá dado por el límite real

inferior del primer intervalo; para los restantes valores de 'x' se utilizan los valores del límite real inferior de cada intervalo (de 43 a 45 - menos de 42,5; de 46 a 48 - menos de 45,5).

Si los valores 'x' son 43 o más ; 46 o más se produce una ojiva de pendiente inversa.4. Línea de grafosMuestra el valor de una variable dependiente (Y) para cada valor de la variable

independiente (X). La línea se traza por los puntos, pero no se cierra sobre X, ya que el área bajo la línea no tiene ninguna importancia. Lo que interesa es la forma que adopta, como crece y decrece.

8

Page 9: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Tema 4: CARACTERÍSTICAS DE UNA DISTRIBUCIÓN UNIVARIABLE

1. CARACTERÍSTICAS DE UNA DISTRIBUCIÓN UNIVARIABLELa clasificación de datos cuantitativos y la construcción de una distribución de

frecuencias constituyen el primer paso en el trabajo de organización y análisis.Para ciertos fines la misma distribución de frecuencias puede resumirse y condensarse,

hasta quedar reducida a 2 ó 3 cifras significativas y representativas de la distribución.La uniformidad en el comportamiento de masas de datos hace posible el desarrollo de un

método generalizado para organizar, analizar y comparar mediciones obtenidas de distintos campos de estudio científico.

La comparación de un gráfico de líneas de grafos nos ayuda a ver que las distribuciones se conocen por su

- Tendencia Central- Dispersión- Forma

Las medidas de TENDENCIA CENTRAL, nos informan sobre la concentración de número de casos. Las más utilizadas son:

- Media y media ponderada- Mediana- Moda- Cuartiles, Deciles y Percentiles

Las medidas de DISPERSIÓN nos van a mostrar la dispersión del número de casos:- Rango o recorrido- Desviación Media- Varianza- Coeficiente de variación de Pearson

Las medidas de distribución incluyen las llamadas de FORMA, que son las curvas de los datos. Adoptarán distintas formas según las distribuciones sean normales (concentración en el centro) o asimétricas (concentración al extremo o por igual en todo el gráfico).

2. MEDIDAS DE TENDENCIA CENTRAL (son estadísticos)Entendemos por 'tendencia central' la tendencia de las observaciones a agruparse

en torno a un valor particular. Hay una medida de tendencia central adecuada a cada nivel de medición.

2.1. MODA(nominal, ordinal e intervalar)Valor que se presenta con mayor frecuencia; es el número más común de la

distribución (el pico más alto en un polígono).En las distribucionesa) 2 3 3 3 5 5 Moda = 3; unimodalb) 6 3 2 2 5 5 Moda = 2 y 5; bimodal (o multimodal)

En datos agrupados la moda está en el intervalo con más frecuencia que se denomina clase modal.

De 9 a 11 10De 7 a 8 7De 4 a 6 15 Moda = 5

Li + LsMo = ---------

2

La Moda tiene la virtud de ser fácilmente reconocible, pero el inconveniente de no ser necesariamente única (p.e. multimodales).

Moda para variable de tipo continuo con amplitud constante:

ni+1Mo = Li + ------------------------- * C

ni +1 - ni -1

9

Page 10: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Li = límite inferior del intervalo modalni + 1 = frecuencia absoluta del intervalo posterior al intervalo modalni - 1 = frecuencia absoluta del intervalo anterior al intervalo modalC = amplitud del intervalo modalModa para variable de tipo continuo con amplitud variable:

ni+1 * Ci - 1Mo = Li + ----------------------------------------- * C

ni +1 * Ci - 1 + ni -1 * Ci + 1

Ci - 1 = amplitud del intervalo anterior al intervalo modal Ci + 1 = amplitud del intervalo posterior al intervalo modal

2.2. MEDIANA (ordinal e intervalar)

Es el valor que deja por encima y por debajo a la mitad de las puntuaciones de una distribución. Para distribuciones intervalares:

N/2 - Na - 1ME = Li + --------------- * C

nN/2 = frecuencia total : 2 / Na - 1 = frecuencia acumulada anterior al intervalo medianoHay que utilizar el intervalo, cuya frecuencia acumulada Na incluya N/2. Es poco

influida por valores extremos, pues es sólo el punto que divide todos los casos en 2.

2.3. MEDIA ARITMÉTICA (intervalar)Es la suma de todas las puntuaciones de una distribución dividida por el número

de casos. Se denota por para muestras y para poblaciones.Tiene como ventaja que es bastante estable de una muestra a otra, e.d., que si tomamos

varias muestras de una población sus medias tienden a diferir menos que otras medidas de tendencia central. Es una buena medida para comparaciones.

Para datos agrupados: si la variable es de tipo continuo hay que calcular la marca de clase 'xi' para después utilizar la fórmula.

xn = -------

N

xn = sumatorio del producto de cada valor 'x' por su correspondiente frecuencia 'n'.N = frecuencia total.

3. COMPARACIÓN ENTRE LAS DIVERSAS MEDIDAS DE TENDENCIA CENTRALHay que pensar qué se va a hacer una vez hallada la medida de tendencia central. Si se

puede elegir conviene la por su estabilidad y sobre todo si pensamos hacer un estudio posterior.

Hemos visto que la utiliza más información que la Me, en el sentido de que todas las puntuaciones entran en el cálculo de la , mientras que el cálculo de la Me tan sólo implica la puntuación del caso medio.

Por ello la queda afectada por cambios en los valores extremos, cosa que no ocurre en el caso de la Me.

La media nos indica que repartida toda la distancia entre todos los alumnos de forma igual cada uno recorre 8,98 Km.

La moda Mo indica que el número más numeroso recorre 8,05 Km.La mediana Me parte en dos el grupo de alumnos de forma que la mitad recorre menos

de 8,5 km. Y la otra mitad más de 8,5 Km.

10

Page 11: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Tema 5: VARIACIÓN O DISPERSIÓN DE UNA DISTRIBUCIÓN

Las medidas de dispersión o variación deben acompañar a las medidas de Tendencia Central para conocer hasta qué punto la medida de Tendencia Central elegida representa o no a la distribución de frecuencias.

Cuanto menor sea la medida de dispersión mayor será la representatividad de la medida de Tendencia Central y vicecersa.

1. MEDIDAS DE VARIABILIDAD ABSOLUTA1.1. RANGOEs la diferencia entre el mayor y el menor número. Es una medida muy simple y sólo nos

da el abanico de elementos que existe en la distribución. Es poco fiable, pues no tiene en cuenta los valores medios.

Edad (x)151618 R = 20 - 15 = 520

1.2. DESVIACIÓN MEDIA

|x - | Dm = ----------- = = 6

N

La desviación media es el promedio de las desviaciones a la media y viene dada en números absolutos.

Ej.: |2-6| + |4-6| + |6-6| + |8-6| + |10-6| |-4| + |-2| + |0| + |2| + |4|Dm = ---------------------------------------------- = -----------------------------------

5 54 + 2 + 0 + 2 + 4

Dm = ------------------------- = 2,45

El valor absoluto de un número es el mismo número sin asociarle signo alguno y se indica por | |.

En distribuciones de frecuencia, hay que calcular el punto medio:

|xi - | nDm = --------------

NEn general cuanto mayor sea el valor de la 'Dm' mayor será la variación entre las

diferentes puntuaciones.1.3. DESVIACIÓN TÍPICA Y VARIANZAPuesto que la desviación típica refleja la dispersión de las puntuaciones, resulta en cierto

sentido una estimación del error.La desviación típica es la medida de dispersión o variabilidad por excelencia y se

utiliza con la ; indica el grado de dispersión de los valores respecto a la . Se denota por cuando son parámetros y por S cuando son estadísticos.

Son medidas muy parecidas, pero en lugar de tomar los valores absolutos de las desviaciones toman el cuadrado de la mismas. Los números negativos al cuadrado son positivos.

Si dos distribuciones tienen la misma para diversa dispersión, resulta más precisa la de menor desviación estándar.

(x - )2 nVarianza: S2 = 2 = -----------------

N

11

Page 12: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Es el valor medio del cuadrado de las desviaciones: tiene el inconveniente de medir la desviación en unidades cuadradas.

(x - )2 nDesviación típica: S = = -----------------

N

Es la raíz cuadrada de la varianza. Propiedades de la DESVIACIÓN TÍPICA:1. nos va a dar la homo- o heterogeneidad de una distribución;2. si todos los valores en la distribución son iguales, la desviación típica S = 0;3. es siempre un número positivo;4. varía de distribución a distribución aún con las mismas ;5. puesto que es la base de la inferencia, podemos decir que cuando la S es muy alta, las predicciones nunca pueden ser muy buenas.6. los valores extremos tienen un gran peso, ya que son elevados al cuadrado.

Los programas estándar de análisis de datos sociológicos, sobre todo, de los provenientes de encuestas, calculan ya como parte de su rutina, la y la S.

2. MEDIDAS DE VARIABILIDAD RELATIVAVienen en % y son más fáciles de interpretar y comprender. Se utilizan:

1. cuando hablamos de unidades de medida desiguales, p.e. coeficiente de inteligencia;

1. cuando son promedios desiguales, pero con iguales unidades de medida, p.e. edad en dos grupos.

2.1. COEFICIENTE DE VARIABILIDAD DE PEARSONSe utiliza cuando hay una , aunque no debe utilizarse cuando está próxima a 0. Mide la

dispersión relativa.Es útil para comparar diversos grupos en relación a su relativa homogeneidad cuando los

grupos tienen diferentes.

S Desviación típicaV = Cv = --- * 100 = ------------------------

Media aritmética

Ej.: Católicos frente al aborto V = 2/3,5 = 0,57 = 57%No creyentes V = 2,4/5,4 = 0,44 = 44 %

La desviación típica del grupo de católicos es el 57% de la , valor superior al 44% de la que vale la desviación típica entre los no creyentes.

2.2. PUNTUACIONES NORMALIZADAS O UNIDADES ZHasta ahora hemos visto procedimientos estadísticos que comparan grupo a grupo o con

grupos tipo estándar.Son ideales para comparaciones entre 1 individuo y 1 grupo. Es el número de unidades

de desviación típica que un individuo queda por encima o por debajo de la de su0 grupo.

Las puntuaciones que se han transformado o convertido en distancias de desviación estándar, a partir de la , se conocen como puntuaciones Z, e.d., Z determina la posición relativa de una puntuación dentro de su propia distribución.

En la puntuación normalizada se elimina el efecto de la por sustracción y se expresa la diferencia en unidades de desviación típica al dividir por ella.

Las cantidades de las unidades Z son adimensionales, e.d., son independientes de las unidades empleadas.

x - Z = -------

S

= media aritmética de la distribución

12

Page 13: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

S = desviación típica de la distribuciónPropiedades de las unidades Z:1. si se transforma una distribución en unidades Z, no varía la forma de la distribución original (si es asimétrica, lo seguirá siendo);2. La media de los valores de Z = 03. La S2 = S = 1.3. Z2 = N

13

Page 14: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Tema 6: FORMA DE UNA DISTRIBUCIÓN Una distribución de frecuencias queda bastante bien caracterizada cuando

conocemos su medida de tendencia central y su medida de variabilidad, pero queda aún mejor caracterizada si conocemos su grado de asimetría y su apuntamiento o kurtosis, e.d., si conocemos la forma de distribución.

Estas medidas de asimetría que vamos a estudiar parten del hecho de que todos los valores de la curva normal teórica se representan simétricamente distribuidas en torno a la media aritmética ().

1. CARACTERÍSTICAS DE LA FORMA DE UNA DISTRIBUCIÓN

1.1. MEDIDAS DE ASIMETRÍA

Es fundamental conocer si las observaciones están dispuestas respecto a un valor central o se dipersan asimétricamente respecto a dicho valor.

Si la curva es simétrica (= normal) la , Me y Mo coincidirán en un punto.

Unimodal y simétrica Bimodal Multimodal = Me = MoCorresponde al investigador decidir cuantas modas considera relevantes. Hay dos tipos

de asimetría:

1. DIRECTA O POSITIVA; muchas puntuaciones bajas y pocas altas

Mo < Me <

2. INVERSA O NEGATIVA; muchas puntuaciones altas y pocas bajas

< Me < Mo

COEFICIENTE DIRECTO DE ASIMETRÍA O SESGOEs el más fiable y utilizado para medir la asimetría.

(x - )3

------------- N

B1 = a3 = ---------------- S3

Para datos agrupados: (xi - )3 n--------------- N

B1 = a3 = ---------------- S3

a3 = 0 ==> simetría normal; = Me = Moa3 = + ==> asimetría positiva; Mo < Me <

14

Page 15: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

a3 = - ==> asimetría negativa; < Me < Mo

1.2. MEDIDAS DE APUNTAMIENTO O CURTOSIS

Mide el grado de concentración de frecuencias en un punto o intervalo de puntos de la distribución (normalmente la Mo). Tiene en cuenta la distribución de las observaciones entre las clases próximas a la y las clases situadas en los extremos o colas de la distribución.

Cuando la curva presenta las puntuaciones más normalmente distribuidas ==>> curva mesocúrtica

Cuando la curva presenta un gran apuntamiento ==>> curva leptocúrtica

Cuando la curva es achatada, y por tanto no hay concentración de frecuencias con respecto a un punto justo de la distribución ==>> curva platicúrtica

COEFICIENTE DE EXCESOEs la medida que nos permite conocer el grado de apuntamiento o curtosis.

(x - )4

--------------- N

B2 = a4 = ---------------- - 3 S4

Para datos agrupados: (xi - )4 n--------------- N

B2 = a4 = ---------------- - 3 S4

a4 = 0 ==>> mesocúrtica; bien distribuidaa4 = + ==>> leptocúrtica; mayor concentracióna4 = - ==>> platicúrtica; menor concentraciónPuede presentarse una asimetría de izquierda y ser con respecto a la kurtosis platicúrtica

o leptocúrtica y viceversa.

1.3. OTRAS FORMAS DE CURVAS

Curva J:Casi todos los datos seconcentran en un extremode la escala.Curva rectangular:Cuando una distribucióntiene idénticas frecuenciasen todas las categorías.Curva en forma de U:Aparece en distribuciones bimodales con las modas en ambos extremos.

15

Page 16: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Tema 7: INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL

1. ELEMENTOS BÁSICOS DE LA ESTADÍSTICA INFERENCIALLa Estadística Inferencial se puede considerar como el estudio de grupos

pequeños (muestras), a fin de sacar conclusiones respecto a grandes grupos de personas (poblaciones). La utilización de muestras es muy práctica para ahorrar tiempo y recursos. La sociología aspira a establecer principios científicos que nos permitan predecir la conducta social.

Las medidas resumen que hemos estudiado en la estadística descriptiva no se pueden utilizar para obtener generalizaciones que sean aplicables a individuos. El valor de una teoría científica radica en su capacidad para predecir más allá de los datos que sirvieron de base para formularla.

Cuando nos referimos a las características de una población, hablaremos de parámetros (letras griegas; , ) mientras que si nos refrimos a las características de una muestra tendremos estadísticos (letras latinas; , S).

Los parámetros, que son valores fijos de la población, suelen desconocerse; los estadísticos que varían de muestra a muestra se utilizan para estimar los parámetros.

La Estadística Inferencial se basa en la la teoría de las probabilidades y la teoría del muestreo.

Un fenómeno se dice aleatorio si puede dar lugar a varios resultados sin que pueda ser posible enunciar con certeza real cuál va a ser el resultado del experimento. El espacio muestral sería el conjunto de los posibles resultados de ese experimento aleatorio ().

La P enlaza la estadística descriptiva con la inferencial; permite que los datos obtenidos en una muestra puedan ser generalizados.

2. NOCIONES BÁSICAS DE PROBABILIDAD Y DEFINICIÓNLa probabilidad matemática y las leyes del azar, se refieren tan sólo a sucesos

repetidos bajo condiciones determinadas y constantes (p.e. no tiene sentido "es probable que mañana llueva", porque no es un suceso repetitivo).

Según esta descripción, tan sólo se podrían aplicar las probabilidades a sucesos tales como la tirada de dados, los juegos de azar y otros sucesos en los que prevalece a largo plazo la variación aleatoria.

El investigador tiene dos métodos disponibles: el apriorístico y el empírico. En casos como juegos de dados se utiliza la probabilidad apriorística, pero hay muchos otros casos dónde no se puede.

Las probabilidades empíricas se basan en el supuesto de que la proporción de aparición de los sucesos observados en el pasado persistirán en el futuro, ej. las compañías de seguros estiman las tasas de fallecimiento para establecer los baremos de las pólizas de los seguros de vida.

Definición: es el número que caracteriza la posibilidad de que se produzca un suceso si hay 'n' resultados igualmente probables; es la frecuencia relativa con la que ocurre dicho acontecimiento.

PROPIEDADES MATEMÁTICAS DE LAS PROBABILIDADES1. Si P(A) = 1 el acontecimiento A ocurrirá seguro Si P(A) = 0 no es posible que A tenga lugar.

casos favorablesP(A) = ----------------------

casos posibles

0 ≤ P(A) ≤ 12. REGLA DE LA ADICIÓN; saber qué probabilidad hay de que ocurra A ó B2.1. Fenómenos mutuamente excluyentes:

P(A ó B ó C) = P(A) + P(B) + P(C), etc.

La probabilidad de que A no suceda será: 1 - P(A) = P(B) + P(C)2.2. Fenómenos no mutuamente excluyentes:

16

Page 17: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

P(A ó B) = P(A) + P(B) - P(AB) P(AB) = la probabilidad de obtener simultáneamente A y B; se sustrae porque la probabilidad de ocurrencia conjunta se ha contado dos veces, p.e. en 1 elección extraer a 1 licenciado en políticas o a 1 en derecho; puede darse una persona licenciada en derecho y en políticas.

3. REGLA DE LA MULTIPLICACIÓN; nos permite saber si dos o más sucesos pueden

ocurrir a la vez.

3.1. Fenómenos mutuamente excluyentes: P(A y B) = 0

no pueden suceder a la vez.

3.2. Fenómenos no mutuamente excluyentes

3.2.1. Sucesos independientes; si el hecho de que ocurra A no tiene efecto sobre

la probabilidad de que ocurra B.P(A y B y C) = P(A) P(B) P(C)

3.2.2. Sucesos dependientes; = probabilidades condicionales: el hecho de que ocurra A afecta a la probabilidad de que ocurra el segundo.

P(A y B) = P(A) P(B/A) = P(B) P(A/B)P(B/A) significa la probabilidad que ocurra el suceso B una vez que ha ocurrido A.

P(A y B y C) = P(AB) P(C/AB) = P(A) P(B/A) P(C/AB)Un modelo que explica cómo se desarrollan los sucesos de un fenómeno dado en el

tiempo se denomina un proceso; y si está regido por leyes de probabilidad se denomina proceso estocástico. La palabra estocástico significa que los sucesos son probabilísticos en lugar de determinísticos, e.d., es posible asignar probabilidaddes a la ocurrencia de tales sucesos.

3. COMBINATORIA

El análisis combinatorio se utiliza para la obtención de probabilidades de un suceso complejo, cuando la enumeración de los casos resulta difícil y pesada; p.e. cuando se tira una moneda es fácil, pues sólo hay dos soluciones. Es para lograr el número de casos posibles.

3.1. VariaciónSe refieren a los distintos grupos que se pueden formar con 'm' elementos tomados de 'n'

en 'n', siendo n < m, con la condición que dos grupos serán distintos si difieren en el orden o en la naturaleza de sus elementos.

m!Vm,n = ----------

(m - n)!

n! = el producto de todos los números naturales desde 1 a n; ej. 4! es 4 * 3 * 2 *1 = 24.0! = 1Variación con repetición; cuando se puede dar la repetición de los elementos:

Vm,n = mn

3.2. Permutaciones (ej. pág. 130)Tenemos permutaciones cuando los grupos varían tan sólo en el orden de los elementos

que lo integran. Pueden considerarse como un caso particular de las variaciones cuando m = n.Pm,n = n!Pn,n = n!

Permutaciones con repetición; n!

PRn= -----------n1! n2!....nk!

3.3. CombinacionesCuando los grupos sólo varían por la naturaleza de sus elementos, sin tener en cuenta el

orden, se obtienen combinaciones.Se define como los distintos grupos que se pueden formar con 'm' elementos tomados de

'n' en 'n', siendo n < m, con la condición de que dos grupos sean distintos si difieren en la naturaleza de alguno de sus elementos.

17

Page 18: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

( m ) m! Vm,n

Cm,n = (----) = ----------- = --------( n ) n! (m-n)! Pn

Propiedades de las combinaciones:(n) n! n! n!

Cn,n = (--) = ----------- = ------------ = ----- = 1(n) n! (n-n)! n! 0! n!

(n)Cn,0 = ---- = 0

(0)

(n)Cn,1 = ---- = n

(1)

18

Page 19: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Tema 8: DISTRIBUCIONES DE PROBABILIDAD

Los sucesos probabilísticos constituyen en sí mismos variables, ya que aparecen bajo diferentes formas que al estar regidas por el azar son conocidas como variables aleatorias, p.e. un dado es una variable de tipo cuantitativa con 6 (1-6) formas mutuamente excluyentes entre sí; una moneda es una variable cualitativa con dos posibles formas (cara o cruz).

Un experimento aleatorio viene definido por:1. una variable2. las diferentes formas que puede adoptar representadas por valores numéricos3. las probabilidades asociadas a tales formas.1. Media: = np2. Varianza: 2 = npq3. Desviación típica: = npq

n = tamaño de cada una de las muestras de la distribución.Error típico: q = 1 - pEl error típico mide la variación de las frecuencias muestrales de resultados favorables alrededor de la media de la distribución muestral.

Existe una tabla especial que contiene las probabilidades asociadas a la prueba binomial cuando p = q = 0,5. (ej. pág. 180 - 181).

Aproximación binomial a normal:Cuando p = q = 0,5 y 'n' es suficientemente grande la distribución binomial se aproxima a

una distribución normal.

x - x - npZ = ------- = -------

npq

Existen tablas que nos ayudan a saber el % de valores que se encuentran en un área (p.e. entre 0 y 1,75). Las tablas proporcionan el área entre 0 (la media) y un número positivo. Al resultar la curva normal simétrica, el área entre 0 y -1,3 es igual al existente entre 0 y 1,3. Los topes están en -3 y +3.

Al hacer cálculos para unidades Z, se resta 0,5 al valor 'x' cuando es superior a la media o se suma si es inferior. Este factor corrige el error que resulta al aproximar una distribución discreta binomial a las variables continuas de la distribución normal.

(x o,5) - npZ = ------------------

npq

1. DISTRIBUCIONES DE PROBABILIDAD DISCRETADistribución binomialEs la que se aplica en aquellos experimentos aleatorios que cumplen las siguientes

condiciones:1. El mismo número de experimentos se efectúa 'n' veces.1. Cada ensayo tiene sólo 2 posibles resultados que denominamos "éxito" (p) y

"fracaso" (q); la suma = 1.1. El resultado de cada ensayo es independiente de los demás que se realicen.

La suma de las probabilidades p + q = 1; p = 1 - q; q = p - 1.Existen poblaciones que se pueden considerar que están formadas por tan sólo dos

categorías, p.e. hombre/mujer, rural/urbano, éxito/fracaso.Por tanto, si pn es probabilidad de que un suceso ocurra y qn de que no suceda, entonces

la probabilidad de que el suceso se presente exactamente 'x' veces en 'n' ensayos, e.d, 'x' éxitos y 'n-x' fallos viene dado por:

p(x) = Cnx * px * qn-1

n!p(x) = ---------- * px * qn-1

x! (n-x)!Ejemplos:1. Qué probabilidad hay de que el Madrid gane 5 de 15 partidos ? (Siendo p = 0,6 q= 0,4)

19

Page 20: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

15!p(x=5) = ------------ * 0,65 * 0,410 = 2,4 %

5! (15-5)!2. Qué probabilidad hay de que el Madrid gane al menos 11 ?

p(x 11) = p(x=11) + p(x=12) + p(x=13) + p(x=14) + p(x=15) 3. Qué probabilidad hay de que gane como máximo 4 ?

p(x 4) = p(x=0) + p(x=1) + p(x=2) + p(x=3) + p(x=4)

4. Qué probabilidad hay de que gane entre 8 y 11 ?p(8 x 11) = p(x=8) + p(x=9) + p(x=10) + p(x=11)

5. Cuál es la probabilidad hay de que de 10 llamados a fila, al menos 2 sean objetores ?

p(x 2) = 1 - [p(x=0) + p (x=1)]

2. DISTRIBUCIÓN DE PROBABILIDAD CONTINUADistribución normalDentro de las distribuciones de frecuencias hay finitas e infinitas; la distribución normal

es infinita y los extremos de su curva nunca tocan el eje X.La curva es normal, pues es lo que normalmente sucede, dónde se encuentran la mayor

parte de los casos. Hay excepciones p.e. la distribución de la renta mundial.Propiedades de la distribución normal:

1. el área bajo la curva = 1.1. la curva es asintótica: se extiende indefinidamente en las dos direcciones sin

tocar nunca el eje de abscisas. Hay una parte insignificante que se nos escapa; no cubre el 100%.

1. la curva es simétrica, unimodal, mesocúrtica y la , Me y Mo coinciden. El 50% del área está a un lado y el 50% al otro. El punto de máxima ordenada es la = 0.

1. Entre +3 y -3 alrededor de la se encuentran la práctica totalidad de los casos de la distribución normal.

1. Hablaremos de unidades Z cuando hablemos de la curva normal estandarizada.

1. En la curva normal estandarizada:Media = 0Desviac. típica = 1Varianza 2 = 1Asimetría a3 = 0Curtosis a4 = 0 ó 3

Por medio de las tablas de la curva normal podemos conocer con exactitud el área (probabilidad) que existe bien por debajo o por encima de un cierto punto, o también, el área comprendido dentro o fuera de un intervalo.

Nos permite hallar la probabilidad de obtener un cierto valor de dicha distribución tomado al azar.

20

Page 21: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Tema 9: ASPECTOS GENERALES DEL MUESTREO EN LA INVESTIGACIÓN SOCIOLÓGICA

La teoría del muestreo es un estudio de las relaciones existentes entre una población y una muestra extraída de esa población. En la inferencia estadística el interés estriba en estudiar una muestra y hacer inferencias acerca de la población de la cual se tomó.

El universo general (p.e. ejecutivos de las grandes empresas españolas) es la población abstracta y teórica a la que el investigador desea generalizar sus resultados, mientras que el universo real (p.e. ejecutivos de las 100 mayores empresas españolas) es la operacionalización concreta de ese universo general del que se va a obtener la muestra.

Muchas personas tienden a realizar afirmaciones generales muy amplias a partir del conocimiento de casos muy particulares. Esto es lo que Smith llama "muestras en busca de universos". Las muestras sesgadas se producen porque el investigador se deja llevar inconscientemente por sus preferencias al elegir los casos.

1. TIPOS DE MUESTREOEl diseño de muestras debe combinar los criterios de máxima significación de los

resultados con el mínimo coste. Al ser la técnica de la encuesta un procedimiento caro, resulta imprescindible diseñar muestras.

1.1. Muestreo aleatorio

Cada miembro de la población tiene la misma probabilidad de ser incluido en la muestra, p.e. números en una urna que se eligen al azar. Siempre que sea posible hay que preferir el muestreo aleatorio.

Ventajas del muestreo aleatorio:1. se pueden realizar inferencias estadísticas;2. es posible conocer el error;3. se da la representatividad.Muestreo aleatorio simpleEs el más sencillo. Se parte de un conjunto listado de elementos de la población, y

entonces se selecciona aleatoriamente 'n' elementos para formar la muestra.Condiciones:1. cada elemento en la población tiene idéntica probabilidad de ser incluido en la muestra;2. cada posible combinación de 'n' elementos tiene la misma probabilidad de constituir la muestra.Las tablas de números aleatorios son muy útiles. Si se toman los números que se van

seleccionando aunque alguno de ellos salga más de una vez, diremos que se trata de una muestra con reemplazamiento;

M = Mn

Si una vez seleccionado un número se aparta es una muestra sin reemplazamiento. En este segundo caso se da la primera condición, pero no la segunda.

(M) M!---- = -----------(n) (M-n)! n!

El sociólogo pocas veces recurre a las muestras aleatorias simples, no sólo por la posibilidad de extraer el mismo caso más de una vez, sino porque la mayor parte de las veces no dispone del listado ordenado de las unidades que componen el universo de trabajo.

Pero tiene gran interés estadístico por ser la técnica muestral básica de la estadística inferncial.

2. ERRORES DE MUESTREO

Lo que se pretende al extraer una buena muestra es que el error de muestreo sea lo más pequeño posible, para que así el estimador sea tanto más preciso.

para medias; E = |-|para proporciones; E = |p-P|

pq

21

Page 22: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Error de muestreo= ----N

A partir de la estimación del error de muestreo se pueden determinar los intervalos de confianza. Se denominan así por el hecho de que el valor que se trata de estimar se encuentra dentro del citado intervalo con una "confianza", medida en términos de probabilidad determinada por el valor que tiene Z. Es la probabilidad con la que podremos asegurar que el valor que obtengamos no superará el error máximo admitido.

El intervalo de confianza será tanto más pequeño cuanto mayor sea el tamaño muestral.Se utilizan los siguientes niveles de confianza:

Nc Z 99,73% 399% 2,5895,45% ó 95,5% 295% 1,96

3. DETERMINACIÓN DEL TAMAÑO MUESTRALTanto por la ley del cálculo de probabilidades que rige la teoría de las muestras como por

el propio sentido común, sabemos que cuanto mayor sea el número de elementos considerados, más seguro será el resultado. Una selección de 50 personas en una gran ciudad no será muy representativa, pero una de 50.000 puede ser muy costosa.

En general se puede afirmar que se ha de utilizar la muestra que mejor represente el universo de trabajo con los medios materiales y económicos de que dispone el investigador.

Las más usuales suelen ser muestras de 1000 a 1500; rara vez son superiores a 10.000 o inferiores a 1000.

A partir del conocimiento del error absoluto prefijado, el margen de probabilidad deseado y el valor de 'p' es posible determinar el tamaño 'n' de la muestra en una población de tamaño 'n' conocido.

Conviene aclarar que el número de casos 'n' a considerar en una muestra no depende de las dimensiones N del universo, pues puede pasar que se necesite idéntica muestra para una ciudad de 50.000 que para una nación de 30 Mio.

Existen unas tablas que nos ayudan a determinar la cuantía de las muestras para poblaciones finitas.

* * * V E R F O R M U L A R I O * * *4. OTROS TIPOS DE MUESTREO PROBABILÍSTICO

1) Muestreo por conglomerados o clustersCuando se debe realizar grandes encuestas con gran dispersión geográfica, se

reducen costes utilizando este tipo de muestreo. Puede suceder que una simple extracción aleatoria produzca enormes gastos al encontrarse las muestras repartidas por toda una geografía. Cuando es posible determinar los límites geográficos de los conglomerados el muestreo se denomina por áreas.

2) Muestreo estratificadoInvolucra la división de la población en subgrupos por estratos más

homogéneos, de los que se toman entonces muestras aleatorias simples. Ej. ver como reacciona la población a la planificación familiar según religión o estatus socioeconómico.

A cada miembro del estrato se le da un número de identificación y se muestrea mediante la tabla de números aleatorios. Finalmente los miembros seleccionados de cada subgrupo se combinan para tener una muestra.

La estratificación se basa en la idea de que un grupo homogéneo requiere una muestra más pequeña que un grupo heterogéneo.

La muestra estratificada puede ser:* proporcional - se sigue la proporción de los estratos del universo/población;* no proporcional - no se sigue la proporción original de los estratos.En el muestreo estratificado la reducción del tamaño se consigue mediante la

concentración de unidades homogéneas, reduciéndose por tanto la varianza.Objetivos:1. ofrecer estimaciones separadas para ciertas subpoblaciones;2. agrupar unidades de muestreo homogéneas entre sí en estratos, con objeto

de mejorar la precisión de las estimaciones globales;

22

Page 23: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

3. utilizar métodos diferentes de muestreo en los distintos estratos.En las numerosas etapas del muestreo, el azar interviene constantemente, con lo que se

evita la introducción de sesgos.5. TIPOS DE MUESTREO NO PROBABILÍSTICO

No todos los elementos de la población tienen la misma probabilidad de ser incluidos en la muestra.

Tiene unos costes más bajos en la recolección de datos y evitan a menudo los problemas de extraer muestras al azar.

Con el muestreo no probabilístico se puede llegar a obtener una muestra muy representativa, pero no se podrá evaluar a partir de ella los márgenes de error. Conviene evitarlos.

a) Muestreo por accidenteSe incluyen los elementos que son más convenientes para el investigador; ej.

se necesitan 5 personas para una entrevista y el investigador coge a 5 alumnos suyos. Lo único que puede desearse es que la equivocación no sea excesiva.

b) Muestreo sistemáticoSeleccionar cada 10 personas no es probabilístico, ya que las personas 10, 20,

30, etc. tienen un 1% de posibilidad de ser elegidos y las otras no.c) Muestreo por cuotas

Es barato y muy utilizado por los analistas de mercado y de opinión pública. Se especifican las características deseadas en los sujetos y se deja libertad al entrevistador que los encuentre de acuerdo a lo requerido. Es rápido y barato.

d) Muestreo intencional o de juicioCuando se utilizan la lógica y el sentido común para seleccionar las muestras,

ej. si deseamos estudiar una revista que refleje las características del lector de nivel cultural bajo elegimos 'Pronto'.

Los sociólogos que estudian medios rurales o instituciones concretas siguen de algún modo un muestreo intencionado, ya que se basan en sus conocimientos subjetivos.

23

Page 24: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Tema 10: TÉCNICAS INFERENCIALES

Cuando buscamos información acerca de una población, pero sólo disponemos de datos de una muestra, se necesitan algunos medios para poder sacar conclusiones acerca de esa población. Los conceptos y técnicas que satisfacen esta necesidad constituyen la Inferencia Estadística.

1. ESTIMACIÓN DE PARÁMETROS

Con la estimación de parámetros deseamos estimar el valor de ese parámetro, a través de un estadístico calculado en la muestra. La inferencia en los distintos niveles de medición se realizará a través de P y .

Un estimador es un procedimiento expresado a manera de fórmula por medio del cuál se obtiene un valor numérico denominado estimación.

1.1. Estimación intervalar

Consta de dos puntos definidores de un intervalo (límites de confianza), que según nuestras estimaciones contienen el parámetro poblacional que nos interesa, e.d., podemos estimar el parámetro ó P dentro de un intervalo a y b, en el que a y b se obtienen de observaciones de la muestra y podemos afirmarlo a un nivel de confianza determinado.

El principal objetivo de la estadística inferencial consiste en precisar el valor desconocido de los parámetros poblacionales a partir de los resultados obtenidos en muestras aleatorias.

Gracias a la teoría del error muestral podemos resolver la discrepancia existente entre valores muestrales y poblacionales. Para ello construimos intervalos dentro de los cuáles para un nivel de confianza prefijado podemos asegurar que se encontrará el verdadero valor del parámetro poblacional.

Estudiando el estadístico obtenido en la muestra y su error típico podemos determinar por las propiedades de la curva normal a qué distancia máxima se encontrará el verdadero valor; dicha distancia constituirá el intervalo dentro del cual podemos asegurar que se encuentra el valor poblacional.

2. La distribución muestral

Una distribución muestral es una distribución probabilística teórica de estadísticos pertenecientes a muestras, p.e. medias ó proporciones.

Se obtiene una distribución muestral cuando se toman todas las muestras aleatorias simples (cada una de ellas con al menos un elemento diferente) de tamaño N de una misma población, se calcula un estadístico por cada muestra (p.e. medias o proporciones) y se distribuyen dichos estadísticos alrededor del parámetro que estiman. Ej.: de una nación se coge una muestra de 2000 y se calcula la de edad, si repetimos con todas las muestras posibles de 2000, obtendremos una distribución muestral de medias de edad.

2.1. El teorema del límite central

Es muy importante en estadística. La suma de gran cantidad de variables aleatorias independientes siempre tiene una distribución aproximadamente normal. La distribución de dicha suma será tanto más parecida a la normal cuanto mayor sea el número de variables aleatorias. El teorema central del límite expresa cuantitativamente la rapidez de esta convergencia.

Lo que nos dice el teorema es que las medias de las muestras aleatorias simples extraídas de una población que se distribuye normalmente, darán lugar a una distribución muestral que también es normal, aunque N sea pequeño.

1.3. La Ley de los grandes números

Según esta ley la diferencia entre una población dada y una muestra decrece conforme aumenta el tamaño muestral.

24

Page 25: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

A partir de cierto tamaño muestral, el error muestral se hace tan pequeño que un aumento del tamaño muestral no compensaría el incremento de los costos.

La importancia de esta ley es muy grande, ya que al ser la distribución muestral la que se utiliza en las pruebas de significación, ello quiere decir que cuando N es suficientemente grande no tenemos ya que preocuparnos de los supuestos referentes a la normalidad de la población, pudiendo aplicar las propiedades de la curva normal, ya que la distribución muestral tiende a aproximarse a la normalidad.

Gracias al teorema del límite central y la ley de los grandes números podemos afirmar que la distribución de los estimadores en el muestreo será una distribución normal.

3. TENDENCIA CENTRAL, VARIABILIDAD Y FORMA DE UNA DISTRIBUCIÓN MUESTRAL

La tendencia central de una distribución muestral se denomina valor esperado de un estadístico y se representa por E().

Si el promedio o valor esperado de un estadístico es el parámetro que estima, entonces se dice que el estadístico es un estimador no sesgado del parámetro. Cualquier diferencia que se produzca entre un estadístico concreto y su parámetro es atribuible por ello más bien a un error aleatorio.

4. DISTRIBUCIONES MUESTRALES DE MEDIAS

La medida de error muestral que indica la magnitud de las desviaciones de los estadísticos se denomina error típico, para distinguirlo de otras desviaciones típicas.

Según la ley de los grandes números al aumentar la muestra disminuye el error típico, e.d, que al aumentar N los estadísticos se agrupan con mayor proximidad alrededor de sus respectivos parámetros.

PROPIEDADES:

1. La distribución muestral de medias se aproxima a la curva normal (por el teorema del límite central y la ley de los grandes números). En la práctica pensaremos que n 30 para servirnos de las medidas de la curva normal.

1. Al ser una distribución de frecuencias es posible calcular medidas de tendencia central, variación, etc.

2. La de una distribución muestral de medias es igual a la verdadera de la población.

3. La es menor que la de la población; esto se debe a que tomamos valores medios, eliminando los valores extremos.

Podemos decir que entre

1 68,26% 2 95,45% 3 99,73%

e.d., entre la más o menos una desviación típica de esa distribución muestral de se encontrarán el 68,26% de las medias muestrales de la distribución muestral de medias.

Para trabajar bajo la curva normal hay que hablar de unidades Z, que se estandarizan para la distribución muestral de medias:

x - - Z = ------ = Z = --------

S

= media muestral

25

Page 26: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

= = media de población o media de medias = desviación típica de la distribución muestral de medias; error típico de la

media.

4.1. ERROR TÍPICO DE LA

El investigador rara vez escoge más de 1 ó 2 muestras, que espera poder generalizar a la población, pues el procedimiento de completar una distribución muestral de medias sería tan costoso como analizar a casi todos los miembros de la población.

No se tiene pues un conocimiento real de la , pero sí un buen método para estimar la desviación típica de la distribución muestral de medias sobre la base de datos recogidos en una sola muestra.

Con la ayuda del error típico podemos encontrar el rango de valores de la , dentro del cuál es probable que fluctúe nuestra verdadera poblacional.

Cuanto más pequeño sea el error típico, más fiable es el estadístico. La cuantía del error típico depende del tamaño de la muestra; al aumentar la muestra disminuye el error típico => las muestras grandes engendran estadísticos más fiables que las pequeñas.

A todo estadístico le corresponde una distribución muestral y un error típico.La media de una muestra es una estimación insesgada de la media de la población, e.d.,

la de la muestra puede ser mayor ó menor que la de la población. Si se extraen muchas muestras y se promedian sus medias, el resultado tiende a la media de la población al aumntar el tamano de la muestra.

* * * V E R F O R M U L A R I O P A R A E R R O R T Í P I C O D E L A M E D I A * * *

4.2. INTERVALOS DE CONFIANZA

El intervalo de confianza se define como el valor de las puntuaciones directas entre las cuáles afirmamos, a un nivel de confianza dado, que se encuentra el parámetro que consideramos. El intervalo de confianza tiene un límite inferior y un límite superior, que son los límites de confianza.

Se ha convenido utilizar como intervalo de confianza los de 95%, 95,45%, 99% y 99,73%, por medio de los cuáles se estima la media poblacional, sabiendo p.e. que hay 95 oportunidades entre 100 de estar en lo cierto y un 5 de equivocarse, e.d., el nivel de confianza sería la parte de la distribución muestral que yo tomo para hacer la estimación.

Al realizar una estimación pienso que la media muestral a través de la cuál hago la inferencia caerá en ese intervalo con un 95% de probabilidades, aunque sé que hay un 5% de que quede fuera.

Cuanto más amplio sea el intervalo, tanto menos se acerca a dicho parámetro, e.d., al aumentar el nivel de confianza se sacrifica también en grado de precisión al señalar la media poblacional.

Estimaciones de la a partir de una sola muestra

Según la adaptación de la distribución muestral de la media a la curva normal, sabemos que con un nivel de confianza de 99% y conociendo la , la verdadera media de la población no se apartará de en más de 2,58 .

(-) 2,58

Como formulación general de la estimación de parámetros tendremos:

Estimador factor de confiabilidad x error típico del estimador

Zo

P ( - Z < < + Z) = Nc ó Ns

Zo nos dará la distancia máxima entre y . Z depende del nivel de confianza dado.

26

Page 27: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Conociendo el error típico del estadístico en la distribución muestral, el intervalo será el producto del Nc por dicho error.

5. DISTRIBUCIÓN T DE STUDENT

Cuando las muestras son pequeñas (n < 30) en la estimación de medias deberemos utilizar la distribución t de Student, que depende del Ns y de los grados de libertad. El intervalo viene dado por:

t

t = Z

La distribución t correspondiente se asemeja mucho a la distribución normal, y veremos que se aplica una distribución t de la misma manera en la que se hace con una distribución normal.

Características:

1. Hay una familia de distribución t (una distinta para cada valor de n).2. Cada curva t es simétrica a los dos lados de 0.3. = 0; 2 es algo superior a 14. el punto más alto de la curva viene dado por t = 0.5. Debe calcularse la puntuación t para trabajar con la distribución t:

- t = --------

S = -------

n

6. El área bajo la curva es igual a 1.7. Para la estimación intervalar la fórmula será:

t

P ( - t < < + t) = Nc ó Ns

t = error absoluto; distancia máxima entre y .

Grados de libertad

El número de grados de libertad de un estadístico es denominado generalmente por la letra v. Se define como el número de observaciones independientes en la muestra (e.d. el tamaño muestral) menos el nº de H parámetros de la población que deben estimarse a partir de las observaciones de la muestra.

v = gl = N - Hv = gl = N-1 (para parámetros)

Tablas de distribución t de Student

Aparecen Ns para 1 ó 2 colas, llamadas pruebas unilaterales o bilaterales. Para estimaciones de parámetros se utilizan pruebas bilaterales. A la izquierda se sitúan gl (df), que son lo grados de libertad.

6. DISTRIBUCIONES MUESTRALES DE PROPORCIONES

La proporción es una frecuencia relativa:

n

27

Page 28: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

P = ---N

La suma de todas las proporciones es igual a 1; cada proporción es 1. El porcentaje es la proporción * 100. P = población; p = muestras.

Estimaremos proporciones igual que acabamos de estimar las medias.Todos los estadísticos, tanto las medias como las proporciones, tienen su propias

distribuciones muestrales; lo dicho para la distribución muestral de medias vale para la distribución muestral de proporciones.

Muchas veces el investigador busca presentar una estimación de una proporción poblacional con base en la proporción que obtiene en una muestra aleatoria, p.e. ¿cuál es la proporción de los votos que irán a un partido?

La distribución muestral de proporción 'p' está calculada con base en muestras aleatorias simples de tamaño 'n', sacadas de una población en la que la proporción poblacional es 'P'. Está distribuida normalmente si 'n' es grande.

Si extraemos distintas muestras y calculamos su proporción podemos realizar una distribución muestral de proporción.

PROPIEDADES:

1. la media de la distribución muestral de proporción es igual a la proporción poblacional

p = P

2. La distribución muestral de proporción es aproximadamente normal si np ó nq > 5. Si p = 0,50 la distribución es aproximadamente normal si n > 30. Pero si P está cerca de 0 ó de 1 la distribución muestral de proporción tenderá a tener un extremo más largo a la izquierda o a la derecha, y deberá aumentar para tener una aproximación a

la curva normal. Al ser una distribución de frecuencias podemos calcular entonces tendencia central, variación, etc.

3. Ps 1 p 68, 26%Ps 2 p 95,45% Ps 3 p 99,73%

Entre la proporción muestral Ps y 1 p, 2p y 3 p se encuentran respectivamente el 68,26%, 95,45% y 99,73% de proporción de esta distribución muestral de proporción.

5. Hay que estandarizar las unidades Z:

Ps - PZ = --------

p

Ps = proproción muestral; P = proporción poblacionalp = desviación típica de la distribución muestral de proporción.

6.1. ERROR TÍPICO DE LA PROPORCIÓN

Es la desviación típica de esa distribución muestral que nos da la fiabilidad del estadístico. Cuanto menor sea, mejor será la estimación.

* * * V E R F O R M U L A R I O P A R A E R R O R T Í P I C O D E L A P R O P O R C I Ó N * * *

6.2. INTERVALOS DE CONFIANZA

28

Page 29: 29 Pp - a Aplicada a Las Ciencias Sociales

Estadística aplicada a las ciencias sociales

Estimador factor de confiabilidad + error típico del estimador

P Zp

P(Ps - Zp < P < Ps + Zp) = Nc ó NsP (p - Zp < P < p + Zp) = Nc ó NS

Deberán utilizarse en general muestras grandes para la estimación de proporciones, pues sino da unos intervalos excesivamente amplios que poco pueden decirnos como información.

29