Analisis Cuantitativo Clase 1 2015

Preview:

DESCRIPTION

Analasis cuantitativo

Citation preview

ANALISIS CUANTITATIVO Y CUALITATIVO.

Profesor: Esteban Montero A. Profesor: Jaime Opazo C.

UNIDAD 1: ESTADÍSTICA DESCRIPTIVA

•  estebanmonteroalvarez@gmail.com

DEFINICIÓN

La Bioestadística es el conjunto de métodos necesarios para recoger, clasificar, representar y resumir datos, deducir las leyes que rigen esos fenómenos, así como para hacer inferencias (extraer consecuencias) científicas a partir de ellos.

La Bioestadística es la Ciencia de la

Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de

deducir las leyes que rigen esos fenómenos,

y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.

DESCRIPTIVA

PROBABILIDAD

INFERENCIA

Tipos de muestreo

PROBABILÍSTICO  

NO  PROBABILÍSTICO  

Simple  

Sistemática  

Estratificada  

Por  conglomerados  

Sujetos  voluntarios  

Muestra aleatoria

Muestra intencional

Sujetos  expertos  

Bola  de  nieve  

Por  cuotas  

Imagen disponible en: http://www.shsu.edu/mgt_ves/mgt481/lesson9/sld014.htm

Selección aleatoria sistemática de una

muestra de tamaño 6

El 1º seleccionado al azar

El 2º seleccionado estará a 30/6 = 5 lugares del 1º

1

2

3

4 6

5

7

8 9

10

11

El 3º seleccionado estará a 5 lugares del 2º etc…

12 13

14 1 5

17 16

Seleccionar cada K , donde K= Tamaño población/tamaño de muestra

8  

Muestra aleatoria estratificada

Estrato 1

Estrato 2

Total de submuestras aleatorias simples = Muestra

Muestras por Estratificación

Supone que el universo o población puede desagregarse en sub – poblaciones menores, homogéneos internamente pero heterogéneos entre sí (Estratos).

Cada  uno  de  estos  estratos  se   toma  como  un  universo  particular,  y  sobre  cada  uno  de  ellos  se  selecciona  una  m.a.  

Ejemplo  

Interesa estudiar las actitudes políticas de los estudiantes de una universidad.

siguen: Ingeniería,  Letras,  Medicina  u  otras  carreras.  

Se podría subdividir en estratos de acuerdo con el tipo de estudios que cursen, suponiendo que estas actitudes van a ser diferentes entre quienes

Muestra  aleatoria  por  conglomerados  

Imagen disponible en: http://www.universoformulas.com/estadistica/inferencia/muestreo-conglomerados/

Muestras  por  conglomerados  

Es    adecuada    cuando    el    universo    o    la    población  que          se          requiere          estudiar          se          encuentra  subdividido  en  universos  o  poblaciones  menores  de      características      similares      al      del      universo      o  población  total.  

 El   conglomerado   más   uLlizado   en   la   invesLgación   es   un   conglomerado  geográfico.   Por   ejemplo,   un   invesLgador   desea   estudiar   el   rendimiento  académico  de  los  estudiantes  de  enseñanza  media  en  SanLago.    Puede   dividir   a   toda   la   población   (población   de   SanLago   en   diferentes  conglomerados  (Ciudades).  Luego,  el  invesLgador  selecciona  una  serie  de  conglomerados  en  función  de  su  invesLgación,  a  través  de  un  muestreo  aleatorio  simple  o  sistemáLco.  Luego,  de  los  conglomerados  seleccionados  (ciudades  seleccionadas  al  azar)  el  invesLgador  puede  incluir  a  todos   los  estudiantes  de  enseñanza  media  como  sujetos  o  seleccionar  un  número  de  sujetos  de  cada  conglomerado  a  través  de  un  muestreo  aleatorio  simple  o  sistemáLco.  Lo   más   importante   sobre   esta   técnica   de   muestreo   es   dar   a   todos   los  conglomerados  iguales  posibilidades  de  ser  seleccionados.  

Muestra  de  Sujetos  Voluntarios  

•  Se  uLliza  muy  frecuente  en  Ciencias  Sociales  y  Ciencias  de  la  Conducta.  

•  En  estudios  en  laboratorio  se  procura  que  los  sujetos  sean  

homogéneos  en  variables  como:  edad,  sexo,  inteligencia,  para  que  los  efectos  o  resultados  obedezcan  a  condiciones  que  fueron  someLdos  y  no  a  las  diferencias  individuales.  

Muestreo  por  cuotas  

Muestreo  por  cuotas  •  En  este  Lpo  de  muestreo  se  fijan  unas  "cuotas"  que  consisten  en  un  número  de  individuos  que  reúnen  determinadas  caracterísLcas,  por  ejemplo:  30  mujeres  de  entre  25  a  40  años  y  residentes  en  SanLago.  

•  Una  vez  determinada  la  cuota,  se  eligen  los  primeros  que  se  encuentren  que  cumplan  esas  caracterísLcas.  

•  Este  método  se  utiliza  mucho  en  las  encuestas  de  opinión.  

Muestreo  bola  de  nieve  

Muestreo  bola  de  nieve  •  Se  localiza  a  algunos  individuos,  los  cuales  conducen  a  otros,  y  estos  a  otros,  y  así  hasta  conseguir  una  muestra  suficiente.  

•  Este  Lpo  de  muestra  se  emplea  muy  frecuentemente  cuando  se  hacen  estudios  con  poblaciones  "marginales“  (sectas,  determinados  Lpos  de  enfermos,  etc..)  

Muestra  de  Sujetos  Expertos  

Muestra  de  Sujetos  Expertos  •  Interesa mucho la opinión de sujetos

expertos •  en un tema.

•  Son frecuentes en estudios cualitativos y •  exploratorios.

Tamaño de Muestra •  La  determinación  del  tamaño  de  muestra  en  una  invesLgación  depende  del  objeLvo  de  ella.  

•  En  el  caso  que  se  requiera  estimar  un  parámetro  será  necesario  definir  el  máximo  error  estándar  dispuesto  a  cometer  y  la  confianza  del  intervalo.  

•  En  el   caso  de   realizar   inferencia   a   través  de  pruebas   de  hipótesis  es  necesario  definir  la  potencia  de  la  prueba  ,  el  nivel  de  significación  ,  la  diferencia  máxima  entre  el  valor  esLmado  y  el  verdadero  valor  del  parámetro.  

Determinación  de  tamaños  de  muestra  para  disLntos  d  cuando  p=0.5.  

p   d   n  0.5   0.02   2401  0.5   0.03   1067  0.5   0.04   600  0.5   0.05   384  0.5   0.07   196  0.5   0.1   96  0.5   0.2   24  

Población, muestra, variables,

presentación ordenada de datos

Disponible en: http://www.universoformulas.com/estadistica/inferencia/muestreo-discrecional/

Disponible en: http://estadisticaparaadministracion.blogspot.com/2011/10/poblacion-y-muestra-parametro-y.html

Población y muestra

•  Población (‘population’) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). –  Normalmente es demasiado grande para poder abarcarlo.

•  Muestra (‘sample’) es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) –  Debería ser “representativo”

Variables •  Una variable es una característica observable que varía entre los diferentes

individuos de una población. •  Individuos o elementos: personas u objetos que contienen cierta

información que se desea estudiar.

•  Por ejemplo, en los individuos de nuestra población, es variable:

–  El grupo sanguíneo •  {A, B, AB, O} ß Var. Cualitativa

–  Su nivel de felicidad “declarado” •  {Deprimido, Normal, Muy Feliz} ß Var. Ordinal

–  El número de hijos •  {0,1,2,3,...} ß Var. Numérica discreta

–  La altura •  {1’62 ; 1’74; ...} ß Var. Numérica continua

•  Cualitativas Evita la cuantificación y se centra en la cualidad que se revela

–  Nominales: Si sus valores no se pueden ordenar •  Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)

–  Ordinales: Si sus valores se pueden ordenar •  Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor

•  Cuantitativas o Numéricas Se reduce a medir variables en función de una magnitud o cantidad determinada.

–  Discretas: Si toma valores enteros

•  Número de hijos, Número de cigarrillos, Num. de “cumpleaños”

–  Continuas: Si entre dos valores, son posibles infinitos valores intermedios. •  Altura, Presión intraocular, Dosis de medicamento administrado, edad

Tipos de variables

Relación entre Escalas

Variables Cuantitativas

Variables Cualitativas

Presentación ordenada de datos

0

1

2

3

4

5

6

7

Hombre Mujer

•  Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra.

Género Frec.

Hombre 4

Mujer 6

TABLAS

N i v e l E d u c a c i o n a l | F r e q . P e r c e n t C u m . !

- - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - !

B A J O ( < 8 a ñ o s ) | 2 0 4 2 3 . 5 3 2 3 . 5 3 !

M E D I O ( 8 - 1 2 a ñ o s ) | 4 9 0 5 6 . 5 2 8 0 . 0 5 !

A L T O ( > 1 2 a ñ o s ) | 1 7 3 1 9 . 9 5 1 0 0 . 0 0 !

- - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - !

T o t a l | 8 6 7 1 0 0 . 0 0 !

Frecuencias Absolutas

Frecuencias relativas

Frecuencias acumuladas

Tablas de doble entradas

t a b u l a t i o n o f n e d u b y s e x o

S e x o

N i v e l E d u c a c i o n a l | m a s c u l i n o f e m e n i n o | T o t a l

- - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - + - - - - - - - - - -

B A J O ( < 8 a ñ o s ) | 7 6 1 2 8 | 2 0 4

M E D I O ( 8 - 1 2 a ñ o s ) | 2 1 6 2 7 4 | 4 9 0

A L T O ( > 1 2 a ñ o s ) | 6 4 1 0 9 | 1 7 3

- - - - - - - - - - - - - - - - - - - - + - - - - - - - - - - - - - - - - - - - - - - + - - - - - - - - - -

T o t a l | 3 5 6 5 1 1 | 8 6 7

Tablas de frecuencia

•  Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca).

–  Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad

–  Frecuencias relativas (porcentajes): Ídem, pero dividido por el total

–  Frecuencias acumuladas: Esta frecuencia se expresa como proporción o porcentaje del total.

* Frecuencias acumuladas absolutas y

* Frecuencias acumuladas relativas.

SEXO DE LA ENCUESTA XTR REALIZADA A 1517 PERSONAS EN SANTIAGO, AÑO ZZ

Sexo FrecuenciaAbsoluta

FrecuenciaRelativa

Frecuencia Acumulada Absoluta

Frecuencia Acumulada

Relativa

Hombre 636 41.9 636 41.9

Mujer 881 58.1 1517 100.0

Total 1517 100.0 ---------------- ----------------

NIVEL DE FELICIDAD DE LA ENCUESTA XTR REALIZADA A 1517 PERSONAS EN SANTIAGO, AÑO ZZ

Nivel de Felicidad FrecuenciaAbsoluta

FrecuenciaRelativa

Frecuencia Acumulada Absoluta

Frecuencia Acumulada

Relativa

Muy Feliz 467 30.78 467 30.78

Bastante Feliz 872 57.48 1339 88.26

Poco Feliz 165 10.88 1504 99.14

No contesta 13 0.86 1517 100.00

Total 1517 100.00 ---------------- ----------------

Nº de hijos FrecuenciaAbsoluta

FrecuenciaRelativa

Frecuencia Acumulada Absoluta

Frecuencia Acumulada

Relativa

0 419 27.62 419 27.62

1 255 16.81 674 44.43

2 375 24.72 1049 69.15

3 215 14.17 1264 83.32

4 127 8.37 1391 91.69

5 54 3.60 1445 95.29

6 24 1.58 1469 96.87

7 23 1.52 1492 98.39

8 ó más 17 1.12 1509 99.51

No contesta 8 0.53 1517 100.04

Total 1517 100.04 ---------------- ----------------

NÚMERO DE HIJOS QUE PRESENTABAN LAS PERSONAS DE LA ENCUESTA XTR REALIZADA A 1517 PERSONAS EN SANTIAGO,

AÑO ZZ

Número de hijos

419 27,8 27,8255 16,9 44,7375 24,9 69,5215 14,2 83,8127 8,4 92,254 3,6 95,824 1,6 97,323 1,5 98,917 1,1 100,0

1509 100,0

01234567Ocho+Total

Frec.Porcent.(válido)

Porcent.acum.

Ejemplo

•  ¿Cuántos individuos tienen menos de 2 hijos? –  frec. indiv. sin hijos

+ frec. indiv. con 1 hijo = 419 + 255 = 674 individuos

•  ¿Qué porcentaje de individuos tiene 6 hijos o menos? –  97,3%

Gráficos

•  Diagramas de barras –  Alturas proporcionales a las frecuencias (abs. o rel.) –  Se pueden aplicar también a variables discretas

•  Diagramas de sectores (tortas) –  No usarlo con variables ordinales. –  El área de cada sector es proporcional a su frecuencia

(abs. o rel.)

•  Pictogramas –  Fáciles de entender. –  El área de cada modalidad debe ser proporcional a la

frecuencia. ¿De los dos, cuál es incorrecto?.

Gráficos para v. cualitativas

Gráficos diferenciales para variables numéricas

•  Son diferentes en función de que las variables sean discretas o continuas. Son válidos para frec. absolutas o relativas. –  Diagramas barras para v. discretas

•  Se deja un hueco entre barras para indicar los valores que no son posibles

–  Histogramas para v. continuas •  El área que hay bajo el histograma entre dos

puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.

0 1 2 3 4 5 6 7 Ocho o más

Número de hijos

100

200

300

400

Rec

uent

o

419

255

375

215

127

54

24 23 17

20 40 60 80

Edad del encuestado

50

100

150

200

250

Rec

uent

o

Diagrama de caja o Box plot

2040

6080

100

EDAD

Atípico

Ls= Q3 + RIC x 1,5

Li= Q1 – RIC x 1,5

Q3= 75%

Q1= 25%

Mediana= 50% RIC= 50% datos

Diagramas integrales •  Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se

realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo.

Polígono (frecuencia)

Ojivas

Gráficos Diagrama de sectores o tortas Diagramas de barras

Variables cualitativas

Histograma Diagrama de caja o box plot

Variables cuantitativas

ESTADIGRAFOS

Parámetros y estadísticos •  Parámetro: Es una cantidad numérica calculada sobre

una población

–  La altura media de los individuos de un país

•  Estadístico: Ídem (cambiar población por muestra)

–  La altura media de los que estamos en esta sala

–  Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador.

Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a *TODA* la población, calculamos un estimador sobre una muestra y “confiamos” en que sean próximos.

Resumen sobre estadísticos

•  Posición –  Dividen un conjunto ordenado de datos en grupos con la

misma cantidad de individuos. •  Cuantiles, percentiles, cuartiles, deciles,...

•  Centralización –  Indican valores con respecto a los que los datos parecen

agruparse. •  Media, mediana y moda

•  Dispersión –  Indican la mayor o menor concentración de los datos con

respecto a las medidas de centralización. •  Desviación típica, coeficiente de variación, rango, varianza

•  Forma –  Asimetría –  Apuntamiento o curtosis

Estadísticos de posición

•  Se define el cuantil de orden α como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada α.

•  Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Estadísticos de posición

•  Percentil divide a la muestra en 100 grupos con frecuencias similares. –  La mediana es el percentil 50 –  El percentil de orden 15 deja por debajo al 15% de las

observaciones. Por encima queda el 85%

•  Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. –  Primer cuartil = Percentil 25 = Cuantil 0,25 –  Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana –  Tercer cuartil = Percentil 75 = cuantil 0,75

•  Ejemplos –  El 5% de los recién nacidos tiene un peso demasiado bajo.

¿Qué peso se considera “demasiado bajo”? •  Percentil 5 o cuantil 0,05

–  ¿Qué peso es superado sólo por el 25% de los individuos? •  Percentil 75

–  El colesterol se distribuye simétricamente en la población. Se considera patológico los valores extremos. El 90% de los individuos son normales ¿Entre qué valores se encuentran los individuos normales?

•  Entre el percentil 5 y el 95 –  ¿Entre qué valores se encuentran la mitad de los individuos

“más normales” de una población? •  Entre el cuartil 1º y 3º

•  ¿Qué peso no llega a alcanzar el 25% de los individuos? –  Primer cuartil = percentil 25 = 60 Kg.

•  ¿Qué peso es superado por el 25% de los individuos? –  Tercer cuartil= percentil 75= 80 kg.

•  ¿Entre qué valores se encuentra el 50% de los individuos con un peso “más normal”? –  Entre el primer y tercer cuartil = entre 60

y 80 kg.

Ejemplo

Estadísticos

PESO60,0070,0080,00

255075

Percentiles

50%

Ejemplo Número de años de escolarización

5 ,3 ,35 ,3 ,76 ,4 1,112 ,8 1,925 1,7 3,568 4,5 8,056 3,7 11,773 4,8 16,685 5,6 22,2461 30,6 52,8130 8,6 61,4175 11,6 73,073 4,8 77,9194 12,9 90,743 2,9 93,645 3,0 96,622 1,5 98,030 2,0 100,0

1508 100,0

34567891011121314151617181920Total

Frecuencia PorcentajePorcentajeacumulado

Estadísticos

Número de años de escolarización1508

012,9012,00

129,00

11,0012,0012,0012,0012,0013,0014,0015,0016,0016,00

VálidosPerdidos

N

MediaMedianaModa

1020253040506070758090

Percentiles

≥20%?

≥ 90%?

Centralización Son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse.

•  Media: Es la media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral. –  Media de 2,2,3,7 es (2+2+3+7)/4=3,5 –  Conveniente cuando los datos se concentran simétricamente con

respecto a ese valor. Muy sensible a valores extremos. –  Centro de gravedad de los datos

•  Mediana: Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Si el número de datos es par, se elige la media de los dos datos centrales. –  Mediana de 1,2,4,5,6,6,8 es 5 –  Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5 –  Es conveniente cuando los datos son asimétricos. No es sensible

a valores extremos. •  Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!

•  Moda: Es el/los valor/es donde la distribución de frecuencia alcanza un máximo.

Altura mediana

Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa.

•  Amplitud o Rango:

La diferencia entre las observaciónes extremas. –  2,1,4,3,8,4. El rango es 8-1=7 –  Es muy sensible a los valores extremos.

•  Rango intercuartílico: –  Es la distancia entre el primer y tercer cuartil.

•  Rango intercuartílico = P75 - P25 –  Parecida al rango, pero eliminando las observaciones más extremas

inferiores y superiores.

–  No es tan sensible a valores extremos.

Medidas de dispersión

•  Varianza S2: Mide el promedio de las desviaciones al cuadrado de las observaciones con respecto a la media.

–  Es sensible a valores extremos (alejados de la media).

–  Sus unidades son el cuadrado de las de la variable.

∑ −=i

i xxn

S 22 )(1

Desviación típica Es la raíz cuadrada de la varianza

•  Tiene las misma dimensionalidad (unidades) que la variable.

–  A una distancia de una desv. típica de

la media tendremos 68% observaciones.

–  A una distancia de dos desv. típica de la media tendremos 95% observaciones.

2SS =

Peso recién nacidos en partos gemelares

3.3002.900

2.5002.100

1.7001.300

900500

50

40

30

20

10

0

Desv. típ. = 568,43

Media = 2023

N = 407,00

Coeficiente de variación Es la razón entre la desviación típica y la media.

–  Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”

–  También se la denomina variabilidad relativa.

–  Es frecuente mostrarla en porcentajes •  Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25%

(variabilidad relativa)

•  Es Interesante para comparar la variabilidad de diferentes variables. –  Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan

más dispersión en peso que en altura.

•  No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente –  Por ejemplo 0ºC ≠ 0ºF

xS

CV =

Asimetría o Sesgo

•  Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha.

•  En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide

•  La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.

•  La media tiende a desplazarse hacia las valores extremos (colas).

•  Las discrepancias entre las medidas de centralización son indicación de asimetría.

Estadísticos para detectar asimetría •  Hay diferentes estadísticos que

sirven para detectar asimetría.

–  Basado en diferencia entre estadísticos de tendencia central.

–  Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.

–  Basados en desviaciones con signo respecto a la media.

•  Distribución simétrica è

asimetría nula.

Leptocúrtica

138108

10297

9287

8277

7267

6257

5247

4237

3227

163

Frecuencia

400

300

200

100

0

Platicúrtica

8481787572696663605754514845

Frecuencia

160

140

120

100

80

60

40

Mesocúrtica

9993

8985

8177

7369

6561

5753

4945

4137

3227

Frecuencia

300

200

100

0

Los gráficos que observamos poseen la misma media y desviación típica, pero con diferente grado de apuntamiento.

La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribución con respecto a la distribución normal o gaussiana.

Platicúrtica: curtosis < 0 Mesocúrtica: curtosis = 0 Leptocúrtica: curtosis > 0

Apuntamiento o curtosis

PRESENTACIÓN ORDENADA DE DATOS

PRESENTACIÓN DE DATOS Los datos o información en estadística se presentan mediante tablas y gráficos.

Los datos deben estar bien presentados y ordenados y debe existir coherencia en la información.

Para los gráficos se sugiere:

- sencillos

- No requieren información adicional (autoexplicativos)

- Indicar significado de los ejes.

También las tablas y gráficos deben llevar un título claro donde en general se especifica:

- Que se presenta en la tabla (edad, PA, etc)

- Como se clasifica la información

- Donde y cuando obtuvo la información (hospital Y, año X)

- A veces se indica la fuente o procedencia de los datos

PRESENTACIÓN DE DATOS

Respecto de los gráficos: Existe un criterio o guía denominado regla de los ¾ de altura

75%

100%

De lo contrario se maximizan o minimizan los datos (se sobreestiman o se subestiman)

Caso de variables cualitativas o categóricas (atributos)

Para construirlas se requiere identificar las distintas categorías o atributos y luego registrar el número de veces (la frecuencia) que cada categoría ocurre.

La representación gráfica para las variables cualitativas se realiza preferentemente mediante el diagrama de barras (simples) y el diagrama de sectores (gráfico circular o de torta)

* Barras = valores absolutos o %

* Sectores= %

Tablas de distribución de frecuencias

Estado de salud de un grupo de pacientes clínica Alemana, año 2004.

Esquema:

Nº de pacientes o el % de pacientes

Estado de salud Bueno Regular Malo *

* Al menos la mitad de la barra

%

%

Regular

Bueno

Malo

100% = 360ª

X% = Yª %

Estado de salud de un grupo de pacientes clínica Alemana, año 2004.

A veces para apreciar el espacio Eje truncado

Diagrama de Pareto = jerarquizado (barras)

Caso de variables cuantitativas o numéricas

Se recomienda diferenciar entre variables cuantitativas discretas y continuas

Número de médicos que trabajan en 30 clínicas de santiago, año 2002.

Nº de médicos

Frecuencia Nº de clínicas

%

1 3 10,0

2 6 20,0 3 12 40,0 4 7 23,3 5 2 6,7

Total 30 100,0

Ejemplo para una variable cuantitativa discreta:

Debe notarse que en este tipo de tablas no existe perdida de información. Es posible reproducir los datos originales:

1,1,1,2,2,2,2,2,2,………,5,5

Datos originales

Cuando hay intervalos hay perdida de información.

Número de médicos que trabajan en 30 clínicas de santiago, año 2002.

Frecuencias

Nº de clínicas o % de clínicas

Nº de médicos 0 1 32 54

3

6

9

12

Variable cuantitativa continua

En este caso es posible que la variable asuma una gran cantidad de valores diferentes. Es mejor agruparla en clases o intervalos.

¿Cómo se construye 1 tabla con clases e intervalos?

1.- Determinar el rango o campo de variación de los datos: diferencia entre el dato mayor y el menor

2.- determinar el número de clases o intervalos: Este número es flexible; se sugiere de 5 a 15 y depende de factores tales como la cantidad de datos y de su dispersión o variabilidad.

Para el número de clases:

- Se puede obtener X ensayo.

-  Puede estar indicado.

- - Aplicar regla de Sturgers para en Nº mínimo de clases (se puede adecuar)

Nº de clases= 1 + 3,322 log Nº de datos que se requiere agrupar

n

3.- Determinar la amplitud o tamaño de clase. En general consideramos amplitud común dentro de una tabla y en tal caso:

Amplitud= Rango / nº de clases

4.- Hacer la tabla propiamente tal, anotando las clases de manera adecuada y luego registrando el nº de datos (mediante recuento, conteo o tarjas) pertenecientes a cada clase con lo que se determina las frecuencias absolutas o simplemente frecuencias de cada clase.

Ejemplo: Los siguientes datos corresponden a la estatura en centímetros (aproximada al entero mas cercano) de 55 alumnos del curso H, registrada en abril de 2003.

162 – 153 – 167 – 172 – 181 – 197 – 177 – 176 – 159 – 184 – 163 - 179 – 165 – 185 – 152 – 166 – 173 – 172 – 178 – 173 – 165 – 183 - 154 – 164 – 166 – 178 – 178 – 143 – 174 – 185 – 163 – 165 – 186 - 155 – 171 – 175 – 152 – 161 – 158 – 172 – 167 – 173 – 189 – 174 - 179 – 172 – 164 – 190 – 135 – 145 – 170 – 167 – 159 – 191 - 178

1.- Determinar el rango 197 – 135 = 62

2.- nº de clases o intervalos

nº de clases= 1 + 3,322 log n

1 + 3,322 Log 55

6,781484854 ≈ 6,8

6 o 7 clases

3.- Amplitud o tamaño

Con 7 clases

A= Rango/nº de clases

62/7

8,8571 ≈ 8,9 ≈ 9

Con 6 clases

A= Rango/nº de clases

62/6

10,3 ≈ 10

Tenemos 6 clases de amplitud común 10 135 – 144

145 – 154

155 – 164

165 – 174

175 – 184

185 - 194

No alcanzó. Considerar 7 clases (volver a paso 3)

Con 7 clases y una amplitud de 9

Clase (Estatura alumnos) Recuento Frecuencias

135 – 143 II 2

144 – 152 III 3

153 – 161 IIIIIII 7

162 – 170 IIIIIIIIIIIIII 14

171 – 179 IIIIIIIIIIIIIIIIIII 19

180 – 188 IIIIII 6

189 – 197 IIII 4

TOTAL 55

Algunos comentarios:

1.- Se gana en presentación

2.- Se pierde información. No es posible reproducir los datos originales.

MODA

Para datos originales o series simples

ü  Variable que tiene mayor frecuencia ü  Puede ocurrir que no exista, o si existe, no ser única

a.- 47, 54, 68, 52, 59: No existe moda b.- 38, 43, 49, 43, 57, 49, 50, 43: moda=43 c.- 83, 88, 81, 76, 81, 94, 97, 90, 93, 90: Moda= 81 y 90

MODA

Para datos agrupados en clases o intervalos

La moda está ubicada en la clase modal, que es aquella clase que tiene mayor frecuencia. Luego se aplica la fórmula:

Moda= Li + d1 C

Li= Límite real inferior (de la clase modal) d1= Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase premodal d2= Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase post modal C= Amplitud de clase

d1+d2

MEDIANA

Para datos originales o series simples

Es un valor único que divide a un conjunto de datos en 2 partes iguales de tal manera que el número de datos menores o iguales que la mediana es igual al número de datos menores que ella. Corresponde al valor central cuando el número de datos es impar, y al promedio aritmético de los 2 valores centrales cuando el número de datos es par. Equivalentemente la ubicación o posición de los 2 valores centrales correspondiente a la mediana se determina por la fórmula de posicionamiento:

Posicionamiento= n + 1 2

MEDIANA

Ejemplo: Determinar la mediana para: a.- 48, 45, 40, 57, 59 = 40, 45, 48, 57, 59 (n=5)

Posicionamiento= (n+1)/2 = (5 + 1)/2 = 3 Mediana= 48 b.- La edad de 8 personas es: 13, 18, 14, 16, 10, 23, 21, 11 = 10, 11, 13, 14, 16, 18, 21, 23 (n=8) Posicionamiento= (8 + 1)/ 2 = 4,5 (14 + 16)/2 Mediana= 15

MEDIANA

Para datos agrupados en clases o intervalos

La mediana se ubica en la clase mediana. Es aquella clase cuya frecuencia absoluta acumulada iguala o supera a n/2 o 50% (mitad de los datos). Luego se aplica la fórmula:

Mediana= n/2 – Fi-1 fi

Li + C

Li= Límite real inferior de la clase mediana (se saca con las frecuencias acumuladas, la que iguale o supere a n/2 o 50%. Fi-1= Frecuencia acumulada absoluta de la clase anterior a la clase mediana fi= Frecuencia de la clase mediana C= Amplitud

CUARTILES, DECILES, PERCENTILES

Para datos originales o series simples

Son medidas análogas a la mediana que dividen a un conjunto ordenado de datos en 4, 10 o 100 partes iguales, respectivamente. Nótese que habrá 3 cuartiles, 9 deciles, 99 percentiles.

0 1 Q1 Q2 Q3

25% 25% 25% 25% Med

D5 P50

P25 P75

CUARTILES, DECILES, PERCENTILES

Posicionamiento Cuantil = (n + 1) k 100

Posicionamiento Q1=P25= (n + 1) 25

100 = (n + 1)

4

Posicionamiento Q3=P75= (n + 1) 75

100 = 3 (n + 1)

4

P = Valor entero de la posición + valor fracción posición (diferencia (P+1)-P)

CUARTILES, DECILES, PERCENTILES

Para datos agrupados en clases o intervalos

Cuantil = kn/100 – Fi-1

fi C Li +

k= Percentil k Li= Límite real inferior de la clase percentil k (se saca con las frecuencias acumuladas, la que iguale o supere a k%. Fi-1= Frecuencia acumulada absoluta de la clase anterior a la clase percentil fi= Frecuencia de la clase percentil C= Amplitud

MEDIA

Para datos originales o series simples

Punto en donde se encuentra el centro de gravedad de los datos o equilibrio

Media = ∑ Xi

n

Ejemplo: La presión sistólica de 10 personas es: 120, 130, 141, 126, 134, 128, 136, 132, 140, 143 mmHg Entonces, la presión media o promedio es: X= 1330/10 X= 133 mmHg

Para datos agrupados en clases o intervalos

MEDIA

En este caso, se supone que los datos incluidos quedan representados por las marcas de clase. En estas condiciones, la media o promedio para la muestra queda definida:

Media = ∑ Xifi

n

Xi= Marca de clase o distintos valores de la variable fi= Respectivas frecuencias

RANGO

Para datos originales o series simples

Diferencia entre el valor máximo y el valor mínimo

Para datos agrupados en clases o intervalos

Diferencia entre el límite real superior de la clase mayor y el límite real inferior de la clase mas baja.

VARIANZA

Varianza = ∑ Xi ² -

n - 1

(∑ Xi)² n

∑ Xi² = Sumatoria de las variables al cuadrado ∑ Xi = Sumatoria de las variables n = nº de datos

VARIANZA

Varianza = ∑ (Xi – X)²

n - 1

Xi= frecuencia absoluta o marca de clase X= Media o promedio

Desviación Estandar = ∑ Xi ² -

n - 1

(∑ Xi)² n

DESVIACIÓN ESTANDAR

Desviación Estandar = ∑ (Xi – X)²

n - 1

Desviación Estandar = Varianza

ASIMETRÍA O SESGO

Sesgo = X - Mo

S

X= Promedio Mo= Moda S= Desviación Estandar

APUNTAMIENTO O CURTOSIS

Curtosis = P75 – P25 2(P90 – P10)

Platicúrtica: curtosis < 0 Mesocúrtica: curtosis = 0 Leptocúrtica: curtosis > 0

Consultas.....