8/2/2019 7. Plan Analisis de La Informacion Corregio
1/36
Anlisis de la informacin
Jaiberth Antonio Cardona Arias
e-mail: [email protected]
8/2/2019 7. Plan Analisis de La Informacion Corregio
2/36
Contenido
Anlisis univariado: Variables cualitativas: Medidas de frecuencia (frecuenciaabsoluta, frecuencia relativa - proporciones).
Variables cuantitativas: Medidas de resumen.
Anlisis bivariado: Estadstica inferencial o paramtrica. Estadstica no paramtrica.
Anlisis multivariado: Regresin lineal mltiple. Regresin logstica: Binaria y multinomial.
8/2/2019 7. Plan Analisis de La Informacion Corregio
3/36
Tradicionalmente la estadstica se ha definido como la
ciencia que estudia la recopilacin, organizacin,
presentacin y anlisis de informacin de tipo
numrico o cuantitativa, con el fin de deducir
explicaciones precisas, realizar predicciones y orientar
la toma de decisiones.
8/2/2019 7. Plan Analisis de La Informacion Corregio
4/36
Estadstica descriptiva: Utilizada para organizar, resumir ypresentar (en grficos o tablas) datos numricos. Estasubsume el anlisis de frecuencias para las variablescualitativas y el clculo de medidas de resumen para lasvariables cuantitativas.
Las variables son datos, valores o mediciones con los cualesestudian los individuos; estas se dividen en cuantitativas ycualitativas:
Variables Cualitativas: Expresan cualidades o atributosclasificados en categoras, pueden ser dicotmicas (clasificanla variable en dos categoras por ejemplo fuma/no fuma) opolitmicas (se observan tres o ms categoras, por ejemploel color de los ojos, profesin, grupo sanguneo). Presentandos niveles de medicin, nominal para las variables que nopresentan ninguna orden y ordinal para las variables cuyascategoras se pueden jerarquizar u ordenar como el estratosocioeconmico.
8/2/2019 7. Plan Analisis de La Informacion Corregio
5/36
Variables Cuantitativas: Expresan cantidad, puedenmedirse cuantificarse o expresarse en nmeros. Pueden sercontinuas o discretas y presentar un nivel de medicin derazn o intervalo.
Continuas: Pueden tomar cualquier valor dentro de un rangonumrico determinado como la edad, el peso y la talla(permiten la medicin con decimales).
Discretas: No admiten cualquier valor dentro de un rangonumrico, por lo que solo toman valores enteros.
Razn: Presentan un cero absoluto, es decir, el cero indicaausencia.
Intervalo: Presentan cero relativo, como la temperatura.
8/2/2019 7. Plan Analisis de La Informacion Corregio
6/36
Segn laNATURALEZA TIPO NIVEL DEMEDICINCUALITATIVA BicategricaDicotmica Nominal
OrdinalPolitmicaCUANTITATIVA Discretas De Intervalo
De RaznContinuas
8/2/2019 7. Plan Analisis de La Informacion Corregio
7/36
Estadstica inferencial: corresponde a los anlisisestadsticos que trasciende la descripcin a lageneralizacin, en este sentido deriva conclusionesgenerales (aplicables a una poblacin) a partir deobservaciones hechas en una muestra (observaciones o
datos recopilados de una parte representativa de lapoblacin).
Estadstica multivariante: Es la evaluacin del efecto
de varias variables independientes sobre unadenominada dependiente. Puede utilizarse para predecir,estimar o ajustar y para explicar el efecto recproco ysimultneo de varias variables sobre un desenlace.
8/2/2019 7. Plan Analisis de La Informacion Corregio
8/36
Anlisis univariado de variables cualitativas
Frecuencia absoluta: es la determinada por el nmerode veces que aparece el valor en una serie de datos,corresponde al recuento, por ejemplo el nmero total departicipantes o nmero total de hombres que participanen un estudio.
Frecuencia relativa: tambin es conocida comoproporcin o porcentaje, es el cociente entre lafrecuencia absoluta conjunta y el nmero de
observaciones que cumplen una condicin particular; porejemplo, porcentaje de hombres (nmero total dehombres divido el nmero total de participantes de unestudio).
8/2/2019 7. Plan Analisis de La Informacion Corregio
9/36
Medidas de resumenSe calculan a partir de variables cuantitativas, en estaspuede presentarse un gran nmero de valores observados,por ello se ha optado por analizarlas con base en las
siguientes preguntas:1) Alrededor de qu valor se agrupan los datos?2) Si se agrupan alrededor de un nmero, cmo lo
hacen? Muy concentrados? Muy dispersos?
Para dar respuesta a estas preguntas se desarrollaron lasmedidas de tendencia central, de dispersin y de posicin.
Anlisis univariado de variables cuantitativas
8/2/2019 7. Plan Analisis de La Informacion Corregio
10/36
Anlisis univariado
Variables cualitativas: Medidas de frecuencia(frecuencia absoluta, frecuencia relativa -proporciones).
Variables cuantitativas: Medidas de resumen.
Medidas de tendencia central: Media, Mediana,Moda.
Medidas de posicin: Mediana, Cuartiles,Percentiles, Deciles.
Medidas de dispersin: Varianza, Desviacin
8/2/2019 7. Plan Analisis de La Informacion Corregio
11/36
Medidas de tendencia central
Media aritmtica: Es la medida ms comn de localizacin ocentro de un grupo de datos, es el promedio aritmticoordinario. Es la suma de todos los valores de una variabledividida entre el nmero total de datos de los que se dispone.
Ventajas e inconvenientes:1. Se expresa en las mismas unidades que la variable.2. En su clculo intervienen todos los valores de la
distribucin.3. Es el centro de gravedad de toda la distribucin,
representando a todos los valores observados.4. Es nica.5. Su principal inconveniente es que se ve afectada por los
valores extremadamente grandes o pequeos de ladistribucin.
8/2/2019 7. Plan Analisis de La Informacion Corregio
12/36
Moda muestral: es la observacin que se presenta con mayor
frecuencia en la muestra. Es el valor de la variable que ms vecesse repite, y en consecuencia, en una distribucin de frecuencias, esel valor de la variable que viene afectada por la mxima frecuenciade la distribucin. En distribuciones no agrupadas en intervalos seobserva la columna de las frecuencias absolutas, y el valor de ladistribuci6n al que corresponde la mayor frecuencia ser la moda. Aveces aparecen distribuciones de variables con ms de una moda(bimodales, trimodales, etc), e incluso una distribucin defrecuencias que presente una moda absoluta y una relativa.
Ventajas e inconvenientes:1. Su clculo es sencillo.
2. Es de fcil interpretacin.3. Es la nica medida de posicin central que puede obtenerse en
las variables de tipo cualitativo.4. En su determinacin no intervienen todos los valores de la
distribucin.
8/2/2019 7. Plan Analisis de La Informacion Corregio
13/36
Medidas de dispersin
La localizacin o tendencia central no necesariamenteproporciona informacin suficiente para describir datosde manera adecuada, por ello al describir los datoscontinuos de la muestra se debe tener en cuenta sudispersin.
Las medidas de dispersin ms importantes suelen ser:desviacin estndar, rango, rango intercuartlico yvarianza.
Varianza: es la media de los cuadrados de lasdiferencias entre cada valor de la variable y la mediaaritmtica de la distribucin.
8/2/2019 7. Plan Analisis de La Informacion Corregio
14/36
Desviacin estndar: es la raz cuadrada de la varianza. Expresa
la dispersin de la distribucin y se expresa en las mismas unidadesde medida de la variable. La desviacin tpica es la medida dedispersin ms utilizada en estadstica.
Caractersticas de la desviacin tpica y la varianza:
1. Son ndices que describen la variabilidad o dispersin y por tantocuando los datos estn muy alejados de la media, el numeradorde sus frmulas ser grande y la varianza y la desviacin tpica losern.
2. Al aumentar el tamao de la muestra, disminuye la varianza y ladesviacin tpica.
3. Cuando todos los datos de la distribucin son iguales, la varianzay la desviacin tpica son iguales a 0.
4. Para su clculo se utilizan todos los datos de la distribucin; portanto, cualquier cambio de valor ser detectado.
8/2/2019 7. Plan Analisis de La Informacion Corregio
15/36
Coeficiente de Variacin: es una medida de dispersinrelativa de los datos y se calcula dividiendo la desviacintpica muestral por la media y multiplicando el cocientepor 100. Indica la relacin existente entre la desviacintpica de una muestra y su media.
Rango: Definido como la diferencia entre lasobservaciones ms grande y ms pequea r=Max(xi)-Min (xi).
Rango intercuartlico: diferencia entre el cuartil 3(percentil 75) y cuartil 1 (percentil 25).
8/2/2019 7. Plan Analisis de La Informacion Corregio
16/36
Medidas de posicin
Estn diseadas para proporcionar al investigador una medida
cuantitativa de donde est el centro de los datos en una muestra.Para el caso de distribuciones asimtricas se usan los cuartiles,deciles y percentiles.
Cuartil: corresponde a cada una de las cuatro partes que surge de
la divisin de todos los datos recolectados en cuatro partesiguales. El primer cuartil Q1 deja el 25% de los valores por debajo,el segundo cuartil es igual a la mediana y el tercero Q3 deja el75%.
Decil: es una de las 10 partes que ha sido divida en un conjuntoordenado de datos. El primer decil D1 deja el 10% de los valorespor debajo y el resto por encima. El quinto decil es la mediana.
Percentil: es el nombre que recibe cada uno de los puntos dedivisin de un conjunto ordenado de datos en 100 partes. El
percentil catorce (P14) deja el 14% de los valores por debajo. El
8/2/2019 7. Plan Analisis de La Informacion Corregio
17/36
Mediana
Es el punto donde la muestra se divide en dos partes iguales.
La palabra mediana es sinnimo de parte media. La ventajade la mediana es que los valores extremos no tienen muchainfluencia sobre ellos.
Dada una distribucin de frecuencias con los valores
ordenados de menor a mayor, llamamos mediana y larepresentamos por Me, al valor de la variable que deja a suizquierda el mismo nmero de frecuencias que a su derecha.
Ventajas e inconvenientes:
Es la medida ms representativa en el caso de variables quesolo admitan la escala ordinal. Es fcil de calcular. En la mediana solo influyen los valores centrales y es
insensible a los valores extremos u outliers.
8/2/2019 7. Plan Analisis de La Informacion Corregio
18/36
Anlisis bivariado
El uso de pruebas para comparar variables se basaen el cumplimiento del supuesto de normalidad. Eneste sentido, cuando el supuesto se cumple seemplean pruebas paramtricas y en caso contrario
pruebas no paramtricas.
Las pruebas de normalidad, al igual las pruebasempleadas en el anlisis bivariado y multivariado, se
interpretan bajo la lgica de las pruebas dehiptesis.
8/2/2019 7. Plan Analisis de La Informacion Corregio
19/36
Prueba de hiptesis
Una hiptesis estadstica es una proposicin o supuesto sobrelos parmetros de una o ms poblaciones.
El procedimiento que conduce a una decisin sobre unahiptesis en particular recibe el nombre de prueba dehiptesis. Tambin se conoce como pruebas de significacinestadstica. En sta se plantea la hiptesis nula y la hiptesisalternativa.
La hiptesis nula, representada por Ho, es la afirmacin
sobre una o ms caractersticas de poblaciones que al iniciose supone cierta, es decir, la creencia a priori. Es la hiptesisque plantea la igualdad.
La hiptesis alternativa, representada por Ha, es la
afirmacin contradictoria a Ho, y sta generalmente es lahiptesis a investigar.
8/2/2019 7. Plan Analisis de La Informacion Corregio
20/36
Ho es la hiptesis de igualdad Ho, se rechazacuando el valor p calculado en las diferentespruebas es menor que el valor de , queconvencionalmente es de 0,05 (que corresponde aun nivel de confianza del 95%).
La hiptesis de investigacin es la conjetura osuposicin que motiva la investigacin y conduce
directamente a la hiptesis estadstica. La hiptesisestadstica se establece de tal forma que pueden serevaluadas por medio de tcnicas estadsticasadecuadas.
8/2/2019 7. Plan Analisis de La Informacion Corregio
21/36
Pasos para la prueba de hiptesis
Datos: es necesario comprender la naturaleza de los datos que
forman la base de los procedimientos de prueba, ya que estodetermina la prueba particular que se ha de utilizar.
Supuestos (restricciones): algunos procedimientos cambian segnlas suposiciones, por ejemplo supuestos respecto a la normalidad de
la distribucin de la poblacin, igualdad de variancias eindependencias de las muestras.
Hiptesis: se trabaja con dos que deben anunciarse explcitamente. Primero la hiptesis que debe probarse, conocida como hiptesis nula o de
no diferencia y designada como Ho. En general, la hiptesis nula se
establece con el propsito expreso de ser rechazada. En consecuencia, elcomplemento de la conclusin que el investigador desea alcanzar seconvierte en el enunciado de la hiptesis nula.
La hiptesis alternativa, identificada con el smbolo HA es una proposicin quese creer cierta si los datos de la muestra llevan al rechazo de la Ho.
8/2/2019 7. Plan Analisis de La Informacion Corregio
22/36
Estadstico de prueba: es la frmula que se puede calcular a partir
de los datos de la muestra. Este sirve como un productor dedecisiones, ya que la decisin de rechazar o no Ho depende de lamagnitud del estadstico de prueba. La formula general de losestadsticos de prueba (EP) es: EP = (estadstico - parmetrosupuesto) / error estndar del estadstico.
Distribucin del estadstico de prueba: generalmente, es lanormal o la t student.
Regla de decisin: en la distribucin de probabilidad (por ejemplola normal o la t student) del estadstico todos los valores posibles sedividen en dos grupos conocidos como regin de rechazo y regin
de no rechazo. Los valores del estadstico de prueba que forman laregin de rechazo son aquellos que tienen la menor probabilidad deocurrir, mientras que los valores que forman la regin de no rechazotienen mayor probabilidad de ocurrir, si la Ho es verdadera paraambas regiones. La regla indica que se debe rechazar Ho si el valordel estadstico de prueba que se calcula a partir de la muestra esuno de los valores de la zona de rechazo.
8/2/2019 7. Plan Analisis de La Informacion Corregio
23/36
Nivel de significacin: la decisin en cuanto a qu valores van
hacia la regin de rechazo y cules van hacia la regin de norechazo se toma con base en el nivel de significacin deseado,designa como . Este se define con base en al distribucin normal ot student.
Clculo del estadstico de prueba: A partir de los datos contenidosen la muestra se calcula un valor del estadstico de prueba y secompara contra las regiones de no rechazo y rechazo que ya fueronespecificadas.
Decisin estadstica: Rechazar o no Ho, con base en el valor del
estadstico de prueba.
Conclusin.
Valor p: cantidad que indica qu tan inslitos son los resultados dela muestra, considerando que la Ho sea verdadera.
8/2/2019 7. Plan Analisis de La Informacion Corregio
24/36
Tipos de errores:
Error : tambin se conoce como error tipo I, consiste enrechazar una Ho verdadera.
Error : tambin se conoce como error tipo II, consiste enno rechazar una Ho falsa.
Al rechazar Ho se tiene el riesgo de cometer un error tipoI, al no rechazar Ho se tiene el riesgo de cometer unerror tipo II.
8/2/2019 7. Plan Analisis de La Informacion Corregio
25/36
Pruebas de normalidad: Kolmogorov Smirnov: para datos poblacionales. Kolmogorov Smirnov con correccin de Lilliefors: Para
datos muestrales con tamao de muestra igual o mayor a50.
Shapiro Wilk: Para datos muestrales con tamao demuestra igual o menor a 50.
En las pruebas de hiptesis Ho indica que los datosprovienen de una poblacin normal, por tanto si el valor p(significacin estadstica) es
8/2/2019 7. Plan Analisis de La Informacion Corregio
26/36
Anlisis bivariado
Variables a comparar Estadstica
paramtricainferencial
Estadstica no
paramtrica
Cualitativabicategrica concuantitativa
T Student para muestrasindependientes
Prueba U de Mann-Whitney
T Student para muestraspareadas Prueba de Wilcoxon
Cualitativa politmicacon cuantitativa
ANOVA Prueba H de Kruskal-Wallis
Cuantitativa concuantitativa Correlacin de Pearson Correlacin deSpearman, CoeficienteTao de KendalCoeficiente decorrelacin intraclase
Cualitativa con
cualitativa
Intervalo de confianza
para la diferencia dero orciones.
Chi cuadrado de
Pearson, Prueba exactade Fisher Mac nemar
8/2/2019 7. Plan Analisis de La Informacion Corregio
27/36
Regresin: es til para averiguar la forma probable delas relaciones entre las variables y el objetivo final, espredecir o estimar el valor de una variable quecorresponde al valor dado de otra variable.
En este anlisis participan dos variables X y Y; a lavariable X se le conoce por lo general como variableindependiente, ya que con frecuencia se encuentra bajoel control del investigador, es decir, los valores de Xpueden ser seleccionados por el investigador para
obtener uno o ms valores de Y, en correspondencia conlos valores de X. Por consiguiente, a la otra variable Y sele conoce como variable dependiente, y se habla deregresin de Y sobre X.
8/2/2019 7. Plan Analisis de La Informacion Corregio
28/36
Coeficiente de correlacin mltiple: evala la relacin entre
diversas variables y mide la intensidad de dicha relacin.
Coeficiente de correlacin parcial: Medida de la intensidadde la relacin lineal entre dos variables cuando se elimina lainfluencia de las variables restantes (introducidas al modelo
de correlacin mltiple). Es la correlacin entre Y y X1,despus de controlar el efecto de X2, manteniendo su valorconstante.
Modelo de regresin lnea mltiple: Supone la existencia deuna relacin lineal entre alguna variable Y, a la cual se le da el
nombre de variable dependiente, y K variables independientesX1, X2, Xk. A veces, a las variables independientes se los llamavariables explicativas porque se utilizan para explicar lavariacin de Y. Tambin se les conoce como variables deprediccin, pues se usan para predecir a Y.
8/2/2019 7. Plan Analisis de La Informacion Corregio
29/36
Anlisis multivariado
Desenlace de naturaleza cualitativa: Anlisis discriminante. Regresin logstica binaria o multinomial.
Desenlace de naturaleza cuantitativa:
ANOVA de dos o ms factores. Regresin lineal mltiple. Anlisis de componentes principales
Solo cualitativas: Anlisis factorial. Anlisis de componentes principales. Anlisis de cluster.
8/2/2019 7. Plan Analisis de La Informacion Corregio
30/36
Presentacin grfica de la informacin
Para variables Cuantitativas:1. Histograma de frecuencias: es una presentacin grfica de
una variable cuantitativa, donde se explicitan sus valores enel eje X y el eje Y representa la frecuencia de cada valor.
2. Polgono de frecuencias: es similar al histograma, ladiferencia radica en que no presenta la frecuencia de cadavalor den barras sino con puntos.
Para variables Cualitativas:1. Barras: con base en la altura de cada barra se determina la
frecuencia (absoluta o relativa) de cada categora de lavariable cualitativa.2. Sectores: en cada sector se grafica la frecuencia (absoluta o
relativa) de cada categora de la variable cualitativa.
8/2/2019 7. Plan Analisis de La Informacion Corregio
31/36
Comparacin del comportamiento de una variable
cuantitativa segn las categoras de una variablecualitativa:1. Diagrama de cajas: til para comparar medidas de
posicin y dispersin, dado que grafica los cuartiles 1,2 y 3. Permite principalmente las siguientes
comparaciones: 1) las medianas de la variablecuantitativa en cada una de las categoras de lavariable cualitativa, 2) los rangos intercuartlicos, 3) elgrado de dispersin con base la amplitud de las barrasy 4) los valores extremos y atpicos. til en los datosque no presentan distribucin normal y por tanto elmejor parmetro es la mediana.
2. Barras de error: el punto central indica la media y lasbarras su intervalo de confianza. til en los datos quepresentan distribucin normal y por tanto el mejorparmetro es la media.
8/2/2019 7. Plan Analisis de La Informacion Corregio
32/36
Comparacin de dos variables cualitativas:1. Barras apiladas:2. Barras agrupadas:
Comparacin de dos variables cualitativas:1. Grfico de dispersin o nube de puntos
8/2/2019 7. Plan Analisis de La Informacion Corregio
33/36
Histograma de la variable Peso (enkilogramos) de un grupo de estudio.
Polgono de frecuencias de la variable Peso
(en kilogramos) de un grupo de estudio
Grfico de barras: Frecuencia absoluta del estadocivil.
Grfico de barras: Frecuencia relativa del estadocivil.
8/2/2019 7. Plan Analisis de La Informacion Corregio
34/36
Grfico de sectores: Frecuencia del estadocivil
Diagrama de cajas. Comparacin del peso segnel sexo de los participantes.
Barra agrupada. Comparacin de la afiliacin ensalud segn el sexo.
Barra apilada. Comparacin de la afiliacin ensalud segn el sexo
8/2/2019 7. Plan Analisis de La Informacion Corregio
35/36
Barras de error. Comparacin del peso segnel sexo de los participantes
Grfico de dispersin o nube de puntos. Comparacin de larelacin entre la edad y el peso en los participantes del
grupo de estudio.
8/2/2019 7. Plan Analisis de La Informacion Corregio
36/36
Bibliografa
Dawson-Saunders B, Trapp RG. Bioestadstica Mdica. 2 ed. Mxico:
Editorial el Manual Moderno; 1996.
Pita Fernndez, S. Uso de la estadstica y la epidemiologa en atencinprimaria. En: Gil VF, Merino J, Orozco D, Quirce F. Manual de metodologa detrabajo en atencin primaria. Universidad de Alicante. Madrid, JarpyoEditores, S.A. 1997.
David Ruiz Muoz. Manual de estadstica. Universidad Pablo de Olavide.2004.
Szklo Moyses; Nieto Javier. Epidemiologa intermedia Conceptos yaplicaciones. Universidad de Wisconsin, Escuela de Medicina. Madison
Wisconsin. Walpole Ronald. Probabilidad y estadstica para ingenieros. Sexta edicin.
1999.
Azzimonti Juan Carlos. Bioestadstica aplicada a Bioquimica y farmacia.
S d di i
Recommended