Upload
danganh
View
215
Download
0
Embed Size (px)
Citation preview
IIC2100Muestreo y Estadística con R
para Ingeniería
Ricardo Aravena C.
Septiembre 2013
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de estadística
Introducción
¿Qué veremos hoy?
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Introducción a la Estadística (de cada día). ¿Cómo hacer encuestas?Problemas ….Uso de una “calculadora” estadística (y un poco más).
IntroducciónEstadísticaMuestreo
R el software
Estadística
¿Qué es la estadística?
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
ConceptualUn conjunto de metodologías y técnicas que permiten caracterizar un fenómeno.
FormalEs el proceso de recolectar, resumir y analizar datos para la toma de decisiones bajo incertidumbre.
IntroducciónEstadísticaMuestreo
R el software
Estadística
¿Qué es la estadística?
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Ejemplo: Supón que las edades de un grupo de estudiantes son:
22, 24, 26, 19, 21, 23, 22, 22, 18, 23, 22
Describir…
IntroducciónEstadísticaMuestreo
R el software
Estadística
¿Qué es la estadística?
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Ejemplo: Supón que las edades de un grupo de estudiantes son:
22, 24, 26, 19, 21, 23, 22, 22, 18, 23, 22
Se tienen 11 casos y se puede deducir que: El menor tiene 18, y el mayor tiene 26 años. En términos más exacto, promedio 22 años. La moda y mediana es 22 años…
IntroducciónEstadísticaMuestreo
R el software
Estadística
¿Qué es la estadística?
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
¿Eso es estadística?La respuesta es no… lo realizado corresponde al uso de un par de indicadores, los cuales se utilizan para describir conjuntos de datos.Hay muchas preguntas sobre el: por qué?, cómo?, cuándo? y para qué? utilizar un u otro indicador.
IntroducciónEstadísticaMuestreo
R el software
Estadística
¿Qué es la estadística?
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
En resumen, se puede concluir que la estadística es:a)un conjunto de técnicas que permiten analizar datos que puede transformar en información y en conocimiento.b)La metodología que le da el sustento (métodos) a la investigación científica.
IntroducciónEstadísticaMuestreo
R el software
Muestreo
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Criterios básicos
POBLACION – conjunto de elementos con ciertas características de interés
MUESTRA – subconjunto de elementos de la población.
PARAMETROS vs. ESTADISTICAS – resúmenes de las características de la población y de la muestra respectivamente.
PRECISION – si la selección se realiza mediante diseños muestrales probabilísticos, es factible obtener un indicador de la precisión (varianza de los estimadores)
Aproximado .. Para estimar una proporción%1001 xn
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Criterios básicos para seleccionar una muestra de tamaño n
M.A.S. (muestreo aleatorio simple) asigna la misma probabilidad (“chances”) a cada elemento de la POBLACION (ej. Numerar).
M. Estratificado – segmentar o dividir la población en grupos homogéneos, de acuerdo a la característica a estudiar, y aplicar m.a.s. al interior de cada estrato (no necesariamente proporcional – Ej. Ver www.peoplemeter.cl)
M. de conglomerados – las unidades están agrupadas en forma natural (por ejemplo: alumnos de un curso, viviendas de una manzana, pasajeros de un vuelo, etc). Se seleccionan un número de conglomerados y al interior de cada uno de ellos se puede censar o bien aplicar m.a.s. de tamaños predefinidos (ej. www.casen.cl ver metodología)
Por tanto, es importante dilucidar el CÓMO SELECCIONAR.
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Determinación del tamaño de muestra ‐ Proporción
Si deseamos estimar una proporción P con un nivel de confianza predeterminado (digamos 95%) y un margen de error no superior a un %, el tamaño de muestra necesario de una población de N elementos, esta dado por:
Donde z corresponde al percentil de la distribución normal (1,96 para un 95%)
Y si no conocemos P, se usa criterio de varianza máxima P=1/2
Nnonn
PPzn 1
2
0 01)1(
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Determinación del tamaño de muestra ‐ Proporción
Fórmula:
Ejemplo:
Determine el tamaño de muestra para estimar la proporción de estudiantes que viene en automóvil al campus con un error no superior al 3% y un nivel de confianza del 95% (suponga N=3000, población de estudiantes)
Solución1: n0=1067 n=790 casos (aprox.) ‐ criterio de var. Máxima
Solución1: n0= 896 n=690 casos (aprox.) ‐ supuesto P=0,3
Nnonn
PPzn 1
2
0 01)1(
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Determinación del tamaño de muestra ‐MEDIA
Si deseamos estimar una media con un nivel de confianza predeterminado (digamos 95%) y un margen de error no superior a un unidades, el tamaño de muestra necesario de una población de N elementos, esta dado por:
Donde z corresponde al percentil de la distribución normal (1,96 para un 95%)
Y si no conocemos , puede utilizarse una cota =(Max‐Min)/4
Nn
onnzn01
2
0
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Determinación del tamaño de muestra ‐MEDIA
Fórmula:
Ejemplo:
Determine el tamaño de muestra para estimar la gasto medio semanal en alimentación de estudiantes que almuerzan en el campus con un error no superior al $1,000 (o de $500) y un nivel de confianza del 95% (suponga N=3000, población de estudiantes y que el gasto esta entre $2000 y $18000)
Solución1: suponemos =$4000. n0=61,5 n=60 casos (aprox.) ‐ error $1000
Solución1: suponemos =$4000. n0=246 n=230 casos (aprox.) ‐ error $500
Nn
onnzn01
2
0
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Motivación
La manera en que se formula una pregunta puede afectar los resultados de una encuesta.
Opción 1 ‐ ¿Qué marcas de Plasma/LCD conoce usted?
Opción 2 ‐ ¿Cuáles de las siguientes marcas de Plasma/LCD conoce usted: LG, Panasonic, Samsung, Sony, Philips, AOC, Sharp?
Claramente, los resultados son muy distintos!
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
¿Qué es un cuestionario?
• Un conjunto formalizado de preguntas que permiten obtener información útil – relevante, oportuna, eficiente y exacta – para la investigación.
•Instrumento de medición y recolección de información para su posterior análisis.
La principal función es medir un conjunto de variables relevantes para la decisión que se pretende tomar. Es ideal establecer un instrumento estándar que garantice la aplicación de las mismas preguntas a todos los encuestados.
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
GUIA METODOLOGICA – proceso de diseño
1. Especificar información necesaria2. Especificar tipo de entrevista3. Determinar el contenido de las preguntas individuales4. Analizar problemas de incapacidad / disposición5. Decidir estructura6. Determinar redacción7. Definir orden8. Identificar forma y disposición
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
1. Especificar información necesaria
Se debe definir la información que se busca obtener en relación a los objetivos específicos de la etapa cuantitativa y de la investigación en su conjunto.
Se deben determinar las variables relevantes del problema que se desean medir con el cuestionario
Anticipar la técnica del análisis de datos (métodos estadísticos) que se ocupará y simular los resultados que se obtendrán, para que el cuestionario sea coherente con las etapas de la investigación.
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
2. Especificar tipo de entrevista
Personal – Entrevista o auto‐aplicada
Telefónica – tradicional o CATI
Web – duración ideal no más de 10 minutos
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
WEB
VentajasCOSTO…y velocidad
ProblemasTasa de respuesta – Web < Telefónica < PersonalPercepción de anonimatoCantidad de datos – extensiónSesgo de selección
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
3. Determinar el contenido de las preguntas individuales
¿usted no fuma? : Si / No
¿es necesaria la pregunta? – no incluir preguntas innecesarias¿una o varias preguntas? – evitar conectivos “y” u “o” y “negaciones”
Ejemplos:¿con qué frecuencia lee revistas políticas?. ____ rara vez ____ a veces ____ siempre
Uso de escala Likert : muy en desacuerdo muy de acuerdo
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
4. Analizar problemas de incapacidad / disposición
• Información• “recordación”• Contexto / propósitos• Información delicada
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Tips:
• Dejar temas delicados hacia el final
• Hacer preguntas en tercera persona
• Ocultar preguntas difíciles entremedio de otras neutrales
• Proporcionar categorías en vez de solicitar cifras exactas.
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
5. Decidir estructura
• Preguntas abiertas, semi‐abiertas y cerradas
las cerradas son más “fáciles”… pero debe ser predeterminado
• Cerradas simples, múltiples o matriciales.
Afirmación‐ elección o grado de concordancia
• Ranking, nota, proporción
Usar escala comprensible
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
6. Determinar redacción
• Definición del quién, qué, cómo, cuándo, dónde y el por qué
a) ¿qué marca de pasta dental utiliza?
b) ¿qué marca de pasta dental utilizo durante la última semana?
• Vocabulario adecuado y coherente con el perfil
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
• Evitar el uso de palabras ambiguas
¿Con qué frecuencia va al supermercado? ____
a) __ Ocasionalmente __ Frecuentemente __ Regularmente
b) __ menos de una vez __ entre 3 y 4 veces __ más de 4 veces
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
7. Definir orden
Inicio:
• son fundamentales para ganar la confianza del entrevistado
• deben ser sencillas, interesantes e inofensivas.
• Posteriormente, se debe obtener la información más relevante. No solicite identificación – puede inhibir a los entrevistados
• Preguntas difíciles – una vez que se ha establecido la armonía y la confianza
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
ORDEN LOGICO
Por temas, al cambiar conviene usar frases de transición. Cuidado con las ramificaciones y filtros (condicionales).
Secuencia del “embudo” o desarrollo cognitivo:
¿usa el cinturón de seguridad? __ SI __ NO.
Formato alternativo –
¿viajo en auto la semana pasada de acompañante?
¿cuán largo fue el viaje? __ un par cuadras __ más
¿usó cinturón de seguridad: __ SI __ NO
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
8. Identificar forma y disposición
Recuerde que el uso de formato, márgenes, cuadros e imágenes pueden influir en las respuestas
Es útil utilizar numeración (concisa)
Instrucciones claras y precisas.
Evite saltos… y menos tener que volver atrás
Entregue la oportunidad de comentar la entrevista
y finalmente termine siempre con un agradecimiento.
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo – problemas….
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
A fines del año 2012, Adimark decidió suspender la secuencias de encuestas que realizaba mes a mes….
Razón: Inconsistencia de los resultados con la evidencia (Participación electoral)
Muy simple… el 65% de los encuestados decía haber ido a votar, pero los datos duros decían que el porcentaje era apenas superior al 40%...
IntroducciónEstadísticaMuestreo
R el software
Estadística
Encuestas por Muestreo – problemas….
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
¿Dónde está el error? –1. Los entrevistados mienten!2. La muestra es sesgada
a) Selección de números telefónicos “fijos”b) Un alto porcentaje de números seleccionados no
respondía la encuesta…
Solución:Adecuar apropiadamente el MARCO MUESTRAL…
IntroducciónEstadísticaMuestreo
R el software
R el software
¿Cómo?
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Es claro que existen métodos que permiten extraer la información de un conjunto de datos. El problema que debemos responder ahora es el ¿cómo?.La habilidad, es sin lugar a dudas, muy necesaria. Pero, cuando se disponen de métodos claramente definidos y grandes masas de datos, los sistemas computacionales son las herramientas.
IntroducciónEstadísticaMuestreo
R el software
R el software
¿Cómo?
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Ya vieron en su minuto que Excel® es, además, una poderosa herramienta estadística.Sin embargo, hay un pero…. Y este se refiere al objetivo final en cada uno de los sistemas computacionales y en el caso de Excel® claramente no es el estadístico …
IntroducciónEstadísticaMuestreo
R el software
R el software
¿Cómo?
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Se han desarrollados sistemas explícitamente para “hacer estadísticas”, nombres emergen rápidamente (en el ámbito estadístico)..Por ejemplo:SAS, Minitab, R, STATA (disponibles en PUC)SPSS, STATGRAPHICS, StatView, S‐Plus, entre muchos otros.
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
R (que es gratuito) es más que un sistema computacional estadístico. R es un lenguaje de programación para el análisis estadístico y gráfico.
Hoy en día, la comunidad estadística contribuye al crecimiento de R a través de librerías o “paquetes” especializados (y de libre disponibilidad).
IntroducciónEstadísticaMuestreo
R el software
R el software
Ejercitando
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Como se dijo, R es un lenguaje… así que conversar Primera clase:1° “encender” el sistema (doble click en logo R)2° >quit() …. Se ha finalizado una sesión.
(siempre hay que saber cuando salir!)
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
R – sistema de análisis estadístico
¿Qué puede hacer?… todo (estadísticamente hablando) por ejemplo:• descripciones estadísticas• gráficos• modelos de regresión• métodos multivariantes … y mucho más
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
¿Cómo?
Al disponer de una base de datos, a través de instrucciones simples y directas permite realizar los más diversos análisis estadísticos
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
¿Qué veremos hoy?
Cómo ingresar datos Cómo describir datos Cómo graficar datos Cómo aplicar métodos estadísticos
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
¿Qué métodos estadísticos revisaremos?
Regresión lineal múltipleRegresión logísticaOtros…
Pero, también trataremos de entender lo que estamos haciendo!
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
DATOS …Primeramente, en estadística existe el concepto de VARIABLE y CASOS, es decir, para todo problema podemos “construir” una matriz de n filas (datos) por k columnas (variables).
Así, para nuestros ejemplos utilizaremos una matriz de 100 casos por 10 variables (archivo Excel HATCO)
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
LEER DATOS … desde archivosPrimero, si nuestra base esta almacenada con la siguiente estructura:
Archivo: datos.txtCaso edad sexo PPA1 24 M 5.22 19 F 5.63 27 M 4.3..
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Basta con la instrucción>datos <‐read.table(“d:\\datos.txt”,header=T)
Después nos tenemos que “apropiar” de la base…
> attach(datos)> datos
Las instrucciones en R estarán antecedidas por el símbolo “>”
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Ahora, podemos “utilizarla”.. por ejemplo, veamos algunas descripciones básicas.Una descripción de las variables numéricas: edad y ppa.
> mean(edad)> mean(ppa)
Una descripción más completa:> summary(edad)
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Algún gráfico relevante…>hist(edad)
Un gráfico “interesante”…>boxplot(edad)
Un “dispersiograma” (o gráfico X vs Y)> plot(edad,ppa)
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
¿hay alguna asociación entre edad y ppa?
> cor(edad,ppa)
… estamos entrando al análisis estadístico…
Asociación Modelamiento causalidad…
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Regresión Lineal MúltipleGeneralmente se busca explicar (o predecir) una variable respuesta, digamos Y. Para ello disponemos de una cantidad k de variables explicativas.
Supuestos:• Linealidad• Homogeneidad• Auto‐correlación nula
kk XXY 110
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Utilicemos R para ajustar un modelo de regresiónLeemos los datos (a mano)
> ptje <‐ c(75,82,61,45,92,32,65,50)> nem <‐ c(720,660,500,540,750,480,600,640)> hrs <‐ c(10,15,10,8,18,2,8,6)
O leemos de archivo:
> datos <‐read.table(“d:\\notas.txt”,header=T)
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Ajustamos los modelos de regresión lineal simpleFUNCION : lm (viene de linear model)
> m1 <‐ lm (ptje ~nem)> m2 <‐ lm (ptje ~hrs)
Revisamos “resultados”..> summary(m1)> summary(m2)
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Ahora, ajustamos el modelo “múltiple”
> m3 <‐ lm (ptje ~nem + hrs)> summary(m3)
Aportes individuales..> anova(m3)
Interesa de sobremanera el coeficiente de determinación R2
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Regresión LogísticaEn ciertas circunstancias la respuesta a modelar es BINARIA, es decir toma uno de dos valores, por ejemplo:
1 si cumple cierta condiciónY =
0 si no cumple la condición
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Insistimos que Y puede representar – compra vs. no compra; paga vs. no paga; aprueba vs. no aprueba; etc.
Por tanto, nos interesa determinar los factores que influye en la probabilidad pi = P(Yi=1)
Haciendo cierta equivalencia con el modelo de regresión lineal clásico, se puede plantear
pi = xi’.
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Problemas:pi = xi’. con xi’ = 0+1x1+2x2+…+kxk
pi varia entre 0 y 1… y es claro que xi’ no necesariamente.
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Solución“Chance” |R+
“Logit” |R
Por tanto, se plantea el modelo para pi comologit(pi)
i
iP
P1
)log(1 i
iP
P
')log(1 iPP x
i
i
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
De la definición se puede obtener (“antilogit”)
que es un modelo no lineal
'
'
1 x
x
ee
ip
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
EjemploPara ilustrar el modelo logit, vamos a suponer que se disponen de los siguientes datos.Edad(grupo) 21 27 35 45 55Morosos 3 6 12 16 8TOTAL 20 30 40 35 12“probab” 0,15 0,20 0,30 0,46 0,67
¿depende la probabilidad de morosidad de la edad?
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
# ingresamos … manualmente los datos:> edad<‐c(21,27,35,45,55)> mor <‐c(3,6,12,16, 8)> tot <‐c(20,30,40,35,12)> prop <‐mor/tot> prop> resp <‐ cbind(mor, tot‐mor)> modelo <‐ glm ( resp ~edad, family=binomial)> summary(modelo)> predict(modelo, type=“response”) # prediccion
IntroducciónEstadísticaMuestreo
R el software
R el software
IIC2100 Taller de Herramientas Computacionales para Ingeniería Módulo de Estadística
Regresión POISSON
Alternativamente, se puede “modelar” la aparición de casos (morosidad) en función de la edad, tomando en cuenta la cantidad de “expuestos” con una regresión Poisson.> # con la base edad, mor y tot se tiene:> rp<‐ glm( mor~edad, family=poisson, offset=log(tot))> summary(rp)… es necesario indicar el OFFSET…
IntroducciónEstadísticaMuestreo
R el software