Upload
fernando
View
228
Download
0
Embed Size (px)
Citation preview
7/23/2019 Proyecto de Tesis Final (1)
1/55
UNIVERSIDAD NACIONAL
SANTIAGO ANTNEZ DE MAYOLO
FACULTAD DE CIENCIAS
ESCUELA PROFESIONAL DE ESTADSTICA E INFORMTICA
Proyecto e te!"!#
A$%"c&c"'( e D&t& M"("() & %o! re)"!tro! e% re& e E*er)e(c"& e% +o!$"t&%
V,ctor R&*o! G-&r"& . +-&r&/0 $er"oo 122341256
Pre!e(t&o $or#
7&c89 EMERSON DAMIN NORA7UENA FIGUEROA
A!e!or#
M9Sc9 ED:IN ;O+NY ASNATE SALAZAR
+UARAZ ANCAS+
125 >? $?
7/23/2019 Proyecto de Tesis Final (1)
5/55
;atemticamente se representa como una implicacin de la forma 8 H, en donde 8 y H
representan conjuntos de atributos con interseccin vac!a
$8 I H J/, de tal forma que la re"la se presenta en un conjunto de transacciones : con una
confianza del KL.
?n ejemplo de re"la de asociacin ser!aA @M5L de las transacciones que contienen niFos tambi#ncontienen paFales. En este caso el M5L es el nivel de confianza de la re"la.
1919 P%&(te&*"e(to te'r"co &t"()e(te!
19195 7ASES TERICAS DE DATA MINING
5B MINERIA DE DATOS
$+8:E2B= =eftaly, 455)/.
a miner!a de datos es el proceso de detectar la informacin procesable de los conjuntos
"randes de datos. ?tiliza el anlisis matemtico para deducir los patrones y tendencias que
existen en los datos. =ormalmente, estos patrones no se pueden detectar mediante la
exploracin tradicional de los datos porque las relaciones son demasiado complejas o porque
hay demasiado datos.
Estos patrones y tendencias se pueden recopilar y definir como un modelo de miner!a de
datos. os modelos de miner!a de datos se pueden aplicar en escenarios como los si"uientesA
6 PronsticoA clculo de las ventas y prediccin de las car"as del servidor o del tiempo de
inactividad del servidor.
7/23/2019 Proyecto de Tesis Final (1)
6/55
6 2ies"o y probabilidadA eleccin de los mejores clientes para la distribucin de correo
directo, determinacin del punto de equilibrio probable para los escenarios de ries"o, y
asi"nacin de probabilidades a dia"nsticos y otros resultados.
6 2ecomendacionesA determinacin de los productos que se pueden vender juntos y
"eneracin de recomendaciones.6 Hsqueda de secuenciasA anlisis de los art!culos que los clientes han introducido en el
carrito de la compra y prediccin de posibles eventos.
6 8"rupacinA distribucin de clientes o eventos en "rupos de elementos relacionados, y
anlisis y prediccin de afinidades.
a "eneracin de un modelo de miner!a de datos forma parte de un proceso mayor que
incluye desde la formulacin de pre"untas acerca de los datos y la creacin de un modelo
para responderlas, hasta la implementacin del modelo en un entorno de trabajo. Este
proceso se puede definir mediante las seis etapas bsicas si"uientesA
&. :efinir el problema
4. Preparar los datos
7. Explorar los datos
M. 3enerar modelos
N. Explorar y validar los modelos
). *mplementar y actualizar los modelosEl si"uiente dia"rama describe las relaciones existentes entre cada paso del proceso y las
tecnolo"!as
7/23/2019 Proyecto de Tesis Final (1)
7/55
59 De>"("r e% $ro=%e*&
a primera etapa del proceso de miner!a de datos, tal como se resalta en el si"uiente
dia"rama, consiste en definir claramente el problema y considerar formas de usar los datos
para proporcionar una respuesta para el mismo.
Figura 2. Etapa de Definir el problema en el proceso de Data Mining
Este paso incluye analizar los requisitos empresariales, definir el mbito del problema,
definir las m#tricas por las que se evaluar el modelo y definir los objetivos concretos del
proyecto de miner!a de datos. Estas tareas se traducen en pre"untas como las si"uientesA
6 Ou# est buscandoQ Ou# tipos de relaciones intenta buscarQ
6 O2efleja el problema que est intentando resolver las directivas o procesos de la empresaQ
6 O:esea realizar predicciones a partir del modelo de miner!a de datos o solamente buscar
asociaciones y patrones interesantesQ
6 Ou# resultado o atributo desea predecirQ
6 Ou# tipo de datos tiene y qu# tipo de informacin hay en cada columnaQ En caso de que
haya varias tablas, Ocmo se relacionanQ O=ecesita limpiar, a"re"ar o procesar los datos
antes de poder usarlosQ
6 O+mo se distribuyen los datosQ Oos datos son estacionalesQ Oos datos representan conprecisin los procesos de la empresaQ
Para responder a estas pre"untas, puede que deba diri"ir un estudio de disponibilidad de
datos para investi"ar las necesidades de los usuarios de la empresa con respecto a los datos
http://msdn.microsoft.com/es-es/library/ms174949.aspx#DefiningTheProblemhttp://msdn.microsoft.com/es-es/library/ms174949.aspx#DefiningTheProblem7/23/2019 Proyecto de Tesis Final (1)
8/55
disponibles.
7/23/2019 Proyecto de Tesis Final (1)
9/55
ms en las ventasA la cantidad, el precio total o un precio con descuentoQ os datos
incompletos, los datos incorrectos y las entradas que parecen independientes, pero que de
hecho estn estrechamente correlacionadas, pueden influir en los resultados del modelo de
maneras que no espera.
Por consi"uiente, antes de empezar a "enerar los modelos de miner!a de datos, deber!a
identificar estos problemas y determinar cmo los corre"ir. En la miner!a de datos, por lo
"eneral se trabaja con un conjunto de datos de "ran tamaFo y no se puede examinar la
calidad de los datos de cada transaccinR por tanto, es posible que necesite usar herramientas
de "eneracin de perfiles de datos, y de limpieza y filtrado automtico de datos, como las
que se proporcionan en *nte"ration
7/23/2019 Proyecto de Tesis Final (1)
10/55
Figura !. Etapa de E"plorar los datos en el proceso de Data Mining
:ebe conocer los datos para tomar las decisiones adecuadas al crear los modelos de miner!a
de datos. Entre las t#cnicas de exploracin se incluyen calcular los valores m!nimos y
mximos, calcular la media y las desviaciones estndar, y examinar la distribucin de los
datos. Por ejemplo, al revisar el mximo, el m!nimo y los valores de la media se podr!a
determinar que los datos no son representativos de los clientes o procesos de ne"ocio, y que
por consi"uiente debe obtener ms datos equilibrados o revisar las suposiciones que son la
base de sus expectativas. as desviaciones estndar y otros valores de distribucin pueden
proporcionar informacin til sobre la estabilidad y exactitud de los resultados. ?nadesviacin estndar "rande puede indicar que a"re"ar ms datos podr!a ayudarle a mejorar el
modelo. os datos que se desv!an mucho de una distribucin estndar se podr!an ses"ar o
podr!an representar una ima"en precisa de un problema de la vida real, pero dificultar el
ajustar un modelo a los datos.
8l explorar los datos para conocer el problema empresarial, puede decidir si el conjunto de
datos contiene datos defectuosos y, a continuacin, puede inventar una estrate"ia para
corre"ir los problemas u obtener una descripcin ms profunda de los comportamientos que
son t!picos de su ne"ocio.
Puede usar herramientas como ;aster :ata
7/23/2019 Proyecto de Tesis Final (1)
11/55
7/23/2019 Proyecto de Tesis Final (1)
12/55
para extraer patrones. os patrones que encuentre en el proceso de entrenamiento dependern
de la seleccin de los datos de entrenamiento, el al"oritmo que elija y cmo se haya
confi"urado el al"oritmo.
9 E$%or&r y V&%"&r %o! Moe%o!El quinto paso del proceso de miner!a de datos, como se resalta en el si"uiente dia"rama,
consiste en explorar los modelos de miner!a de datos que ha "enerado y comprobar su
eficacia.
Figura %.Etapa de E"plorar y &alidar los Modelos en el proceso de Data Mining
8ntes de implementar un modelo en un entorno de produccin, es aconsejable probar si
funciona correctamente. 8dems, al "enerar un modelo, normalmente se crean varios con
confi"uraciones diferentes y se prueban todos para ver cul ofrece los resultados mejores
para su problema y sus datos.
8nalysis
7/23/2019 Proyecto de Tesis Final (1)
13/55
9 I*$%e*e(t&r y Act-&%"/&r %o! Moe%o!
El ltimo paso del proceso de miner!a de datos, como se resalta en el si"uiente dia"rama,
consiste en implementar los modelos que funcionan mejor en un entorno de produccin.
Figura '.Etapa de (mplementar y actuali)ar los Modelos en el proceso de Data Mining
?na vez que los modelos de miner!a de datos se encuentran en el entorno de produccin,
puede llevar acabo diferentes tareas, dependiendo de sus necesidades. as si"uientes sonal"unas de las tareas que puede realizarA
6 ?se los modelos para crear predicciones que lue"o podr usar para tomar decisiones
comerciales.
6 +rear consultas de contenido para recuperar estad!sticas, re"las o frmulas del modelo. Para
obtener ms informacin.
6 *ncrustar la funcionalidad de miner!a de datos directamente en una aplicacin.
6 ?tilizar *nte"ration
7/23/2019 Proyecto de Tesis Final (1)
14/55
6 +rear un informe que permita a los usuarios realizar consultas directamente en un modelo
de miner!a de datos existente.
6 8ctualizar los modelos despu#s de la revisin y anlisis .
6 8ctualizar dinmicamente los modelos, cuando entren ms datos en la or"anizacin, yrealizar modificaciones constantes para mejorar la efectividad de la solucin deber!a ser
parte de la estrate"ia de implementacin.
195B A%)or"t*o! e *"(er,& e &to!
?n al"oritmo de miner!a de datos es un conjunto de clculos y re"las heur!sticas que permite
crear un modelo de miner!a de datos a partir de los datos. Para crear un modelo, el al"oritmo
analiza primero los datos proporcionados, en busca de tipos espec!ficos de patrones o
tendencias. El al"oritmo usa los resultados de este anlisis para definir los parmetros
ptimos para la creacin del modelo de miner!a de datos. 8 continuacin, estos parmetros
se aplican en todo el conjunto de datos para extraer patrones procesables y estad!sticas
detalladas.
El modelo de miner!a de datos que crea un al"oritmo a partir de los datos puede tomar
diversas formas, incluyendoA
6 ?n conjunto de clsteres que describe cmo se relacionan los casos de un conjunto de
datos.
6 ?n rbol de decisin que predice un resultado y que describe cmo afectan a este los
distintos criterios.
6 ?n modelo matemtico que predice las ventas.
6 ?n conjunto de re"las que describen cmo se a"rupan los productos en una transaccin, ylas probabilidades de que dichos productos se adquieran juntos.
a eleccin del mejor al"oritmo para una tarea anal!tica espec!fica puede ser un
desaf!o. 8unque puede usar diferentes al"oritmos para realizar la misma tarea, cada uno de
ellos "enera un resultado diferente, y al"unos pueden "enerar ms de un tipo de
7/23/2019 Proyecto de Tesis Final (1)
15/55
resultado. Por ejemplo, puede usar el al"oritmo 0rboles de decisin de ;icrosoft no solo
para la prediccin, sino tambi#n como una forma de reducir el nmero de columnas de un
conjunto de datos, ya que el rbol de decisin puede identificar las columnas que no afectan
al modelo de miner!a de datos final.
191B E%e)"r -( &%)or"t*o $or t"$o
8nalysis
7/23/2019 Proyecto de Tesis Final (1)
16/55
a estructura de miner!a de datos define los datos a partir de los cuales se "eneran los
modelos de miner!a de datosA especifica la vista de datos de ori"en, el nmero y el tipo de
columnas, y una particin opcional en conjuntos de entrenamiento y de pruebas. ?na misma
estructura de miner!a de datos puede admitir varios modelos de miner!a de datos que
comparten el mismo dominio. En el dia"rama si"uiente, se muestra la relacin de laestructura de miner!a de datos con el ori"en de datos y con los modelos de miner!a de datos
que la componen.
Figura *.Estructura de Data Mining
a estructura de miner!a de datos del dia"rama est basada en un ori"en de datos que
contiene varias tablas o vistas, combinadas en el campo +ustomer*:.
?na tabla contiene informacin sobre los clientes, como la re"in "eo"rfica, la edad, los
in"resos y el sexo, mientras que la tabla anidada relacionada contiene varias filas de
informacin adicional sobre cada cliente, como los productos que ha adquirido.
En el dia"rama, se muestra que se pueden "enerar varios modelos de miner!a de datos a
partir de una misma estructura de miner!a de datos, y que los modelos pueden usar columnas
de la estructura diferentes.
;odelo &A usa +ustomer*:, *ncome, 8"e, 2e"ion y filtra los datos de 2e"ion.
7/23/2019 Proyecto de Tesis Final (1)
17/55
;odelo 4A usa +ustomer*:, *ncome, 8"e, 2e"ion y filtra los datos de 8"e.
;odelo 7A usa +ustomer*:, 8"e, 3ender y la tabla anidada, sin filtros.
:ado que los modelos usan columnas diferentes para la entrada, y dado que dos de los
modelos, adems, restrin"en sus datos mediante la aplicacin de un filtro, los modelospueden tener resultados muy diferentes aunque est#n basados en los mismos datos. Bbserve
que la columna +ustomer*: es obli"atoria en todos los modelos porque es la nica columna
disponible que se puede usar como clave de caso.
En esta seccin se explica la arquitectura bsica de las estructuras de miner!a de datosA cmo
se define una estructura de miner!a de datos, cmo se rellena con datos y cmo se usa para
crear modelos.
19
7/23/2019 Proyecto de Tesis Final (1)
18/55
Figura 1+.asos ,ue componen al proceso de e"tracci-n de conocimientos en bases de datos //D0.
8s!, los pasos que componen al proceso D:: son cincoA seleccin del objetivo, preproceso
de datos, transformacin, minado de datos e interpretacin de los resultados.
a seleccin del objetivo tiene como finalidad estudiar el problema y decidir cul es la meta
del proyecto. ?na vez definido el problema, se identifican las fuentes de datos internas o
externas y se selecciona el subconjunto de datos necesarios para la aplicacin de un
al"oritmo de miner!a de datos.
El preproceso de datos consiste en estudiar los datos seleccionados para entender el
si"nificado de los atributos y para detectar errores de inte"racin, por ejemplo, datos
repetidos con distinto nombre o datos que si"nifican lo mismo en diferente formato.
?na vez que se tienen los datos preprocesados, se procede a la transformacin final de los
mismos, esto con el fin de que se ajusten al formato de entrada del al"oritmo seleccionado.
El si"uiente paso es el minado de datos propiamente dicho. 8qu! se aplican los diferentes
al"oritmos de anlisis a los datos ya transformados. a finalidad en esta etapa es encontrarpatrones tiles e interesantes en los datos.
Por ltimo, se procede a interpretar y evaluar los resultados obtenidos en la etapa de minado
de datos. 8qu!, el usuario debe valorar los resultados conse"uidos y, de ser necesario, aplicar
una y otra vez los al"oritmos de :ata ;inin" hasta encontrar informacin til y valiosa. Esto
7/23/2019 Proyecto de Tesis Final (1)
19/55
ltimo hace que el proceso D:: sea un proceso iterativo y de bsqueda continua, en donde
el conocimiento y la intuicin del usuario jue"an un papel fundamental en el proceso.
19B Tc("c&! e M"(er,& e D&to!
+(E=,;.u,$&'')/ @:ata ;inin"A 8n Bvervie- from :atabase Perspective. *EEECransactions on Dno-led"e and :ata En"ineerin".En los ltimos aFos han existido muchos
avances en las investi"aciones y desarrollos relacionados con la miner!a de datos, como
resultado, se han desarrollado diversas t#cnicas y sistemas relativos al data minin".
:iferentes esquemas de clasificacin pueden ser usados para cate"orizar m#todos y sistemas
de minado de datos, como el tipo de base de datos a estudiar $relacional, orientada a objetos,
multimedia, etc./, el tipo de conocimiento que se quiere extraer $re"las de asociacin, re"las
de clasificacin, clusterin", etc./, as! como las t#cnicas que sern aplicadas en el proceso
$basadas en patrones, teor!a estad!stica, teor!a matemtica, enfoques inte"radores, etc./.
En la prctica, los m#todos de data minin" ms utilizados caen dentro de la cate"or!a de Utipo
de conocimiento a extraerV. as t#cnicas de minado de datos pertenecientes a esta cate"or!a
buscan hacer prediccin yWo descripcin de un fenmeno determinado.
a prediccin implica utilizar al"unas variables o campos de una base de datos para predecir
valores desconocidos o futuros de otras variables de inter#s, mientras que la descripcin estenfocada a encontrar patrones humano6interpretables que describen los datos. 8unque las
fronteras entre la prediccin y la descripcin no sean muy marcadas $parte de los modelos
predictivos pueden ser descriptivos, al "rado de que estos sean entendibles, y viceversa/, la
distincin es til para entender la meta "eneral de la extraccin de conocimiento. a
importancia relativa de la prediccin y la descripcin para aplicaciones particulares de
minando datos puede variar considerablemente. as metas de la prediccin y la descripcin
se pueden lo"rar utilizando una variedad de m#todos particulares de data minin".
> las t#cnicas de miner!a de datos sonA
6 8rboles de :ecisin.
6 2e"resin ineal
6 =aTve Hayes.
6 8nlisis +lster.
7/23/2019 Proyecto de Tesis Final (1)
20/55
6 2e"la de asociacin.
6
7/23/2019 Proyecto de Tesis Final (1)
21/55
a prediccin puede ser vista como la construccin y uso de modelos para evaluar las clases
de una muestra sin clasificaciones, o para evaluar el valor, o ran"o de valores, que un
atributo deber!a de tener para una muestra determinada.X5 En el primer caso se dice que se
est haciendo una clasificacin de los datos, mientras que en el se"undo, se dice que se esthaciendo una prediccin valores, en otras palabras, la clasificacin se refiere a poder predecir
valores discretos o nominales, mientras que la prediccin, propiamente dicha, se refiere al
pronstico de valores continuos.
193B C%-!ter"()
El +lusterin" identifica "rupos de datos para evaluar las diferencias y similitudes entre los
re"istros. a similitud puede medirse mediante funciones de distancia especificadas por los
usuarios o por expertos.
Figura 11.lster (dentificaci-n de grupos
+uando se utiliza la t#cnica de clusterin", se obtiene un dia"rama en el cual se muestra como
los datos caen dentro de distintos "rupos $clusters/. En el caso ms simple, se asocia a cada
dato un clster, dibujando los datos o instancias en un dia"rama de dos dimensiones $ayyad,?., PiatetsSy6
7/23/2019 Proyecto de Tesis Final (1)
22/55
El 8nlisis +lster tiene una importante tradicin de aplicacin en muchas reas de
investi"acin.
7/23/2019 Proyecto de Tesis Final (1)
23/55
qu!micas y pticas del vino que producenQ
19395B A(%"!"!Co()%o*er&o!C%-!ter!B
Es un procedimiento estad!stico que parte de un conjunto de datos que contiene
informacin sobre una muestra de entidades e intenta reor"anizarlas en "rupos
relativamente homo"#neos a los que se llama con"lomerados $clusters/.
Et&$&!e%A(%"!"!eCo()%o*er&o!C%-!ter!B
8/ Eleccin de las variables
H/ Eleccin de la medida de asociacin
+/ Eleccin de la t#cnica +luster
:/ 1alidacin de los resultados
ABE%ecc"'( e %&! @&r"&=%e!
:ependiendo del problema las variables pueden serA
A(%"!"! Co()%o*er&o! $or V&r"&=%e! o $or I("@"-o!6
7/23/2019 Proyecto de Tesis Final (1)
24/55
?na funcin dA?x? [ 2 se llama distancia m#trica s! x,y,z? se verificaA
K S"*"%&r"&
?na funcin sA?x? [ 2 se llama similaridad s! x,y,z? se verificaA
K S"*"%&r"& Mtr"c&?na funcin sA?x? [ 2 se llama similaridad m#trica s! x,y,z? se verificaA
=BC8A :ependiendo del Cipo del anlisis$por variables o por individuos/, que se realiza
existen distintas medias de asociacin aunque, t#cnicamente pueden utilizarse en amboscasos.
Me"&! e A!oc"&c"'( $&r& V&r"&=%e!6 +oseno del n"ulo de dos vectores $invarianza, salvo si"no, frente a homotecias6 +oeficiente de correlacin $invarianza frente a traslaciones y salvo si"no frente a homotecia
s4 ;edidas para datos dicotmicos
Me"& e Oc8"&"#
Me"& #
7/23/2019 Proyecto de Tesis Final (1)
25/55
Me"& e R-!!e%% y R&oA
Me"& e P&re?&! !"*$%e!#
Me"& e ;&cc&r#
Me"& e D"ce#
Me"& e Ro)er!T&("*oto#
Me"&! e A!oc"&c"'( $&r& I("@"-o!
D"!t&(c"& E-c%,e
D"!t&(c"& e M"(o!"#
donde q \ &
D"!t&(c"& 5 o c"-& C"ty 7%ocB#
D"!t&(c"& e Tc8e=yc8e@ o e% *"*o J B#
D"!t&(c"& e M&8&%&(o="!#
D"!t&(c"& x2
#
CBE%ecc"'( e %& tc("c& C%-!ter
Mtoo! ;errJ-"co!
7/23/2019 Proyecto de Tesis Final (1)
26/55
Es de a"rupar cluster para formar uno nuevo o separar al"uno ya existente para dar ori"en a otros dos
de forma que se maximice una medida de similaridad o se minimice al"una distancia.
C%&!">"c&c"'(#6 8sociativos o 8"lomerativosA
7/23/2019 Proyecto de Tesis Final (1)
27/55
D"!t&(c"& e(tre Co()%o*er&o!
as distancias entre los con"lomerados son funciones de las distancias entre observaciones,
hay varias formas de definirlasA
4
7/23/2019 Proyecto de Tesis Final (1)
28/55
A%)or"t*o! $&r& e% &(%"!"! e C%!ter
Existen diversas formas de medir la distancia entre clusters que producen diferentes
a"rupaciones y diferentes dendo"ramas. =o existe un criterio para seleccionar cual de los
al"oritmos es mejor. a decisin es normalmente subjetiva y depende del m#todo que mejor
refleje los propsitos de cada estudio particular.
En primero lu"ar, se comienza con una exposicin "eneral de los m#todos para continuar con
expresiones particulares de los mismosA
K
7/23/2019 Proyecto de Tesis Final (1)
29/55
donde nC , nA , nB denotan el nmero de objetos en cada uno de los "rupos y ^
es un valor arbitrario 5 _ ^ _ &
Proce"*"e(to $&r& e% A(%"!"! e C%!ter o Co()%o*er&o!
7/23/2019 Proyecto de Tesis Final (1)
30/55
%*CCE=,* y 28=D,E$4555/. @:ata ;inin"A Practical machine learnin" tools and techniques
-ith java implementations. 8l"unos al"oritmos de clusterin" permiten a una instancia
pertenecer a uno a ms clster, como resultado, el dia"rama en dos dimensiones muestra cmo
se traslapan los subconjuntos de datos $como un :ia"rama de 1enn/. Btros al"oritmos asocian
instancias a clster de manera probabil!stica, as! para cada instancia, existe una probabilidad
asociada o un @"rado de pertenencia con el cual se asi"na a un determinado cluster.
7/23/2019 Proyecto de Tesis Final (1)
31/55
8l"unos ejemplos de la aplicacin de las t#cnicas de clusterin", en el contexto de la extraccin
del conocimiento, incluyen la identificacin de sub"rupos homo"#neos de clientes en bases de
datos de marSetin", as! como la identificacin de subcate"or!as de medidas del espectro
infrarrojo del cielo.
Para clasificar una instancia @desconocida, se si"ue el flujo del rbol hacia abajo, de acuerdo
a los valores que ten"an los atributos para cada nodo, y cuando se lle"a a un @nodo hoja, la
instancia se clasifica de acuerdo a la clase asi"nada por dicho nodo.
Existen diversos m#todos para la induccin de rboles de decisin $*:7, +M, +M.N, Hayesiano,
+82C, etc./, cada uno de ellos ofrece diferentes capacidades, pero en "eneral, dichos
al"oritmos son apropiados para solucionar Uproblemas de clasificacinV. Estos problemas
presentan las si"uientes caracter!sticasA
El objeto de estudio del problema est representado por un conjunto fijo de atributos.
a funcin objetivo del problema tiene valores discretos.
os atributos son descritos mediante conceptos disyuntivos.
Puede haber errores en los datos de entrenamiento, tanto en la clasificacin como en los
valores de los atributos.
os datos de entrenamiento, con los cuales se construye el modelo, pueden tener valores
desconocidos para al"unos atributos.
Es importante seFalar que los rboles de decisin presentan una "ran ventaja respecto a otras
t#cnicas de clasificacin. Esta ventaja consiste en poder representar al conocimiento obtenido
mediante el uso de re"las de decisin.
19B L& *"(er,& e &to! y e% A%*&c( e D&to!
1995BDATA:ARE+OUSE
recuentemente los datos que sern minados se extraen del :ata-arehouse de una empresa.
Existe un beneficio real si los datos son parte ya de un :ata-arehouse esto es porque el
proceso de depuracin de datos para un :ata-arehouse y para la miner!a de datos son
similares.
7/23/2019 Proyecto de Tesis Final (1)
32/55
El :ata%arehouse es el centro de la arquitectura para los sistemas de informacin en la
d#cada de los Z'5.
7/23/2019 Proyecto de Tesis Final (1)
33/55
as principales reas de los temas influyen en la parte ms importante de la estructura clave.
as aplicaciones estn relacionadas con el diseFo de la base de datos y del proceso. En
:ata%arehouse se enfoca el modelamiento de datos y el diseFo de la base de datos. El diseFo
del proceso no es separado de este ambiente.
as diferencias entre la orientacin de procesos y funciones de las aplicaciones y la
orientacin a temas, radican en el contenido de la :ata a nivel detallado. En el
:ata%arehouse se excluye la informacin que no ser usada por el proceso de sistemas de
soporte de decisiones, mientras que la informacin de las orientadas a las aplicaciones,
contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que
pueden ser usados o no por el analista de soporte de decisiones.
I(te)r&o
El aspecto ms importante del ambiente :ata%arehouse es que la informacin encontrada al
interior est siempre inte"rada. a inte"racin de datos se muestra de muchas manerasA en
convenciones de nombres consistentes, en la medida uniforme de variables, en la
codificacin de estructuras consistentes, en atributos f!sicos de los datos consistentes, fuentes
mltiples y otros.
8 trav#s de los aFos, los diseFadores de las diferentes aplicaciones han tomado sus propias
decisiones sobre cmo se deber!a construir una aplicacin.
7/23/2019 Proyecto de Tesis Final (1)
34/55
+omo la informacin en el :ata%arehouse es solicitada en cualquier momento los datos
encontrados en el depsito se llaman de `tiempo variante`. os datos histricos son de poco
uso en el procesamiento operacional. a informacin del depsito por el contraste, debe
incluir los datos histricos para usarse en la identificacin y evaluacin de tendencias.
No @o%t"%
a informacin es til slo cuando es estable. os datos operacionales cambian sobre una
base momento a momento. a perspectiva ms "rande, esencial para el anlisis y la toma de
decisiones, requiere una base de datos estable.
En la si"uiente i"ura $i"ura &5/ se muestra que la actualizacin es decir el proceso de
insertar, borrar y modificar, se hace re"ularmente en el ambiente operacional sobre una base
de re"istro por re"istro. Pero la manipulacin bsica de los datos que ocurre en el
:ata%arehouse es mucho ms simple. (ay dos nicos tipos de operacionesA la car"a inicial
de datos y el acceso a los mismos. =o hay actualizacin de datos en el depsito, como una
parte normal de procesamiento.
Figura 12.Diferencia entre un Sistema 894 y un Sistema 89:.
E!c&%&=%e
7/23/2019 Proyecto de Tesis Final (1)
35/55
+uando la or"anizacin est lista para implementar una solucin de :ata%arehouse, la
solucin necesita acomodarse al incremento dramtico de la demanda de los datos. +omo las
instituciones crecen en otras reas, la solucin de :ata%arehouse necesita localizar los
nuevos or!"enes de datos y debe variar en su tamaFo de acuerdo a las necesidades.
7/23/2019 Proyecto de Tesis Final (1)
36/55
19191 Tr*"(o! U!&o! e( S&%-
5B E$"e*"o%o),&
a epidemiolo"!a es, en la aceptacin ms comn, el @estudio de las epidemias es decir, de
las @enfermedades que afectan transitoriamente a muchas personas en un sitio determinado.
7/23/2019 Proyecto de Tesis Final (1)
37/55
poblacin es humana con la peculiaridad y las derivadas dadas por su aplicacin a conjunto de
seres humanos y enfermedades o fenmenos relacionados con la salud.
a prevalencia se define como el nmero de casos de una enfermedad o evento en una
poblacin en un momento dado. Existen dos tipos de prevalenciaA prevalencia puntual yprevalencia de periodo.
695B Pre@&%e(c"& $-(t-&% o "(!t&(t(e&
:enominada tambi#n tasa de prevalencia, proporcin de prevalencia o casos prevalentes.
7/23/2019 Proyecto de Tesis Final (1)
38/55
6 Co!to#tienen costo para los servicios de salud y la sociedad en su conjunto.6 V")"%&(c"& I(ter(&c"o(&%#estn sujetas a re"lamentos sanitarios internacionales.
a notificacin debe realizarse en forma inmediata "eneral, en dependencia del potencial
epid#mico de las enfermedades y las condiciones de control que requieran.
"c&c"'( !e*&(&%
7/23/2019 Proyecto de Tesis Final (1)
39/55
Entre ellas se encuentran C#tanos neonatal, hepatitis viral, parotiditis, lcera "enital, flujo
uretral, 1*(W"c&c"'(
=o existe un sistema nacional de salud al subsector pblico, re"istros sociales y
or"anizaciones no "ubernamentales, se constituyen en fuentes fundamentales de notificacin,
los mismos estn or"anizados en espacios "eo"rficos de acuerdo a capacidad resolutiva las
2edes de er*e&e! 52CIE 52BH95B De>"("c"'(
a clasificacin de enfermedades se le conoce como un sistema de cate"or!as a las
cuales se les asi"nan morbosas de acuerdo con criterios establecidos.
H91B Pro$'!"to
Permitir el re"istro sistemtico e anlisis, la interpretacin, comparacin de datos de
mortalidad y morbilidad recolectados en diferentes pa!ses o reas y en diferentes #pocas.
H96B Ut"%"&
+onvertir los t#rminos dia"nsticos de datos problemticos de salud, de palabras a
cdi"os alfanum#ricos que permiten su fcil almacenamiento y posterior recuperacin para
el anlisis de la informacin. En la prctica se ha convertido en una clasificacin
dia"nstica estndar mencionada para todos los propsitos epidemiol"icos "enerales y
muchos otros de administracin de salud.
El +*E, no es adecuada para inda"ar entidades t#cnicas individuales y es adecuada paraclasificar enfermedades y otros tipos de problemas de salud, consi"nados en distintos tipos
de re"istros vitales y de salud.
H9
7/23/2019 Proyecto de Tesis Final (1)
40/55
a +*E es un sistema de clasificacin de ejes variables cuyo esquema debe servir a todos
los propsitos prcticos y epidemiol"icos. Este patrn puede ser identificado en los
cap!tulos de la +*E y hasta el momento es considerado como la estructura ms til que
cualquiera de las alternativas que se han probado.
a +*E fue publicada por laBr"anizacin ;undial de la
7/23/2019 Proyecto de Tesis Final (1)
41/55
-digo de grupo de enfermedades segn lasificaci-n Estadstica (nternacional de
Enfermedades Relacionados con la Salud.
F-e(te#Estructura bsica de la +*E &5
B D"&)('!t"co M"co
Eldia"nsticooproped#uticacl!nica es el procedimiento por el cual se identifica
unaenfermedad, entidad nosol"ica,s!ndrome,o cualquier condicin de salud6enfermedad $el
`estado de salud` tambi#n se dia"nostica/.
CDIGO TTULO
8556H'' +iertas enfermedades infecciosas y parasitarias
+556:M =eoplasias
:N56:' Enfermedades de la san"re y de los r"anos hematopoy#ticos y otrostrastornos que afectan el mecanismo de la inmunidad
E556E'5 Enfermedades endocrinas, nutricionales y metablicas556'' Crastornos mentales y del comportamiento35563'' Enfermedades del sistema nervioso(556(N' Enfermedades del ojo y sus anexos()56('N Enfermedades del o!do y de la apfisis mastoides*556*'' Enfermedades del sistema circulatorioG556G'' Enfermedades del sistema respiratorioD556D'7 Enfermedades del aparato di"estivo556'' Enfermedades de la piel y el tejido subcutneo;556;'' Enfermedades del sistema osteomuscular y del tejido conectivo
=556='' Enfermedades del aparato "enitourinarioB556B'' Embarazo, parto y puerperioP556P') +iertas afecciones ori"inadas en el periodo perinatal
556'';alformaciones con"#nitas, deformidades y anomal!as
cromosmicas
25562''
clasificados en otra parte
7/23/2019 Proyecto de Tesis Final (1)
42/55
En t#rminos de la prctica m#dica, el dia"nstico es unjuicio cl!nicosobre el estado psicof!sico
de una personaR representa una manifestacin en respuesta a una demanda para determinar tal
estado.
:ia"nosticar es dar nombre al sufrimiento del pacienteR es asi"nar una `etiqueta`.
95B Proce!o "&)('!t"co
El dia"nsticocl!nicorequiere tener en cuenta los dos aspectos de la l"ica, es decir, el
anlisis y la s!ntesis, utilizando diversas herramientas como la anamnesis, la historia
cl!nica, exploracin f!sicayexploraciones complementarias.
El dia"nstico m#dico establece a partir de s!ntomas, si"nos y los hallaz"os de
exploraciones complementarias, qu# enfermedad padece una persona. 3eneralmente una
enfermedad no est relacionada de una forma biun!voca con un s!ntoma, es decir, un
s!ntoma no es exclusivo de una enfermedad. +ada s!ntoma o hallaz"o en una exploracin
presenta una probabilidad de aparicin en cada enfermedad.
Elteore*& e 7&ye!ayuda al dia"nstico de una enfermedad a partir de los s!ntomas y
otros hallaz"os que presenta el paciente si las enfermedades son mutuamente excluyentes,
se conoce sus prevalencias y la frecuencia de aparicin de cada s!ntoma en cada
enfermedad.
7/23/2019 Proyecto de Tesis Final (1)
43/55
4 S")(o!#
7/23/2019 Proyecto de Tesis Final (1)
44/55
3astroscopia
+olposcopia
Coracoscopia
arin"oscopia
Hiopsia.
9ere(c"&%#
+onocimiento al que se arriba despu#s de la evaluacin cr!tica comparativa de sus
manifestaciones ms comunes con las de otras enfermedades.
9
7/23/2019 Proyecto de Tesis Final (1)
45/55
:eterminar si el sujeto est o no enfermo. Pueden plantearse problemas de
enjuiciamiento, pues hay que contar con una posible simulacin y con las neurosis e
histerias, que constituyen verdaderas enfermedades.
9
7/23/2019 Proyecto de Tesis Final (1)
46/55
Ciene por objeto identificar la enfermedad mediante los s!ntomas. 3eneralmente
un s!ntoma aislado no da una indicacin precisa de la enfermedad, puesto que puede ser
propio de muchas de ellas.
9B Pro=%e*&! e% D"&)('!t"co
6 :ia"nstico tard!o
6 :ia"nstico ausente
6 :ia"nstico "en#rico
6 :ia"nstico inexacto
6 :ia"nstico de moda
6
7/23/2019 Proyecto de Tesis Final (1)
47/55
4 Se)-r"Es la certeza de que un test predecir la presencia o ausencia de enfermedad
en un paciente. a se"uridad viene determinada por el valor predictivo de un resultado
positivo o ne"ativo, es decir, la probabilidad de que siendo un test positivo el paciente est#
realmente enfermo.
9HB V&%"e/ e -(& $r-e=& "&)('!t"c&
El caso ms sencillo es el de una prueba dicotmica, la cual clasifica a cada paciente
como sano o enfermo, en funcin de que el resultado de la prueba sea positivo o ne"ativo.
:e este modo, un resultado positivo se corresponde normalmente con la presencia de la
enfermedad estudiada y un resultado ne"ativo con la ausencia de la misma. En "eneral se
suele trabajar con una poblacin hetero"#nea de pacientes, de manera que los datos
obtenidos permiten clasificarlos en cuatro "rupos, los cuales suelen representarse en una
tabla 4Y4.En ella, se enfrenta el resultado de la prueba dia"nstica $en filas/ con el estado
real de los pacientes $en columnas/ o, en su defecto, el resultado de la prueba de referencia o
@"old standard que vayamos a utilizar. El resultado de la prueba puede ser positivo o
ne"ativo, pero estos pueden ser correctos o incorrectos, dando lu"ar a cuatro tipos de
resultadosA verdaderos positivos, verdaderos ne"ativos, falsos positivos y falsos ne"ativos.
&alide) de una prueba diagn-stica.
Re!-%t&o e %& $r-e=& E(>er*o S&(o
Po!"t"@o 1erdaderos positivos $1P/ alsos positivos $P/
Ne)&t"@o alsos ne"ativos $=/ 1erdaderos ne"ativos $1=/
F-e(te#httpAWWes.-iSipedia.or"W-iSiW:ia"nL+7LH7sticomL+7L8'dicoCiposdedia"n.+7.H7stico
93B V&%"e/ e -(& $r-e=& "&)('!t"c&
http://es.wikipedia.org/wiki/Diagn%C3%B3stico_m%C3%A9dico#Tipos_de_diagn.C3.B3sticohttp://es.wikipedia.org/wiki/Diagn%C3%B3stico_m%C3%A9dico#Tipos_de_diagn.C3.B3sticohttp://es.wikipedia.org/wiki/Diagn%C3%B3stico_m%C3%A9dico#Tipos_de_diagn.C3.B3stico7/23/2019 Proyecto de Tesis Final (1)
48/55
o que determina la validez del test utilizado va a ser el clculo de los valores de
sensibilidad y especificidad.
4 Se(!"="%"indica la probabilidad de que un paciente est# realmente enfermo siendo el
resultado del test positivo. Por tanto, es la capacidad de un test para detectar realmente la
presencia de enfermedad. a sensibilidad puede estimarse como la proporcin de pacientes
enfermos que obtuvieron un resultado positivo en la prueba dia"nstica, es decir, la
proporcin de verdaderos positivos, o de enfermos dia"nosticados, respecto del total de
enfermos en la poblacin de estudio. ue"oA
Se(!"="%"& VPBVPFNB
EspecificidadA es la probabilidad de que un paciente est# realmente sano tras obtener un
resultado del test ne"ativo. Es la capacidad de un test para detectar la ausencia de
enfermedad. 8s!, la especificidad puede estimarse como la proporcin de pacientes sanos
que obtuvieron un resultado ne"ativo en la prueba dia"nstica, es decir, la proporcin de
verdaderos ne"ativos, o de sanos reconocidos como tal, respecto del total de sanos en la
poblacin. :e este modoA
E!$ec">"c"& VNBVNFPB
o ideal es trabajar con pruebas dia"nsticas de alta sensibilidad y especificidad, superando
el 5L como m!nimo en ambos casos. =o obstante, esto no siempre es posible. En "eneral,
una prueba muy sensible ser especialmente adecuada en aquellos casos en los que el no
dia"nosticar la enfermedad puede resultar fatal para los enfermos, o en enfermedades en las
que un falso positivo no produzca serios trastornos psicol"icos o econmicos para el
paciente. En cambio, los test con una alta especificidad son necesarios en enfermedades
"raves pero sin tratamiento disponible que las ha"a curables, cuando exista "ran inter#s por
conocer la ausencia de enfermedad o cuando dia"nosticar a un paciente de una enfermedad,siendo falso positivo, pueda acarrear "raves consecuencias, ya sean f!sicas, psicol"icas o
econmicas.
9B E>"c&c"& e -(& $r-e=& "&)('!t"c&
7/23/2019 Proyecto de Tesis Final (1)
49/55
Canto la sensibilidad como la especificidad proporcionan informacin acerca de la
probabilidad de obtener un resultado concreto $positivo o ne"ativo/ en funcin de la
verdadera condicin del paciente con respecto a la enfermedad.
7/23/2019 Proyecto de Tesis Final (1)
50/55
o curva 2B+. a curva 2B+ es una representacin que compara la sensibilidad de la prueba
con el parmetro $&6Especificidad/ suponiendo as! una medida "lobal e independiente de
cualquier punto de corte establecido. El parmetro indicador ms utilizado es el `rea bajo
la curva` $8?+/.
7/23/2019 Proyecto de Tesis Final (1)
51/55
7/23/2019 Proyecto de Tesis Final (1)
52/55
7/23/2019 Proyecto de Tesis Final (1)
53/55
9 ADMINISTRACIN DE PLAN DE INVESTIGACIN
95 Cro(o)r&*&
8+C*1*:8:E< 45&ME ; 8 ; G
7/23/2019 Proyecto de Tesis Final (1)
54/55
RECURSOSUNIDA
D
PRECIO PRECIOUNITARIO
S9TOTAL S9
#.3.11.!1. Recursos ;umanos 6 8utor & 6 6
6 :i"itador & 55.55 55.55SU7 TOTAL 4 322922#.3.11.3+. Recursos materiales 6 :e oficinaPapel 8M 5" N555 5.5N 4N5.55
apiceros &5 &.55 &5.55 +d ) 4.55 &4.556 ;aterial de impresin+opias &555 5.&5 &55.55
*mpresiones 4555 5.&5 455.55
8nillado &5 N.55 N5.55SU7 TOTAL 11922#.3.11.2+. Servicios *nternet N55.55
8lquiler de +omputador 4N5.55
SU7 TOTAL H2922IMPREVISTOS 622922TOTAL 10
7/23/2019 Proyecto de Tesis Final (1)
55/55
X. ;.1. 3uzmn, (. +arrillo, E. 1illaseFor, E. 1alencia, 2. +alero,. E. ;orn y 8. 8costa.
$455M/. C#cnicas de ;iner!a de datosA 8plicacin en 1acunas 9 Cuberculosis. *nstituto
inlay. +entro de *nvesti"acin6:esarrollo y Produccin de 1acunas y . ;iner!a de datos ?na herramienta para la toma de
decisiones. 3uatemala 455). ') p"inas. acultad de *n"enier!a de la ?niversidad de