Upload
carmen723
View
236
Download
0
Embed Size (px)
DESCRIPTION
REDES NEURONALES
Citation preview
UNIVERSIDADE DA CORUA
Departamento de Matemticas
Tesis Doctoral
Modelizacin estadstica con Redes
Neuronales. Aplicaciones a la Hidrologa, Aerobiologa y Modelizacin de Procesos
Mara Castellano Mndez
Diciembre 2009
UNIVERSIDADE DA CORUA
Departamento de Matemticas
Tesis Doctoral
Modelizacin estadstica con Redes
Neuronales. Aplicaciones a la Hidrologa, Aerobiologa y Modelizacin de Procesos
Autora: Mara Castellano Mndez Director: Wenceslao Gonzlez Manteiga Tutor UDC: Ricado Cao Abad
Diciembre 2009
UNIVERSIDADE DA CORUA
Departamento de Matemticas
Tesis Doctoral
Modelizacin estadstica con Redes
Neuronales. Aplicaciones a la Hidrologa, Aerobiologa y Modelizacin de Procesos
Autora: Mara Castellano Mndez Director: Wenceslao Gonzlez Manteiga
Diciembre 2009
AGRADECIMIENTOS
En primer lugar deseo agradecer al director de esta memoria, D. Wenceslao Gonzlez Manteiga, su
dedicacin y apoyo durante estos aos.
Este trabajo ha sido financiado en parte por los proyectos del Ministerio de Ciencia e Innovacin
(MICINN), MTM2008-03010 y MTM2005-00820, as como el proyecto de la Comisin Interministerial
de Ciencia y Tecnologa (CICYT) ANACOM, CTQ2004-07811-C02-01.
Ha sido un largo viaje, como un tren de antao de larga distancia. Un trayecto cuajado de paradas,
donde han ido subiendo y bajando multitud de desconocidos destinados a escribir con tinta
indeleble pequeos y grandes fragmentos de esta aventura.
Deseo agradecer su apoyo y amor incondicional a las dos personas que ms quiero, mi pequea gran
familia, mi madre y mi hermano. Son el corazn y el alma de este trabajo, como lo son de cada
cosa que he hecho y har a lo largo de mi vida.
Tras la locomotora, quiero agradecer su ayuda a todos los dems; aquellos que me han tendido una
mano en el viaje, brindndome su tiempo, sus ideas, y su compaa en das de trabajo y tardes de
charlas; en lugares cercanos y lejanos, en despachos y cafeteras a lo largo del globo. Permitidme
usar la excusa de mi legendaria falta de tiempo para no decir nombres; hemos sido cmplices en
esto, y por supuesto yo nunca delatara a un compaero de felonas; vosotros ya sabis quienes sois
y lo agradecida que estoy por cada momento de complicidad compartido.
A todos, a los que estis o ya os fuisteis, a los valientes que segus en mi tren y a los que ya dej
atrs, muchas gracias por todo Ha sido fantstico
ndice
NDICE. INTRODUCCIN .. i
CAPTULO 1. UNA REVISIN GENERAL DE REDES NEURONALES
1.1 INTRODUCIN 1-1
1.2 QU ES UNA RED NEURONAL 1-3
1.2.1 TERMINOLOGA Y NOTACIN . 1-3
1.2.2 LOS USOS DE LAS REDES NEURONALES .. 1-7
1.3 CLASIFICACIN DE LAS REDES NEURONALES .... 1-8
1.3.1 SEGN SUS CONEXIONES ..... 1-8
1.3.1.1 REDES CON CONEXIONES HACIA DELANTE . 1-8
1.3.1.2 REDES CON CONEXIONES HACIA DELANTE Y HACIA ATRS ... 1-8
1.3.2 SEGN SU TOPOLOGA ..... 1-8
1.3.2.1 EL PERCEPTRON ..... 1-9
1.3.2.2 REDES NEURONALES DE BASE RADIAL ...... 1-11
1.3.3 SEGN EL TIPO DE APRENDIZAJE ...................... 1-15
1.3.3.1 REDES ON-LINE FRENTE A REDES OFF-LINE ........ 1-15
1.3.3.2 REDES CON APRENDIZAJE SUPERVISADO FRENTE A NO SUPERVISADO 1-15
1.3.3.2.1 APRENDIZAJE SUPERVISADO ...................... 1-15
1.3.3.2.2 APRENDIZAJE NO SUPERVISADO ................ 1-22
1.4 PREDICCIN CON REDES NEURONALES ............................. 1-24
1.4.1 REGRESIN CON REDES NEURONALES ..................... 1-24
1.4.1.1 REGRESIN LINEAL .......................................... 1-24
1.4.1.1.1 REGRESIN LINEAL SIMPLE ........................ 1-24
1.4.1.1.2 REGRESIN LINEAL MLTIPLE MULTIDIMENSIONAL .... 1-24
1.4.1.2 REGRESIN POLINMICA .................................. 1-25
1.4.1.3 REGRESIN LOGSTICA .............................. 1-26
1.4.1.4 REGRESIN LINEAL GENERALIZADA .......................... 1-27
1.4.1.5 REGRESIN ADITIVA GENERALIZADA ........................ 1-28
1.4.1.6 REGRESIN PROJECTION PURSUIT ........................... 1-29
1.4.1.7 REGRESIN GGAM ......................... 1-30
ndice
1.4.1.8 REGRESIN SINGLE INDEX MODEL ........................ 1-31
1.4.1.9 REGRESIN TIPO NCLEO ...................... 1-32
1.4.1.9.1 REGRESIN TIPO NCLEO UNIDIMENSIONAL UNIVARIANTE .... 1-33
1.4.1.9.2 REGRESIN TIPO NCLEO. VARIANTE 1. PREDICTOR DE NADARAYA-WATSON CON VENTANA VARIABLE ....................... 1-36
1.4.1.9.3 REGRESIN TIPO NCLEO. VARIANTE 2 ......................... 1-37
1.4.1.9.4 REGRESIN TIPO NCLEO. VARIANTE 3 ......................... 1-38
1.4.1.10 REGRESIN DEL K-SIMO VECINO MS CERCANO ................. 1-39
1.4.1.10.1 VARIANTE 1 ........................ 1-41
1.4.1.10.2 VARIANTE 2 ........................ 1-41
1.5 CLASIFICACIN CON REDES NEURONALES ....................... 1-43
1.5.1 CONSIDERACIONES GENERALES ................. 1-43
1.5.2 MTODOS CLSICOS ....................... 1-46
1.5.2.1 ANLISIS DISCRIMINANTE LINEAL ...................... 1-46
1.5.2.2 ANLISIS DISCRIMINANTE FLEXIBLE ...................... 1-46
1.5.3 MTODOS DE CLASIFICACIN NO PARAMTRICOS .................... 1-47
1.5.3.1 ESTIMACIN DE LA DENSIDAD TIPO NCLEO .................... 1-47
1.5.3.1.1 ESTIMACIN DE LA DENSIDAD TIPO NCLEO. VARIANTE 1 ..... 1-48
1.5.3.1.2 ESTIMACIN DE LA DENSIDAD TIPO NCLEO. VARIANTE 2 ..... 1-50
1.5.3.1.3 ESTIMACIN DE LA DENSIDAD TIPO NCLEO. VARIANTE 3 ..... 1-50
1.5.3.2 ESTIMACIN DE LA DENSIDAD DEL K-SIMO VECINO MS CERCANO .... 1-51
1.6 OTROS MTODOS DE ANLISIS DE DATOS .................... 1-52
1.6.1 ANLISIS FACTORIAL .................. 1-52
1.6.2 ANLISIS DE COMPONENTES PRINCIPALES ................. 1-53
1.7 APROXIMADORES UNIVERSALES .................... 1-54
1.7.1 ESTIMADORES DE DESARROLLOS ORTOGONALES ................. 1-54
1.7.2 FUNCIONES SIGMOIDEAS ..................... 1-56
1.7.3 FUNCIONES TIPO NCLEO ................... 1-57
1.8 REDES PROBABILSTICAS ................ 1-57
1.9 RESUMEN ................. 1-59
1.10 BIBLIOGRAFA ............... 1-60
CAPTULO 2. MODELIZACIN DE VARIABLES CONTINUAS CON REDES NEURONALES
2.1 INTRODUCCIN ................. 2-1
ndice
2.1.1 INTRODUCCIN AL PROBLEMA HIDROLGICO ................. 2-2
2.1.2 TERMINOLOGA Y NOTACIN ......... 2-5
2.2 MODELIZACIN MENSUAL DE LAS APORTACIONES. MODELOS BOX-JENKINS ........... 2-6
2.2.1 BREVE INTRODUCCIN A LAS SERIES DE TIEMPO ........... 2-6
2.2.2 LOS MODELOS SELECCIONADOS ....... 2-8
2.2.2.1 EL PRIMER MODELO ...... 2-8
2.2.2.2 EL SEGUNDO MODELO ... 2-9
2.2.2.3 EL TERCER MODELO ...... 2-10
2.2.2.4 EL CUARTO MODELO ...... 2-11
2.3 MODELIZACIN DIARIA DE LAS APORTACIONES. REDES NEURONALES FRENTE A MODELOS BOX-JENKINS .... 2-11
2.3.1 DETALLES SOBRE REDES NEURONALES ARTIFICIALES .... 2-11
2.3.2 LOS DATOS DIARIOS ... 2-13
2.3.3 EL MODELO DE RED NEURONAL PROPUESTO .. 2-14
2.3.4 EL MODELO BOX-JENKINS PROPUESTO .... 2-15
2.4 RESULTADOS Y DISCUSIN ... 2-15
2.4.1 RESULTADOS MENSUALES ...... 2-15
2.4.2 RESULTADOS DIARIOS . 2-19
2.5 CONCLUSIONES ... 2-21
2.6 BIBLIOGRAFA ...... 2-22
CAPTULO 3. REDES NEURONALES EN PROBLEMAS DE CLASIFICACIN
3.1 APLICACIN A LAS CIENCIAS MEDIOAMBIENTALES. PREDICCIN DE NIVELES DE RIESGO DE POLEN DE BETULA EN EL AIRE ....... 3-1
3.1.1 INTRODUCCIN AL PROBLEMA ............... 3-1
3.1.2 MATERIAL Y MTODOS ............... 3-3
3.1.2.1 REDES NEURONALES PARA DATOS CON RESPUESTA BINARIO ....... 3-5
3.1.2.2 FUNCIN DE ERROR PARA VARIABLES OBJETIVO BINARIAS ....... 3-6
3.1.3 RESULTADOS Y DISCUSIN ........ 3-8
ndice
3.2 APLICACIN A UN PROBLEMA DE SIMULACIN. COMPARACIN DE LOS MODELOS LINEALES GENERALES Y LAS REDES NEURONALES ........ 3-11
3.2.1 INTRODUCCIN ........ 3-11
3.2.2 MODELO LINEAL GENERALIZADO ....... 3-12
3.2.2.1 ALGORITMO DE FISHER SCORING ......... 3-12
3.2.3 ESCENARIOS DE SIMULACIN ........ 3-13
3.2.4 RESULTADOS Y DISCUSIN ........ 3-15
3.3 CONCLUSIONES .......... 3-17
3.4 BIBLIOGRAFA ......... 3-17
CAPTULO 4. APLICACIN DE REDES NEURONALES A PROBLEMAS DE CONTROL
4.1 INTRODUCCIN A PROBLEMAS DE CONTROL ........... 4-1
4.1.1 NOCIONES BSICAS DE CONTROL .......... 4-1
4.1.2 TIPOS DE MODELOS DE CONTROL .......... 4-2
4.1.2.1 CONTROL CLSICO FRENTE A CONTROL AVANZADO .......... 4-2
4.1.2.1.1 CONTROL CLSICO ............. 4-2
4.1.2.1.2 CONTROL AVANZADO .............. 4-7
4.1.2.2 SEGN EL NIVEL DE AUTOMATIZACIN ......... 4-7
4.1.2.2.1 CONTROL REGULATORIO BSICO ........... 4-7
4.1.2.2.2 CONTROL REGULATORIO AVANZADO ............. 4-8
4.1.2.2.3 CONTROL MULTIVARIANTE O MULTIVARIABLE ........... 4-8
4.1.2.2.4 OPTIMIZACIN EN LNEA .......... 4-8
4.1.3 DISEO DEL SISTEMA DE CONTROL ........... 4-8
4.2 APORTACIONES DE LAS REDES NEURONALES AL PROBLEMA DE CONTROL .. ... 4-10
4.2.1 CONTROL DIRECTO ............. 4-10
4.2.2 CONTROL INVERSO ............. 4-11
4.2.3 CONTRO INDIRECTO ........... 4-12
4.3 REDES NEURONALES EN PROCESOS DE CONTROL. PREDICCIONES TEMPORALES .. 4-13
ndice
4.3.1 CONTROL DE COLADA DE COBRE .......... 4-14
4.3.1.1 COLADA EN PLACA DE COBRE ............ 4-14
4.3.1.2 SISTEMA DE CONTROL AUXILIAR. ALARMA POR TEMPERATURA ... 4-15
4.3.1.3 PREDICCIN DE LA TEMPERATURA CON REDES NEURONALES ..... 4-16
4.3.2 CONTROL DE UNA PLANTA DE TRATAMIENTO ANAERBICO DE AGUAS RESIDUALES ......... 4-19
4.3.2.1 INTRODUCCIN A LA DIGESTIN ANAERBICA ........... 4-20
4.3.2.2 NECESIDAD DE UN SISTEMA DE MONITORIZACIN Y CONTROL EN UN REACTOR ANAERBICO ............ 4-23
4.3.2.3 SELECCIN DE VARIABLES .......... 4-23
4.3.2.4 MODELO DE CONTROL EXISTENTE ......... 4-24
4.3.2.5 PREDICCIN NEURONAL DE LAS VARIABLES DE CONTROL ........ 4-26
4.3.2.6 COMPARACIN CON SERIES DE TIEMPO ........ 4-31
4.4 CONCLUSIONES ............. 4-34
4.5 BIBLIOGRAFA ............. 4-35
Introduccin
- i -
Introduccin
Motivacin
Las redes neuronales constituyen una herramienta de anlisis, modelizacin y prediccin que se
puede encontrar cmodamente integrada en muy diversos campos: robtica, ingeniera,
psicologa, De este modo en sus aplicaciones a cada mbito las redes adoptan connotaciones
diferentes, y son vistas como herramientas de la ingeniera, rplicas del pensamiento racional,
modelos de caja negra, En todos los casos las redes se rigen por la filosofa general de
obtener modelos coherentes con la realidad observada, de tal modo que sean los datos los que
determinen el comportamiento de la red, bien a travs de la determinacin de sus estructura,
bien de sus parmetros internos Estas ideas acercan las redes neuronales a las ideas de los
mtodos no paramtricos de anlisis de datos, en particular y en general al mbito de la
estadstica.
Consideradas ya las redes neuronales como potentes herramientas estadsticas de anlisis de
datos, esta memoria se basa en dos motivaciones principales. En primer lugar se busca
clarificar la naturaleza de las redes neuronales, analizando sus fundamentos, poniendo de
manifiesto su naturaleza estadstica y sus conexiones con diversos mtodos estadsticos
ampliamente conocidos. Resaltando sus principios estadsticos la visin de las redes neuronales
se refuerza, ganando en consistencia terica al tiempo que se mantiene su carcter intuitivo e
innovador. En segundo lugar se desea mostrar con ejemplos concretos la bondad de las redes
neuronales como herramientas estadsticas de modelizacin y su capacidad para responder a las
necesidades que presentan los problemas observados en el mundo real. Con este fin se han
seleccionado distintos problemas reales de mbitos muy diversos, principalmente de la
industria y el medioambiente y se han analizado y modelizado mediante redes neuronales.
Se puede apreciar, pues, que se trata de un trabajo con profunda vocacin prctica, que busca
no slo realizar un estudio terico de los distintos tipos de redes neuronales, y de sus
conexiones con la estadstica, desde la clsica a no paramtrica, sino tambin mostrar cmo las
redes neuronales constituyen modelos capaces de dar el salto del mbito terico a la realidad,
aportando soluciones a problemas reales, al tiempo que se mantiene su rigor y esencia.
Esquema de la Monografa
Esta tesis est estructurada en cuatro captulos, adems de esta breve introduccin.
El primer captulo responde al primero de los objetivos citados anteriormente, el conocimiento
de los modelos de redes neuronales se centra por tanto en hacer una revisin de los orgenes
de las redes neuronales, sus propiedades como modelos y sus relaciones con otros mtodos
estadsticos convencionales, ms o menos avanzados. Este captulo permite entender la
filosofa de las redes neuronales, indagando en su naturaleza estadstica, y proporcionndoles
mayor profundidad que la que su vocacin de caja negra les suele otorgar. Inicialmente se
Introduccin
- ii -
presenta el origen de las redes neuronales, y las ideas latentes que subyacen en estos modelos;
en la segunda seccin se detalle el funcionamiento de las redes neuronales, se fijan las bases
de la notacin que se va a emplear en este documento, y se proporcionan ejemplos de los
mbitos donde su uso est extendido; la tercera seccin proporciona una visin panormica de
la amplia variedad de modelos que responden al nombre de redes neuronales, a travs de su
organizacin y clasificacin en diferentes categoras siguiendo mltiples criterios de
organizacin; ser en las secciones cuarta a sexta de este primer captulo donde se analicen las
conexiones que existen entre las redes neuronales y diferentes modelos estadsticos, de
prediccin y clasificacin, paramtricos y no paramtricos, y se aportarn algunas variaciones
de estos mtodos que surgen de modo natural a partir del anlisis de la estructura de las redes.
Finalmente en la seccin sptima de este primer captulo se mostrar tambin una visin de las
redes como aproximadores universales.
Los siguientes captulos, del segundo al cuarto ilustrarn la capacidad de modelizacin de las
redes neuronales a travs de su aplicacin a diversos problemas de diversa ndole en mbitos
medioambientales e industriales; las aplicaciones comprenden problemas de regresin,
problemas de clasificacin y finalmente problemas de control de procesos. En ste ltimo
mbito se estudiarn diversas posibilidades para la aplicacin de la capacidad predictiva de los
modelos de redes neuronales en problemas de control de procesos desde la perspectiva
estadstica y de ingeniera.
El segundo captulo se centra en la aplicacin de las redes neuronales a un problema de
modelizacin en un proceso continuo. En este caso el problema se enmarca dentro al campo de
la hidrologa, en particular en el mbito de la prediccin de escorrentas o caudales de un ro.
El objetivo ser comparar el funcionamiento de un modelo de redes neuronales con el de series
de tiempo tradicionales, a la hora de enfrentarse a la prediccin del caudal en la cuenca de un
ro; se trata de un problema real que tiene como fin proporcionar informacin vital para la
gestin de conjunto de centrales hidroelctricas, que se sitan en un determinado cauce
fluvial.
El tercer captulo se centra en las aplicaciones binarias de las redes neuronales, abordando un
problema de prediccin de probabilidades futuras. En este caso el problema subyacente que
motiv este problema se enmarcaba dentro del rea de medioambiente y consista en la
prediccin de la probabilidad de que la concentracin de polen en el aire alcanzase ciertos
niveles relevantes para la salud pblica. Es por tanto un problema de clasificacin entre das de
riesgo alto, medio o bajo para los pacientes sensibles a la presencia de polen en el aire. Este
ejemplo real se complementa con un estudio de simulacin, en el que se compara el
funcionamiento de una red con el de un Modelo Lineal Generalizado en el caso de respuesta
binaria.
El cuarto captulo est dedicado a la relacin de las redes neuronales con las tcnicas de
control. En l se revisan las metodologas de control ms interesantes al tiempo que aporta
ideas de cmo introducir las redes neuronales en estas estructuras. Presenta dos ejemplos de
aplicacin a procesos industriales. Uno de ellos con respuesta de control discreta ( colada en
placa de cobre) y otro en un proceso de depuracin de aguas. Como se sealar en el captulo
los trabajos realizados en el mbito de la depuracin de aguas no se limitaron al control ni a las
Introduccin
- iii -
redes neuronales, si no que han abarcado tcnicas de seleccin de variables, determinacin de
parmetros empleando tcnicas bootstrap aunque en esta tesis se presentarn solamente
aquellos directamente relacionados con estos tpicos.
En cada uno de los captulos se incluyen dos apartados finales, uno de resumen o conclusin de
cada captulo en el que se repasan las ideas ms relevantes contenidas en el mismo, y
finalmente la bibliografa, que se presenta de modo separado en cada captulo, para facilitar su
anlisis.
1. Una Revisin General
1-1
CAPTULO 1.UNA REVISIN GENERAL
RESUMEN
Las Redes Neuronales Artificiales, RNA, constituyen una tcnica de anlisis de datos
que desde hace algunos aos se ha extendido con fuerza a los ms diversos mbitos.
Este captulo recoge una revisin de los modelos de redes neuronales ms comunes.
As mismo mostrar el enfoque estadstico de las redes neuronales, permitiendo en
muchas ocasiones su interpretacin. Las redes neuronales se emplean en el
reconocimiento de seales, en la simulacin de sistemas biolgicos, y en el anlisis de
datos. Esta ltima faceta nos las relaciona claramente con diversos mtodos
estadsticos no paramtricos tanto de regresin como de clasificacin. Se presentarn
diferentes redes neuronales que clonan a los principales mtodos no paramtricos,
sealando los paralelismos entre los diferentes elementos que aparecen en los dos
campos. Se estudiarn sus posibilidades como modelos generales de regresin y de
clasificacin.
1.1 Introduccin
Desde los orgenes del hombre el deseo de observar, comprender, y cambiar su entorno para
adaptarlo a sus necesidades ha sido el motor de su evolucin. Desde las primeras herramientas
de metal, las pieles curtidas, la rueda, el diseo de la mquina voladora de Leonardo, hasta la
decodificacin del genoma humano, el hombre analiza su entorno en busca de respuestas que
mejoren la vida del ser humano, siempre tomando la naturaleza como modelo.
Aferrados a ese principio, a mediados del siglo XX surge un movimiento cientfico que trata de
imitar una de las cualidades ms fascinantes y al tiempo misteriosas del ser humano, su
inteligencia; para ello se intenta construir mquinas cuya estructura funcional sea similar a la
del cerebro humano, esperando que de esta idea surja tras un cierto perodo de aprendizaje,
de modo natural la luz de la inteligencia; esta bsqueda se centra principalmente en la
capacidad que tiene el ser humano para tomar decisiones de modo independiente.
El Reconocimiento de Muestras (Pattern Recognition) es la disciplina que responde al problema:
Dando algunos ejemplos de seales complejas, y la correcta decisin para ellas, tomar de
forma automtica decisiones para una sucesin de futuros ejemplos.
El Reconocimiento de Patrones atae a un extenso rango de actividades en muchos mbitos de
la vida. Algunos ejemplos seran:
- Graduar las distintas capas de una imagen visual - Clasificacin de tumores - Nombrar distintas especies de plantas con flores
1. Una Revisin General
1-2
- Reconocimiento de escritura
Algunas de estas tareas forman parte de nuestra vida cotidiana. A travs de nuestros sentidos
recibimos datos, y a menudo somos capaces de identificar el origen de esos datos, de un modo
inmediato y sin esfuerzo consciente (reconocer caras, voces,... incluso en malas condiciones).
Como los humanos podemos hacer estas tareas, en ocasiones mejor que las mquinas, despert
un gran inters el conocer los principios que permiten que el ser humano realice estas tareas.
El cerebro humano tiene adems otras caractersticas deseables, como su flexibilidad, la
facilidad con que se adapta a nuevas situaciones (aprendiendo), la tolerancia a los fallos, la
capacidad que tiene de manejar informacin fantasma, esto es, no tangible, difusa,...
Durante aos ingenieros, siclogos y fisilogos han intercambiado ideas sobre el funcionamiento
de los cerebros de animales y hombres, con el fin de clarificar los complejos mecanismos que
subyacen en la toma de decisiones y automatizarlos usando ordenadores. La primera mquina
influenciada por las ideas de la biologa y la psicologa fue el PERCEPTRN (Rosenblatt, 1958),
que despert un gran inters en los aos 60 debido a su capacidad para reconocer patrones
sencillos. La segunda mquina fue creada, ya a mediado de los 80, con la herramienta de las
redes neuronales. Ambas abandonaron rpidamente sus races biolgicas para ser estudiadas
desde un punto de vista matemtico. El reconocimiento de patrones tiene una larga y
respetable historia dentro de la ingeniera, especialmente en aplicaciones militares. El coste
del hardware, tanto para adquirir los datos como para computar las respuestas, lo convirti
durante aos en una rea muy especializada. El avance del hardware hizo que aumentasen los
intereses y las aplicaciones del Reconocimiento Muestral, revitalizando as su estudio.
Este estudio se centrar en las REDES NEURONALES ARTIFICIALES, (RNA), tambin denominadas
ANN por su denominacin en ingls, (Artificial Neural Networks); en concreto, en aquellas con
conexiones hacia delante.
Se denominaron REDES NEURONALES a aquellos modelos nacidos con el fin de imitar el
aprendizaje humano. Esta terminologa se ha extendido a aquellos mtodos que, en mayor o
menor medida tienen como germen aquellas revolucionarias ideas.
El nombre Redes Neuronales surge de la analoga con el cerebro humano y el modo en que los
hombres pueden acercarse a la tarea de reconocer muestras. Un largo camino las separa ya de
sus races biolgicas. Se han hecho grandes avances, y aunque muchos de ellos se han opuesto a
un cuidadoso escrutinio, los mtodos de las Redes Neuronales han tenido un gran impacto en la
prctica del reconocimiento de patrones (Haykin, 2009; Tang et al, 2007). Las redes
neuronales artificiales pueden considerarse como una herramienta estadstica completa para el
anlisis de datos (Bishop, 1995)
El entendimiento terico de cmo trabajan est todava en proceso de construccin y
abordaremos aqu su estudio desde un enfoque estadstico. La filosofa de las redes se basa en
que sean los datos los que establezcan el comportamiento de la red a travs de un aprendizaje,
y evitar as estar sujetos a una estructura encorsetada. Estas ideas acercan las redes neuronales
a la filosofa de los mtodos no paramtricos de anlisis de datos. Estos mtodos tienen la
caracterstica de poder aproximar funciones de muy diversa ndole, soslayando la necesidad de
establecer un modelo rgido al que ajustar los datos.
1. Una Revisin General
1-3
En la segunda seccin se explicar con detalle en qu consisten las redes neuronales, tambin
llamadas artificial neural networks (RNA), se fijar la notacin que emplearemos al exponer los
distintos tipos de redes, y sealaremos los principales mbitos en los que se han venidos
utilizando las redes neuronales.
En la tercera seccin realizaremos una minuciosa clasificacin de las redes neuronales segn
diferentes criterios, como su topologa, el tipo de conexiones que presenta la red, y el tipo de
aprendizaje que se emplee en el entrenamiento. Este ltimo enfoque nos proporcionar a su
vez diversas clasificaciones derivadas de la existencia de diferentes criterios de clasificacin
del aprendizaje.
Las secciones cuarta y quinta podrn de manifiesto los slidos vnculos existentes entre las
redes neuronales y las reglas de prediccin y clasificacin. Se expondrn las redes asociadas a
muchos y muy diversos mtodos estadsticos de clasificacin y prediccin, con el fin de ilustrar
adecuadamente cmo las redes neuronales pueden representar gran parte de las tcnicas
estadsticas. En particular se estudiarn las relaciones entre las redes neuronales de base radial
y diferentes mtodos no paramtricos tanto de regresin como de estimacin de la funcin de
la densidad, mostrando algunas variaciones de estos mtodos surgidas de las peculiaridades
inherentes a las redes neuronales. La seccin sexta muestra algunos ejemplos de estadstica
multivariante concretos, mientras en la seccin sptima se mostrar tambin una visin de las
redes como aproximadores universales, que se ilustrar con algunos ejemplos. A continuacin la
octava seccin revisa otra de las estructuras de aprendizaje ms extendidas, las llamadas redes
probabilsticas, para terminar con una seccin resumen de lo expuesto. Este primer captulo
constituye la base necesaria para la construccin de aplicaciones de las redes neuronales a
problemas reales, lo que constituir el cuerpo de la presente monografa.
1.2. Qu es una red neuronal?
Una RED NEURONAL es un proceso slido y paralelamente distribuido con la propensin natural
a acumular procedimientos experimentales y hacerlos disponibles para su uso. Se parece al
cerebro en dos aspectos, por una parte la red adquiere conocimientos a travs de un proceso
de aprendizaje, y por otra las conexiones interneuronales, conocidas como cargas sinpticas
presentan una gran solidez de se encargan de almacenar los conocimientos.
El funcionamiento de una red sera el siguiente. Se dispone de una serie de datos (situaciones
del pasado) y asociados a ellos la respuesta deseable de la red (training set). La red de algn
modo observa estos hechos y aprende de ellos (entrenamiento o aprendizaje), de modo que
cuando se encuentre en una nueva situacin acte de modo coherente con lo aprendido. Para
evaluar el comportamiento de la red ante nuevas situaciones se considerar un nuevo
subconjunto de datos (validation set), independiente del conjunto de entrenamiento.
1.2.1 Terminologa y Notacin
Del mismo modo que el cerebro est constituido por neuronas, la unidad bsica constituyente
de la red neuronal es el nodo, (neurona o elemento de procesado) Un nodo es un elemento de
clculo interconectado con otros muchos elementos, imitando las sinapsis nerviosas. La idea
era que, tal vez, conectando un nmero suficientemente alto de neuronas o nodos la
1. Una Revisin General
inteligencia naciese de modo natural del aprendizaje. A un nodo llegan conexiones desde
muchas otras neuronas, y en general proporciona una nica salida, como muestra la Figura 1.1.
EntradasSalida
Nodo
Figura 1.1. Esquema de un Nodo
A un nodo pueden llegar muchas entradas, xi, proporcionando gran cantidad de informacin. El
nodo condensar esta informacin de algn modo, por ejemplo a travs de una combinacin
lineal con cierto sesgo, (entrada ponderada); a continuacin se aplica cierta funcin,
obtenindose de este modo la salida del nodo, que a su vez podr ser la entrada de algn otro
nodo.
01
N
i ii
I x =
= + (1.1)
01
( )N
i ii
f I f x =
= + (1.2) Los parmetros i reciben el nombre de pesos, y reflejan la conexin entre las neuronas y cun fuerte es. Por su parte la funcin f recibe el nombre de funcin de transferencia o link; la
adecuada eleccin de esta funcin es en parte responsable de la bondad del comportamiento
de la red neuronal.
Algunas de las funciones de transferencia ms usuales son:
Umbral: (1.3) 0 0
( )1 0
si xf x
si x
1. Una Revisin General
distinta a la de los dems nodos, aunque en la mayora de los casos los nodos situados de un
mismo nivel presentan todos la misma funcin de transferencia.
En las redes neuronales con conexiones hacia adelante los nodos suelen estar distribuidos en
distintas capas, de modo que los de una capa estn conectados slo con los de la capa
inmediatamente superior. As la capa de entrada es aquella en que los datos, se presentan a la
red; las variables que conforman estos datos de entrada reciben el nombre de inputs; por otra
parte, la capa de salida es aquella en que la red nos devuelve su respuesta o respuestas, que
reciben el nombre de outputs.
Finalmente las capas intermedias reciben el nombre de capas ocultas. En general fijamos la
restriccin de que desde la capa de salida no puede surgir ninguna conexin a otro nodo, para
evitar bucles continuos en la red
Establezcamos la notacin que vamos a manejar en el estudio de las redes neuronales.
(a) Dimensiones de la red y notacin de las variables
HL- es el nmero de capas ocultas
- es el nmero de variables explicativas o entradas (inputs). Coincide con el nmero de
nodos de la capa de entrada
IN
1-5
- es el nmero de nodos de la l-sima capa oculta, 1lHN Hl L
- es el nmero de nodos de la capa de salida ON
iX Ii N - son las variables explicativas, 1
- son las variables objetivo, 1 kY Ok N
(b) Pesos de la red
- sesgo de entrada al nodo j-simo de la l-sima capa oculta 10 l lh h
j 1 Hl L lHj N 1 lah
ij Ii N pesos desde la capa de entrada a la l-sima capa oculta 1 lHj N 1- con 1
Hl L
- pesos desde la capa l1-sima capa oculta hasta la l2-sima capa oculta, ,
con y
1 2l lh h
ij 11 lHi N 2
1 lH
j N 11 Hl L 21 Hl L
- sesgo de entrada al nodo k-simo de la capa de salida 1 0LH
h o
k Ok N ao
ik pesos desde la capa de entrada a la capa de salida 1 y 1 Ok N Ii N -
1. Una Revisin General
lh o
jk lHj N pesos desde la l-sima capa oculta al nodo k-simo de la capa de salida, 1- y 1 con 1 Ok N Hl L
(c) Valores de la red y funciones de transferencia:
l
jg lHj N es la entrada ponderada al nodo j-simo de la l-sima capa oculta1- y 1 Hl L
l
jh lHj N
1-6
- es la salida del nodo j-simo de la l-sima capa oculta 1 y 1 Hl L
- es la entrada al nodo k-simo de la capa de salida 1 kq Ok N
- es la salida o prediccin k-sima de la capa de salida
kO 1 Ok N
( )k k kr Y O= - es el residuo o error k-simo;
, kr 1 Ok N
l
j
hf
lH
j N - es la funcin link asociada al nodo j-simo de la l-sima capa oculta 1 y
1H
l L
k
of- es la funcin link asociada al nodo k-simo de la capa de salida; 1 Ok N
lhf
Hl L - es la funcin link asociada a la l-sima capa oculta; 1
of- es la funcin link asociada a la capa de salida
La mayor parte de los modelos de redes neuronales, pueden ser expuestos como diagramas de
red, lo que facilita la comprensin y el anlisis de su estructura. A continuacin se expone
cmo se representan grficamente los distintos elementos que conforman la red
(d) Neuronas. Cada neuronas o nodo se representa mediante crculos y/o cajas.
- CRCULOS: son variables observadas o salidas de nodos, identificadas con su nombre.
Xi hj ok Yk
Figura 1.2. Representacin Circular de Nodos
- CAJAS: son otro modo de representar los valores calculados como funcin de uno o ms argumentos. Dentro tendrn un smbolo indicador del tipo de funcin de transferencia
empleada. Las cajas tienen adems un parmetro asociado llamado sesgo.
1. Una Revisin General
+ x j
/ O ?
Figura 1.3. Representacin de las Operaciones
Las operaciones representadas en las Figura 1.3 son, de izquierda a derecha, suma, potencia,
combinacin lineal, funcin logstica, funcin umbral, funcin de base radial y un valor
arbitrario.
(e) CONEXIONES y AJUSTES. Las conexiones entre neuronas se representan por flechas.
- FLECHAS: indican que el origen de la flecha es un argumento de la funcin que se calcula en el destino de la flecha.
- DOS LNEAS PARALELAS: indican que los valores de cada final han de ser ajustados, por mnimos cuadrados, mxima verosimilitud, o algn otro criterio de estimacin.
1.2.2 Los usos de las Redes Neuronales
Las RNA se usan principalmente con tres objetivos diferenciados:
Como modelos nerviosos biolgicos, e " inteligencia". Parte de las motivaciones biolgicas que dieron lugar a las redes neuronales se han conservado, por ello y se siguen empleando
como instrumentos que nos ayuden a entender y duplicar el funcionamiento de los sistemas
nerviosos de los seres vivos.
Como procesadores adaptativos de seal en tiempo real, o controladores, implementados en hardware para aplicaciones como robots. Esta es el rea del Reconocimiento de
Patrones. La tecnologa, la ciencia y los negocios han aportado nuevas tareas de inters
(diagnstico de enfermedades, leer cdigos ZIP...), que en algunos casos son
eminentemente tecnolgicas, como la lectura de cdigos de barras, y en otros muchos las
llevan a cabo expertos humanos. El objetivo es construir mquinas que realicen estas
labores de un modo ms rpido, ms barato, y ms exacto que los hombres. Cada
vez es ms factible idear sistemas automticos que sustituyan y mejoren al especialista
(como la cuenta de crdito de un cliente), o clonar al experto (ayuda al diagnstico
mdico)
Como mtodos de anlisis de datos. Principalmente este trabajo se centrar en esta ltima faceta de las redes. De hecho en multitud de ocasiones si se analiza detalladamente
lo que est haciendo una red se descubrir que se dedica a rescribir mtodos estadsticos
clsicos, como se detallar en secciones posteriores. As mismo cualquier red, an cuando
su objetivo final sea algo muy concreto y a simple vista alejado de la estadstica, como la
voz del desfibrilador que nos dice que el paciente tiene pulso y no puede recibir la
descarga, fue diseada, y por lo tanto puede ser analizada desde un punto de vista
meramente estadstico. Esta faceta de las redes fue estudiada con detenimiento por Sarle
(1994).
1-7
1. Una Revisin General
1-8
Se continua buscando el modelo que nos permita crear inteligencia, en el sentido humano del
trmino, la llamada inteligencia artificial; una mquina capaz de aprender realmente, de tomar
sus propias decisiones, de modificar y reinventar sus reglas de aprendizaje,...
1.3. Clasificacin de las Redes Neuronales
La principal clasificacin de las redes se basa en las conexiones que presentan. En esta tesis se
trabajara con redes que presentan conexiones hacia adelante o feedforward. Estas redes
as mismo pueden ser clasificadas segn dos criterios principales: la arquitectura o topologa de
la red, y el mtodo de aprendizaje empleado para su entrenamiento.
1.3.1 Segn sus Conexiones
Un criterio fundamental para clasificar las redes es aquel que se basa en las conexiones o nodos
que presentan. A pesar de que en la mayora de los casos se tratar con redes con conexiones
hacia delante, (feedforward), en particular aquellas que solo presentan conexiones entre
capas consecutivas, existen redes que no limitan de esa manera sus conexiones.
1.3.1.1 Redes con conexiones hacia adelante (feedforward)
En este tipo de redes la informacin se propaga hacia adelante por las distintas capas a travs
de los pesos. No existen conexiones hacia atrs, ni laterales (salvo en dos casos
particulares propuestos por Kohonen, que presentan conexiones implcitas entre las salidas,
que son el Learning Vector Quantizer (LVQ), y el Topology Preserving Map (TRM)) (Hilera
Gonzlez y Martnez Hernando, 1995). Redes de este tipo sern las que se consideren de
ahora en adelante.
1.3.1.2 Redes con conexiones hacia adelante y hacia atrs (feedforward/feedback)
Son redes donde la informacin circula tanto hacia adelante como hacia atrs, pues existen
conexiones, i.e. pesos, en ambos sentidos. Entre dos neuronas conectadas hay dos pesos, uno
en cada sentido, que en la mayora de los casos son diferentes. Generalmente son redes
bicapa. Muchas de estas redes basan su comportamiento en la resonancia, esto es, en la
interaccin de las informaciones de la primera y la segunda capa, hasta alcanzar un estado
estable.
En ocasiones se dan conexiones laterales entre neuronas de una misma capa. A este tipo de
redes pertenecen las red Adaptative Resonance Theory (ART), y la red Bidirectional
Associative Memory (BAM) (Hilera Gonzlez y Martnez Hernando, 1995).
1.3.2 Segn su Topologa
Las dos arquitecturas de redes neuronales ms usada son los Perceptrones Multicapa,
denominados habitualmente MLP debido a las siglas de su denominacin anglosajona,
Multilayer Perceptron, y las Funciones de Base Radial, que se asocian a sus siglas en ingls,
Radial Basis Functions Bsicas.
1. Una Revisin General
1.3.2.1 El Perceptrn
El primer modelo de red que se dise fue el perceptrn. Fue inventado por F. Rosenblatt en
1958. Con l pretenda ilustrar algunas de las propiedades de los sistemas inteligentes.
Posteriormente se desarrollaron adems diversas variantes del perceptrn, en particular el
perceptrn simple, esto es, sin capa oculta, entrenado segn una regla delta (con supervisin)
La gran flexibilidad de este primer esquema influy enormemente en el gran desarrollo
posterior de lo que acab desembocando en las redes neuronales. Los perceptrones se
clasifican por el nmero de capas que presentan. As aquellos con dos capas, esto es, sin capa
oculta, son perceptrones simples, y los de una o ms capas ocultas se llaman perceptrones
multicapa.
A continuacin se ilustra el ejemplo ms sencillo: el perceptrn simple. Un perceptrn simple
calcula la combinacin lineal de las entradas (con un trmino de sesgo) lo que se llama
entrada de red (1.8); a esa combinacin lineal se aplica una funcin de activacin, por regla
general la funcin signo, o la funcin umbral, dando lugar a la salida de la red. La figura 1.4
muestra el diseo de un perceptrn simple.
aow11
aoiw 1
aoN I
w 1
o
1X
INX
iX
1
aow 10
Y
Figura 1.4. Esquema del Perceptron Simple
Las ecuaciones del proceso son las siguientes
01 11
INao ao
i ii
q =
= + X (1.8)
01 11
01 11
0 00 0
( )1 0
1 0
I
I
Nao ao
i ii
Nao ao
i ii
si Xsi q
O f qsi q
si X
=
=
+
1. Una Revisin General
Est constituido por nodos de entrada y una nica neurona de salida, encargada de
decidir a cul de las dos clases posibles pertenece la observacin.
IN
La regla de decisin ser 1 si la observacin pertenece a la clase A, y 0 si pertenece a la clase
B. La salida depender de los pesos 1ao
i 01ao y del sesgo , que en este caso cumple el papel de valor umbral. Para que el clasificador pueda clasificar correctamente cualquier muestra es
necesario que las dos clases sean linealmente separables.
1-10
Figura 1.5. Separacin lineal en el plano de dos conjuntos
Las redes de este tipo, con slo dos capas se limitan a la resolucin de problemas con
observaciones separables geomtricamente (por hiperplanos). Ante estos inconvenientes
surgieron dos modelos nuevos, el ADALINE (elemento lineal adaptable) y el MADALINE
(elemento lineal adaptable mltiple). La estructura del ADALINE es la del perceptrn simple,
pero la funcin que aplica el nodo es la identidad; de este modo se permite ms flexibilidad
en la estructura de la red.
Un modelo ms verstil y complejo es el Perceptrn Multicapa (MLP), que consiste en cierta
cantidad de nodos organizados por capas (en al menos 3 capas), de modo que una neurona
reciba entradas slo de las neuronas situadas en la capa inmediatamente inferior. En general,
en un Perceptrn Multicapa cada uno de los nodos calcula una combinacin lineal de las
entradas que llegan a l, le aade un sesgo, y finalmente le aplica una funcin de activacin,
tambin llamada de transferencia, que por regla general traslada cualquier entrada real a un
rango generalmente acotado, dando lugar as a la salida del nodo, que puede ser una de las
entradas de un nuevo nodo.
Un perceptrn multicapa, al igual que uno simple puede tener una o ms salidas, cada una de
ellas con un conjunto de pesos y un sesgo asociados. A menudo se usa la misma funcin de
activacin para cada nodo de la misma capa, aunque es posible usar diferentes funciones de
activacin para cada neurona.
A AA B
BB1X
2X
B
1. Una Revisin General
ahNH
w1
ahNH
w2ahiNH
w
ahNN HI
w
1h
jh
HNh
iX
1X
2X
INX
11
ahNH
w0
hokw1
hokjw
hokNH
w
hokw0
ko kY
1o 1Y
ON
o ON
Y
Figura 1.6. Esquema de un Perceptron Multicapa, con una capa oculta (NI-NH-NO)
Las ecuaciones asociadas a un perceptrn multicapa son las siguientes:
01
para 1, ,IN
ah ah
j h ij i ji
h f X j N =
= + = " H (1.10)
1
para 1, ,HN
ho ho
k O jk j jkj
o f h k N =
= + = " O (1.11) En esta notacin se supone que todos los nodos de una misma capa emplean la misma funcin
de activacin, aunque podra perfectamente no ser as.
1.3.2.2 Redes Neuronales de Base Radial
El otro modelo arquitectnico importante es el de las redes de base radial (RBF). La filosofa
general de las redes consiste en huir de los modelos preestablecidos, y dejar que sean las
observaciones pasadas las que el comportamiento de las salidas de la red. En los perceptrones
esa influencia radica en el entrenamiento; en estas nuevas redes tambin, pero adems se
desean establecer ciertos valores de las variables de entrada y sus correspondientes variables
respuesta de tal forma que sean representativos de todos los estados en los que se puede
encontrar el sistema que se desea modelizar. Lo que va a diferenciar a estas redes de los
perceptrones es el modo en que actan sobre los datos de entrada, esto es, cmo condensan
la informacin que les proporcionan las distintas variables. En un MLP la entrada de red (net
input) a la capa oculta es una combinacin lineal de las entradas especificada por los pesos.
En una red de funcin de base radial las neuronas de la capa oculta calculan las funciones
radiales bsicas de las entradas, que son similares a las funciones empleadas en la regresin
tipo ncleo (Hrdle, 1990). Para ello ser necesario disponer de un conjunto de
observaciones, tal y como se tiene en la regresin no paramtrica, con respecto a los que
calculamos la distancia del vector de entradas.
1-11
1. Una Revisin General
1-12
Ese conjunto de centros { } {1 1,G G G HH NN ah hoi i ii iW W W= } == , siendo { } ( ){ }1 21 1, , ,G HH I NNah ah ah ahi i i N ii iW = == , y { } ( ){ }1 21 1, , ,G HH O NNho ho ho hoi i i iNi iW = == ), tiene que cumplir una de las propiedades principales de los conjuntos de entrenamiento, ser significativos, esto es, que representen todas las
situaciones en las que se puede encontrar el sistema que se desea imitar. Pero al contrario
que en el caso de conjunto de entrenamiento deseamos reducir al mximo el nmero de
elementos de ese conjunto, pues el nmero de pesos involucrados en la red ser proporcional
al nmero de centros escogidos. Adems ha de ser independiente del conjunto de entrenamiento y del de validacin.
Cuando se introduce un caso nuevo en la red, se calculan las distancias a los centros, que se
matizarn en funcin de unos parmetros llamados ventanas, 0
ah
j , asociados a cada nodo
oculto, y que cumplen tareas similares a las que cumple el parmetro ventana en la
metodologa tipo ncleo (Wand y Jones, 1995). La funcin de activacin de la capa oculta
(igual para todos los nodos) puede ser cualquiera de una variedad de funciones en los reales,
que alcanzan el mximo en el 0, y que a medida que se acercan a , tienden a cero. Por su parte en la capa de salida se calcularn combinaciones lineales de las salidas de la
capa oculta, esto es, la funcin de activacin ser la identidad. En ocasiones se considera
como ventana, la mitad del parmetro, pues es la amplitud de la zona a cada lado, en
cualquier caso ambas ideas son equivalentes. Algunas posibilidades para las funciones K son:
( )2= K(r) exp r 2Gaussiana (1.12) 2 2K(r) = (c +r ) Multicuadrtica (1.13)
Thin Plate Spline (1.14) 2K(r) = r log r
En general se puede aplicar cualquier funcin tipo ncleo, pues se rigen por el mismo
principio: establecer regiones en el espacio de entradas, que pueden superponerse unas a
otras, entorno a ciertos puntos (centros) que se suponen significativos. La norma empleada
para calcular la distancia entre un punto y los centroides no es fija, sino que constituye otro
grado de libertad de la red. Las ms utilizadas son la Eucldea y la de Mahalanobis. La Figura
1.7 muestra la estructura de una red RBF, y las ecuaciones siguientes muestran un ejemplo de
la forma numrica que adopta.
1. Una Revisin General
iX
1X
INX
0 HahNw
1
o
ohNH
w 1
ohw11
1h
HNh
1
01how
01ahw
ahNH
w1
ahw11
Figura 1.7. Esquema de una Red de Base Radial Mltiple con Salida Unidimensional
el conjunto de variables de entrada, y sea { } {1 1, }G G G HH NN ah hoi i ii iW W W= =={ } 1INi iX =Siendo el conjunto de los centros, se tiene,
( )1
22
10
11, ,
INah
i ij iahij
h K x para i N == =
H , (1.15) con NH el nmero de nodos de la capa oculta, o lo que es lo mismo el nmero de centros que se ha establecido. La salida responde a la expresin:
( )1
22
01 1 01 11 1 10
01 11 0
1H H I
H
N N Nho ho ho ho ah
i i i ij iahi i ij
ahNiho ho
i ahi i
o h K x
x WK
= = =
=
= + = + = +
GG
=
(1.16)
La regin cerca de cada centro de los RBF recibe el nombre de campo receptivo (receptive
field) de la neurona oculta. Es la zona donde ejerce su influencia el centro asociado a ese
nodo. Las neuronas RBF tambin se llaman campos receptivos localizados (locally tunned
processing units o funciones de potencial) (Buhmann, 2003). En ocasiones los valores de la
capa oculta se normalizan para que sumen 1, como se hace comnmente en estimacin tipo
ncleo (Silverman, 1986).
Las redes RBF poseen la particularidad de que el nmero de nodos de la capa oculta coincide
con el nmero de centros por lo que es imprescindible haber seleccionado el nmero de nodos
1-13
1. Una Revisin General
para tener la topologa definitiva de la red. Es necesario pues abordar el problema de la
eleccin de los centros. En principio se pueden considerar todos los pesos como susceptibles
de ser modificados durante el entrenamiento, pero esta no es la nica posibilidad.
Frecuentemente las redes RBF son consideradas como hbridas. Antes de comenzar el
entrenamiento se realiza un anlisis cluster (Everitt et al., 2001; Pea, 2002) sobre el
conjunto de entradas y se seleccionan como centros las medias de los cluster. Siguiendo esta
misma idea las ventanas se toman a menudo de tal forma que coincidan con la distancia al k-
simo vecino ms cercano desde el centro seleccionado previamente, o bien se determinan a
partir de las varianzas de los clusters. De este modo ni los centros ni las ventanas se
determinan convenientemente de modo previo a la red. Durante el entrenamiento se buscan
nicamente los valores de los parmetros que unen la capa oculta con la capa de salida, esto
es, si se tratase de un problema de regresin, los valores que toma la variable objetivo en los
centros.
Un tipo especial de redes de base radial son aquellas denominadas funciones potencial.
Estas funciones constituyen mtodos tipo ncleo, de modo que cada observacin o centro se
considera asociado a una carga de intensidad, qi. El potencial de un nuevo punto responde a
la expresin (1.17), en la que K es una funcin tipo ncleo, y el potencial es seleccionado
segn los objetivos de la red.
(1.17) ( ) ( )1
;HN
ahi
if X q K X W
== G G iG
Las diferencias entre ambas topologas radica como en el modo de procesar la informacin de
los nodos de la capa oculta de ambos, que se refleja en sus expresiones matemticas.
01
INah ah
j j iji
ig x =
= + MLP: (1.18) (1.19) ( )jh f g= j
12 2
1 0
G GI ahNij i
j ahi j
ahj
xg W X
=
= = RBF: (1.20)
(1.21) ( )jf K g= jTanto los MLP como las RBF son aproximadores universales (Hartman et al., 1990; Park y
Sandberg, 1991; Zhou, 2003; Powell, 1987), esto es, cualquier funcin con la suficiente
suavidad puede ser escrita como la salida de una red neuronal. Al final de este captulo se
dedicar una seccin a la introduccin de los aproximadores universales, ilustrando alguno de
los ms extendidos.
1-14
1. Una Revisin General
1-15
1.3.3 Segn el Tipo de Aprendizaje
La caracterstica distintiva y original de las redes neuronales es el aprendizaje. A diferencia de
otros sistemas tradicionales, para los que el conocimiento se expresa en forma de reglas
explcitas, las redes neuronales generan sus propias reglas en el aprendizaje. Las redes
neuronales aprenden de los datos, sin que sea preciso determinar una estructura para el
sistema que deseamos reproducir, ni situar la distribucin de probabilidad dentro de una
familia concreta.
El aprendizaje de la red consiste fundamentalmente en la modificacin de los pesos que
conectan los nodos. Cmo aprende la red, o lo que es lo mismo, qu es lo que hace que las
conexiones interneuronales se modifiquen, qu criterios se siguen, y cundo las modificaciones
son aceptadas y cundo no, ser vital a la hora de obtener buenos predictores neuronales. El
proceso por el cual una red aprende se llama entrenamiento. Hay diversas clasificaciones del
aprendizaje y por consiguiente de las redes, segn diferentes criterios.
1.3.3.1 Redes On-Line frente a Redes Off-Line
Una primera divisin distingue entre redes off line y redes on line.
Las redes off line se caracterizan porque para realizar su aprendizaje ha de detenerse el
funcionamiento de la red. Se distinguen en este tipo de redes dos etapas: una de
entrenamiento y otra en que la red se dedica a predecir. Cuando la red proporciona
predicciones, no se encuentra entrenando, y mientras entrena est inhabilitada para dar
respuesta a nuevos datos.
Por su parte las redes on line tienen la caracterstica de que entrenan con cada nuevo dato
que recibe el sistema, sin necesidad de detener su funcionamiento. Los datos se modifican
dinmicamente con cada nueva informacin.
Las primeras redes necesitarn actualizaciones peridicas, sobre todo si el proceso que se
desea estudiar evoluciona con el tiempo. Pero a cambio su carcter esttico durante los
perodos de prediccin hace ms estable al sistema. Si la red se modifica constantemente con
cada nuevo dato sera necesario un exhaustivo estudio para analizar la inestabilidad del
sistema.
1.3.3.2 Redes con Aprendizaje Supervisado versus No Supervisado
La clasificacin ms usual es aquella que distingue entre redes con Aprendizaje Supervisado y
con Aprendizaje no Supervisado. La diferencia principal radica en la existencia de un
"supervisor que controla el aprendizaje, indicando, bien hacia dnde han de modificarse los
pesos, o bien si la modificacin es correcta o no.
A continuacin se estudian con ms detalle las diferencias entre los distintos tipos de
aprendizaje, para que facilitar el discernimiento entre este tipo de redes, y por tanto la
clasificacin.
1.3.3.2.1 Aprendizaje Supervisado
Se caracteriza por la existencia de una agente externo que conoce la respuesta que
debera generar la red a partir de una determinada entrada. La salida de la red es
1. Una Revisin General
1-16
comparada con la respuesta deseada, y si no coinciden los pesos de las conexiones sern
modificados de modo que la salida obtenida se aproxime a la deseada. La informacin que
maneja el supervisor no es siempre la misma. Segn la naturaleza de los conocimientos de
los que disponga, aparecern tres grandes clases de aprendizaje supervisado.
(i) Aprendizaje por correccin de error.
(ii) Aprendizaje por refuerzo.
(iii) Aprendizaje estocstico.
(i) Aprendizaje por correccin de error.
Es el modo ms comn de aprendizaje. Cada caso del conjunto de entrenamiento est
constituido por las variables de entrada (que caracterizan la situacin en que se
encuentra el sistema) y la salida o salidas que se desean de la red (variables objetivo). El
ajuste de los pesos se realizar en funcin de la diferencia entre los valores deseados y
los que se obtuvieron en la salida de la red.
La Regla de Aprendizaje del Perceptrn, fue desarrollada por Rosenblatt (1958), y
constituye el primer ejemplo de aprendizaje supervisado. Presenta el problema de que
no considera de modo global el error cometido por la red al estimar el conjunto de
entrenamiento. Ms adelante Widrow y Hoff (1960) desarrollaron la Regla Delta, que
permite conocer el error global cometido durante el entrenamiento. Estos autores
aplicaron este mtodo de entrenamiento a muchas de las redes que desarrollaron, como
el ADALINE y el MADALINE. La Regla delta estaba pensada para redes constituidas
nicamente por una capa de entrada y una de salida. Cuando se empezaron a disear
redes ms complejas, con una o varias capas ocultas (siempre con conexiones hacia
delante) se hizo necesaria una generalizacin de ese algoritmo que tan buenos
resultados haba proporcionado. Surgi entonces la Regla Delta Generalizada. Esa regla
modifica los nodos cada vez que una observacin, que ser elegida de modo aleatorio, es
presentada a la red, y lo hace siguiendo un orden determinado, empezando por los nodos
que conectan la ltima capa oculta con la capa de salida, y finalizando en los que unen
la capa de entrada con la primera capa oculta. La Figura 1.8 detalla el esquema general
del proceso de aprendizaje.
La modificacin de los pesos busca disminuir la funcin de error hasta hallar un mnimo
de esa funcin. Si el error es una funcin lo suficientemente suave, basta con buscar un
mnimo local, esto es, un punto donde la derivada sea nula. Se modifican los pesos en
funcin de la derivada del error con respecto a al peso que se desea actualizar. La
amplitud de la modificacin viene determinada por un paso, en general fijo durante todo
el entrenamiento. Escoger adecuadamente el valor de ese paso ser determinante en el
xito del entrenamiento.
1. Una Revisin General
Iteracin k
Se Elige una Observacin aleatoria nueva ( )casoYX GG , Se Calcula la Salida de la Red casoO
G
Se Modifican los pesos desde la capa de salida a la de entrada con el fin de disminuir la funcin de error, E
Se Calcula el Error Cuadrtico cometido
( )=
= ON
kkk oYE
1
2
Se ha presentado toda la muestra?
NO
SI
Se ha alcanzado el nmero mximo de iteraciones?
SI
Fin del Entrenamiento
k+1
NO
Figura 1.8. Diagrama de Flujo del Entrenamiento
Los pesos se modifican en orden inverso a su actuacin en la red, pues la derivada de la
funcin de error de los pesos de una capa depender de los pesos de las siguientes
capas. La modificacin en la iteracin k-sima ser,
1 1
1
1
1
[ ] [ ]
[ ]
ah ahk k
i i ahk
i
j j
j
Ew ww
=
1
1
[ ] [ ]
[ ]
L O L OH H
L OH
h hk k
i i hk
i
j j
j
Ew ww
=
, ..., (1.22)
En general,
1-17
1. Una Revisin General
1
1
[ ] ] ]
[ ]
k k
ij ij k
ij
Ew w
w
= (1.23)
La idea para su implementacin se conoce como backpropagation. Fue desarrollada por
Rumelhart, Hinton y Williams (1986) basndose en las ideas de Rosemblatt (1962).
a) Backpropagation
Consiste en tratar de minimizar una cierta funcin del error que comete la salida
proporcionada por la red con respecto al valor deseado de la variable objetivo, por regla
general proporcional al error cuadrtico medio. Para ello se busca un extremo relativo
de esa funcin, considerada como funcin de los pesos, esto es, un punto donde todas
las derivadas parciales de la funcin de error respecto a los pesos se anulan.
1
1
1
1
0 ; 1
0; 1 ,1 1
0; 1
ll l
l l
LH
LH
Iah
ij
lh h Hj j
Oh o
j k
Econ i N
Econ j N l L
Econ k N
+
+
=
H= =
(1.24)
El algoritmo de Backpropagation es un mtodo clsico de entrenamiento de redes
cuando se trata de en un caso de aprendizaje con supervisin. El error cuadrtico medio
se considera como funcin de los pesos, y por ello se calculan las derivadas de la funcin
de error (fuese cual fuese) con respecto a ellos. Consiste, por tanto, en la aplicacin del
algoritmo de paso descendiente teniendo en cuenta el orden adecuado de clculo de las
derivadas.
Si se considera como funcin de error el error cuadrtico medio, se aprecia que para el
clculo la derivada se necesita manejar simultneamente todos los datos. Cuando sea
necesario trabajar con todos los datos a la vez se dice que el mtodo es batch. En la
mayora de los casos resultan mucho ms interesantes los mtodos on-line, puesto que
los pesos se modifican con cada dato, de modo que se puede considerar la evolucin del
sistema. En muchas ocasiones si es necesario manejar al tiempo todos los casos del
conjunto de entrenamiento, es posible obtener mejores resultados hallando el mnimo
de la funcin de modo analtico.
El anlogo on-line de la regla delta generalizada responde al mismo esquema pero
considerando como funcin de error la ecuacin (1.25).
( )( 21
( , , ) ,W G G GNo
p p p p
k kk
E x y y o x=
= )W , (1.25) 1( , )
G Gp p npx y = el conjunto de entrenamiento, W la matriz de pesos de la red. siendo
1-18
1. Una Revisin General
Existen tres razones fundamentales para el uso de mtodos on-line frente a los batch.
Por una parte est la motivacin biolgica del aprendizaje de cada experiencia, por otra
parte es importante el hecho de que su convergencia puede ser ms rpida que en los
mtodos batch. En el caso en que el conjunto de informacin tenga un gran nmero de
ejemplos muy parecidos o exactos, el promedio sobre una proporcin pequea de
ejemplos proporcionar una buena aproximacin a E y sus derivadas. Finalmente existe la creencia de que la introduccin de ruido (la aleatoriedad del ejemplo que se
presenta) hace que sea ms fcil evitar mnimos locales durante la optimizacin.
El entrenamiento es un algoritmo iterativo, y por lo tanto requiere de un punto de
partida y una regla de parada. Generalmente se parte de un conjunto aleatorio de pesos,
prestando especial atencin al espacio en el que se eligen, con el fin de evitar la
saturacin numrica de las unidades ocultas. La eleccin de regla de parada resulta
tambin importante. Inicialmente se suele seleccionar como regla el detener el proceso
cuando (si) el error, E, es pequeo. No siempre este es un criterio adecuado. Se han propuesto muchos mtodos de parada, entre los que destacan aquellos que consisten en
considerar un conjunto de validacin simultneamente al entrenamiento para el que se
evalen los resultados de la red en paralelo, de modo que se detenga el entrenamiento
cuando la medida del error en el conjunto de validacin empiece a crecer. Esto es
peligroso, pues en muchos casos, tras un valle, el error en el conjunto de validacin
crece lentamente durante un nmero grande de iteraciones para luego caer de pronto a
una fraccin pequea de su mnimo inicial.
Los efectos del momento de parada son importantes. Si se detiene prematuramente los
pesos ajustados dependern de los de partida. Esto complica el anlisis de los procesos
de parada temprana. Asimismo si te toma demasiado grande podr darse el caso de que en los pasos sucesivos la red se est momento alrededor del punto ptimo (vector de
pesos) donde se alcanza el mnimo, pero sin llegar a alcanzarlo. Si por el contrario se
opta por un demasiado pequeo la convergencia puede ser muy lenta. De nuevo se tienen diferentes opciones, como tomar constante, pero pequeo (por ejemplo,
, ) , o bien considerar 0,008 = 0,004 =n una sucesin decreciente, con lmite cero,
pero con serie divergente. Por ejemplo, 1n n = , con n un caso aleatorio.
Si se analiza en detalle el comportamiento de la regla de entrenamiento, se obtiene la
siguiente descripcin del proceso.
Elegir aleatoriamente los pesos iniciales. En general los pesos se eligen de modo aleatorio en (0,1) pero que no estn demasiado cerca de estos extremos para que no se
saturen los nodos (i.e. el valor de los pesos permanezca inamovible).
Elegir aleatoriamente un caso del conjunto de entrenamiento. Se calcula el valor del nodo final con los pesos actuales., y se modifican , por mnimos cuadrados vamos
minimizando el valor de los pesos.
Modificar los pesos. Los pesos se modifican en la direccin en la que disminuya ms rpidamente la funcin de error determinada.
1-19
1. Una Revisin General
Para ilustrar el proceso se ilustra a continuacin un caso concreto, el del perceptrn
multicapa, con una sola capa oculta. En este ejemplo se considera como funcin de
error, E, el error cuadrtico en los nodos de la ltima capa (1.25).Los pesos se modifican comenzando por la capa final y retrocediendo capa a capa hasta llegar a la primera. La
regla de modificacin de pesos, o regla de aprendizaje se describe a continuacin.
Durante la iteracin m-sima, en la ltima capa (capa que une los nodos de la capa
oculta con los nodos de salida) los pesos se modifican segn (1.26).
[ ] [ 1]
[ 1], 1 , 1m ho m hojk jk Hm ho
jk
Ej N k N
= O (1.26)
Desarrollando el clculo de la derivada se tienen las siguiente ecuaciones,
[ 1] [ 1] km ho m ho
jk jk
qE E k hqk
= = j (1.27)
[ 1]
0
0 1k
m ho
k
qh
=
= (1.28)
[ 1] [ 1]
00
( ) ( ) 2 ( )HN
m ho m hokk o k o k jk j
jk k k k
oE E Ek kf q f h Yq o q o
=
= = = = + o
)
(1.29)
1 1
1
[ ] [ 1] [ 1] [ 1]
00
2 ( ) (HN
m ho m ho m ho m ho
jk jk j o k j k j kj
h f h Y o =
= + + k)kY o
(1.30)
1 1
1
[ ] [ 1] [ 1] [ 1]
0 0 00
2 ( ) (HN
m oh m oh m oh m oh
k k o k j k j kj
f h =
= + + (1.31) En la primera capa, (capa que une los nodos de la capa de entrada con los nodos de la
capa oculta) los pesos se modifican segn (1.32); las ecuaciones posteriores detallan el
proceso en ms detalle.
[ ] [ 1]
[ 1], 1 , 1m ah m ahij ij I Hm ah
ij
Ei N j N
= (1.32)
[ 1] [ 1]m ah m ah
ij ij
j
gE E jgj
iX = = (1.33)
[ 1]
0
1m ah
j
gj
= (1.34)
1-20
1. Una Revisin General
[ 1] [ 1]
01 1
[ 1] [ 1]
01 1
[ 1] [ 1]
01
( )
( ) 2 ( )
( ) 2 ( )
2 (
OI
OI
NNm ah m ah k
h j ij i k ki k j
NNm ah m ah k k
h j ij i k ki k k j
Nm ah m ah
h j ij ii
hE E Ejf g
j h jg h g hj j j j
of X Y o
h
o qf X Y o
q h
f X
= =
= =
=
= = = = = + = = + =
= +
( ) [ ]1
) ( )OI N
m ho
k k o k jk
Y o f q
(1.35)
k=
( )1 1
1
[ ] [ 1] [ 1] [ 1] [ ]
01 1
2 ( ) ( )OI NN
m ah m ah m ah m ah m ho
ij ij i h j i j i k k o k jki k
X f X Y o f q = =
= + + (1.36)
( )1 1
1
[ ] [ 1] [ 1] [ 1] [ ]
0 01 1
2 ( ) ( )OI NN
m ah m ah m ah m ah m ho
j oj h j i j i k k o k jki k
f X Y o f q = =
= + (1.37) Test de parada. Tras recorrer todo el conjunto de informacin, modificando los pesos se comprueban los test de parada. Por regla general se establecen diversos test de
parada, como en cualquier algoritmo iterativo. Algunos de los posibles controles son
limitar el nmero mximo de recorridos del conjunto de informacin, que la mxima
modificacin de los pesos sea menor que cierta cantidad umbral predeterminada, o bien
que la mxima modificacin del error cuadrtico medio sea menor que cierta cantidad
umbral. Si no se cumple ninguno de los test seleccionados se retorna al segundo punto,
recorriendo de nuevo el conjunto de informacin de modo aleatorio.
b) Variantes del Algoritmo Clsico
El algoritmo clsico ha sufrido muchas alteraciones. En los experimentos iniciales se le
aadi el momento, y su suavidad exponencial se us como el trmino de correccin.
( ) ([ ] [ 1]ij ij ijij
[ 1]E = - 1- + m m m )
(1.38)
Para acelerar la convergencia de los mtodos se han propuesto muchas ideas, como, por
ejemplo, elegir adaptativamente ij y para cada peso . Esta regla de backpropagation as como sus variantes presentan ciertos inconvenientes,
como la facilidad con la que queda atrapada en mnimos locales, por tanto se hace
indispensable elegir de modo apropiado los pesos iniciales a la hora de alcanzar buenos
predictores. Adems requiere que la funcin de error sea diferenciable con respecto a
los pesos de la red, por lo tanto presenta inconvenientes a la hora de trabajar con
funciones de activacin no diferenciables, como ciertos ncleos, o la funcin umbral.
Est claro que el algoritmo de backpropagation presenta ciertas limitaciones. Cuando
comienza el entrenamiento se decanta por una direccin, y no explora otras
1-21
1. Una Revisin General
1-22
posibilidades, por lo que, si la eleccin inicial no era la adecuada, el entrenamiento
seguramente acabar sin remisin en un mnimo local. Es por este y otros motivos que
surgieron otros mtodos de entrenamiento ms flexibles, por ejemplo aquellos que
hacen uso de los algoritmos genticos. Existen muchos otros algoritmos de
entrenamiento, que consisten bsicamente en la bsqueda iterativa de mnimos
cuadrticos no lineales. Cuando se realiza regresin con mtodos de redes neuronales, y
se conoce la variable objetivo o respuesta, el entrenamiento se har empleando una red
con aprendizaje supervisado.
(ii) Apredizaje por refuerzo.
En este caso el supervisor no conoce la respuesta adecuada que debera presentar la
red, pero dispone de algn mecanismo que indica si la respuesta es buena o no. Si la
respuesta era adecuada se reforzarn las conexiones que actuaron para obtener esa
respuesta, y si no lo era, esas mismas conexiones se inhibirn.
Hay un rea de estudio llamada Aprendizaje De Mquinas, nacida en las comunidades de
inteligencia artificial y ciencia computacional, en el tambin el objetivo radica en
establecer la estructura del comportamiento a partir de los ejemplos, y las respuestas
que se proporcionan para el aprendizaje son verdadero o falso.
(iii) Aprendizaje estocstico.
En esta red los cambios de los pesos no se hacen siguiendo un criterio de error, o de
buen camino, sino de modo aleatorio. El cambio de aceptar segn las consecuencias
que tengan los nuevos pesos en el comportamiento de la red, y en funcin de ciertas
distribuciones de probabilidad. A cada red, de las infinitas posibles al variar los pesos, se
le asignar el valor de una funcin potencial, como si se tratase de un cuerpo con cierta
energa. Se busca el estado de mxima estabilidad, esto es, de energa mnima. Los
cambios de los pesos se harn de modo aleatorio, y si el nuevo estado energtico resulta
ser ms estable, se aceptarn los cambios. En caso de que los nuevos pesos aumenten la
inestabilidad del sistema, no sern rechazados de modo inmediato, sino que se
aceptarn los cambios en funcin de cierta distribucin de probabilidades, que habr
sido determinada de antemano.
Dentro de las redes con aprendizaje supervisado tambin se puede establecer otro tipo
de clasificacin, segn las variables objetivo que se consideren. De ese modo las Redes
Heteroasociativas son aquellas que presentan variables objetivo diferentes de las
variables de entrada, mientras que las Redes Autoasociativas tienen variables objetivo
iguales a las variables de entrada.
1.3.3.2.2 Aprendizaje No Supervisado
No se dispone en este caso del supervisor que indique cmo actuar, y cundo los cambios
han de ser aceptados. Las redes con este tipo de aprendizaje no reciben ninguna seal del
exterior que les indique si su salida es o no la adecuada. Las redes con aprendizaje no
supervisado debern autoorganizarse, en funcin de las similitudes y diferencias que
presenten los datos de entrada. Diversas son las tareas que pueden realizar las redes con
aprendizaje no supervisado. La ms conocida es el Anlisis Cluster. Este tipo de redes lo
1. Una Revisin General
que realizar agrupaciones de aquellos datos que presenten caractersticas comunes, esto
es que estn, de algn modo, cercanos fsicamente. Esta bsqueda de similitudes puede
proporcionar diferentes salidas de red. Por una parte puede analizar el grado de similitud
entre una nueva observacin, y las presentadas anteriormente, o bien realizar un anlisis
cluster, estableciendo grupos o categoras, y proporcionando la categora a la que
pertenece un elemento, tambin puede proporcionar una salida que sea una funcin del
espacio de caractersticas, de tal forma que las salidas de dos observaciones prximas
estn cercanas entre s.
Del mismo modo que el aprendizaje supervisado llevaba asociadas ciertas reglas de
aprendizaje, (regla delta, regla delta generalizada), hay dos reglas de aprendizaje
principales cuando nos referimos al aprendizaje sin supervisin, que dan lugar a dos tipos
de aprendizaje.
(i) Regla de Hebb.
Se emplean principalmente cuando el objetivo consiste en estudiar la cercana de
diversas observaciones. El peso de conexin entre dos neuronas se incrementar cuando
aparecen la entrada y la salida deseadas. Se considera que se ha activado una ruta, esto
es, la conexin entre dos nodos, si el producto de los valores de los nodos es positivo,
esto es, ambas neuronas son activas (positivas) o pasivas (negativas). Cada vez que se
activa una ruta se incrementar el peso asociado a esa ruta.
1 2 1 2l lh h l l
ij i jh h = (1.39) Si una neurona es activa y otra pasiva el peso que las une disminuir su valor, esto es, se
inhibir.
(ii) Aprendizaje Competitivo.
La idea de este aprendizaje se basa en que los nodos de la capa oculta han de competir
entre s, de modo que slo uno de ellos se activa, y el resto de salidas permanecen
inactivas. Una de las neuronas de la capa de salida ser la vencedora, por ello esta regla
recibe el nombre de winner take all. De nuevo se trata de asociar los datos segn sus
caractersticas de modo que observaciones prximas den como vencedora a la misma
neurona en la capa de salida.
Esta competencia se produce en todas las capas, de modo que unas neuronas actan
sobre otras excitndolas o inhibindolas; las neuronas que se activan entre s estn
en cierto sentido asociadas, y suelen especializarse en alguna de las caractersticas de
las observaciones. A la hora de aprender se tiene que tras una observacin slo se
modificarn los nodos de las neuronas asociadas por activacin a la salida ganadora, de
modo que el peso total de la salida (la suma de los pesos asociados a ella) se redistribuya
entre las conexiones activadoras.
1-23
1. Una Revisin General
1.4 Prediccin con Redes Neuronales
1.4.1 Regresin con Redes neuronales
Las redes neuronales pueden ser entendidas como modelos generales de regresin (Haykin,
1999). Se emplean por tanto en muchas ocasiones como herramientas para predecir futuros
valores de una o varias variables objetivo, que en estadstica son las variables respuesta.
Muchos mtodos estadsticos clsicos y otros de ms reciente factura han sido reescritos, no
siempre de forma consciente, como redes neuronales. Esto nos da idea de lo generales que
pueden llegar a ser las estructuras representadas a travs de un esquema de redes neuronales,
y de su clara relacin con la estadstica. En esta introduccin se presentarn algunos modelos
de regresin paramtricos y no paramtricos, que pueden ser estudiados bajo la ptica de las
redes neuronales.
1.4.1.1 Regresin Lineal
1.4.1.1.1 Regresin Lineal Simple
El modelo de regresin ms sencillo es la regresin lineal simple (Canavos, 2003). Se
considera una pareja de variables aleatorias ,X Y relacionadas linealmente. El modelo de
regresin sera:
Y aX b = + + , con una variable aleatoria de media cero, y varianza finita. (1.40) Luego, si se desea predecir el valor de la variable Y para X x= , se emplea el valor esperado de la distribucin condicionada,
[ ]Y E Y X x ax b= = = + (1.41) o Y X
11aow
1
01aow
Figura 1.9. Red Neuronal para la Regresin Lineal Simple
La Figura 1.9 muestra la estructura de la red que describira una regresin lineal simple. La
salida de la red ser 11 01ao aoo x = + , que coincide con la estructura de la prediccin que
proporciona un modelo de regresin lineal. Se precisa pues de un perceptrn sin capa
oculta, con funcin de activacin, la identidad, el modelo ms sencillo de perceptrn, para
recrear la regresin lineal simple.
1.4.1.1.2 Regresin Lineal Mltiple Multidimensional
La generalizacin del caso anterior (Cachero, 1996; Montgomery et al., 2005)) consiste en
considerar las variables explicativa y dependiente como multidimensionales, obtenindose
el modelo de regresin:
1-24
1. Una Revisin General
01
1IN
k ik i ki
Y X para k =
= + + ON (1.42) La prediccin sera:
1 1 01
, , , 1I
I I
Nao ao
k k N N ik i ki
Y E Y X x X x x para k N =
= = = = + O (1.43) El esquema de la red neuronal que proporciona esta misma estructura en la salida se
refleja en la Figura 1.10.
1X
INX
iX
1
aow 10
ko kY
ONo
1Y
ONY
1oaow11
aoiw 1
aoN I
w 1
Figura 1.10. Red Neuronal para la Regresin Lineal Mltiple Multidimensional
La salida k-sima de la red viene dada por la ecuacin (1.44) y coincide con la expresin
que proporciona un modelo de regresin lineal. De nuevo se emplea un modelo de
perceptrn sin capa oculta, y nuevamente la funcin de activacin es la identidad. En este
caso la red habr de tener tantos nodos de entrada como variables regresoras (NI), y
tantos nodos en la capa de salida como variables respuesta (NO).
11
INao ao
k i ii
o x 0k =
= + (1.44) 1.4.1.2 Regresin Polinmica
Una generalizacin natural de la regresin lineal es la regresin polinmica (Pea, 2002). Los
polinomios son buenos aproximadores de una funcin en el entorno de un punto. Surge
entonces la llamada regresin polinmica, que tratar de reescribir la funcin que relaciona
la variable regresora con la variable respuesta que se desea predecir o estimar.
La prediccin asociada a este el modelo de la variable dependiente k-sima ser:
( )1 1 01 1
, , , 1I
I I
N Sj
k k N N ijk i k Oi j
Y E Y X x X x x para k N = =
= = = = + (1.45)
1-25
1. Una Revisin General
El modo de trasladar esta idea a una red neuronal pasa por construir una capa oculta
funcional. Una capa funcional, sean cuales sean las funciones que consideramos en ella, tiene
como finalidad realizar transformaciones de las variables de entrada, y tienen la ventaja de
que no disparan el nmero de parmetros, pues las conexiones que surgen entre la capa de
entrada y la capa funcional tienen pesos fijos con valor 1. En ocasiones las variables
2, , , Si i iX X X son muy dependientes entre s; esto puede acarrear problemas durante el entrenamiento. Es por ello que en general es recomendable usar una base de polinomios
ortogonal en la capa funcional, a fin de evitar la colinealidad que conllevan otras bases. En
general cualquier funcin lo suficientemente suave puede ser aproximada por un polinomio, si
estamos en un compacto y tomamos el grado del polinomio lo suficientemente alto, pues los
polinomios constituyen lo que se ha dado en llamar un aproximador universal. La Figura
1.1,siguiendo la notacin de la figura 1.3, muestra una red neuronal que refleja una regresin
pilonmica de grado S.
1
1
1
1
ko kY
1o
ONo
1Y
ONY
1X
INX
iX
Sx
x
Sx
x
1
hoNO
w0
hoNO
w1
hoNS O
w
hoNNS OI
w 1)1( +
hoNSNS OI
w + )1(
Figura 1.11. Red Neuronal para la Regresion Polinomica
La prediccin que har la red para la variable objetivo k-sima ser:
( )01
1 1 1, , ,SS N
ho j ho
k jk i k Ij
o X con j i S l l S i
== + = + N (1.46)
Al analizar atentamente la red se observa que los pesos que unen la capa de entrada y la
oculta son fijos, pues tomar otros dara lugar al mismo modelo al tiempo que generara un
problema de falta de especificacin.
1.4.1.3 Regresin Logstica
Otro modelo de regresin muy extendido es la regresin logstica, que presenta mltiples
aplicaciones (Artiaga et al., 2003). Al igual que algunos ejemplos anteriores las funciones
sigmoideas tambin son aproximadores universales (Golberg, y Cho, 2004). En esta familia
destaca la funcin logstica.
1-26
1. Una Revisin General
1 exp( )logist( ) ,
1 exp( ) 1 exp( )\xx
x x= =+ + con x (1.47)
Cualquier funcin de en un compacto va a poder aproximarse tanto como se desee a
travs de una combinacin de funciones logsticas de combinaciones de dichas variables. El
esquema coincide con el presentado en la Figura 1.6, siendo,
IN\
01
logist para 1, ,ON
ah ah
j ij i j Hi
h X j =
= + = " N (1.48)
01
para 1, ,HN
ho ho
k jk j kj
o h k =
= + = " ON (1.49) La aproximacin de la relacin entre las entradas y las salidas ser en principio, cuantas ms
funciones logsticas combinemos, esto es, cuantos ms nodos constituyan la capa oculta. Pero
es necesario ser cuidadosos a la hora de establecer ese nmero de nodos, pues un exceso de
nodos derivara en un problema de sobreestimacin, casi interpolacin, cuando el nmero de
pesos se acerca al nmero de elementos que forman el conjunto de entrenamiento. Es posible
dotar a la red de un mecanismo que elija el nmero de nodos de la capa oculta utilizando un
conjunto de validacin ajeno al de entrenamiento con el que prevenir el sobreaprendizaje.
1.4.1.4 Regresin Lineal Generalizada
La regresin polinmica constituye una generalizacin inmediata de la regresin lineal, en
tanto en cuanto sta es una regresin polinmica de primer grado. Otro camino por el que es
posible generalizar la regresin lineal consiste en aplicar a la combinacin lineal, una funcin
determinada. De este modo se estimar la relacin entre un conjunto de variables regresoras
1 , , INX X y una variable respuesta Y a travs de una funcin de la forma
( )11 1 1 2 2, , I I I IN N N NX x XY Y x H a b b bx x x= = = + + + += " (1.50) siendo H una funcin conocida.
Estos modelos reciben el nombre de Modelos Lineales Generalizados (McCullagh y Nelder,
1989; Dobson, 1990; Fox, 2008). La figura 1.12 muestra la estructura de una red que replica
el esquema de la regresin lineal generalizada, en el caso de respuesta unidimensional. La
extensin al caso multidimensional consistira en disear tantas redes como variables se
desean predecir NO.
1-27
1. Una Revisin General
1
aow 10
1X
INX
iX
aow11
aoiw 1
aoN I
w 1
o Y
Figura 1.12. Red Neuronal para la Regresion Lineal Generalizada
Se trata de un perceptrn sin capa oculta, y con funcin de activacin en el nodo de la capa
de salida, H. De este modo, la salida que proporciona la red responde a la ecuacin (1.51).
1 01
INao ao
i ij
o H X =
= + 1 (1.51) Aunque hasta ahora todas las redes que se haban presentado tenan como funcin link en los
nodos de la capa de salida la identidad; este es un claro ejemplo de que no tiene que ser as,
y que utilizar otras funciones link puede resultar muy til
1.4.1.5 Regresin Aditiva Generalizada
Se considera de nuevo un modelo de regresin que incluye al anterior, con el fin de obtener
resultados ms generales. Se desea eliminar la restriccin que conlleva la linealidad en las
variables dentro de la funcin H. Para ello se asume que la relacin entre la variable respuesta y las explicativas no responde al modelo anterior, sino que existen unas funciones
1 2, , , INf f f desconocidas, de modo que
[ ] ( ) ( ) ( )( )1 1 1 2 21 , ,I I I I
N N N NY Y X X H a f x f x f xx x= = + + + += = " (1.52) siendo H una funcin conocida.
Est claro que este modelo engloba al anterior, cuando las funciones son la identidad. Estos
modelos reciben el nombre de Modelos Aditivos Generalizados (Hastie y Tibshirani, 1990,
Wood, 2006). Si H es la identidad corresponde al caso de los Modelos Aditivos. En este modelo han de estimarse funciones adems de parmetros, lo que complica el proceso de forma
notable con respecto a los modelos anteriores. Existe un mtodo iterativo para la estimacin
de las funciones. Como reproducir este mtodo en redes neuronales no sera nada sencillo, la
estrategia empleada ser construir NI subredes una para cada una de las funciones, que se desean estimar. Estas redes pueden presentar arquitecturas diferentes, con diferente nmero
de nodos en la capa oculta (tendrn un nico nodo tanto en la de entrada como en la de
1-28
1. Una Revisin General
salida), diferentes funciones de activacin, e incluso diferente nmero de capas ocultas.
Segn qu red se emplee para esas estimaciones se tendrn distintos modelos, todos ellos con
el objetivo de imitar los resultados de los modelos de regresin G.A.M. La figura 1.13 muestra
el diseo de la red.
1X
INX
iX
1g
ig
INg
o Y
1
ho01
1
1
Figura 1.13. Red Neuronal para el Modelo Aditivo Generalizado
La salida de la red ser:
011
INho
ij
o H g =
= + (1.53) ( )i if XigLos se corresponden con la previsin que hara la red de ; luego las cajas han de
representar subredes. Cada una de las subredes es una red en s misma, por lo que puede ser
cualquiera de las vistas anteriormente. Como perceptrn, su diseo responder a un esquema
como el que muestra la figura 1.6, pero con un nico nodo de entrada (Xi) y un nico nodo de salida. Para evitar problemas de especificacin se puede imponer mediante multiplicadores
de Lagrange, que las variables transformadas que se obtienen de las subredes tengan media
cero.
En general el tratamiento que dispensa la red a lo