35
Universidad Politécnica de Querétaro Samuel Tiburcio Parra Redes Neuronales Índice. 1 Aspectos generales 2 1.1. La neurona 3 1.2. La neurona desde el punto de vista computacional 4 1.3. La red neuronal 5 1.4. Tipos de Redes Neuronales. 1.4.1. Los modelos Neuronales 6 1.4.2. Algoritmos Neuronales 7 2 Aplicaciones 2.1. Redes neuronales para determinar la distribución espacial de la humedad del suelo en una pequeña cuenca de drenaje. 9 2.1.1. Introducción 10 2.1.2. Funcionalidad de la Redes neuronales. 11 2.1.3. Zona de estudio. 12 2.1.4. Materiales y métodos. 13 2.1.5. Modelos digitales del terreno 14 2.1.6. Aplicando la Red neuronal 17 2.1.7. Validación y cálculo del error: bootstrap. 19 2.1.8. Análisis de importancia de las variables: saliency análisis 20 2.1.9. Resultados 21 2.1.10. Conclusiones 2.2. Redes neuronales en el tratamiento de información financiera 25 2.2.1. Introducción 27 2.2.2. Aplicando Redes neuronales en áreas de información financiera. 27 2.2.3. El fracaso empresarial. 28 2.2.4. Evaluación del comportamiento de las acciones en el mercado de valores. 30 2.2.5. Concesión de préstamos 31 3 Resumen y conclusiones. 33 Bibliografía 35 1

Investigación redes neuronales

Embed Size (px)

DESCRIPTION

Aplicaciones de redes neuronales desde el punto de vista computacional

Citation preview

Page 1: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

Índice.

1 Aspectos generales 2

1.1. La neurona 3

1.2. La neurona desde el punto de vista computacional4

1.3. La red neuronal 5

1.4. Tipos de Redes Neuronales.

1.4.1. Los modelos Neuronales 6

1.4.2. Algoritmos Neuronales 7

2 Aplicaciones

2.1. Redes neuronales para determinar la distribución espacial de la humedad del suelo

en una pequeña cuenca de drenaje.9

2.1.1. Introducción 10

2.1.2. Funcionalidad de la Redes neuronales. 11

2.1.3. Zona de estudio. 12

2.1.4. Materiales y métodos. 13

2.1.5. Modelos digitales del terreno 14

2.1.6. Aplicando la Red neuronal 17

2.1.7. Validación y cálculo del error: bootstrap. 19

2.1.8. Análisis de importancia de las variables: saliency análisis 20

2.1.9. Resultados 21

2.1.10. Conclusiones

2.2. Redes neuronales en el tratamiento de información financiera 25

2.2.1. Introducción 27

2.2.2. Aplicando Redes neuronales en áreas de información financiera. 27

2.2.3. El fracaso empresarial. 28

2.2.4. Evaluación del comportamiento de las acciones en el mercado de valores. 30

2.2.5. Concesión de préstamos 31

3 Resumen y conclusiones. 33

Bibliografía 35

1

Page 2: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

1. Aspectos Generales.

Las computadoras que utilizamos actualmente pueden realizar una gran variedad de tareas a

una velocidad y con una habilidad muy superior a las alcanzables por los seres humanos.

Ninguno de nosotros será por dar un ejemplo, resolver complejas ecuaciones matemáticas a

la velocidad que lo hacer una computadora personal. Sin embargo, la capacidad del ser

humano es todavía muy superior a la de las “maquinas” en gran cantidad de tareas. Ningún

sistema artificial es capaz de competir con la capacidad de un ser humano por citar algún

ejemplo, en reconocimiento de imágenes, o para discernir entre objetos de diversas formas u

orientaciones, ni siquiera es capaz de competir con la capacidad de un insecto.

Mientras una computadora precisa de una enorme cantidad de información y de condiciones

restrictivas para operar o reconocer, por ejemplo, sonidos, un humano adulto reconoce sin

ningún esfuerzo palabras pronunciadas por diferentes personas, a diferentes velocidades,

acentos y entonaciones, incluso en presencia de ruido ambiental. El ser humano es capaz

mediante reglas aprendidas de la experiencia, que es mucho mas capaz que la computadoras

en la resolución de problemas definidos de manera imprecisa, ambiguos o que requieren

procesar gran cantidad de información. Nuestro cerebro alcanza estos objetivos, mediante

miles de millones de células simples e interconectadas entre si, llamadas neuronas,

localizadas en una parte determinada del cerebro.

2

Page 3: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

1.1. La Neurona.

Emil Heinrich Du Bois-Reymond, en 1849 se basó en la teoría de que el sistema nervioso

poseía una naturaleza eléctrica, detectaba las imperceptibles descargas eléctricas provocadas

al contraer los músculos del brazo. Utilizó un galvanómetro, que es un primitivo medidor de

tensiones.

Se dio cuenta de que la piel actuaba como un aislante de las señales eléctricas, entonces,

intencionalmente se abrió una herida y logró captar señales eléctricas unas treinta veces más

intensas.

El sistema nervioso esta compuesto por una red se células nerviosas, y está constituido por

células nerviosas, fibras nerviosas y la neuroglia, que está formada por varias clases de

células. La célula nerviosa se denomina neurona, que es la unidad funcional del sistema

nervioso.

Se estima que en cada milímetro del cerebro hay cerca de 50.000 neuronas.

Figura 1. Estructura de una neurona típica.

El tamaño y la forma de las neuronas es variable, pero con las mismas subdivisiones. El

cuerpo de la neurona, o Soma contiene el núcleo. Se encarga de todas las actividades

metabólicas de la neurona y recibe la información de otras neuronas vecinas a través de las

conexiones sinápticas.Las Dendritas son las conexiones de entrada de la neurona. Por su

parte el Axón es la "salida" de la neurona y se utiliza para enviar impulsos o señales a otras

células nerviosas. Cuando el axón esta cerca de sus células destino se divide en muchas

ramificaciones que forman sinápsis con el soma o axones de otras células, como podemos

observar en la figura 1. Esta unión puede ser "inhibidora" o "excitadora" según el transmisor

que las libere.

3

Page 4: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

Cada neurona recibe de 10.000 a 100.000 sinápsis y el axón realiza una cantidad de

conexiones similar.

La transmisión de una señal de una célula a otra por medio de la sinápsis es un proceso

químico. En él se liberan substancias transmisoras en el lado del emisor de la unión. El efecto

es elevar o disminuir el potencial eléctrico dentro del cuerpo de la célula receptora. Si su

potencial alcanza el umbral se envía un pulso o potencial de acción por el axón. Se dice,

entonces, que la célula se disparó. Este pulso alcanza otras neuronas a través de la

distribuciones de los axones.

1.2. La neurona desde el punto de vista computacional

Desde el punto de vista funcional, las neuronas constituyen procesadores de información

“sencillos”. Posee un canal de entrada de información (las dendritas), un órgano de cómputo

(el soma), y un canal de salida (el axón). En las interneuronas el axón envía la información a

otras neuronas, mientras que en las neuronas motoras lo hace directamente al musculo.

Existe otro tipo de neuronas, las receptoras o censoras, que reciben la información

directamente del exterior. Se calcula que una neurona de la corteza cerebrales recibe

información por medio, de unas 10,000 neuronas (convergencia) y envía impulsos a varios

ciento de ellas (divergencia).

En el cerebro se aprecia la existencia de una organización horizontal en capas (se suelen

señalar seis capas), además de existir una organización vertical en forma de columnas de

neuronas, hay además grupos neuronales, compuestos de millones de neuronas

pertenecientes a una determinada región del cerebro, que constituyen unidades funcionales

especializadas en ciertas tareas (un área visual, un área auditiva, etc) formando para ellos

las denominadas redes neuronales. La unión entre dos neuronas se ha denominado sinapsis,

podemos decir que las neuronas presinápticas (que envían señales) y las postsinápticas (que

las reciben). Las sinapsis son direcciones, es decir, la información fluye en un solo sentido.

Cada neurona recibe impulsos procedentes de otras neuronas (inputs) a través de las

dendritas que están conectada a las salidas de otras neuronas por las sinapsis, estas alterna

la efectividad con la que la señal es transmitida a través de un parámetro, el peso.

4

Page 5: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

El aprendizaje resulta de la modificación de estos pesos, que unido al procesamiento de la

información de la neurona, determinan el mecanismo básico de la memoria. El Soma de la

neurona recibe todos estos inputs, y emite una señal de salida (output), esta salida se

transmite a través del axón desde donde se propaga mediante diferencias de potencial a las

dendritas de otras neuronas.

1.3. La Red Neuronal

El sistema de neuronas biológico esta compuesto por neuronas de entrada (censores)

conectados a una compleja red (neuronas ocultas), las cuales, a su vez, están conectadas a

las neuronas de salidas que controlan, por ejemplo, los músculos. Los censores pueden ser

señales de los oídos, ojos, etc. las respuestas de las neuronas de salida activan los músculos

correspondientes. En el cerebro hay una gigantesca red de neuronas ocultas que realizan la

computación necesaria.

Simular una red neuronal artificial se intenta en expresar la solución de los problemas

complejos, no como una secuencia de pasos, sino como la evolución de unos sistemas de

computación inspirados en el funcionamiento del cerebro humano, y atribuyéndole cierta

“inteligencia”, los cuales no son sino la combinación de una gran cantidad de elementos

simples de procesos (neuronas) interconectados que, operando de forma masiva, consiguen

resolver problemas relacionados con el reconocimiento de formas o patrones, predicción,

codificación, clasificación, control y optimación.

Por esta razón, científicos han vuelto la vista hacia el cerebro tratando de estudiarlo desde el

punto de vista de la computación. La estructura del cerebro es radicalmente diferente a la del

ordenador convencional. No está compuesto por un único microprocesador altamente

complejo y eficiente, sino por miles de millones de ellos, las neuronas, que realizan de modo

impreciso y relativamente lento un tipo de cálculo muy simple. A partir de esta idea surgieron

los sistemas

En este proceso del pensamiento científico surgieron los sistemas neuronales artificiales con

la firme idea de tomar las características esenciales de la estructura neuronal del cerebro

para crear sistemas que lo simularan en parte, mediante sistemas electrónico. Estos sistemas

están compuestos por procesadores simples, a los que se denomina neuronas artificiales.

5

Page 6: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

Aunque actualmente existen “computadoras” neuronales, con cientos de pequeños

microprocesadores que trabajan en paralelo, lo cierto es que mediante software se puede

emular el comportamiento de estas redes neuronales en un ordenador convencional, existen

multitud de programas de redes neuronales que funcionan incluso en un ordenador personal.

Las redes neuronales operan sobre la base de reconocimiento de patrones, y que pueden

adquirir, almacenar y utilizar conocimiento experimental, obtenido a partir de ejemplos. Esta

forma de adquirir el conocimiento es una de sus características más destacables: no se

programa de forma directa, sino que se adquiere a partir de ejemplos, por ajuste de

parámetros de las neuronas mediante un algoritmo de aprendizaje.

En cuanto al modo interno de trabajo las redes neuronales son modelos matemáticos

multivariantes que utilizan procedimientos iterativos, en general para minimizar funciones de

error, resueltos con procedimientos matemáticos.

Existen grandes semejanzas a los sistemas expertos en cuanto al objetivo de representar el

conocimiento pero son completamente opuestos en cuanto a la forma de conseguir este

conocimiento; ya que, los sistemas expertos se acercan más al razonamiento deductivo, es

decir obtener una serie de reglas y las redes neuronales al inductivo; es decir al aprendizaje

mediante ejemplos. Ambas técnicas de razonamiento se utilizan frecuentemente

La gestión empresarial utiliza frecuentemente ambos esquemas de razonamiento, por lo que

ambas técnicas tienen cabida. Además, ambos modelos son perfectamente compatibles, de

forma que se pueden integrar en un único sistema.

1.4. Tipos de Redes Neuronales.

Distinguiremos antes de seguir entre modelos neuronales, que es la forma, y los algoritmos

neuronales, es decir cómo aprenden.

1.4.1. Los modelos neuronales.

Los modelos neuronales son similares o incluso en muchos casos idénticos a otros modelos

matemáticos bien conocidos. Se suelen representar mediante grafos, llamados en este

contexto neuronas artificiales. Cada neurona realiza una función matemática. Las neuronas

se agrupan en capas, constituyendo una red neuronal. Una determinada red neuronal está

6

Page 7: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

confeccionada y entrenada para llevar a cabo una labor específica. Finalmente, una o varias

redes, conforman el sistema global.

Varios modelos

Los modelos neuronales se diferencian en la función que incorpora la neurona, es decir su

organización y forma de las conexiones. Estudios realizados comparan los modelos

neuronales con los modelos estadísticos más convencionales, encontrando que la mayoría de

los modelos neuronales tienen un equivalente tradicional, y que frecuentemente los

científicos del campo de las redes neuronales reinventan modelos ya existentes.

1.4.2. Algoritmos Neuronales.

Los modelos neuronales utilizan varios algoritmos de estimación, aprendizaje o

entrenamiento para encontrar los valores de los parámetros del modelo, que comúnmente en

contexto de las redes neuronales se denominan pesos sinápticos.

El entrenamiento se realiza mediante patrones-ejemplo, siendo dos los tipos de aprendizaje:

supervisado y no supervisado.

a) El aprendizaje supervisado.

Se asemeja al método de enseñanza tradicional con un profesor que indica y corrige los

errores del alumno hasta que éste aprende la lección. Si la red utiliza un tipo de aprendizaje

supervisado debemos proporcionarle parejas de patrones entrada-salida y la red neuronal

aprende a asociarlos.

En terminología estadística equivale a los modelos en los que hay vectores de variables

independientes y dependientes: técnicas de regresión, análisis discriminante, análisis lógit,

modelos de series temporales, etc.

b) El aprendizaje no supervisado

No hay un profesor que corrija los errores al alumno; recordamos más al autoaprendizaje. El

alumno dispone del material de estudio pero nadie lo controla. Si el entrenamiento es no

supervisado, únicamente debemos suministrar a la red los datos de entrada para que

7

Page 8: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

extraiga los rasgos característicos esenciales. En terminología estadística equivale a los

modelos en los que sólo hay vectores de variables independientes y buscan el agrupamiento

de los patrones de entrada: análisis de conglomerados o cluster, escalas multidimensionales,

etc.

Procedimiento de trabajo de las Redes Neuronales

La red neuronal no dispone de ningún tipo de conocimiento útil almacenado. Para que la red

neuronal ejecute una tarea es preciso entrenarla, en terminología estadística diríamos que es

necesario estimar los parámetros.

En realidad todo el procedimiento es estadístico: primero se selecciona un conjunto de datos,

o patrones de aprendizaje. Después se desarrolla la arquitectura neuronal, número de

neuronas, tipo de red. Después se selecciona el modelo y el número de variables dependiente

e independientes. Se procede a la fase de aprendizaje o estimación del modelo y a

continuación se validan los resultados.

8

Page 9: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

2. Aplicaciones.

En los siguientes capítulos se analizarán ejemplos en los que actualmente se están aplicando

las redes neuronales artificiales, y su gran impacto que han tenido, ademas se da una

pequeña introducción de todos los factores que intervienen en la aplicación para que se vea

de manera clara esta aplicación.

2.1. Redes neuronales para determinar la distribución espacial de la humedad

del suelo en una pequeña cuenca de drenaje.

La distribución espacial de la humedad superficial del suelo se ha determinado

tradicionalmente mediante técnicas de interpolación o mediante métodos geoestadísticos a

partir de valores de humedad medidos puntualmente. Los valores son casi siempre función

exclusiva de los valores vecinos conocidos.

En este método se considera que el contenido de humedad del suelo en cuencas semiáridas

es en gran medida explicado por factores topográficos locales tales como curvaturas

horizontales y verticales, factores topográficos de entorno más amplio tales como el índice

topográfico y por la vegetación. De esta manera, y a diferencia de las interpolaciones

clásicas, se tienen en cuenta factores que alteran el principio de correlación espacial tales

como cambios bruscos en la cubierta vegetal debidos a cambios en los usos del suelo.

Ninguno de los factores anteriormente mencionados es por si solo capaz de explicar la

variación espacial de la humedad del suelo de manera satisfactoria, sin embargo sí se puede

hacer parcialmente de forma combinada.

Como se puede ver en este estudio que la interrelación entre estos factores es de una forma

compleja, mediante este estudio se demuestra que es posible realizar una predicción

razonable de la distribución espacial de la humedad superficial, estudiar sus patrones

espaciales y contrastar la importancia de cada variable a partir de un número limitado de

mediciones mediante el uso de redes neuronales artificiales multicapa de tipo feedforward

con aprendizaje mediante mecanismos de retropropagación del error utilizando

principalmente variables derivadas de un modelo digital de elevaciones (MDE) y de fotografía

aérea. Una vez entrenada y usada la red, se ha evaluado el error mediante un método

bootstrap y se ha realizado un análisis de importancia de las variables utilizadas.

9

Page 10: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

Este estudio ha usado el MDE (Modelo Digital de Elevaciones) con una resolución planimétrica

de 5 metros y 79 medidas de humedad realizadas con TDR en una pequeña cuenca

experimental en condiciones de humedad altas (invierno).

2.1.1. Introducción.

Conocer la distribución espacial de la humedad del suelo es de gran importancia para los

estudios de hidrología, especialmente para los estudios centrados en la zona no saturada y en

la superficie del terreno. Una muestra de esto es la gran cantidad de estudios realizados es la

gran cantidad de estudios realizados sobre este tema, a pesar de la abundante información

generada, los procesos de distribución del agua en el suelo y los métodos para predecir el

contenido de humedad siguen estando abiertos al estudio debido a la gran variabilidad

espacial y temporal de este parámetro y a la cantidad de factores que lo determinan y que se

influencian mutuamente. Además, estos factores varían en importancia dependiendo de la

escala de trabajo, del estado de humedad del suelo, del dominio hidrológico que estemos

tratando, de la vegetación, de la topografía, de las propiedades del suelo, de la profundidad

de la zona saturada.

En lo que la mayor parte de estos trabajos de investigación coinciden es en considerar al

relieve como un factor de gran valor explicativo para determinar los patrones de humedad del

suelo, dando lugar al desarrollo de índices o métodos que ponen en relación las formas del

terreno con propiedades del suelo. Los modelos digitales del terreno están, desde los años

1950 siendo aplicados a estudios de ciencias de la tierra siendo una fuente de información de

gran relevancia para el proceso de la información geográfica, una de las grandes ventajas que

ofrecen estos modelos que contienen información totalmente distribuida, espacialmente

continua y fácilmente transformable. La mayoría de los parámetros topográficos más usados

pueden derivarse de un modelo digital de elevaciones, pudiendo extraerse múltiples capas de

nueva información desde la misma fuente, cosa que hace a esta fuente de información más

atractiva y potente.

10

Page 11: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

Estos parámetros topográficos derivables de un modelo digital de elevaciones podemos

distinguir entre los locales, que no traen implícita información sobre la ubicación de ese punto

con respecto al conjunto del terreno y que se calculan a partir de un vecindario de puntos

restringido tal como la pendiente, la orientación o los valores de las curvaturas locales

horizontal o vertical.

La vegetación es otro factor citado por los autores como de gran valor explicativo en la

fragmentación espacial de la humedad del suelo, sin embargo, obtener información

espacialmente continua para todo el área de estudio es más complicado si no se pueden

aplicar técnicas de teledetección. En este caso se utilizan fotografías aérea para tratar de

introducir información continua sobre la cubierta vegetal en nuestro modelo.

Por otro lado, las técnicas usadas para estudiar las relaciones entre estos factores y el

contenido de humedad del suelo han recaído casi siempre en relaciones lineales del tipo de

regresiones simples o múltiples, en otros casos utiliza métodos geoestadísticos basados

principalmente en los valores medidos cercanos más que en los factores explicativos

subyacentes.

2.1.2. Funcionalidad de la Redes neuronales.

Las redes neuronales artificiales son unas técnicas que se han venido aplicando con éxito en

tareas de clasificación, reconocimiento y predicción en muchas áreas de conocimiento. Uno

de los grandes potenciales de las redes neuronales es que son capaces de establecer

relaciones funcionales entre variables dependientes e independientes aún cuando las

relaciones son altamente no lineales debido a la variabilidad de la influencia de los factores y

a su sensibilidad ante la influencia de otros factores no contemplados en el modelo, tal y

como ocurre en los procesos de lluvia.

Los objetivos son: El primero era probar las capacidades de un modelo de red neuronal para

determinar el patrón espacial de la humedad superficial a través de variables fáciles de

obtener de manera distribuida y continua para todo el terreno. El segundo objetivo era

comprobar su valor como herramienta explicativa estudiando la estructura de la red para

averiguar la importancia relativa de cada variable en la explicación de los resultados.

11

Page 12: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

2.1.3. Zona de estudio.

El estudio se realizó en la cuenca experimental Parapuños situada 24 kilómetros al noroeste

de la ciudad de Cáceres, España (figura 2) con una superficie de unas 100 hectáreas. El

sustrato geológico es principalmente el complejo esquisto-grauváquico dominante en toda la

penillanura al que se le superponen restos de antiguos pedimentos formados por acumulación

de cantos rodados de cuarcita de tamaño variable en una matriz limo-arenosa no cementada

y rojiza.

Fig. 2. Ubicación de la zona de estudio. Figura 3. Cuenca experimental Parapuños

El principal uso de la cuenca es el ganadero junto con alguna zona cultivada con forrajes para

abastecer el ganado cuando no hay pastos. El arbolado disperso y formado por encinas. El

estrato arbustivo es abundante en las zonas de mayor pendiente. Respecto al régimen de

lluvias y temperaturas, la zona está dentro del clima mediterráneo pero matizado por

influencias atlánticas y continentales. La temperatura media anual está en torno a los 16º y

la precipitación es de 512 mm. Ambos parámetros están sujetos a fuertes variaciones tanto

estacionales como interanuales. Utilizando el índice de aridez de la UNESCO (1979), el área

de estudio se clasifica como semi-árida.

La cuenca no tiene cursos permanentes, el principal drenaje lo forman dos cauces que viene

a unirse a unos 300 metros antes de la salida de la cuenca.

En general la zona está bien drenada aunque hay zonas hacia la parte baja de la cuenca

tendentes a quedar encharcadas durante las estaciones húmedas.

12

Page 13: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

2.1.4. Materiales y métodos.

El problema planteado en este estudio se ha abordado en términos equiparables a los de

cantidad de masa y cantidad de movimiento (momentum) del agua. Las zonas tendentes a

acumular mayor cantidad de agua con menor energía serán zonas con mayor probabilidad de

tener altos contenidos de humedad. Similarmente, las zonas donde el agua diverge y el

terreno le imprime aceleración serán zonas con menor probabilidad de acumular humedad.

Para ello se han utilizado tres modelos digitales del terreno. Los dos primeros modelos

reflejan las curvaturas locales del terreno. La curvatura vertical estima el grado de

concavidad o convexidad del terreno en la dirección de la máxima pendiente. Refleja así la

aceleración local del agua en ese punto. Valores mayores de cero indican zonas convexas de

aceleración local del flujo y valores negativos indican concavidades que frenan el flujo

facilitando la infiltración. La curvatura horizontal, por otro lado, es el grado de concavidad o

convexidad en la dirección perpendicular a la de máxima pendiente por lo que detecta las

concavidades (valores negativos) o convexidades (valores positivos) locales de convergencia

o divergencia del flujo. Con estas dos variables incluimos en nuestro modelo una manera de

evaluar la cantidad de movimiento (curvatura vertical) y la concentración de masa (curvatura

horizontal) locales.

La tercera variable es el índice topográfico de humedad, que es una función del área de

contribución (que refleja por tanto la cantidad de agua que convergerá en el punto en

cuestión) y la pendiente del terreno (que sería expresión de la cantidad de movimiento de

agua en ese punto), pero esta vez con una expresión que tiene en cuenta un entorno más

amplio.

Finalmente se incluye una variable que trata de reflejar la influencia de la cubierta vegetal,

factor que hay que tener muy en cuenta ya que altera notablemente todo el planteamiento

teórico anterior. Dada la dificultad para obtener fácilmente información fiable y totalmente

distribuida sobre el terreno de la cubierta vegetal, hemos optado por aproximarla usando una

ortofotografía aérea en tonos de gris de 8 bits (256 tonos de gris) de manera que los suelos

desnudos se ven claros (valores digitales menores) y las zonas con mayor cubierta vegetal

aparecen más oscuros en función de la densidad de la vegetación (valores digitales más

altos). Obviamente, se trata de una simplificación de la cobertura dado que existen tres

estratos vegetales superpuestos, pero es un sustituto que da una aproximación útil para el

propósito empleado.

13

Page 14: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

Figura 4. Histograma con la distribución de la muestra de 79 puntos medidos

Para establecer la relación entre los parámetros predictores anteriores y el contenido

volumétrico de humedad de la superficie del suelo, se han realizado medidas de los primeros

15 cms del suelo siguiendo un sistema de longitudes variables y orientados siguiendo la

dirección de máxima pendiente del terreno (figura. 5). En la figura 3 se puede ver la

distribución de frecuencias de la muestra. Se midieron un total de 79 puntos con un TDR

Tektronix 1502C

Las medidas se hicieron en febrero de 2003, cuando la cuenca se encontraba en estado

húmedo tras un periodo de lluvias, aunque no había llovido inmediatamente antes de la

campaña de muestreo.

2.1.5. Modelos digitales del terreno

El modelo digital de elevaciones (MDE) que ha servido de base para derivar el resto de los

parámetros topográficos se ha realizado a partir de la restitución de fotografías de un vuelo a

escala 1:6000 realizado en junio de 2002. El MDE se ha interpolado usando el inverso del

cuadrado de la distancia a los datos vecinos más próximos. La resolución para el modelo

usado ha sido de 5 m. A este modelo se ha aplicado un filtro de media para generalizar las

formas y suavizar pequeñas singularidades del terreno que no son significativas para el

objetivo del estudio (figuras 5, 6, 7, 8, 9).

14

Page 15: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

Figura 5. Modelo de elevaciones Figura 6. Curvatura vertical Figura 7. Curvatura Horizontal

Figura 8. Indice topográfico humedad Figura 9. Cobertura de la vegetación

A partir de este modelo de elevaciones se han derivado el resto de los parámetros

topográficos utilizados generando así tres modelos digitales del terreno: modelo de curvatura

vertical (Kv), modelo de curvatura horizontal (Kh) e índice topográfico (TI). (figuras 5, 6, 7,

8, 9).

15

Page 16: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

El modelo Kv refleja la curvatura local del terreno en la dirección de la pendiente. Esta

curvatura expresa la relativa aceleración o deceleración local del flujo. Su cálculo se define

como:

donde r, t, s, p y q son las derivadas parciales de la altura (z) con respecto a las direcciones x

e y calculadas:

El modelo Kh seria la curvatura del terreno en la dirección de la orientación (ortogonal por

tanto a Kv). Esta curvatura es expresión de la convergencia o divergencia del flujo. Su

cálculo viene definido por:

donde r, t, s, p y q están definidas igual que anteriormente.

Ambas expresiones, Kv y Kh tienen dimensiones de [L-1]. El modelo TI esta dado por la

expresión.

donde CA es el área de contribución para el punto de cálculo y tg(β) es la pendiente local del

terreno. Este modelo expresa parcialmente el volumen relativo y la cantidad de movimiento

del flujo que pasará por cada punto del terreno.

16

Page 17: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

2.1.6. Aplicando la Red neuronal

Las redes neuronales multicapa de tipo feedforward con aprendizaje por algoritmo de

retropropagación son un tipo de estructura de computación paralela, donde muchas pequeñas

unidades de cálculo llamadas neuronas están masivamente interconectadas con la capa

anterior, de donde reciben la información, y con la capa posterior, hacia donde la transmiten.

Es una forma de computación que trata de emular el funcionamiento de las neuronas

biológicas en el sentido de que cada neurona tiene unos impulsos de entrada que estimula la

neurona y la hace disparar por su axón un impulso proporcional al estímulo recibido.

Figura 10. Estructura de una Red neuronal FeedForward

Las redes neuronales artificiales FeedForward (figura 10) están constituidas por una primera

capa de entrada (neuronas perceptoras) con tantas unidades como elementos tenga el vector

de información que se va a introducir. Esta capa está conectada normalmente a una o más

capas ocultas donde se realizan los cálculos y finalmente la información transformada llega

una capa de salida de donde se obtienen los resultados. El almacenamiento del conocimiento

adquirido por la red no está ubicado en ningún elemento concreto sino que está distribuido

entre todas las neuronas a través del ajuste de unos coeficientes (pesos numéricos o pesos

sinápticos). Esta red comienza con unos pesos aleatorios y aprende ajustando esos valores

iterativamente hasta que llega a un estado estable donde es capaz de establecer una relación

funcional dentro de un error objetivo prefijado entre la información de entrada y el conjunto

de ejemplos que se le muestran a la red en su fase de aprendizaje. La versatilidad de este

tipo de estructuras reside en su capacidad para detectar y establecer relaciones no lineales

complejas entre las variables independientes (entradas) y las dependientes. El ajuste de los

pesos que permite esto se hace a través de un mecanismo de retropropagación del error

desde la capa de salida y hacia las capas ocultas después de comparar el resultado obtenido

17

Page 18: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

por la salida de la red con el valor correcto dado por el vector de valores del conjunto de

ejemplos durante la fase de entrenamiento.

El reparto del error a través de las neuronas se hace en función de la culpa de cada una de

ellas en ese error, es decir, las neuronas con mayores pesos sinápticos y con mayor

sensibilidad en la relación entre estímulo y respuesta serán a las que se les asigne una mayor

parte del error.

Este proceso, durante la fase de aprendizaje, se repite presentando sucesivamente a la red el

conjunto de ejemplos de manera que se minimice una función objetivo como por ejemplo la

raíz del error cuadrático medio (RMSE).

Formalmente el mecanismo de proceso de cada neurona es simple: donde

Out es la salida de la neurona, wtx es el producto escalar entre el vector transpuesto de

pesos sinápticos y el vector de entradas a la neurona.

El subíndice m indica el número de entradas a la neurona

(igual al número de neuronas de la capa anterior) y w0 es un valor llamado de umbral y que

da mayor flexibilidad a la red ya que permite ajustarse para disminuir el sesgo. En la práctica

este valor es tratado como un peso más que va multiplicado siempre por una entrada de -1

(indicado como primer elemento). Viene a ser semejante al término que marca el corte con el

eje y en una regresión lineal.

Finalmente, la función f que transforma el escalar resultante en la salida de la neurona

normalmente es una función sigmoidal

Esta función produce salidas dentro del rango [0,1]. La salida de cada neurona es una de las

entradas para cada neurona de la siguiente capa tal excepto en la primera capa donde la

entrada de cada neurona es el elemento correspondiente del vector con las variables

independientes y la salida es la función identidad. La capa de salida también es excepción ya

que el resultado del cómputo neuronal no es entrada de otra neurona sino que es la salida de

la red.

La estructura de la red neuronal aplicada en este estudio tiene una capa de entrada de cuatro

neuronas (para los parámetros Kv, Kh, TI y veget) una capa oculta con 13 neuronas y una

capa de salida con una sola neurona que nos dará la predicción del contenido volumétrico de

humedad del suelo. Tanto el conjunto de datos de entrada (parámetros) como el conjunto de

datos de ejemplo ha sido normalizado en el rango [0.1, 0.95]. La normalización de los datos

en el rango [0, 1] es necesaria para evitar desbordamientos en los cálculos exponenciales y

18

Page 19: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

para mejorar la eficiencia de la red. Si además se normalizan en el rango propuesto se evitan

problemas de saturación en la función sigmoidal para los valores extremos y se mejora la

eficiencia del algoritmo de retropropagación, ya que al estar basado en cálculo de derivadas,

trabaja muy lento en las colas de la función sigmoidal donde la pendiente es pequeña.

2.1.7. Validación y cálculo del error: bootstrap.

Para estimar el error real de predicción de una red neuronal normalmente se prueba la red

sobre un conjunto de valores conocidos pero no usados en la fase de entrenamiento. En

nuestro caso, el número de datos para optimizar la red es demasiado limitado como para no

usar todos en la fase de entrenamiento, por lo que no es viable extraer un subconjunto de

datos y usarlo como conjunto de validación.

Como no conocemos la población total, el error que podamos calcular sobre una muestra será

el error aparente La diferencia entre el error aparente y el error real es el

sesgo β de manera que:

Para hallar este sesgo se utilizó un método llamado bootstrap. Es un método no paramétrico,

por lo que no debemos preocuparnos por conocer la distribución de la población. El método

infiere la población F a partir de la muestra f realizando una simulación Monte Carlo con

repetidos remuestreos sobre f.

La ventaja del método es que utiliza todo el conjunto n de datos de la muestra f para

construir la red definitiva y estima el sesgo haciendo remuestreos con reposición sobre toda

la muestra. Se remuestrea aleatoriamente hasta que se obtienen

muestras de tamaño n. Para cada muestra bootstrap (T*b) se construye un modelo de

predicción ƒ(T*b,xi), por lo que deberemos construir B+1 redes neuronales diferentes (B

modelos bootstrap más un modelo final con todos los datos del conjunto). Así, estimamos el

sesgo a través de B muestras independientes de tipo bootstrap usando la siguiente

expresión:

donde Xi indica que se pasan por la red todas las variables independientes de la muestra f,

X*i indica que se pasan solo las variables independientes de la muestra es el

19

Page 20: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

valor esperado. El resto de los términos ya están definidos. Finalmente:

Conforme B->∞ el sesgo estimado va tendiendo a su valor verdadero. Para propósitos

prácticos, el número de muestras B recomendado varía según los autores pero suele estar

entre 25 y 200. En este estudio se han construido 20 muestras de este tipo construyendo 20

modelos de validación más 1 modelo final, número que para este estudio preliminar se ha

considerado suficiente.

2.1.8. Análisis de importancia de las variables: saliency análisis

Los modelos de redes neuronales han sido usados por los científicos debido a que son

considerados modelos black-box sin valor explicativo y son más considerados como modelos

predictivos para aplicaciones de ingeniería, donde interesa obtener un valor ajustado en la

predicción sin preocuparse de los aspectos físicos que explican el funcionamiento del proceso.

Sin embargo, es posible abrir la caja negra (black-box) y obtener información de carácter

explicativo de estos modelos a través de los análisis de importancia o significación de las

variables [saliency análisis]. La manera de desagregar la red para estudiar la influencia de

cada variable sobre la predicción es haciendo un estudio de los pesos sinápticos. El método

divide los pesos sinápticos de la capa oculta hacia la capa de salida en componentes

asociados con cada nodo de entrada de la capa de neuronas sensoriales (capa inicial de

entrada de variables independientes). El peso resultante asociado con cada entrada sería

reflejo de su importancia. Para ello, el valor absoluto de cada peso que conecta la capa oculta

con la de salida es incorporado a los pesos que conectan la capa de entrada con la capa

oculta a través de la expresión donde w*ij es el peso

asociado a cada entrada y que es proporcional a su importancia, wij son los valores absolutos

de los pesos de la capa de entrada a la capa de salida y wjo es el absoluto

de los pesos de la capa oculta a la capa de salida. Los subíndices i y j son los elementos en

wij: i = 1, 2...p numero de entradas para cada j = 1,2 ...h nodo en la capa oculta. Estos

valores w*ij se pasan a porcentajes y esto será la estimación de la relevancia de cada

variables con respecto a las demás.

20

Page 21: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

2.1.9. Resultados

El método propuesto se comparará con los resultados de aplicar un análisis de regresión a

cada variable y con la aplicación de un modelo de regresión múltiple con todas las variables

propuestas. En la tabla 1 podemos ver los resultados de este análisis de regresión simple y

en la tabla 2 podemos ver los resultados de la regresión múltiple.

Podemos observar que las regresiones simples dan resultados satisfactorios, todos los r son

significativos al 0.05 iguales o mayores que los reportados por otros autores y los

coeficientes de determinación son relativamente altos. Podemos observar cómo la relación

entre kv y kh es inversa debido a que cuando sus valores son menores que cero el flujo

converge respectivamente y cuando son mayores que cero el flujo acelera o diverge según el

tipo de curvatura.

Sin embargo, la explicación conjunta a través de regresión múltiple no da los resultados que

se esperaban, donde tan solo el coeficiente de la vegetación supera el test t al0.05y el

coeficiente de determinación múltiple no es demasiado satisfactorio. El RMSE calculado es

0.061 (6.1%).

Figura 11. Predicción mediante red neuronal del contenido

volumétrico de humedad vs mediciones

Figura 12. Predicción mediante red neuronal del contenido

21

Page 22: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

En la figura 11 podemos observar la regresión entre los datos obtenidos a través del modelo

de red neuronal artificial propuestos y los datos observados. El RMSE de la estimación es de

0.0269 (2.7%), aunque éste es el error aparente estimado sobre el mismo conjunto de datos

que se ha utilizado para la construcción del modelo.

La estimación se ha hecho construyendo 20 modelos de validación que han arrojado un sesgo

de 0.027 (2.7%) con una desviación estándar en la distribución del sesgo de 0.013 (1.3%).

Finalmente, de la predicción estimado de 0.054 (5.4%).

En la figura. 12 se puede ver el mapa de la predicción generado por el modelo de red

neuronal. Las zonas negras son zonas sin predicción debido a que alguno de los parámetros

predictores estaba fuera del rango establecido por los parámetros usados en el

entrenamiento y se ha evitado extrapolar estos puntos.

En la figura. 13 observamos el histograma de la distribución de la humedad superficial

estimada para toda la cuenca, que tiene una forma similar a la de la muestra (figura 4),

donde destaca la elevada proporción de valores extremos. En este mapa y en el histograma

de distribución de la humedad se puede observar como hay una gran proporción de zonas de

bajo contenido de humedad que coinciden con las zonas de mayor pendiente y una con altos

valores de humedad que coincide con los bordes de los cauces.

El resto del terreno se agolpa en humedades en torno al 35%, que son también humedades

muy altas siguiendo una distribución bastante normal. En el mes del muestreo, el estado de

humedad de la cuenca aún era relativamente alto, había grandes zonas de la cuenca

encharcadas. Esto ocurría en todas las zonas bajas o con drenaje más deficiente, zonas que

contrastaban con las zonas secas de las pendientes de la cabecera. Así, se distinguen tres

unidades diferenciables en las etapas húmedas de la cuenca coincidiendo con las zonas de

mayor pendiente, las zonas más bajas cercanas a los cauces y fondos de vaguada y la zona

intermedia que sería el resto de la cuenca.

Una vez que tenemos cierta confianza sobre la estimación del modelo de red neuronal y

sobre los parámetros elegidos como predictores podemos hacer un estudio de los pesos

sinápticos para evaluar su grado de participación en la predicción.

22

Page 23: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

El número total de pesos de nuestra red, incluyendo los valores de umbral es de 79. El

método se ha seguido tal y como se ha explicado para las cuatro variables introducidas más

la influencia del valor de umbral o sesgo, que como hemos visto, se trata igual que un peso

ordinario asociado a una entrada de -1.

La tabla 3 muestra los resultados del análisis expresando el porcentaje de participación o

importancia de cada variable en la explicación de la distribución de la humedad para este

caso. En este caso parece que la capacidad local del terreno para concentrar la humedad es

una de las variables que más influyen en el proceso.

Nótese que esta variable es también la que ha tenido mayor coeficiente de determinación en

la regresión lineal.

La vegetación tiene también un papel relevante en la explicación del proceso como era

esperado. Con relevancias similares estarían el componente local de aceleración del agua

(Kv) y el índice topográfico (IT), siendo este último ligeramente más bajo que Kv. El índice

topográfico tiene una influencia moderada, siendo menos explicativa que otras variables

como ya han encontrado otros autores; el índice topográfico ha sido desarrollado en zonas

húmedas donde el mecanismo de generación de escorrentía es por exceso de saturación del

suelo y existe una conexión hidrológica permanente entre un punto del terreno y los que se

encuentran vertiente arriba. Es por ello que proponen la creación y aplicación de otros índices

para condiciones semiáridas incluyendo, por ejemplo, valores de radiación.

La capacidad de los índices de humedad variará su representatividad sobre la predicción de la

distribución de la humedad del suelo en función del estado de humedad de la cuenca. En el

caso de este estudio preliminar, la cuenca estaba en condiciones de humedad elevadas,

aunque entrando en la fase de retraimiento, serán necesarios estudios más detallados,

ocupando diferentes estadios en el proceso de humedecimiento-desecación de la cuenca e

incluyendo más parámetros para obtener conclusiones más robustas y respaldadas.

23

Page 24: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

2.1.10. Conclusiones

Los resultados de este estudio muestran que la aplicación de las redes neuronales artificiales

para predecir la distribución espacial de la humedad da resultados satisfactorios y tienen

mejor rendimiento que los modelos de regresión múltiple aún con un muestreo limitado. Esto

puede ser debido a la no linealidad en las relaciones entre los parámetros predictores y el

contenido volumétrico de humedad en la superficie del suelo y al hecho de que para las redes

neuronales artificiales, al ser un método no paramétrico, las asunciones necesarias son más

relajadas que para las regresiones múltiples.

Al mismo tiempo, se puede ver una cierta capacidad de la red para ofrecer información que

ayuda a la explicación del proceso y permite valorar la importancia de cada variable

introducida en el modelo.

Es un método que si bien requiere un mayor gasto computacional y de tiempo durante el

proceso de entrenamiento, una vez calibrada la red procesar un volumen grande de datos

para generar predicciones es sencillo y muy rápido. Tiene además la ventaja de ser un

sistema bastante robusto ante información ruidosa o incompleta siendo capaz de seguir

generando predicciones razonables.

Parece acertado pensar que el modelo puede aumentar su capacidad explicativa si se

introducen nuevos parámetros elegidos de manera cuidadosa. En épocas donde la cuenca

esté en proceso de secado, la introducción de un mapa de la distribución de la insolación o la

radiación solar puede ser de gran valor. Información sobre la profundidad del suelo o la

conductividad hidráulica para explicar la distribución de la humedad son también importantes

variables a tener en cuenta debido a su probada capacidad explicativa aún cuando esta

información es más costosa de obtener de forma espacialmente distribuida.

Seguir realizando pruebas en diferentes épocas del año, introduciendo un mayor número de

variables y sobre todo con un muestreo más extensivo debe ser motivo de más investigación

para valorar de una manera más rigurosa los resultados de este estudio.

24

Page 25: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

2.2. Redes neuronales en el tratamiento de información financiera

Las redes neuronales tratan de resolver de forma eficiente problemas que pueden

encuadrarse dentro de tres amplios grupos: optimización, reconocimiento y generalización.

Estos tres tipos engloban un elevado número de situaciones, lo que hace que el campo de

aplicación de las redes neuronales en la gestión empresarial sea muy amplio.

En los problemas de optimización, se trata de determinar una solución que sea óptima.

Generalmente se aplican redes neuronales realimentadas, como el modelo de Hopfield. En la

gestión empresarial, son decisiones de optimización encontrar los niveles de tesorería, de

existencias, de producción, construcción de carteras óptimas, etc.

En los problemas de reconocimiento, se entrena una red neuronal con entradas (inputs) como

sonidos, números, letras y se procede a la fase de test presentando esos mismos patrones

con ruido. Este es uno de los campos más fructíferos en el desarrollo de redes neuronales y

casi todos los modelos: perceptrón, redes de Hopfield, mapas de Kohonen, etc, han sido

aplicados con mayor o menor éxito.

En los problemas de generalización, la red neuronal se entrena con unos inputs y el test se

realiza con otros casos diferentes. Problemas típicos de generalización son los de clasificación

y predicción.

La elección entre los diferentes sistemas de ayuda a la toma de decisiones depende del tipo

de tarea a realizar. También el nivel al que se toman las decisiones afecta la elección del tipo

de sistema más apropiado. Las decisiones se clasifican en estructuradas y no estructuradas:

las decisiones estructuradas son repetitivas, rutinarias y existe un procedimiento definido

para abordarlas, por el contrario, en las decisiones no estructuradas el decisor debe

proporcionar juicios y aportar su propia evaluación.

Más recientemente se han propuesto un esquema que relaciona el tipo de decisión

(estructurada, semiestructurada y no estructurada) y el nivel organizacional (control

operativo, de gestión y estratégico) con la herramienta a utilizar. Lógicamente en el nivel

operativo dominan las decisiones estructuradas, en el nivel de gestión las semiestructuradas

y en el estratégico las no estructuradas, formando una diagonal. En la figura siguiente se

muestra un esquema incorporando las últimas tecnologías de la información, e incluso

25

Page 26: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

anticipando lo que puede ser un futuro próximo.

Figura 13. Las herramientas a utilizar según el tipo de decision y el nivel organizativo.

Se puede apreciar sobre la figura 13 que en el nivel operativo y toma de decisiones

estructurada dominan los sistemas informatizados convencionales como los programas de

contabilidad financiera y de costos, los de elaboración de nóminas, y en general aquellas

tareas mecánicas. Son los llamados Sistemas de Proceso de Transacciones (TPS) basados en

programación algorítmica convencional.

El nivel operativo con decisiones semiestructuradas todavía está dominado por los programas

convencionales, en lo que habría que incluir programas de control de tesorería, control de

existencias y también las hojas de cálculo y sistemas gestores de bases de datos. Conforme

las decisiones son menos estructuradas, empiezan a ser aplicables sistemas expertos y

sistemas de ayuda a la toma de decisiones. Así, para la gestión financiera más básica, en la

que además de realizar cálculos mecánicos: tipos de interés efectivo, cuotas de amortización

de préstamos, también hay que tomar decisiones que manejan información incompleta o

precisan incorporar el conocimiento de un especialista humano. Finalmente, para el nivel de

toma de decisiones menos estructuradas pueden incorporarse modelos neuronales. La

aplicacion en temas puntuales como la elaboración de presupuestos, la predicción de

variables financieras como el beneficio, el cash-flow, podrían incorporarse modelos

neuronales.

26

Page 27: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

En el nivel estratégico son barridos los programas convencionales manteniéndose únicamente

las hojas de cálculo, por su capacidad de simulación. Los llamados Executive Information

Systems (EIS), o Sistemas Informativos para Ejecutivos dominan las decisiones menos

estructuradas, con tareas como la planificación estratégica y de contabilidad directiva.

2.2.1. Introducción

Analizaremos un modelo de red neuronal autoorganizada en estos sistemas informativos, que

filtra la información relevante para cada ejecutivo ya que la sobrecarga informativa es uno de

los principales problemas de estos sistemas al estar basados en correo electrónico.

Finalmente, determinados modelos de redes neuronales podrían aplicarse en problemas de

optimización.

En este esquema descrito, hemos situado el análisis de la información financiera en las

decisiones semiestructuradas, en las que no hay una teoría general que pueda ser aplicada

paso a paso, pero tampoco el análisis contable encaja en las decisiones completamente

intuitivas o no estructuradas.

Los sistemas neuronales presentan ciertos inconvenientes. Uno importante es que

habitualmente realizan un complejo procesamiento que supone millones de operaciones, por

lo que no es posible seguir paso a paso el razonamiento que les ha llevado a extraer sus

conclusiones. Sin embargo, en redes pequeñas, mediante simulación o por el estudio de los

pesos sinápticos sí es posible saber, al menos, qué variables de las introducidas han sido

relevantes para tomar la decisión.

2.2.2. Aplicando Redes neuronales en áreas de información financiera.

En noviembre de 1993, por iniciativa de la London Business School, se celebró en Londres la

primera reunión internacional sobre aplicaciones de redes neuronales al tratamiento de la

información financiera (First International Workshop on Neural Networks in the Capital

Markets).

Los principales proyectos desarrollados con información financiera se agrupan en dos temas:

27

Page 28: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

análisis del fracaso empresarial y predicción en los mercados financieros. Ambos tipos de

trabajos responden a dos de las principales tareas en las que se están aplicando las redes

neuronales: clasificación y predicción, que como hemos visto anteriormente.

En la mayoría de estas aplicaciones se obtienen resultados excelentes con las redes

neuronales. Muchos no comparan las redes neuronales con modelos estadísticos o sistemas

expertos. Cuando lo hacen, en ocasiones no hay muestra y test, y al utilizar perceptrón

multicapa, dada la excelente capacidad para representar todo tipo de funciones de este

modelo, se obtienen resultados extraordinarios, sin que haya garantías de que al realizar un

test los resultados fueran igualmente buenos.

Incluso cuando se posee muestra y test es posible que la selección del modelo estadístico no

sea la más apropiada, ya que muchos modelos estadísticos parten de hipótesis y no son

idóneos para todos los tipos de trabajo. No hay garantías de que se esté utilizando el mejor

de los modelos estadísticos, como tampoco las hay de que se esté seleccionando la

configuración de la red neuronal más apropiada en cuanto a número de neuronas en la capa

oculta, funciones de transferencia Finalmente, tampoco hay garantías de que sólo se estén

publicando los éxitos con redes neuronales y no los fracasos.

En Hawley, Johnson y Raina (1990), Medsker, Turban y Trippi (1992), Back y Sere (1993) y

Cheng y Pike (1994) se describen las áreas de trabajo potenciales en Contabilidad y se hacen

revisiones empíricas de las principales investigaciones, clasificándose según diferentes

criterios.

A continuación, se muestran aquellas investigaciones que tienen más interés, bien por su

carácter de pioneros, bien por comparar con gran número de técnicas o por su calidad.

En los problemas de clasificación se trata de asignar a cada caso su clase correspondiente, a

partir de un conjunto de ejemplos: abarca problemas como el estudio del fracaso

empresarial, la concesión de préstamos y la calificación de obligaciones.

2.2.3. El fracaso empresarial.

En general se trata de seleccionar un conjunto de variables, generalmente ratios financieros y

utilizar un modelo matemático que discrimine o detecte los rasgos que caracterizan a las

empresas que tienen éxito de las que fracasan. Son muchos los modelos estadísticos

28

Page 29: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

propuestos y dadas las propiedades de los sistemas neuronales de actuar como clasificadores

de información y reconocimiento de patrones, tempranamente se aplicaron a esta importante

materia de investigación.

El trabajo de Bell, Ribar y Verchio es un estudio pionero en la aplicación de redes neuronales

al fracaso empresarial. En este trabajo se compara el perceptrón multicapa con el análisis

lógit, tomando una amplia muestra de mil ocho bancos, de los que ciento dos eran

quebrados. Otra muestra de mil cincuenta y nueve bancos sirve para el test, siendo ciento

treinta y uno los bancos quebrados. Los resultados son muy similares, con una pequeña

ventaja a favor del neuronal en la clasificación de empresas que se encuentran en la zona de

indeterminación.

Se realizó otro estudio sobre predicción de quiebras concretamente analizando cinco ratios de

ciento veintinueve empresas estadounidenses, extrayendo la información del Moody's

Industrial Manual correspondiente a 1975-1982. También aplicando diferentes modelos

neuronales a estos mismos datos. En ambos estudios se comparan los resultados obtenidos

con análisis discriminante, perceptrón simple, perceptrón multicapa y la red neuronal athena.

Athena es un modelo neuronal descrito, que utiliza entrenamiento supervisado y se basa en

una medida de entropía. Los resultados son favorables a los modelos neuronales frente al

análisis discriminante.

La principal novedad del trabajo de De Miguel, Revilla, Rodríguez y Cano (1993) es que

aplican una red neuronal compleja, la de red neuronal supervisada que consta de dos

módulos ART con aprendizaje no supervisado. Comparan esta red con cuatro modelos

estadísticos para predecir el fracaso empresarial, aplicándolos a la bien conocida crisis del

sector bancario español de los años ochenta. Toman los datos del trabajo previo de uno de

los autores, Rodríguez (1989), que utilizaba análisis lógit. Los resultados son favorables al

modelo neuronal.

En otro modelo aplican análisis discriminante, lógit y perceptrón multicapa en una aplicación

real para la Centrale dei Bilanci italiana. Los resultados no son concluyentes, ya que

encuentran que las ventajas e inconvenientes de este modelo neuronal frente a los

estadísticos se encuentran equilibradas e invitan a la realización de nuevos estudios

empíricos.

29

Page 30: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

Otros autores proponen un modelo híbrido que combina el modelo neuronal de mapas

autoorganizados de Kohonen con otros modelos estadísticos y neuronales que obtienen una

puntuación o Z score. Una vez creado el mapa autoorganizado se superpone la puntuación

obtenida por la empresa, según el análisis discriminante o el perceptrón multicapa. El

modelo, más allá del tradicional análisis Z, proporciona información sobre las características

financieras más destacadas de la empresa analizada así como el tipo de empresa a la que se

asemeja.

2.2.4. Evaluación del comportamiento de las acciones en el mercado de valores.

En este tipo de estudios también se utilizan como variables los ratios financieros y se trata de

evaluar a las empresas. Sin embargo la clasificación no es la anterior en empresas quebradas

y solventes, sino que es el mercado de valores quien proporciona la variable independiente,

teniendo en cuenta el comportamiento positivo o negativo de las rentabilidades obtenidas por

las acciones.

En 1993 el estudio que se realizó se trata de discriminar a las empresas en dos grupos,

según sus acciones hayan tenido o no un buen comportamiento en los mercados financieros.

Los datos incluyen información contable cuantitativa y cualitativa, pues examinan la carta que

el presidente de la compañía envía a los accionistas. Comparan los resultados del análisis

discriminante con los del perceptrón multicapa. El perceptrón sin capa oculta obtenía un 65%

de acierto, resultado similar al del análisis discriminante. Al añadir una capa oculta, mejoran

los resultados situándose al 76%. El añadir otra capa oculta no mejora significativamente la

eficacia del modelo.

Se comparan los tres modelos estadísticos más utilizados en la predicción del fracaso

empresarial: análisis discriminante, lógit y particiones recursivas con el perceptrón multicapa.

En este estudio la variable dependiente, es decir el calificar a la empresa positiva o

negativamente, se deriva de los mercados financieros, según el valor estimado de la beta. La

beta de un valor es una medida del riesgo sistemático, es decir atribuible al movimiento del

mercado en su conjunto y se calcula mediante regresiones que relacionan los movimientos

del título con los del índice general de precios del mercado. Las empresas son agrupadas a

priori como de alto o bajo riesgo dependiendo de si el valor de su beta está por encima o por

30

Page 31: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

debajo de la media de la beta calculada para todas las empresas y todos los años. En los

resultados se produce un empate, ya que todos los modelos fallan en el test en las mismas

tres observaciones.

2.2.5. Concesión de préstamos

Metodológicamente son muy similares los trabajos de concesión de préstamos a los de

predicción de la quiebra. El conceder o no un préstamo es también una decisión no

estructurada y la diferencia radica en que la información disponible no se extrae de bases de

datos comerciales o de los registros sino que es información que suministra el propio banco o

entidad financiera que encarga el estudio. En este caso la información no se compone

exclusivamente de ratios financieros, sino que también hay otro tipo de datos, como por

ejemplo quién es el director de la compañía, si es un cliente nuevo.

En el estudio se describe una aplicación híbrida del Chase Manhattan Bank para la concesión

de préstamos. Es un sistema mixto que incorpora herramientas estadísticas y un perceptrón

multicapa. El Chase Manhattan Bank concede préstamos nuevos cada año por valor de

trescientos millones de dólares e hizo una apuesta muy fuerte en el desarrollo de un modelo

informatizado basado en el reconocimiento de patrones para las decisiones de concesión de

préstamos. El programa se encuentra en un ordenador central al que los usuarios pueden

acceder desde ordenadores compatibles, vía modem. Lógicamente algunos procedimientos se

encuentran patentados por lo que es difícil conocer todos los módulos que integran el

sistema. PCLM, que son las siglas de Public Company Loan Model proporciona extensos

informes, gráficos, puntos fuertes y débiles de la compañía, así como una clasificación de las

empresas en buenas, malas y críticas.

Esta investigación es un poco limitada, pero que muestra que con programas comerciales

también se pueden desarrollar aplicaciones híbridas complejas, que desarrolla una red

experta para la concesión de préstamos. Su modelo incorpora una concha de sistema

experto, Knowledge Pro, un simulador de red neuronal, NeuroShell y el gestor de bases de

datos. Los tres programas comparten ficheros, de forma que al introducir los datos de la

empresa el sistema experto analiza los ratios financieros y la red neuronal realiza los

correspondientes cálculos.

31

Page 32: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

Se propone un modelo mixto que integra un módulo de sistema experto que extrae de forma

automática las reglas a partir de una base de datos y un perceptrón multicapa que

interacciona con el anterior. Las variables de que parte son cuantitativas y cualitativas:

algunas se extraen del balance y cuenta de resultados y el resto informan de la gerencia y las

relaciones pasadas del cliente con el banco. Finalmente agrupa las empresas en tres

categorías: bajo riesgo, moderado y alto. Los resultados son buenos pero no se pueden

comparar con los obtenidos por otros modelos neuronales.

32

Page 33: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

3. Resumen y conclusiones.

El nacimiento de la Inteligencia Artificial se sitúa en los años cincuenta; en esa fecha la

informática apenas se había desarrollado, y ya se planteaba la posibilidad de diseñar

máquinas inteligentes. Hoy en día esta ciencia asiste a un cambio de paradigma y se habla de

vida artificial, algoritmos genéticos, computación molecular o redes neuronales. En algunas

de estas ramas los resultados teóricos van muy por encima de las realizaciones prácticas.

Los sistemas expertos son la rama más conocida de la Inteligencia Artificial. La forma en que

representan el conocimiento, habitualmente mediante símbolos, es apropiada cuando es

posible extraer un conjunto de reglas y normas. En la vasta ciencia empresarial, existen

subdominios en los que es fácil o al menos posible extraer una serie de reglas y otros en los

que es menos factible. No existen reglas con rango de norma, conviven recetas extraídas de

la práctica empresarial con otras obtenidas mediante análisis empíricos. Es por lo tanto un

reto elaborar un sistema experto de diagnóstico empresarial.

Las redes neuronales artificiales son un paradigma computacional que trata de resolver

tareas que la computación algorítmica tradicional e Inteligencia Artificial convencional no han

resuelto de un modo suficientemente satisfactorio. Tareas tales como el reconocimiento de

patrones, problemas de optimización o clasificación. En las redes neuronales artificiales el

conocimiento no se programa de forma directa en la red sino que se adquiere por medio de

una regla de aprendizaje por ajuste de parámetros mediante ejemplos. Como vemos es un

método inductivo, que recuerda más a los modelos estadísticos que a los sistemas expertos,

la otra gran rama de la Inteligencia Artificial. Diversas parcelas de la gestión empresarial

utilizan frecuentemente el método inductivo, entre ellas el análisis financiero, por lo que se

justifica conocer lo que las redes neuronales nos pueden ofrecer. Quizá una solución

pragmática sea utilizar sistemas mixtos que incorporen un módulo de sistema experto con

sus reglas junto a otros módulos estadísticos o neuronales.

En cuanto a las áreas de trabajo posibles, dependen del tipo de decisión, estructurada o no y

del nivel organizativo, según sea operativo, de gestión o estratégico. En general las redes

neuronales pueden cubrir un hueco importante en las decisiones no estructuradas, debido a

esa capacidad de encontrar relaciones complejas entre los patrones de entrada. No son tan

apropiadas en tareas muy estructuradas, en las que creemos que es más recomendable

33

Page 34: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

utilizar programas informáticos convencionales o sistemas expertos.

Los primeros trabajos con redes neuronales e información contable fueron realizados por

ingenieros o en general personas ajenas a la economía. Ultimamente empiezan a ser

habituales en los congresos y revistas especializadas de economía, medicina, geología, etc,

los estudios realizados con redes neuronales. En general estos trabajos tratan problemas de

clasificación y predicción: el fracaso empresarial, el diseño de modelos de concesión de

préstamos, de calificación de obligaciones, de elección del método contable, el análisis

técnico y el análisis fundamental han sido los temas preferidos por los investigadores.

Los resultados de estos estudios, aunque prometedores, por su naturaleza empírica no son

concluyentes y casi todos ellos invitan a continuar realizando más estudios empíricos que

muestren en qué problemas y bajo qué condiciones las redes neuronales pueden ser una

solución más eficiente que los modelos utilizados habitualmente.

34

Page 35: Investigación redes neuronales

Universidad Politécnica de QuerétaroSamuel Tiburcio Parra Redes Neuronales

Bibliografía.

Abrahart, R.J., See, L. y Kneale, P.E., 2001. Investigating the role of saliency analysis with a

neural network rainfall-runoff model. Journal of Computers and Geosciences, 27: 921-928

Florinsky, I.V., Eilers, R.G., Manning, G.R. y Fuller, L.G., 2002.

Prediction of Soil Properties by Digital Terrain Modelling. Journal of Environmental Modelling &

Software, 17: 295-311.

Hsu, K.l., Gupta, H.V. y Sorooshian, S., 1993. Artificial neural network modeling of the

rainfall-runoff process. Water resources research, 29(4): 1185-1194.

Nath, R., Rajagopalan, B. y Ryker, R., 1997. Determining the saliency of input variables in

neural network classifiers. Journal of Computers

Ops Res, 24(8): 767-773. Shamseldin, A.Y., 1997. Application of a neural network technique

to rainfall-runoff modelling. Journal of Hydrology, 199: 272-294.

Twomey, J.M. y Smith, A.E., 1993. Nonparametric error estimation methods for evaluating

and validating artificial neural network prediction models. In: Dagli, Burke, Fernández y

Ghosh (Editors), Intelligent Engineering Systems through Artificial Neural Networks. ASME

Press, pp. 233-238.

Twomey, J.M. y Smith, A.E., 1995. Performance measures, consistency, and power for

artificial neural network models. Mathematical Computer Modelling, 21(1/2): 243-258.

Weibel, R. y Heller, M., 1991. Digital terrain modelling. In: D.J. Maguire, M.F. Goodchild y D.

Rhind (Editors), Geographical Information Systems: Principles and Applications. Vol 1:

Principles. Longman, Harlow, pp. 269-297

Maneta y Schnabel. Aplicación de redes neuronales para determinar la distribución espacial

de la humedad. Longman, Pag 19-25 Estudios de la Zona No Saturada del Suelo Vol. VI. J.

Álvarez-Benedí y P. Marinero, 2003

35