RED NEURONAL ARTIFICIAL . I.A

REDES NEURONALES

ARTIFICIALES(ARTIFICIAL NEURONAL NETWORKS)

INTELIGENCIA ARTIFICIAL

República Bolivariana de Venezuela Universidad Fermín Toro Decanato de Ingeniería

Cabudare – Edo. Lara

INTEGRANTES: Beatriz Sánchez Daniela Atacho Carla González


La inteligencia, es la capacidad de discernir, discriminar y evaluar, pero a medida que el conocimiento humano se amplia, el concepto sobre inteligencia se acerca cada vez más a las facetas asociadas a la resolución del problema y al proceso creativo para ello, más que a comportamientos automáticos o repetitivos.

La Inteligencia Artificial (IA), es la rama de las ciencias de la computación que se ocupa de construir sistemas que permitan exhibir un comportamiento cada vez más inteligente.


Las Redes Neuronales Artificiales ó ANN (Artificial Neural Networks), están inspiradas en las redes neuronales biológicas (RNB) del cerebro humano. Están constituidas por elementos que se comportan de forma similar a la neurona biológica en sus funciones más comunes. Estos elementos están organizados de una forma parecida a la que presenta el cerebro humano. Las RDA, al margen de "parecerse" al cerebro, presentan una serie de características propias del cerebro. Por ejemplo, las RDA aprenden de la experiencia, generalizan de ejemplos previos a ejemplos nuevos y abstraen las características principales de una serie de datos.


CONCEPTOS• Aprender: adquirir el conocimiento de una cosa

por medio del estudio, ejercicio o experiencia. Las ANN pueden cambiar su comportamiento en función del entorno. Se les muestra un conjunto de entradas y ellas mismas se ajustan para producir unas salidas consistentes.

• Generalizar: extender o ampliar una cosa. Las ANN generalizan automáticamente debido a su propia estructura y naturaleza. Estas redes pueden ofrecer, dentro de un margen, respuestas correctas a entradas que presentan pequeñas variaciones debido a los efectos de ruido o distorsión.

• Abstraer: aislar mentalmente o considerar por separado las cualidades de un objeto. Algunas ANN son capaces de abstraer la esencia de un conjunto de entradas que aparentemente no presentan aspectos comunes o relativos.


MODELOS DE RNALos modelos de redes neuronales artificiales intentan reproducir el comportamiento del cerebro, es decir, cada neurona está caracterizada por entradas de activación que son modificadas por un peso (la “sinapsis” en el caso biológico), las señales moduladas se combinan entre ellas y entran a una función de activación que determinan la salida con base en una comparación de la suma con el valor de la activación.


ARQUITECTURA DE LAS RNALas RNA, presentan una arquitectura totalmente diferente de los ordenadores tradicionales de un único procesador. Las máquinas tradicionales basadas en el modelo de Von Neuman tienen un único elemento procesador, la CPU (Control Process Unit) que realiza todos los cálculos ejecutando todas las instrucciones de la secuencia programada en el algoritmo. Cualquier CPU realiza más de cien comandos básicos, incluyendo sumas, restas, y desplazamientos entre otros. Los comandos o instrucciones se ejecutan secuencialmente y sincronizadas con el reloj del sistema. Sin embargo en los sistemas de computación neuronal cada elemento PE (process element) sólo puede realizar uno, o como mucho, varios cálculos. La potencia del procesado de las RDA se mide principalmente por el número de interconexiones actualizadas por segundo durante el proceso de entrenamiento o aprendizaje. Sin embargo las máquinas de Von Neuman se miden por el número de instrucciones que ejecuta por segundo el procesador central CPU. La arquitectura de las RDA parte de la organización de los sistemas de procesado en paralelo, es decir, sistemas en los que distintos procesadores están interconectados. No obstante los procesadores son unidades procesadoras simples, diseñadas para la suma de muchas entradas y con un ajuste automático de las conexiones ponderadas.


EL PERCEPTRÓN SIMPLEEs un discriminador terciario, que traza la entrada (un vector binario) de la matriz que representa las redes neuronales, a un único vector de salida (un solo valor binario), a través de dicha matriz.


MODELO DE PERCEPTRON SIMPLEEl modelo biológico más simple de un perceptrón es una neurona y viceversa. Es decir, el modelo matemático más simple de una neurona es un perceptrón. La neurona, es una célula especializada y caracterizada por poseer una cantidad indefinida de canales de entrada llamados dendritas y un canal de salida llamado axón. Las dendritas operan como sensores que recogen información de la región donde se hallan y la derivan hacia el cuerpo de la neurona que reacciona mediante una sinapsis que envía una respuesta hacia el cerebro, esto en el caso de los seres vivos.Una neurona sola y aislada carece de razón de ser. Su labor especializada se torna valiosa en la medida en que se asocia a otras neuronas, formando una red. Normalmente, el axón de una neurona entrega su información como "señal de entrada" a una dendrita de otra neurona y así sucesivamente. El perceptrón que capta la señal en adelante se entiende formando una red de neuronas, sean éstas biológicas de sustrato semiconductor (compuertas lógicas).


ARQUITECTURA DEL PERCEPTRON SIMPLE


Es una red monocapa con varias neuronas de entrada conectadas a la neurona de salida. Observando la imagen a mano izquierda, podemos calcular en valor de la salida, del siguiente modo:

En el caso de que la salida sea +1, la entrada pertencerá a una clase, situada a un lado del hiperplano•En el caso de que la salida sea -1, la entrada pertencerá a la clase contraria, situada al otro lado del hiperplano

El perceptron simple es un hiperplano de dimensión n-1 capaz de separar las clases. La ecuación de dicho interplano es:

La cual si se simplifica queda del siguiente modo:Donde la parte que multiplica x1 es la pendiente de la recta y la otra parte es el punto de corte con el eje de ordenadas.

En el perceptrón, existen dos tipos de aprendizaje, el primero utiliza una tasa de aprendizaje mientras que el segundo no la utiliza. Esta tasa de aprendizaje amortigua el cambio de los valores de los pesos; el algoritmo de aprendizaje es el mismo para todas las neuronas, todo lo que sigue se aplica a una sola neurona en el aislamiento. Se definen algunas variables primero:

• El , denota el elemento en la posición en el vector de la entrada

• El es el elemento en la posición en el vector de peso• El denota la salida de la neurona• El denota la salida esperada• El es una constante tal que

Los dos tipos de aprendizaje difieren en este paso. Para el primer tipo de aprendizaje, utilizando tasa de aprendizaje, utilizaremos la siguiente regla de actualización de los pesos:

INTELIGENCIA ARTIFICIALPROCESO DE APRENDIZAJE DEL

PERCEPTRON SIMPLE

Para el segundo tipo de aprendizaje, sin utilizar tasa de aprendizaje, la regla de actualización de los pesos será la siguiente:

Por lo cual, el aprendizaje es modelado como la actualización del vector de peso después de cada iteración, lo cual sólo tendrá lugar si la salida difiere de la salida deseada . Para considerar una neurona al interactuar en múltiples iteraciones debemos definir algunas variables más:

• denota el vector de entrada para la iteración i• denota el vector de peso para la iteración i• denota la salida para la iteración i• denota un periodo de

aprendizaje de iteraciones


PROCESO DE APRENDIZAJE DEL PERCEPTRON SIMPLE

En cada iteración el vector de peso es actualizado como sigue:

• Para cada pareja ordenada en

• Pasar a la regla de actualización

El periodo de aprendizaje se dice que es separable linealmente si existe un valor positivo y un vector de peso tal que: para todos los

Novikoff (1962) probo que el algoritmo de aprendizaje converge después de un número finito de iteraciones si los datos son separables linealmente y el número de errores está limitado a:

Sin embargo si los datos no son separables linealmente, la línea de algoritmo anterior no se garantiza que converja.

PROCESO DE APRENDIZAJE DEL PERCEPTRON SIMPLE


• Una función de transferencia es un modelo matemático que a través de un cociente relaciona la respuesta de un sistema (modelada) a una señal de entrada o excitación (también modelada).

Por definición una función de transferencia se puede determinar según la expresión:


UTILIDAD DE LA FUNCIÓN DE TRANSFERENCIA

donde H (s) es la función de transferencia (también notada como G (s) ); Y (s) es la transformada de Laplace de la respuesta y X (s) es la transformada de Laplace de la señal de entrada.

La función de transferencia también puede considerarse como la respuesta de un sistema inicialmente inerte a un impulso como señal de entrada:

La salida o respuesta en frecuencia del sistema se halla entonces de

y la respuesta como función del tiempo se halla con la transformada del Laplace inversa de Y(s):



Cualquier sistema físico (mecánico, eléctrico, etc.) se puede traducir a una serie de valores matemáticos a través de los cuales se conoce el comportamiento de estos sistemas frente a valores concretos.Por ejemplo, en análisis de circuitos eléctricos, la función de transferencia se representa como:



COMPUERTAS LÓGICAS

• Las compuertas, son dispositivos que operan con

aquellos estados lógicos. Pueden asimilarse a una calculadora, por un lado ingresas los datos, la compuerta realiza la operación lógica correspondiente a su tipo, y finalmente, muestra el resultado en algún display.


http://electronicacompleta.com/wp-content/uploads/image0041.jpg

APLICACIÓN DE UNA OPERACIÓN LÓGICA

Cada compuerta lógica realiza una operación aritmética o lógica diferente, que se representa mediante un símbolo de circuito. La operación que realiza (Operación lógica) tiene correspondencia con una determinada tabla, llamada “Tabla de Verdad”. A continuación vamos a analizar las diferentes operaciones lógicas una por una comenzando por la más simple.


COMPUERTA AND Ó “Y”La puerta lógica Y, más conocida por su nombre en inglés AND, realiza la función booleana de producto lógico. Su símbolo es un punto (•), aunque se suele omitir. Así, el producto lógico de las variables A y B se indica como AB, y se lee A y B o simplemente A por B.

La ecuación característica que describe el comportamiento de la puerta AND es:

Su tabla de verdad es la siguiente:Tabla de verdad puerta AND Así, desde el punto de vista de la aritmética módulo 2, la compuerta AND implementa el producto módulo 2.

Tabla de verdad puerta AND

Entrada Entrada Salida

0 0 0

0 1 0

1 0 0

1 1 1


COMPUERTA AND Ó “Y”

Símbolo de la función lógica Y: a) Contactos, b) Normalizado y c) No

normalizado


http://commons.wikimedia.org/wiki/File:Funcion_logica_Y.PNG

COMPUERTA OR Ó “O”La puerta lógica O, más conocida por su nombre en inglés OR, realiza la operación de suma lógica.La ecuación característica que describe el comportamiento de la puerta OR es:

Su tabla de verdad es la siguiente:Tabla de verdad puerta OR

Podemos definir la puerta O como aquella que proporciona a su salida un 1 lógico si al menos una de sus entradas está a 1.

Tabla de verdad puerta OR

Entrada Entrada Salida

0 0 0

0 1 1

1 0 1

1 1 1


COMPUERTA OR Ó “O”

Símbolo de la función lógica O: a) Contactos, b) Normalizado y c) No normalizado

Las compuertas lógicas AND y OR son linealmente separables, por lo tanto pueden implementarse con un

perceptrón.


http://commons.wikimedia.org/wiki/File:Funcion_logica_O.PNG

ADALAINE

• El adaline (de ADAptative LINear Element) es un tipo de red neuronal artificial desarrollada por el profesor Bernie Widrow y su alumno Ted Hoff en la Universidad de Stanford en 1960.

• Generalmente se compone de una sola capa de n neuronas ( por tanto n valores de salida ) con m entradas con las siguientes características:

• • Las m entradas representan un vector de entrada que pertenece al espacio .

• • Por cada neurona, existe un vector de pesos sinápticos que indican la fuerza de conexión entre los valores de entrada y la neurona. En la práctica representan la ponderación de cada entrada sobre la neurona.

• • Una constante .• • La salida de la neurona se representa por la función de activación,

que se define como :


ADALINE

A diferencia del perceptrón, a la hora de modificar los pesos durante el entrenamiento, el Adaline tiene en cuenta el grado de corrección de la salida estimada respecto a la deseada. Esto se consigue mediante la aplicación de la regla Delta, y que se define, para un patrón de entrada con una salida estimaday una salida

Dado que el objetivo del Adaline es poder estimar de la manera más exacta la salida (conseguir una salida exacta es prácticamente imposible en la mayoría de los casos), se busca minimizar la desviación de la red para todos los patrones de entrada, eligiendo una medida del error global. Normalmente se utiliza el error cuadrático medio.


ADALINE

A manera de reducir este error global, es ir modificando los valores de los pasos al procesar cada entrada, de forma interactiva, mediante la regla del descenso del gradiente. Suponiendo que tenemos una constante de aprendizaje :

Si operamos con la derivada, queda:


Que será la expresión que utilizaremos por cada entrada para modificar los pesos.

ADALINEVENTAJAS

Con respecto al perceptrón, el Adaline posee la ventaja de que su gráfica de error es un hiperparaboloide que posee o bien un único mínimo global, o bien una recta de infinitos mínimos, todos ellos globales. Esto evita la gran cantidad de problemas que da el perceptrón a la hora del entrenamiento debido a que su función de error (también llamada de coste) posee numerosos mínimos locales.


APLICACIONES

Asociación de patrones: se puede aplicar a este tipo de problemas siempre que los patrones sean linealmente separables.

En el campo del procesamiento de señales:

Filtros de ruido: Limpiar ruido de señales transmisoras de información.

Filtros adaptativos: Un adaline es capaz de predecir el valor de una señal en el instante t+1 si se conoce el valor de la misma en los p instantes anteriores (p es >0 y su valor depende del problema). El error de la predicción será mayor o menor según qué señal queramos predecir. Si la señal se corresponde a una serie temporal el Adaline, pasado un tiempo, será capaz de dar predicciones exactas.

Se pueden combinar múltiples Adalines formando lo que se denomina el Medaline.


ADALINE

PERCEPTRON MULTICAPAHistoria

En 1969, Minsky y Papert, demuestran que el perceptrón simple y ADALINE no puede resolver problemas no lineales (por ejemplo, XOR). La combinación de varios perceptrones simples podría resolver ciertos problemas no lineales pero no existía un mecanismo automático para adaptar los pesos de la capa oculta. Rumelhart y otros autores, en 1986, presentan la "Regla Delta Generalizada" para adaptar los pesos propagando los errores hacia atrás, es decir, propagar los errores hacia las capas ocultas inferiores. De esta forma se consigue trabajar con múltiples capas y con funciones de activación no lineales. Se demuestra que el perceptrón multicapa es un aproximador universal. Un perceptrón multicapa puede aproximar relaciones no lineales entre los datos de entrada y salida. Esta red se ha convertido en una de las arquitecturas más utilizadas en el momento.


El perceptrón multicapa, es una red neuronal artificial (RNA) formada por múltiples capas, esto le permite resolver problemas que no son linealmente separables, lo cual es la principal limitación del perceptrón (también llamado perceptrón simple). El perceptrón multicapa puede ser totalmente o localmente conectado. En el primer caso cada salida de una neurona de la capa "i" es entrada de todas las neuronas de la capa "i+1", mientras que en el segundo cada neurona de la capa "i" es entrada de una serie de neuronas (región) de la capa "i+1".


PERCEPTRON MULTICAPA




Tipos:

Las capas pueden clasificarse en tres tipos:

• Capa de entrada: Constituida por aquellas neuronas que introducen los patrones de entrada en la red. En estas neuronas no se produce procesamiento.

• Capas ocultas: Formada por aquellas neuronas cuyas entradas provienen de capas anteriores y cuyas salidas pasan a neuronas de capas posteriores.

• Capa de salida: Neuronas cuyos valores de salida se corresponden con las salidas de toda la red.

NOTA: La propagación hacia atrás (también conocido como retropropagación del error o regla delta generalizada), es un algoritmo utilizado en el entrenamiento de estas redes, por ello, el perceptrón multicapa también es conocido como red de retropropagación (no confundir con la red de contrapropagación).


CARACTERÍSTICAS:

Las funciones de transferencia de los elementos de procesado (neuronas) han de ser derivables.




Limitaciones

• El Perceptrón Multicapa no extrapola bien, es decir, si la red se entrena mal o de manera insuficiente, las salidas pueden ser imprecisas.

• La existencia de mínimos locales en la función de error dificulta considerablemente el entrenamiento, pues una vez alcanzado un mínimo el entrenamiento se detiene aunque no se haya alcanzado la tasa de convergencia fijada.

• Cuando caemos en un mínimo local sin satisfacer el porcentaje de error permitido se puede considerar: cambiar la topología de la red (número de capas y número de neuronas), comenzar el entrenamiento con unos pesos iniciales diferentes, modificar los parámetros de aprendizaje, modificar el conjunto de entrenamiento o presentar los patrones en otro orden.


FIN!

Engineering

RED NEURONAL ARTIFICIAL . I.A