Calculo basado en la frecuencia y aparicion de una palabra
EL calculo se basa en la creencia de que un documento pertenece a una materia determinada en vez de a otra dependiendo de las palabras y frecuencia de aparicion de las mismas
Se extraen las palabras del texto del documento
0
2
4
6
8
10
12
14
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Serie1
Cada documento presenta un distribucion y aparicion de palabras diferente
0
2
4
6
8
10
12
14
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Serie1
0
1
2
3
4
5
6
7
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Serie1
Creacion de un corpus por materiaTexto a analizar
Texto desbrozado
2 Eliminar palabras vacias
1 Extrae palabras
3 Calcular frecuencia
4 Asignar a una materia
CREDITOSEste es un software para uso no comercial, para otros usos consulte las respectivas licencias
Utiliza el siguiente software de apoyo, integrandolo en la gestor de base de datos:
Exiftool para la extraccion de metadatos, ExifTool by Phil Harveyhttp://www.sno.phy.queensu.ca/~phil/exiftool/
Gettext para la extraccion de texto plano de documentos, Kryloff Technologies, Inc. http://www.kryltech.com/
Vbscript y Cscript para facilitar y optimizar el uso de programas externos y para extraer XML, URL y metadatos de paginas HTMLhttp://www.microsoft.com
La base de datos esta realizada con Velneo para trabajar sobre plataformas windows.http://www.velneo.comv
Flash charts Version 1.0 para generar graficos en flash Copyright (C) 2008, Juan Jesus G. Hinestrosa (soitu.es)http://www.soitu.es