13
Herramientas de Documentalistas Calculo de la Materia de un documento

Calculo De La Materia de Un Documento

Embed Size (px)

Citation preview

Herramientas de Documentalistas

Calculo de la Materia de un documento

Calculo de la Materia de un documento

Calculo basado en la frecuencia y aparicion de una palabra

EL calculo se basa en la creencia de que un documento pertenece a una materia determinada en vez de a otra dependiendo de las palabras y frecuencia de aparicion de las mismas

Se extraen las palabras del texto del documento

0

2

4

6

8

10

12

14

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Serie1

Cada documento presenta un distribucion y aparicion de palabras diferente

0

2

4

6

8

10

12

14

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Serie1

0

1

2

3

4

5

6

7

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Serie1

Creacion de un corpus por materiaTexto a analizar

Texto desbrozado

2 Eliminar palabras vacias

1 Extrae palabras

3 Calcular frecuencia

4 Asignar a una materia

Panel de control para creacion del corpus

Copiamos el texto elegido

Extraemos palabras y frecuencia

Eliminamos palabras vacias

Calculamos materia probable

Dos formas de valorar la pertenecia, por aparicion y por peso ponderado

Para mas informacion sobre las funciones de HDD vease: http://funciones.wordpress.com/

CREDITOSEste es un software para uso no comercial, para otros usos consulte las respectivas licencias

Utiliza el siguiente software de apoyo, integrandolo en la gestor de base de datos:

Exiftool para la extraccion de metadatos, ExifTool by Phil Harveyhttp://www.sno.phy.queensu.ca/~phil/exiftool/

Gettext para la extraccion de texto plano de documentos, Kryloff Technologies, Inc. http://www.kryltech.com/

Vbscript y Cscript para facilitar y optimizar el uso de programas externos y para extraer XML, URL y metadatos de paginas HTMLhttp://www.microsoft.com

La base de datos esta realizada con Velneo para trabajar sobre plataformas windows.http://www.velneo.comv

Flash charts Version 1.0 para generar graficos en flash Copyright (C) 2008, Juan Jesus G. Hinestrosa (soitu.es)http://www.soitu.es