34
ANTIPLAGIUM Experimentación Numérica

Experimentación Numérica

  • Upload
    gerda

  • View
    41

  • Download
    0

Embed Size (px)

DESCRIPTION

Experimentación Numérica. Antiplagium. Integrantes. Piere Cordero Patricia Natividad Gustavo Barrenechea Renzo Gómez Kim Alvarado. Agenda. Objetivo de la Experimentación Selección del Método Experimental Hipótesis Ejecución del Experimento Resultados Conclusiones. - PowerPoint PPT Presentation

Citation preview

Page 1: Experimentación Numérica

ANTIPLAGIUM

Experimentación Numérica

Page 2: Experimentación Numérica

Integrantes

Piere CorderoPatricia NatividadGustavo BarrenecheaRenzo GómezKim Alvarado

Page 3: Experimentación Numérica

Agenda

1. Objetivo de la Experimentación

2. Selección del Método Experimental

3. Hipótesis4. Ejecución del Experimento5. Resultados6. Conclusiones

Page 4: Experimentación Numérica

Objetivo de la Experimentación

Page 5: Experimentación Numérica

Objetivo

Encontrar el algoritmo más eficiente para la detección de plagio de documentos.

Comparar dos algoritmos según tiempo de ejecución y porcentaje de plagio.

Page 6: Experimentación Numérica

Algoritmos a Comparar

Secuencia de Maximales

Lenguaje Natural

Page 7: Experimentación Numérica

Factores Experimentales

Los factores elegidos para el análisis son:

El número de comparaciones entre documentos.

El tamaño de los documentos

Page 8: Experimentación Numérica

Variables de Respuesta

El porcentaje de plagio de un documento contra los documentos de la base de datos.

El tiempo de ejecución del algoritmo de detección de plagio.

Page 9: Experimentación Numérica

Selección del Método Experimental

Page 10: Experimentación Numérica

Método Experimental

Se utilizará el estadístico T-Student.

Análisis con la distribución Normal.

Análisis de las medias con desviación estándar conocidas

Page 11: Experimentación Numérica

Criterios de evaluación

Media muestral µ

Varianza muestral δ2

Page 12: Experimentación Numérica

T-student

Sirve para comparar medias de muestras independientes.

Su objetivo es demostrar por hipótesis una muestra es mejor que otra.

Trabaja con la media y la varianza.

Requiere saber si las varianzas son iguales o no.

Page 13: Experimentación Numérica

T-student

Alpha: Grado de confianza o de certeza.

Utilizaremos 95% como grado de certeza.

C: Punto crítico que separa la región a rechazar y la región de aceptación.

Page 14: Experimentación Numérica

T-student

Sean:

Si: Varianza muestral del algoritmo ig.l.: Grados de libertad (n1+n2-2)

y la fórmula para hallar el estadístico t:

Page 15: Experimentación Numérica

Hipótesis

Page 16: Experimentación Numérica

Hipótesis para el tiempo de ejecución

H0: X1 < X2 : "Secuencia de Maximales requiere un mayor tiempo de ejecución que Lenguaje Natural“

H1: X1 >= X2: " Lenguaje Natural requiere un mayor tiempo de ejecución que Secuencia Maximales ”

Siendo:X1: Media de tiempo de ejecución de Lenguaje Natural.X2: Media de tiempo de ejecución de Secuencia Maximales.

Page 17: Experimentación Numérica

Hipótesis para el porcentaje de plagio

H0: X1 < X2 : "Secuencia de Maximales detecta mayor porcentaje de plagio que Lenguaje Natural“

H1: X1 >= X2: " Lenguaje Natural detecta mayor porcentaje de plagio que Secuencia Maximales ”

Siendo:X1: Media de porcentaje de Lenguaje Natural.X2: Media de porcentaje de plagio de Secuencia Maximales.

Page 18: Experimentación Numérica

Ejecución del Experimento

Page 19: Experimentación Numérica

Muestra de ejecución

Datos Utilizados.

Ejecución del algoritmo Secuencia Maximales.

Ejecución del algoritmo Lenguaje Natural.

Page 20: Experimentación Numérica

Datos utilizados

50 documentos de extensión .txt que serán comparados cada uno contra la los 49 restantes.

Page 21: Experimentación Numérica

Ejecución del Experimento

Page 22: Experimentación Numérica

Para los tiempo de ejecución

Secuencia Maximales Lenguaje NaturalItem Nro. Documento a comparar contra la BD Tiempo proceso (ms) Tiempo proceso (ms)

1 algoritmos.TXT 19262 6862 Arte evaluacion.txt 1592 1863 Articulo PLN V0.txt 44828 36174 Articulo PLN V1.txt 35136 15605 Articulo SRI internet.txt 82660 2656 Articulo SRI REVISTA.txt 7943 3667 Articulo SRI V1.txt 76794 38538 Articulo SRI V2.txt 92471 22319 Articulo SRI V3.txt 33925 2980

10 Articulo SRI.txt 52088 385311 Biometria wikipedia.txt 14351 29712 Biometria.TXT 14066 32813 CLEI 2007.txt 46217 285514 Compresion internet.txt 38987 60815 CompresionV0.txt 24530 46816 CompresionV1.txt 24048 92017 CompresionV2.txt 45116 96718 CompresionV3.txt 78221 227819 CompresionV4.txt 107678 337020 CompresionV5.txt 86935 255821 Cuadro de Mando Integral.TXT 6938 53122 Desenredadndo la madeja V1.txt 1829 26523 Desenredadndo la madeja V2.txt 4243 1716

24 Diagnostico tuberculosis Procesamiento.TXT 32074 92025 Espacio vectorial V0.txt 56375 1263

Page 23: Experimentación Numérica

Para los tiempo de ejecución

Secuencia Maximales Lenguaje Natural

Item Nro. Documento a comparar contra la BD Tiempo proceso (ms) Tiempo proceso (ms)

26 Espacio vectorial V1.txt 14266 968

27 Espacio vectorial V2.txt 31406 702

28 Espacio vectorial V3.txt 17531 171

29 Espacio vectorial V4.txt 14485 156

30 Espacio vectorial V6.txt 16015 702

31 Evaluacion VAN RIJSBERGEN.txt 12594 686

32 Formato articulos CLEI.txt 7125 94

33 Informe final SRI.txt 138969 2496

34 introducci¢n a los sistemas de recuperaci¢n de informaci¢n.txt 24906 6162

35 Motor de B£squeda 1.TXT 50172 1872

36 Motores de busqueda 2.TXT 34891 749

37 Reconocimiento de voz 1.TXT 4187 796

38 Reconocimiento de voz 2.TXT 3219 1653

39 Reconocimiento de voz wikipedia.txt 31164 234

40 Reconocimiento de voz.TXT 16359 1295

41 Recuperacion de informacion.txt 24812 4290

42 SegmentacionV1.txt 58796 1295

43 SegmentacionV2.txt 52422 1326

44 SegmentacionV3.txt 42063 1202

45 SegmentacionV4.txt 56578 1358

46 SegmentacionV5.txt 62375 1606

47 SegmentacionV6.txt 78219 2777

48 SegmentacionV7.txt 94219 2667

49 SegmentacionV8.txt 97938 2621

50 Sistema Experto.TXT 45234 1497

Page 24: Experimentación Numérica

Comparación de tiempo de ejecuciónD

ocum

ento

a c

ompa

rar

cont

ra la

BD

algo

ritm

os.T

XTAr

te e

valu

acio

n.tx

tAr

ticul

o PL

N V

0.tx

tAr

ticul

o PL

N V

1.tx

tAr

ticul

o SR

I int

erne

t.txt

Artic

ulo

SRI R

EVIS

TA.tx

tAr

ticul

o SR

I V1.

txt

Artic

ulo

SRI V

2.tx

tAr

ticul

o SR

I V3.

txt

Artic

ulo

SRI.t

xtB

iom

etri

a w

ikip

edia

.txt

Bio

met

ria.

TXT

CLE

I 200

7.tx

tC

ompr

esio

n in

tern

et.tx

tC

ompr

esio

nV0.

txt

Com

pres

ionV

1.tx

tC

ompr

esio

nV2.

txt

Com

pres

ionV

3.tx

tC

ompr

esio

nV4.

txt

Com

pres

ionV

5.tx

tC

uadr

o de

Man

do In

tegr

al.T

XTD

esen

reda

dndo

la m

adej

a V1

.txt

Des

enre

dadn

do la

mad

eja

V2.tx

tD

iagn

ostic

o tu

berc

ulos

is P

roce

-sa

mie

nto.

TXT

Espa

cio

vect

oria

l V0.

txt

Espa

cio

vect

oria

l V1.

txt

Espa

cio

vect

oria

l V2.

txt

Espa

cio

vect

oria

l V3.

txt

Espa

cio

vect

oria

l V4.

txt

Espa

cio

vect

oria

l V6.

txt

Eval

uaci

on V

AN R

IJSB

ERG

EN.tx

tFo

rmat

o ar

ticul

os C

LEI.t

xtIn

form

e fin

al S

RI.t

xtin

trod

ucci

¢n a

los

sist

emas

de

re-

cupe

raci

¢n d

e in

form

aci¢

n.tx

tM

otor

de

B£s

qued

a 1.

TXT

Mot

ores

de

busq

ueda

2.T

XTR

econ

ocim

ient

o de

voz

1.T

XTR

econ

ocim

ient

o de

voz

2.T

XTR

econ

ocim

ient

o de

voz

wik

iped

ia.tx

tR

econ

ocim

ient

o de

voz

.TXT

Rec

uper

acio

n de

info

rmac

ion.

txt

Segm

enta

cion

V1.tx

tSe

gmen

taci

onV2

.txt

Segm

enta

cion

V3.tx

tSe

gmen

taci

onV4

.txt

Segm

enta

cion

V5.tx

tSe

gmen

taci

onV6

.txt

Segm

enta

cion

V7.tx

tSe

gmen

taci

onV8

.txt

Sist

ema

Expe

rto.

TXT

Item

Nro.

1 2 3 4 5 6 7 8 9 10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

0

20000

40000

60000

80000

100000

120000

140000

160000

Secuencia MaximalesLenguaje Natural

Page 25: Experimentación Numérica

Para el porcentaje de detección de plagio

Secuencia Maximales

Lenguaje Natural

Item Nro. Documento a comparar contra la BD Porcentaje de plagio (%)

Porcentaje de plagio (%)

1 algoritmos.TXT 41 52 Arte evaluacion.txt 71 913 Articulo PLN V0.txt 70 534 Articulo PLN V1.txt 100 975 Articulo SRI internet.txt 100 316 Articulo SRI REVISTA.txt 55 867 Articulo SRI V1.txt 98 928 Articulo SRI V2.txt 99 969 Articulo SRI V3.txt 100 97

10 Articulo SRI.txt 96 9711 Biometria wikipedia.txt 41 812 Biometria.TXT 39 613 CLEI 2007.txt 53 714 Compresion internet.txt 39 615 CompresionV0.txt 100 10016 CompresionV1.txt 100 10017 CompresionV2.txt 100 10018 CompresionV3.txt 100 9719 CompresionV4.txt 81 6620 CompresionV5.txt 98 8521 Cuadro de Mando Integral.TXT 34 022 Desenredadndo la madeja V1.txt 46 023 Desenredadndo la madeja V2.txt 34 8

24Diagnostico tuberculosis Procesamiento.TXT 31 5

25 Espacio vectorial V0.txt 56 4

Page 26: Experimentación Numérica

Para el porcentaje de detección de plagio

Secuencia Maximales Lenguaje Natural

Item Nro. Documento a comparar contra la BD Porcentaje de plagio (%)

Porcentaje de plagio (%)

26 Espacio vectorial V1.txt 68 6527 Espacio vectorial V2.txt 68 2228 Espacio vectorial V3.txt 96 7229 Espacio vectorial V4.txt 75 3430 Espacio vectorial V6.txt 60 3331 Evaluacion VAN RIJSBERGEN.txt 13 032 Formato articulos CLEI.txt 23 033 Informe final SRI.txt 44 4

34introducci¢n a los sistemas de recuperaci¢n de informaci¢n.txt 96 57

35 Motor de B£squeda 1.TXT 60 2236 Motores de busqueda 2.TXT 40 337 Reconocimiento de voz 1.TXT 69 8638 Reconocimiento de voz 2.TXT 90 1139 Reconocimiento de voz wikipedia.txt 56 040 Reconocimiento de voz.TXT 39 7141 Recuperacion de informacion.txt 98 7242 SegmentacionV1.txt 99 9143 SegmentacionV2.txt 96 9644 SegmentacionV3.txt 98 9745 SegmentacionV4.txt 98 9746 SegmentacionV5.txt 96 9447 SegmentacionV6.txt 99 9248 SegmentacionV7.txt 100 9649 SegmentacionV8.txt 99 9550 Sistema Experto.TXT 38 1

Page 27: Experimentación Numérica

Comparación de porcentaje de detección de plagio

Doc

umen

to a

com

para

r co

ntra

la B

Dal

gori

tmos

.TXT

Arte

eva

luac

ion.

txt

Artic

ulo

PLN

V0.

txt

Artic

ulo

PLN

V1.

txt

Artic

ulo

SRI i

nter

net.t

xtAr

ticul

o SR

I REV

ISTA

.txt

Artic

ulo

SRI V

1.tx

tAr

ticul

o SR

I V2.

txt

Artic

ulo

SRI V

3.tx

tAr

ticul

o SR

I.txt

Bio

met

ria

wik

iped

ia.tx

tB

iom

etri

a.TX

TC

LEI 2

007.

txt

Com

pres

ion

inte

rnet

.txt

Com

pres

ionV

0.tx

tC

ompr

esio

nV1.

txt

Com

pres

ionV

2.tx

tC

ompr

esio

nV3.

txt

Com

pres

ionV

4.tx

tC

ompr

esio

nV5.

txt

Cua

dro

de M

ando

Inte

gral

.TXT

Des

enre

dadn

do la

mad

eja

V1.tx

tD

esen

reda

dndo

la m

adej

a V2

.txt

Dia

gnos

tico

tube

rcul

osis

Pro

cesa

mie

nto.

TXT

Espa

cio

vect

oria

l V0.

txt

Espa

cio

vect

oria

l V1.

txt

Espa

cio

vect

oria

l V2.

txt

Espa

cio

vect

oria

l V3.

txt

Espa

cio

vect

oria

l V4.

txt

Espa

cio

vect

oria

l V6.

txt

Eval

uaci

on V

AN R

IJSB

ERG

EN.tx

tFo

rmat

o ar

ticul

os C

LEI.t

xtIn

form

e fin

al S

RI.t

xtin

trod

ucci

¢n a

los

sist

emas

de

recu

pera

ci¢n

de

info

rmac

i¢n.

txt

Mot

or d

e B

£squ

eda

1.TX

TM

otor

es d

e bu

sque

da 2

.TXT

Rec

onoc

imie

nto

de v

oz 1

.TXT

Rec

onoc

imie

nto

de v

oz 2

.TXT

Rec

onoc

imie

nto

de v

oz w

ikip

edia

.txt

Rec

onoc

imie

nto

de v

oz.T

XTR

ecup

erac

ion

de in

form

acio

n.tx

tSe

gmen

taci

onV1

.txt

Segm

enta

cion

V2.tx

tSe

gmen

taci

onV3

.txt

Segm

enta

cion

V4.tx

tSe

gmen

taci

onV5

.txt

Segm

enta

cion

V6.tx

tSe

gmen

taci

onV7

.txt

Segm

enta

cion

V8.tx

tSi

stem

a Ex

pert

o.TX

T

Item

Nro.

1 2 3 4 5 6 7 8 9 10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

0

20

40

60

80

100

120

Secuencia MaximalesLenguaje Natural

Page 28: Experimentación Numérica

Resultados

Page 29: Experimentación Numérica

Resultados para el tiempo de ejecución

SECUENCIA MAXIMALES LENGUAJE NATURAL gl

n 50 50 98

Media 41165.04 1566.32

S 32052.89694 1310.19272

t = -8.7274 Rechazo Ho Si t > 1.9845 "Como t = -8.7274 < 1.9845 se acepta Ho"

Page 30: Experimentación Numérica

Resultados para porcentaje de plagio

SECUENCIA MAXIMALES LENGUAJE NATURAL gl

n 50 50 98

Media 72 52.96

S 27.34436479 40.8870819

t = -2.7371 Rechazo Ho Si t > 1.9845

"Como t = -2.731 < 1.9845 se acepta Ho"

Page 31: Experimentación Numérica

Conclusiones

Page 32: Experimentación Numérica

Conclusiones

Se acepta la Hipótesis nula para el tiempo de ejecución, es decir el algoritmo de Secuencias Maximales requiere de un mayor tiempo de ejecución que el algoritmo Lenguaje Natural

Se acepta la Hipótesis nula para el porcentaje de detección de plagio, es decir el algoritmo de Secuencias Maximales detecta mayor porcentaje de plagio frente al algoritmo de Lenguaje Natural.

Page 33: Experimentación Numérica

Bibliografía

Page 34: Experimentación Numérica

Bibliografía

Estadística Descriptiva e Inferencial Córdova Zamora, Manuel (2003)