View
8.972
Download
0
Category
Preview:
DESCRIPTION
Conferencia sobre el SEO y la semántica en Congreso Web Zaragoza. Microformatos, microdatos, ontologías etc.
Citation preview
Modelo clásico de indexación
Funcionamiento actual de los buscadores
Bases de datos de Google
G gle
Índice inverso
Precio, entrada, incluyen,conferencias,talleres,total, suman, horas, contenidos impartidos,4,salas,paralelas,ponentes, importante, networking, 500,asistentes España.
La búsqueda en el índice es muy fácil usando booleanos OR y AND
Meter todas las palabras en un saco no permite tener en cuenta las relaciones semánticas y sintácticas entre ellas.
Para mejorar este sistema se está trabajando en 2 líneas:
1.Entender las relaciones entre palabras (semántica)
2.Identificar grupos de palabras (sintaxis)
¿SEMÁNTICA?
Belén Esteban la caga con la cirugía estéticaBelén estaban ha intentado mejorar su cara y la ha cagado todavía más… su nariz parece de una adicta a la droga…http://www.exemple.com/answers/belen-esteban-321/
* La noticia es solo ejemplo y no es un contenido real
Resultados no relevantes
¿Porqué ocurre esto?
Falta de ontologías
una ontología define los términos que se usan para describir y representar un cierto dominio.
Objeto
Sujeto
Predicado
Estructura de una Ontología
El recurso que vayamos a describir
Propiedad o relación del sujeto
El Valor del sujeto o el otro objeto con el que se quiere establecer una relación
Congreso Web
reunión
charla
Ponentes
personas
expertos
4 de junio
SEO
buscadores
marketing
día
fecha
tiempo
ahora
actualmente
mes
hoy
Evento seo
conferenciaEsta semana
Ejemplo de una ontología
Congreso Web
reunión
charla
Ponentes
personas
expertos
4 de junio
SEO
buscadores
marketing
día
fecha
tiempo
ahora
actualmente
mes
hoy
Evento seo
conferenciaEsta semana
Ejemplo de una ontología
El buscador entenderá las relaciones entre palabras, y devolverá un resultado relevante
Congreso SEOProfesional
reunión
charla
Ponentes
personas
expertos
Miguel López
4 de junio
SEO
buscadores
marketing
día
fecha
tiempo
ahora
actualmente
mes
hoy
Evento
conferenciaEsta semana
Ejemplo de una ontología
SEO es marketing se lleva acabo en buscadoresConferencia se lleva a cabo en un eventoCongreso Web es un eventoCongreso Web habla de SEOsemana período de tiempo de siete días consecutivos4 de junio es hoyHoy forma parte de esta semanaCongreso Web es esta semana
Conferencia seo esta semana = Congreso Web
El problema es que necesitamos muchísimas
ontologías para que esto funcione.
Ontologías más usadas
1. FOAF (http://xmlns.com/foaf/0.1/): describiendo personas, las relaciones entre ellas y las cosas que crean y hacen.
2. Geospatial (http://www.w3.org/2003/01/geo/wgs84_pos#): describiendo la posición de los objetos.
3. DOAP (http://usefulinc.com/ns/doap#):Describiendo proyectos de software libre mediante RDF, y que así puedan ser procesados fácilmente de una manera automática.
4. GoodRelations es un vocabulario estándar para comercio electrónico.
5. RDFa
6. OWL
ETC…
RDF
RDFa
<div>Mi nombre es Roberto Sánchez, pero me llaman "Rober". Esta es mi página principal: <a href="http://www.example.com">www.example.com</a>.Vivo en Alcobendas (Madrid) y trabajo de ingeniero en ACME S.A.</div>
HTML sin RDF
RDFaHTML con RDFa
<div xmlns:v="http://rdf.data-vocabulary.org/#" typeof="v:Person"> Mi nombre es <span property="v:name">Roberto Sánchez</span>, pero me llaman <span property="v:nickname">Rober</span>. Esta es mi página principal: <a href="http://www.example.com" rel="v:url">www.example.com</a>. Vivo en Alcobendas (Madrid) y trabajo de <span property="v:title">ingeniero</span> en <span property="v:affiliation">ACME S.A.</span>.</div>
Declarar el NameSpace que vaymos a usar
RDFaHTML con RDFa http://rdf.data-vocabulary.org/#
<rdfs:Class rdf:ID="Person"><rdfs:comment>Represents a Person, living/dead/fictional.</rdfs:comment><rdfs:subClassOf rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Resource"/></rdfs:Class>
<rdf:Property rdf:ID="name"><rdfs:domain rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Resource"/></rdf:Property><rdf:Property rdf:ID="nickname"><rdfs:domain rdf:resource="#Person"/></rdf:Property><rdf:Property rdf:ID="photo"><rdfs:domain rdf:resource="http://www.w3.org/1999/02/22-rdf-syntax-ns#Resource"/></rdf:Property>
RDFaHTML con RDFa http://rdf.data-vocabulary.org/#
Postal-code
Adress
Postal-code
Street-adress
region
Country-name
RDFaHTML con RDFa http://rdf.data-vocabulary.org/#
Para visualizar Datos de archivos RDFa como http://rdf.data-vocabulary.org/#
Se puede usar
RDF Gravity 1.0
HTML5 y los microdatos
Mi nombre es Roberto Sánchez, pero me llaman "Rober". Esta es mi página principal: www.example.com.Vivo en Alcobendas (Madrid) y trabajo de ingeniero en ACME S.A.
Texto
<div>Mi nombre es Roberto Sánchez, pero me llaman "Rober". Esta es mi página principal: <a href="http://www.example.com">www.example.com</a>.Vivo en Alcobendas (Madrid) y trabajo de ingeniero en ACME S.A.</div>
HTML clásico
HTML enriquecido con Microdatos
<div itemscope itemtype="http://data-vocabulary.org/Person">
Mi nombre es <span itemprop="name">Roberto Sánchez</span>,
pero me llaman <span itemprop="nickname">Rober</span>. Esta es mi página principal: <a href="http://www.example.com" itemprop="url">www.example.com</a>. Vivo en Alcobendas (Madrid) y trabajo de <span itemprop="title">ingeniero</span> en <span itemprop="affiliation">ACME S.A.</span>.</div>
Microdatos http://data-vocabulary.org/Person
schema.orgschema.orgUna serie de microdatos esquemas que los Webmasters podrían utilizar para sus Páginas Web para mejorar su apariencia en buscadores, pactados por Google Yahoo y Bing
• Painting• Photograph• Recipe• Review• Sculpture• TVEpisode• TVSeason• TVSeries• WebPage• WebPageElement
• Event• Organization• Person• Place• Product• CreativeWork
• Article• Blog• Book• ItemList• Map• MediaObject• Movie• MusicPlaylist• MusicRecording
Si le estructuramos tanto nuestros datos, será posible que Agentes inteligentes como Google
accedan a nuestros datos, que las puedan
compartir, y presentar de la forma (diseño) que ellos quieran.
Posible impacto comercial
Interpretación de estructuras sintácticas
La separación de las palabras usando métodos estadísticos no permite identificar expresiones hechas o nombres de identidades.
• Tirar cohetes• Tocar los huevos• De puta madre • Dar la lata
Puta AND Madre
Puta OR MadrePuta Madre – estupendo - genial
El gran incendio de Chicago del siglo XX
Para ello tiene que entender bien las sintagmas.
Hay muchísimas posibles sintagmas:1.El gran incendio2.Chicago en el siglo XX3.El grán incendio de chicago del siglo XX
El gran incendio de Chicago del siglo XX
El video del incendio subido a facebook
Para entender los núcleos de las sintagmas Google estaría usando ya los llamados N-gramas:
N-gramas: se usan para procesar estadísticamente el lenguaje humano, y detectar las posibles sintagmas.
Unigramas: unidades de una sola palabraBigramas: unidades de dos palabrasTrigramas: unidades de tres palabras…
En 2006 Google proceso una base de datos de 1.024.908.267.229 palabras en inglés(Un archivo comprimido de 24 GB) y se ha encontrado:
Número de fichas: 1.024.908.267.229Número de frases: 95.119.665.584Número de unigramas: 13.588.391Número de bigramas: 314.843.401Número de trigramas: 977.069.902Número de fourgrams: 1.313.818.354Número de fivegrams: 1.176.470.663
Con la nueva infraestructura de Cafeine, probablemente esto ya esté en funcionamiento
El granGran incendioGran de chicagoDe chicago granChicago XXSiglo XX….
Comprar los resultados en un texto con otros resultados en otros documentos y calcular la probabilidad de aparición de un término determinado:
G-gramas Probabilidad de aparición
El gran SI
Gran incendio NO
Gran de chicago SI
De chicago gran NI
Siglo XX SI
… …
Con la nueva infraestructura de Cafeine, probablemente esto ya esté en funcionamiento
Implicaciones de los avances en la interpretación del lenguaje humano:
1.Usar siempre que podamos un etiquetado semántico
2.El orden en el que se escriben las palabras es importante, la presencia de las palabras clave de forma aislada no funcionará igual de bien.
3.Las preposiciones vuelven a ser importantes, los n-gramas los toman en cuenta para poder identificar el núcleo del sintagma.
4.La Relevancia supera a popularidad.
Recommended