Miguel Olivares y Leonardo Menezes
Introducción a
y Spring Data
(@moliware) (@leonardomenezes)
¿Qué es MongoDB?
• Base de datos orientada a documentos
• Sin esquema
• Escalable
• DB => Colección => Documento
¿Qué es una colección?
• Es un grupo de documentos.
• Se identifica con un nombre
• Es el “equivalente” a una tabla en un modelo relacional
¿Qué es un documento?
• Un conjunto de pares clave-valor
• Coloquialmente un “hash”, “map” o “dictionary”
• Formato BSON
Arquitectura
Consola
• Consola javascript completa
• Cliente MongoDB
¿Por qué MongoDB?
• Fácil escalabilidad
• Flexibilidad
• Alto rendimiento
• Consultas potentes
• MapReduce
Benchmark
(45 M de documentos)
Tiempo medio de inserción
Tamaño en disco
SolR 0.603(ms) 49 GB
CouchDB 0.297(ms) 43 GB
Cassandra 0.516(ms) 50 GB
MongoDB 0.040(ms) 43 GB
Introducción a Spring Data
¿Por que Spring Data?
• Mapeo/Conversión entre POJOs y docs MongoDB
• MongoTemplate
• Implementación automática de Repository(DAO)
• DSL basado en Java para Query, Criteria y Update
• Soporte a persistencia mixta(Cross-store persistance)
• Integración con GeoSpatial de Mongo
• Integración con Map Reduce de Mongo
• Administración y monitorización por JMX
Diseño de una aplicación
• Diseño de documentos
• Consultas de la aplicación
• Optimización de las consultas
Diseño de documentos
• Identificar tipos de documentos
• Separar cada tipo de documento en distintas colecciones
• Referenciar vs Duplicar
Diseño de documentos
• Identificar tipos de documentos
• Separar cada tipo de documento en distintas colecciones
• Referenciar vs Duplicar• Consistencia
• Consultas extras
• Inconsistencia
• Documento autodescriptivo
Documentos
_id
name
following
_id
text
date
user
geo
Usuario Tweet
Usuarios
• name : Nombre de usuario
• following: Array de referencias a usuarios
Tweets
• text : texto
• date : objeto Date de javascript.
• user: referencia al usuario
• geo: coordenadas
Modelo MongoDB
Modelo Relacional
Inserción de usuarios
var miguel = {"name" : "miguel", "following" : []}
db.user.save(miguel)
var leonardomenezes = {"name" : "leonardomenezes", "following" : [new DBRef("user", miguel._id)]}
db.user.save(leonardomenezes)
Inserción de Tweets
var tweet = {"text" : "Tweet ejemplo", "date" : new Date(),
"user" : new DBRef("user", leonardomenezes._id),
"geo" : { "x" : 1, "y" : 1 } }
db.tweet.save(tweet)
Actualización de documentos
• Update tipo SQL
• Posibilidad de upsert, es decir, si no existe lo crea
• Existen muchos “update modifiers” : $inc, $set, $unset, $push, $pushAll, $addToSet, $pop, $pull, $pullAll, $rename, $bit
Actualización de documentos
El usuario miguel ahora sigue a leonardomenezes:
var ref_leo = new DBRef("user", leonardomenezes._id)db.user.update({"name" : "miguel"}, {$push: {"following" : ref_leo}})
MongoDB Java Driver
public void ejemplo1() throws UnknownHostException, MongoException { Mongo mongo = new Mongo("localhost"); DB db = mongo.getDB("database"); db.dropDatabase(); DBCollection users = db.getCollection("users");
BasicDBObject usuario = new BasicDBObject(); usuario.put("nombre", "Marco Martinez"); users.insert(usuario);
BasicDBObject usuario2 = new BasicDBObject(); usuario2.put("nombre", "Leonardo Menezes"); usuario2.put("following", new DBRef(db, "users", usuario)); users.insert(usuario2); }
MongoTemplate
Mapeo/Conversión de POJO´s
Mapeo de los Documentos
@Document(collection = "tweets")public class Tweet {
private ObjectId id;
private String text;
private Date date;
@DBRef private User user;
private double[] coordinate;
... getters y constructor ...
@Document(collection = "users")public class User {
private ObjectId id; private String name;
@DBRef private Set<User> following;
... getters y constructor ...
Configuración de MongoTemplate
@Configurationpublic class AppConfig {
@Bean public Mongo mongo() throws UnknownHostException, MongoException {
return new Mongo("localhost"); }
@Bean public MongoTemplate mongoTemplate() throws UnknownHostException, MongoException { return new MongoTemplate(mongo(), "database"); }
}
Inserción con MongoTemplate
/** * Ejemplo sencillo de inserción */ private void ejemplo1() { User user = new User("Marco Martinez"); User user2 = new User("Alejandro Marqués"); User user3 = new User("Javier Alba"); mongoTemplate.save(user); logger.info("Users " + user + " saved"); mongoTemplate.save(user2); logger.info("Users " + user2 + " saved"); mongoTemplate.save(user3); logger.info("Users " + user3 + " saved");
user.follow(user2); mongoTemplate.save(user); logger.info("Users " + user + " updated");
}
INFO - Users User [id=4eb846971a8868b98ed3d7c3, name=Marco Martinez, following=0] savedINFO - Users User [id=4eb846971a8868b98ed3d7c4, name=Alejandro Marqués, following=0] savedINFO - Users User [id=4eb846971a8868b98ed3d7c5, name=Javier Alba, following=0] savedINFO - Users User [id=4eb846971a8868b98ed3d7c3, name=Marco Martinez, following=1] updated
Update Modifiers con Spring Data
/** * Ejemplo de acutalización */ public void ejemplo2() {
mongoTemplate.updateFirst(new Query(new Criteria("name").is("Marc Martinez")), new Update().set("name", "Marco Martinez"), User.class);
User user = mongoTemplate.findOne(new Query(new Criteria("name").is("Marco Martinez")), User.class); User user3 = mongoTemplate.findOne(new Query(new Criteria("name").is("Javier Alba")), User.class);
mongoTemplate.updateFirst(new Query(new Criteria("name").is("Marco Martinez")), new Update().addToSet("following", user3), User.class);
user = mongoTemplate.findOne(new Query(new Criteria("name").is("Marco Martinez")), User.class); logger.info("User found: " + user); }
INFO - User found: User [id=4eb84a0e1a885514a5745b2d, name=Marco Martinez, following=2]
Diseño de una aplicación
• Diseño de documentos
• Consultas de la aplicación
• Optimización de las consultas
Consultas en MongoDB
SELECT a,b FROM users db.users.find({}, {a:1,b:1})
SELECT * FROM users WHERE age=33 db.users.find({age:33})
SELECT * FROM users WHERE age=33 ORDER BY name db.users.find({age:33}).sort({name:1})
SELECT * FROM users WHERE age=33 ORDER BY nameLIMIT=10 OFFSET=0
db.users.find({age:33}).sort({name:1}).limit(10).skip(0)
Perfil de usuario
• Seguidores
• Mis tweets
Consultas - Seguidores
SELECT user_following.following_id FROM user, user_following
WHERE user.name = “leonardomenezes” AND
user.id = user_following.user_id
db.user.findOne({"name" : "leonardomenezes"}, {“following” : 1});
Consultas - Mis Tweets
select * from tweet where tweet.user_id=X order by date DESC
db.tweet.find({"user.$id" : X}).sort({'date' : -1})
Más consultas MongoDB
SELECT * FROM users WHERE age>33 db.users.find({age:{$gt:33}})
SELECT * FROM users WHERE name LIKE "Joe%" db.users.find({name:/^Joe/})
SELECT * FROM users WHERE a=1 or b=2 db.users.find({$or:[{a:1} ,{b:2}]})
SELECT COUNT(*) FROM users db.users.count()
Más operadores
• $where + código javascript
• $gt, $lt, $gte, $lte
• $all, $exists, $mod, $ne, $in, $nin, $nor, $or, $and, $size, $type .....
Timeline
SELECT * FROM tweet WHERE user_id = X OR user_id = ...... ORDER BY date
db.tweet.find({"user.$id" : {$in : ids}}).sort({'date' : -1})
MongoRepository(DAO)
• CRUD(CrudRepository)
• count, delete, deleteAll, exists, findOne, save...
• Paginación/Ordenación(PagingAndSortingRepository)
• Métodos de búsqueda dinámicos
Repositorios
count() Returns the number of entities available.
delete(ID id) Deletes the entity with the given id.
delete(Iterable<? extends T> entities) Deletes the given entities.
delete(T entity) Deletes a given entity.
deleteAll() Deletes all entities managed by the repository.
exists(ID id) Returns whether an entity with the given id exists.
findAll() Returns all instances of the type.
findOne(ID id) Retrives an entity by its primary key.
save(Iterable<? extends T> entities) Saves all given entities.
save(T entity) Saves a given entity.
findAll(Pageable pageable) Returns a Page of entities meeting the paging restriction provided in the Pageable object.
findAll(Sort sort) Returns all entities sorted by the given options.
UserRepository y TweetRepository
@Repositorypublic interface UserRepository extends MongoRepository<User, ObjectId> {
public User findByName(String name);
}
@Repositorypublic interface TweetRepository extends MongoRepository<Tweet, ObjectId> {
public List<Tweet> findByTextLike(String text);
public List<Tweet> findByDateLessThan(Date date);
@Query("{ 'user': {'$ref': 'users', '$id': { '$oid': ?0 } } }") public List<Tweet> findByUserId(String id);
}
Configuración de los Repositorios
<context:annotation-config />
<context:component-scan base-package="com.paradigmatecnologico" />
<mongo:repositories base-package="com.paradigmatecnologico" />
Inserción y Consulta con Repositorios
/** * Ejemplo de consultas con Repositorios */ public void ejemplo3() { User user = userRepository.findByName("Alejandro Marqués"); logger.info("User found:" + user);
tweetRepository.save(new Tweet("Hola mundo", new Date(), user, new double[] { 1.0, 0.1 }));
List<Tweet> tweets = tweetRepository.findByUserId(user.getId().toStringMongod()); logger.info("Found " + tweets.size() + " tweets");
List<Tweet> tweetsHola = tweetRepository.findByTextLike("Hola"); logger.info("Found " + tweetsHola.size() + " tweets");
}
INFO - User found:User [id=4eb84a0e1a885514a5745b2e, name=Alejandro Marqués, following=0]INFO - Found 1 tweetsINFO - Found 1 tweets
Customizando Repositoriospublic interface IAdvancedTweetRepository {
public List<Tweet> timeline(List<ObjectId> ids);
}
public class AdvancedTweetRepositoryImpl implements IAdvancedTweetRepository {
@Override public List<Tweet> timeline(List<ObjectId> ids) {
return mongoTemplate.find(new Query(new Criteria("user.$id").in(ids)), Tweet.class);}}
}
public interface TweetRepository extends MongoRepository<Tweet, ObjectId>, IAdvancedTweetRepository {
}
Consultando el Timeline
/** * Ejemplo de consulta timeline/repositorios customizados */ public void ejemplo4() { User user = userRepository.findByName("Marco Martinez"); List<ObjectId> following = new LinkedList<ObjectId>(); for (User currentFollowing : user.getFollowing()) { following.add(currentFollowing.getId()); } following.add(user.getId()); List<Tweet> tweets = tweetRepository.timeline(following); logger.info("Total tweets found: " + tweets.size()); }
Diseño de una aplicación
• Diseño de documentos
• Consultas de la aplicación
• Optimización de las consultas
Índices
• Son muy similares a los índices MySQL
• Un índice es un B-Tree
• Necesarios cuando necesitas ordenar
• Para hacer un campo único
Índices
• Optimiza el uso de memoria
• Son útiles cuando las consultas devuelven parte de los documentos
Índices de la aplicación
• db.tweet.ensureIndex({“user.$id” : 1 , “date” : -1})
• db.user.ensureIndex({“name” : 1}, {“unique” : true})
Índices en Spring Data
/** * Creando indices */ public void ejemplo5() { IndexDefinition nameIndex = new Index().on("name", Order.ASCENDING).unique(Duplicates.DROP); mongoTemplate.ensureIndex(nameIndex, User.class);
GeospatialIndex geoIndex = new GeospatialIndex("coordinates"); mongoTemplate.ensureIndex(geoIndex, Tweet.class); }
Temas Avanzados
• Geolocalización
• Trending Topics
• Retweets
Geolocalización
• Requiere un índice especial
• El campo tiene que tener el formato:
• {“x” : 2, “y” : 3}
• [2, 3]
• {“latitude” : 2, “longitude” : 3}
Geolocalización
• db.tweet.ensureIndex({“geo” : “2d”})
• db.tweet.find({“geo” : {“$near” : [1,0]}}).limit(10)
• db.tweet.find({“geo” : {“$within” : {“$center” : [{‘x’ : 0, ‘y’ : 0},5]}}})
Geolocalización en Spring Data
/** * Busquedas Geo */ public void ejemplo6() { List<Tweet> tweets = mongoTemplate.find(new Query(new Criteria("coordinate")
.within(new Circle(3.0, 3.0, 5))), Tweet.class); logger.info("Tweets found: " + tweets.size());
tweets = mongoTemplate.find(new Query(new Criteria("coordinate").within(new Circle(3.0, 3.0, 1))), Tweet.class);
logger.info("Tweets found: " + tweets.size()); }
INFO - Tweets found: 3INFO - Tweets found: 0
Trending Topics
• Repeticiones de cadenas de palabras
• Analizar los tweets de la última hora
MapReduce
• “MapReduce is the Uzi of aggregation tools”
• Proceso en background
• Dos pasos: map y reduce ( y finalize)
Map
• Procedimiento que se ejecuta una vez sobre cada documento.
• Cada map emite 0 o más pares clave, valor
Reduce
• Procedimiento que se ejecuta una vez por cada clave
• La entrada es la clave y la lista de valores que fueron emitidas con esa clave
• La salida puede ser cualquier estructura de datos
Finalize
• Se ejecuta justo antes de guardar los resultados
• Útil para construir un resultado final, borrar elementos redundantes, etc
Resultado
• El resultado final se almacena en una colección
• Documentos con el formato:
{ _id : clave_emitida, value: resultado_reduce}
Map
var map = function() { var words = this.text.split(" ");
for (var i = 0; i < words.length; i += 1){ for (var j = i; j < words.length; j += 1){ // Slice [inclusive, exclusive) sub_words = words.slice(i, j + 1); sub_sentence = sub_words.join(" "); emit(sub_sentence, sub_words.length * sub_words.length); } }};
Map
Entrada:
{ text : “hola que tal”}
Se emite:
hola, 1 hola que, 4 hola que tal, 9 que tal, 4 que, 1 tal, 1
Reduce
var reduce = function(key, emits) { var score = 0; for (var i in emits){ score += emits[i]; } return score;};
Ejecución
Ejecución:
db.tweet.mapReduce(map, reduce, {"out" : "TTs"})
Consulta:
db.TTs.find().sort({value: -1}).limit(10)
Finalize
• Reducir de palabras (preposiciones, conjunciones, etc)
• Filtrado de trending topics que están contenidos en otros
Map Reduce Spring Data /** * Ejemplo de MapReduce */ public void ejemplo7() { MapReduceOptions opts = new MapReduceOptions(); opts.outputCollection("TT"); opts.limit(15); MapReduceResults<TrendingTopic> results = mongoTemplate.mapReduce("tweets", "classpath:map.js", "classpath:reduce.js", opts, TrendingTopic.class); }
Map Reduce Spring Data
@Document(collection = "TT")public class TT {
@Id private String id;
private float value;
}
@Repositorypublic interface TrendingTopicRepository extends MongoRepository<TT, String> {
}
/** * Consultando resultado del MapReduce */ public void ejemplo8() { Page<TT> tt = trendingTopicRepository.findAll(new PageRequest(0, 10, new Sort(Direction.DESC, "value"))); logger.info("Trending topics found: " + tt.getNumberOfElements()); }
Retweets
• En twitter es un poco caótico (RT, via ...)
• Insertar tweet indicando que es un retweet haciendo referencia al tweet original
• Modificar el tweet original para llevar una cuenta de retweets
Otros usos en aplicaciones
• Analytics
• Logs
• Minería de twitter
¿Preguntas?
???? ?
??
Referencias
• MongoDB: The definitive guide
• 50 Tips and Tricks for MongoDB Developers
• Spring Data MongoDB
• Código de los ejemplos Spring Data