49
BASE DE DATOS MARIA INES CAHUANA LAZARO

bases de datos ayer y hoy

Embed Size (px)

Citation preview

Page 1: bases de datos ayer y hoy

BASE DE DATOS

MARIA INES CAHUANA LAZARO

Page 2: bases de datos ayer y hoy

PARA EMPEZAR, UNA BREVE EXPLICACIÓN

Durante las décadas de los 60 y 70 surge el concepto de las bases de datos; sin embargo, el objetivo principal siempre ha sido la administración óptima de la información y el uso que se le puede dar a la misma.

Hoy, las necesidades de las empresas han cambiado y la necesidad de interactuar con diversas fuentes de información ha desafiado a las bases de datos.Los volúmenes de información han crecido es estos últimos tiempos, así los tiempos de respuesta para analizar la información y tomar decisiones debe ser inmediata.

Viendo el

pasado

Page 3: bases de datos ayer y hoy

LO QUE SE DEBE ENTENDERNo nos encerremos en tablas y consultas SQL, existe mucho más que eso, pues hoy en día tenemos más de una solución para el manejo de datos e información…

No vamos a ser

expertos en bases de

datos, pero es

importante saber

acerca de ello, es

necesario saber de

los conceptos

actuales…

Page 4: bases de datos ayer y hoy

De una manera simple, es un contenedor que permite almacenar la información de forma ordenada con diferentes propósitos y usos. Por ejemplo, en una base de datos se puede almacenar información de diferentes departamentos (Ventas, Recursos Humanos, Inventarios, entre otros). El almacenamiento de la información por sí sola no tiene un valor, pero si combinamos o relacionamos la información con diferentes departamentos nos puede dar valor. (INFORMACIÓN)

¿Qué es una base de datos?

Page 5: bases de datos ayer y hoy

Tipos de bases de datosExisten muchas empresas con diferentes giros y dependiendo del giro será el tipo de procesamiento que se le dará a la información, esto determinará el tipo de base de datos a utilizar.Existen diferentes tipos de bases de datos pero las más comunes son las OLTP y OLAP.En pocas palabras las bases de datos pueden clasificarse de varias maneras, de acuerdo al contexto que se esté manejando, o la utilidad de la misma.

Page 6: bases de datos ayer y hoy

OLTPOLTP (On Line Transaction Processing) también son llamadas bases de datos dinámicas lo que significa que la información se modifica en tiempo real, es decir, se insertan, se eliminan, se modifican y se consultan datos en línea durante la operación del sistema.

Page 7: bases de datos ayer y hoy

OLAPLas bases de datos de tipo OLAP (On Line Analytical Processing) también son llamadas bases de datos estáticas lo que significaque la información en tiempo real no es afectada, es decir, no se insertan, no se eliminan y tampoco se modifican datos; solo se realizan consultas sobre los datos ya existentes para el análisis y toma de decisiones.

Page 8: bases de datos ayer y hoy

Tipo de información que se puede almacenar

Cuando surgen las bases de datos el tipo de información que se podía almacenar era de tipo estructurada. La información es almacenada en un objeto llamado “Tabla” la cual nos permite organizar la información. Los tipos de datos que se pueden almacenar son diversos, pero los más comunes son de tipo Numérico, Decimales y tipo Texto. Conforme han evolucionado las bases de datos se han expandido los tipos de datos que pueden almacenar. Por mencionar algunos tipos están los CLOB (Character Large Object) y BLOB (Binary Large Object).CLOB son utilizados para almacenar documentosBLOB para almacenar una imagen o videoOtro tipo de dato relevante hoy en día es el tipo de dato XML. Este es un tipo de dato jerárquico porque parte de un nodo inicial o raíz, y a su vez puede tener ‘n’ niveles y subniveles.

Page 9: bases de datos ayer y hoy

Información a través del tiempoCuando se crea una base de datos y se inicia su operación el volumen de la información es mínima y el desempeño de la aplicación y base de datos es óptima. Sin embargo conforme pasa el tiempo el volumen de información incrementa y en consecuencia surgen los siguientes problemas:1. Problemas de espacio en disco.2. Incrementos de costo en almacenamiento y

procesamiento.3. Problemas de desempeño en las consultas.4. Fallas en el aplicativo afectando la disponibilidad de los

datos.5. Problemas con la base de datos y la pérdida de

información.

Page 10: bases de datos ayer y hoy

Y QUÉ TIPOS DE BASES DE DATOS EXISTEN??

Al igual que los carros, televisores y demás, existe diferentes tipos y variantes, así que tenemos diferentes tipos de bases de datos que pueden ser clasificados según la variabilidad pero también se las puede clasificar de acuerdo a su modelo de administración de datos.

Page 11: bases de datos ayer y hoy

Según la variabilidad de los datos almacenados:

• Bases De Datos Estáticas:Estas son bases de datos de solo lectura, utilizadas primordialmente para almacenar datos históricos que posteriormente se pueden utilizar para estudiar el comportamiento de un conjunto de datos a través del tiempo, realizar proyecciones y tomar decisiones.• Bases De Datos Dinámicas:Estas son bases de datos donde la información almacenada se modifica con el tiempo, permitiendo operaciones como actualización, borrado y adición de datos, además de las operaciones fundamentales de consulta.

Page 12: bases de datos ayer y hoy

Modelos De Bases De DatosUn modelo de datos es básicamente una "descripción" de algo conocido como contenedor de datos (algo en donde se guarda la información), así como de los métodos para almacenar y recuperar información de esos contenedores.Los modelos de datos no son cosas físicas: son abstracciones que permiten la implementación de un sistema eficiente de base de datos; por lo general se refieren a algoritmos, y conceptos matemáticos.

Esto es algo físico, se ve, se toca, etc…

ABSTRAER

Esto lo entiende la

máquina, son datos

almacenados

INFORMACIÓN

Page 13: bases de datos ayer y hoy

MODELOS DE BASES DE DATOS• Bases De Datos Jerárquicas:Éstas son bases de datos que, como su nombre indica, almacenan su información en una estructura jerárquica. En este modelo los datos se organizan en una forma similar a un árbol (visto al revés), en donde un nodo padre de información puede tener varios hijos. El nodo que no tiene padres es llamado raíz, y a los nodos que no tienen hijos se los conoce como hojas.

PADRE

HIJO HIJO HIJO

HIJO

Page 14: bases de datos ayer y hoy

MODELOS DE BASES DE DATOS• Base De Datos De Red:Éste es un modelo ligeramente distinto del jerárquico; su diferencia fundamental es la modificación del concepto de nodo: se permite que un mismo nodo tenga varios padres (posibilidad no permitida en el modelo jerárquico).

• Bases De Datos Transaccionales:Son bases de datos cuyo único fin es el envío y recepción de datos a grandes velocidades, estas bases son muy poco comunes y están dirigidas por lo general al entorno de análisis de calidad, datos de producción e industrial, es importante entender que su fin único es recolectar y recuperar los datos a la mayor velocidad posible.

Page 15: bases de datos ayer y hoy

MODELOS DE BASES DE DATOS

• Bases De Datos Relacionales:Éste es el modelo utilizado en la actualidad para modelar problemas reales y administrar datos dinámicamente. Estas relaciones podrían considerarse en forma lógica como conjuntos de datos llamados "tuplas". Pese a que ésta es la teoría de las bases de datos relacionales creadas por Codd.

• Bases De Datos Multidimensionales:Son bases de datos ideadas para desarrollar aplicaciones muy concretas, como creación de cubos olap Básicamente no se diferencian demasiado de las bases de datos relacionales.

Page 16: bases de datos ayer y hoy

MODELOS DE BASES DE DATOS

• Bases De Datos Orientadas a Objetos:trata de almacenar en la base de datos los objetos completos (estado y comportamiento).Una base de datos orientada a objetos es una base de datos que incorpora todos los conceptos importantes del paradigma de objetos:

Encapsulación Herencia Polimorfismo

En bases de datos orientadas a objetos, los usuarios pueden definir operaciones sobre los datos como parte de la definición de la base de datos.

Page 17: bases de datos ayer y hoy

MODELOS DE BASES DE DATOS• Bases De Datos Documentales:Permiten la indexación a texto completo, y en líneas generales realizar búsquedas más potentes. Tesaurus es un sistema de índices optimizado para este tipo de bases de datos.

• Bases De Datos Deductivas:Es un sistema de base de datos pero con la diferencia de que permite hacer deducciones a través de inferencias. Se basa principalmente en reglas y hechos que son almacenados en la base de datos. Las bases de datos deductivas son también llamadas bases de datos lógicas, a raíz de que se basa en lógica matemática.

Page 18: bases de datos ayer y hoy

AHORA QUE SABEMOS MÁS DE BASES DE DATOS…..

Pensemos un poco, la información a crecido mucho, la capacidad de almacenar más y más datos se hiso

necesaria, hoy existe muchas soluciones,

para ello analizaremos algunos

conceptos…

Page 19: bases de datos ayer y hoy

¿Qué es HADR?Sus siglas en inglés significan High Availability Disaster Recovery. Es una característica de replicación de datos que brinda una solución de Alta Disponibilidad cuando surge una falla parcial o total en uno de los servidores principales. Es una solución que soporta un Servidor como Primario y hasta tres Servidores como Secundarios.La replicación de la información se hace a través de los archivos log de transacciones.

Page 20: bases de datos ayer y hoy

¿Qué es PureScale?Es una arquitectura basada en Clúster. Un Clúster es un conjunto de varios ordenadores unidos por una red de alta velocidad, de tal forma que es visto como un solo computador más potente. • Sirve para sistemas 24/7• Agrega y quita miembros fácilmente• El núcleo del sistema es una arquitectura de disco compartido

Page 21: bases de datos ayer y hoy

¿Qué es DPF (Data Partitioning Feature)?

Es una característica de DB2, la cual permite hacer el particionamiento de base de datos. Con esta característica se mejora el desempeño y la escalabilidad de grandes bases de datos. Cuando existen grandes volúmenes de información en una base de datos, esta es una de las soluciones a implementar

Page 22: bases de datos ayer y hoy

¿Qué es DPF (Data Partitioning Feature)?

En un ambiente DPF los registros de cada tabla son distribuidos en las diferentes particiones (DB2 utiliza un algoritmo para determinar en qué partición deberá estar la información). DPF es una característica de escalabilidad.

Page 23: bases de datos ayer y hoy

¿Qué es Table Partitioning?Es el mismo concepto que DPF solo que esto aplica para tablas dentro de una base de datos, es decir, es el particionamiento de los datos de una tabla en un subconjunto de datos.En la mayoría de los casos las bases de datos conservan información de muchos años atrás (históricos) lo que provoca que al ejecutar consultas sobre esa tabla el desempeño se vea afectado y el consumo de los recursos sea mucho mayor.

Page 24: bases de datos ayer y hoy

¿Qué es MDC (Multi-Dimension Clustering)?

Proporciona un método elegante para permitir que los datos de una tabla puedan ser agrupados físicamente en varias dimensiones simultáneamente de una manera flexible y automática. Esto puede mejorar mucho el desempeño de las consultas.Similar a DPF el motor de la base de datos consultará segmentos específicos de datos incrementando el desempeño en las consultas.

Page 25: bases de datos ayer y hoy

¿Qué es la Compresión de datos?Es básicamente la reducción del volumen de información utilizando la menor cantidad posible de espacio. Hay muchas técnicas y algoritmos que se han implementando en las bases de datos.1. Compresión de registros.2. Compresión de tablas.3. Compresión de Índices.4. Compresión de tablas temporales.5. Compresión de objetos e imágenes.6. Compresión de documentos XML.7. Compresión de Log de transacciones.8. Compresión de backup.

Page 26: bases de datos ayer y hoy

¿Qué es un Data Warehouse?Es un almacén de datos que es utilizado para explotar grandes volúmenes de información (entre ellos información histórica) para efectos de análisis que ayuden a la toma de decisiones en las grandes empresas.Las bases de datos orientadas a Data Warehouse no contienen datos actuales, es decir, no es una base de datos transaccional OLTP, es un tipo de base de datos OLAP.Con las nuevas necesidades y el avance tecnológico se han modificado las bases de datos y también se han creado nuevas arquitecturas de solución .. Para hacer la integración de la información se requieren de herramientas que nos permitan hacer la concentración de la información en el Data Warehouse. Las herramientas son variadas y existen diferentes proveedores, estas son conocidas como herramientas ETL.

Page 27: bases de datos ayer y hoy

¿Qué es un ETL?Sus siglas en inglés significan Extract Transform Load. Extract es el proceso de extraer la información que puede venir de diferentes fuentes de datos o bases de datos de distintos proveedores.

Una herramienta que ayuda en este tipo de actividades es el producto de IBM InfoSphere DataStage.http://www-03.ibm.com/software/products/en/ibminfodata/

Page 28: bases de datos ayer y hoy

¿Qué es un Data Mart?• Es simplemente un subconjunto de datos de un Data

Warehouse para un área específica.

• Los Data Mart nos permiten hacer una separación de los datos para funciones específicas, usuarios específicos y áreas específicas.

• La información que alimenta a un Data Mart también pueden provenir de una base datos transaccional.

Page 29: bases de datos ayer y hoy

¿Qué modelo de datos se utiliza en un Data Warehouse o Data

Mart?• Los bases de datos para Data Warehouse o Data Mart manejan muchos volúmenes de información y dependiendo del diseño de cada una de estas, los datos ya estarán calculados o precalculados lo que permite que los tiempos de respuestas sean mucho mejor.

• Uno de los modelos comúnmente utilizados es el modelo Star Schema o un esquema en estrella.

• Un esquema en estrella es aquel que tiene una tabla de hechos también llamada Fact Table y alrededor sus dimensiones.

• Las dimensiones están relacionadas a la tabla de hechos a través de una llave primaria.

• Este tipo de esquema es ideal para bases de datos de tipo OLAP y Data Mart por su simplicidad y la velocidad para hacer análisis.

Page 30: bases de datos ayer y hoy

Informix Warehouse Accelerator - IWA

Sus siglas en inglés son Informix Warehouse Accelerator el cual es un optimizador de cargas de trabajo que permite la integración en los procesos operacionales para conducir estrategias ganadoras. Acelera las consultas con tiempos de respuestas sin precedentes. El IWA es una tecnología de vanguardia para mejorar el performance y ofrece las siguientes capacidades:1. Compresión extrema necesaria porque la memoria RAM

es el factor limitante.2. Base de datos por renglón para cargas de datos

transaccionales (OLTP) y por Columna para accesar a datos vía el acelerador para OLAP.

Page 31: bases de datos ayer y hoy

Informix Warehouse Accelerator - IWA3. Tercera generación de bases de datos en memoria. Evita la

Entrada/Salida al disco debido a que la compresión permite tener los datos residentes en memoria.4. Frecuencia de particionamiento5. Paralelismo masivo. Todos los procesadores son utilizados en las consultas.6. Evaluación de predicados con datos comprimidos lo que incrementa el desempeño en las consultas.7. Actualización automática a nivel de partición lo cual permite refrescar en los Data Mart solo los datos que han cambiado.8. Soporte para datos de series de tiempos. Se pueden analizar en memoria los datos que vienen de censores inteligentes, medidas, localización GPS, u otros dispositivos en tiempo real.

Page 32: bases de datos ayer y hoy

Informix Warehouse Accelerator - IWA

Page 33: bases de datos ayer y hoy

¿Qué son los PureSystem?Son una nueva clase de sistemas integrados expertos que están diseñados, prefabricados, configurados y optimizados para ejecutar cargas de trabajo muy complejas y especificas.Existen tres familias de PureSystem los cuales están diseñados para dar solución a los problemas que enfrentan los diferentes tipos de cargas de trabajo, cambiando la economía y la experiencia de las tecnologías de la información.

Page 34: bases de datos ayer y hoy

¿Qué son los PureSystem?1. PureFlex: Estos sistemas proporcionan servicios de

infraestructura y permiten construir su propia aplicación o entornos de infraestructura en un entorno escalable

2. PureApplications: Esta basado en los mismos principios de PureFlex y proporciona servicios de plataforma. Se integra todo el Software y las herramientas que se necesitan para construir una plataforma de aplicaciones altamente escalable. El objetivo es ofrecer una plataforma de aplicaciones tipo Web.

3. PureData: Por ultimo, estos sistemas son desarrollados para ofrecer servicios de datos a las aplicaciones independientemente de que se trate de aplicaciones transaccionales como punto de venta o CRM, o sistemas de análisis como perdida de clientes y/o administración de campañas.

Page 35: bases de datos ayer y hoy

La tendencia – Bases de datos en Memoria

Uno de los recursos más costoso es el almacenamiento de la información y hoy con el nuevo concepto de Big Data la necesidad de manejar grandes volúmenes de información se ha incrementado. El acceso a disco es el acceso más lento para obtener la información.La tendencia es tener más datos en memoria de manera comprimida, con lo anterior se reduce el acceso a disco y se incrementa el desempeño para el análisis de la información.

Page 36: bases de datos ayer y hoy

Tipos de OLAPROLAPSus siglas en inglés significan Relational OLAP. En ROLAP los datos son almacenados en un Star Schema con tablas de Hechos y Dimensiones. Las consultas SQL analíticas tienen un gran número de Joins, Scan y enormes cantidades de datos agregados.

Page 37: bases de datos ayer y hoy

Tipos de OLAPMOLAPSus siglas en inglés significan Multidimentional OLAP. Es la descripción de un servidor OLAP que almacena el cubo completo OLAP en memoria. Normalmente las agregaciones son precalculas y almacenadas en memoria. Esto trae como resultado respuestas muy rápidas a consultas de datos y permite una alta concurrencia en ejecución de consultas.

Page 38: bases de datos ayer y hoy

Tipos de OLAPHOLAPSus siglas en inglés significan Hybrid OLAP. Como sus siglas lo indican es una combinación de ROLAP Y MOLAP. Combina muchas de las características de ROLAP Y MOLAP donde no existe límite del tamaño de datos como ROLAP y proporciona todas las capacidades para obtener detalles de la información, con una alta concurrencia y alto rendimiento para los datos solicitados.

Page 39: bases de datos ayer y hoy

¿Qué es IBM BLU Acceleration for Cloud?

Es una solución de Data Warehouse y Análisis en la Nube. El concepto de Nube de una manera simple son los servicios informáticos que se ofrecen a través de Internet. Una de las ventajas de estas arquitecturas es que las empresas ya no requieren de una infraestructura propia y permite a los usuarios accesar a las aplicaciones desde cualquier punto donde se encuentren. Para los programadores permite el rápido desarrollo de aplicaciones.

Page 40: bases de datos ayer y hoy

¿Qué es Cloudant?Es una base de datos de como servicio (DBaaS) la cual permite centrarse en el desarrollo rápido de aplicaciones en Internet y aplicaciones móviles en lugar de preocuparse por la expansión y gestión de la base de datos por su cuenta. Tiene alta disponibilidad, es duradera y contiene amplias funciones.

Page 41: bases de datos ayer y hoy

¿Qué es Cloudant?La base de datos Cloudant es la primera plataforma de gestión de datos para aprovechar la disponibilidad, escalabilidad, y el alcance de la Nube para crear una red de distribución global de datos (DDN) que permita a las aplicaciones estar disponibles para los usuarios donde quiera que se encuentre.

Page 42: bases de datos ayer y hoy

¿Qué es JSON?Sus nomenclaturas en inglés significan JavaScript Object Notation, el cual es un formato ligero para el intercambio de datos. JSON está basado en un subconjunto del lenguaje de programación JavaScript. Su simplicidad ha hecho que su uso se esté ampliando, algo similar al manejo de datos tipo XML donde es fácil de implementar, de leer y de utilizar.También es independiente del lenguaje de programación ya que muchos lenguajes tienen características para mapear con JSON. Se emplea en ambientes donde el flujo de los datos es de vital importancia como por ejemplo Google, Yahoo, etc. que atienden a millones de usuarios. JSON está soportado en DB2 10.5 e Informix 12.1

Page 43: bases de datos ayer y hoy

Ejemplo de un simple documento:

¿Qué es JSON?

Page 44: bases de datos ayer y hoy

JASONLa importancia de JSON es que ayuda a habilitar la nueva era de aplicaciones móviles, sociales y Nube convirtiéndose así en uno de los lenguajes para la Web. Solo soporta seis tipos de valores y son:1. Cadena (String)2. Numérico3. Booleano4. Valores especiales como el valor “nulo”5. Objetos6. ArreglosNo soporta estructuras de datos cíclicos, es decir, utilizar un conjunto de acciones que se pueden ejecutar una o varias veces (Para “For 1 to 10…” , Mientras “While v_cont 100…”, Repetir “Repeat … ” ).

Page 45: bases de datos ayer y hoy

Internet de las cosas (IoT)Todo este mundo de información hace el Internet de cosas creando nuevas oportunidades en muchas áreas. . El objetivo es darle valor a la información para ofrecer lo que quiere el consumidor, para identificar fraudes, optimizar reabastecimiento de inventarios, etc. El Internet esta accesible 24x7 los 365 días del año y la información está ahí como una oportunidad de hacer negocio. Este mundo de información no puede ser explotada por cualquier manejador de base de datos lo cual hace complicado el manejo y análisis de este mundo de información. Las razones son las siguientes:

Page 46: bases de datos ayer y hoy

Internet de las cosas (IoT)1. Los datos son generados de diferentes sistemas, con

formatos complejos, diferentes fuentes y tipos de datos, estructurados, no estructurados y vienen de diferentes contextos.

2. Son difíciles de analizar por el volumen de información, requieren más procesamiento, modelado de datos, análisis complejo de textos y correlación de datos a través de los distintos.

3. Usted necesita ser capaz de visualizar la información para actuar sobre ella. Se requieren sofisticados algoritmos de búsqueda para tomar decisiones.

Page 47: bases de datos ayer y hoy

IBM Informix – Base de datos inteligente para IoT

IBM Informix es una base de datos inteligente para resolver los problemas de IoT. Sus características únicas le permiten que funcione en dispositivos periféricos y también en la Nube. En la Nube, Informix tiene la escalabilidad y el rendimiento para servir como plataforma de análisis avanzados que consolidan la información de millones de dispositivos.

Page 48: bases de datos ayer y hoy

Conclusión

Existen lenguajes de programación que aceptan sentencias SQL y

NO SQL. Debido a ello existen nuevas arquitecturas.

El tema de bases de datos es

muy amplio de explorar y difícil

de seleccionar cuál es la mejor

arquitectura a utilizar.

De acuerdo al tipo de

operaciones se debe hacer una

arquitectura adecuada.

Page 49: bases de datos ayer y hoy

Internet de las cosas (IoT)Todo este mundo de información hace el Internet de cosas creando nuevas oportunidades en muchas áreas. . El objetivo es darle valor a la información para ofrecer lo que quiere el consumidor, para identificar fraudes, optimizar reabastecimiento de inventarios, etc. El Internet esta accesible 24x7 los 365 días del año y la información está ahí como una oportunidad de hacer negocio. Este mundo de información no puede ser explotada por cualquier manejador de base de datos lo cual hace complicado el manejo y análisis de este mundo de información. Las razones son las siguientes: