7
COMPRENSIÓN DE DATOS

COMPRENSIÓN DE DATOS€¦ · Los datos cifrados serían una tercera pata donde podríamos comprimir o no, dependiendo de en qué momento se efectúa el cifrado de los datos. Algunos

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: COMPRENSIÓN DE DATOS€¦ · Los datos cifrados serían una tercera pata donde podríamos comprimir o no, dependiendo de en qué momento se efectúa el cifrado de los datos. Algunos

www.efor.es

COMPRENSIÓNDE DATOS

Page 2: COMPRENSIÓN DE DATOS€¦ · Los datos cifrados serían una tercera pata donde podríamos comprimir o no, dependiendo de en qué momento se efectúa el cifrado de los datos. Algunos

www.efor.es | 976 46 76 76 | [email protected]

Visión del almacenamientomediante la comprensión

A veces parece extraño volver a hablar de comprimir los datos.

En esta época actual, en la que muchos de nosotros llevamos en los bolsillos memorias USB de varias decenas de gigas; en la época donde parece que ya no importa almacenar centenares de gigas en nuestro ordenador porque ahora es barato tener un disco de 2TB, volvemos a hablar de comprimir los datos.

Vamos a poner en situación las necesidades de las empresas donde el crecimiento del almacenamiento está creciendo un día sí y otro también de una manera casi exponencial.

El coste del disco mecánico o rotacional ha descendido, pero nuestras necesidades han variado. Hemos probado las mieles del disco de estado sólido y ahora se nos antoja imprescindible para garantizar el rendimiento de nuestras bases de datos. Incluso nos preguntamos ¿cómo hemos podido vivir hasta ahora sin discos SSD?

¿Y cuánto cuesta un disco duro de estado sólido para un servidor o una cabina de almacenamiento? Pues comparativamente con uno rotacional, cuesta mucho más.

Y es por este motivo, este coste por gigabyte, que debemos ser más cautos en el aprovechamiento de nuestros recursos.

Así que tendremos que tratar de maximizar nuestros recursos en la medida de lo posible y, aunque hay más ahorros implícitos en el uso de la compresión, tal vez, este coste por gigabyte, es el mayor valedor de las tecnologías de ahorro de almacenamiento.

La compresión es un método de ahorro de los recursos de almacenamiento mediante la detección de datos redundados en el “interior de los archivos”. La compresión funciona eliminando dicha redundancia, es decir, borramos los datos duplicados en el interior de dichos archivos. Posteriormente, se aplica un algoritmo que nos permitirá recomponer el fichero sin falta de información y nos dará acceso a la lectura del mismo.

La compresión¿Qué es exactamente?

Page 3: COMPRENSIÓN DE DATOS€¦ · Los datos cifrados serían una tercera pata donde podríamos comprimir o no, dependiendo de en qué momento se efectúa el cifrado de los datos. Algunos

www.efor.es | 976 46 76 76 | [email protected]

Hablemos de lo que nos importa: Ahorro de costes

Hemos hablado de que la compresión nos va a ahorrar costes. Muy bien, pues hablemos entonces dónde pueden estar esos costes. Aquí os dejamos algunos ejemplos:

• Menos necesidad de discos.• Menos necesidad de módulos de expansión.• Menos licencias (dependiendo del modo de licenciamiento).• Menos necesidad de consumo eléctrico.• Menos necesidad de refrigeración.• Menos necesidad de espacio (menos racks donde ubicar nuestras cabinas).• Menos contratos de mantenimiento.

Como se aprecia, necesitaré adquirir menos discos, si hay menos discos también necesitaré menos cajones de expansión para cubrir mis necesidades y si necesito menos expansiones, necesitaré menos licencias y menos armarios donde alojar nuestras cabinas.

De esta manera, conseguiremos que el importe de nuestros contratos de mantenimiento se vea reducido y, en menor medida, nos supondrá menos costes energéticos derivados de los tradicionales factores de consumo eléctrico y aire acondicionado.

No todas las cargas de trabajo son buenas candidatas para la compresión.

Distinguir entre cargas de trabajo candidatas a ser sometidas a la compresión o no requerirá de una planificación y estudio previo de nuestra información para asegurar que la implementación de la compresión sea la adecuada a ella.

Los mejores candidatos para la compresión son aquellos datos que no están comprimidos por sí mismos.

Ejemplos claros son bases de datos, datos basados en caracteres ASCII, servidores de correo, entornos virtualizados, CAD/CAM, sistemas de desarrollo de software y datos vectoriales. Ejemplos claros de datos ya comprimidos serían:

• Archivos de audio y video en formatos tales como JPEG, PNG, MPEG, MP3.

• Formatos de archivos de productividad de usuario como por ejemplo los de versiones de Office 2007 o posterior (docs, xlsx, pptx), archivos PDF, archivos ejecutables de Microsoft Windows (EXE), etc.

• Archivos ya comprimidos tales como zip, 7zip, rar, cab, tgz, etc.

Comprimir:Qué comprimir y qué no

Page 4: COMPRENSIÓN DE DATOS€¦ · Los datos cifrados serían una tercera pata donde podríamos comprimir o no, dependiendo de en qué momento se efectúa el cifrado de los datos. Algunos

www.efor.es | 976 46 76 76 | [email protected]

Los datos cifrados serían una tercera pata donde podríamos comprimir o no, dependiendo de en qué momento se efectúa el cifrado de los datos. Algunos fabricantes cifran los datos antes de ser comprimidos y otros a posteriori. Aquí tendríamos una tabla con unos ratios de compresión que se podrían llegar a alcanzar:

DATA TYPES/APPLICATIONS COMPRESSION RATIO

Oracle/DB2 Up to 80%

Office 2003 Up to 60%

Office 2007 Up to 20%

CAD/CAM Up to 70%

Oil/Gas Up to 50%

IMB i ERP Data Up to 75%

VMware: Windows OS Up to 45%-55%

VMware: Linux virtual OS Up to 70%

La cifra de entrada resulta espectacular en la mayoría de los casos, a excepción de los entornos de Office2007 o posteriores donde los formatos anteriormente especificados ya nacen comprimidos y, por tanto, apenas existe ahorro.

IBM, por ejemplo, no aconseja comprimir los datos encriptados, ya que de hacerlo así los algoritmos de compresión no pueden encontrar similitudes o repeticiones dentro de los archivos protegidos.

En datos:Traduciendo a cifras

Ya hemos puesto en valor el mundo de la compresión. Ahora traduzcámoslo a cifras. Previamente vamos a poner datos reales de una cabina de almacenamiento IBM v7000 con la característica de compresión:

Por tanto, la compresión es completamente infectiva, no llegando a aplicarse apenas ningún ahorro de almacenamiento.

Por el contrario, EMC en sus cabinas Unity no pone ningún impedimento en lo relativo a usar su tecnología D@RE de encriptación, ya que los datos son comprimidos antes de ser encriptados y nos garantiza que no tiene impacto en sus sistemas.

Page 5: COMPRENSIÓN DE DATOS€¦ · Los datos cifrados serían una tercera pata donde podríamos comprimir o no, dependiendo de en qué momento se efectúa el cifrado de los datos. Algunos

www.efor.es | 976 46 76 76 | [email protected]

Lo primero que nos encontramos es una agrupación de volúmenes donde no está habilitada todavía la compresión, pero sí que está estimado cual será el ahorro. Dato importante: ronda el 50% de los volúmenes.

En este caso, procedemos a estimar los volúmenes que todavía no están calculados. Vamos a prestar atención al volumen señalado en rojo:

Vemos que la estimación llega al 73%. Es importante recalcar que los volúmenes podrán tener mayor o menor tasa de compresión dependiendo del contenido del mismo. Y ahora veamos el volumen una vez comprimido:

Page 6: COMPRENSIÓN DE DATOS€¦ · Los datos cifrados serían una tercera pata donde podríamos comprimir o no, dependiendo de en qué momento se efectúa el cifrado de los datos. Algunos

www.efor.es | 976 46 76 76 | [email protected]

Vemos que hemos sido capaces de reducir un volumen de 10 GiB a 2,43 GiB. La realidad es un 75,7% de ahorro.

Y ahora vamos a los números que probablemente será lo que más nos importa. Para ello, vamos a realizar un sencillo ejercicio con el coste de un disco duro SSD.

Para el cálculo, vamos a utilizar un disco duro de una gama “Entry” para servidores. Es el modelo “Lenovo PM863a Enterprise Entry SATA” de 960 GB, manufacturado por la compañía Samsung. Este disco tiene un coste según precio de lista de 1.265 € (1,32 €/GB).

Pero habitualmente no usamos un solo disco. Usamos distintas configuraciones en función de la redundancia y rendimiento deseado. Así que vamos a ponernos en una configuración en RAID 1, que nos duplicará el número de discos y por tanto el coste se verá elevado a 2.530 € por 960 GB de espacio de almacenamiento (2,64 € /GB).

En un ejemplo de posibilidad de compresión al 50%, estamos recuperando el coste de 1,32 € por GB de almacenamiento en disco SSD que tendríamos si no usáramos un nivel de RAID.

Cuando las tasas de compresión rondan el 75 % reducimos el coste por GB a 0,66 €.

Si volvemos a la tabla de tasa de porcentaje de compresión que hemos visto anteriormente, veremos que típicamente una base de datos Oracle alcanza un 80%.

Igual ahora empiezan a salirnos las cuentas.

Como conclusión, quiero hacer hincapié en que esto es un estudio en números básicos y que siempre se debe de estudiar pormenorizadamente cada caso en concreto. Con un estudio en detalle comprobaremos la idoneidad de nuestro entorno y nuestros datos para asumir un sistema de compresión en nuestro almacenamiento.

Page 7: COMPRENSIÓN DE DATOS€¦ · Los datos cifrados serían una tercera pata donde podríamos comprimir o no, dependiendo de en qué momento se efectúa el cifrado de los datos. Algunos

www.efor.es

www.efor.es976 46 76 [email protected]