Codigos Introduccion a La Computacion

MATERIA: INTRODUCCION A LA COMPUTACION

PROFESORA:

ALUMNO:

TAREA:

*CÓDIGO BCD

*CÓDIGO ASCII

*CÓDIGO EBCDIC

*CÓDIGO UNICODE

CÓDIGO BCD

Código BCD (Binary-Coded Decimal (BCD) o Decimal codificado). Binario es un estándar para representar números decimales en el sistema binario, en donde cada dígito decimal es codificado con una secuencia de 4 bits.

Con esta codificación especial de los dígitos decimales en el sistema binario, se pueden realizar operaciones aritméticas como suma, resta, multiplicación y división de números en representación decimal, sin perder en los cálculos la precisión ni tener las inexactitudes en que normalmente se incurren con las conversiones de decimal a binario puro y de binario puro a decimal.

La conversión de los números decimales a BCD y viceversa es muy sencilla, pero los cálculos en BCD se llevan más tiempo y son algo más complicados que con números binarios puros.

Historia legal

En año 1972, el Tribunal Supremo de Estados Unidos anuló la decisión de una instancia más baja de la corte que había permitido una patente para convertir números codificados BCD a binario en una computadora (véase Gottschalk v Benson en inglés). Este fue uno de los primeros casos importantes en la determinación de la patentabilidad del software y de los algoritmos.

Fundamentos

En BCD cada cifra que representa un dígito decimal (0, 1,...8 y 9) se representa con su equivalente binario en cuatro bits (nibble o cuarteto) (esto es así porque es el número de bits necesario para representar el nueve, el número más alto que se puede representar en BCD).

Características

Ponderación

La mayoría de los sistemas de numeración actuales son ponderados, es decir, cada posición de una secuencia de dígitos tiene asociado un peso. El sistema binario es, de hecho, un sistema de numeración posicional ponderado. Sin embargo, algunos códigos binarios, como el código Gray, no son ponderados, es decir, no tienen un peso asociado a cada posición. Otros, como el mismo código binario natural o el BCD natural sí lo son.

http://www.ecured.cu/index.php/Sistema_Binario

Distancia

Es una característica sólo aplicable a las combinaciones binarias. La distancia entre dos combinaciones es el número de bits que cambian de una a otra. Por ejemplo, si se tienen las combinaciones de cuatro bits 0010 y 0111, correspondientes al 2 y al 7 en binario natural, se dirá que la distancia entre ellas es igual a dos ya que de una a otra cambian dos bits.

Además, con el concepto de distancia se puede definir la distancia mínima de un código. Ésta no es más que la distancia menor que haya entre dos de las combinaciones de ese código.

Continuidad

Es una característica de los códigos binarios que cumplen que todas las posibles combinaciones del código son adyacentes, es decir, que de cualquier combinación del código a la siguiente cambia un sólo bit. En este caso se dice que el código es continuo. Cuando la última combinación del código es, a su vez, adyacente a la primera, se trata de un código cíclico.

Auto complementariedad

El código binario es auto complementario cuando el complemento a nueve del equivalente decimal de cualquier combinación del código puede hallarse invirtiendo los valores de cada uno de los bits (operación lógica unaria de negación) y el resultado sigue siendo una combinación válida en ese código. Esta característica se observa en algunos códigos BCD, como el código Aiken o el código BCD exceso 3. Los códigos auto complementarios facilitan las operaciones aritméticas.

Aplicación

Electrónica

El BCD es muy común en sistemas electrónicos donde se debe mostrar un valor numérico, especialmente en los sistemas digitales no programados (sin microprocesador o micro controlador).

Utilizando el código BCD, se simplifica la manipulación de los datos numéricos que deben ser mostrados por ejemplo en un visualizador de siete segmentos. Esto lleva a su vez una simplificación en el diseño físico del circuito (hardware).

Si la cantidad numérica fuera almacenada y manipulada en binario natural, el circuito sería mucho más complejo que si se utiliza el BCD. Hay un programa que se llama b1411 que sirve para dividir al sistema binario en dos combinaciones. Una por ejemplo es la de sistemas digitales.

Representación

Cada dígito decimal tiene una representación binaria codificada con 4 bits:

Decimal: 0 1 2 3 4 5 6 7 8 9 BCD: 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001

Los números decimales, se codifican en BCD con los de bits que representan sus dígitos.

Ejemplo

La codificación en BCD del número decimal 59237 es:

Decimal: 5 9 2 3 7 BCD: 0101 1001 0010 0011 0111 La representación anterior (en BCD) es diferente de la representación del mismo número decimal en binario puro: 11100111 01100101

CODIGO ASCII

Casi todos los sistemas informáticos actuales utilizan el código ASCII o una extensión compatible para representar textos y para el control de dispositivos que manejan texto como el teclado. No deben confundirse los códigos ALT+número de teclado con los códigos ASCII.

Las computadoras solamente entienden números. El código ASCII es una representación numérica de un carácter como ‘a’ o ‘@’.

Como otros códigos de formato de representación de caracteres, el ASCII es un método para una correspondencia entre cadenas de bits y una serie de símbolos (alfanuméricos y otros), permitiendo de esta forma la comunicación entre dispositivos digitales así como su procesado y almacenamiento. El código de caracteres ASCII2 —o una extensión compatible (ver más abajo) — se usa casi en todos los ordenadores, especialmente con ordenadores personales y estaciones de trabajo. El nombre más apropiado para este código de caracteres es "US-ASCII".

ASCII es, en sentido estricto, un código de siete bits, lo que significa que usa cadenas de bits representables con siete dígitos binarios (que van de 0 a 127 en base decimal) para representar información de caracteres. En el momento en el que se introdujo el código ASCII muchos ordenadores trabajaban con grupos de ocho bits (bytes u octetos), como la unidad mínima de información; donde el octavo bit se usaba habitualmente como bit de paridad con funciones de control de errores en líneas de comunicación u otras funciones específicas del dispositivo. Las máquinas que no usaban la comprobación de paridad asignaban al octavo bit el valor cero en la mayoría de los casos, aunque otros sistemas como las computadoras Prime, que ejecutaban PRIMOS ponían el octavo bit del código ASCII a uno. El código ASCII define una relación entre caracteres específicos y secuencias de bits; además de reservar unos cuantos códigos de control para el procesador de textos, y no define ningún mecanismo para describir la estructura o la apariencia del texto en un documento; estos asuntos están especificados por otros lenguajes como los lenguajes de etiquetas.

! " # $ % & ' ( ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ? @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~

http://es.wikipedia.org/wiki/ASCII#cite_note-2

http://es.wikipedia.org/wiki/Computador_personal

http://es.wikipedia.org/wiki/Computador_personal

http://es.wikipedia.org/wiki/Estaci%C3%B3n_de_trabajo

http://es.wikipedia.org/wiki/Prime

http://es.wikipedia.org/w/index.php?title=PRIMOS&action=edit&redlink=1

http://es.wikipedia.org/wiki/Lenguaje_de_marcado

Los caracteres de control ASCII

El código ASCII reserva los primeros 32 códigos (numerados del 0 al 31 en decimal) para caracteres de control: códigos no pensados originalmente para representar información imprimible, sino para controlar dispositivos (como impresoras) que usaban ASCII. Por ejemplo, el carácter 10 representa la función "nueva línea" (line feed), que hace que una impresora avance el papel, y el carácter 27 representa la tecla "escape" que a menudo se encuentra en la esquina superior izquierda de los teclados comunes.

El código 127 (los siete bits a uno), otro carácter especial, equivale a "suprimir" ("delete"). Aunque esta función se asemeja a otros caracteres de control, los diseñadores de ASCII idearon este código para poder "borrar" una sección de papel perforado (un medio de almacenamiento popular hasta la década de 1980) mediante la perforación de todos los agujeros posibles de una posición de carácter concreta, reemplazando cualquier información previa.

Dado que el código 0 era ignorado, fue posible dejar huecos (regiones de agujeros) y más tarde hacer correcciones. Muchos de los caracteres de control ASCII servían para marcar paquetes de datos, o para controlar protocolos de transmisión de datos (por ejemplo ENQuiry, con el significado: ¿hay alguna estación por ahí?, ACKnowledge: recibido o ", Start Of Header: inicio de cabecera, Start of TeXt: inicio de texto, End of TeXt: final de texto, etc.).

http://es.wikipedia.org/wiki/Car%C3%A1cter_de_control

http://es.wikipedia.org/wiki/Impresora

http://es.wikipedia.org/wiki/C%C3%B3digo_escape_ANSI

http://es.wikipedia.org/wiki/Teclado_%28inform%C3%A1tica%29

http://es.wikipedia.org/w/index.php?title=Papel_perforado&action=edit&redlink=1

ESCape y SUBstitute permitían a un protocolo de comunicaciones, por ejemplo, marcar datos binarios para que contuviesen códigos con el mismo código que el carácter de protocolo, y que el receptor pudiese interpretarlos como datos en lugar de como caracteres propios del protocolo. Los diseñadores del código ASCII idearon los caracteres de separación para su uso en sistemas de cintas magnéticas.

Dos de los caracteres de control de dispositivos, comúnmente llamados XON y XOFF generalmente ejercían funciones de caracteres de control de flujo para controlar el flujo a hacia un dispositivo lento (como una impresora) desde un dispositivo rápido (como un ordenador), de forma que los datos no saturasen la capacidad de recepción del dispositivo lento y se perdiesen.

Los primeros usuarios de ASCII adoptaron algunos de los códigos de control para representar "meta información" como final-de-línea, principio/final de un elemento de datos, etc. Estas asignaciones a menudo entraban en conflicto, así que parte del esfuerzo de convertir datos de un formato a otro comporta hacer las conversiones correctas de meta información. Por ejemplo, el carácter que representa el final-de-línea en ficheros de texto varía con el sistema operativo.

Cuando se copian archivos de un sistema a otro, el sistema de conversión debe reconocer estos caracteres como marcas de final-de-línea y actuar en consecuencia. Actualmente los usuarios de ASCII usan menos los caracteres de control, (con algunas excepciones como "retorno de carro" o "nueva línea").

Los lenguajes modernos de etiquetas, los protocolos modernos de comunicación, el paso de dispositivos basados en texto a basados en gráficos, el declive de las teleimpresores, las tarjetas perforadas y los papeles continuos

http://es.wikipedia.org/w/index.php?title=XON&action=edit&redlink=1

http://es.wikipedia.org/w/index.php?title=XOFF&action=edit&redlink=1

http://es.wikipedia.org/w/index.php?title=Control_de_flujo&action=edit&redlink=1

http://es.wikipedia.org/wiki/Sistema_operativo

http://es.wikipedia.org/wiki/Sistema_operativo

han dejado obsoleta la mayoría de caracteres de control

CODIGO EBCDIC

EBCDIC (Extended Binary Coded Decimal Interchange Code) es un código estándar de 8 bits usado por computadoras mainframe IBM. IBM adaptó el EBCDIC del código de tarjetas perforadas en los años 1960 y lo promulgó como una táctica customer-control cambiando el código estándar ASCII.

EBCDIC es un código binario que representa caracteres alfanuméricos, controles y signos de puntuación. Cada carácter está compuesto por 8 bits = 1 byte, por eso EBCDIC define un total de 256 caracteres.

Existen muchas versiones ("codepages") de EBCDIC con caracteres diferentes, respectivamente sucesiones diferentes de los mismos caracteres. Por ejemplo al menos hay 9 versiones nacionales de EBCDIC con Latín 1 caracteres con sucesiones diferentes.

El siguiente es el código CCSID 500, una variante de EBCDIC. Los caracteres 0x00–0x3F y 0xFF son de control, 0x40 es un espacio, 0x41 es no-saltar página y 0xCA es un guion suave.

http://es.wikipedia.org/wiki/Computadoras

http://es.wikipedia.org/wiki/Ordenador_central

http://es.wikipedia.org/wiki/IBM

http://es.wikipedia.org/wiki/1960

http://es.wikipedia.org/wiki/ASCII

http://es.wikipedia.org/wiki/Codificaci%C3%B3n_de_caracteres

http://es.wikipedia.org/wiki/Bit

http://es.wikipedia.org/wiki/Byte

http://es.wikipedia.org/wiki/ISO_8859-1

0

1

2

3

4

5

6

7

8

9

A

B

C

D

E

F

4

0 â ä à á ã å ç ñ [ . < ( + !

5

0 & é ê ë è í î ï ì ß ] $ * ) ; ^

6

0 - / Â Ä À Á Ã Å Ç Ñ ¦ , % _ > ?

7

0 ø É Ê Ë È Í Î Ï Ì ` : # @ ' = "

8

0 Ø a b c d e f g h i « » ð ý þ ±

9

0 ° j k l m n o p q r ª º æ ¸ Æ ¤

A

0 µ ~ s t u v w x y z ¡ ¿ Ð Ý Þ ®

B

0 ¢ £ ¥ · © § ¶ ¼ ½ ¾ ¬ | ¯ ¨ ´ ×

C

0 { A B C D E F G H I ô ö ò ó õ

D

0 } J K L M N O P Q R ¹ û ü ù ú ÿ

E

0 \ ÷ S T U V W X Y Z ² Ô Ö Ò Ó Õ

F

0 0 1 2 3 4 5 6 7 8 9 ³ Û Ü Ù Ú

CLAVE EBCDIC

Espacio en blanco - 0 1 0 0 0 0 0 0 Letras mayúsculas de la A a la Z: se dividen en tres grupos (A-I), (J-R), (S-Z) y en las primeras cuatro posiciones se identifica el grupo al cual pertenece la letra y en las restantes cuatro posiciones el dígito correspondiente a la posición de la letra en el grupo.

A - 1 1 0 0 0 0 0 1

B - 1 1 0 0 0 0 1 0

C - 1 1 0 0 0 0 1 1

D - 1 1 0 0 0 1 0 0

E - 1 1 0 0 0 1 0 1

F - 1 1 0 0 0 1 1 0

G - 1 1 0 0 0 1 1 1

H - 1 1 0 0 1 0 0 0

I - 1 1 0 0 1 0 0 1

J - 1 1 0 1 0 0 0 1

K - 1 1 0 1 0 0 1 0

L - 1 1 0 1 0 0 1 1

M - 1 1 0 1 0 1 0 0

N - 1 1 0 1 0 1 0 1

O - 1 1 0 1 0 1 1 0

P - 1 1 0 1 0 1 1 1

Q - 1 1 0 1 1 0 0 0

R - 1 1 0 1 1 0 0 1

S - 1 1 1 0 0 0 1 0

T - 1 1 1 0 0 0 1 1

U - 1 1 1 0 0 1 0 0

V - 1 1 1 0 0 1 0 1

W - 1 1 1 0 0 1 1 0

X - 1 1 1 0 0 1 1 1

Y - 1 1 1 0 1 0 0 0

Z - 1 1 1 0 1 0 0 1

La letra Ñ se representa 0 1 1 0 1 0 0 1

Los dígitos del cero (0) al nueve (9): se identifican con un uno en las primeras cuatro posiciones y en las restantes cuatro posiciones el dígito en binario.

0 - 1 1 1 1 0 0 0 0

1 - 1 1 1 1 0 0 0 1

2 - 1 1 1 1 0 0 1 0

3 - 1 1 1 1 0 0 1 1

4 - 1 1 1 1 0 1 0 0

5 - 1 1 1 1 0 1 0 1

6 - 1 1 1 1 0 1 1 0

7 - 1 1 1 1 0 1 1 1

8 - 1 1 1 1 1 0 0 0

9 - 1 1 1 1 1 0 0 1

CODIGO UNICODE

Unicode es un estándar de codificación de caracteres diseñado para facilitar el tratamiento informático, transmisión y visualización de textos de múltiples lenguajes y disciplinas técnicas, además de textos clásicos de lenguas muertas. El término Unicode proviene de los tres objetivos perseguidos: universalidad, uniformidad y unicidad.1

Unicode especifica un nombre e identificador numérico único para cada carácter o símbolo, el code point (‘punto de código’), además de otras informaciones necesarias para su uso correcto: direccionalidad, mayúsculas y otros atributos. Unicode trata los caracteres alfabéticos, ideográficos y símbolos de forma equivalente, lo que significa que se pueden mezclar en un mismo texto sin la introducción de marcas o caracteres de control.2

Este estándar es mantenido por el Unicode Technical Committee (UTC), integrado en el Consorcio Unicode, del que forman parte con distinto grado de implicación empresas como: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google o Yahoo, instituciones como la Universidad de Berkeley, y

http://es.wikipedia.org/wiki/Estandarizaci%C3%B3n

http://es.wikipedia.org/wiki/Tipograf%C3%ADa

http://es.wikipedia.org/wiki/Lenguaje

http://es.wikipedia.org/wiki/Lengua_muerta

http://es.wikipedia.org/wiki/Lengua_muerta

http://es.wikipedia.org/wiki/Unicode#cite_note-RESUMEN-HISTORICO-1

http://es.wikipedia.org/wiki/Unicode#cite_note-UNICODE-ABOUT-2

http://es.wikipedia.org/w/index.php?title=Unicode_Technical_Committee&action=edit&redlink=1

http://es.wikipedia.org/wiki/Consorcio_Unicode

http://es.wikipedia.org/wiki/Microsoft

http://es.wikipedia.org/wiki/Apple

http://es.wikipedia.org/wiki/Adobe_Systems_Incorporated

http://es.wikipedia.org/wiki/IBM

http://es.wikipedia.org/wiki/Oracle

http://es.wikipedia.org/wiki/SAP_AG

http://es.wikipedia.org/wiki/Google

http://es.wikipedia.org/wiki/Yahoo

http://es.wikipedia.org/wiki/Universidad_de_Berkeley

profesionales y académicos a título individual.3 El Unicode Consortium mantiene estrecha relación con ISO/IEC, con la que mantiene desde 1991 el acuerdo de sincronizar sus estándares que contienen los mismos caracteres y puntos de código.4

El establecimiento de Unicode ha sido un ambicioso proyecto para reemplazar los esquemas de codificación de caracteres existentes, muchos de los cuales están muy limitados en tamaño y son incompatibles con entornos plurilingües. Unicode se ha vuelto el más extenso y completo esquema de codificación de caracteres, siendo el dominante en la internacionalización y adaptación local del software informático. El estándar ha sido implementado en un número considerable de tecnologías recientes, que incluyen XML, Java y sistemas operativos modernos.

La descripción completa del estándar y las tablas de caracteres están disponibles en la página web oficial de Unicode [1]. La referencia completa se publica, además, en forma de libro impreso cada vez que se libera una nueva versión principal. La versión digital de este libro está disponible de forma gratuita. Las revisiones y adiciones se publican de forma independiente.

RELACIÓN CON OTROS ESTÁNDARES

Como ya se ha indicado, Unicode está sincronizado con el estándar ISO/IEC conocido como UCS o juego de caracteres universal. Desde un punto de vista técnico, incluye o es compatible con codificaciones anteriores como ASCII7 o ISO 8859-1, los estándares nacionales ANSI Z39.64, KS X 1001, JIS X 0208, JIS X 0212, JIS X 0213, GB 2312, GB 18030, HKSCS, y CNS 11643, codificaciones particulares de fabricantes de software como Apple, Adobe, Microsoft, IBM, etc. Además, Unicode reserva espacio para fabricantes de software que pueden crear extensiones para su propio uso.

Repertorio de caracteres

El elemento básico del estándar Unicode es el carácter. Se considera un carácter al elemento más pequeño de un sistema de escritura con significado. El estándar Unicode codifica los caracteres esenciales ―grafemas― definiéndolos de forma abstracta y deja la representación visual (tamaño, dimensión, fuente o estilo) al software que lo trate, como procesadores de texto o navegadores web. Se incluyen letras, signos diacríticos, caracteres de puntuación, ideogramas, caracteres silábicos, caracteres de control y otros símbolos.

Los caracteres se agrupan en alfabetos o sistemas de escritura. Se considera que son diferentes los caracteres de alfabetos distintos, aunque compartan forma y significación.

http://es.wikipedia.org/wiki/Unicode#cite_note-UNICODE-MEMBERS-3

http://es.wikipedia.org/wiki/Unicode#cite_note-UNICODE-ISO-4

http://es.wikipedia.org/wiki/Codificaci%C3%B3n_de_caracteres

http://es.wikipedia.org/wiki/Internacionalizaci%C3%B3n_%28computaci%C3%B3n%29

http://es.wikipedia.org/wiki/Software

http://es.wikipedia.org/wiki/XML

http://es.wikipedia.org/wiki/Lenguaje_de_programaci%C3%B3n_Java

http://es.wikipedia.org/wiki/Sistemas_operativos

http://es.wikipedia.org/wiki/Sistemas_operativos

http://www.unicode.org/charts/

http://es.wikipedia.org/wiki/ISO_10646

http://es.wikipedia.org/wiki/ISO_8859-1

http://es.wikipedia.org/w/index.php?title=HKSCS&action=edit&redlink=1

http://es.wikipedia.org/w/index.php?title=CNS_11643&action=edit&redlink=1

http://es.wikipedia.org/wiki/Car%C3%A1cter_%28inform%C3%A1tica%29

http://es.wikipedia.org/wiki/Grafema

http://es.wikipedia.org/wiki/Procesador_de_texto

http://es.wikipedia.org/wiki/Navegador_web

Los caracteres se identifican mediante un número o punto de código y su nombre o descripción. Cuando se ha asignado un código a un carácter, se dice que dicho carácter está codificado. El espacio para códigos tiene 1 114 112 posiciones posibles (0x10FFFF).

Los puntos de código se representan utilizando notación hexadecimal agregando el prefijo U+. El valor hexadecimal se completa con ceros hasta 4 dígitos hexadecimales cuando es necesario; si es de longitud mayor que 4 dígitos no se agregan ceros.

Tipos de caracteres

Los bloques del espacio de códigos contienen puntos con la siguiente información:

Caracteres gráficos: letras, signos diacríticos, cifras, caracteres de puntuación, símbolos y espacios.

Caracteres de formato: caracteres invisibles que afectan al proceso del texto próximo. Ejemplos: U+2028 salto de línea, U+2029 salto de párrafo, U+00A0 espacio duro, etc.

Códigos de control: 65 códigos definidos por compatibilidad con ISO/IEC 2022. Son los caracteres entre en los rangos [U+0000,U+001F], U+007F y [U+0080..U+009F]. Interpretarlos es responsabilidad de protocolos superiores.

Caracteres privados: reservados para el uso fuera del estándar por fabricantes de software.

Caracteres reservados: códigos reservados para su uso por Unicode. Son posiciones no asignadas.

Puntos de código subrogados: Unicode reserva los puntos de código de U+D800 a U+DFFF para su uso como códigos subrogados en UTF-16, en la representación de caracteres suplementarios.

No caracteres: son códigos reservados permanentemente para uso interno por Unicode. Los dos últimos puntos de cada plano U+FFFE y U+FFFF.

Caracteres descartados: son caracteres que se retienen por compatibilidad con versiones anteriores, pero se debe evitar su uso.

Elementos del estándar Unicode

Principios de diseño

El estándar fue diseñado con los siguientes objetivos:

Universalidad: Un repertorio suficientemente amplio que albergue a todos los caracteres probables en el intercambio de texto multilingüe.

Eficiencia: Las secuencias generadas deben ser fáciles de tratar.

No ambigüedad: Un código dado siempre representa el mismo carácter.

Base de datos de caracteres

El conjunto de caracteres codificados por Unicode, es la UCD (Unicode carácter

database: base de datos de caracteres Unicode). Además de nombre y punto de código,

incluye más información: alfabeto al que pertenece, nombre, clasificación, mayúsculas,

orientación y otras formas de uso, variantes estandarizadas, reglas de combinación, etc.

Formalmente la base de datos se divide en planos y estos a su vez en áreas y bloques.

Con excepciones, los caracteres codificados se agrupan en el espacio de códigos

siguiendo categorías como alfabeto o sistema de escritura, de forma que caracteres

relacionados se encuentren cerca en tablas de codificación.

Planos

Por conveniencia se ha dividido el espacio de códigos en grandes grupos denominados

planos. Cada plano contiene un máximo de 65 535 caracteres. Dado un punto de código

expresado en hexadecimal, los 4 últimos dígitos determinan la posición del carácter en

el plano.

Plano básico multilingüe: BMP o plano 0. Contiene la mayor parte de los alfabetos modernos, incluyendo los caracteres más comunes del sistema CJK, otros caracteres históricos o poco habituales y 64 reservadas para uso privado.

Plano suplementario multilingüe: SMP o plano 1. Alfabetos históricos de menor uso y sistemas de uso técnico u otros usos.

Plano suplementario ideográfico: SIP o plano 2. Contiene los caracteres del sistema CJK que no se incluyen en el plano 0. La mayoría son caracteres muy raros o de interés histórico.

Plano de propósito especial: SSP o plano 14. Área para caracteres de control que no se han introducido en el plano 0.

Planos de uso privado: planos 15 y 16. Reservados para uso privado por fabricantes de software.

Áreas y bloques

Los distintos planos se dividen en áreas de direccionamiento en función de los tipos

generales que incluyen. Esta división es convencional, no reglada y puede variar con el

tiempo. Las áreas se dividen, a su vez, en bloques. Los bloques están definidos

normativamente y son rangos consecutivos del espacio de códigos. Los bloques se

utilizan para formar las tablas impresas de caracteres pero no deben tomarse como

definiciones de grupos significativos de caracteres.

Formas de codificación

Los puntos de código de Unicode se identifican por un número entero. Según su

arquitectura, un ordenador utilizará unidades de 8, 16 o 32 bits para representar dichos

enteros. Las formas de codificación de Unicode reglamentan la forma en que los puntos

de código se transformarán en unidades tratables por el computador.

Unicode define tres formas de codificación bajo el nombre UTF (Unicode

transformation format: formato de transformación Unicode):10

UTF-8: codificación orientada a byte con símbolos de longitud variable.

UTF-16: codificación de 16 bits de longitud variable optimizada para la representación

del plano básico multilingüe (BMP).

UTF-32: codificación de 32 bits de longitud fija, y la más sencilla de las tres.

Las formas de codificación se limitan a describir el modo en que se representan los

puntos de código en formato inteligible por la máquina. A partir de las 3 formas

identificadas se definen 7 esquemas de codificación.

Esquemas de codificación

Los esquemas de codificación tratan de la forma en que se serializa la información codificada. La seguridad en los intercambios de información entre sistemas heterogéneos requiere la implementación de sistemas que permitan determinar el orden correcto de los bits y bytes y garantizar que la reconstrucción de la información es correcta.

Una diferencia fundamental entre procesadores es el orden de disposición de los bytes en palabras de 16 y 32 bits, lo que se denomina endianness.

Los esquemas de codificación deben garantizar que los extremos de una comunicación saben cómo interpretar la información recibida. A partir de las 3 formas de codificación se definen 7 esquemas.

http://es.wikipedia.org/wiki/Unicode#cite_note-UNICODE-UTF-10

http://es.wikipedia.org/wiki/UTF-8

http://es.wikipedia.org/wiki/UTF-16

http://es.wikipedia.org/w/index.php?title=UTF-32&action=edit&redlink=1

http://es.wikipedia.org/wiki/Unidad_Central_de_Procesamiento

http://es.wikipedia.org/wiki/Endianness

A pesar de que comparten nombres, no debe confundirse esquemas y formas de codificación.

ESQUEMA DE CODIFICACION

ENDIANNESS ADMITE BOM

UTF-8 NO APLICABLE SI

UTF-16 BIG-ENDIAN O LITTLE ENDIAN

SI

UTF-16B BIG-ENDIAN NO

UTF-16LE LITTLE-ENDIAN NO

UTF-32 BIG-ENDIAN O LITTLE-ENDIAN

SI

UTF-32BE BIG-ENDIAN NO

UTF-32LE LITTLE-ENDIAN NO

Unicode define una marca especial, la marca de orden de bytes (BOM, Byte Order Mark), al inicio de un fichero o una comunicación para hacer explícita la ordenación de bytes. Cuando un protocolo superior especifica el orden de bytes, la marca no es necesaria y puede omitirse dando lugar a los esquemas de la lista anterior con sufijo BE o LE. En los esquemas UTF-16 y UTF-32, que admiten BOM, si este no se especifica se asume que la ordenación de bytes es big-endian.

La unidad de codificación en UTF-8 es el byte por lo que no necesita una indicación de orden de byte. El estándar ni requiere ni recomienda la utilización de BOM, pero lo admite como marca de que el texto es Unicode o como resultado de la conversión de otros esquemas.

http://es.wikipedia.org/wiki/Marca_de_orden_de_bytes_%28BOM%29

http://es.wikipedia.org/wiki/Endianness

Documents

Codigos Introduccion a La Computacion