Unicode es un estándar in­te­r­na­cio­nal para la co­di­fi­ca­ción, re­pre­se­n­ta­ción y pro­ce­sa­mie­n­to de ca­ra­c­te­res de texto de prá­c­ti­ca­me­n­te todos los sistemas de escritura del mundo. Cada carácter recibe un punto de código único que puede al­ma­ce­nar­se en distintas co­di­fi­ca­cio­nes como UTF-8 o UTF-16. Gracias a ello, Unicode permite una re­pre­se­n­ta­ción y un pro­ce­sa­mie­n­to uniformes de los textos en di­fe­re­n­tes pla­ta­fo­r­mas e idiomas.

Dominios web
Compra y registra tu dominio ideal
  • Tu dominio protegido con Ce­r­ti­fi­ca­do SSL Wildcard gratis
  • Función Domain Connect para una co­n­fi­gu­ra­ción DNS si­m­pli­fi­ca­da gratis
  • Registro privado y gratis para mayor seguridad

¿Qué es Unicode?

Unicode es el “estándar universal de co­di­fi­ca­ción de ca­ra­c­te­res”, su nombre deriva del término inglés “Universal Character Encoding”. Es un estándar para codificar ca­ra­c­te­res en re­pre­se­n­ta­ción binaria. Esto permite almacenar y procesar textos en sistemas digitales.

Unicode es innovador en el sentido de que no está atado a los formatos y co­di­fi­ca­cio­nes de un único alfabeto de lenguaje humano. Más bien, Unicode fue creado para servir como un estándar uniforme y re­pre­se­n­tar todos los sistemas de escritura y ca­ra­c­te­res de­sa­rro­lla­dos por el ser humano.

Desde el la­n­za­mie­n­to de Unicode 1.0 a finales de 1991, este estándar ha co­n­se­gui­do su propósito. Los na­ve­ga­do­res y los sistemas ope­ra­ti­vos utilizan Unicode in­te­r­na­me­n­te. Con la versión 16.0 publicada por el Consorcio Unicode en 2024, el estándar Unicode abarcaba ya un re­pe­r­to­rio de 154 998 ca­ra­c­te­res en total. El conjunto de ca­ra­c­te­res cubierto por el estándar Unicode coincide ple­na­me­n­te con el “Universal Coded Character Set” (UCS), que está no­r­ma­li­za­do in­te­r­na­cio­na­l­me­n­te como ISO/IEC 10646.

Bases técnicas de la co­di­fi­ca­ción de ca­ra­c­te­res

En primer lugar, es im­po­r­ta­n­te entender que toda la in­fo­r­ma­ción presente en un sistema digital consiste, a un nivel más profundo, en in­te­r­mi­na­bles cadenas de ceros y unos. Esto se denomina “re­pre­se­n­ta­ción binaria”. El código binario es en sí algo similar al alfabeto. Sin embargo, en el código binario solo hay dos “letras”: el cero y el uno. Cada dígito dentro de una secuencia binaria se llama “bit”.

El truco básico de la te­c­no­lo­gía de la in­fo­r­ma­ción digital consiste en mapear los ca­ra­c­te­res de di­fe­re­n­tes alfabetos como se­cue­n­cias de ceros y unos. De esta forma, se pueden codificar números y letras, pero también todas sus posibles variantes. En general se habla de “símbolos”. Cuanto más larga sea la secuencia de ceros y unos para la re­pre­se­n­ta­ción de un solo símbolo, más símbolos se podrán re­pre­se­n­tar. El número de símbolos posibles se duplica con cada bit añadido.

Un ejemplo concreto: ima­gi­ne­mos que tenemos “palabras” binarias, que tienen dos bits de longitud. Se podrían codificar cuatro números con ellos:

Palabra de 2 bits Número
00 0
01 1
10 2
11 3

Si añadimos otro bit al principio de la secuencia, el número de palabras bit posibles se duplica. Se trataría de las se­cue­n­cias de bits ya conocidas, cada una precedida por un cero o un uno. Podríamos codificar ocho números:

Palabra de 3 bits Número
000 0
001 1
010 2
011 3
100 4
101 5
110 6
111 7
Hecho

Una palabra de 8 bits se denomina octeto o byte.

De manera simple, hemos mostrado la co­di­fi­ca­ción de los números como ejemplo. Sin embargo, se utiliza el mismo principio también en sistemas digitales para la co­di­fi­ca­ción de letras o cualquier carácter. Este es un ejemplo muy si­m­pli­fi­ca­do de co­di­fi­ca­ción binaria de letras:

Palabra de 3 bits Letra
000 A
001 B
010 C

La re­pre­se­n­ta­ción gráfica de un carácter se llama glifo. De­pe­n­die­n­do de la fuente utilizada, puede haber di­fe­re­n­tes glifos para el mismo carácter, e incluso dentro de una misma fuente pueden existir varias variantes de un glifo. Un ejemplo de esto son los di­fe­re­n­tes estilos, como los pesos, ligaduras o cursivas. A co­n­ti­nua­ción, se muestra una re­pre­se­n­ta­ción ampliada que abarca la asi­g­na­ción del carácter al glifo:

Re­pre­se­n­ta­ción binaria Decimal Carácter co­di­fi­ca­do Glifo
1000001 65 “A” mayúscula del alfabeto latino A
1100001 97 “A” minúscula del alfabeto latino a
0110000 48 “0” árabe 0
0111001 57 “9” árabe 9
11000100 196 “Ä” mayúscula Ä
11000001 193 “Á” mayúscula Á

Te­r­mi­no­lo­gía de la co­di­fi­ca­ción de ca­ra­c­te­res

La co­di­fi­ca­ción digital de ca­ra­c­te­res abarca una serie de conceptos es­pe­cí­fi­cos. En español, algunos términos se usan de manera in­te­r­ca­m­bia­ble. Para poder dar una de­fi­ni­ción precisa de Unicode, también te mostramos aquí los términos en inglés:

Término Si­g­ni­fi­ca­do Término en inglés
Conjunto de ca­ra­c­te­res Grupo de ca­ra­c­te­res posibles, por ejemplo, dígitos “0-9”, letras “a-z”, etc. Character set
Punto de código Número asignado a un carácter es­pe­cí­fi­co dentro del dominio del código. Code point
Conjunto de ca­ra­c­te­res co­di­fi­ca­do Asi­g­na­ción de cada carácter a exac­ta­me­n­te un punto de código Coded character set
Co­di­fi­ca­ción de ca­ra­c­te­res Proceso de co­n­ve­r­sión de un carácter a una es­tru­c­tu­ra técnica, por ejemplo, una re­pre­se­n­ta­ción binaria. Character encoding

Resumen de las co­di­fi­ca­cio­nes de ca­ra­c­te­res más comunes

Antes de la llegada de Unicode, existía una gran variedad de co­di­fi­ca­cio­nes es­pe­cí­fi­cas. La norma era utilizar una co­di­fi­ca­ción distinta para cada lengua o familia li­n­güí­s­ti­ca. Esto a menudo llevaba a errores de re­pre­se­n­ta­ción e in­cohe­re­n­cias en los datos. Para co­n­tra­rre­s­tar eso, las nuevas co­di­fi­ca­cio­nes de ca­ra­c­te­res se modelaron a menudo como la revisión de un estándar existente co­m­pa­ti­ble con versiones an­te­rio­res. Por ejemplo, el estándar Unicode actual se basa en la anterior co­di­fi­ca­ción de ca­ra­c­te­res ISO Latin-1, que a su vez se basa en la co­di­fi­ca­ción ASCII.

Co­di­fi­ca­ción Bits por carácter Ca­ra­c­te­res posibles Conjunto de ca­ra­c­te­res
ASCII 7 bits 128 Letras, números y ca­ra­c­te­res es­pe­cia­les del teclado es­ta­dou­ni­de­n­se, así como ca­ra­c­te­res de control para teletipo
ISO Latin-1 (ISO 8859-1) 8 bits 256 Primeros 128 ca­ra­c­te­res como ASCII, otros 128 ca­ra­c­te­res para los ca­ra­c­te­res es­pe­cia­les de las lenguas europeas
Universal Coded Character Set 2 (UCS-2) 16 bits 65 536 Ca­ra­c­te­res del “Basic Mu­l­ti­li­n­gual Plane” (BMP); los primeros 256 ca­ra­c­te­res son los de ISO Latin-1
Universal Coded Character Set 4 (UCS-4) 32 bits 1 114 111 Ca­ra­c­te­res del BMP y otros ca­ra­c­te­res; un total de 143 859 ca­ra­c­te­res en la versión 13.0 de Unicode; los primeros 256 ca­ra­c­te­res como ISO Latin-1
UCS Tra­n­s­fo­r­ma­tion Format 8 Bit (UTF-8) 8/16/24/32 bits 1 114 111 Cualquier carácter de UCS-2 y UCS-4; los primeros 256 ca­ra­c­te­res como ISO Latin-1

Es­tru­c­tu­ra del estándar Unicode

El estándar Unicode define los ca­ra­c­te­res y los puntos de código co­rre­s­po­n­die­n­tes para letras, ca­ra­c­te­res silábicos, ideo­gra­mas, signos de pu­n­tua­ción, ca­ra­c­te­res es­pe­cia­les y números. Además del alfabeto latino, se admiten los alfabetos griego, cirílico, árabe, hebreo y tailandés. También acepta las es­cri­tu­ras japonesas (hiragana y katakana), china y coreana (hangul). Presenta a su vez ca­ra­c­te­res es­pe­cia­les ma­te­má­ti­cos, co­me­r­cia­les y técnicos, así como ca­ra­c­te­res de control hi­s­tó­ri­cos para teletipo.

Los ca­ra­c­te­res se resumen en una serie de tablas de ca­ra­c­te­res. A co­n­ti­nua­ción, ofrecemos un resumen de las tablas de ca­ra­c­te­res más comunes.

Sistemas de escritura del estándar Unicode

Tabla de ca­ra­c­te­res Contiene, entre otros, estos alfabetos
Sistemas de escritura europeos Armenio, georgiano, griego y latín
Sistemas de escritura africanos Etíope, je­ro­glí­fi­cos egipcios, coptos
Sistemas de escritura de Oriente Medio Árabe, hebreo, sirio
Sistemas de escritura de Asia Central Mongol, tibetano y turco antiguo
Sistemas de escritura del sur de Asia Brahmi, tamil y védico
Sistemas de escritura del sudeste asiático Khmer, rohinyá y tailandés
Sistemas de escritura de Indonesia y Oceanía Balinés, buginés y javanés
Sistemas de escritura de Asia oriental CJK (chino, japonés, coreano), hangul (coreano), hiragana (japonés)
Sistemas de escritura ame­ri­ca­nos Cheroqui, silabario ca­na­die­n­se, osage

Símbolos y pu­n­tua­ción del estándar Unicode

Tabla de ca­ra­c­te­res Contiene, entre otros, estos signos
Pu­n­tua­ción Signos de pu­n­tua­ción de la lengua inglesa, signos de pu­n­tua­ción de las lenguas europeas, signos de pu­n­tua­ción CJK
Símbolos al­fa­nu­mé­ri­cos Símbolos ma­te­má­ti­cos, letras ci­r­cu­la­das
Símbolos técnicos Símbolos del lenguaje de pro­gra­ma­ción APL, símbolos para el re­co­no­ci­mie­n­to óptico de textos
Números y cifras Números mayas, números otomanos siyaq, números de la escritura cu­nei­fo­r­me sumeria
Símbolos ma­te­má­ti­cos Flechas, ope­ra­do­res ma­te­má­ti­cos, formas geo­mé­tri­cas
Emojis y pi­c­to­gra­mas Emo­ti­co­nos, dingbats, otros pi­c­to­gra­mas
Otros símbolos Símbolos al­quí­mi­cos, signos de moneda, signos de ajedrez, dominó y mahjong
Sistemas de notación Patrones braille, notación musical, ta­qui­gra­fía duployana

¿Para qué se utiliza Unicode?

El estándar Unicode sirve pri­n­ci­pa­l­me­n­te como base universal para procesar, almacenar e in­te­r­ca­m­biar textos en cualquier idioma. La mayoría de los co­m­po­ne­n­tes de software modernos, como bi­blio­te­cas, pro­to­co­los, bases de datos, etc., que operan con texto, se basan en Unicode. Te mostramos el abanico de posibles apli­ca­cio­nes con los si­guie­n­tes ejemplos:

Sistemas ope­ra­ti­vos

Unicode es el estándar interno para la asi­g­na­ción de texto en la mayoría de los sistemas ope­ra­ti­vos modernos. Algunos sistemas ope­ra­ti­vos, como macOS de Apple, permiten el uso de ca­ra­c­te­res Unicode en los nombres de archivos.

Páginas web

La variante Unicode UTF-8 se ha co­n­ve­r­ti­do en el estándar para codificar do­cu­me­n­tos HTML. Ya en 2016, más del 80 % de las páginas web más visitadas del mundo uti­li­za­ban UTF-8 para almacenar y mostrar sus do­cu­me­n­tos HTML. Para el uso de letras no ASCII en los nombres de dominio, se ha es­ta­ble­ci­do el estándar Punycode.

Crear una página web
Estás de suerte, tu página web ahora con IA
  • Creador de páginas web rápido e intuitivo
  • Imágenes y textos in­s­ta­n­tá­neos con SEO op­ti­mi­za­do por IA
  • Dominio, SSL y buzón de correo ele­c­tró­ni­co incluidos

Lenguajes de pro­gra­ma­ción

Muchos lenguajes de pro­gra­ma­ción modernos utilizan Unicode como base para procesar el texto. Un avance más reciente es la po­si­bi­li­dad de utilizar ca­ra­c­te­res Unicode para nombrar variables y funciones. Esto es posible en EC­MA­S­cri­pt/Ja­va­S­cri­pt, entre otros. Lo re­pre­se­n­ta­mos en el siguiente código:

let ︎👍 = true;
let 👎 = false;
if (bool_var === ︎👎) {
 // …
}
ja­va­s­cri­pt

Bases de datos

La popular y am­plia­me­n­te utilizada base de datos MySQL es co­m­pa­ti­ble con el conjunto completo de ca­ra­c­te­res Unicode con la co­di­fi­ca­ción de ca­ra­c­te­res “utf8mb4”. Sin embargo, cuando se utiliza la co­di­fi­ca­ción de ca­ra­c­te­res “utf8”, los ca­ra­c­te­res cuyo punto de código supera los 3 bytes se pierden.

Fuentes

Las fuentes contienen los glifos uti­li­za­dos para la re­pre­se­n­ta­ción gráfica del texto. Debido al gran número de ca­ra­c­te­res que contiene el estándar Unicode, no hay ninguna fuente que contenga todos los ca­ra­c­te­res. Incluso el su­b­co­n­ju­n­to Basic Mu­l­ti­li­n­gual Plane solo está co­m­ple­ta­me­n­te cubierto por unas pocas fuentes. He aquí algunos ejemplos:

Fuente Unicode Glifos Licencia
Noto Alrededor de 77 000 Open Font License
Sun-ExtA/B Alrededor de 50 000 Freeware
Unifont Alrededor de 63 000 GNU GPL
Code2000 Alrededor de 63 000 Shareware
HiDrive
Almacena y comparte tus datos
  • Almacena, comparte y edita archivos fá­ci­l­me­n­te
  • Centros de datos europeos con ce­r­ti­fi­ca­ción ISO
  • Alta seguridad de los datos, conforme con el RGPD

¿Cómo se utiliza Unicode?

Muchas veces, los usuarios utilizan Unicode sin saberlo. El texto digital existe en la mayoría de los do­cu­me­n­tos y apli­ca­cio­nes como Unicode y puede ser copiado, pegado y editado por el usuario a voluntad. A veces surge la necesidad de que el usuario inserte un carácter Unicode es­pe­cí­fi­co en el texto. Hay varias formas de hacerlo, que pre­se­n­ta­mos a co­n­ti­nua­ción:

Teclados de software es­pe­cia­les

El uso de teclados de software es­pe­cia­les es pro­ba­ble­me­n­te el método más común para insertar ca­ra­c­te­res Unicode en el texto. Om­ni­pre­se­n­tes en los di­s­po­si­ti­vos móviles, los teclados de software permiten cambiar de idioma y utilizar sus co­rre­s­po­n­die­n­tes alfabetos. Esto cambia la asi­g­na­ción de teclas, con todos los ca­ra­c­te­res pro­ce­de­n­tes del re­pe­r­to­rio Unicode. Los ca­ra­c­te­res pueden mezclarse y co­m­bi­nar­se entre sí en los textos.

Un buen ejemplo de ello son los emojis: en Unicode, los emojis son ca­ra­c­te­res fre­cue­n­tes como letras, números y ca­ra­c­te­res es­pe­cia­les. Como es habitual en los ca­ra­c­te­res digitales, la re­pre­se­n­ta­ción de los emojis es in­de­pe­n­die­n­te de su modelado interno. Cada sistema operativo re­pre­se­n­ta los emojis de una manera li­ge­ra­me­n­te diferente.

Los útiles teclados de software no solo se en­cue­n­tran en los di­s­po­si­ti­vos móviles. También están presentes en el es­cri­to­rio. Se pueden abrir fá­ci­l­me­n­te en Windows, macOS, y muchas di­s­tri­bu­cio­nes de Linux y muestran un conjunto diferente de ca­ra­c­te­res en función del idioma se­le­c­cio­na­do. Como el número de teclas es limitado, no se re­pre­se­n­tan todos los ca­ra­c­te­res Unicode. Se ofrece más bien una selección de los ca­ra­c­te­res más comunes según el idioma.

Tablas de ca­ra­c­te­res Unicode

Además de los teclados de software, las tablas de ca­ra­c­te­res Unicode son pro­ba­ble­me­n­te la forma más útil de acceder a los ca­ra­c­te­res Unicode. Como re­co­r­da­to­rio, un conjunto de ca­ra­c­te­res co­di­fi­ca­dos (“Coded character set”) es el conjunto de todos los ca­ra­c­te­res junto a sus puntos de código únicos co­rre­s­po­n­die­n­tes. Para una es­tru­c­tu­ra de este tipo, la di­s­po­si­ción en forma de tabla es muy útil, y de hecho el estándar Unicode incluye exac­ta­me­n­te estas tablas, llamadas Code Charts. Por un lado, se pueden copiar ca­ra­c­te­res es­pe­cí­fi­cos de estas tablas para uti­li­zar­los en otros lugares. Por otro lado, los usuarios pueden leer el punto de código co­rre­s­po­n­die­n­te, por ejemplo, para uti­li­zar­lo como una re­fe­re­n­cia de carácter numérico.

Muchos sistemas ope­ra­ti­vos de es­cri­to­rio también contienen una tabla de ca­ra­c­te­res Unicode. Esta ofrece una visión general de todos los ca­ra­c­te­res Unicode di­s­po­ni­bles, incluidos el punto de código, la de­s­cri­p­ción y el glifo. Se puede insertar o copiar cualquier carácter con un clic. También se puede crear una tabla de ca­ra­c­te­res con unas pocas líneas de código. Más adelante en este artículo te mo­s­tra­re­mos un ejemplo en el lenguaje de pro­gra­ma­ción Python.

Re­fe­re­n­cia de carácter numérico

El estándar Unicode se centra en la asi­g­na­ción de ca­ra­c­te­res a puntos de código. Si conoces el punto de código de un carácter, puedes uti­li­zar­lo para insertar el carácter co­rre­s­po­n­die­n­te en di­fe­re­n­tes contextos. En Windows, la inserción de símbolos Unicode se realiza desde el teclado hardware normal uti­li­za­n­do una co­m­bi­na­ción de teclas especial. Ten en cuenta que el número de puntos de código debe in­tro­du­ci­r­se no­r­ma­l­me­n­te en notación he­xa­de­ci­mal.

La mayoría de las veces, los pro­gra­ma­do­res necesitan las re­fe­re­n­cias de ca­ra­c­te­res numéricos. La re­pre­se­n­ta­ción he­xa­de­ci­mal de los puntos de código permite mapear un carácter Unicode en ca­ra­c­te­res del conjunto ASCII. Aquí mostramos el pro­ce­di­mie­n­to en HTML; en principio, esto funciona igual de bien en Python, C++, etc.

El esquema general para incluir un carácter por re­fe­re­n­cia numérica incluye la re­fe­re­n­cia en sí, así como una te­r­mi­na­ción de apertura y cierre. En los do­cu­me­n­tos HTML, la re­fe­re­n­cia numérica se abre con &#x y se cierra con ;”. En medio, se introduce el punto de código he­xa­de­ci­mal de dos a cuatro ca­ra­c­te­res sin espacios. El resultado es el patrón &#xNNNN;.

Por ejemplo, para in­tro­du­cir el signo de copyright “©” en un documento HTML, se procede de la siguiente manera:

  1. Se busca el carácter en una tabla Unicode
  2. Se lee el punto de código co­rre­s­po­n­die­n­te al carácter. En nuestro ejemplo, el punto de código se indica como “U+00A9”, que co­rre­s­po­n­de a la re­pre­se­n­ta­ción he­xa­de­ci­mal.
  3. Se compone la re­fe­re­n­cia del carácter y se inserta en el código fuente HTML o en un documento Markdown. En nuestro caso, in­tro­du­ci­mos ©, lo que genera el carácter re­n­de­ri­za­do “©”.

Otro enfoque re­la­cio­na­do, aunque menos frecuente, permite el uso de puntos de código en notación decimal en lugar de he­xa­de­ci­mal. En este caso, la re­fe­re­n­cia numérica comienza con &# (sin la “x”) y termina con ; como antes. Entre ambos se escribe el punto de código en formato decimal. En el caso de nuestro ejemplo, la re­fe­re­n­cia numérica es © para el símbolo de copyright.

Consejo

Utiliza el inspector de ca­ra­c­te­res Unicode para obtener rá­pi­da­me­n­te los di­fe­re­n­tes códigos de un carácter

Entidades de carácter

Dado que escribir los ca­ra­c­te­res Unicode como re­fe­re­n­cias numéricas no es intuitivo para los humanos, existe otro método. Se trata de las entidades de carácter. Se definen para los ca­ra­c­te­res de uso común y asignan un nombre corto y fácil de recordar al carácter. Una entidad de carácter comienza con el símbolo et & y termina con un punto y coma ;. Entre ellos, el nombre definido se coloca sin espacios. Para insertar el signo de copyright “©” en HTML, basta con escribir ©.

Consejo

La lista completa de entidades de carácter definidas está di­s­po­ni­ble en estándar HTML.

Lenguajes de pro­gra­ma­ción

La mayoría de los lenguajes de pro­gra­ma­ción contienen funciones básicas que pueden uti­li­zar­se para convertir ca­ra­c­te­res y puntos de código. Las funciones co­rre­s­po­n­die­n­tes suelen llamarse ord(carácter) y chr(punto de código). Se aplica lo siguiente:

chr(ord(carácter)) == Carácter

Ten en cuenta que siempre es posible de­te­r­mi­nar el punto de código co­rre­s­po­n­die­n­te a un carácter. Por el contrario, el mapeado solo funciona para los números que se definen realmente como puntos de código de ca­ra­c­te­res. Aquí mostramos el esquema básico uti­li­za­n­do un breve ejemplo de Python:

# Determinar el punto de código decimal de un carácter
ord('A') # `65`
# Determinar el punto de código hexadecimal de un carácter
hex(ord('A')) # `0x41`
# Determinar el carácter que pertenece al punto de código
chr(65) # `'A'`
chr(0x41) # `'A'`
chr(0x110001) # Error, ya que el punto de código > `0x110000`
python

Con la ayuda de estas funciones, es posible crear fá­ci­l­me­n­te una tabla de ca­ra­c­te­res para los puntos de código del conjunto de ca­ra­c­te­res Unicode. Esto se hace iterando los puntos de código y emitiendo los ca­ra­c­te­res co­rre­s­po­n­die­n­tes. Con Python, esto se hace en unas pocas líneas de código:

# `range` comienza en `32` porque los caracteres de control salen con un valor menor
# Establecer conjunto de caracteres ASCII 
for code_point in range(32, 128):
	print(code_point, hex(code_point), chr(code_point))
# Establecer ISO Latin-1 
for code_point in range(32, 256):
	print(code_point, hex(code_point), chr(code_point))
python

Bi­blio­te­ca de programas ICU

Los co­m­po­ne­n­tes in­te­r­na­cio­na­les para Unicode (“In­te­r­na­tio­nal Co­m­po­ne­nts for Unicode”, ICU), se combinan en una bi­blio­te­ca de programas pro­po­r­cio­na­da por el Consorcio Unicode. La bi­blio­te­ca se publica bajo una licencia de código abierto y puede uti­li­zar­se en muchos sistemas ope­ra­ti­vos. El software se utiliza para la in­te­r­na­cio­na­li­za­ción pro­gra­má­ti­ca (“in­te­r­na­tio­na­li­za­tion”, a menudo abreviado como “i18n”). Sus áreas de apli­ca­ción incluyen:

  • Tra­ta­mie­n­to de textos Unicode
  • Soporte de ex­pre­sio­nes regulares en Unicode
  • Análisis y formato de los datos del ca­le­n­da­rio, la hora, los números, las monedas y los mensajes

La bi­blio­te­ca ICU está di­s­po­ni­ble en dos versiones:

  • “icu4c” está escrito en C/C++ y pro­po­r­cio­na una API para estos lenguajes.
  • “icu4j” está escrito en Java y pro­po­r­cio­na una API para este lenguaje.

El uso de los co­m­po­ne­n­tes ofrece re­su­l­ta­dos co­n­si­s­te­n­tes in­de­pe­n­die­n­te­me­n­te de la pla­ta­fo­r­ma su­b­ya­ce­n­te.

Es­pe­ci­fi­ca­ción del conjunto de ca­ra­c­te­res en la cabecera de los do­cu­me­n­tos HTML

La mayoría de los do­cu­me­n­tos HTML actuales están co­di­fi­ca­dos en UTF-8. Para ase­gu­rar­se de que los vi­si­ta­n­tes de la página vean el documento sin ca­ra­c­te­res in­co­rre­c­tos, se debe colocar una etiqueta meta con la de­cla­ra­ción del “Charset” en la sección Head del documento HTML. Esto le dice al navegador que in­te­r­pre­te el documento cargado como UTF-8, y tiene la siguiente apa­rie­n­cia:

<head>
<meta charset="utf-8">
<!—otros elementos de la cabecera -->
</head>
html

Fuentes de Instagram

La popular red social Instagram no permite formatear el texto en la biografía, pu­bli­ca­cio­nes o historias. Esto limita las po­si­bi­li­da­des creativas de los usuarios. Sin embargo, algunos de­sa­rro­lla­do­res han en­co­n­tra­do una solución ingeniosa: Instagram utiliza Unicode, lo que permite componer textos que parecen estar fo­r­ma­tea­dos a partir de ca­ra­c­te­res es­pe­cia­les. En pa­r­ti­cu­lar, se utilizan ca­ra­c­te­res que se asemejan a las letras latinas. La manera más sencilla de generar este tipo de texto es uti­li­za­n­do un generador de fuentes de Instagram. Además, el uso de fuentes de Instagram también funciona en otras redes sociales.

Ir al menú principal