- en
- Language: ru
- Documentation version: latest
Стандарт Юникод
Юникод - это стандарт, который описывает представление и кодировку почти всех языков и других символов.
Несколько фактов про Юникод:
стандарт версии 12.1 (май 2019) описывает 137 994 кодов
каждый код - это номер, который соответствует определенному символу
стандарт также определяет кодировки - способ представления кода символа в байтах
Каждому символу в Юникод соответствует определенный код. Это число,
которое обычно записывается таким образом: U+0073
, где 0073 - это
шестнадцатеричные цифры.
Кроме кода, у каждого символа есть свое уникальное имя. Например, букве
«s» соответствует код U+0073
и имя «LATIN SMALL LETTER S».
Примеры кодов, имен и соответствующих символов:
U+0073
, «LATIN SMALL LETTER S» - sU+00F6
, «LATIN SMALL LETTER O WITH DIAERESIS» - öU+1F383
, «JACK-O-LANTERN» - 🎃U+2615
, «HOT BEVERAGE» - ☕U+1f600
, «GRINNING FACE» - 😀
Кодировки
Кодировки позволяют записывать код символа в байтах.
Юникод поддерживает несколько кодировок:
UTF-8
UTF-16
UTF-32
Одна из самых популярных кодировок на сегодняшний день - UTF-8. Эта кодировка использует переменное количество байт для записи символов Юникод.
Примеры символов Юникод и их представление в байтах в кодировке UTF-8:
H -
48
i -
69
🛀 -
01 f6 c0
🚀 -
01 f6 80
☃ -
26 03