- ru
- Language: en
- Documentation version: latest
Стандарт Юникод
Юникод - это стандарт, который описывает представление и кодировку почти всех языков и других символов.
Несколько фактов про Юникод:
стандарт версии 12.1 (май 2019) описывает 137 994 кодов
каждый код - это номер, который соответствует определенному символу
стандарт также определяет кодировки - способ представления кода символа в байтах
Каждому символу в Юникод соответствует определенный код. Это число,
которое обычно записывается таким образом: U+0073
, где 0073 - это
шестнадцатеричные цифры.
Кроме кода, у каждого символа есть свое уникальное имя. Например, букве
“s” соответствует код U+0073
и имя “LATIN SMALL LETTER S”.
Примеры кодов, имен и соответствующих символов:
U+0073
, “LATIN SMALL LETTER S” - sU+00F6
, “LATIN SMALL LETTER O WITH DIAERESIS” - öU+1F383
, “JACK-O-LANTERN” - 🎃U+2615
, “HOT BEVERAGE” - ☕U+1f600
, “GRINNING FACE” - 😀
Кодировки
Кодировки позволяют записывать код символа в байтах.
Юникод поддерживает несколько кодировок:
UTF-8
UTF-16
UTF-32
Одна из самых популярных кодировок на сегодняшний день - UTF-8. Эта кодировка использует переменное количество байт для записи символов Юникод.
Примеры символов Юникод и их представление в байтах в кодировке UTF-8:
H -
48
i -
69
🛀 -
01 f6 c0
🚀 -
01 f6 80
☃ -
26 03