• ru
  • Language: en
  • Documentation version: latest

Стандарт Юникод

Юникод - это стандарт, который описывает представление и кодировку почти всех языков и других символов.

Несколько фактов про Юникод:

  • стандарт версии 12.1 (май 2019) описывает 137 994 кодов

  • каждый код - это номер, который соответствует определенному символу

  • стандарт также определяет кодировки - способ представления кода символа в байтах

Каждому символу в Юникод соответствует определенный код. Это число, которое обычно записывается таким образом: U+0073, где 0073 - это шестнадцатеричные цифры.

Кроме кода, у каждого символа есть свое уникальное имя. Например, букве “s” соответствует код U+0073 и имя “LATIN SMALL LETTER S”.

Примеры кодов, имен и соответствующих символов:

  • U+0073, “LATIN SMALL LETTER S” - s

  • U+00F6, “LATIN SMALL LETTER O WITH DIAERESIS” - ö

  • U+1F383, “JACK-O-LANTERN” - 🎃

  • U+2615, “HOT BEVERAGE” - ☕

  • U+1f600, “GRINNING FACE” - 😀

Кодировки

Кодировки позволяют записывать код символа в байтах.

Юникод поддерживает несколько кодировок:

  • UTF-8

  • UTF-16

  • UTF-32

Одна из самых популярных кодировок на сегодняшний день - UTF-8. Эта кодировка использует переменное количество байт для записи символов Юникод.

Примеры символов Юникод и их представление в байтах в кодировке UTF-8:

  • H - 48

  • i - 69

  • 🛀 - 01 f6 c0

  • 🚀 - 01 f6 80

  • ☃ - 26 03