1001011
Кодирование текстовой информации
9/30/19
Кодирование
Кодирование – это процесс преобразования информации из одной формы в другую, например:
A S C I I
Международный стандарт для кодирования символов – таблица кодировки ASCII (читается «аски»)
– American Standard Code for Information Interchange
– Американский стандартный код информационного обмена
Каждый символ заменяется на соответствующий ему код в данной таблице.
Кодирование 1 символа
- Для кодирования одного символа требуется 1 байт информации.
- Учитывая, что каждый бит может принимать одно из 2-х значений (1 или 0), получаем, что с помощью 1 байта (= 8 бит)можно закодировать 256 различных символов, т.к. 2 8 =256.
Unicode
– это новый международный стандарт для кодирования символов.
Он отводит на каждый символ 2 байта .
С его помощью можно закодировать
65 536 (2 16 = 65 536 ) различных символов.
В этой таблице кодируются русские, латинские, греческие буквы, китайские иероглифы, математические символы и др.
Сейчас, когда объем памяти компьютеров чрезвычайно вырос, уже нет нужды очень сильно экономить при кодировании текста. Можно тратить для хранения текста вдвое больше памяти (выделяя для каждого символа не 1, а 2 байта). При этом появляется возможность разместить в кодовой таблице не только буквы европейских алфавитов (латинского, кириллического, греческого), но и буквы арабского, грузинского и многих других языков и даже большую часть японских и китайских иероглифов. Ведь два байта могут хранить уже число от 0 до 65 535.
Недостаток кодировки Unicode - при разработке не учли одну букву украинского алфавита. Поэтому украинский - единственный кириллический язык, для которого на Макинтошах есть своя отдельная кодировка - Macintosh Ukrainian.
Юникод включает практически все современные письменности, в том числе: арабскую, армянскую, бенгальскую, бирманскую, греческую, грузинскую, деванагари, иврит, кириллицу, коптскую, кхмерскую, латинскую, тамильскую, хангыль, хань (Китай, Япония, Корея), чероки, эфиопскую, японскую (катакана, хирагана, кандзи) и другие.
сейчас на практике больше распространено представление Юникода UTF-8 (Unicode Transformation Format). UTF-8 обеспечивает наилучшую совместимость с системами, использующими 8-битные символы. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. Остальные символы Юникода изображаются последовательностями длиной от 2 до 4 байтов. В целом, так как самые распространенные в мире символы – символы латинского алфавита - в UTF-8 по-прежнему занимают 1 байт, такое кодирование экономичнее, чем чистый Юникод.