Кодирование информации
Что такое кодирование?
Кодирование – это запись информации с помощью некоторой знаковой системы (языка).
?
Зачем кодируют информацию?
кодирование
Информация передается, обрабатывается и хранится в виде кодов.
данные (код)
10101001010
передача
данные (код)
11111100010
борьба с помехами (специальные способы кодирования)
передача
обработка
хранение
Языки
Язык – знаковая система, используемая для хранения и передачи информации.
- естественные (русский, английский, …) есть правила и исключения формальные (строгие правила)
- естественные (русский, английский, …) есть правила и исключения
- формальные (строгие правила)
Грамматика – правила по которым из символов алфавита строятся слова.
Синтаксис – правила, по которым из слов строятся предложения.
program qq;
begin
writeln("Привет!");
end.
Азбука Морзе
Задача 1. Закодируйте свое имя с помощью азбуки Морзе.
ВАСЯ
!
Код неравномерный, нужен разделитель!
Кодовые таблицы
Задача 2. Закодируйте свое имя с помощью кодовой таблицы ( Windows-1251 ):
0
C
D
1
А
2
Р
Б
С
В
3
Т
4
Г
У
5
Д
Ф
6
Е
7
Х
Ж
8
Ц
З
И
Ч
9
A
Ш
Й
К
Щ
B
C
Ъ
Л
М
D
Ы
E
Ь
Н
О
F
Э
Ю
П
Я
В
А
С
Я
ВАСЯ
С2 С0 D1 DF
!
Код равномерный, разделитель НЕ нужен!
Компьютер - основное средство для обработки текстовой информации (в настоящее время)
Историческое развитие персонального
компьютера
5
Текстовая информация
- информация, выраженная с помощью естественных
и формальных языков в письменной форме.
Примеры
Кодирование текстовой информации
- процесс её преобразования из формы,
удобной для непосредственного использования,
в форму, удобную для передачи, хранения, автоматической переработки и сохранения от несанкционированного доступа.
Прописные и строчные буквы русского алфавита
Прописные и строчные буквы латинского алфавита
Цифры
Специальные знаки
(знаки арифметических
действий,
знаки препинания и др.)
достаточно 256 различных символов
Информационный объем символа
N=2 I .
256 = 2 I .
2 8 =2 I .
I = 8 бит = 1 байт.
Чтобы закодировать каждый из 256 символов,
необходимо 8 бит или 1 байт информации.
Двоичное кодирования
текстовой информации
- преобразование изображения символа в его двоичный код.
уникальный десятичный код от 0 до 255
символ
или
соответствующий ему двоичный код
от до
1
0
0
1
1
0
0
1
0
1
0
1
0
1
0
1
Происходит при вводе в компьютер текстовой информации.
Человек
Компьютер
различает символы
по их начертанию
различает символы
по их двоичному коду
В
Б
1
1
0
0
0
0
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
1
1
0
А
Ввод в компьютер
текстовой информации
Двоичное кодирование
В компьютер поступает определенная последовательность
из восьми
электрических импульсов (двоичный код символа).
Пользователь
нажимает на клавиатуре
клавишу с символом.
А
1
1
0
0
0
0
0
0
Код символа хранится
в оперативной памяти компьютера,
где занимает одну ячейку.
Двоичное декодирование
текстовой информации
- обратный процесс двоичному кодированию.
Вывод символа
на экран компьютера
Двоичное декодирование
Преобразование кода символа в его изображение.
А
1
1
0
0
0
0
0
0
Кодовая таблица
– таблица, в которой фиксируется двоичный код,
присвоенный символу.
Коды с 128 по 256
– национальные.
0
128
33
127
256
32
Коды с 0 по 32
Коды с 33 по 127
соответствуют
– интернациональные –
соответствуют символам латинского
операциям
алфавита, цифрам, знакам арифметических
(перевод строки,
операций и знакам препинания.
ввод пробела и т.д.).
ASCII
(American Standard Code for Information Interchange)
– американский стандартный код для обмена информацией.
ASCII – базовая кодировка текста для латиницы.
ASCII кодирует первую половину символов
с числовыми кодами от 0 до 127.
Коды 0-32 – управляющие коды,
им не соответствуют никакие символы языков,
они не выводятся ни на экран, ни на устройства печати,
ими можно управлять тем, как производится вывод прочих данных.
Базовая таблица кодировки ASCII
Пять однобайтовых кодовых таблиц
для русских букв
Windows
КОИ-8
Mac
ISO
MS-DOS
Кодировка Windows
Является наиболее распространенной в настоящее время. Обозначается сокращением CP1251
(CP означает Code Page – кодовая страница).
Кодировка MS-DOS
Осталась со времени господства операционной системы MS DOS
(начало 90-х годов).
Кодировка КОИ-8
КОИ-8 (код обмена информацией, восьмизначный)
– один из первых стандартов кодирования русских букв.
Кодировка применялась еще в 70-е гг. XX в.,
а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.
Кодировка ISO
Была утверждена Международной организацией
по стандартизации (International Standards Organization, ISO)
в качестве стандарта для русского языка.
Кодировка Mac
Используется
на компьютерах
фирмы Apple,
работающих
под управлением операционной системы Mac OS.
Один двоичный код
- различные символы в разных кодовых таблицах.
Двоичный код
Десятичный код
11110000
240
ISO
КОИ-8
MS-DOS
Windows
Мас
№
П
Ё
р
р
Тексты, созданные в одной кодировке,
не будут правильно отражаться в другой.
Unicode
– новый международный стандарт,
в настоящее время получивший широкое распространение.
На каждый символ отводится 2 байта = 16 бит .
Можно закодировать 2 16 = 65 536 различных символов.
латинский
русский
цифры
знаки
математические символы
алфавит
алфавит
иврит
другие
греческий
арабский
алфавит
алфавит
алфавиты