Количество информации
- Вероятностный подход к определению количества информации
- Алфавитный подход к определению количества информации
- Формула Шеннона
Количество информации как мера уменьшения неопределенности знаний
Информация и знания. Человек получает информацию из окружающего мира с помощью органов чувств, анализирует ее и выявляет существенные закономерности с помощью мышления, хранит полученную информацию в памяти. Процесс систематического научного познания окружающего мира приводит к накоплению информации в форме знаний (фактов, научных теорий и так далее). Таким образом, с точки зрения процесса познания информация может рассматриваться как знания .
Процесс познания можно наглядно изобразить в виде расширяющегося круга знания (такой способ придумали еще древние греки). Вне этого круга лежит область незнания, а окружность является границей между знанием и незнанием. Парадокс состоит в том, что чем большим объемом знаний обладает человек (чем шире круг знаний), тем больше он ощущает недостаток знаний (тем больше граница нашего незнания. мерой которого в этой модели является длина окружности) –
Так, объем знаний выпускника школы гораздо больше, чем объем знаний первоклассника, однако и граница его незнания существенно больше. Действительно, первоклассник ничего не знает о законах физики и поэтому не осознает недостаточности своих знаний, тогда как выпускник школы при подготовке к экзаменам по физике может обнаружить, что существуют физические законы, которые он не знает или не понимает.
Уменьшение неопределенности знаний
Пусть у нас имеется монета, которую мы бросаем на ровную поверхность. С равной вероятностью произойдет одно из двух возможных событий - монета окажется в одном из двух положений: "орел" или "решка".
Перед броском существует неопределенность наших знаний (возможны два события), и, как упадет монета, предсказать невозможно. После броска наступает полная определенность, так как мы видим (получаем зрительное сообщение), что монета в данный момент находится в определенном положении (например, "орел"). Это сообщение приводит к уменьшению неопределенности наших знаний в два раза, так как до броска мы имели два вероятных события, а после броска - только одно, то есть в два раза меньше
В окружающей действительности достаточно часто встречаются ситуации, когда может произойти некоторое количество равновероятных событий. Так, при бросании равносторонней четырехгранной пирамиды существуют 4 равновероятных события, а при бросании шестигранного игрального кубика - 6 равновероятных событий. Чем больше количество возможных событий, тем больше начальная неопределенность и соответственно тем большее количество информации будет содержать сообщение о результатах опыта.
Минимальной единицей измерения количества информации является бит, а следующей по величине единицей является байт, причем 1 байт = 2 3 бит = 8 бит
Так, кратные байту единицы измерения количества информации вводятся следующим образом:
1 Кбайт = 2 10 байт = 1024 байт; 1 Мбайт = 2 10 Кбайт = 1024 Кбайт; 1 Гбайт = 2 10 Мбайт = 1024 Мбайт.
Количество возможных событий и количество информации.
N=2 I
N – количество возможных событий
I – количество информации
По этой формуле можно легко определить количество возможных событий, если известно количество информации. Например, если мы получили 4 бита информации, то количество возможных событий составляло:
N = 2 4 = 16.
Наоборот, для определения количества информации, если известно количество событий, необходимо решить показательное уравнение относительно /. Например, в игре "Крестики-нолики" на поле 8x8 перед первым ходом существует 64 возможных события (64 различных варианта расположения "крестика"), тогда уравнение принимает вид:
64 = 2 I .
Так как 64 = 2 6 , то получим:
2 6 = 2 I .
Таким образом, I = 6 битов, то есть количество информации, полученное вторым игроком после первого хода первого игрока, составляет 6 битов.
Алфавитный подход к определению количества информации
При определении количества информации на основе уменьшения неопределенности наших знаний мы рассматриваем информацию с точки зрения содержания, ее понятности и новизны для человека. С этой точки зрения в опыте по бросанию монеты одинаковое количество информации содержится и в зрительном образе упавшей монеты, и в коротком сообщении "Орел", и в длинной фразе "Монета упала на поверхность земли той стороной вверх, на которой изображен орел".
Однако при хранении и передаче информации с помощью технических устройств целесообразно отвлечься от содержания информации и рассматривать ее как последовательность знаков (букв, цифр, кодов цветов точек изображения и так далее).
Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события). Тогда, если считать, что появление символов в сообщении равновероятно, по формуле (2.1) можно рассчитать, какое количество информации несет каждый символ.
В русском алфавите, если не использовать букву ё, количество событий (букв) будет равно 32. Тогда:
32 = 2 I , откуда I = 5 битов.
Каждый символ несет 5 битов информации (его информационная емкость равна 5 битов). Количество информации в сообщении можно подсчитать, умножив количество информации, которое несет один символ, на количество символов.
Количество информации , которое содержит сообщение, закодированное с помощью знаковой системы, равно количеству информации, которое несет один знак, умноженному на количество знаков.
I = i * K
I - Количество информации , которое содержит сообщение
I - количеству информации, которое несет один знак
K = количество знаков.
Формула Шеннона
Существует множество ситуаций, когда возможные события имеют различные вероятности реализации. Например, если монета несимметрична (одна сторона тяжелее другой), то при ее бросании вероятности выпадения "орла" и "решки" будут различаться.
Формулу для вычисления количества информации в случае различных вероятностей событий предложил К. Шеннон в 1948 году. В этом случае количество информации определяется по формуле:
где I - количество информации; N - количество возможных событий; р i - вероятность i-го события.
Например, пусть при бросании несимметричной четырехгранной пирамидки вероятности отдельных событий будут равны:
Р 1 = 1/2, р 2 = 1/4, р 3 = 1/8, р 4 = 1/8.
Тогда количество информации, которое мы получим после реализации одного из них, можно рассчитать по формуле (2.2):
I = -(l/2 log 2 l/2 + l/4 log 2 l/4 + l/8 log 2 l/8 + l/8 log 2 l/8) = (1/2 + 2/4 + 3/8 + 3/8) битов = 14/8 битов = 1,75 бита.
При бросании симметричной пирамидки, когда события равновероятны, мы получим большее количество информации (2 бита), чем при бросании несимметричной (1,75 бита), когда события неравновероятны.
Количество информации, которое мы получаем, достигает максимального значения , если события равновероятны .
Выбор оптимальной стратегии в игре "Угадай число"
На получении максимального количества информации строится выбор оптимальной стратегии в игре "Угадай число", в которой первый участник загадывает целое число (например, 3) из заданного интервала (например, от 1 до 16), а второй - должен "угадать" задуманное число. Если рассмотреть эту игру с информационной точки зрения, то начальная неопределенность знаний для второго участника составляет 16 возможных событий (вариантов загаданных чисел).
При оптимальной стратегии интервал чисел всегда должен делиться пополам, тогда количество возможных событий (чисел) в каждом из полученных интервалов будет одинаково и отгадывание интервалов равновероятно. В этом случае на каждом шаге ответ первого игрока ("Да" или "Нет") будет нести максимальное количество информации (1 бит).
Как видно из таблицы, угадывание числа 3 произошло за четыре шага, на каждом из которых неопределенность знаний второго участника уменьшалась в два раза за счет получения сообщения от первого участника, содержащего 1 бит информации. Таким образом, количество информации, необходимое для отгадывания одного из 16 чисел, составило 4 бита.
Вопрос второго участника
Ответ первого участника
Неопределенность знаний (количество возможных событий)
Число больше 8?
Число больше 4?
Полученное количество информации
16
Нет
Число больше 2?
Нет
8
Число 3?
Да
1 бит
4
1 бит
2
Да
1 бит
1
1 бит