СДЕЛАЙТЕ СВОИ УРОКИ ЕЩЁ ЭФФЕКТИВНЕЕ, А ЖИЗНЬ СВОБОДНЕЕ

Благодаря готовым учебным материалам для работы в классе и дистанционно

Скидки до 50 % на комплекты
только до

Готовые ключевые этапы урока всегда будут у вас под рукой

Организационный момент

Проверка знаний

Объяснение материала

Закрепление изученного

Итоги урока

Мастер-класс "Сжатие информации".

Категория: Прочее

Нажмите, чтобы узнать подробности

Просмотр содержимого документа
«Мастер-класс "Сжатие информации".»

Мастер-класс «Сжатие информации»

Привет всем коллегам, с кем успела перейти на «ты».

- Скажите, пожалуйста, а какие из фраз, может быть слова мы употребляем каждый день, ежедневно, очень часто?

Конечно, спасибо.

Спасибо, замечательно, запомните, пожалуйста эти варианты они нам сейчас пригодятся. В ходе выполнения заданий и ответов на вопросы вы будете получать элементы пазла, который сложите в конце мастер-класса.

Итак, «Кто владеет информацией, тот владеет миром».

- Как вы думаете, кому принадлежит эта фраза?

Эту фразу часто приписывают Уинстону Черчиллю, хотя на самом деле ее автором является Натан Майер Ротшильд, английский банкир, который в 1 половине 19 века спонсировал английскую военную кампанию против Наполеона. Он прославился тем, что, когда узнал о поражении Наполеона в битве при Ватерлоо, он моментально прибыл на лондонскую биржу и сокрушаясь о том, что Наполеон битву выиграл, начал продавать английские ценные бумаги. Его примеру, последовали множество тех, кто на бирже торговал. Его тайные агенты эти бумаги скупали. Когда через день выяснилось, что Наполеон битву проиграл, оказалось, что Ротшильд успел разбогатеть на 40 млн. фунтов. Этот день считается первым в переходе общества в стадию информационного. То есть такого общества, в котором информация является главной мировой ценностью.

- Скажите, пожалуйста, может ли быть главной мировая ценность без возможности её каким -то образом измерить или оценить?

Конечно, нет. Не будем говорить много умных слов об измерении информации. Лучше всего нам об этом расскажет следующая фотография. Перед вами один из дата -центров компании google, который находится в городе Архаминг Финляндии.

- Зачем нужны дата-центры?

Вот это огромное здание, я думаю можно оценить его масштабы, предназначено исключительно для хранения информации. Таких дата-центров только у компании google сотни, а сколько еще существует компаний сосчитать достаточно сложно. И вы понимаете, что затраты на постройку, на обслуживание этого здания очень большие.

- Можно ли каким- нибудь образом минимизировать затраты, то есть, чтобы такой же дата- центр, с такой же функциональностью хранил больше информации, можно ли что -нибудь сделать с этой информацией, чтобы туда влезло больше?

Конечно. Именно об этом я сегодня и хочу с вами поговорить. Тема моего мастер- класса «Сжатие информации».

В основе сжатия информации лежит очень простой принцип: чем чаще встречается или передается информация, тем короче она должна быть. Вспомните, пожалуйста, слова, которые вы произносили 2 минуты назад: здравствуйте, спасибо, как дела. Отметим, что эти слова, которые мы произносим очень часто, являются очень короткими. Эта тенденция общая для всех видов информации, как для таких естественных как текст, так и для тех, которые люди изобретают сами.

Наверняка любой из вас хотя бы раз в жизни смотрел такую замечательную игру как футбол.

- Скажите, пожалуйста, когда судья во время мачта делает вот так (свистит в свисток). Что это значит?

Остановка игры, нарушение правил, хорошо.



- Когда он делает вот так? (свистит в свисток и показывает желтую карточку).

- Что означает желтая карточка? Предупреждение. Хорошо.



- А вот так? (свистит в свисток, показывает красную карточку и показывает рукой с указательным пальцем в сторону).

Удаление игрока с поля, абсолютно верно.


- Скажите, пожалуйста, на какое из этих трех действия я затратила больше времени, а на какое меньше?



На удаление – больше, на предупреждение – меньше и на остановку игры еще меньше.

- А что в матче встречается чаще, а что реже?


Абсолютно верно. Остановка чаще, удаление реже всего.

То есть тенденция совершенно очевидна. Именно ей мы воспользуемся для того, чтобы сжимать информацию.

Рассмотрим пример – русскую скороговорку «Проворонила ворона вороненка». Это вороненок, теперь вы видели все.

- Как в литературе называется прием, основанный на повторении букв или звуков с целью создания определенного настроения?

аллитерация.

А мы с вами используем этот прием для того, чтобы очень хорошо эту скороговорку сжать.

- Скажите, пожалуйста, как буквы встречаются здесь наиболее часто?

О, Р, Н. Спасибо. Абсолютно верно.

Давайте выпишем все буквы, которые входят в эту скороговорку, включая пробелы и выпишем сколько раз они сюда входят в порядке убывания.

О вы встречаете здесь 7 раз, Н - 4, Р – 4, остальные числа вы видите перед собой на экране. Обратите внимание, что пробел является полноценным символом, который входит в эту скороговорку. Всего она занимает 28 символов, а это значит, что если мы будем хранить в памяти компьютера, то в самом лучшем случае она займет…

- Сколько байт?

28 байт или

- Сколько бит?

224 бита информации. Отметим это.

Теперь выпишем ни сколько раз встречаются эти буквы, а частоты их вхождения. Для того, чтобы узнать частоты, нужно поделить количество раз, которое вошла буква в текст, на количество всех букв. Частоты символов в этой скороговорке следующие: 0,25, то есть 7 раз которые встретилась буква О мы делим на 28, получаем 0,25. Остальные посчитаны по такому же принципу и тоже выписаны в порядке убывания.

Сейчас мы будем сжимать этот текст по одному из существующих методов, он называется методом Шеннона – Фано, по фамилиям ученых, которые его изобрели. Здесь придется считать в уме. Принцип основан на следующем. Мы должны сейчас вот в этом столбце провести горизонтальную черту между какими-то двумя буквами, таким образом, чтобы суммы частот сверху и снизу от черты были как можно ближе друг к другу.

- Скажите пожалуйста, где можно провести эту черту?

После буквы Р. Спасибо большое. Вы правы. Сумма частот сверху получается 0,53, а снизу 0,47.

Дальше мы берем верхнюю группу и приписываем к ней 0, а к нижней 1. Итак будем делать каждый раз.

Дальше у нас есть две группы. Группа верхняя, группа нижняя. С каждой из них мы делаем абсолютно тоже самое.

- Где в верхней группе нужно провести горизонтальную черту, чтобы суммы частот сверху и снизу от этой черты были как можно ближе друг к другу?

После О, абсолютно верно. В нижней группе это будет после пробела.

Абсолютно так же верхней половинке приписываем 0, нижней – 1.

А теперь обратим внимание на то, что буква О осталась в своей группе одна, а это значит, что мы можем выписать ее двоичный код. Идем от буквы О направо и выписываем все 0 и 1, которые встречаем по пути. Код буквы О: 00.

Берем следующую группу, в которую сейчас входят буквы Н и Р, она делится на две половинки единственным возможным способом. А это значит, что мы сразу можем выписать коды.

Какие будут коды у букв Н и Р?

Спасибо большое.

Абсолютно таким же способом мы продолжаем выполнять этот алгоритм. Мы можем выписать код буквы А, дальше сразу две группы делятся только на две половинки, и мы сразу выписываем еще пять кодов, последними остаются буквы Л и П. Мы получаем для них достаточно длинные коды. И это очень хорошо, потому что мы помним, что они встречались реже всего, а значит они будут закодированы наиболее длинными цепочками нулей и единиц. Это соответствует принципам, в соответствии с которым мы кодируем информацию.

- Я попрошу зал у каждого человека, в котором есть листочек с другой скороговоркой. Она звучит как «У ежа - ежата, у ужа - ужата». Закодировать этот текст, то есть получить коды для каждого символа, входящего в эту скороговорку.

В то время, когда зал будет по методу Шеннона-Фано искать коды для этих символов, я попрошу фокус-группу, у которой есть листочки с уже посчитанными кодами выполнить очень важное задание, я попрошу оценить насколько сильно нам удастся эту скороговорку сжать. То есть посмотреть, сколько нулей и единиц войдет в код, полученной скороговорки, если ее закодировать. Пожалуйста, считайте. Метод перед вами на экране. На всякий случай напоминаю, что всегда верхней половинке мы присваиваем 0, а нижней – 1.

К ЗАЛУ:

- Может быть кто-нибудь получил код буквы А?

Спасибо. 01.

Для остальных? Спасибо большое! Замечательно. Очень хорошо, спасибо!

Давайте с вами начнем сверятся. Итак, частоты символов перед вами на доске, сравним с вами те коды, которые вы успели получить.

Коды перед вами на доске.

У меня вопрос к фокус -группе:

- Скажите, пожалуйста, удалось ли вам посчитать, сколько нулей и единиц займет полученный двоичный код?

78, спасибо. И так значит скороговорка вместе со всеми пробелами запятыми, которые кодируются абсолютно, как обычные символы занимала абсолютно также 28 байт, то есть 224 бита, после сжатия она стала занимать 78 бит из- за того, что некоторая информация в виде часто встречающихся символов повторялась очень часто, мы смогли вы сжать ее почти в 3 раза.

Давайте поговорим о проблемах, которые связаны со сжатием информации.

Информация подобна материи и принципы сжатия информации напоминают принципы сжатия материи.

Сейчас мы проведем эксперимент, а точнее, даже 3. В качестве информации у нас будут выступать абсолютно одинаковые пледы. А сжатая информация – те же самые пледы, но в пакете.

1 пара - ваша задача как вы понимаете - сжать информацию, поместив плед в пакет. На выполнение задания у вас есть ровно 5 секунд. Ваше время пошло.

2 пара - выполните аналогичную задачу, но ваше время 7 секунд. Время пошло.

3 пара – ваше время 7 секунд, но перед этим у вас 5 секунд договориться, как вы будете это делать.

Вопрос к первой паре: с какими проблемами столкнулись?

То есть, фактически вам не удалось сжать информацию. А раз ее не удалось сжать, то и невозможно восстановить, конечно самое главное требование к сжатию информации – это возможность обратимости, то есть возможность восстановить исходную информацию после сжатия.

Вопрос ко второй паре: удалось ли вам эффективно выполнить поставленную задачу?

Времени мало, пакет маленький, объём большой. Таким образом, мы сталкиваемся с таким моментом, как скорость сжатия: у вас было больше времени и вам было необходимо поддерживать определенную скорость.

Методы сжатия, работающие долго на практике неприменимы.

Вопрос к третьей паре: о чем вы договаривались?

О методе сжатия, о степени сжатия, абсолютно верно.

Вот три момента, на которые при сжатии информации обязательно необходимо обращать внимание, каким бы видом эта информации не была представлена.

Где и как любой из вас может использовать сжатие информации в вашей предметной области, однозначного ответа на этот вопрос нет, потому что существует огромное количество видов этой информации.

Поскольку ни об одном из существующих ныне алгоритмов сжатия информации достоверно неизвестно, что он является оптимальным, возможно именно вы или кто-нибудь из ваших учеников сможет изобрести такой алгоритм, который даже попадет в книгу рекордов Гиннесса.

- Соберите пазл из полученных фрагментов. Какое высказывание перед вами?

Дерзайте и помните, что тот кто владеет информацией, тот…Спасибо за внимание!

Доброе утро, здравствуйте, спасибо, как дела?







1 элемент пазла




нет











Нет







2 элемент пазла

это специализированное здание для размещения (хостинга) серверного и сетевого оборудования

3 элемент пазла

сжать информацию














4 элемент пазла

остановка игры, нарушение правил




5 элемент пазла

предупреждение



6 элемент пазла

удаление игрока с поля


меньше – остановка игры, больше – удаление с поля




остановка чаще, удаление реже всего







7 элемент пазла

аллитерация






О, Р, Н











8 элемент пазла

28 байт

9 элемент пазла

224 бита
















после Р










после О





после буквы Р










после О









Н- 010

Р – 011










01









10 элемент пазла

78