СДЕЛАЙТЕ СВОИ УРОКИ ЕЩЁ ЭФФЕКТИВНЕЕ, А ЖИЗНЬ СВОБОДНЕЕ

Благодаря готовым учебным материалам для работы в классе и дистанционно

Скидки до 50 % на комплекты
только до

Готовые ключевые этапы урока всегда будут у вас под рукой

Организационный момент

Проверка знаний

Объяснение материала

Закрепление изученного

Итоги урока

Лекция 4. Грид-технологии и Большие данные.

Категория: Информатика

Нажмите, чтобы узнать подробности

Грид-технология не является технологией параллельных вычислений, она предназначена для удаленного запуска отдельных задач на территориально распределенные ресурсы. Поэтому если громоздкая задача, которую необходимо решить, может быть разбита на большое количество маленьких, независимых (не обменивающихся никакими данными) частей, - грид-технология оказывается особенно эффективным и относительно дешевым решением. ... · массовая обработка потоков экспериментальных данных большого объема (зачастую изучаемое явление можно разделить на отдельные независимые события и экспериментальные результаты по каждому событию обрабатывать независимо от других)

Просмотр содержимого документа
«Лекция 4. Грид-технологии и Большие данные.»

Лекция 4 . Грид-технологии и Большие данные Курс лекций © М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

Лекция 4 . Грид-технологии и Большие данные

Курс лекций

© М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

Что такое грид-вычисления?  Грид-вычисления  ( от grid – решетка, сеть ) : - форма  распределенных вычислений, в которой «виртуальный суперкомпьютер» представлен в виде кластеров соединённых с помощью сети, слабосвязанных, гетерогенных компьютеров,  серверов, СХД, ЦОД, работающих вместе для выполнения очень большого объема вычислений (заданий, операций, работ). - географически распределённая инфраструктура, объединяющая множество ресурсов разных типов (процессоры, долговременная и оперативная память, хранилища и базы данных, сети), доступ к которым пользователь может получить из любой точки, независимо от места их расположения.  Преимущество распределённых вычислений - отдельная ячейка вычислительной системы может быть приобретена как обычный неспециализированный компьютер, т.е. вычислительные мощности суперкомпьютера, можно получить с гораздо меньшей стоимостью.  Распределенный характер грид-систем роднит их с распределенными информационными системами. © М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

Что такое грид-вычисления?

Грид-вычисления ( от grid – решетка, сеть ) :

- форма распределенных вычислений, в которой «виртуальный суперкомпьютер» представлен в виде кластеров соединённых с помощью сети, слабосвязанных, гетерогенных компьютеров, серверов, СХД, ЦОД, работающих вместе для выполнения очень большого объема вычислений (заданий, операций, работ).

- географически распределённая инфраструктура, объединяющая множество ресурсов разных типов (процессоры, долговременная и оперативная память, хранилища и базы данных, сети), доступ к которым пользователь может получить из любой точки, независимо от места их расположения.

Преимущество распределённых вычислений - отдельная ячейка вычислительной системы может быть приобретена как обычный неспециализированный компьютер, т.е. вычислительные мощности суперкомпьютера, можно получить с гораздо меньшей стоимостью.

Распределенный характер грид-систем роднит их с распределенными информационными системами.

© М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

История и примеры  Обосновали Я.Фостер, К.Киссельман, С.Тики в начале 90-х годов. Их определение: «грид-компьютинг - это скоординированное разделение ресурсов и решение задач в динамически меняющихся виртуальных организациях со многими участниками».  Метафора , обозначавшая возможность простого доступа к вычислительным ресурсам, как к электрической сети (аналог power grid )  Применяется преимущественно для научных исследований, требующих громадных вычислительных ресурсов.  Примеры:  большой адронный коллайдер самый большой в мире ускоритель элементарных частиц ( 85 % всех вычислительных задач сейчас выполняется вне ЦЕРНа ) ; проект Fusion - разработка метода получения электроэнергии с помощью термоядерного синтеза на экспериментальном реакторе (ТОКАМАК).  В России: Дубна (ОИЯИ), Москва (НИИЯФ МГУ, ФИАН, ИТЭФ), Протвино (ИФВЭ), Гатчина (ПИЯФ). В единую сеть с этими центрами связаны и центры других стран-участниц ОИЯИ — в Харькове, Минске, Ереване, Софии, Баку, Тбилиси. © М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

История и примеры

Обосновали Я.Фостер, К.Киссельман, С.Тики в начале 90-х годов. Их определение: «грид-компьютинг - это скоординированное разделение ресурсов и решение задач в динамически меняющихся виртуальных организациях со многими участниками».

Метафора , обозначавшая возможность простого доступа к вычислительным ресурсам, как к электрической сети (аналог power grid )

Применяется преимущественно для научных исследований, требующих громадных вычислительных ресурсов.

Примеры:

  • большой адронный коллайдер самый большой в мире ускоритель элементарных частиц ( 85 % всех вычислительных задач сейчас выполняется вне ЦЕРНа ) ;
  • проект Fusion - разработка метода получения электроэнергии с помощью термоядерного синтеза на экспериментальном реакторе (ТОКАМАК).

В России: Дубна (ОИЯИ), Москва (НИИЯФ МГУ, ФИАН, ИТЭФ), Протвино (ИФВЭ), Гатчина (ПИЯФ). В единую сеть с этими центрами связаны и центры других стран-участниц ОИЯИ — в Харькове, Минске, Ереване, Софии, Баку, Тбилиси.

© М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

Критерии грид-системы

Отцы-основатели видят 3 критерия. C истема называется грид, если она:

  • координирует использование ресурсов при отсутствии централизованного управления этими ресурсами (если это не так, мы имеем дело с локальной системой управления);
  • использует стандартные, открытые, универсальные протоколы и интерфейсы (если это не так, мы имеем дело со специализированной прикладной системой);
  • нетривиальным ( точнее, неаддитивным) образом обеспечивает высококачественное обслуживание (выгода от использования комбинированной системы значительно выше, чем от суммы ее отдельных частей) .

Грид-системы и суперкомпьютер

В обоих случаях используется принцип распараллеливания вычислений и имеется некоторое управляющее ПО .

В суперкомпьютерах – большое число процессоров объединяется локальной высокоскоростной шиной.

В грид-системах – вычислительные ресурсы, сконцентрированные в различных ЦОД (серверы со стандартными процессорами, СХД, ИБП и т. д. объединяются через сети (локальные и/или глобальные) при помощи стандартных протоколов.

© М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

Грид-системы и облако ( grid & cloud)

Я.Фостер: «Облака выросли из грид-вычислений и основываются на концепции инфраструктуры грид. Эволюция подхода заключается в том, что вместо предоставления "сырых" вычислительных ресурсов и ресурсов хранения данных, в облаках обеспечивается предоставление более абстрактных ресурсов в виде сервисов».

Различия

Грид-системы:

  • одна сложная задача распределяется на несколько вычислительных узлов, что обеспечивает высокую загрузку вычислительных ресурсов;
  • используются для исполнения задач за ограниченный промежуток времени;
  • ориентированы на решение отдельных научных задач посредством суперкомпьютерных систем;
  • строятся на базе нескольких компаний с четкими правилами взаимодействия и предоставления программно-аппаратных ресурсов;
  • предоставляют программно-аппаратную базу для развертывания вычислительной инфраструктуры;
  • интерфейсы ориентированы на взаимодействие посредством специального интерфейса, которым может воспользоваться только профессиональный программист.

Облачные вычисления

  • нескольких задач выполняются на одном физическом сервере, разделенном на виртуальные машины;
  • ориентированы на предоставление "долгоживущих" сервисов;
  • ориентированы на непрерывное предоставление определенных сервисов конечным пользователям;
  • позволяют любой компании использовать сервисы, оплачивая только те ресурсы, которые необходимы для решения ее собственных задач;
  • предоставляют интегрированный подход для всех моделей информационных услуг: IaaS, PaaS, SaaS;
  • для каждой модели (IaaS, PaaS, SaaS) предоставляется свой интерфейс, что позволяет удовлетворить потребности, как отдельных пользователей, так и корпоративных клиентов.
  • © М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

Big Data : Новое слово в ИТ?

Большие Данные - серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения результатов, доступных для восприятия человека. Этот подход актуален в условиях непрерывного прироста информации, увеличения ее неоднородности и распределенности по узлам вычислительной сети. Данный подход сформировался в конце 2000-х годов, как альтернативных традиционным СУБД и решениями класса бизнес аналитики ( BI - Business Intelligence ).

Характеризуются тремя большими « V » :

  • volume – объем ( терабайты - 2 40 , петабайты - 2 50 , экзабайты - 2 60 );
  • velocity – скорость ( и прироста данных, и их обработки, и выдачи по запросу; в идеале – в реальном масштабе времени);

3. v ariety - многообразие ( возможность одновременной обработки различных типов структурированных и неструктурированных данных - информации с сенсоров, поисковых систем, социальных сетей, медицинская и финансовая информация, SMS, мультимедиа: фотографии, презентации с графикой, музыкой, аудио и видео).

Есть еще две характеристики «Больших данных» — их ценность (принятие верного решения в нужный момент времени) и возможность работы с ними без предварительной подготовки данных.

© М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

 История:  статья  Клиффорда Линча «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?» в журнале « Nature » от 03.09.2008г.  Метафоры: аналог «Большой нефти», «Большой руде» и т.д.  По итогам 2011 года - явление номер два в информационной инфраструктуре после виртуализации.   Актуальность:  в 2013 году объем мировых данных превысил 1,2 зеттабайт (2 70 ), в 201 5 ожидалось уже 8 зеттабайт [ для справки, есть еще 1 йотабайт = 2 80 ] . Т.е. почти удвоение по закону Мура. Если записать 8 ZB на диски, то это будет примерно 20 стопок высотой от Земли до Луны.  Google - 31 миллиард запросов в месяц, в день обрабатывает более 1 петабайта.  Facebook – 750 миллионов пользователей, 10 млн. загрузок фотографий ежечасно. «Нравится» – 3 млрд. раз в день.  Twitter – 400 млн. обращений в день в 2012г. С увеличением в год на 200%. © М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

История: статья Клиффорда Линча «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?» в журнале « Nature » от 03.09.2008г.

Метафоры: аналог «Большой нефти», «Большой руде» и т.д.

По итогам 2011 года - явление номер два в информационной инфраструктуре после виртуализации.

Актуальность: в 2013 году объем мировых данных превысил 1,2 зеттабайт (2 70 ), в 201 5 ожидалось уже 8 зеттабайт [ для справки, есть еще 1 йотабайт = 2 80 ] . Т.е. почти удвоение по закону Мура. Если записать 8 ZB на диски, то это будет примерно 20 стопок высотой от Земли до Луны.

Google - 31 миллиард запросов в месяц, в день обрабатывает более 1 петабайта.

Facebook – 750 миллионов пользователей, 10 млн. загрузок фотографий ежечасно. «Нравится» – 3 млрд. раз в день.

Twitter – 400 млн. обращений в день в 2012г. С увеличением в год на 200%.

© М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

Области применения  военные применения (космическая и аэроразведка, мониторинг ситуации)  научные исследования (мониторинг среды, зондирование атмосферы, расшифровка генома человека);  медицина (обследование организма в целом, анализ аномалий генов конкретного человека, статистика);  коммерция (анализ влияния большого числа факторов на объемы продаж большого числа товаров). Основные тренды развития Сложность данных (данные могут быть как структурированными, так и неструктурированными). Сложность анализа (могут анализироваться одновременно изображения, видео, тексты, производиться распознавании образов т.д.). Растущие требования к бизнес аналитике  (прогнозирование в реальном масштабе времени). Меняющаяся экономика вычислений (облачные вычисления снижают стоимость хранения и обработки данных). Легкость и дешевизна распараллеливания обработки. © М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

Области применения

  • военные применения (космическая и аэроразведка, мониторинг ситуации)
  • научные исследования (мониторинг среды, зондирование атмосферы, расшифровка генома человека);
  • медицина (обследование организма в целом, анализ аномалий генов конкретного человека, статистика);
  • коммерция (анализ влияния большого числа факторов на объемы продаж большого числа товаров).

Основные тренды развития

  • Сложность данных (данные могут быть как структурированными, так и неструктурированными).
  • Сложность анализа (могут анализироваться одновременно изображения, видео, тексты, производиться распознавании образов т.д.).
  • Растущие требования к бизнес аналитике (прогнозирование в реальном масштабе времени).
  • Меняющаяся экономика вычислений (облачные вычисления снижают стоимость хранения и обработки данных).
  • Легкость и дешевизна распараллеливания обработки.

© М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

 1. Анализируются все данные, а не статистические выборки Для определения зоны распространения гриппа N1H1 специалисты Google выявили 45 из 50 миллионов условий поиска определенных лекарств и сравнив их с зонами распределения гриппа за 2003-2008 годы. Точность определения территорий распространения заболевания составила 97%. Стив Джобс продлил себе жизнь на несколько лет проанализировав свою ДНК полностью , что позволило врачам менять лекарства при мутациях его раковой опухоли. Компания Xoom , специализирующаяся на денежных переводах, проанализировав все данные по операциям с кредитными картами, обнаружила действия преступной группировки. Анализ результатов всех боев в борьбе сумо позволил выявить наиболее вероятные договорные бои. © М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

1. Анализируются все данные, а не статистические выборки

Для определения зоны распространения гриппа N1H1 специалисты Google выявили 45 из 50 миллионов условий поиска определенных лекарств и сравнив их с зонами распределения гриппа за 2003-2008 годы. Точность определения территорий распространения заболевания составила 97%.

Стив Джобс продлил себе жизнь на несколько лет проанализировав свою ДНК полностью , что позволило врачам менять лекарства при мутациях его раковой опухоли.

Компания Xoom , специализирующаяся на денежных переводах, проанализировав все данные по операциям с кредитными картами, обнаружила действия преступной группировки.

Анализ результатов всех боев в борьбе сумо позволил выявить наиболее вероятные договорные бои.

© М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

2. Отсутствие точности

В мире БД высокая точность невозможна – данные постоянно меняются, неупорядочены, разного качества, разбросаны по разным серверам иногда по всему миру.

Переводы Google охватывали миллионы страниц переводимых документов различного качества, взятых из интернет-контента. Система содержала триллион слов в 95 миллиардах англоязычных предложений сомнительного качества. К середине 2012 года служба охватила более 60 языков и способна принимать голосовой ввод с 14 языков для моментального перевода.

Индекс потребительских цен – опрос по ценам на 23 000 товаров в 90 городах США. Сканирование Web- страниц позволяет учесть стоимость 5 млн. товаров, хотя точность сведений гораздо ниже, чем при опросах.

Отсутствие жесткого структурирования записей в базах данных.

3. Корреляция, а не причинность

Отход от поиска причинностей: вместо причинностей – корреляции. Если мы знаем, что сочетание двух веществ излечивает определенную болезнь, то нам не так важно, почему это происходит.

Amazon - предложение книг не по тому, что покупал данный человек ранее, а по схожести самих книг, т.е. по корреляции содержания.

Walmart – повышенный спрос на тосты Рор-Т arts в период приближения стихийных бедствий.

© М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

Российские особенности  - основные потребители – банковский сектор (работа с клиентскими базами) и телеком (анализ абонентской базы);  - перспективны госсектор (электронное правительство) и медицина (быстрый анализ общего состояния пациента);  - ИТ-компании типа Google и Amazon , держатели больших объемов данных, пока отсутствуют, но перспективны «Яндекс», « Mail.ru »;  - научно-исследовательские организации могли бы использовать, но бюджеты маловаты;  - МСБ не имеет бюджетов для работы с БД;  - исследовательские центры EMC в Санкт-Петербурге и Сколково (биомедицина и энергоэффективность). © М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog

Российские особенности

- основные потребители – банковский сектор (работа с клиентскими базами) и телеком (анализ абонентской базы);

- перспективны госсектор (электронное правительство) и медицина (быстрый анализ общего состояния пациента);

- ИТ-компании типа Google и Amazon , держатели больших объемов данных, пока отсутствуют, но перспективны «Яндекс», « Mail.ru »;

- научно-исследовательские организации могли бы использовать, но бюджеты маловаты;

- МСБ не имеет бюджетов для работы с БД;

- исследовательские центры EMC в Санкт-Петербурге и Сколково (биомедицина и энергоэффективность).

© М.Е. Никитин, 2022 https://multiurok.ru/nikitin-me/blog


Скачать

Рекомендуем курсы ПК и ППК для учителей

Вебинар для учителей

Свидетельство об участии БЕСПЛАТНО!