СДЕЛАЙТЕ СВОИ УРОКИ ЕЩЁ ЭФФЕКТИВНЕЕ, А ЖИЗНЬ СВОБОДНЕЕ

Благодаря готовым учебным материалам для работы в классе и дистанционно

Скидки до 50 % на комплекты
только до

Готовые ключевые этапы урока всегда будут у вас под рукой

Организационный момент

Проверка знаний

Объяснение материала

Закрепление изученного

Итоги урока

Практическая работа №21 Работа с Дата - сетами.

Категория: Информатика

Нажмите, чтобы узнать подробности

Дисциплина:  БД.08 «Информатика»

Прикладной модуль 1. Основы аналитики и визуализации данных.

Цель работы: Получить практические навыки пользования Дата – сетами при анализа данных.

Просмотр содержимого документа
«Практическая работа №21 Работа с Дата - сетами.»

Группа Т(О), ТГ(О), С(О)–24-02, 2025 год


Занятие по рабочей программе №29

Дисциплина: БД.08 «Информатика»

Прикладной модуль 1. Основы аналитики и визуализации данных.

Тема: Практическая работа №21 Работа с Дата - сетами.

  1. Цель занятия:
                  1. Дидактическая:

  • сформулировать представление студентов и получить практические навыки работы с Дата - сетами;

  • выяснить назначение применения ПО во время выполнения работы;

  • систематизировать и объяснить сущность работы с потоками данных;

  • определение основ аналитики и визуализации данных в принятии решений;

  • углубить и закрепить знания по дисциплине «Информатика».

Воспитательная:

  • развивать коммуникативные способности;

  • развивать аналитические способности;

  • развивать творческий подход к процессу обучения.

  • воспитывать самостоятельность, дисциплинированность;

  • стимулировать студентов к изучению дисциплины;

  • побуждать к формированию активной жизненной позиции;

  • прививать уважение и любовь к будущей профессии.

Вид занятия: практическая работа.

Тип занятия: обобщение и систематизация знаний.

Форма проведения занятия: репродуктивная и эвристическая беседа.

Междисциплинарные связи:

Обеспечивающие Математика, Охрана труда, Безопасность жизнедеятельности.

Обеспечиваемые

Информационные технологии в профессиональной деятельности, и др.

Методическое обеспечение: опорный конспект.

Литература:

  1. Филимонова, Е. В. Информатика и информационные технологии в профессиональной деятельности: учебник / Е. В. Филимонова. – Москва: Юстиция, 2019. – 213 с. – (Среднее профессиональное образование). - ISBN 978-5-4365-2703-1.

  2. Зимин, В. П.  Информатика. Лабораторный практикум в 2 ч. Часть 1 : учебное пособие для среднего профессионального образования / В. П. Зимин. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2023. — 126 с. — (Профессиональное образование). — ISBN 978-5-534-11851-3. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/514893


ХОД ЗАНЯТИЯ

  1. Ознакомление с темой, целью и планом занятия.

Тема: ПР №21 Работа с Дата - сетами.

Цель работы: Получить практические навыки пользования Дата – сетами при анализа данных.

ПЛАН

  1. Датасет - что это такое?

  2. Перечень основных терминов, связанных с датасетами.

  3. Типы датасетов и их структура.

  4. Применение в различных областях.

  5. Создание и подготовка.

  6. Характеристики качества и надежности данных.

  7. Датасеты для машинного обучения и анализа данных.


  1. Изложение и изучение нового материала, практическая работа.


ЛИТЕРАТУРА: [5], стр.


1. Датасет - что это такое?

В эпоху информационных технологий и Big Data понимание того, что такое датасет, становится незаменимым навыком для широкого круга профессий. Датасет, или набор данных, – это совокупность данных, систематизированных в определённом формате, представляющих собой базовый элемент для работы с данными во многих отраслях.

 Датасеты играют ключевую роль в самых разнообразных областях – от научных исследований и машинного обучения до бизнес-аналитики и управления проектами. Они служат для хранения и анализа информации, обучения алгоритмов, создания моделей прогнозирования, и многое другое.

Прежде чем начать работу с датасетом, важно понимать его структуру и принципы организации внутри него. Обычно датасет организован в виде таблицы, где каждая строка представляет собой отдельное наблюдение или экземпляр, а столбцы – признаки или переменные, характеризующие каждое наблюдение.


2. Перечень основных терминов, связанных с датасетами

Термин

Описание

Датасет

Совокупность данных, систематизированных в определённом формате.


Наблюдение

Отдельный экземпляр в датасете, обычно представленный одной строкой.

Признак

Переменная, характеризующая каждое наблюдение, обычно представленная одним столбцом.

Структурированные данные

Данные, которые имеют строго определённую структуру (например, таблицы в базе данных).

Неструктурированные данные

Данные, не имеющие предопределенной структуры или формата (например, тексты, изображения).


Понимание датасетов – ключ к усвоению многих современных методов работы с данными.


3. Типы датасетов и их структура

В зависимости от типа и структуры данных, существуют различные типы датасетов. Они могут быть разделены на три основные категории: структурированные, полу структурированные и неструктурированные датасеты.

Структурированные датасеты содержат информацию, которая строго организована и легко распознается машинами. Примером могут быть таблицы в БД, где каждый столбец имеет определенный тип данных (числовой, строковый, даты и т.д.), а каждая строка представляет собой одну запись.

Полу структурированные датасеты содержат информацию, которая имеет некоторую структуру, но не такую строгую, как в структурированных датасетах. Примером такого типа могут быть файлы JSON или XML, которые имеют иерархическую структуру, но типы данных могут отличаться от записи к записи.

Неструктурированные датасеты включают данные без определенной формы или структуры. Это могут быть тексты, изображения, видео и др., которые не могут быть легко разбиты на столбцы и строки.

Независимо от типа датасета, его основные элементы остаются одинаковыми: наблюдения (или экземпляры) и признаки. Наблюдение — это отдельный объект или экземпляр, описанный в датасете, а признаки — это характеристики или свойства, которые описывают каждое наблюдение.

Тип датасета

Структура

Примеры

Структурированный

Данные организованы в таблицах, каждый столбец имеет определенный тип данных

Базы данных SQL, CSV файлы

Полу структурированный

Имеют некоторую структуру, но без строгой типизации

Файлы JSON, XML

Неструктурированный

Без определенной формы или структуры

Тексты, изображения, видео

Понимание типов датасетов и их структуры помогает выбрать правильные инструменты и методы для работы с ними, а также оптимизировать процессы сбора, хранения и анализа данных.


4. Применение в различных областях

Датасеты являются основой для работы с данными в самых разных отраслях. Ниже мы кратко рассмотрим, как они используются в трех ключевых областях: машинное обучение, научные исследования и бизнес-аналитика.

Машинное обучение.

Датасеты служат основой для обучения моделей машинного обучения. Они предоставляют информацию, на основе которой алгоритмы учатся находить закономерности, предсказывать результаты или классифицировать объекты. Важно отметить, что качество и релевантность датасета во многом определяют эффективность обучения модели.

Научные исследования.

В науке датасеты используются для проведения экспериментов, исследования феноменов и проверки гипотез. В разных областях науки используются разные типы датасетов — от биологических данных до социологических опросов.

Бизнес-аналитика.

В сфере бизнеса датасеты используются для анализа деятельности компании, изучения рынка, клиентов и конкурентов, а также для прогнозирования бизнес-трендов. С помощью анализа датасетов компании могут выявлять потенциальные возможности для роста и определять риски.

При работе с датасетами важно понимать, что их использование подчиняется этическим и юридическим нормам. Следует уважительно относиться к данным, особенно если они касаются личной информации людей. Кроме того, при работе с данными следует учитывать возможные искажения и предвзятости, которые могут влиять на выводы и прогнозы.


5. Создание и подготовка

Процесс создания датасета требует тщательного планирования и подготовки. Первым шагом является определение цели и области применения. Это поможет вам определить, какие данные нужны, в каком формате они должны быть представлены, и как их можно собрать.

  • Сбор. Существуют различные методы сбора данных, включая непосредственное наблюдение, опросы, интервью, анализ уже существующих данных, и т.д. Источник данных может сильно влиять на его качество и релевантность.

  • Очистка. После сбора следует провести их очистку. Это процесс, в котором отбрасываются нерелевантные, повторяющиеся или ошибочные данные. Очистка также может включать их преобразование в нужный формат или структуру.

  • Обработка и трансформация. Этот шаг включает преобразование информации в формат, который можно использовать для анализа. Это может включать преобразование неструктурированных данных в структурированные, нормализацию, кодирование категориальных признаков и т.д.

  • Анализ. После обработки и подготовки, датасет готов к анализу. Здесь можно использовать различные методы и подходы в зависимости от вашей цели, включая статистический анализ, машинное обучение, визуализацию и другие.

    Следует помнить, что этот процесс может варьироваться в зависимости от конкретной задачи, доступных данных и используемых инструментов.

    6. Характеристики качества и надежности данных 

    Характеристика

    Описание

    Точность

    Данные представляют реальность без ошибок и искажений

    Полнота

    Все необходимые данные присутствуют в датасете

    Согласованность

    Согласованы и не имеют противоречий

    Актуальность

    Отражают текущую реальность, они своевременны

    Достоверность

    Их можно проверить и подтвердить


    В современном мире датасеты играют ключевую роль во многих областях, от науки до бизнеса. Они предоставляют необходимую информацию для анализа и принятия решений, а также служат основой для обучения моделей машинного обучения. Работа с датасетами требует понимания их структуры, процессов сбора и подготовки данных, а также особенностей использования в различных областях. Помимо этого, необходимо всегда помнить о важности качества и надежности данных.


    7. Датасеты для машинного обучения и анализа данных


    Для машинного обучения (и не только) требуется много хороших данных. Вместо того чтобы собирать их самому, можно воспользоваться готовыми датасетами.

    Можно было бы собрать их самостоятельно, но это утомительно. Здесь нам на помощь приходят готовые датасеты в самых разных категориях:

    • Где искать датасеты

    • Государственные датасеты

    • Данные о жилье

    • Экономика и финансы

    • Компьютерное зрение

    • Анализ тональности

    • Обработка естественного языка

    • Автопилоты

    • Медицинские данные

    Где искать датасеты

    • Google Dataset Search. Dataset Search позволяет по ключевому слову искать датасеты по всей Сети.

    • Kaggle. Площадка для соревнований по машинному обучению с множеством интересных датасетов. В списке датасетов можно найти разные нишевые экземпляры — от оценок рамена до баскетбольных данных NCAA  и базы лицензий на домашних животных в Сиэтле.

    Знакомство с Kaggle: изучаем науку о данных на практике tproger.ru

    UCI Machine Learning Repository. Один из старейших источников датасетов в Сети и первое место, куда стоит заглянуть в поиске интересных датасетов. Хотя они добавляются пользователями и потому имеют различную степень «чистоты», большинство из них очищены. Данные можно скачивать сразу, без регистрации.

    • VisualData. Датасеты для компьютерного зрения, разбитые по категориям. Доступен поиск.

    • Find Datasets | CMU Libraries. Коллекция датасетов, предоставленная университетом Карнеги Меллон.

    Датасеты общего назначения

    Государственные датасеты

    • Data.gov. Здесь можно найти данные от разных государственных учреждений США. Они варьируются от государственных бюджетов до школьных оценок.

    • Food Environment Atlas. Содержит данные о том, как различные факторы (близость магазинов/ресторанов, цены на продукты и тому подобное) влияют на выбор продуктов и качество питания в США.

    • School system finances. Данные о финансах школьных систем в США.

    • Chronic disease data. Данные о показателях хронических заболеваний на территории США.

    • The US National Center for Education Statistics. Данные об образовательных учреждениях и образовательной демографии в США и во всём мире.

    • The UK Data Service. Крупнейшая в Великобритании коллекция социальных, экономических и демографических данных.

    • Data USA. Исчерпывающая визуализация общедоступных данных США.

    Данные о жилье

    • Boston Housing Dataset. Содержит информацию о жилье в Бостоне, собранную бюро переписи населения США. Она была получена из архива StatLib и широко использовалась в литературе для оценки алгоритмов.

    Экономика и финансы

    • Quandl. Хороший источник экономических и финансовых данных — полезен при построении моделей для прогнозирования экономических показателей или цен на акции.

    • World Bank Open Data. Наборы данных, охватывающих демографическую ситуацию, огромное количество экономических показателей и индикаторов развития со всего мира.

    • IMF Data. Международный валютный фонд публикует данные о международных финансах, показателях долга, валютных резервах, инвестициях и ценах на сырьевые товары.

    • Financial Times Market Data. Актуальная информация о финансовых рынках со всего мира, которая включает индексы цен на акции, товары и валюту.

    • Google Trends. Изучайте и анализируйте данные о поисковой активности в Интернете и трендах по всему миру.

    • American Economic Association (AEA). Хороший источник данных о макроэкономике США.

    Датасеты для машинного обучения

    Компьютерное зрение

    • xView. Один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок.

    • Labelme. Большой датасет аннотированных изображений.

    • ImageNet. Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии.

    • LSUN. Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных.

    • MS COCO. Крупномасштабный датасет для обнаружения и сегментации объектов.

    • COIL100. 100 разных объектов, изображённых под каждым углом в круговом обороте.

    • Visual Genome. Датасет с ~100 тыс. подробно аннотированных изображений.

    • Google’s Open Images. Коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.

    • Labelled Faces in the Wild. Набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.

    • Stanford Dogs Dataset. Содержит 20 580 изображений из 120 пород собак.

    • Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.

    Анализ тональности текста

    • Multidomain sentiment analysis dataset. Немного устаревший датасет, который содержит отзывы на товары с Amazon.

    • IMDB reviews. Староватый, относительной небольшой (25 000 отзывов к фильмам) датасет для бинарного анализа тональности.

    • Stanford Sentiment Treebank. Стэндфордский датасет для анализа тональности.

    • Sentiment140. Популярный датасет с 160 000 твитов с удалёнными смайликами.

    • Twitter US Airline Sentiment. Набор данных из Twitter об авиакомпаниях США, датируемый февралём 2015 года, разделённый на положительные, негативные и нейтральные твиты.

    Обработка естественного языка

    • HotspotQA Dataset. Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом.

    • Enron Dataset. Данные электронной почты от высшего руководства Enron.

    • Amazon Reviews. Содержит около 35 млн. отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва.

    • Google Books Ngrams. Коллекция слов из Google Книги.

    • Blogger Corpus. Коллекция из 681 288 постов с Blogger. Каждый блог содержит как минимум 200 вхождений часто используемых английских слов.

    • Wikipedia Links data. Датасет, состоящий из веб-страниц, которые удовлетворяют следующим двум условиям: каждая из них содержит хотя бы одну ссылку на Википедию и текст её якоря совпадает или похож на заголовок целевой страницы.

    • Gutenberg eBooks List. Аннотированный список электронных книг проекта «Гуттенберг».

    • Hansards text chunks of Canadian Parliament. Датасет с 1.3 миллионами пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента.

    • Jeopardy. Архив с более чем 200 000 вопросов с телевикторины Jeopardy.

    • Rotten Tomatoes Reviews. Архив из более чем 480 000 рецензий с Rotten Tomatoes.

    • SMS Spam Collection in English. Датасет, состоящий из 5574 спам-смс на английском.

    • Yelp Reviews. Датасет от Yelp, содержащий более 5 млн. отзывов.

    • UCI’s Spambase. Большой датасет спам-писем.

    Автопилоты

    • Berkeley DeepDrive BDD100k. На данный момент это самый большой датасет для автопилотов. Он содержит более 100 000 видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях.

    • Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и т. д.

    • Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.

    • Oxford’s Robotic Car. Более ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ.

    • Cityscape Dataset. Большой датасет, содержащий записи ста уличных сцен в 50 городах.

    • KUL Belgium Traffic Sign Dataset. Более 10 000 аннотаций тысяч разных светофоров в Бельгии.

    • LISA. Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets. Датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения.

    • Bosch Small Traffic Light Dataset. Датасет с 24 000 аннотированных светофоров.

    • LaRa Traffic Light Recognition. Ещё один датасет для распознавания светофоров.

    • WPI datasets. Датасет для распознавания светофоров, пешеходов и дорожной разметки.

    Медицинские данные

    • MIMIC-III. Датасет с обезличенными данными о состоянии здоровья ~40 000 пациентов, находящихся на интенсивной терапии. Он включает демографические данные, показатели жизнедеятельности, лабораторные анализы, лекарства и многое другое.







    ДОМАШНЕЕ ЗАДАНИЕ

    1. Изучить теоретический материал по данной теме.

    2. Выполнить Практическое задание. Использовать одну или две Дата – сеты для анализа данных.

    3. Результаты представить в виде крин-шотов.


    Перечень рекомендуемых учебных изданий, Интернет-ресурсов, дополнительной литературы.

    Основные источники:

    1. Информатика. 10 класс : учебник для общеобразоват. организаций: базовый и углубленный уровни / [А.Г.Гейн , А.Б Ливчак, А.И. Сенокосов, Н.А. Юнерман]. – 4-е изд. – М. : Просвещение, 2018. – 272 с. : ил. – ISBN 978-5-09-058130-1

    2. Информатика. 11 класс : учебник для общеобразоват. организаций: базовый и углубленный уровни / [А.Г.Гейн, А.И. Сенокосов]. – 6-е изд. – М. : Просвещение, 2019. – 336 с. : ил. – ISBN 978-5-09-072326-8.

    Электронные источники:

    1. Зимин, В. П.  Информатика. Лабораторный практикум в 2 ч. Часть 1 : учебное пособие для среднего профессионального образования / В. П. Зимин. — 2-е изд., испр. и доп. — Москва : Издательство Юрайт, 2023. — 126 с. — (Профессиональное образование). — ISBN 978-5-534-11851-3. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/514893

    2. Зимин, В. П.  Информатика. Лабораторный практикум в 2 ч. Часть 2 : учебное пособие для среднего профессионального образования / В. П. Зимин. — 2-е изд. — Москва : Издательство Юрайт, 2023. — 153 с. — (Профессиональное образование). — ISBN 978-5-534-11854-4. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/514918

    3. Мойзес, О. Е. Информатика. Углубленный курс : учебное пособие для среднего профессионального образования / О. Е. Мойзес, Е. А. Кузьменко. — Москва: Издательство Юрайт, 2020. — 164 с. — (Профессиональное образование). — ISBN 978-5-534-07980-7. — Текст : электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/455803 .

    4. Советов, Б. Я. Информационные технологии : учебник для среднего профессионального образования / Б. Я. Советов, В. В. Цехановский. — 7-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2020. — 327 с. — (Профессиональное образование). — ISBN 978-5-534-06399-8. — Текст: электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/450686 .

    5. Новожилов, О. П. Информатика в 2 ч. Часть 1 : учебник для среднего профессионального образования / О. П. Новожилов. — 3-е изд., перераб. и доп. — Москва: Издательство Юрайт, 2020. — 320 с. — (Профессиональное образование). — ISBN 978-5-534-06372-1. — Текст : электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/448995 .

    6. Новожилов, О. П. Информатика в 2 ч. Часть 2 : учебник для среднего профессионального образования / О. П. Новожилов. — 3-е изд., перераб. и доп. — Москва: Издательство Юрайт, 2020. — 302 с. — (Профессиональное образование). — ISBN 978-5-534-06374-5. — Текст : электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/448996

    7. Гаврилов, М. В. Информатика и информационные технологии : учебник для среднего профессионального образования / М. В. Гаврилов, В. А. Климов. — 4-е изд., перераб. и доп. — Москва: Издательство Юрайт, 2020. — 383 с. — (Профессиональное образование). — ISBN 978-5-534-03051-8. — Текст: электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/449286

    Дополнительные источники:

          1. Филимонова, Е. В. Информатика и информационные технологии в профессиональной деятельности: учебник / Е. В. Филимонова. – Москва: Юстиция, 2019. – 213 с. – (Среднее профессиональное образование). - ISBN 978-5-4365-2703-1.

          2. Цветкова М.С., Информатика. Практикум для профессий и специальностей естественно-научного и гуманитарного профилей: : учеб. пособие для студентов учреждений сред. проф. образования / М.С. Цветкова, И.Ю. Хлобыстова. - 5-е изд., стер. - М. : Издательский центр "Академия", 2019. - 240 с. ISBN 978-5-4468-7901-4

    Электронные источники:

    1. Гаврилов, М. В.  Информатика и информационные технологии : учебник для среднего профессионального образования / М. В. Гаврилов, В. А. Климов. — 4-е изд., перераб. и доп. — Москва : Издательство Юрайт, 2021. — 383 с. — (Профессиональное образование). — ISBN 978-5-534-03051-8. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/469424

    2. Акопов, А. С.  Компьютерное моделирование : учебник и практикум для среднего профессионального образования / А. С. Акопов. — Москва : Издательство Юрайт, 2023. — 389 с. — (Профессиональное образование). — ISBN 978-5-534-10712-8. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/517999

    3. Демин, А. Ю.  Информатика. Лабораторный практикум : учебное пособие для среднего профессионального образования / А. Ю. Демин, В. А. Дорофеев. — Москва : Издательство Юрайт, 2023. — 133 с. — (Профессиональное образование). — ISBN 978-5-534-07984-5. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/516857



    Преподаватель: Владимир Александрович Волков