СДЕЛАЙТЕ СВОИ УРОКИ ЕЩЁ ЭФФЕКТИВНЕЕ, А ЖИЗНЬ СВОБОДНЕЕ

Благодаря готовым учебным материалам для работы в классе и дистанционно

Скидки до 50 % на комплекты
только до

Готовые ключевые этапы урока всегда будут у вас под рукой

Организационный момент

Проверка знаний

Объяснение материала

Закрепление изученного

Итоги урока

Введение в анализ данных. Работа с данными.

Категория: Всем учителям

Нажмите, чтобы узнать подробности

Просмотр содержимого документа
«Введение в анализ данных. Работа с данными.»

В ВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ». РАБОТА С ДАННЫМИ. Праток Мариет 14/2 СДО

В ВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ».

РАБОТА С ДАННЫМИ.

Праток Мариет

14/2 СДО

Данные – это воспринимаемые человеком факты, события, сообщения, измеряемые характеристики, регистрируемые сигналы. Анализ данных – это совокупность методов и средств извлечения из организованных информации для принятия решений.

Данные – это воспринимаемые человеком факты, события, сообщения, измеряемые характеристики, регистрируемые сигналы.

Анализ данных – это совокупность методов и средств извлечения из организованных информации для принятия решений.

Шкала наименований (используется только для классификации) А. Шкала наименований Пожалуйста, укажите ваш пол: мужской/женский. Выберете марки электронной продукции+ которые вы обычно покупаете: Sony Deppa Hyundai Indesit 3. Согласны или не согласны вы с утверждением, что имидж фирмы «Sony» основан на выпуске продукции высокого качества: согласен/не согласен.

Шкала наименований (используется только для классификации)

А. Шкала наименований

  • Пожалуйста, укажите ваш пол: мужской/женский.
  • Выберете марки электронной продукции+ которые вы обычно покупаете:
  • Sony
  • Deppa
  • Hyundai
  • Indesit

3. Согласны или не согласны вы с утверждением, что имидж фирмы «Sony» основан на выпуске продукции высокого качества: согласен/не согласен.

Порядковая шкала (позволяет не только разбивать данные на классы, но и упорядочить сами классы) 6 4 3 2 1 5 Испытуемый 1 Ему все шесть цветов не нравятся, но из всех меньше всего не нравится красный В обоих случаях красный цвет занимает 1 место. Одинаково ли нравится красный цвет испытуемым? Испытуемый 2 Ему все шесть цветов очень нравятся, но из всех больше всего нравится красный

Порядковая шкала (позволяет не только разбивать данные на классы, но и упорядочить сами классы)

6

4

3

2

1

5

Испытуемый 1

Ему все шесть цветов не нравятся, но из всех меньше всего не нравится красный

В обоих случаях красный цвет занимает 1 место.

Одинаково ли нравится красный цвет испытуемым?

Испытуемый 2

Ему все шесть цветов очень нравятся, но из всех больше всего нравится красный

Интервальная шкала (позволяет классифицировать, упорядочивать данные, а также количественно оценить различие между классами) Численность населения (чел.) Нет жителей Количество поселений Процентное соотношение (к общему количеству) 18 Меньше 5 0, 27 От 6 до 10 796 12, 02 573 8, 65

Интервальная шкала (позволяет классифицировать, упорядочивать данные, а также количественно оценить различие между классами)

Численность населения (чел.)

Нет жителей

Количество поселений

Процентное соотношение (к общему количеству)

18

Меньше 5

0, 27

От 6 до 10

796

12, 02

573

8, 65

Шкала отношений (позволяет определить, во сколько раз одно измерение превосходит другое) А 1 E 1 D 1 В 1 С 1 0 E 2 С 2 D 2 В 2 А 2

Шкала отношений (позволяет определить, во сколько раз одно измерение превосходит другое)

А 1

E 1

D 1

В 1

С 1

0

E 2

С 2

D 2

В 2

А 2

СИСТЕМА ИЗВЛЕЧЕНИЕ ДАННЫХ ПРОБЛЕМА ПОДГОТОВКА ДАННЫХ ИССЛЕДОВАНИЕ И ВИЗУАЛИЗАЦИЯ ДАННЫХ АНАЛИЗ ДАННЫХ ПРЕДСКАЗАТЕЛЬНАЯ МОДЕЛЬ ПРОВЕРКА МОДЕЛИ РЕШЕНИЕ РАЗВЕРТЫВАНИЕ

СИСТЕМА

ИЗВЛЕЧЕНИЕ ДАННЫХ

ПРОБЛЕМА

ПОДГОТОВКА ДАННЫХ

ИССЛЕДОВАНИЕ И ВИЗУАЛИЗАЦИЯ ДАННЫХ

АНАЛИЗ ДАННЫХ

ПРЕДСКАЗАТЕЛЬНАЯ МОДЕЛЬ

ПРОВЕРКА МОДЕЛИ

РЕШЕНИЕ

РАЗВЕРТЫВАНИЕ

ОПРЕДЕЛЕНИЕ ПРОБЛЕМЫ Процесс анализа данных начинается с проблемы, которую необходимо сперва определить, а затем и решить. Определить её можно только сосредоточившись на изучаемой системе: механизме, приложении или процесса в целом. Когда проблема определена и задокументирована, можно двигаться к этапу планирования проекта анализа данных. Построение хорошей команды – один из ключевых факторов успешного анализа данных.

ОПРЕДЕЛЕНИЕ ПРОБЛЕМЫ

Процесс анализа данных начинается с проблемы, которую необходимо сперва определить, а затем и решить.

Определить её можно только сосредоточившись на изучаемой системе: механизме, приложении или процесса в целом.

Когда проблема определена и задокументирована, можно двигаться к этапу планирования проекта анализа данных.

Построение хорошей команды – один из ключевых факторов успешного анализа данных.

ИЗВЛЕЧЕНИЕ ДАННЫХ Данные должны максимально отображать реальный мир. Поиск и извлечение данных часто требует интуиции. Вне зависимости от количества и качества необходимых данных важный вопрос – использование лучших источников данных.

ИЗВЛЕЧЕНИЕ ДАННЫХ

Данные должны максимально отображать реальный мир.

Поиск и извлечение данных часто требует интуиции.

Вне зависимости от количества и качества необходимых данных важный вопрос – использование лучших источников данных.

ПОДГОТОВКА ДАННЫХ – ОЧИСТКА ДАННЫХ. ПРЕОБРАЗОВАНИЕ ДАННЫХ. Подготовка данных включает такие процессы: получение очистка нормализация превращение в оптимизированный набор данных

ПОДГОТОВКА ДАННЫХ – ОЧИСТКА ДАННЫХ. ПРЕОБРАЗОВАНИЕ ДАННЫХ.

Подготовка данных включает такие процессы:

  • получение
  • очистка
  • нормализация
  • превращение в оптимизированный набор данных
ИССЛЕДОВАНИЕ И ВИЗУАЛИЗАЦИЯ ДАННЫХ Изучение данных – это их анализ в графической или статической репрезентации с целью поиска моделей или взаимосвязей. Визуализация – лучший инструмент для выделения подобных моделей. Фаза исследования данных состоит из следующих шагов: обобщение данных группировка данных исследование отношений между разными атрибутами определение моделей и тенденций построение моделей регрессивного анализа построение моделей классификации

ИССЛЕДОВАНИЕ И ВИЗУАЛИЗАЦИЯ ДАННЫХ

Изучение данных – это их анализ в графической или статической репрезентации с целью поиска моделей или взаимосвязей.

Визуализация – лучший инструмент для выделения подобных моделей.

Фаза исследования данных состоит из следующих шагов:

  • обобщение данных
  • группировка данных
  • исследование отношений между разными атрибутами
  • определение моделей и тенденций
  • построение моделей регрессивного анализа
  • построение моделей классификации
ПРЕДСКАЗАТЕЛЬНАЯ МОДЕЛЬ Предсказательная аналитика – это процесс в анализе данных, который нужен для создания или поиска подходящей статистической модели для предсказания вероятности результата. Модели анализа в соответствии с типом результатов, к которым те приводят: Модели классификации: если полученный результат – качественная переменная. Регрессионные модели: если полученный результат числовой. Кластерные модели: если полученный результат описательный.

ПРЕДСКАЗАТЕЛЬНАЯ МОДЕЛЬ

Предсказательная аналитика – это процесс в анализе данных, который нужен для создания или поиска подходящей статистической модели для предсказания вероятности результата.

Модели анализа в соответствии с типом результатов, к которым те приводят:

Модели классификации: если полученный результат – качественная переменная.

Регрессионные модели: если полученный результат числовой.

Кластерные модели: если полученный результат описательный.

ПРОВЕРКА МОДЕЛИ. ТЕСТИРОВАНИЕ Важный этап, позволяющий протестировать модель, построенную на начальных данных. Проверить достоверность данных, созданных моделью, сравнивая их с реальной системой. Техника проверки. Перекрестная проверка (кросс-валидация). Она основана на разделении учебного набора на разные части. Каждая из них, в свою очередь, будет использоваться в качестве валидационного набора. Все остальные – как тренировочные.

ПРОВЕРКА МОДЕЛИ. ТЕСТИРОВАНИЕ

Важный этап, позволяющий протестировать модель, построенную на начальных данных. Проверить достоверность данных, созданных моделью, сравнивая их с реальной системой.

Техника проверки. Перекрестная проверка (кросс-валидация). Она основана на разделении учебного набора на разные части. Каждая из них, в свою очередь, будет использоваться в качестве валидационного набора. Все остальные – как тренировочные.

РАЗВЕРТЫВАНИЕ – ВИЗУАЛИЗАЦИЯ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ Развертывание – это процесс использования на практике результатов анализа данных. В технической или научной средах результат выдает конструкционные решения или научные публикации. Темы развертывания на примере бизнес-среды: результаты анализа, развертывание решения, анализ рисков, измерения влияния на бизнес

РАЗВЕРТЫВАНИЕ – ВИЗУАЛИЗАЦИЯ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ

Развертывание – это процесс использования на практике результатов анализа данных.

В технической или научной средах результат выдает конструкционные решения или научные публикации.

Темы развертывания на примере бизнес-среды: результаты анализа, развертывание решения, анализ рисков, измерения влияния на бизнес