В ВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ».
РАБОТА С ДАННЫМИ.
Праток Мариет
14/2 СДО
Данные – это воспринимаемые человеком факты, события, сообщения, измеряемые характеристики, регистрируемые сигналы.
Анализ данных – это совокупность методов и средств извлечения из организованных информации для принятия решений.
Шкала наименований (используется только для классификации)
А. Шкала наименований
- Пожалуйста, укажите ваш пол: мужской/женский.
- Выберете марки электронной продукции+ которые вы обычно покупаете:
- Sony
- Deppa
- Hyundai
- Indesit
3. Согласны или не согласны вы с утверждением, что имидж фирмы «Sony» основан на выпуске продукции высокого качества: согласен/не согласен.
Порядковая шкала (позволяет не только разбивать данные на классы, но и упорядочить сами классы)
6
4
3
2
1
5
Испытуемый 1
Ему все шесть цветов не нравятся, но из всех меньше всего не нравится красный
В обоих случаях красный цвет занимает 1 место.
Одинаково ли нравится красный цвет испытуемым?
Испытуемый 2
Ему все шесть цветов очень нравятся, но из всех больше всего нравится красный
Интервальная шкала (позволяет классифицировать, упорядочивать данные, а также количественно оценить различие между классами)
Численность населения (чел.)
Нет жителей
Количество поселений
Процентное соотношение (к общему количеству)
18
Меньше 5
0, 27
От 6 до 10
796
12, 02
573
8, 65
Шкала отношений (позволяет определить, во сколько раз одно измерение превосходит другое)
А 1
E 1
D 1
В 1
С 1
0
E 2
С 2
D 2
В 2
А 2
СИСТЕМА
ИЗВЛЕЧЕНИЕ ДАННЫХ
ПРОБЛЕМА
ПОДГОТОВКА ДАННЫХ
ИССЛЕДОВАНИЕ И ВИЗУАЛИЗАЦИЯ ДАННЫХ
АНАЛИЗ ДАННЫХ
ПРЕДСКАЗАТЕЛЬНАЯ МОДЕЛЬ
ПРОВЕРКА МОДЕЛИ
РЕШЕНИЕ
РАЗВЕРТЫВАНИЕ
ОПРЕДЕЛЕНИЕ ПРОБЛЕМЫ
Процесс анализа данных начинается с проблемы, которую необходимо сперва определить, а затем и решить.
Определить её можно только сосредоточившись на изучаемой системе: механизме, приложении или процесса в целом.
Когда проблема определена и задокументирована, можно двигаться к этапу планирования проекта анализа данных.
Построение хорошей команды – один из ключевых факторов успешного анализа данных.
ИЗВЛЕЧЕНИЕ ДАННЫХ
Данные должны максимально отображать реальный мир.
Поиск и извлечение данных часто требует интуиции.
Вне зависимости от количества и качества необходимых данных важный вопрос – использование лучших источников данных.
ПОДГОТОВКА ДАННЫХ – ОЧИСТКА ДАННЫХ. ПРЕОБРАЗОВАНИЕ ДАННЫХ.
Подготовка данных включает такие процессы:
- получение
- очистка
- нормализация
- превращение в оптимизированный набор данных
ИССЛЕДОВАНИЕ И ВИЗУАЛИЗАЦИЯ ДАННЫХ
Изучение данных – это их анализ в графической или статической репрезентации с целью поиска моделей или взаимосвязей.
Визуализация – лучший инструмент для выделения подобных моделей.
Фаза исследования данных состоит из следующих шагов:
- обобщение данных
- группировка данных
- исследование отношений между разными атрибутами
- определение моделей и тенденций
- построение моделей регрессивного анализа
- построение моделей классификации
ПРЕДСКАЗАТЕЛЬНАЯ МОДЕЛЬ
Предсказательная аналитика – это процесс в анализе данных, который нужен для создания или поиска подходящей статистической модели для предсказания вероятности результата.
Модели анализа в соответствии с типом результатов, к которым те приводят:
Модели классификации: если полученный результат – качественная переменная.
Регрессионные модели: если полученный результат числовой.
Кластерные модели: если полученный результат описательный.
ПРОВЕРКА МОДЕЛИ. ТЕСТИРОВАНИЕ
Важный этап, позволяющий протестировать модель, построенную на начальных данных. Проверить достоверность данных, созданных моделью, сравнивая их с реальной системой.
Техника проверки. Перекрестная проверка (кросс-валидация). Она основана на разделении учебного набора на разные части. Каждая из них, в свою очередь, будет использоваться в качестве валидационного набора. Все остальные – как тренировочные.
РАЗВЕРТЫВАНИЕ – ВИЗУАЛИЗАЦИЯ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ
Развертывание – это процесс использования на практике результатов анализа данных.
В технической или научной средах результат выдает конструкционные решения или научные публикации.
Темы развертывания на примере бизнес-среды: результаты анализа, развертывание решения, анализ рисков, измерения влияния на бизнес