Просмотр содержимого документа
«Практическое занятие №58»
Практическое занятие №58 (1И)
Тема: Реализация основных этапов процесса анализа данных на примере набора данных из профессиональной сферы
Цель работы: формирование теоретических и практических навыков работы на языке программирования Python
Оборудование: компьютер с установленной операционной системой Windows, подключение к сети Интернет
Время работы 2 часа
Ход работы
Открываем в браузере colab.google и создаем новый блокнот
Загрузка набора данных
Загружаем файлы train.csv (https://cloud.mail.ru/public/eRzd/DBB5mPzXE) и test.csv (https://cloud.mail.ru/public/CwG3/Ge4AezAzu)в сессионное хранилище
import pandas as pd
data = pd.read_csv('train.csv')
Шаг 2: Предварительный анализ данных
Прежде чем мы начнем поиск количества выживших, давайте более подробно рассмотрим структуру данных и проведем предварительный анализ.
Вывод первых 5 записей в наборе данных
print(data.head())
Получение информации о наборе данных
print(data.info())
Получение базовых статистических показателей
print(data.describe())
Шаг 3: Определение количества выживших
Теперь мы можем определить количество выживших пассажиров, просто подсчитав количество записей в отфильтрованном наборе данных.
survived_count = survived_data.shape[0]
print("Количество выживших: ", survived_count)
Результат:
Количество выживших: 342
Шаг 4: Визуализация данных
Как дополнительный шаг, мы можем визуализировать результаты нашего анализа с помощью библиотеки Matplotlib.
import matplotlib.pyplot as plt
labels = ['Survived', 'Not survived']
sizes = [survived_count, data.shape[0] - survived_count]
colors = ['green', 'red']
plt.pie(sizes, labels=labels, colors=colors, autopct='%1.1f%%')
plt.axis('equal')
plt.show()