МУНИЦИПАЛЬНОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ДОПОЛНИТЕЛЬНОГО ОБРАЗОВАНИЯ
«ЦЕНТР ДЕТСКОГО ТЕХНИЧЕСКОГО ТВОРЧЕСТВА»
Методическая разработка
«Работа с данными и библиотекой Pandas»
к дополнительной общеобразовательной
общеразвивающей программе
технической направленности
«Программирование на Python»
Возраст детей: 10-17 лет
Автор: Костычев Вадим Александрович
г. Заречный Пензенской области
2025 г.
В рамках изучения Python мы углубляемся в работу с данными с помощью библиотеки Pandas — одного из самых мощных инструментов для анализа и обработки данных. Pandas позволяет эффективно работать с табличными данными, такими как CSV-файлы, Excel-таблицы или базы данных, что делает его незаменимым в задачах анализа данных и подготовки их для дальнейшего использования. Изучение Pandas станет важным шагом на пути к освоению анализа данных и разработки приложений, работающих с большими объемами информации.
Целью данной разработки - научить обрабатывать, анализировать и визуализировать данные с использованием библиотеки Pandas. Учащиеся должны освоить основные структуры данных (Series и DataFrame), научиться выполнять базовые операции с датасетами и строить простые графики.
Данная методическая разработка используется как обучающий пример для работы по дополнительной общеобразовательной общеразвивающей программе технической направленности «Программирование на Python». С их помощью учащиеся смогут применить теоретические знания на практике.
Что такое Pandas?
Pandas — это популярная библиотека Python для анализа и обработки данных. Она предоставляет удобные инструменты для работы с табличными данными, такими как CSV-файлы, Excel-таблицы или базы данных.
Основные преимущества Pandas:
Простота использования.
Быстрая обработка больших объемов данных.
Интеграция с другими библиотеками (NumPy, Matplotlib, Seaborn).
Установка Pandas
Для начала работы необходимо установить библиотеку:
pip install pandas
Основные структуры данных в Pandas
Series — это одномерный массив данных, который может содержать значения любого типа. Каждый элемент имеет уникальный индекс.
Пример создания Series:
import pandas as pd
data = [10, 20, 30, 40] # Создание Series из списка
series = pd.Series(data)
print(series)
Вывод:
0 10
1 20
2 30
3 40
dtype: int64
Обращение к элементам:
print(series[0]) # Вывод первого элемента
DataFrame
DataFrame — это двумерная таблица данных, состоящая из строк и столбцов. Это основная структура данных в Pandas.
Пример создания DataFrame:
# Создание DataFrame из словаря
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)
Вывод:
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
Обращение к столбцам:
print(df['Name']) # Вывод столбца "Name"
Обращение к строкам:
print(df.loc[0]) # Вывод первой строки
Чтение данных из различных источников
Pandas поддерживает чтение данных из множества форматов: CSV, Excel, JSON, SQL и других.
Чтение CSV-файла:
df = pd.read_csv('data.csv')
print(df.head()) # Вывод первых 5 строк
Чтение Excel-файла:
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
print(df.head())
Чтение JSON-файла:
df = pd.read_json('data.json')
print(df.head())
Основные операции с DataFrame
Фильтрация данных
Фильтрация позволяет выбирать только те строки, которые удовлетворяют определенному условию.
Пример:
filtered_df = df[df['Age'] 25] # Выбор строк, где возраст больше 25
print(filtered_df)
Сортировка данных
Пример:
# Сортировка по возрастанию возраста
sorted_df = df.sort_values(by='Age')
print(sorted_df)
Группировка данных
Группировка используется для агрегации данных по определенному столбцу.
# Группировка по городу и подсчет среднего возраста
grouped_df = df.groupby('City')['Age'].mean()
print(grouped_df)
Обработка пропущенных значений
Pandas предоставляет методы для работы с пропущенными данными (NaN).
cleaned_df = df.dropna() # Удаление строк с пропущенными значениями
filled_df = df.fillna(0) # Заполнение пропущенных значений