СДЕЛАЙТЕ СВОИ УРОКИ ЕЩЁ ЭФФЕКТИВНЕЕ, А ЖИЗНЬ СВОБОДНЕЕ

Благодаря готовым учебным материалам для работы в классе и дистанционно

Скидки до 50 % на комплекты
только до

Готовые ключевые этапы урока всегда будут у вас под рукой

Организационный момент

Проверка знаний

Объяснение материала

Закрепление изученного

Итоги урока

Методическая разработка «Работа с данными и библиотекой Pandas»

Категория: Информатика

Нажмите, чтобы узнать подробности

Просмотр содержимого документа
«Методическая разработка «Работа с данными и библиотекой Pandas»»

МУНИЦИПАЛЬНОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ДОПОЛНИТЕЛЬНОГО ОБРАЗОВАНИЯ

«ЦЕНТР ДЕТСКОГО ТЕХНИЧЕСКОГО ТВОРЧЕСТВА»













Методическая разработка

«Работа с данными и библиотекой Pandas»

к дополнительной общеобразовательной

общеразвивающей программе

технической направленности

«Программирование на Python»



Возраст детей: 10-17 лет









Автор: Костычев Вадим Александрович











г. Заречный Пензенской области

2025 г.

В рамках изучения Python мы углубляемся в работу с данными с помощью библиотеки Pandas — одного из самых мощных инструментов для анализа и обработки данных. Pandas позволяет эффективно работать с табличными данными, такими как CSV-файлы, Excel-таблицы или базы данных, что делает его незаменимым в задачах анализа данных и подготовки их для дальнейшего использования. Изучение Pandas станет важным шагом на пути к освоению анализа данных и разработки приложений, работающих с большими объемами информации.

Целью данной разработки - научить обрабатывать, анализировать и визуализировать данные с использованием библиотеки Pandas. Учащиеся должны освоить основные структуры данных (Series и DataFrame), научиться выполнять базовые операции с датасетами и строить простые графики.

Данная методическая разработка используется как обучающий пример для работы по дополнительной общеобразовательной общеразвивающей программе технической направленности «Программирование на Python». С их помощью учащиеся смогут применить теоретические знания на практике.



Что такое Pandas?

Pandas — это популярная библиотека Python для анализа и обработки данных. Она предоставляет удобные инструменты для работы с табличными данными, такими как CSV-файлы, Excel-таблицы или базы данных.

Основные преимущества Pandas:

  • Простота использования.

  • Быстрая обработка больших объемов данных.

  • Интеграция с другими библиотеками (NumPy, Matplotlib, Seaborn).



Установка Pandas

Для начала работы необходимо установить библиотеку:

pip install pandas



Основные структуры данных в Pandas

Series — это одномерный массив данных, который может содержать значения любого типа. Каждый элемент имеет уникальный индекс.

Пример создания Series:

import pandas as pd



data = [10, 20, 30, 40] # Создание Series из списка

series = pd.Series(data)

print(series)



Вывод:

0 10

1 20

2 30

3 40

dtype: int64

Обращение к элементам:

print(series[0]) # Вывод первого элемента



DataFrame

DataFrame — это двумерная таблица данных, состоящая из строк и столбцов. Это основная структура данных в Pandas.

Пример создания DataFrame:

# Создание DataFrame из словаря

data = {

'Name': ['Alice', 'Bob', 'Charlie'],

'Age': [25, 30, 35],

'City': ['New York', 'Los Angeles', 'Chicago']

}

df = pd.DataFrame(data)

print(df)



Вывод:

Name Age City

0 Alice 25 New York

1 Bob 30 Los Angeles

2 Charlie 35 Chicago

Обращение к столбцам:

print(df['Name']) # Вывод столбца "Name"



Обращение к строкам:

print(df.loc[0]) # Вывод первой строки



Чтение данных из различных источников

Pandas поддерживает чтение данных из множества форматов: CSV, Excel, JSON, SQL и других.



Чтение CSV-файла:

df = pd.read_csv('data.csv')

print(df.head()) # Вывод первых 5 строк



Чтение Excel-файла:

df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

print(df.head())



Чтение JSON-файла:

df = pd.read_json('data.json')

print(df.head())



Основные операции с DataFrame

Фильтрация данных

Фильтрация позволяет выбирать только те строки, которые удовлетворяют определенному условию.

Пример:

filtered_df = df[df['Age'] 25] # Выбор строк, где возраст больше 25

print(filtered_df)



Сортировка данных



Пример:

# Сортировка по возрастанию возраста

sorted_df = df.sort_values(by='Age')

print(sorted_df)



Группировка данных

Группировка используется для агрегации данных по определенному столбцу.

# Группировка по городу и подсчет среднего возраста

grouped_df = df.groupby('City')['Age'].mean()

print(grouped_df)



Обработка пропущенных значений

Pandas предоставляет методы для работы с пропущенными данными (NaN).



cleaned_df = df.dropna() # Удаление строк с пропущенными значениями

filled_df = df.fillna(0) # Заполнение пропущенных значений