СДЕЛАЙТЕ СВОИ УРОКИ ЕЩЁ ЭФФЕКТИВНЕЕ, А ЖИЗНЬ СВОБОДНЕЕ

Благодаря готовым учебным материалам для работы в классе и дистанционно

Скидки до 50 % на комплекты
только до

Готовые ключевые этапы урока всегда будут у вас под рукой

Организационный момент

Проверка знаний

Объяснение материала

Закрепление изученного

Итоги урока

Применение регрессионного анализа для исследования успеваемости студентов техникума

Категория: Информатика

Нажмите, чтобы узнать подробности

В статье рассматривается вариант применения регрессионного анализа для исследования успеваемости студентов. На примере студентов первого курса Чебоксарского строительного техникума и строительного хозяйства проводится исследование взаимосвязи среднего экзаменационного балла студентов-первокурсников от различных факторов. По результатам статистического исследования выявлены факторы, оказывающие наибольшие влияния на успеваемость студентов. Выведено уравнение множественной регрессии, дающее возможность на основании среднего аттестационного балла или среднего балла ЕГЭ и временем, проводимом студентом в социальных сетях прогнозировать его успеваемость

Просмотр содержимого документа
«Применение регрессионного анализа для исследования успеваемости студентов техникума»

ПРИМЕНЕНИЕ РЕГРЕССИОННОГО АНАЛИЗА ДЛЯ ИССЛЕДОВАНИЯ УСПЕВАЕМОСТИ СТУДЕНТОВ ТЕХНИКУМА

Успеваемость студентов – это многомерное явление, поэтому его исследование необходимо проводить с применением многомерных методов, в частности, приемов корреляционно-регрессионного анализа.

Для определения значений факторов, предположительно влияющих на успеваемость студентов, было проведено анкетирование 48 студентов 1 курса ЧТСГХ (Приложение 1).

В качестве зависимой переменной, характеризующей уровень учебной успеваемости (Y) был выбран средний балл сессии, полученный студентом 1-го курса за 1 семестр (2019/2020 учебный год).

В качестве независимых переменных были отобраны:

X1 – средний балл за ЕГЭ или средний аттестационный балл;

Х2 – форма обучения (если ответ – «бюджет», то Х2=1, иначе 0);

X3 – занятие после учебы (если ответ – «да», то Х3=1, иначе 0);

X4 – место проживания (если ответ – «дома с родителями», то Х4=1, иначе 0);

X5 – финансовое положение (если ответ – «хорошее», то X5=1, иначе 0);

X6 – здоровье студента (если ответ – «хорошее», то X6=1, иначе 0);

X7 – романтическое увлечение (если ответ – «да», то X7=1, иначе 0);

X8 – время, проводимое в интернете (в социальных сетях) в течение дня.

Следующим шагом является проверка наличия зависимости между каждой факторной переменной и результирующим показателем (средний балл сессии). Для оценки степени зависимости количественных переменных рассчитывался коэффициент корреляции. Расчет производился в среде MS Excel.

а) для количественных переменных Х1 и Х8 с помощью возможностей программного комплекса Exсel построено корреляционное поле с линией линейного тренда и выведено на диаграмму уравнение регрессии и величина достоверности аппроксимации (рис.1, рис.2):





Рис. 2.

Зависимость успеваемости студента от времени, проводимого в интернете (в социальных сетях) в течение дня

Рис. 1.

Зависимость успеваемости студента от среднего балла ЕГЭ или среднего аттестационного балла








Полученное значение корреляции свидетельствует о существовании ярко выраженной

связи между успеваемостью и средним баллом, т.е. основы успеваемости студента в техникуме закладываются ещё в школе.

Так же наблюдается средняя обратная связь между успеваемостью и временем, проводимым в социальных сетях. То есть чем больше времени студент уделяет внимание социальным сетям, тем более низкая у него успеваемость.

б) Для ранговых факторов проверка значимости влияния производилась с помощью однофакторного дисперсионного анализа. При расчете использовались встроенные возможности MS Excel («Сервис» → «Анализ данных» → «Однофакторный дисперсионный анализ»).

Табл.1.

Проверка значимости влияния качественных факторов

Фактор

Расчетное значение F

Критическое значение F

Вывод о наличии связи

Форма обучения

24,26

4,05

Расчетное значение F-критерия больше критического, фактор значим

Занятие после учебы

1,55

4,05

Расчетное значение F-критерия меньше критического, фактор не значим

Место проживания

0,46

4,05

Расчетное значение F-критерия меньше критического, фактор не значим

Финансовое положение

0,42

4,05

Расчетное значение F-критерия меньше критического, фактор не значим

Здоровье

3,86

4,05

Расчетное значение F-критерия меньше критического, фактор не значим

Романтическое увлечение

0,18

4,05

Расчетное значение F-критерия меньше критического, фактор не значим

В результате проверки тесноты, мы пришли к выводу, что на успеваемость студента оказывают влияние средний балл ЕГЭ или средний аттестационный балл, форма обучения и время, приводимое студентом в интернете, в течение дня. Для построения многофакторной регрессионной модели были выбраны Х1, Х2 и Х8. Определение параметров модели осуществлялось методом наименьших квадратов с помощью MS Excel («Сервис» → «Анализ данных» → «Регрессия»).

Коэффициент детерминации R2=0,776, следовательно, полученная модель на 77,6% объясняет успеваемость студентов от включенных в модель факторных переменных;

Скорректированный коэффициент детерминации R2скор=0,761. За счет поправки величина коэффициента детерминации существенно не уменьшилась, что подтверждает сделанный ранее вывод о хорошем качестве модели;

Уровень значимости F-критерия составляет 2,22*10-14, так как данное значение существенно меньше 0,01, то полученная модель является высоко значимой;

Уровни значимости t-критерия (Р-значение) коэффициентов уравнения регрессии меньше 0,05, за исключением переменной Х2 (форма обучения). Следовательно, коэффициенты при всех переменных, кроме Х2, являются статистически значимыми.

Таким образом, полученная модель имеет очень хорошие показатели качества. Тем не менее, данный вариант нельзя считать окончательным, так как есть проблема статистической незначимости коэффициента при бинарной переменной Х2, отражающей форму обучения студента (коммерческая или бюджетная). Этот факт свидетельствует, что в данном случае при неизменных значениях всех остальных факторных переменных форма обучения не оказывает сколько-нибудь значимого влияния на успеваемость студента; вернее у нас нет доказательств такого влияния.

Исключим из модели переменную Х2 и выполним регрессионный анализ. В полученной модели коэффициенты при всех переменных являются статистически значимы. Таким образом получили регрессионную модель для значения успеваемости студента:

.

Для подтверждения адекватности (соответствии) построенной регрессионной модели исходным выборочным данным приведем основные показатели качества уравнения:

Коэффициент детерминации R2=0,776, следовательно, полученная модель на 77,6% объясняет успеваемость студентов от включенных в модель факторных переменных;

Скорректированный коэффициент детерминации R2скор=0,766. За счет поправки величина коэффициента детерминации существенно не уменьшилась, что подтверждает сделанный ранее вывод о хорошем качестве модели;

Проверка значимости уравнения регрессии в целом с помощью F-критерия показала, что с вероятностью 0,95 гипотеза о несоответствии заложенных в уравнение регрессии связей реально существующим отвергается и можно считать, что в целом уравнение статистически значимо, а это означает хорошее соответствие результатов, рассчитанных по модели, реальным наблюдениям;

Уровни значимости t-критерия (Р-значение) коэффициентов уравнения регрессии меньше 0,05, следовательно, коэффициенты при всех переменных, являются статистически значимыми.

Интерпретация коэффициентов регрессионной модели:

1. При прочих равных условиях повышение среднего аттестационного балла или среднего балла ЕГЭ на один балл в среднем увеличивает успеваемость студента на 0,67 балла.

2. При прочих равных условиях повышение времени, проводимого в интернете в сутки на 1 час, в среднем уменьшает успеваемость студента на 0,05 балла.

Судя по β-коэффициентам, наибольшее прямое влияние на успеваемость оказывает фактор «средний балл за ЕГЭ или средний аттестационный балл». Т.е. основы успеваемости студента в вузе закладываются ещё в средней школе.

Фактор «время, проводимое в интернете в течение дня» оказывает обратное влияние на успеваемость, т.е. чем больше студент тратит время на социальные сети, тем ниже его успеваемость и наоборот.


БИБЛИОГРАФИЧЕСКИЙ СПИСОК

  1. Гельман, В.Я. Решение математических задач средствами Excel. / В.Я Гельман. – СПб.: Питер, 2010.

  2. Кельберт, М.Я. Вероятность и статистика в примерах и задачах. Т. 1: Основные понятия теории вероятностей и математической статистики. Издание 2-е, дополненное / М.Я. Кельберт, Ю.М. Сухов. – М.: МЦНМО, 2010. –486 с.

  3. Панова, Н.Ф. Классификация студентов по уровню успеваемости / Н.Ф. Панова, Н.В. Денисова // ВЕСТНИК ОГУ №8 (169)/август 2014 – с. 33-36.