Теоретические основы статистического анализа. Методы анализа и прогнозирования временных рядов
1 Регрессионный анализ
Регресионный анализ – раздел математической статистики, главная задача которого состоит в выводе на основании соответствующих выборочных совокупностей уравнения регрессии, устанавливающего связь между значениями зависимой (эндогенной) переменной (результирующим показателем) и значениями независимых (экзогенных) переменных.
Указанную связь будем записывать в виде: , где - результирующий показатель; – j-й независимый параметр (фактор, воздействующий на результирующий показатель ( )).
Совокупность методов, определяющих тесноту связи между Y и xj, составляет другой раздел математической статистики - корреляционный анализ. Если связь между переменными Y и x является нефункциональной, установлена на основании совместного анализа соответствующих им выборок y1, y2, … , yN и x1, x2, … , xN, то считается, что между ними существует корреляционная связь.
Регрессия называется парной, если на Y действует только один фактор (n = 1), и множественной, если число факторов, воздействующих на Y, более одного (n 1).
Уравнение линии регрессии (линии связи) при парной регрессии записывается в виде: ỹ= f (x).
Если при функциональной зависимости Y=f(x) одному значению независимой переменной х соответствует только одно значение зависимой переменной Y, то при корреляционной зависимости каждому значению х может соответствовать сколь угодно много значений Y. Поэтому изменение х при корреляционной зависимости вызовет изменение не конкретного Y, а среднего значения , и это изменение будет тем больше, чем теснее Y и х будут корреляционно зависимы.
Тесноту связи определяют с помощью коэффициента корреляции r, который находится в пределах .
Если r = 0, то между случайными величинами Y и х линейной связи нет (может иметь место параболическая, степенная, логарифмическая и т.п. связь, но не линейная ).
Если , то между величинами Y и х существует функциональная связь: Y = f (x).
При r 0 имеет место прямая зависимость, т.е. с увеличением х увеличивается Y, а при r
Если , то между случайными величинами Y и х существует только корреляционная связь: .
Коэффициент корреляции находится по формуле:
,
г де
, , ,
Для вычисления r по значениям выборочных данных xi и yi, , формулу (1) преобразуем к виду (2):
Основные виды уравнений парной регрессии и методы определения их
параметров
Выбор формулы связи (вида уравнения) называется спецификацией уравнения регрессии.
Перечислим основные виды уравнений парной регрессии:
Линейная зависимость ;
Гиперболическая зависимость ;
Степенная зависимость ;
Логарифмическая зависимость ;
Полиномиальная зависимость ;
Тригонометрическая зависимость , где m – число гармоник; a0, ak, bk – неизвестные коэффициенты линии регрессии.
Определение параметров уравнения регрессии называется параметризацией.
Для определения неизвестных параметров уравнения регрессии обычно применяют метод наименьших квадратов (МНК). Рассмотрим функцию вида .
Алгоритм применения МНК
Строится целевая функция
Находится система уравнений для определения неизвестных параметров
Согласно МНК для нахождения параметров полинома p-ой степени необходимо решить систему так называемых нормальных уравнений:
Решение этой системы относительно и дает искомые значения параметров.
Линейная зависимость
Для определения неизвестных параметров линейной зависимости методом наименьших квадратов необходимо решить следующую систему нормальных уравнений:
.
Пусть d, da ,db – определители, соответствующие системе уравнений (3), а именно:
.
Тогда неизвестные коэффициенты уравнения регрессии будут равны:
.
Другое решение системы (3). Из первого уравнения следует: , а из второго – имеем:
Таким образом , .
Подставив значения а и b в формулу , получим:
.
Гиперболическая зависимость
При гиперболической зависимости параметры a и b находят, как и в случае линейной зависимости, но для уравнения регрессии , где .
Степенная зависимость
Для определения параметров a и b степенной зависимости необходимо преобразовать зависимость в линейную, для этого прологарифмировать обе части:
Пусть , a* = lna, x* = lnx, тогда .
Применив к зависимости МНК, находим .
Определители d, da*, db относятся к системе уравнений
,
где
Значение а находим в результате потенцирования a = ea*, значение b из соотношения b = db / d.
Логарифмическая зависимость
Для определения параметров a и b при заданной зависимости уравнение регрессии представим в виде ,где x*=lnx
Параболическая зависимость
Алгоритм применения МНК для параболической зависимости второго порядка заключается в следующем:
Строится целевая функция:
Находится система нормальных уравнений
Система преобразуется к виду:
Решение системы нормальных уравнений относительно неизвестных параметров a, b, c можно найти, как и при линейной зависимости, с помощью определителей:
,
где
Тригонометрическая зависимость
Уравнение регрессии этого вида является приближением функции Y(х), которое тем точнее, чем больше значение m (m - число гармоник, количество составляющих исследуемого процесса). Поэтому при различных значениях m получаются различные виды тригонометрической зависимости.
Значения неизвестных параметров a0, ak, bk ( ) находят с помощью метода наименьших квадратов.
Для этого строится целевая функция:
Далее находят .
Получается система нормальных уравнений. Эта система обладает свойством ортогональности.
В результате решения системы получим:
Если увеличивается число коэффициентов в уравнении регрессии при параболической и тригонометрической зависимости, то увеличится точность аппроксимации, но уменьшится значимость в результате увеличения дисперсии , где n – количество неизвестных параметров в уравнении регрессии.
При нелинейной зависимости определение тесноты связи между двумя случайными величинами х и Y производится с помощью корреляционного отношения
, где .
Корреляционное отношение всегда положительно 0 1.
Чем теснее связь между Y и х, тем меньше величина , , тем больше .
Точность аппроксимации определяется как средняя относительная ошибка аппроксимации .
Величина определяется в процентах. Чаще применяется при оценке нелинейной зависимости.