Тема:
Анализ вариации
План
1. Понятие вариации. Показатели вариации
2. Виды (показатели) дисперсий и правило их сложения
Вариацию можно определить как количественное различие значений одного и того же признака у отдельных единиц совокупности. Термин «вариация» имеет латинское происхождение - variatio, что означает различие, изменение, колеблемость. Изучение вариации в статистической практике позволяет установить зависимость между изменением, которое происходит в исследуемом признаке, и теми факторами, которые вызывают данное изменение.
Необходимость измерения вариации
- Средняя величина характеризует совокупность по изучаемому признаку, такой характеристики совокупности будет достаточно, если разброс индивидуальных значений невелик
- Когда ряд характеризуется значительным рассеиванием индивидуальных значений, то применение средней величины ограничено
Необходимость измерения вариации
- При значительном рассеивании индивидуальных значений необходимо рассчитать специальную систему показателей, характеризующих средний размер отклонений индивидуальных значений от средней величины и степень колеблемости признака в совокупности, т.е. показателей вариации
Показатели вариации
- Используются две группы показателей вариации:
- абсолютные: размах вариации, среднее линейное отклонение, дисперсия, среднеквадратическое отклонение
- относительные: коэффициент осцилляции, линейный коэффициент и коэффициент вариации
1. Размах вариации
- РВ – разность между экстремальными значениями признака в совокупности. РВ имеет единицу измерения, совпадающую с единицей измерения признака у единиц совокупности
Размах вариации
Недостаток РВ: он учитывает только крайние значения и не учитывает промежуточные значения
2.Среднее линейное отклонение
Недостаток РВ устраняет показатель СЛО. Он рассчитывается по двум формулам:
а) для несгруппированных данных (по формуле средней арифметической простой)
б ) для сгруппированных данных (по формуле средней арифметической взвешенной)
Среднее линейное отклонение
а) для несгруппированных данных
б ) для сгруппированных данных
Среднее линейное отклонение
У СЛО есть единица измерения.
Он обладает серьезным недостатком : в числителе нет минуса, а сам показатель – положительное число. Эта проблема решается третьим и четвертым показателями вариации – дисперсией и среднеквадратическим отклонением
3. Дисперсия -
Это средний квадрат отклонений индивидуальных значений от средней величины. Она рассчитывается по простой и взвешенной формулам. Для ее обозначения используется греческая буква сигма.
Дисперсия
а) для несгруппированных данных
б ) для сгруппированных данных
Расчет дисперсии
для вариационного ряда
Осуществляется при помощи
взвешенной формулы:
Выработка ,
Ч исло рабочих, f
x` 2 · f
(x – x) 2 · f
35 9
Свойства дисперсии
1.Если из всех вариант вычесть какую-либо константу, то дисперсия от этого не изменится:
2.Если все варианты разделить на константу А, то дисперсия уменьшится от этого в А² раз:
3. Дисперсия равна разности среднего квадрата вариант и квадрата их средней:
4. Если рассчитать среднее квадратическое отклонение от любой константы А, отличной от средней арифметической, то оно всегда будет больше дисперсии на квадрат разности между средней и данной константой А:
, где
Расчет дисперсии упрощенным способом
Расчет дисперсии упрощенным способом осуществляется на основе перечисленных свойств по формуле:
, где
Выработка ,
Ч исло рабочих, f
x` 2 · f
(x – x) 2 · f
35 9
Недостаток дисперсии состоит в том, что она имеет размерность вариант, возведенную в квадрат (сомов в квадрате, человек в квадрате)
Чтобы устранить этот недостаток, используется среднее квадратическое отклонение
4.Среднее квадратическое отклонение
а) для несгруппированных данных
б) для сгруппированных данных
σ представляет собой среднее квадратическое отклонение вариант ряда от средней величины
Среднее квадратическое отклонение
имеет единицы измерения , а также может принимать положительные и отрицательные значения, поскольку получается в результате извлечения квадратного корня.
С помощью СКО можно утверждать, что i - тое значение признака в совокупности находится в пределах:
Относительные показатели вариации
Относительные показатели вариации применяются для решения следующих задач:
- сравнение степени вариации различных вариационных рядов
- характеристика степени однородности совокупности
Коэффициент осцилляции
где
R - размах вариации
- среднее значение
Коэффициент осцилляции отражает относительную колеблемость крайних значений признака относительно среднего значения
Линейный коэффициент вариации
где
- среднее линейное отклонение
Коэффициент вариации
Характеризует долю усредненного значения отклонений от средней величины. При этом совокупность считается однородной, если V не превышает 33%
Правило трех сигм
В условиях нормального распределения существует зависимость между величиной σ и количеством наблюдений:
в пределах
располагается 68,3 % наблюдений;
в пределах
располагается 94,5 % наблюдений;
в пределах
располагается 99,7 % наблюдений.
На практике почти не встречаются отклонения, которые превышают 3σ . Отклонение в 3σ может считаться максимальным
При помощи этого правила можно получить примерную оценку σ:
Дисперсия альтернативного признака
Признаки, которыми обладают одни единицы совокупности и не обладают другие, называются альтернативными . Количественно вариация альтернативного признака проявляется в значении 0 у единиц, которые им не обладают, или в значении 1 у единиц, которые им обладают
x
f
0
q
1
p
где q - доля единиц, не обладающих признаком
p - доля единиц, обладающих признаком
p + q = 1
Среднее значение альтернативного признака
Дисперсия альтернативного признака :
Максимальное значение дисперсии альтернативного признака 0,25
Правило сложения дисперсий
Выделяют дисперсии:
1) общую
2) межгрупповую
3) внутригрупповую
Величина общей дисперсии характеризует вариацию признака под воздействием всех факторов, вызывающих эту вариацию:
где j – номер варианты
Межгрупповая дисперсия (дисперсия групповых средних или факторная дисперсия) характеризует систематическую вариацию, т. е. различия в величине изучаемого признака, возникающие под влиянием одного фактора, положенного в основание группировки
где
– среднее значение изучаемого признака для i – й группы
– общая средняя для всей совокупности
- номер группы
– количество единиц в i – й группе
Внутригрупповая (средняя из групповых или остаточная) дисперсия характеризует случайную вариацию, т. е. ту часть вариации, которая вызвана действием других неучтённых факторов, и не зависящую от фактора, положенного в основании группировки:
- групповая дисперсия
где
Общая дисперсия равна сумме межгрупповой и внутригрупповой дисперсий:
Эмпирический коэффициент детерминации:
Эмпирический коэффициент детерминации показывает долю общей вариации изучаемого признака, обусловленную вариацией группировочного признака (факторного)
Эмпирическое корреляционное отношение :
Эмпирическое корреляционное отношение характеризует степень влияния группировочного признака на результативный показатель. Эмпирическое корреляционное отношение изменяется в пределах от 0 до 1. Чем ближе η к единице, тем степень влияния больше
0 ≤ η ≤ 1
Моменты распределения
Обобщающие характеристики вариационного ряда могут быть представлены системой величин, носящих название моментов распределения
Формула момента k -го порядка:
где:
x – варианты
k – показатель степени
f – частоты
А – const
1. При А = 0 получаем систему начальных моментов. Начальный момент k -го порядка выражается формулой:
Начальный момент первого порядка равен
2. При А =
получаем систему центральных моментов.
Центральный момент k -го порядка выражается формулой:
Центральный момент первого порядка равен 0
Центральный момент второго порядка равен σ²
При А =
получаем систему условных моментов:
где:
– некоторый вариант ряда, обычно близкий к его середине
Нормированный момент представляет собой отношение центрального момента k -го порядка к k -ой степени среднего квадратического отклонения:
Нормированный момент
- первого порядка равен 0
- второго порядка равен 1
- третьего и четвертого порядков используется для характеристики асимметрии и эксцессов
Показатели асимметрии и эксцесса
Симметричным называется такое распределение, при котором варианты, равноотстоящие от средней, имеют равные частоты. Если распределение асимметрично, частоты вариантов, равноотстоящих от средней, не равны между собой
1 имеет место правосторонняя асимметрия Если А " width="640"
Для характеристики асимметрии используется нормированный момент третьего порядка:
Если А = 0 распределение симметрично
Если А 1 имеет место правосторонняя асимметрия
Если А
Под эксцессом понимается степень островершинности распределения, при этом в качестве эталона берется нормальное распределение. Характеристикой эксцесса является нормированный момент четвертого порядка
Формула коэффициента эксцесса:
0, для более плосковершинных Е " width="640"
Для нормального распределения Е = 0. Для более островершинных распределений, чем нормальное, Е 0,
для более плосковершинных Е
Выработка,
метры
до 200
Число
рабочих
3
200-220
х
220-240
12
_
х-х
190
240-260
50
_
( x - x )² f
210
-64
56
230
-44
260-280
х ΄f
12249,63
23126,52
47
250
x΄ ² f
280-300
-24
-9
28560,5
300-320
27
-3,9
-24
23
270
свыше 320
7
851,76
-50
48
16,1
290
ИТОГО:
2
50
0
12182,87
36,1
310
0
47
56,1
29973,83
330
76,1
22080,47
47
46
92
11582,42
21
8
63
140558
32
39
359