ТВиС 11клас
Урок №7
Тема: Генеральная совокупность и случайная выборка. Оценка среднего и дисперсии генеральной совокупности с помощью выборочных характеристик
Образовательная цель: провести оценку параметров генеральной совокупности по выборочным данным; изучить основы первичной обработки данных; научиться строить гистограмму; освоить вычисление точечных и интервальных оценок выборочных данных.
Основными понятиями математической статистики являются: генеральная совокупность, выборка, теоретическая функция распределения.
Генеральная совокупность – это множество всех мыслимых значений наблюдений (объектов), однородных относительно некоторого признака, которые могли быть сделаны. Число всех наблюдений, составляющих генеральную совокупность, называется ее объемом N.
Например, популяция представляет собой множество индивидуумов. Изучение целой популяции трудоемко и дорого и, может быть, просто невозможно. Поэтому собирают данные по выборке индивидуумов, которых считают представителями этой популяции, позволяющими сделать вывод относительно этой популяции.
Выборка – это совокупность случайно отобранных наблюдений (объектов) для непосредственного изучения из генеральной совокупности. Объем выборки n. Выборка обязательно должна удовлетворять условию репрезентативности, т.е. давать обоснованное представление о генеральной совокупности. Как сформировать репрезентативную (представительную) выборку? В идеале стремятся получить случайную (рандомизированную) выборку.
Для этого составляют список всех индивидуумов в популяции и случайно их отбирают. Но иной раз затраты при составлении списка могут оказаться недопустимыми и тогда берут приемлемую выборку, например, одну клинику, больницу и исследуют всех пациентов в этой клинике с данным заболеванием. Каждый элемент выборки xi называется вариантой.
Число наблюдений варианты ni называется частотой встречаемости. Последовательность вариант, записанных в возрастающем порядке, называется вариационным рядом.
Гистограмма частот – это ступенчатая фигура, состоящая из смежных прямоугольников, построенных на одной прямой, основания 2 которых
Оценка параметров генеральной совокупности
Точечная оценка –оценка ,которая которая даётся для некоторого параметра одним значением. И это число определяется по выборке. Это функция результатов выборки, и она является точечной оценкой генерального параметра, т.е. принимает только одно значение. Качество оценки принимается по трём свойствам быть состоятельной,эффективной и несмещённой
Интервальная оценка- по данным выборки оценивается интервал, в котором лежит истинное значение параметра с заданной вероятность.
ni - абсолютная частота встречаемости варианты i x ;
n - объем выборки.
Выборочная средняя является несмещенной оценкой генеральной средней, так как Mxв xген , то есть она эквивалентна истинному среднему в генеральной совокупности.
Выборочная дисперсия 2 в S не обладает свойством несмещенности.
Это смещенная оценка генеральной дисперсии
. На практике используют исправленную дисперсию
, которая является несмещенной оценкой дисперсии генеральной совокупности:
Стандартная ошибка уменьшится, т.е. оценка станет более точной, если объем выборки n увеличится и данные имеют небольшое рассеяние S. Рассмотрим разницу между S – стандартным отклонением в выборке и m – стандартной ошибкой среднего.
На первый взгляд они очень схожи, но их используют в разных целях. Среднее квадратическое отклонение S отражает вариабельность в значениях данных, и его указывают, если надо пояснить изменчивость в наборе данных, разброс данных.
Ошибка выборочной средней x m характеризует точность выборочного среднего xв и должна быть указана, если интерес представляет среднее значение выборки.
Пример 4.2. Из генеральной совокупности извлечена выборка объема n = 50.
| | 2 | 5 | 10 | 7 |
| | 16 | 12 | 14 | 8 |
| | | | | |
Найти несмещённую оценку генеральной средней
=
=
= 5,76.
Подведение итогов урока. Анализ работы в классе. Оценивание.
Домашнее задание: Выучить формулы
А как сравнить две выборки, которые имеют одинаковые размахи и одинаковые средние значения?
Давайте рассмотрим пример. На место столяра претендуют двое рабочих. Для каждого из них установили испытательный срок, в течение которого они должны изготавливать одинаковые стулья из дерева. В следующей таблице приведены результаты претендентов.
Каждый из рабочих за пять дней изготовил
деталей. Следовательно, средняя производительность труда за день у обоих рабочих одинаковая и равна
стульев в день.
Моды у предложенных совокупностей отсутствуют. Чтобы найти медианы, расположим значения в порядке возрастания.
,
,
,
,
;
,
,
,
,
.
Количество данных в обоих случаях нечётно. Слева и справа от числа
находятся по два элемента. Получается, что медианы одинаковые (
и
).
В качестве критерия сравнения совокупностей в данном случае может выступать стабильность производительности труда. Её можно оценить с помощью отклонений от среднего значения элементов совокупности.
Давайте сформулируем определение. Отклонением от среднего называют разность между рассматриваемым значением случайной величины и средним значением выборки.
Например, если значение
, а значение
, то отклонение
от среднего равно
.
Отклонение от среднего может быть как положительным, так и отрицательным.
Найдём отклонение от среднего и внесём найденные значения в таблицу.
Покажем на нашем примере, что сумма отклонений всех значений выборки от среднего значения равна
.
,
.
Поэтому характеристикой стабильности элементов совокупности может служить сумма квадратов отклонений от среднего.
Давайте найдём квадраты отклонений от среднего и суммы квадратов отклонений.
Видим, что у второго рабочего сумма квадратов отклонений от среднего больше, чем у первого, то есть можно записать неравенство
.
На практике это означает, что второй рабочий имеет нестабильную производительность труда: в какие-то дни он работает не в полную силу, а какие-то навёрстывает упущенное, а это всегда сказывается на качестве продукции.
Получается, что работодатель захочет взять на место столяра первого рабочего, ведь у первого рабочего сумма квадратов отклонений от средней производительности меньше.
В рассмотренном примере рабочие работали одинаковое количество дней. Если бы рабочие работали разное количество дней и производили в среднем за день одинаковое число деталей, то стабильность работы каждого из них можно было бы оценить по величине среднего арифметического квадратов отклонений. Такая величина называется дисперсией, что в переводе с латинского означает «рассеяние», и обозначается буквой
.
Для случайной величины
, принимающей
различных значений и имеющей среднее значение
, дисперсия находится по формуле
Задача. Два столяра изготавливали одинаковые стулья из дерева. При этом первый столяр трудился полную рабочую неделю, а второй –
дня. Сведения об их дневной выработке представлены в таблице. Сравните стабильность работы столяров.
Итак, найдём средние значения выборок данных величин X и Y.
,
.
Таким образом, мы получили, что найденные значения равны.
Далее найдём отклонения от среднего для всех значений величин X и Y.
Затем найдём квадраты отклонений от среднего.
Найдём сумму квадратов отклонений от среднего всех значений величин X и Y.
Давайте найдём квадраты отклонений от среднего и суммы квадратов отклонений.
Видим, что у второго рабочего сумма квадратов отклонений от среднего больше, чем у первого, то есть можно записать неравенство
.
На практике это означает, что второй рабочий имеет нестабильную производительность труда: в какие-то дни он работает не в полную силу, а какие-то навёрстывает упущенное, а это всегда сказывается на качестве продукции.
Получается, что работодатель захочет взять на место столяра первого рабочего, ведь у первого рабочего сумма квадратов отклонений от средней производительности меньше.
В рассмотренном примере рабочие работали одинаковое количество дней. Если бы рабочие работали разное количество дней и производили в среднем за день одинаковое число деталей, то стабильность работы каждого из них можно было бы оценить по величине среднего арифметического квадратов отклонений. Такая величина называется дисперсией, что в переводе с латинского означает «рассеяние», и обозначается буквой
.
Для случайной величины
, принимающей
различных значений и имеющей среднее значение
, дисперсия находится по формуле
Задача
Два столяра изготавливали одинаковые стулья из дерева. При этом первый столяр трудился полную рабочую неделю, а второй –
дня. Сведения об их дневной выработке представлены в таблице. Сравните стабильность работы столяров.
Итак, найдём средние значения выборок данных величин X и Y.
,
.
Таким образом, мы получили, что найденные значения равны.
Далее найдём отклонения от среднего для всех значений величин X и Y.
Затем найдём квадраты отклонений от среднего.
Найдём сумму квадратов отклонений от среднего всех значений величин X и Y.
Теперь найдём дисперсию совокупности значений случайной величины X, то есть среднее арифметическое квадратов отклонений.
Найдём дисперсию совокупности значений случайной величины Y.
Таким образом мы получили, что
.
Следовательно, второй столяр работает стабильнее первого.
Отметим, что если значения
,
, …,
случайной величины
повторяются с частотами
,
, …,
соответственно, то дисперсию величины
можно вычислить по формуле
,
где
.
Используя знак суммы Ʃ, данную формулу можно записать более компактно.
, где
.
Пусть величина
имеет некоторую размерность (например, миллиметры). Тогда её среднее значение
и отклонение от среднего
имеют ту же размерность, что и сама величина (в миллиметрах). А вот квадрат отклонения
и дисперсия
имеют размерности квадрата этой величины (в квадратных миллиметрах).
Для оценки степени отклонения от среднего значения удобно иметь дело с величиной той же размерности, что и сама величина
. С этой целью используются значения
.
Сформулируем определение. Корень квадратный из дисперсии называют средним квадратичным отклонением и обозначают
, то есть
.
Давайте найдём среднее квадратичное отклонение от среднего значения выборки:
см,
см,
см,
см,
см.
Вообще, дисперсию и среднее квадратичное отклонение в статистике называют также мерами рассеивания значений случайной величины около среднего значения.