Математическая статистика (работа 7)

Математическая статистика

Типы средних величин

Средняя величина – это обобщенная количественная характеристика признака в статистической совокупности в конкретных условиях места и времени, которая выражает типичные черты и дает обобщающую характеристику однотипных явлений по одному из варьирующих признаков.

Сущность средней заключается в том, что в ней взаимопогашаются отклонения значений признака отдельных единиц, обусловленные действием случайных факторов, и учитываются изменения, вызванные действием факторов основных. Это позволяет средней отражать типичный уровень признака и абстрагироваться от индивидуальных особенностей, присущих отдельным единицам.

Категорию средней можно раскрыть следующим образом: средняя, являясь обобщающей характеристикой всей совокупности, должна ориентироваться на определенную величину, связанную со всеми единицами этой совокупности – . Если в данной функции все величины х>1> и т.д. заменить их средней величиной , то значение этой функции должно остаться прежним, то есть =.

На практике определить среднюю во многих случаях можно через исходное соотношение средней (ИСС) или ее логическую формулу.

Например, требуется найти среднее выборочное вариационного ряда: 1,2,2,3,3,4,6. Для нахождения воспользуемся формулой ИСС:

Значит, среднее выборочное вариационного ряда равно 3.

В каждом конкретном случае для реализации исходного соотношения потребуется одна из следующих форм средней величины:

    Средняя арифметическая

    Средняя гармоническая

    Средняя геометрическая

    Средняя квадратическая, кубическая и т.д.

Перечисленные средние объединяются в общей формуле средней степенной (при различной величине к)

Средняя арифметическая

Эта форма средней является наиболее распространенной и используется в тех случаях, когда расчет осуществляется по несгруппированным данным. В зависимости от характера имеющихся данных может быть простой или взвешенной.

Предположим, шесть торговых предприятий фирмы имеют следующий объем товарооборота в млн. руб. за месяц:

№1 – 38

№2 – 25

№3 – 41

№4 – 27

№5 – 19

№6 – 29

Для того, чтобы определить средний месячный товарооборот в расчете на одно предприятие, необходимо воспользоваться следующим исходным соотношением:

Используя знакомые условные обозначения, запишем формулу для данной средней:

С учетом этого получим 29,8 млн. руб. В данном случае мы использовали формулу средней арифметической простой (невзвешенной).

Средняя арифметическая взвешенная

При расчете средних величин отдельные значения осредняемого признака могут повторяться, встречаться по несколько раз. В подобных случаях расчет средней производится по сгруппированным данным или вариационным рядам, которые могут быть дискретными или интервальными.

Например, есть данные о сделках по акциям эмитента «х» за торговую сессию: сделка №1 – 700 акций по 420 руб., сделка №2 – 200 по 440 руб., сделка №3 – 950 по 410 рублей. Определим по данному дискретному вариационному ряду средний курс продажи одной акции, что можно сделать только используя следующее исходное соотношение:

ИСС=

В конечном итоге имеем:

Расчет среднего курса продажи произведен по формуле средней арифметической взвешенной.

В отдельных случаях, веса могут быть представлены не абсолютными величинами, а относительными (в процентах или долях единицы). Так, в приведенном выше примере количество проданных в ходе каждой сделки акций соответственно составляют: 37,8%, 10,8%, 51,4%

Тогда получим:

, или х=420*0,378+440*0,108+410*0,514=417,03 руб.

На практике наиболее частая ошибка заключается в игнорировании весов в тех случаях, когда они необходимы. Предположим, что имеются данные о себестоимости единицы продукции по двум предприятиям №1 – 37, №2 – 39 руб. Среднюю себестоимость данной продукции можно определить только в том случае, если объемы производства на двух предприятиях совпадают. Тогда средняя себестоимость составит 38 руб.

Но, на первом предприятии за рассматриваемый период может быть произведено, к примеру, 50 единиц продукции, а на втором – 700 единиц. Тогда для расчета средней себестоимости потребуется уже средняя арифметическая взвешенная

Выводы:

1) Использовать среднюю арифметическую невзвешенную можно только тогда, когда точно установлено отсутствие весов или их равенство.

2) При расчете средней по интервальному вариационному ряду для выполнения необходимых вычислений от интервалов переходят к их серединам.

Средняя гармоническая взвешенная используется, когда известен числитель исходного соотношения средней, но неизвестен его знаменатель. Рассмотрим расчет средней урожайности, являющейся одним из основных показателей эффективности производства в агробизнесе.

Допустим, есть несколько районов:

А – валовый сбор в тыс. тонн 52, урожайность 10 ц./га

Б – 40 тыс. тонн и 14 ц/га

В – 31 и 15

Г – 67 и 8

Средняя урожайность любой сельскохозяйственной культуры в среднем по нескольким территориям, агрофирмам может быть определена только на основе следующего исходного соотношения:

Общий валовой сбор получим простым суммированием валового сбора по районам. Данные о посевной площади получим, разделив валовой сбор каждого района на урожайность. С учетом этого определим искомую среднюю, предварительно переведя для сопоставимости тонны в центнеры.

Таким образом, общая посевная площадь данной культуры в целом по области составляла 185,2 тыс. га, а средняя урожайность – 10,3 ц. с одного гектара. В данном случае расчет произведен по формуле средней гармонической взвешенной

Данная формула используется для расчета средних показателей не только в статике, но и в динамике, когда известны индивидуальные значения признака и веса за заряд временных интервалов.

Средняя гармоническая невзвешенная

Эта форма средней используется значительно реже, имеет следующий вид: .

Она может использоваться вместо взвешенной в тех случаях, когда значения w>i>> >для единиц совокупности равны. Взвешенные средние используются на практике чаще невзвешенных, поскольку достаточно реже имеют место ситуации, когда веса осредняемых вариантов равны.

Средняя геометрическая

Еще одной формулой, по которой может осуществляться расчет среднего показателя, является средняя геометрическая. Наиболее широкое применение этот вид средней получил в анализе динамике для определения среднего темпа роста.

х – цепной коэффициент роста (варьирующий признак), n – количество периодов, по которым имеются коэффициенты роста.

Предположим, что имеются следующие данные о темпах роста товарооборота фирмы за ряд лет:

Годы 2000 г. 2001 г. 2002 г. 2003 г.

Темпы роста товарооборота (%) 102, 5 109,2 112, 4 101, 5.

Определим средние темпы роста с 2000 по 2003 годы. Значение темпов роста переводим из процентов в коэффициенты и подставляем в формулу средней геометрической.

Таким образом, средние темпы роста товарооборота фирмы составляют 1, 063 или 106, 3% в год.

Среднегодовые темпы роста могут рассчитываться с использованием другой формулы средней геометрической:

Удобство данной формулы состоит в том, что при расчете не требуются данные за все годы периода.

Средняя квадратическая

В основе вычислений ряда сводных расчетных показателей лежит средняя квадратическая:

Наиболее широко этот вид средней используется при расчете показателей вариации, коэффициентов структурных сдвигов, индексов.

Структурные средние

Структурные средние являются особым видом средних величин и применяются для изучения внутреннего строения и структуры рядов распределения значений признака. К таким показателям относятся мода и медиана.

Мода М> – значение случайной величины, встречающееся с набольшей вероятностью в дискретном вариационном ряду – вариант, имеющий наибольшую частоту (встречается чаще всего).

В интервальных рядах распределения с равными интервалами модой приближенно считают центральный вариант модального интервала, то есть того интервала, который имеет наибольшую частоту. Значение моды для интервального ряда вычисляется по формуле:

Модальный интервал определяется по наибольшей частоте. Рассмотрим нахождение моды на примере величины стажа работников на предприятии:

Стаж (лет) до 2 лет 2–4 4–6 6–8 8–10 более 10

Число работников: 4 2 20 35 11 7

Модальным интервалом в данном случае является интервал 6–8 лет, так как именно этот интервал соответствует самой многочисленной (35 человек) группе сотрудников:

М>0>=.

Мода широко используется в статистической практике при изучении покупательского спроса, регистрации цен и т.д.

Медиана М> – это вариант, который находится в середине вариационного ряда. Медиана делит ряд на две равные (по числу единиц) части – со значениями признака меньше медианы и со значениями признака больше медианы. Чтобы найти медиану, необходимо отыскать значение признака, которое находится в середине упорядоченного ряда.

В ранжированных рядах несгруппированных данных нахождение медианы сводится к отысканию порядкового номера медианы. Номер медианы для нечетного объема вычисляется по формуле:

где n – число членов ряда.

В случае четного объема ряда медиана равна средней из двух вариантов, находящихся в середине ряда.

В интервальных рядах распределения медианное значение оказывается в каком-то из интервалов признака x. Этот интервал характерен тем, что его кумулятивная частота (накопленная сумма частот) равна или превышает полусумму всех частот ряда. Значение медианы вычисляется линейной интерполяцией по формуле:

Медиана, как и мода, широко используется в маркетинговых исследованиях.

Для глубокого анализа изучаемого процесса, информации о средних уровнях исследуемых показателей обычно бывает недостаточно. Необходимо учитывать разброс или вариацию значений отдельных единиц, которая является важной характеристикой изучаемой совокупности.

Вариация – это многообразие, изменчивость значения признака у единиц совокупности. Она порождается комплексом условий, действующих на совокупность и ее единицы. Например, вариация оценок на экзамене в вузе порождается: различными способностями, временем подготовки, наличием или отсутствием мотивации.

В математической части решения этой задачи общая теория статистики опирается на математическую статистику, в которой излагается математическая сторона таких показателей вариации, как размах вариации, среднее линейное определение, дисперсия, среднее квадратическое отклонение, коэффициент вариации.

Все показатели вариации делятся на две группы: абсолютные и относительные.

К абсолютным показателям относятся: размах вариации, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение.

Размах вариации (R) – вычисляется как разность между наибольшим и наименьшим значениями варьирующего признака

R=x>min>-x>max>>.>

Он показывает, насколько велико различие между единицами совокупности, имеющими самое маленькое и самое большое значение признака. Например, различие между минимальной и максимальной пенсиями.

Его особенности определяются, во-первых, зависимостью лишь от двух крайних значений признака, а во-вторых, он не учитывает частот в вариационном ряду распределения.

Показатель размаха вариации дает обобщающую характеристику только границам (амплитуде) значений признака, но не дает характеристики вариации распределению отклонений. Распределение отклонений можно уловить, вычислив отклонения всех вариант от средней. А для того, чтобы дать им обобщающую характеристику, необходимо далее вычислить среднюю из этих отклонений, то есть разности между значением признака и средней арифметической в данной совокупности единиц.

Из рассмотренных ранее свойств средней арифметической нам известно, что сумма отклонений значений признака от нее всегда равна нулю, так как сумма положительных отклонений всегда равна сумме отрицательных отклонений. Следовательно, чтобы вычислить среднюю арифметическую из отклонений, нужно условно допустить, что все отклонения, положительные и отрицательные, имеют одинаковый знак.

Далее возьмем сумму всех отклонений, условно принятых с одинаковым знаком, и разделим их на их число и полученный показатель вариации будет называться средним линейным отклонением (d), то есть это средняя арифметическая из абсолютных значений отклонений отдельных вариантов от их средней арифметической.

Если каждый вариант в ряду распределения повторяется один раз, то среднее линейное отклонение равно:

Для вариационного ряда с неравными частотами формула имеет следующий вид:

Среднее линейное отклонение обладает большим преимуществом перед размахом вариации в отношении полноты характеристики колеблемости признака. Однако при этом в некотором смысле нарушается элементарное правило математики, так как отклонение от среднего значения признака складывается без учета знаков. В некоторых случаях суммирование показателей без учета знаков имеет экономический смысл. Например, в практической статистике оборот внешней торговли страны определяется как сумма экспорта и импорта, общий оборот рабочей силы – как сумма принятых и уволенных и т.д.

Математическим ожиданием дискретной случайной величины Х называется сумма произведений ее всех возможных значений на соответствующие вероятности. Математическое ожидание (МО) обозначается через М(Х) или m>.

Отметим, что математическое ожидание случайной величины является величиной постоянной. Его часто называют средним (статистическим) значением случайной величины, а также центром распределения, т. к. около него группируются отдельные значения случайной величины.

Дисперсия – средний квадрат отклонения значений признака от их средней величины. Если каждый вариант повторяется один раз, то дисперсия равна:

Для вариационного ряда с неравными частотами формула примет вид:

или D(X) = (по определению математического ожидания)

Квадратный корень из дисперсии носит название среднего квадратического отклонения от средней. Формулы его расчета следующие:

или

Элементарные алгебраические преобразования приводят формулу к виду: .