Регрессионный анализ. Парная регрессия

РЕФЕРАТ

Регрессионный анализ. Парная регрессия.

I. Построение регрессионных моделей

1. Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х>1>, Х>2>, … Х> и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом.

Сегодня мы разберем наиболее простой случай – установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией.

2. Построение модели

Этап 1. Исходные данные: заранее известные (экспериментальные, наблюденные) значения фактора х>i> – экзогенная переменная и соответствующие им значения отклика y>i>, (i = 1,…,n) - эндогенная переменная;

Активный и пассивный эксперимент.

Выборочные характеристики – позволяют кратко охарактеризовать выборку, т. е., получить ее модель, хотя и очень грубую:

а) среднее арифметическое:

Среднее арифметическое – это «центр», вокруг которого колеблются значения случайной величины.

Пример: средняя продолжительность жизни в России и США

б) дисперсия:

Отклонение от среднего: - характеризует лишь «разброс» конкретной, отдельно взятой величины х>i>. Если мы захотим получить более полную информацию, нам придется выписать такие отклонения для всех х, т. е., получить такой же ряд чисел, как и исходная выборка.

Можно попытаться усреднить все отклонения, но «среднее арифметическое отклонений от среднего арифметического» имеет особенность:

Эта величина обнуляется из-за того, что отрицательные значения отклонений и положительные взаимно погашаются.

Чтобы избежать этого, возведем их в квадрат, получив так называемую выборочную дисперсию:

Выборочная дисперсия характеризует разброс (вариацию) элементов выборки вокруг их среднего арифметического. Важно иметь в виду, что сами элементы выборки и их дисперсия имеют разные порядок: если элементы выборки измеряются в метрах, то дисперсия – в квадратных метрах.

Стандартное отклонение:

Полезное свойство дисперсии:

Т. о.

Характеристики генеральной совокупности:

математическое ожидание М(Х)

дисперсия D(X)

Несмещенная оценка дисперсии:

Для простоты, мы будем использовать смещенную оценку – выборочную дисперсию – при достаточно больших n они практически равны.

Этап 2. Постановка задачи: предположим, что значение каждого отклика y>i> как бы состоит из двух частей:

- во-первых, закономерный результат того, что фактор х принял конкретное значение х>i>;

- во-вторых, некоторая случайная компонента >i>, которая никак не зависит от значения х>i>.

Таким образом, для любого i = 1,…,n

y>i> = f(x>i>) + >i>

Смысл случайной величины (ошибки) :

а) внутренне присущая отклику у изменчивость;

б) влияние прочих, не учитываемых в модели факторов;

в) ошибка в измерениях

Этап 3. Предположения о характере регрессионной функции

Возможный вид функции f(x>i>)

- линейная:

- полиномиальная

- степенная:

- экспоненциальная:

- логистическая:

Методы подбора вида функции:

- графический

- аналитический

Этап 4. Оценка параметров линейной регрессионной модели

1. Имея два набора значений: x>1>, x>2>, …, x>n> и y>1>, y>2>, …, y>n>, предполагаем, что между ними существует взаимосвязь вида:

y>i> =  + x>i> + >i>

т. н. функция регрессии

Истинные значения параметров функции регрессии мы не знаем, и узнать не можем.

Задача: построить линейную функцию:

ŷ>i> = a + bx>i>

так, чтобы вычисленные значения ŷ>i>(x>i>) были максимально близки к экспериментальным у>i> (иначе говоря, чтобы остатки (ŷ>i> - y>i>) были минимальны).

Экономическая интерпретация коэффициентов:

a – «постоянная составляющая» отклика, независимая от фактора

b – степень влияния фактора на отклик (случаи отрицательного)

2. Метод наименьших квадратов (МНК):

подставим в задачу формулу (2.2):

В данном случае у нас a и b – переменные, а х и у – параметры. Для нахождения экстремума функции, возьмем частные производные по a и b и приравняем их к нулю.

Получили систему из двух линейных уравнений. Разделим оба на 2n:

Из первого уравнения выразим неизвестную а:

и подставим это выражение во второе уравнение:

Построив оценки a и b коэффициентов  и , мы можем рассчитать т. н. «предсказанные», или «смоделированные» значения ŷ>i> = a + bx>i> и их вероятностные характеристики – среднее арифметическое и дисперсию.

Несложно заметить, что оказалось. Так должно быть всегда:

Кроме того, вычислим т. н. случайные остатки и рассчитаем их вероятностные характеристики.

Оказалось, . Это также закономерно:

Таким образом, дисперсия случайных остатков будет равна:

Мы произвели вычисления, и построили регрессионное уравнение, позволяющее нам построить некую оценку переменной у (эту оценку мы обозначили ŷ). Однако, если бы мы взяли другие данные, по другим областям (или за другой период времени), то исходные, экспериментальные значения х и у у нас были бы другими и, соответственно, а и b, скорее всего, получились бы иными.

Вопрос: насколько хороши оценки, полученные МНК, иначе говоря, насколько они близки к «истинным» значениям  и ?

Этап 5. Исследование регрессионной модели

1. Теснота связи между фактором и откликом

Мерой тесноты связи служит линейный коэффициент корреляции:

(2.13)

-1  r>xy>  1 (2.14)

Отрицательное значение КК означает, что увеличение фактора приводит к уменьшению отклика и наоборот:

2. Доля вариации отклика у, объясненная полученным уравнением регрессии характеризуется коэффициентом детерминации R2. Путем математических преобразований можно выразить:

где – оценка дисперсии случайных остатков в модели,

Таким образом, R2 – это доля дисперсии у, объясненной с помощью регрессионного уравнения в дисперсии фактически наблюденного у.

Очевидно:

0  R2  1

3. Проверка статистической значимости уравнения регрессии

Мы получили МНК-оценки коэффициентов уравнения регрессии и рассчитали коэффициент детерминации. Однако, осталось неясным, достаточно ли он велик, чтобы говорить о существовании значимой связи между величинами х и у. Иначе говоря, достаточно ли сильна эта связь, чтобы на основании построенной нами модели можно было бы делать выводы?

Для ответа на этот вопрос можно провести т. н. F-тест.

Формулируется гипотеза Н>0>: предположим, что y>i>   + x>i> + >i>

Обратить внимание: выписаны не а, а , т. е., не оценки коэффициентов регрессии, а их истинные значения.

Альтернатива – гипотеза Н>1>: y>i> =  + x>i> + >i>

Мы не можем однозначно подтвердить или опровергнуть гипотезу Н>0>, мы можем лишь принять или отвергнуть ее с определенной вероятностью.

Выберем некоторый уровень значимости , такой что 0    1 – вероятность того, что мы сделаем неправильный вывод, приняв или отклонив гипотезу Н>0>.

Соответственно, величина Р = 1 -  - доверительная вероятность – вероятность того, что мы в итоге сделаем правильный вывод.

Для проверки истинности гипотезы Н>0>, с заданным уровнем значимости , рассчитывается F-статистика:

Значение F-статистики в случае парной регресии подчиняется т. н.

F-распределению Фишера с 1 степенью свободы числителя и (n - 2) степенями свободы знаменателя.

Для проверки Н>0> величина F-статистики сравнивается с табличным значением F>>(1, n-2).

Если F > F>>(1, n-2) – гипотеза Н>0> отвергается, т. е. мы считаем, что с вероятностью 1- можно утверждать, что регрессия имеет место и:

y>i> =  + x>i> + >i>

В противном случае гипотеза Н>0> не отвергается, принимаем:

y>i>   + x>i> + >i>

Вопрос: почему бы нам не взять  поменьше? Чем меньше , тем больше соответствующее табличное значение F-статистики, т. е., тем меньше шансов, что появятся основания отвергнуть гипотезу Н>0>.

Ошибки первого и второго рода

Ошибка первого рода: отвергается Н>0>, которая на самом деле верна.

Ошибка второго рода: принимается H0, которая на самом деле не верна.

Очевидно, чем меньше , тем меньше наши шансы отвергнуть гипотезу Н>0>, т. е., совершить ошибку первого рода. Соответственно, шансы совершить ошибку второго рода увеличиваются.

4. Характеристика оценок коэффициентов уравнения регрессии

1) математическое ожидание

Теорема: М(а) = , M(b) =  - несмещенность оценок

Это означает, что при увеличении количества наблюдений значения МНК-оценок a и b будут приближаться к истинным значениям  и ;

2) дисперсия

Теорема:

;

Благодаря этой теореме, мы можем получить представление о том, как далеко, в среднем, наши оценки a и b находятся от истинных значений  и .

Необходимо иметь в виду, что дисперсии характеризуют не отклонения, а «отклонения в квадрате». Чтобы перейти к сопоставимым значениям, рассчитаем стандартные отклонения a и b:

;

Будем называть эти величины стандартными ошибками a и b соответственно.

5. Построение доверительных интервалов

Пусть мы имеем оценку а. Реальное значение коэффициента уравнения регрессии  лежит где-то рядом, но где точно, мы узнать не можем. Однако, мы можем построить интервал, в который это реальное значение попадет с некоторой вероятностью. Доказано, что:

с вероятностью Р = 1 - 

где t>>>/2>(n-1) - /2-процентная точка распределения Стьюдента с (n-1) степенями свободы – определяется из специальных таблиц.

При этом уровень значимости устанавливается произвольно.

Неравенство можно преобразовать следующим образом:

,

или, что то же самое:

Аналогично, с вероятностью Р = 1 - :

откуда следует:

,

или:

Уровень значимости  - это вероятность того, что на самом деле истинные значения  и  лежат за пределами построенных доверительных интервалов. Чем меньше его значение, тем больше величина t>>>/2>(n-1), соответственно, тем шире будет доверительный интервал.

6. Проверка статистической значимости коэффициентов регрессии

Мы получили МНК-оценки коэффициентов, рассчитали для них доверительные интервалы. Однако мы не можем судить, не слишком ли широки эти интервалы, можно ли вообще говорить о значимости коэффициентов регрессии.

Гипотеза Н>0>: предположим, что =0, т. е. на самом деле независимой постоянной составляющей в отклике нет (альтернатива – гипотеза Н>1>:   0).

Для проверки этой гипотезы, с заданным уровнем значимости , рассчитывается t-статистика, для парной регрессии:

Значение t-статистики сравнивается с табличным значением t>>>/2>(n-1) - /2-процентной точка распределения Стьюдента с (n-1) степенями свободы.

Если t < t>>>/2>(n-1) – гипотеза Н>0> не отвергается (обратить внимание: не «верна», а «не отвергается»), т. е. мы считаем, что с вероятностью 1- можно утверждать, что  = 0.

В противном случае гипотеза Н>0> отвергается, принимается гипотеза Н>1>.

Аналогично для коэффициента b формулируем гипотезу Н>0>:  = 0, т. е. переменная, выбранная нами в качестве фактора, на самом деле никакого влияния на отклик не оказывае.

Для проверки этой гипотезы, с заданным уровнем значимости , рассчитывается t-статистика:

и сравнивается с табличным значением t>>>/2>(n-1).

Если t < t>>>/2>(n-1) – гипотеза Н>0> не отвергается, т. е. мы считаем, что с вероятностью 1- можно утверждать, что  = 0.

В противном случае гипотеза Н>0> отвергается, принимается гипотеза Н>1>.

7. Автокорреляция остатков.

1. Примеры автокорреляции.

Возможные причины:

1) неверно выбрана функция регрессии;

2) имеется неучтенная объясняющая переменная (переменные)

2. Статистика Дарбина-Уотсона

Очевидно:

0  DW  4

Если DW близко к нулю, это позволяет предполагать наличие положительной автокорреляции, если близко к 4 – отрицательной.

Распределение DW зависит от наблюденных значений, поэтому получить однозначный критерий, при выполнении которого DW считается «хорошим», а при невыполнении - «плохим», нельзя. Однако, для различных величин n и  найдены верхние и нижние границы, DW>L> и DW>U>, которые в ряде случаев позволяют с уверенностью судить о наличии (отсутствии) автокорреляции в модели. Правило:

1) При DW < 2:

а) если DW < DW>L> – делаем вывод о наличии положительной автокорреляции (с вероятностью 1-);

б) если DW > DW>U> – делаем вывод об отсутствии автокорреляции (с вероятностью 1-);

в) если DW>L>  DW  DW>U> – нельзя сделать никакого вывода;

2) При DW > 2:

а) если (4 – DW) < DW>L> – делаем вывод о наличии отрицательной автокорреляции (с вероятностью 1-);

б) если (4 – DW) > DW>U> – делаем вывод об отсутствии автокорреляции (с вероятностью 1-);

в) если DW>L>  (4 – DW)  DW>U> – нельзя сделать никакого вывода;

8. Гетероскедастичность остатков.

Возможные причины:

- ошибки в исходных данных;

- наличие закономерностей;

Обнаружение – возможны различные тесты. Наиболее простой:

(упрощенный тест Голдфелда – Куандта)

1) упорядочиваем выборку по возрастанию одной из объясняющих переменных;

2) формулируем гипотезу Н>0>: остатки гомоскедастичны

3) делим выборку приблизительно на три части, выделяя k остатков, соответствующих «маленьким» х и k остатков, соответствующих «большим» х (kn/3);

4) строим модели парной линейной регрессии отдельно для «меньшей» и «большей» частей

5) оцениваем дисперсии остатков в «меньшей» (s2>1>) и «большей» (s2>1>) частях;

6) рассчитываем дисперсионное соотношение:

7) определяем табличное значение F-статистики Фишера с (k–m–1) степенями свободы числителя и (k - m - 1) степенями свободы знаменателя при заданном уровне значимости 

8) если дисперсионное соотношение не превышает табличное значение F-статистики (т. е., оно подчиняется F-распределению Фишера с (k–m–1) степенями свободы числителя и (k - m - 1) степенями свободы знаменателя), то гипотеза Н>0> не отвергается - делаем вывод о гомоскедастичности остатков. Иначе – предполагаем их гетероскедатичность.

Метод устранения: взвешенный МНК.

Идея: если значения х оказывают какое-то воздействие на величину остатков, то можно ввести в модель некие «весовые коэффициенты», чтобы свести это влияние к нулю.

Например, если предположить, что величина остатка >i> пропорциональна значению x>i> (т. е., дисперсия остатков пропорциональна x>i>2), то можно перестроить модель следующим образом:

т. е. перейдем к модели наблюдений

где

Таким образом, задача оценки параметров уравнения регрессии методом наименьших квадратов сводится к минимизации функции:

или

где - весовой коэффициент.