Парная регрессия (работа 2)

Контрольная работа

по теме: "Парная линейная регрессия"

Данные, характеризующие прибыль торговой компании "Все для себя" за первые 10 месяцев 2004 года (в тыс. руб.), даны в следующей таблице:

январь

февраль

март

апрель

май

июнь

июль

август

сентябрь

октябрь

367

418

412

470

485

470

525

568

538

558

В контрольной работе с использованием табличного процессора Ехсеl необходимо выполнить следующие вычисления и построения:

1. Построить диаграмму рассеяния.

2. Убедится в наличии тенденции (тренда) в заданных значениях прибыли фирмы и возможности принятия гипотезы о линейном тренде.

3. Построить линейную парную регрессию (регрессию вида ). Вычисление коэффициентов b>0>, b>1 >выполнить методом наименьших квадратов.

4. Нанести график регрессии на диаграмму рассеяния.

5. Вычислить значения статистики F и коэффициента детерминации R2. Проверить гипотезу о значимости построенного уравнения регрессии.

6. Вычислить выборочный коэффициент корреляции и проверить гипотезу о ненулевом его значении.

7. Вычислить оценку дисперсии случайной составляющей эконометрической модели.

8. Проверить гипотезы о значимости вычисленных коэффициентов b>0>, b>1 >.

9. Построить доверительные интервалы для коэффициентов b>0>, b>1>.

10. Построить доверительные интервалы для дисперсии случайной составляющей эконометрической модели.

11. Построить доверительную область для условного математического ожидания М()( по оси Х откладывать месяцы январь - декабрь). Нанести границы этой области на диаграмму рассеяния.

12. С помощью линейной парной регрессии сделать прогноз величины прибыли на ноябрь и декабрь месяц и нанести эти значения на диаграмму рассеяния. Сопоставить эти значения с границами доверительной области для условного математического ожидания М() и сделать вывод о точности прогнозирования с помощью построенной регрессионной модели.

Решение.

Используя исходные данные, строим диаграмму рассеяния:

На основе анализа диаграммы рассеяния убеждаемся в наличии тенденции увеличения прибыли фирмы и выдвигаем гипотезу о линейном тренде.

Полагаем, что связь между факторами Х и У может быть описана линейной функцией . Решение задачи нахождения коэффициентов b>0>, b>1 >основывается на применении метода наименьших квадратов и сводится к решению системы двух линейных уравнений с двумя неизвестными b>0>, b>1 >:

b>0> n + b>1> Уx>i> = Уy>i>,

b>0 >Уx>i> + b>1> Уx>i>2 = Уx>i>y>i>.

Составляем вспомогательную таблицу:

х

y

x2

ху

y2

1

1

367

1

367

134689

2

2

418

4

836

174724

3

3

412

9

1236

169744

4

4

470

16

1880

220900

5

5

485

25

2425

235225

6

6

470

36

2820

220900

7

7

525

49

3675

275625

8

8

568

64

4544

322624

9

9

538

81

4842

289444

10

10

558

100

5580

311364

сумма

55

4811

385

28205

2355239

Для нашей задачи система имеет вид:

Решение этой системы можно получить по правилу Крамера:

Получаем:

, .

Таким образом, искомое уравнение регрессии имеет вид:

y =364,8 + 21,145x.

  1. Нанесем график регрессии на диаграмму рассеяния.

  1. Вычислим значения статистики F и коэффициента детерминации R2. Коэффициент детерминации рассчитаем по формуле R2 = r>xy>2 = 0,9522 = 0,907. Проверим адекватность модели (уравнения регрессии) в целом с помощью F-критерия. Рассчитаем значение статистики F через коэффициент детерминации R2 по формуле:

Получаем: . Зададим уровень значимости б =0,01, по таблице находим квантиль распределения Фишера F>0,01;1;8> = 11,26, где 1 – число степеней свободы.

F>факт.> > F>0,01;1;8>, т.к. 78,098 > 11,26.

Следовательно, делаем вывод о значимости уравнения регрессии при 99% - м уровне значимости.

  1. Вычислим выборочный коэффициент корреляции и проверим гипотезу о ненулевом его значении.

Рассчитаем выборочный коэффициент корреляции по формуле:

Получаем:

Проверка существенности отличия коэффициента корреляции от нуля проводится по схеме: если , то гипотеза о существенном отличии коэффициента корреляции от нуля принимается, в противном случае отвергается.

Здесь t>1-б/2,>>n>>-2 >– квантиль распределения Стьюдента, б - уровень значимости или уровень доверия, n – число наблюдений, (n-2) – число степеней свободы. Значение б задается. Примем б = 0,05, тогда t>1-б/2,>>n>>-2 >= t>0,975,8 >= 2,37. Получаем:

.

Следовательно, коэффициент корреляции существенно отличается от нуля и существует сильная линейная связь между х и у.

С использованием табличного процессора Ехсеl проведем регрессионную статистику:

Вывод итогов:

Регрессионная статистика

Множественный R

0,952409

R-квадрат

0,907083

Нормированный R-квадрат

0,895468

Стандартная ошибка

21,7332

Наблюдения

10

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

1

36888,245

36888,25

78,09816

2,119E-05

Остаток

8

3778,6545

472,3318

Итого

9

40666,9

Коэфф.

Станд. ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

364,8

14,846599

24,57128

8,04E-09

330,56368

399,0363

Переменная X 1

21,14545

2,3927462

8,837316

2,12E-05

15,627772

26,66314

Вычисленные значения коэффициентов b>0>, b>1>,> >значения статистики F, коэффициента детерминации R2 выборочного коэффициента корреляции r>xy> совпадают с выделенными в таблице.

7. Оценка дисперсии случайной составляющей эконометрической модели вычисляется по формуле .

Используя результаты регрессионной статистики, получаем:

.

8. Проверим значимость вычисленных коэффициентов b>0>, b>1 >по t-критерию Стьюдента. Для этого проверяем выполнение неравенств:

и ,

где

, , , .

Используем результаты регрессионной статистики:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

364,8

14,846599

24,57128

8,04E-09

330,56368

399,0363

Переменная X 1

21,14545

2,3927462

8,837316

2,12E-05

15,627772

26,66314

Получаем: ; > >Примем б = 0,05, тогда t>1-б/2,>>n>>-2 >= t>0,975,8 >= 2,37.

Так как и , делаем вывод о значимости коэффициентов линейного уравнения регрессии.

9. Доверительные интервалы для коэффициентов b>0>, b>1> получаем с помощью результатов регрессионной статистики.

Доверительный интервал для коэффициента b>0 >уравнения регрессии:

Доверительный интервал для коэффициента b>1> уравнения регрессии:

10. Построим доверительный интервал для дисперсии случайной составляющей эконометрической модели по формуле:

.

Примем б = 0,05, тогда по таблице для 10-элементной выборки q> >= 0,65.

Получаем:

,

.

11. Построим доверительную область для условного математического ожидания М().

Доверительные интервалы для уравнения линейной регрессии: находятся по формуле:

где соответственно верхняя и нижняя границы доверительного интервала; значение независимой переменной для которого определяется доверительный интервал, квантиль распределения Стьюдента, доверительная вероятность, (n-2) – число степеней свободы;

> >

Рассмотрим уравнение: y =364,8 + 21,145x. Пусть тогда . Зная и , заполним таблицу:

1

385,95

20,25

4,634

377,327

394,564

2

407,09

12,25

5,215

397,391

416,791

3

428,24

6,25

5,738

417,564

438,908

4

449,38

2,25

6,217

437,819

460,945

5

470,53

0,25

6,661

458,138

482,917

6

491,67

0,25

7,078

478,508

504,838

7

512,82

2,25

7,471

498,921

526,715

8

533,96

6,25

7,845

519,372

548,556

9

555,11

12,25

8,202

539,854

570,365

10

576,25

20,25

8,544

560,363

592,146

сумма

82,5

11

597,4

30,25

8,873

580,897

613,903

12

618,55

42,25

9,190

601,453

635,638

График уравнения регрессии, доверительная полоса, диаграмма рассеяния:

12. С помощью линейной парной регрессии сделаем прогноз величины прибыли на ноябрь и декабрь месяц:

597,4, 618,55.

Нанесем эти значения на диаграмму рассеяния.

Эти значения сопоставимы с границами доверительной области для условного математического ожидания М().

Точность прогнозирования: с вероятностью 0,95 прибыль в ноябре находится в интервале (487,292; 515,508); прибыль в декабре находится в интервале (497,152; 526,376).