Навігація
Головна
 
Головна arrow Економіка arrow Економетрика
< Попередня   ЗМІСТ   Наступна >

МНОЖИННА РЕГРЕСІЯ

Множинна лінійна регресія в скалярною і векторної формах

Рівняння множинної регресії відображає кореляційний зв'язок результативної (залежної) змінної у і декількох пояснюють (незалежних) :

(2.1)

де у - результативна змінна (залежна, яка пояснюється); - Пояснюючі змінні (незалежні); - Випадковий залишок; - Якась математична функція.

Якщо в якості опції в формулі (2.1) обрана лінійна, рівняння регресії називається рівнянням множинної лінійної регресії і має вигляд

де - параметри.

У ряді випадків зручніше користуватися матричної записом цього рівняння

де X - матриця значень незалежних змінних

Перший стовпець цієї матриці складається з одиниць, які розглядаються як значення додаткової змінної, на яку множиться вільний член. У матрицю X входить р незалежних змінних, що приймають п значень.

- Матриці-стовпці значень залежної змінної (матриця Y ), параметрів регресії (матриця ) і випадкових залишків (матриця ε):

Вектори Y і ε включають в себе по п значень залежної змінної і випадкових залишків, вектор а складається з значень параметра - вільного члена і р коефіцієнтів регресії .

Метод найменших квадратів і передумови його застосування для множинної лінійної регресії

Для визначення значень параметрів рівняння множинної регресії використовують числову інформацію, яка розглядається як вибіркова . Тому розраховані на її основі величини називають оцінками параметрів ,

підкреслюючи тим самим їх можливу неточність через неповноту інформації. Оцінки параметрів можуть змінюватися від вибірки до вибірки, тому вони розглядаються як випадкові величини.

Далі будемо розрізняти позначення параметрів і випадкових залишків, отриманих за вибіркою (тобто за наявними у дослідника даними), і значення параметрів і випадкових залишків по генеральної сукупності. Для позначення вибіркових значень будуть використовуватися латинські букви: ; в матричної формі: ; для генеральних значень - грецькі літери: ; в матричної формі: .

Так як знайдені параметри є лише вибірковими оцінками невідомих параметрів по генеральної сукупності, то виникає питання про їх якість. Характеристиками якості отриманих оцінок параметрів регресії є їх Незміщеність, ефективність і спроможність.

Оцінка параметра є несмещенной , якщо її математичне сподівання дорівнює оцінюваному параметру. Наприклад, математичне очікування оцінки коефіцієнта регресії а j одно його значенням у генеральній сукупності :

Оцінка параметра є ефективною , якщо вона має найменшу дисперсію серед всіх можливих оцінок даного параметра за вибірками одного і того ж обсягу:

де - ефективна оцінка параметра ; - Дисперсія ефективної оцінки параметра ; - Дисперсія оцінки параметра α; •, отриманої при застосуванні k- го методу.

Оцінка параметра є заможної , якщо зі збільшенням числа спостережень вона прагне до значення параметра в генеральній сукупності:

Найпростішим методом оцінки параметрів множинної регресії є МНК. МНК-оцінки будуть незміщеними, ефективними і заможними при виконанні певних вимог, які називаються передумовами МНК . Ці вимоги стосуються статистичних властивостей вихідних даних:

  • - Незалежні змінні є невипадковими величинами, не пов'язаними між собою;
  • - Залежна змінна є випадковою величиною, не обмеженої зверху чи знизу;
  • - Для кожного набору значень незалежних змінних результативна змінна розглядається як окрема випадкова величина . Її розподіл описується нормальним законом з математичним очікуванням, рівним вирівняні значенням залежної змінної:

Наприклад, в моделі з трьома незалежними змінними є спостереження номер десять . Для цих значень пояснюють змінних результативна змінна є випадковою величиною з математичним очікуванням .

Друга характеристика нормального розподілу - середньоквадратичне відхилення σ Y може бути будь-яким, проте воно повинно бути однаковим для всіх випадкових величин :

- Різні випадкові величини і повинні бути незалежні один від одного:

Лінійна модель регресії, для якої виконуються ці умови, називається класичної нормальної лінійної моделлю .

Так як випадкова величина в лінійної регресії є сумою невипадковою величини і випадкового залишку , то всі перераховані вище вимоги до випадкової величиною можна сформулювати у формі вимог до випадкових залишків моделі регресії , які (крім останньої вимоги) називаються умовами Гаусса - Маркова .

1. Математичне сподівання випадкового залишку дорівнює нулю:

(2.2)

2. Дисперсія випадкових залишків однакова для різних и і j.

(2.3)

3. Випадкові залишки не залежать один від друга (не автокорреліровани):

(2.4)

4. Випадкові залишки не залежать від значень незалежних змінних, що входять в модель регресії:

(2.5)

5. Випадкові залишки розподілені за нормальним законом розподілу.

Метод найменших квадратів грунтується на принципі мінімізації квадратів відхилень фактичних значень результативної ознаки у від його вирівняних значень у , розрахованих за рівнянням регресії

( 2 . 6 )

Для множинної лінійної регресії вираз (2.6) буде мати вигляд

Для знаходження екстремуму по кожному з невідомих параметрів розраховується похідна функції і отриманий вираз прирівнюється до нуля:

(2.7)

Після перетворень система рівнянь (2.7) має вигляд

(2.8)

Система (2.8) називається системою нормальних рівнянь. У матричної формі застосування МНК приводить до наступного результату:

(2.9)

приклад

Є статистичні дані про значення чотирьох показників в розрізі 48 суб'єктів РФ, які наведені в табл. 2.1.

  • 1. Надходження податків, зборів та інших обов'язкових платежів до консолідованого бюджету РФ (без надходжень ЄСП) в 2009 р, млн. Руб.
  • 2. Кількість зайнятих в Російській Федерації в 2009 р, тис. Осіб.
  • 3. Обсяг відвантажених товарів власного виробництва, виконаних робіт і наданих послуг власними силами за видом економічної діяльності "Оброблювальні виробництва" в Російській Федерації в 2009 р, млн руб.
  • 4. Обсяг відвантажених товарів власного виробництва, виконаних робіт і послуг власними силами за видом економічної діяльності "Виробництво і розподіл електроенергії, газу і води" в Російській Федерації в 2009 р, млн руб.

Припустимо, що залежною змінною y в даному випадку є "надходження податків, зборів та інших обов'язкових платежів до консолідованого бюджету РФ". Для стислості будемо називати цю змінну "надходження податків". Незалежними змінними є інші три змінні, які ми будемо називати і позначати як "кількість зайнятих" , "відвантаження в обробних виробництвах" , "виробництво енергії" . Припустимо також, що зв'язок між залежною і незалежними змінними може бути виражена у вигляді лінійної функції регресії a випадкові залишки задовольняють умовам Гаусса - Маркова.

Таблиця 2.1. Деякі економічні показники діяльності суб'єктів РФ в 2009 р

суб'єкт РФ

Надходження податків, млн руб.

Кількість зайнятих, тис. Осіб

Відвантаження в обробних виробництвах, млн руб.

Виробництво енергії, млн руб.

y

x 1

x 2

x 3

Республіка Інгушетія

1422,20

107,20

266

733

Єврейська автономна область

2529,70

82,30

2865

2040

Республіка Тива

2629,10

101,60

431

2023

Республіка Алтай

2764,30

87,60

1228

1176

Карачаєво-Черкеська Республіка

3347,50

188,30

10 921

4275

Республіка Калмикія

3914,20

121,90

928

1 495

Республіка Адигея

4400,80

187,10

12 565

3000

Республіка Північна Осетія - Аланія

5904,00

326,50

11 088

3337

Магаданська область

6956,70

97,10

2486

8305

Кабардино-Балкарська Республіка

7595,10

352,50

17 609

5790

Республіка Хакасія

9257,80

254,70

39 640

17 634

Чукотський автономний округ

9317,10

30,50

531

6226

Республіка Марій Ел

9978,80

323,70

46 180

7489

Псковська область

10 144,80

323,30

32 074

5640

Чеченська Республіка

10 215,40

357,00

579

6170

республіка Карелія

11 349,50

337,80

39 962

14 684

Курганська область

12 046,90

393,00

38 308

12 093

Республіка Мордовія

12 061,40

439,00

65 507

7312

Костромська область

12 104,20

340,90

50 532

20 922

Камчатський край

13 042,40

190,00

11 245

12 721

Орловська область

13 104,30

375,00

38 089

9612

Іванівська область

13 396,40

491,20

42 865

18 506

республіка Дагестан

14 170,30

1104,10

21 031

12 573

Тамбовська область

14 227,00

499,50

47 738

9522

Новгородська область

16 868,50

322,50

80 915

8989

Республіка Бурятія

18 019,40

392,30

29 660

12 532

Смоленська область

18 950,30

505,40

78 278

43 604

Курська область

19 995,50

536,50

67 241

43 733

Забайкальський край

20 445,60

482,00

7910

13 687

Ліпецька область

21 220,80

575,50

228 812

17 311

Ульяновська область

21 360,00

619,10

76 523

16 471

Пензенська область

21 418,80

634,30

71 307

12 061

Кіровська область

21 477,10

684,00

76 151

20 857

Чуваська республіка

21 816,30

608,40

85 926

17 071

Астраханська область

22 824,90

475,80

34 576

10 532

Брянська область

23 579,30

569,80

57 187

10 519

Амурська область

23 702,60

417,30

16 412

16 512

Калузька область

24 007,20

530,50

161 769

10 369

Тульська область

27 581,20

746,60

182 031

24 376

Вологодська область

28 057,50

617,80

236 267

23 180

Алтайський край

29 815,50

1125,50

115 197

24 804

Тверська область

32 236,50

687,40

103 158

44 961

Бєлгородська область

32 657,40

754,90

233 608

18 773

Володимирська область

32 672,70

688,40

142 867

20 093

Мурманська область

34 351,10

482,20

49 081

34 395

Воронезька область

36 050,40

1042,40

125 343

39 170

Рязанська область

36 544,30

522,00

95 522

23 932

Калінінградська область

37 136,90

459,50

147 573

15 429

Джерело: дані Росстату.

Застосовуючи до вихідних даних (див. Табл. 2.1) МНК, оцінимо параметри регресії. Система нормальних рівнянь для нашого прикладу має вигляд

Після обчислень отримуємо рівняння

З рівняння регресії випливає, що між збором податків і незалежними змінними, що входять в модель, спостерігається прямий зв'язок. Нагадаємо, що коефіцієнти при незалежних змінних називаються коефіцієнтами регресії. Вони є абсолютними показниками сили зв'язку і характеризують середня зміна залежної змінної при одиничному зміні незалежної змінної - сомножителя даного коефіцієнта за умови незмінності інших незалежних змінних, включених в рівняння (модель) регресії.

Зокрема, можна зробити висновок, що зі зміною кількості зайнятих на 1 тис. Чоловік надходження податків в середньому зміниться в ту ж сторону на 12,45 млн руб. при незмінному обсязі відвантаження в обробних виробництвах і виробництві енергії.

Зміна обсягу відвантаження в обробних виробництвах на 1 млн руб. призведе до зміни надходження податків в середньому на 0,06 млн руб. при незмінних значеннях кількості зайнятих і виробництва енергії.

При зміні виробництва енергії на 1 млн руб. надходження податків в середньому зміниться на 0,31 млн руб. при незмінних значеннях кількості зайнятих і обсягу відвантаження в обробних виробництвах.

Величини коефіцієнтів регресії визначаються не тільки силою зв'язку між показниками, а й масштабом їх вимірювання, і тому не можна порівнювати між собою. Для зіставлення незалежних змінних за силою їх впливу на результативну використовують відносні показники сили зв'язку - коефіцієнти еластичності .

Загальна формула коефіцієнта еластичності по змінної X j має вигляд

де - похідна функції регресії по змінної ; - Вирівняне значення залежної змінної y при заданому значенні змінної .

Відзначимо, що коефіцієнти еластичності можуть бути розраховані для будь-якої функції - як лінійної, так і нелінійної. Наприклад, для множинної лінійної регресії коефіцієнт еластичності по змінної х; буде дорівнює

(2.10)

З формули (2.10) випливає, що коефіцієнт еластичності для лінійної функції залежить від конкретних значень незалежних змінних, включених в модель. Так як коефіцієнт еластичності вимірює вплив змінної x j на змінну y , то значення інших незалежних змінних прийнято фіксувати на їх середньому рівні:

Таким чином, при фіксованих значеннях інших змінних існує цілий ряд коефіцієнтів еластичності по змінної , визначається областю її значень. Вони називаються приватними коефіцієнтами еластичності. Якщо зафіксувати значення на середньому рівні, отримаємо середній коефіцієнт еластичності (або коефіцієнт еластичності для середнього значення ):

(2.11)

Як випливає з МНК для лінійної регресії, вираз в знаменнику (2.11) дорівнює середньому значенню залежною змінною, що дозволяє спростити формулу:

Коефіцієнти еластичності показують, на скільки відсотків в середньому зміниться залежна змінна при зміні змінної на 1% і значеннях інших незалежних змінних, фіксованих на середніх рівнях. Так як величина коефіцієнта еластичності залежить від обраного значення незалежної змінної, при формулюванні висновку слід вказувати це значення змінної і відповідне йому вирівняне значення залежної змінної.

Розглянемо середні коефіцієнти еластичності для регресії, отриманої в прикладі 2.1.

Для характеристики сили зв'язку кількості зайнятих і надходження податків розрахуємо коефіцієнт еластичності

Отже, зі зміною кількості зайнятих на 1% від середнього рівня надходження податків в середньому зміниться в ту ж сторону на 0,32% свого середнього рівня при незмінному обсязі відвантаження в обробних виробництвах і виробництві енергії.

Коефіцієнти еластичності для змінних "обсяг відвантаження в обробних виробництвах" і "виробництво енергії" розраховуються і інтерпретуються аналогічно. вони рівні

Зіставляючи отримані коефіцієнти еластичності, можна зробити висновок про те, що найбільш сильний вплив на збір податків надає число зайнятих.

Іншими відносними показниками сили зв'язку є стандартизовані коефіцієнти регресії . На відміну від коефіцієнтів еластичності, вони розраховуються тільки для випадку множинної лінійної регресії за формулою

Для прикладу 2.1 стандартизовані коефіцієнти регресії рівні

Стандартизовані коефіцієнти регресії можуть бути проінтерпретовані. Величина показує, на скільки своїх середніх квадратичних відхилень в середньому зміниться залежна змінна при зміні змінної x j • на одне своє середньоквадратичне відхилення при фіксованих значеннях інших змінних, включених в модель регресії. Наприклад, при зміні кількості зайнятих на надходження податків в середньому зміниться в ту ж сторону на при незмінному обсязі відвантаження в обробних виробництвах і виробництві енергії.

Зіставлення стандартизованих коефіцієнтів регресії для прикладу 2.1 приводить до інших, ніж за коефіцієнтами еластичності, висновків про те, яка змінна надає більш сильний вплив на результативну змінну. В даному випадку це , тобто обсяг відвантаження в обробних виробництвах. Така зміна в висновках пояснюється різним рівнем варіації незалежних змінних. Можна показати, що відношення стандартизованих коефіцієнтів регресії одно

де - коефіцієнти варіації змінних і .

Стандартизовані коефіцієнти регресії є коефіцієнтами в функції регресії, побудованої на основі стандартизованих змінних - змінних, отриманих в результаті перетворення вихідних даних за формулами

де - и -e значення стандартизованої залежною змінною; - Ie значення стандартизованої j-й незалежної змінної; - Середні значення переменних- середні квадратичні відхилення змінних /

Рівняння регресії, що включає стандартизовані змінні, називають рівнянням регресії в стандартизованому масштабі (формі, вигляді):

(2.12)

де - випадковий залишок.

Так як рівняння побудовано на основі непреобразованних змінних, його ще називають рівнянням регресії в натуральному масштабі .

Особливістю рівняння регресії в стандартизованому масштабі є відсутність в ньому вільного члена. Ця властивість є наслідком двох тверджень:

  • - Середнє значення стандартизованої змінної дорівнює нулю;
  • - Вільний член рівняння множинної лінійної регресії дорівнює

Таким чином, пряма, побудована на основі рівняння регресії в стандартизованому масштабі, завжди проходить через початок координат. Цим же властивістю володіє рівняння регресії, яке базується на основі зосереджених змінних , які розраховуються за формулами

(2.13)

При використанні зосереджених змінних коефіцієнти регресії і випадкові залишки рівні коефіцієнтам регресії і випадковим залишкам рівняння в натуральному масштабі:

(2.14)

На рис. 2.1 дана геометрична інтерпретація МНК для множинної лінійної регресії. Кожну змінну, що утворить стовпець матриці X, можна розглядати як вектор-стовпець , де . Так як вектори утворюють багатовимірний простір, зобразити їх на малюнку неможливо. Можна, однак, скористатися тим, що вектор (містить вирівняні значення залежної змінної) є лінійною комбінацією векторів . На рис. 2.1 це вектор , що лежить в підпросторі, утвореному незалежними змінними, яке називають простором оцінок. Вектор лежить поза цим підпростору. Для зручності будемо вважати, що всі вектори виходять з точки 0. Тоді початок вектора також буде виходити з точки 0. При формуванні проекції вектора на простір оцінок найменшу довжину матиме перпендикуляр до цього простору - вектор випадкових залишків . Отже, параметри вектора вирівняних значень повинні бути підібрані таким чином, щоб вектори сформували прямокутний трикутник.

Так як вектор ортогонален вектору , то їх добуток дорівнює нулю:

Геометрична інтерпретація ΜΗΚ

Мал. 2.1. Геометрична інтерпретація ΜΗΚ

З останнього виразу випливає, що вектор параметрів а чи дорівнює нулю (нульова проекція, вектор Υ ортогонален векторах X, змінна / не залежить від змінних х ), або

Звідки

Таким чином, на основі геометричної інтерпретації ми отримали ту ж формулу для оцінки параметрів регресії, що і аналітичним шляхом.

 
Якщо Ви помітили помилку в тексті позначте слово та натисніть Shift + Enter
< Попередня   ЗМІСТ   Наступна >
 
Дисципліни
Агропромисловість
Аудит та Бухоблік
Банківська справа
БЖД
Географія
Документознавство
Екологія
Економіка
Етика та Естетика
Журналістика
Інвестування
Інформатика
Історія
Культурологія
Література
Логіка
Логістика
Маркетинг
Медицина
Нерухомість
Менеджмент
Педагогіка
Політологія
Політекономія
Право
Природознавство
Психологія
Релігієзнавство
Риторика
Соціологія
Статистика
Техніка
Страхова справа
Товарознавство
Туризм
Філософія
Фінанси
Пошук