Навігація
Головна
 
Головна arrow Економіка arrow Економетрика
< Попередня   ЗМІСТ   Наступна >

Прогнозування за моделлю множинної регресії

Прогнозування за моделлю множинної лінійної регресії передбачає оцінку очікуваних значень залежної змінної при заданих значеннях незалежних змінних, що входять в рівняння регресії. Розрізняють точковий та інтервальний прогнози.

Точковий прогноз - це розрахункове значення залежної змінної, отримане підстановкою в рівняння множинної лінійної регресії прогнозних (заданих дослідником) значень незалежних змінних. Якщо задані значення, то прогнозне значення залежної змінної (точковий прогноз) дорівнюватиме

(2.55)

Інтервальний прогноз - це мінімальне і максимальне значення залежної змінної, в проміжок між

якими вона потрапляє із заданою ймовірністю і при заданих значеннях незалежних змінних.

Інтервальний прогноз для лінійної функції обчислюється за формулою

(2.56)

де t T - теоретичне значення критерію Стьюдента при df = n- - т - 1 ступенях свободи; s y - стандартна помилка прогнозу, що обчислюється за формулою

(2.57)

де Х - матриця вихідних значень незалежних змінних; Х пр - матриця-стовпець прогнозних значень незалежних змінних виду

Знайдемо прогнозні значення надходження податків (приклад 2.1), за умови, що зв'язок між показниками описується рівнянням

Задамо прогнозні значення незалежних змінних:

  • - Кількість зайнятих Xj: 500 тис. Осіб;
  • - Обсяг відвантаження в обробних виробництвах х 2 : 65 000 млн руб .;
  • - Виробництво енергії х3: 15 000 млн руб.

Знайдемо точковий та інтервальний прогноз надходження податків.

При заданих значення незалежних змінних надходження податків в середньому складе

Вектор прогнозних значень незалежних змінних матиме вигляд

Помилка прогнозу, розрахована за формулою (2.57), склала 5556,7. Табличне значення t-критерію при числі ступенів свободи df = 44 і рівні значущості а = 0,05 одно 2,0154. Отже, прогнозні значення надходження податків будуть з ймовірністю 0,95 знаходитися в межах:

від 18 013,69 - 2,0154-5556,7 = 6814,1 млн руб .;

до 18 013,69 + 2,0154-5556,7 = 29 212 млн руб.

Прогнозування за нелінійним моделям множинноїрегресії також можна здійснювати за формулами (2.55) - (2.57), попередньо лінеаризоване зазначені моделі.

Мультиколінеарності даних

При побудові економетричної моделі передбачається, що незалежні змінні впливають на залежну ізольовано, т. Е. Вплив окремої змінної на результативний ознака не пов'язано з впливом інших змінних. У реальному економічному дійсності всі явища в тій чи іншій мірі пов'язані, тому домогтися виконання цього припущення практично неможливо. Наявність зв'язку між незалежними змінними призводить до необхідності оцінки її впливу на результати кореляційно-регресійного аналізу.

Розрізняють функціональні та стохастичні зв'язки між пояснюють змінними. У першому випадку говорять про помилки специфікації моделі, які повинні бути виправлені.

Функціональний зв'язок виникає, якщо в рівняння регресії як пояснюють змінних включають, зокрема, всі змінні, що входять в тотожність. Наприклад, можна сказати, що дохід У складається з споживання С і інвестицій I, т. Е. Має місце тотожність. Ми припускаємо, що рівень процентних ставок г залежить від доходу, тобто модель в загальному вигляді може бути представлена у вигляді

Недосвідчений дослідник, бажаючи поліпшити модель, може включити в рівняння також змінні "споживання" і "інвестиції", що призведе до функціонального зв'язку між пояснюють змінними:

Функціональна взаємозв'язок стовпців матриці X призведе до неможливості знайти єдине рішення рівняння

регресії, так як , а знаходження оберненої

матриці передбачає ділення алгебраїчних доповнень матриці на її визначник, який в даний

ном випадку буде дорівнює нулю.

Більш часто між пояснюють змінними спостерігається стохастична зв'язок, що призводить до зменшення

величини визначника матриці : чим сильніше зв'язок,

тим менше буде визначник. Це призводить до зростання не тільки оцінок параметрів, отриманих з використанням МНК, але і їх стандартних помилок, які обчислюються за формулою (2.24):

в якій, як ми бачимо, також використовується матриця Кореляційна зв'язок може існувати як між двома пояснюють змінними ( интеркорреляций ), так і між декількома (мультиколінеарності).

Існує кілька ознак, що вказують на наявність мультиколінеарності. Зокрема, такими ознаками є:

  • - Не відповідають економічній теорії знаки коефіцієнтів регресії. Наприклад, нам відомо, що пояснює змінна х прямим чином впливає на що пояснюється змінну у, в той же час коефіцієнт регресії при цій змінній менше нуля;
  • - Значні зміни параметрів моделі при невеликому скороченні (збільшенні) обсягу досліджуваної сукупності;
  • - Незначущість параметрів регресії, обумовлена ​​високими значеннями стандартних помилок параметрів.

Існування кореляційної зв'язку між незалежними змінними може бути виявлено за допомогою показників кореляції між ними, зокрема з допомогою парних коефіцієнтів кореляції r XiX, які можна записати у вигляді матриці

(2.58)

Коефіцієнт кореляції змінної з самою собою дорівнює одиниці хх = 1), а коефіцієнт кореляції змінної *, зі змінною *, ■ рівний коефіцієнту кореляції змінної XjC змінної X, • х х = г х х ). Отже, дана матриця є симетричною, тому в ній вказують тільки головну діагональ і елементи під нею:

Високі значення парних лінійних коефіцієнтів кореляції вказують на наявність интеркорреляции, тобто лінійного зв'язку між двома пояснюючими змінними. Чим вище величина , тим вище интеркорреляций. Так як при побудові моделей уникнути відсутності зв'язків між пояснюють змінними практично неможливо, існує наступна рекомендація щодо включення двох змінних в модель як пояснюють. Обидві змінні можна включити в модель, якщо виконуються співвідношення

(2.59)

тобто тіснота зв'язку результуючої і пояснює змінних більше, ніж тіснота зв'язку між пояснюють змінними.

Наявність мультиколінеарності можна підтвердити, знайшовши визначник матриці (2.58). Якщо зв'язок між незалежними змінними повністю відсутня, то недіагональні елементи будуть дорівнюють нулю, а визначник матриці - одиниці. Якщо зв'язок між незалежними змінними близька до функціональної (тобто є дуже тісному), то визначник матриці гхг буде близький до нуля.

Ще один метод вимірювання мультіколлінеарності є наслідком аналізу формули стандартної помилки коефіцієнта регресії (2.28):

Як випливає з цієї формули, стандартна помилка буде тим більше, чим менше буде величина, яку називають фактор інфляції дисперсії (або фактор здуття дисперсії ) VIF:

де - коефіцієнт детермінації, знайдений для рівняння залежності змінної Xj від інших змінних , що входять в дану модель множинної регресії.

Так як величина відображає тісноту зв'язку між змінної Xj і іншими пояснюють змінними, то вона, по суті, характеризує мультиколінеарності стосовно До даної змінної Xj. При відсутності зв'язку показник VIF X дорівнюватиме (або близький) одиниці, посилення зв'язку веде до прагнення цього показника до нескінченності. Вважають, що якщо VIF X> 3 для кожної змінної *, то має місце мультиколінеарності.

Вимірником мультіколлінеарності є також так званий показник (число) обумовленості матриці . Він дорівнює відношенню максимального і мінімального власних чисел цієї матриці:

(2.60)

Вважається, що якщо порядок цього співвідношення перевищує 10s-106, то має місце сильна мультиколінеарності [1] .

Перевіримо наявність мультиколінеарності в розглянутому нами прикладі 2.1. Матриця парних коефіцієнтів кореляції має вигляд

Можна відзначити, що зв'язки між пояснюють змінними досить тісні, особливо між змінними .Xj і х2; X] і х3, що вказує на интеркорреляций цих змінних. Більш слабкий зв'язок спостерігається між змінними х2 і х3. Знайдемо визначник матриці г ^ ..

Отримане значення ближче до нуля, ніж до одиниці, що вказує на наявність мультиколінеарності пояснюють змінних.

Перевіримо обгрунтованість включення всіх трьох незалежних змінних в модель регресії, використовуючи правило (2.59). Парні лінійні коефіцієнти кореляції залежної і незалежних змінних рівні

Вони більше, ніж показники тісноти зв'язку між незалежними змінними, отже, правило (2.59) виконується, всі три змінні можна включити в модель регресії.

Виміряємо ступінь мультіколлінеарності змінних за допомогою фактора інфляції дисперсії ( VIF ). Для цього необхідно розрахувати коефіцієнти детермінації для регрессий:

Для цього до кожної регресії необхідно застосувати МНК, оцінити її параметри і розрахувати коефіцієнт детермінації. Для нашого прикладу результати розрахунків наступні:

Отже, фактор інфляції дисперсії для кожної незалежної змінної буде дорівнює

Всі розраховані величини не перевищили критичної позначки, рівного трьом, отже, при побудові моделі можна знехтувати існуванням зв'язків між незалежними змінними.

Для знаходження власних чисел матриці (з метою розрахунку показника обумовленості η (2.60)) необхід мо знайти рішення характеристичного рівняння

Матриця для нашого прикладу має вигляд

а матриця, модуль визначника якої потрібно прирівняти нулю, вийде наступного:

Характеристичний многочлен в даному випадку буде мати четверту ступінь, що ускладнює вирішення завдання вручну. В даному випадку рекомендується скористатися можливостями обчислювальної техніки. Наприклад, в ППП EViews отримані наступні власні числа матриці :

Отже, показник обумовленості η буде дорівнює

що свідчить про наявність в моделі сильної мультіколлінеарності.

Методами усунення мультиколінеарності є наступні.

  • 1. Аналіз зв'язків між змінними, що включаються в модель регресії як пояснюють (незалежних), з метою відбору тільки тих змінних, які слабо пов'язані один з одним.
  • 2. Функціональні перетворення тісно пов'язаних між собою змінних. Наприклад, ми припускаємо, що надходження податків в містах залежить від кількості жителів і площі міста. Очевидно, що ці змінні будуть тісно пов'язані. Їх можна замінити однією відносної змінної "щільність населення".
  • 3. Якщо з якихось причин перелік незалежних змінних не підлягає зміні, то можна скористатися спеціальними методами коригування моделей з метою виключення мультиколінеарності: ридж-регресією (гребньовій регресією), методом головних компонент.

Застосування ридж-регресії передбачає коригування елементів головної діагоналі матриці на якусь довільно задається позитивну величину τ. Значення рекомендується брати від 0,1 до 0,4. Н. Дрейпер, Г. Сміт у своїй роботі приводять один із способів "автоматичного" вибору величини τ, запропонований Хоерлом, Кеннард і Белдвіном [2] :

(2.61)

де т - кількість параметрів (без урахування вільного члена) у вихідній моделі регресії; SS e - залишкова сума квадратів, отримана по вихідної моделі регресії без коригування на мультиколінеарності; а - вектор-стовпець коефіцієнтів регресії, перетворених за формулою

(2.62)

де cij - параметр при змінної у, в вихідної моделі регресії.

Після вибору величини τ формула для оцінки параметрів регресії матиме вигляд

(2.63)

де I - одинична матриця; X, - матриця значень незалежних змінних: вихідних або перетворених за формулою (2.64); Υ τ - вектор значень залежної змінної: вихідних або перетворених за формулою (2.65).

При побудові ридж-регресії рекомендується перетворювати незалежні змінні

(2.64)

і результативну змінну

(2.65)

У цьому випадку після оцінки параметрів за формулою (2.63) необхідно перейти до регресії по вихідним змінним, використовуючи співвідношення

(2.66)

Оцінки параметрів регресії, отримані за допомогою формули (2.63), будуть зміщеними. Однак, так як визначник матриці більше визначника матриці , дисперсія оцінок параметрів регресії зменшиться, що позитивно вплине на прогнозні властивості моделі.

Розглянемо застосування ридж-регресії для прикладу 2.1. Знайдемо величину τ за допомогою формули (2.61). Для цього спочатку розрахуємо вектор перетворених коефіцієнтів регресії за формулою (2.62):

Твір одно 1,737-109. Отже, рекомендований τ складе

Після застосування формули (2.63) і перетворень по фор мулі (2.66) отримаємо рівняння регресії

Застосування методу головних компонент передбачає перехід від взаємозалежних змінних х до незалежних один від одного змінним ζ, які називають головними

компонентами . Кожна головна компонента z, може бути представлена як лінійна комбінація зосереджених (або стандартизованих) пояснюють змінних t :. Нагадаємо, що центрування змінної передбачає віднімання з кожного і-го значення даної j-й змінної її середнього значення:

(2.67)

а стандартизація (масштабування) -деленіе вираження (2.67) на середнє відхилення, розраховане для вихідних значень змінної Xj

(2.68)

Так як незалежні змінні часто мають різний масштаб виміру, формула (2.68) вважається більш кращою.

Кількість компонент може бути менше або дорівнює кількості вихідних незалежних змінних р. Компоненту з номером до можна записати в такий спосіб:

(2.69)

Можна показати, що оцінки в формулі (2.69) відповідають елементам до- го власного вектора матриці , де Т - матриця розміром , що містить стандартизовані змінні. Нумерація головних компонент не є довільною. Перша головна компонента має максимальну дисперсію, їй відповідає максимальне власне число матриці ; остання - мінімальну дисперсію і найменше власне число.

Частка дисперсії до- й компоненти в загальній дисперсії незалежних змінних розраховується за формулою

(2.70)

де Х к - власне число, що відповідає даній компоненті; в знаменнику формули (2.70) наведена сума всіх власних чисел матриці .

Після розрахунку значень компонент z, будують регресію, використовуючи МНК. Залежну змінну в регресії по головних компонентів (2.71) доцільно центрувати (стандартизувати) за формулами (2.67) або (2.68).

(2.71)

де t y - стандартизована (центрована) залежна змінна; - Коефіцієнти регресії по головних компонентів; - Головні компоненти, впорядковані по спадаючій власних чисел Х до ; δ - випадковий залишок.

Після оцінки параметрів регресії (2.71) можна перейти до рівняння регресії в початкових змінних, використовуючи вирази (2.67) - (2.69).

Розглянемо застосування методу головних компонент на даних прикладу 2.1. Відзначимо, що матриця для стандартизованих змінних є в той же час матрицею парних лінійних коефіцієнтів кореляції між незалежними змінними. Вона вже була розрахована і дорівнює

Знайдемо власні числа і власні вектори цієї матриці, використовуючи ППП Eviews. Отримаємо наступні результати.

Власні числа матриці :

Частка дисперсії незалежних змінних, що відображається компонентами, склала

Об'єднаємо власні вектори матриці , записавши їх як стовпці наведеної нижче матриці F. Вони впорядковані за спаданням власних чисел, тобто перший стовпець є власним вектором максимального власного числа і т.д .:

Отже, три компоненти (що відповідають трьом власним векторах) можна записати у вигляді

Після стандартизації вихідних змінних за формулою (2.68) і розрахунку значень компонент (по n значень кожної компоненти) за допомогою МНК знайдемо параметри рівняння (2.71):

В отриманому рівнянні регресії має значення лише параметр при першому компоненті. Це закономірний результат з урахуванням того, що даний компонент описує 70,8% варіації незалежних змінних. Так як компоненти незалежні, при виключенні з моделі одних компонент параметри рівняння при інших компонентах не змінюються. Таким чином, маємо рівняння регресії з однією компонентою:

Перетворимо отримане вираження в регресію з вихідними змінними

Звідки

Таким чином, використовуючи метод головних компонент, ми отримали рівняння регресії

Усунення мультиколінеарності за допомогою ридж-регресії і методу головних компонент призвело до певної зміни параметрів вихідної регресії, яка мала вигляд

Відзначимо, що ці зміни були відносно невеликі, що вказує на невисокий ступінь мультіколлінеарності.

  • [1] Див., Наприклад, Вучков І., Бояджиєва Л., Солак Е. Прикладний регресійний аналіз: пров. з болг. M .: Фінанси і статистика, 1987. С. 110.
  • [2] Дрейпер Н., Сміт Г. Указ. соч. С. 514.
 
Якщо Ви помітили помилку в тексті позначте слово та натисніть Shift + Enter
< Попередня   ЗМІСТ   Наступна >
 
Дисципліни
Агропромисловість
Аудит та Бухоблік
Банківська справа
БЖД
Географія
Документознавство
Екологія
Економіка
Етика та Естетика
Журналістика
Інвестування
Інформатика
Історія
Культурологія
Література
Логіка
Логістика
Маркетинг
Медицина
Нерухомість
Менеджмент
Педагогіка
Політологія
Політекономія
Право
Природознавство
Психологія
Релігієзнавство
Риторика
Соціологія
Статистика
Техніка
Страхова справа
Товарознавство
Туризм
Філософія
Фінанси
Пошук