РОЗКЛАДАННЯ СУМИ КВАДРАТІВ І ПЕРЕВІРКА ЗНАЧУЩОСТІ РІВНЯННЯ РЕГРЕСІЇ

Після того як знайдено рівняння парної регресії, необхідно провести його перевірку на значимість, тобто встановити, чи відповідає математична модель, що виражає залежність між змінними, які спостерігаються процесам або явищ. Оцінка значущості рівняння регресії може проводитися за допомогою F-критерію Фішера [19, 28]. Безпосередньому розрахунку F-критерію передує аналіз дисперсії відгуку. При цьому основна роль відводиться розкладанню загальної суми квадратів відхилень змінної у від середнього значення у на дві частини - «пояснена» і «не можна було пояснити (залишкова)».

Загальна сума квадратів

характеризує величину розкиду значень залежної змінної. Цей розкид може бути викликаний, з одного боку, змінами вхідних факторів, а з іншого - випадковими впливами або неврахованими в моделі факторами. Якщо неврахованих факторів немає і випадкові впливу відсутні, то всі зміни відгуку повинні пояснюватися моделлю.

Для того щоб виділити пояснення і необ'яснен- ву частини, підставимо в загальну суму квадратів очевидне тотожність

В результаті отримаємо

Далі будемо припускати, що в моделі парної регресії обов'язково присутній вільний член 0 Про , тоді в силу специфічних властивостей вектора залишків [19] останній доданок звертається в нуль, тобто

Тому справедливо наступне рівність:

Введемо позначення:

- загальна сума квадратів (total sum of

squares );

- залишкова сума квадратів , звана іноді сумою квадратів залишків ( error sum of squares );

- сума квадратів, обумовлена регресією, або пояснена сума квадратів ( regression sum of squares ) [ .

В результаті отримаємо

З розкладання сум квадратів (3.26) може бути отримано розкладання для дисперсій [84J:

де D (y) - повна дисперсія залежної змінної у; D (y) - пояснена дисперсія або дисперсія розрахункових значень у; D (yy) - залишкова або непояснена дисперсія.

Знаючи все три суми квадратів, можна робити деякі попередні висновки про якість регресійного рівняння. Наприклад, якщо залишкова сума квадратів набагато перевищує пояснення, то це говорить про те, що залишки регресії дуже великі. Така ситуація може свідчити або про обчислювальних помилках, або про те, що побудована регресійна модель погано описує дані. Якщо ж [1]

залишкова сума квадратів багато менше пояснене, то це говорить про малих залишках і хорошій якості моделі.

Однак такий аналіз є поверховим і не позбавлений суб'єктивізму. Для об'єктивної оцінки якості регресійного рівняння необхідно використовувати деякі спеціальні критерії.

На практиці для цієї мети найчастіше застосовується універсальний показник якості прогнозу, здійснюваного за моделлю парної регресії, званий коефіцієнтом детермінації і визначається як

причому з виразу (3.27 а ) слід, що

Очевидно, що коефіцієнт детермінації може приймати значення з відрізка [0,1]. Рівність нулю цього коефіцієнта буде говорити про те, що знання величини поясненої змінної х не дає ніякої інформації, що дозволяє пояснити значення відгуку у. Однак якщо досліджувана залежність у = / (х) = const, то D (e) = 0 і, отже, TV = 1.

На практиці справжнє значення IV, як правило, невідомо. Тому для оцінки якості рівняння регресії використовується його вибірковий аналог [2] , який вираховується за формулою

Величина (3.28) показує частку пояснене дисперсії в загальній дисперсії залежної змінної і може

про

набувати значень в діапазоні 0 < R <1.

Якщо R 2 = 0, то це означає, що загальна сума квадратів дорівнює залишковій, тобто рівняння регресії абсолютно не пояснює зміни залежної змінної.

Якщо R 2 = 1, то загальна сума квадратів дорівнює пояснене і всі спостережувані точки лежать точно на лінії регресії, а всі залишки - нульові. (Помітимо, що в економетричної літературі (наприклад, в [4, 41,76]) величини V} і К [2] часто підміняються одне одним. Щоб ізбежатьподобной колізії, будемо називати V} «істинним значенням коефіцієнта детермінації», a R2 - «коефіцієнтом детермінації».)

1

Чим ближче значення коефіцієнта детермінації до одиниці, тим більш точно рівняння регресії описує дані. Однак, знаючи тільки конкретне значення коефіцієнта детермінації, можна робити ніяких однозначних висновків про придатність рівняння до практичного використання. Залежно від ситуації значущими можуть визнаватися рівняння з коефіцієнтом детермінації, що дорівнює 0,87, і рівняння, коефіцієнт детермінації яких дорівнює 0,33. Для того щоб чітко визначати придатність рівняння регресії в кожному конкретному випадку, необхідна формальна перевірка на значимість.

Значимість регресійного рівняння можна перевіряти за допомогою статистичної гіпотези, наприклад, щодо величини істинного коефіцієнта детермінації

Перевірка цієї гіпотези може проводитися за допомогою ^ критерію. Цей критерій спирається на той факт, що ставлення пояснене дисперсії залежної змінної до залишкової дисперсії підпорядковується розподілу Фішера. Оскільки на практиці істинні значення цих дисперсій залишаються невідомими, то доводиться їх оцінювати за допомогою відповідних сум квадратів відхилень.

Будь-яка сума квадратів відхилень пов'язана з так званим числом ступенів свободи , яке залежить від кількості спостережень N і числа яких визначали за ним величин. Стосовно до загальної суми квадратів число ступенів свободи показує, скільки незалежних відхилень з N можливих

потрібно для обчислення цієї суми квадратів. Наявність відомого середнього значення у дає нам можливість зробити обчислення TSS , використовуючи тільки (N- 1) незалежних відхилень. Наприклад, маємо п'ять спостережень:

середнє значення у = 3. Відхилення від середнього будуть рівні відповідно

Так як , то вільно змінюватися можуть

тільки чотири відхилення, а час, що залишився завжди може бути виражено через них. Таким чином, число ступенів свободи загальної суми квадратів дорівнює (N - 1).

Аналогічним чином можна показати, що число ступенів свободи залишкової суми квадратів одно (N - 2), а число ступенів свободи поясненої суми квадратів дорівнює одиниці.

Як оцінок повної, залишкової та пояснене дисперсії використовуються відносини відповідних сум квадратів до своїх числах ступенів свободи:

Якщо порівняти співвідношення (3.10) і (3.31), то можна помітити, що дисперсія випадкової помилки і залишкова дисперсія оцінюються однаковим чином.

З математичної статистики [28, 84] відомо, що величина

підпорядковується розподілу Фішера з 1-й і (А - 2) ступенями свободи. При перевірці гіпотези (3.29) обчислене але формулою (3.33) значення Е-статистики порівнюють з критичним значенням Е кр (1 - а, 1, N- 2). Критичне значення jF-статистики - це максимальна величина відносини дисперсій, яка для заданого рівня довірчої ймовірності (1 - «) може мати місце при випадковому відхиленні від нульової гіпотези. Потужність змінюється залежно від за спеціальними статистичними таблицями [3] (див. Додаток).

Якщо виявляється, що F> F (1 - а, 1 , N - 2), то гіпотеза (3.29) відкидається, і рівняння регресії визнається значущим, тобто придатним для практичного використання.

Якщо виявляється, що F <F ( 1 - а, 1, N - 2), то гіпотеза (3.29) не відкидається, і рівняння регресії не зізнається значущим.

У разі парної лінійної регресії коефіцієнт детермінації дорівнює квадрату парного коефіцієнта корре-

9 9

ляции R ~ = г. Також має місце зв'язок між статистикою Фішера і R 2 [28]:

  • [1] На жаль, ці скорочення не є загальноприйнятими. У деяких літературних джерелах перший доданок в правій частині (3.26) позначається через RSS (residual sum of squares), а друге - через ESS (iexplained sum of squares).
  • [2] 2 Зауважимо, що в економетричної літературі (наприклад, в [4, 41,76]) величини V} і К1 часто підміняються одне одним. Щоб ізбежатьподобной колізії, будемо називати V} «істинним значенням коефіцієнта детермінації», a R2 - «коефіцієнтом детермінації».
  • [3] 2 Зауважимо, що в економетричної літературі (наприклад, в [4, 41,76]) величини V} і К1 часто підміняються одне одним. Щоб ізбежатьподобной колізії, будемо називати V} «істинним значенням коефіцієнта детермінації», a R2 - «коефіцієнтом детермінації».
 
Переглянути оригінал
< Попер   ЗМІСТ   ОРИГІНАЛ   Наст >