Навігація
Головна
Виявлення тенденцій у ряді даних за допомогою ковзних середніхДекомпозиція часового ряду за допомогою LOESSОблік тенденції при побудові моделі регресіїБагатофакторні і нелінійні рівняння регресіїРегресійні моделі ІАДВивчення структури часових рядів і виявлення виду тенденційЛокальні культури. Специфічні і "серединні" культури. Тенденція...МНОЖИННА РЕГРЕСІЯЄвропейські тенденції розвитку соціальної допомогиНедержавні інститути-суб'єкти соціальної допомоги: загальносвітові...
 
Головна arrow Економіка arrow Методи соціально-економічного прогнозування. Т.2.
< Попередня   ЗМІСТ   Наступна >

Виявлення тенденцій за допомогою локальних поліноміальних регресій (LOESS)

Метод локальних поліноміальних регресій (від англ. LOcal regrESSions - "LOESS" або LOcally WEighted Scatterplot Smoother - "LOWESS") розробив В. С. Клівленд в 1979 р [1] Ідея методу полягає в тому, щоб згладити ряд значень, використовуючи просту лінійну або поліноміальну залежність у від х. Однак при цьому пропонується будувати модель не по всьому ряду даних, а по його окремих частинах. Такий підхід фактично дозволяє побудувати прості регресії для еволюційних рядів даних, оскільки при розрахунку коефіцієнтів використовуються лише найбільш актуальні дані.

Розглянемо метод локальних регресій докладніше.

Ідея методу полягає в тому, щоб розрахувати безліч регресій, центрами кожній з яких по черзі є значення х i з ряду даних. При цьому в розрахунку повинні використовуватися тільки деякі точки х j знаходяться па заданій відстані від х i, такі, що

(5.6)

де r - заданий дослідником натуральне число, що розраховується за формулою

де позначає округлення числа х до цілого за правилами математичного округлення; N - число спостережень у вибірці; - коефіцієнт згладжування, за своїм змістом схожий на постійну згладжування в EWMA. Чим ближче β до 0, тим менше значення r, тим менше спостережень включається в розгляд , а значить, сильніше враховуються точки, близькі до х i. При β = 1 отримуємо регресію, побудовану по всьому ряду даних.

Кожному з значень, що потрапили у вікно заданої ширини, задаються деякі ваги за принципом: чим далі знаходиться спостереження від х i, тим менше повинен бути його вагу. Наприклад, на деякій ітерації розраховується регресія з центром х 41 і r = 4, тобто в розрахунку регресії так само використовуються значення х 37, х 38, х 39, х 40 і х 42, х 43, х 44, х 45. Ваги у спостережень ж37 і ж45 повинні бути мінімальними, у той час як вага центру спостереження х 41 - максимальним.

Виникає питання: як задати ваги для цих спостережень? Для цього вводиться функція ваг W (z), така, що:

1) W (z)> 0, якщо | * | <1;

2) W (z) = 0, якщо | г |> 1;

3) W (-z) = W (z);

4) W (z) не збільшується функція для | z | > 0.

Перша умова дозволяє задати функцію і обмежити її деяким проміжком, друге - виключити з розгляду точки, що виходять за задані межі, третє - задати однакові ваги рівновіддаленим точкам ліворуч і праворуч від центру. Останнє, четверте, умова дозволяє віддаленим від центру точкам задати не більший вагу, ніж точкам, близьким до центру.

data-override-format="true" data-page-url = "http://stud.com.ua">

Можна вибрати безліч різних функцій, що задовольняє даним умовам. Клівленд запропонував для цього використовувати біквадратним небудь трікубіческую функцію:

В даному випадку z - це змінна відстані, що характеризує віддаленість спостережень від центральної точки. У самій центральній точці z = 0.

(5.7)

і

(5.8)

На рис. 5.5 графічно зображені біквадратним функція (5.7) і трікубіческая функція (5.8).

Розподіл ваг по біквадратним (1) і трікубіческой (2) функціям залежно від значень z

Рис. 5.5. Розподіл ваг по біквадратним (1) і трікубіческой (2) функціям залежно від значень z

Як бачимо, функція (5.7) передбачає більш гладке розподіл ваг, ніж функція (5.8): значення, розташовані ближче до центру по біквадратним функції, мають великі ваги, ніж по трікубіческой.

Варто так само відмітити, що сума ваг, розподілених по вагових функцій (5.7) і (5.8), не дорівнює одиниці. Дійсно, при побудові LOESS кілька спостережень можуть опинитися на дуже близькій відстані від центральної точки, а значить, і ваги у них будуть близькими до одиниці. Очевидно, що сума ваг в такому випадку буде більше одиниці. Однак умова рівності суми ваг одиниці для побудови LOESS не потрібно, так як при розрахунках коефіцієнтів локальних регресій важливо не те, які саме ваги мають спостереження, а те, як ці ваги розподіляються між ними.

Після того як ваги задані, зваженим методом найменших квадратів розраховуються оцінки коефіцієнтів або локально-лінійної

data-override-format="true" data-page-url = "http://stud.com.ua">

(5.9)

або локально-поліноміальної регресії:

(5.10)

Зазвичай для побудови LOESS використовуються поліноми не вище другого ступеня, так як використання більш високих ступенів пов'язане з обчислювальними складнощами, згладжування вихідного ряду даних при цьому здійснюється неефективно, та й отримані при цьому локальні регресії не несуть у собі якого б то не було сенсу. До того ж відомо, що поліноми високих ступенів дають нестійкі прогнозні оцінки.

Після цього кроку в розпорядженні дослідника виявляється модель, па основі якої розраховується значення при даному x i. Сама модель і її коефіцієнти зазвичай інтересу не представляють, а ось розрахункове значення зберігається. Далі відбуваються перехід до наступної точки, розрахунок ваг, розрахунок коефіцієнтів нової моделі і т.д. до тих пір, поки не будуть отримані для всіх спостережень, після чого в розпорядженні дослідника виявляється згладжений ряд, з яким далі вже можна працювати.

Розглянемо методику побудови LOESS крок за кроком. До початку побудови LOESS дослідник задає коефіцієнт згладжування β.

1. Вибирається i -е спостереження. Очевидно, що на першому кроці i = 1.

2. Для обраної i-й точки розраховується відстань h i від x i до найбільш віддаленої від нього точки, що увійшла в інтервал (5.5):

(5.11)

де

Формула (5.11) дозволяє вибрати максимальне з усіх відстаней від центральної точки до точок, що увійшли в інтервал.

3. Розраховуються ваги для кожної j -ї точки, що потрапила у вікно на основі обраної ваговій функції:

(5.12)

На даному кроці зазвичай віддається перевага трікубіческой функції (5.8).

4. Розраховуються коефіцієнти обраної моделі (або (5.9), або (5.10)) зваженим МПК:

[2] (5.13)

5. У разі якщо досліднику потрібні робастні оцінки коефіцієнтів (оцінки, стійкі до викидів), то здійснюється перехід до кроку 6. Якщо ж такі оцінки не потрібні, то відбувається перехід до першого кроку, вибирається наступне спостереження.

6. За побудованої на кроці 4 регресії розраховуються залишки: за якими знаходиться медіана:

На основі медіани розраховується медіанне абсолютне відхилення:

(5.14)

Використання даної статистики обумовлено тим, що у разі несиметрично розподілених залишків, а також великих "викидів", MeAD вважається більш адекватною і робастной оцінкою, ніж, наприклад, стандартне відхилення.

Крім того, у цієї величини є корисне властивість, що характеризує зв'язок MeAD зі стандартним відхиленням нормально розподіленої величини, использующееся у статистиці:

(5.15)

7. Після отримання MeAD на попередньому кроці на основі залишків розраховуються нові (робастні) ваги для кожного спостереження:

(5.16)

В якості вагової функції тут зазвичай використовується біквадратним функція (5.7).

У читача може виникнути правомірне запитання: чому в знаменнику береться саме 6 MeAD, а не яке-небудь інше число. З формули (5.15) випливає, що:

Використання такої величини дозволяє прибрати з розгляду все вкрай рідкісні події, що лежать за межами чотирьох стандартних відхилень (ймовірність таких подій нижче 0,00004), які можна класифікувати просто як "викиди", спотворюють картину світу.

Розподіл помилок на 6 MeAD призводить до того, що відповідно до формулами вагових функцій спостереження, що лежать близько до "викидам", отримують дуже низькі ваги, а спостереження найбільш віддалені від них - ваги вище.

8. Після отримання ряду нових ваг розраховуються нові коефіцієнти обраної моделі (знову ж або (5.9), або (5.10)) зваженим МНК:

9. Кроки 6-8 повторюються т разів, після чого здійснюється перехід до кроку 1, вибирається наступне спостереження.

Звичайна рекомендація по числу ітерацій т - це задати його рівним 2, так як за два ітерації зазвичай вдається отримати робастні оцінки [3].[3]

На рис. 5.6 показаний ряд даних № тисячі шістсот вісімдесят три з бази рядів М3 (це ряд з відвантаження продукції), згладжений LOESS (побудованої засобами програми "R" [4]) з робастний оцінками (т = 2) і різними коефіцієнтами згладжування.

(5.17)

Ряд даних № 1683 з бази М3 і його згладжування за допомогою LOESS з різними значеннями коефіцієнта згладжування

Рис. 5.6. Ряд даних № 1 683 з бази М3 і його згладжування за допомогою LOESS з різними значеннями коефіцієнта згладжування

Як бачимо, при малих значеннях β ваги розподіляються таким чином, що підсумкові значення сильніше реагують на коливання в ряді даних і відхиляються від лінії тренду. При β = 0,5 вже спостерігається досить плавна тенденція, за якої можна спробувати дати прогноз.

Як було відмічено раніше, самі моделі, коефіцієнти яких розраховуються на кроці 4 (або 8 - у випадку з робастний оцінками), в аналізі та прогнозуванні зазвичай не використовуються. Однак при прогнозуванні еволюційних процесів можна вдатися до останніх отриманим оцінками і дати прогноз у для очікуваного значення х - в оцінці коефіцієнтів такий регресії використовуються не всі спостереження, а лише останні, тому і при прогнозуванні буде використовуватися тільки та частина ряду, яка характеризує останнім актуальний стан об'єкта дослідження. Потрібно, однак, мати на увазі, що отриманий в результаті цього прогноз у великій мірі буде залежати від обраного значення коефіцієнта згладжування. Крім того, в такому випадку потрібно чітко розуміти, які частини LOESS відповідають останніми спостереженнями.

Так, коли в якості незалежної змінної використовується час (або номер спостереження t), подібне впорядкування здійснюється автоматично. У результаті цього можна взяти модель, отриману на останньому спостереженні, і дати прогноз по наміченій тенденції. Наприклад, для випадку, показаного на рис. 5.6 по LOESS з β = 0,5, можна дати прогноз на кілька спостережень вперед.

Якщо ж ми розглядаємо залежність у від деякого х, визначити останні спостереження може бути вкрай важко, якщо взагалі можливо.

Наприклад, на рис. 5.7 показана точкова діаграма з перевезення пасажирів на трамваях і чисельності населення з доходами нижче прожиткового мінімуму, а також ця залежність, згладжена LOESS.

Важлива риса, яку можна відзначити за цим графіком, полягає в тому, що залежність між зазначеними факторами з плином часу змінилася, причому досить відчутно. LOESS, згладити цю залежність, прекрасно показала відбулися трансформації. Однак прогноз по LOESS дати важко: останні спостереження насправді відповідають точкам, лежачим в лівому нижньому кутку графіка, що можна було б з'ясувати, лише проаналізувавши вихідні дані.

Точкова діаграма з перевезення пасажирів на трамваях (вісь ординат), чисельності населення з доходами нижче прожиткового мінімуму (вісь абсцис) і згладжена залежність між цими факторами

Рис. 5.7. Точкова діаграма з перевезення пасажирів на трамваях (вісь ординат), чисельності населення з доходами нижче прожиткового мінімуму (вісь абсцис) і згладжена залежність між цими факторами [5]

  • [1] Cleveland William S. Robust Locally Weighted Regression and Smoothing Scatterplots // American Statistical Association. Vol. 74. № 368 (Dec. 1979). P. 829-836.
  • [2] Ruppert David. Statistics and Data Analysis for Financial Engineering. Springer New York, 2011. P. 118.
  • [3] Cleveland William S. Robust Locally Weighted Regression and Smoothing Scatterplots. P. 834.
  • [4] Інтернет-сайт програми: URL: r-project.org/. Тут і далі ми будемо використовувати цю програму для побудови деяких складних моделей і графіків. Програма поширюється під ліцензією GPL. Про те, як працювати з "R", можна дізнатися на сторінках онлайн підручника Р. Хайндмана: URL: otexts.com/fpp/using-r/.
  • [5] Дані з сайту Федеральної служби державної статистики Російської Федерації: URL: gks.ru.
 
Якщо Ви помітили помилку в тексті позначте слово та натисніть Shift + Enter
< Попередня   ЗМІСТ   Наступна >

Cхожі теми

Виявлення тенденцій у ряді даних за допомогою ковзних середніх
Декомпозиція часового ряду за допомогою LOESS
Облік тенденції при побудові моделі регресії
Багатофакторні і нелінійні рівняння регресії
Регресійні моделі ІАД
Вивчення структури часових рядів і виявлення виду тенденцій
Локальні культури. Специфічні і "серединні" культури. Тенденція культурної універсалізації
МНОЖИННА РЕГРЕСІЯ
Європейські тенденції розвитку соціальної допомоги
Недержавні інститути-суб'єкти соціальної допомоги: загальносвітові тенденції і національні особливості
 
Дисципліни
Агропромисловість
Аудит та Бухоблік
Банківська справа
БЖД
Географія
Документознавство
Екологія
Економіка
Етика та Естетика
Журналістика
Інвестування
Інформатика
Історія
Культурологія
Література
Логіка
Логістика
Маркетинг
Медицина
Нерухомість
Менеджмент
Педагогіка
Політологія
Політекономія
Право
Психологія
Релігієзнавство
Риторика
Соціологія
Статистика
Техніка
Страхова справа
Товарознавство
Туризм
Філософія
Фінанси
Пошук