Навігація
Головна
Опис стаціонарного часового ряду авторегресії і ковзної середньоїВиди ковзних середніхМОДЕЛІ авторегресії і ковзаючої середньоїСходження-розбіжність ковзних середніхВиявлення тенденцій у ряді даних за допомогою ковзних середніхКовзні середні значенняМоделі авторегресіїМоделі і методи авторегресіїМоделі і методи авторегресіїОблік сезонності в моделях авторегресії
 
Головна arrow Економіка arrow Методи соціально-економічного прогнозування. Т.2.
< Попередня   ЗМІСТ   Наступна >

Визначення порядку моделі авторегресії зі ковзної середньої

Для того щоб визначити порядок моделі ARMA по вихідному ряду, користуються методологією, названої на честь її авторів - Дж. Боксу і Г. Дженкінса. Важливим її елементом є вивчення коррелограмм по стаціонарному ряду даних. Так, найбільш прості процеси авторегресії і ковзного середнього мають коррелограмми певного виду, відповідно, вивчаючи їх за фактичними даними, дослідник може висунути припущення щодо того, яка модель лежить в основі ряду даних. Критеріями правильності обраної моделі є нормально розподілені, некорельовані залишки моделі. Якщо один з критеріїв залишається незадоволеним, пошук моделі триває. Лише на основі найкращої з обраних моделей робиться прогноз.

Не заглиблюючись у висновки автокорреляционной та приватної автокореляційної функцій для моделі ARMA, відзначимо основні риси, властиві найпростішим процесам авторегресії і ковзної середньої.

Для початку розглянемо чисті процеси авторегресії.

Якщо процес генерується моделлю AR (1), то його АКФ буде спадати експоненціально після першого лага, а ЧАКФ - обриватися після першого лага. Его поведінку показано на рис. 8.16.

Коррелограмми для процесу AR (1) з позитивним коефіцієнтом (верхні два графіки) і негативним коефіцієнтом (нижні два графіки)

Рис. 8.16. Коррелограмми для процесу AR (1) з позитивним коефіцієнтом (верхні два графіки) і негативним коефіцієнтом (нижні два графіки)

У верхній частині рис. 8.16 показані коррелограмми для процесу AR (1) з а 1> 0, а в нижній - для процесу з а 1 <0. За рахунок того, що приватні коефіцієнти автокореляції розраховуються так, щоб прибрати вплив сусідніх лагів, всі приватні коефіцієнти для лагів, починаючи з другого, виявляються статистично незначущими (а в нашому випадку зі сгенерованими поруч - і зовсім дорівнюють нулю).

У процесу AR (2) поведінка АКФ і ЧАКФ значно складніше, оскільки в модель включені вже два коефіцієнти. Більше того, у ряді випадків при деяких значеннях коефіцієнтів коррелограмми для процесу AR (2) на практиці стають схожими на коррелограмми для процесу AR (1). У результаті вибір відповідної моделі значно ускладнюється.

На рис. 8.17 приведено чотири приклади коррелограмм для процесу AR (2). Всі ці чотири ситуації, як можна помітити, об'єднує одна риса: автокорреляционная функція спадає або експоненціально, або гармонійно, а приватні коефіцієнти автокореляції після другого лага стають статистично незначущими.

В цілому можна зробити наступний висновок: для чистого AR (p) процесу характерні спадання (або гармонійне, або експоненціальне) АКФ і обрив ЧАКФ після лага р. Саме по другій частині визначити порядок авторегресії зазвичай виявляється найлегше.

Тепер розглянемо коррелограмми чистих процесів змінного середнього.

data-override-format="true" data-page-url = "http://stud.com.ua">

Можна відразу сказати, що для цих процесів характерна ситуація, "дзеркальна" щодо авторегресійних процесів. Наприклад, для чистого процесу ΜА (1) характерні коррелограмми, наведені на рис. 8.18.

Як бачимо, якщо у випадку з AR (1) експоненціально убувала автокореляційна функція, то у випадку з МА (1) убуває вже приватна автокореляційна функція. При цьому, починаючи з другого лага, коефіцієнти автокореляції для МА (1) стають статистично незначущими.

Ця "дзеркальність" зберігається і для процесів більш високого порядку. Тому можна так само узагальнити: для чистого МА (q) процесу характерні спадання (або гармонійне, або експоненціальне) ЧАКФ і обрив АКФ після лага q.

Коррелограмми для процесу AR (2)

Puc. 8.17. Коррелограмми для процесу AR (2):

ряди зверху вниз: 1 - а 1> 0 і а 2> 0; 2 - а 1> 0 і а 2 <0; 3 - а 1 <0 і а 2> 0; 4 - а 1 <0 і а 2 <0

Коррелограмми для процесу МА (1)

Рис. 8.18. Коррелограмми для процесу МА (1):

зверху - з позитивним коефіцієнтом;

знизу - з негативним

Знаючи ці риси коррелограмм для чистих AR і МА процесів, можна вибирати порядок моделі, яка змогла б найкращим чином описати ряд даних. Однак, очевидно, що чисті процеси зустрічаються досить рідко і частіше доводиться мати справу з процесами змішаними. Їх ідентифікувати складніше, оскільки в них відбувається накладення АКФ і ЧАКФ з AR і МА процесів. В результаті цього обидві функції можуть затухати гармонічно або експоненціально, але з невеликою затримкою, відповідної порядку моделі. Проблема посилюється тим, що різні процеси ARMA можуть мати схожі коррелограмми. У такому випадку ідентифікувати порядок р і q виявляється важко.

data-override-format="true" data-page-url = "http://stud.com.ua">

В цілому процес побудови моделі ARIMA за допомогою методології Боксу - Дженкінса можна звести до наступних кроків;

1. Перевірка па стаціонарність і приведення ряду до стаціонарного виду.

2. Вивчення коррелограмм по стаціонарному ряду і вибір найбільш відповідної моделі ARMA.

3. Оцінка моделі.

4. Перевірка залишків на нормальність і відсутність автокореляції. Якщо в залишках є автокорреляция, порядок моделі модифікується з урахуванням виявлених залежностей за коррелограмми залишків, після чого здійснюється перехід до кроку 3.

5. Побудова прогнозу за отриманою моделі ARIMA.

Як бачимо, елементи методології Боксу - Дженкінса дозволяють ідентифікувати досить прості процеси авторегресії і ковзного середнього, і в загальному випадку за допомогою ітераційної процедури побудувати модель, найкращим чином підходящу для досліджуваного часового ряду.

Розглянемо на прикладі ряду № 2 568 з бази М3 процес ідентифікації та побудови моделі ARIMA та отримання прогнозу по ній. Цей ряд ми вже вивчали у зв'язку з питанням про його стаціонарності в попередньому параграфі і прийшли до висновку про те, що для приведення до стаціонарного увазі досить його попередньо прологаріфміровать, а потім взяти по ньому сезонні різниці. На рис. 8.19 наведені підсумковий отриманий ряд і коррелограмми по ньому.

Ряд № 2 568, наведений до стаціонарного увазі, і його коррелограмми

Рис. 8.19. Ряд № 2568, наведений до стаціонарного увазі, і його коррелограмми

Оцінюючи коррелограмми, можна помітити, що статистично значущими виявилися коефіцієнти кореляції на третьому лагу. Після цього функція незначно убуває. Швидше за все, наявність значущих коефіцієнтів на лагах далі третього викликано сезонністю у вихідному ряді даних. Можна припустити, що даний процес буде успішно описаний моделлю ARMA (3,3). Крім того, у зв'язку з тим що досліджуваний ряд виявився систематично вище нуля, ми включили в модель константу.

У результаті оцінки моделі по ряду даних були отримані наступні коефіцієнти (табл. 8.3).

Таблиця 8.3

Результати оцінювання моделі ARMA (3,3)

AR (1)

AR (2)

AR (3)

MA (1)

MA (2)

MA (3)

Intercept

Coefficients

-0,2093

0,1190

0,9456

0,2591

0,0875

-0,8342

0,0660

se

0,0555

0.0627

0,0653

0,0958

0,1019

0,0940

0,0174

p-value

<0,01

0,0607

<0,01

<0,01

0,3926

<0,01

<0,01

Примітка: Coefficients - рядок зі значеннями коефіцієнтів; se - рядок зі значеннями стандартних помилок коефіцієнтів; p-value- рядок зі значеннями залишкових ймовірностей за значущості коефіцієнтів.

Математично отримана в табл. 8.3 модель (з округленням коефіцієнтів до сотих) може бути записана наступним чином (у дужках наведені стандартні помилки, обчислювані на основі розрахунку ковариационную-варіаційної матриці коефіцієнтів, схожою на матрицю (4.37), що обговорювалася нами в параграфі 4.3):

Дані табл. 8.3 говорять про те, що на 5% значущими виявилися всі коефіцієнти, за винятком коефіцієнта при ковзної середньої другого порядку і авторегресії другого порядку. Це, правда, має сенс тільки у випадку, якщо залишки отриманої моделі розподілені нормально. Щоб перевірити правильність ідентифікації моделі, розглянемо коррелограмми за отриманими залишкам (рис. 8.20).

Як видно з коррелограмм, значущими виявилися лише коефіцієнти автокореляції на 12-му лагу. Це в черговий раз вказує нам на сезонність ряду даних. Щоб врахувати сезонність, потрібно скористатися моделлю сезонної ARIMA, про яку піде мова в наступному параграфі. Поки ж ми на цьому зупинимося, оскільки

(8.61)

більш ніяких значимих коефіцієнтів автокореляції до 12-го лага по коррелограмми виявлено не було.

Ряд залишків по моделі (8.61) і його коррелограмми

Рис. 8.20. Ряд залишків по моделі (8.61) і його коррелограмми

Цілком природно, що через те, що ми не врахували сезонність у ряді даних, залишки виявилися розподіленими ненормально. Принаймні, тест Шапіро - Уїлки (див. Параграф 3.4) вказує, що гіпотеза про нормальність розподілу залишків відкидається на рівні 0,02403%, що знаходиться в зоні відхилення гіпотези на 5% -му рівні.

Отже, можна зрозуміти, що отриманий результат - найкращий, якщо не враховувати сезонність, а модель ARMA (3,3), виявлена за методологією Боксу - Дженкінса, наближається до досліджуваного ряду даних. Варто, однак, зауважити, що через взяття сезонних різниць ми надалі працювали вже не з вихідним поруч даних, а з перетвореним, у зв'язку з чим і помилки моделі вважалися по преобразованному ряду даних, а значить, і змінна середня оцінювалася не за вихідного ряду. Це не зовсім коректно, але для того, щоб розібратися в тому, як працює методологія, це не критично. На рис. 8.21 наведені остання частина по ряду даних № 2568, фактичні, розрахункові і прогнозні значення, отримані за моделлю ARMA (3,3). Вертикальною лінією показаний момент часу, щодо якого робився прогноз.

Ряд № 2 568 (суцільна лінія з точками) та прогноз на 18 значень вперед по моделі ARMA (3,3) (суцільна лінія)

Рис. 8.21. Ряд № 2568 (суцільна лінія з точками) та прогноз на 18 значень вперед по моделі ARMA (3,3) (суцільна лінія)

Малюнок 8.21 показує, що модель ARMA (3,3) змогла досить точно апроксимувати і спрогнозувати ряд даних, помилка прогнозу в даному випадку виявилася мінімальною з усіх, одержуваних нами з цього ряду по інших моделях: sMAPE - 2,96%. Викликано це в першу чергу тим, як був Апроксимовані і спрогнозований перетворений ряд даних: модель лінійного тренду дала прогноз на зниження значення показника, в той час як модель ARMA (3,3) дата прогноз на незначне збільшення з коливаннями (апроксимація перетвореного ряду і прогноз показані на рис. 8.22).

Зауважимо, що успішність ідентифікації моделі ARIMA на основі методології Боксу - Дженкінса в чому залежить від досвіду дослідника. Деякі дослідники навіть відзначають, що це вже скоріше "мистецтво", а не конкретне керівництво до дій. Викликано це не в останню чергу тим, що, як вже було відмічено раніше, різні процеси можуть виробляти схожі коррелограмми. У результаті цього точна ідентифікація порядку моделі виявляється утрудненою. У ті часи, коли був запропонований описаний підхід, інших методів ідентифікації не існувало через слабкої потужності комп'ютерів. У наші дні за рахунок збільшення потужності обчислювальної техніки використовуються і інші методи ідентифікації процесів. Загальна

Ряд № 2 568 (суцільна лінія з точками) в логарифмах і в сезонних різницях і прогноз на 18 значень вперед по моделі ARMA (3,3) (суцільна лінія)

Рис. 8.22. Ряд № 2568 (суцільна лінія з точками) в логарифмах і в сезонних різницях і прогноз на 18 значень вперед по моделі ARMA (3,3) (суцільна лінія)

риса, притаманна цим методам: автоматична побудова ряду моделей і вибір найкращої з них.

Один з таких методів полягає в тому, щоб побудувати всілякі види моделей ARIMA для вихідного ряду з обмеженнями на порядок моделі:

d ≤ 2;

p ≤ 3;

q ≤ 3.

В результаті це дає 48 можливих моделей, які потрібно оцінити. Оцінювання зазвичай проводиться методом максимальної правдоподібності з припущення про те, що залишки повинні бути нормально розподіленими. Після оцінки всіх моделей розраховується інформаційний критерій (AIC, BIC і т.д.), на основі якого отримані моделі потім порівнюються. Наприклад, для моделі ARMA (p, q) інформаційний критерій Акайке, згадуваний нами в параграфі 2.5, буде розраховуватися за формулою [1]

(8.62)

де L - значення максимізувати функції правдоподібності.

Перевага віддається моделі з мінімальним AIC, що вказує на модель, найкращим чином аппроксимирующую ряд даних (із залишками, найбільш наближеними до нормальних) при найменшому числі коефіцієнтів.

У такому підході, однак, є свої проблеми. Одна з них полягає в наступному. У зв'язку з тим що в основі функції правдоподібності лежить сума квадратів помилок моделі, порівнювати AIC за моделями з різними значеннями d некоректно через використання різних значень, за якими вважаються помилки. Так, в більшості випадків вихідні дані будуть містити великі значення, ніж дані по різницям (очевидно, що темпи зростання за величиною менше самих значень). В результаті цього і моделі в різницях матимуть меншу суму квадратів відхилень і, як результат, більше значення функції правдоподібності. Це буде приводити до вибору більшого порядку різниці, ніж потрібно, що, у свою чергу, загрожує потенційно неточними прогнозами і широкими прогнозними інтервалами. Тому вибирати оптимальну модель потрібно, попередньо обравши порядок різниць. Це можна легко зробити, провівши попередньо розглянуті нами раніше тести на одиничний корінь (наприклад, ADF- і KPSS-тести).

Розглянемо для нашого прикладу, як працює процедура підбору моделі в пакеті "R". Для цього в пакеті "forecast" є функція "auto, arima".

З її допомогою була отримана модель АRIМА (2,1,3), яку можна записати так:

(8.63)

Як бачимо, там, де ми при проведенні KPSS-тесту вирішили, що у нас немає підстав відхилити гіпотезу про стаціонарності ряду, закладений в програмі алгоритм прийшов до того, що такі підстави є. Явним результатом цього є відсутність константи в моделі (8.63) і отримання протилежних знаків при коефіцієнтах авторегресії (обидва позитивні). Яка з отриманих моделей коректніше і чи потрібно було брати різниці, точно сказати неможливо.

Проведемо діагностику моделі. Тест Шапіро - Уїлки на нормальність залишків моделі ARIMA (2,1,3) дозволяє на 5% відхилити нульову гіпотезу (залишкова ймовірність склала 0,006942). Коррелограмми по залишках моделі (8.63) представлена на рис. 8.23.

Ряд залишків по моделі (8.63) і його коррелограмми

Рис. 8.23. Ряд залишків по моделі (8.63) і його коррелограмми

Як бачимо, коррелограмми незначно відрізняється від коррелограмми на рис. 8.20: все так само значущими виявилися лише коефіцієнти на 12-му лагу. Все, що раніше нього, - незначимо.

За отриманими ознаками важко віддати перевагу однієї з цих моделей. Якщо порівняти точність апроксимації вихідного ряду, то вона виявляється практично ідентичною - середня відносна помилка апроксимації по моделі ARMA (3,3) склала 4,06%, а за моделлю ARIMA (2,1,3) - 4,34%. Таким чином, вибрати кращу з цих двох моделей представляється практично неможливим.

Дамо прогноз по моделі ARIMA (2,1,3) і перетворимо отримані значення так, щоб прийти до вихідного ряду даних. Підсумковий прогноз показаний на рис. 8.24. Вертикальною лінією показаний момент часу, щодо якого робився прогноз.

Ряд № 2 568 (суцільна лінія з точками) та прогноз на 18 значень вперед по моделі ARIMA (2,1,3) (суцільна лінія)

Рис. 8.24. Ряд № 2568 (суцільна лінія з точками) та прогноз на 18 значень вперед по моделі ARIMA (2,1,3) (суцільна лінія)

Точність прогнозу по моделі ARIMA (2,1,3) виявилася трохи нижче, ніж по моделі ARMA (3,3), що може бути викликано або взяттям зайвої різниці, або менш оптимістичним прогнозом перетвореного ряду (прогноз за моделлю ARIMA (2,1 , 3) виявився дещо заниженим порівняно з прогнозом по ARMA (3,3)). В даному випадку sMAPE = 4,29%.

Що цікаво, при обмеженні на порядок різниць (d = 0) функція auto.arima вибирає модель ARIMA (3,0,3) як найбільш підходящу для перетвореного ряду даних, тобто, результат ідентифікації, отриманий за методологією Боксу - Дженкінса, в такому випадку виявляється ідентичним результату автоматичного вибору але AIC.

  • [1] Hyndman Rob .J., Khandakar Yeasmin. Automatic Time Series Forecasting: The forecast Package for R // Journal of Statistical Software. 2008. Vol. 27. Issue 3. P. 9.
 
Якщо Ви помітили помилку в тексті позначте слово та натисніть Shift + Enter
< Попередня   ЗМІСТ   Наступна >

Cхожі теми

Опис стаціонарного часового ряду авторегресії і ковзної середньої
Види ковзних середніх
МОДЕЛІ авторегресії і ковзаючої середньої
Сходження-розбіжність ковзних середніх
Виявлення тенденцій у ряді даних за допомогою ковзних середніх
Ковзні середні значення
Моделі авторегресії
Моделі і методи авторегресії
Моделі і методи авторегресії
Облік сезонності в моделях авторегресії
 
Дисципліни
Аудит та Бухоблік
Банківська справа
БЖД
Географія
Документознавство
Екологія
Економіка
Етика та Естетика
Журналістика
Інвестування
Інформатика
Історія
Культурологія
Література
Логіка
Логістика
Маркетинг
Медицина
Менеджмент
Педагогіка
Політологія
Політекономія
Право
Психологія
Релігієзнавство
Риторика
Соціологія
Статистика
Страхова справа
Товарознавство
Туризм
Філософія
Фінанси
Пошук