НЕСКІНЧЕННО ПОВТОРЮВАНІ ГРИ

Розглянемо тепер випадок нескінченно повторюваною гри. Як визначити виграш в такій грі? Складати виграші, отримані в кожній базовій грі, неможливо - отримаємо розходиться ряд. Вихід з положення

простий: введемо фактор дисконтування б = -, що показує поточну

1 + г

величину 1 руб., виплаченого на один період пізніше (наприклад, завтра або через рік). Якщо період дорівнює одному року, то г - банківська процентна ставка. При заданому факторі б і платежах, отриманих в нескінченно повторюваною грі {С, G , ...}, ми можемо порахувати повний сумарний платіж U як суму нескінченної послідовності платежів, приведених до початкового моменту часу:

Така сума називається NPV (Net Present Value) - чиста приведена вартість (чиста поточна вартість) потоку платежів 0 , л 1 , л 2 , ...}.

Очевидно, що якщо послідовність {л; 0 , л х , л 2 , ...} обмежена, додають сума за будь-яких 5 е (0; 1) сходиться.

Визначення 4.1. Середній платіж 7i tp нескінченного потоку платежів 0 , щ, л 2 , ...} при заданому факторі дисконтування 5 е (0; 1) - це такий постійний платіж, який призводить до такого ж сумарному платежу, як і задана послідовність платежів .

З рівності сумарних платежів отримаємо

або

Звідси отримаємо

Приклад 4.1. При відомому факторі дисконтування розрахувати

чисту наведену вартість наступній послідовності платежів: {-1; 2; -1; 2; -1; 2; ...} і середній платіж.

Рішення

Ми тут застосували формулу суми нескінченно спадної геометричної прогресії . У нашому випадку Ь х = -1 + 28; q = б 2 .

Тепер дамо суворе визначення нескінченно повторюваною гри.

Визначення 4.2. Нехай задана базова гра G. Розглянемо нескінченну послідовність ігор G (позначається G (°°, 5)), в яких гравці використовують при розрахунку платіжною функції фактор дисконтування б е (0; 1). Така послідовність ігор називається нескінченно повторюваною грою, і для всіх натуральних t перед кожною t -й базової грою аналізуються всі попередні I- 1 базових ігор. Платіжна функція в нескінченно повторюваною грі є сумою приведених до початкового моменту платежів ( NPV) нескінченної послідовності базових ігор.

Виявляється, що в нескінченно повторюваних іграх несправедлива теорема 4.1 з попереднього параграфа - можуть існувати вчинені поди- Гров рівноваги в нескінченно повторюваною грі, в яких цей вихід не буде зіграний. Але для розуміння сказаного спочатку уточнимо, що представляє собою стратегія в нескінченно повторюваною грі, і розглянемо кілька прикладів розрахунку виграшів гравців при різних профілях стратегій. Нагадаємо, що під стратегією в грі розуміється інструкція, З'казивающая, який вибір здійснює гравець у всіх ситуаціях в ході гри. Але в нашому випадку інструкція для гравця в момент t може спиратися на результати всіх базових ігор в попередні моменти часу.

Приклад 4.2. Нехай задана нескінченно повторювана гра з фактором дисконтування 6 = 0,5 і базової грою

Розрахуємо сумарний платіж гравців при наступних профілях стратегій.

1. Стратегія першого гравця: «Завжди граю Ь».

2. Стратегія другого гравця: «Весь час міняю ходи: з -> ^> з -»

Зобразимо тимчасову розгортку гри, позначивши через x (t), y (t ) дії відповідно першого і другого гравців в грі з номером V.

Сумарні дисконтовані платежі ( NPV) гравців при таких стратегіях рівні відповідно

Розрахуємо сумарні платежі гравців при зміненої стратегії першого гравця.

  • 1. Стратегія першого гравця: «Міняю ходи з періодом 3: а -> а -> 6 -> - ^ Про - ^ Про - ^ Ь - ^ Q - ^ С! - ^ Ь - ^ ... >>.
  • 2. Стратегія другого гравця: «Весь час міняю ходи: з -> ^> з - > d- Изобразим тимчасову розгортку гри:

Далі платежі повторюються з періодом 6. NPV гравців при таких стратегіях рівні відповідно

Залишається тільки підставити в ці вирази значення б = 0,5.

Наведемо тепер приклад стратегій гравців, які спираються на передісторію.

  • 1. Стратегія першого гравця: «У першій партії граю а, в другій - Ь, далі: якщо в попередній партії другий гравець грав с, то граю а, в іншому випадку - Ь >>.
  • 2. Стратегія другого гравця: «У першій партії граю d, далі: якщо в попередній партії перший гравець грав а, то граю d, в іншому випадку - з».

Зобразимо тимчасову розгортку гри:

Ходи повторюються з періодом 4, і сумарні дисконтовані платежі ( NPV) гравців при таких стратегіях рівні відповідно

Повернемося до гри «Дилема ув'язнених». Неважко бачити, що в базовій грі існує єдине рівновагу Неша (я; с). Профіль (6; d), що означає кооперацію гравців, домінує по Парето профіль (я; с). Але цей профіль виключається в грі G процедурою виключення суворо домінованих стратегій.

Нехай тепер ця гра повторюється нескінченне число разів (G 0 ; G,; ...; G t ; ...} - тут ми ввели нижній індекс t для вказівки номера гри в послідовності. І нехай для кожного t перед грою G t все попередні ходи гравців аналізуються.

Розглянемо наступну пару стратегій.

  • 1. Стратегія першого гравця: «Завжди (в усіх партіях) граю а».
  • 2. Стратегія другого гравця: «Завжди (в усіх партіях) граю з».

Очевидно, що найкращою відповіддю другого гравця на стратегію першого

гравця «Завжди граю а» є стратегія «Завжди граю з» і навпаки.

Отже, профіль стратегій ( «Завжди граю а»; «Завжди граю з») є рівновагою Неша в нескінченно повторюваною грі. Для доказу того, що цей профіль є досконалим подигровим рівновагою, застосуємо принцип однокрокового відхилення.

Принцип однокрокового відхилення (one-shot deviation property (OSDP)). У послідовній грі результат (sp .v 2 ; ...;%) є досконалим подигровим рівновагою Неша (SPNE) тоді і тільки тоді, коли жоден гравець не виграє при одноразовому відхиленні після будь-якої передісторії та поверненню до його стратегії після однократного відхилення.

У наведеному вище прикладі 4.2 однокрокове відхилення в довільний момент? * Від стратегії першого гравця «Завжди граю а» означає одноразовий вибір ходу b і подальше повернення до стратегії «Завжди граю а». Але тоді в подигре, що починається з моменту С, вибір першого гравця не буде оптимальний, оскільки в цій грі він отримає 0 (замість 1):

Одноразове відхилення першого гравця в довільний момент часу не приводить його до виграшу. Те ж можна сказати і про другий гравця. В силу принципу однокрокового відхилення робимо висновок, що профіль ( «Завжди граю я»; «Завжди граю з») є досконалим подигровим рівновагою Неша.

 
Переглянути оригінал
< Попер   ЗМІСТ   ОРИГІНАЛ   Наст >