Методи обробки малих вибірок

Розробка нових статистичних методів, орієнтованих на обробку малого числа спостережень, була викликана неможливістю застосування традиційних методів математичної статистики, які не підходять для обробки вибірок такого обсягу.

Розглянемо результати аналізу спеціальних статистичних методів обробки малого числа спостережень, обмежившись при цьому коротким оглядом їх властивостей.

Одними з перших питання про назрілу необхідність нового підходу до обробки малих вибірок поставили В. В. Чавчанідзе і В. А. Кусішвілі, при цьому для побудови оцінки функції розподілу вони запропонували використовувати так званий метод прямокутних вкладів (МПВ) [29]. Дослідження можливостей цього методу привели до розробки серії інших методів, заснованих на використанні функцій вкладів.

Оцінки розподілів, одержувані внаслідок застосування цього методу, узагальнено можуть бути виражені у вигляді лінійної суми двох компонент: апріорної і емпіричної. При цьому емпірична компонента будується за даними вибірки і являє собою суму функцій, що задовольняють ряду умов:

де f 0 (x) - апріорна компонента; р - х i) - складова емпіричної компоненти, пов'язана з i -й реалізацією вибірки; α0 - вага апріорної компоненти.

В основі МПВ лежить використання апріорної інформації про невідомому розподілі значень параметрів виробів і облік випадкового характеру вибірки.

Апріорна інформація про розподіл полягає в наступному: • при відомих межах інтервалу [о; b], для якого визначена випадкова величинах, щільність розподілу задовольняє умові

при

при

• щільність розподілу неперервна усередині інтервалу [a; b] і не має дуже крутих підйомів і спадів.

З аналізу апріорної інформації можна зробити висновок, що в якості апріорної компоненти в МПВ доцільно використовувати рівномірний розподіл, задане усередині інтервалу [а; b].

Облік випадкового характеру вибірки виражається в тому, що допускається можливість появи будь-яких інших значень випадкової величини з області, де d - ширина вкладу [1].[1]

Методика побудови функції f (x) ґрунтується на використанні як функції вкладу одиничного прямокутника, що, власне, і дав назву методу. Щільність розподілу записується у вигляді

де Ψi (χ) - функція вкладу одиничної площі.

При цьому для деяких значень x i функція вкладу може виходити за межі інтервалу [а; b]. У такому випадку частину площі, що виходить за межі інтервалу, відкидається, а над рештою підставою прямокутника рівномірно надбудовується площа, рівна відкинутої.

Як функції вкладу можуть використовуватися також розподілу іншої форми, наприклад, розподіл Сімпсона, потенційна функція (потенціал), дельтоподібним функція та ін. У відомих роботах (див., Наприклад, [9]) показано наступне:

  • • для кожного типу розподілу існує оптимальна ширина вкладу d o, при якій ефективність МПВ максимальна; значення d o зменшується із збільшенням об'єму вибірки;
  • • форма вкладу значно впливає на точність МПВ і простоту реалізації;
  • • оптимальна ширина вкладу залежить не тільки від типу розподілу, а й від значень його параметрів. При відсутності такої інформації завдання вибору параметрів вкладу не призводить до певного рішення, тому на високу ефективність МПВ розраховувати важко.

Своєрідний підхід до визначення форми і параметрів вкладу розглядається в роботі В. І. Шаповалова (УДПУ). Параметри вкладів (ширину, форму та ін.) Пропонується підбирати таким чином, щоб з наявної вибірки витягалося найбільшу кількість інформації про функції розподілу.

Однак розглянутий підхід має істотні недоліки.

По-перше, для визначення форми вкладу використовуються значення четвертого центрального моменту (перший момент - математичне очікування; другий - дисперсія; третій - ексцес (несиметрія) ФР; четвертий - куртозіс (некрасивість) ФР, тобто спотворення в одну сторону більше, ніж в іншу).

По-друге, для визначення оптимальних значень параметрів вкладу потрібно апріорне значення типу розподілу. Якщо тип розподілу заздалегідь невідомий, обгрунтувати вибір значень параметрів не представляється можливим.

Відзначимо, що облік випадкового характеру окремої реалізації набору вихідних даних для малої вибірки широко використовується для аналізу великих вибірок. При побудові гістограми з кожною реалізацією зв'язується елементарна щільність рівномірного розподілу на подинтервале, що включає цю реалізацію. Підсумовування всіх елементарних густин дає оцінку щільності розподілу, графічним зображенням якої і є гістограма.

Таким чином, з аналізу сутності МПВ та інших методів вкладів можна зробити висновок про те, що принципово новим елементом, що обумовлює високу ефективність методів при обробці вибірок обмеженого обсягу, є використання апріорної інформації, закладеною у межах інтервалу, де визначена випадкова величина.

І. В. Єременко (УДПУ) і А. Н. Свердлик (УДПУ) запропонований емпіричний метод побудови функції розподілу, названий методом зменшення невизначеності (МУН). Його відмінність від МПВ полягає в тому, що замість ширини прямокутного вкладу d, побудованого близько реалізації х i, використовується нормоване рівномірний розподіл, задане на інтервалі [хi-1; xi + 1]. Суть МУН полягає в рівномірному розподілі стрибка ймовірності в точці. Х i.

Вирази для емпіричної функції розподілу, одержуваної за допомогою МУН, можна записати у вигляді

при х i-1 ≤ х i і

де k i - число однакових значень х i.

Метод зменшення невизначеності є окремим випадком МП В, в якому ширина вкладу - випадкова величина, що змінюється зі зміною індексу i.

Метод апріорно-емпіричних функцій (МАЕФ) розроблений І. П. Демакова (УДПУ) і В. В. Потепуном (УДПУ). У разі використання МАЕФ інтегральну функцію розподілу можна представити у вигляді

де F d (x) - апріорний розподіл, побудоване за апріорним даними; Fе (x) - емпіричне розподіл, побудоване за даними вибірки; зі - коефіцієнт достовірності інформації про апріорно розподілі.

В основі МАЕФ так само, як і розглянутих вище методів отримання оцінок розподілів, - використання апріорної інформації у вигляді кордонів інтервалу [я; b], а також індивідуальний підхід до кожної окремої реалізації випадкової величини. Однак при цьому апріорної інформації приписується деякий вага зі і годиться, що

де Δ - інтервал дискретності, який визначається точністю спостереження (вимірювання) випадкової величини.

У відомих роботах авторів з УДПУ наведені відомості про те, що по ефективності МАЕФ не поступається МПВ, а по простоті реалізації подібний МУН. Крім цього, сильною стороною МАЕФ є та обставина, що значущості апріорної інформації надається вага, вона (значимість) ранжирується за допомогою вагових коефіцієнтів.

Проте зазначені гідності на практиці можна реалізувати лише тоді, коли є достатньо точна інформація про передбачувану функції розподілу. У разі відсутності такої інформації МАЕФ цілком може бути віднесений до традиційних методів математичної статистики.

Метод стиснення області існування інтегральних законів розподілу (ІЗР) запропонований І. В. Єременко (УДПУ). При використанні цього методу передбачається наявність наступних умов:

  • • є вибірка кінцевого об'єму, представлена у вигляді варіаційного ряду
  • • для кожного елемента вибірки х i існує єдина послідовність чисел така, що
  • • побудова оцінки розподілу полягає у знаходженні наближених значень

(6.1)

Аналіз розподілу, таким чином, зводиться до вибору послідовності, що дозволяє мінімізувати або математичне очікування, або дисперсію похибки побудови ІЗР для кожного i -го члена варіаційного ряду

.

Найбільш кращим при інженерних розрахунках є проходження алгоритму, заснованому на мінімізації дисперсії. У цьому випадку члени ряду (6.1) можна визначити наступним чином:

(6.2)

Поєднуючи отримані значення а i (i = 1,2, ..., N) відрізками прямих, отримують кусочно-лінійну апроксимацію інтегральної функції розподілу з вузлами в точках i, a i}.

Основною перевагою методу стиснення ІЗР є можливість обчислення довірчої ймовірності для кожного г-го члена послідовності (6.1). При цьому ймовірність проходження ІЗР через заздалегідь обраний інтервал i - Δi; а i + Δi] дорівнює

де Ρ y, i, N - щільність ймовірності проходження ІЗР на рівні г / (• для г-го випробування в серії з N випробувань.

Цю величину можна описати виразом

Іншою перевагою використання методу стиснення ІЗР є забезпечення високої точності оцінювання функції розподілу в околицях вузлів інтерполяції.

Недоліком методу стиснення І3Р є те, що точність відтворення решти ділянок кривої у = F (x) в результаті лінійної інтерполяції при малому числі спостережень невисока.

З а готівка иза виразу (6.2) можна зробити висновок, що метод стиснення ІЗР є, по суті, окремим випадком МПВ. У цьому неважко переконатися, якщо продифференцировать інтегральну функцію розподілу, що отримується за допомогою ІЗР. Внаслідок того, що використовувані вклади не є оптимальними, можна стверджувати, що по точності метод стиснення ІЗР поступається МПВ.

Г. В. Дружиніна та О. В. Воронової [2] розроблений емпіричний метод побудови інтегральної функції розподілу, названий ними методом послідовних медіан (МПМ). Коротка характеристика цього методу полягає в наступному.

Вихідні дані 1, х 2, ..., х N} розташовуються в варіаційний ряд, знаходиться медіана цього ряду (середнє число в ряду після впорядкування чисел варіаційного ряду спаданням або за зростанням), і на графіку емпіричної функції розподілу ставиться крапка з координатами ХШ і F (x m) = 0,5. Потім знаходяться медіани двох половин варіаційного ряду і їм у відповідність ставляться значення емпіричної функції 0,25 і 0,75 і т.д. Зазначена процедура продовжується до тих пір, поки не будуть розглянуті всі наявні значення х i (i = 1, 2, ..., N). У результаті виходить ряд точок F n (x).

Початкове і кінцеве значення функції розподілу знаходять за формулами

де х 1, х 2 - перші два члена варіаційного ряду; x i - оцінка моди функції розподілу (F (x j) = 0,5); при малому числі дослідних даних вважається, що оцінка моди збігається з оцінками медіани по вибірці.

Виходячи з викладеного матеріалу, можна зробити висновок про те, що МПМ також є однією з різновидів МПВ. Щоб у цьому переконатися, достатньо продифференцировать одержувану емпіричну функцію розподілу. Вельми цікава особливість МПМ полягає в тому, що межі інтервалу, в якому визначена випадкова величина, визначаються за даними вибірки.

Своєрідний підхід до побудови оцінки розподілу розглянуто в роботах співробітників УДПУ Л. Я. Пешеса, М. Д. Степанової, Η. Н. власовців. Пропонований ними метод заснований на висуненні та перевірці гіпотез, причому в якості критерію згоди рекомендується використовувати умова збігу перших трьох-чотирьох моментів розподілу. Вид аппроксимирующего розподілу визначається в результаті оцінки попадання розрахункових моментів цього розподілу в довірчі інтервали для емпіричних моментів. Причому довірчі інтервали для емпіричних моментів визначаються при статистичному моделюванні емпіричної функції на ЕОМ. Для побудови емпіричної функції розподілу за вибіркою деякими авторами пропонується використовувати МП В (див. [29, т. 2]), причому в якості функції вкладу рекомендується застосовувати прямокутник зі змінним підставою ι. Функції вкладу будуються щодо. При цьому інтегральну функцію розподілу можна записати у вигляді

(6.3)

де у i - частковість i -й реалізації випадкової величини X.

Алгоритм формування оцінок перших чотирьох моментів розподілу реалізується наступним чином:

  • • за допомогою програмного датчика рівномірно розподілених випадкових чисел виробляються випадкові послідовності, рівномірно розподілені в інтервалі (0; 1);
  • • за допомогою зворотного перетворення виходять випадкові послідовності обсягу N, задовольняють розподілу (6.3). З урахуванням виразу для F (x) значення х визначають за правилом

  • • за отриманими N реалізаціям випадкової величини X оцінюють значення перших чотирьох моментів розподілу. Зазначені операції повторюють k разів, причому k оцінюється за допомогою нерівності, де γ - рівень довіри. Величина γ являє собою ймовірність і може дорівнювати 0,5, 0,7, найчастіше 0,9. Введення рівня довіри в формулу пов'язане з ризиком дослідника (операціоніста в теорії операцій);
  • • для кожного з моментів складають варіаційний ряд

де k - момент варіаційного ряду; кожен момент має межі в деякому інтервалі. Межі довірчого інтервалу визначаються величинами, де r 1, r 2 - цілі частини чисел

Методика перевірки висунутих гіпотез полягає в наступному. Для кожного з розглянутих теоретичних розподілів методом максимальної правдоподібності визначаються значення параметрів, після чого обчислюються перші чотири моменту, відповідні цим розподілом. Далі з'ясовується, чи потрапляють ці моменти в довірчі інтервали для емпіричних моментів. При цьому переходять послідовно від більш високих рівнів до більш низьких рівнів. В якості підходящого розподілу вибирається такий розподіл, моменти якого потрапляють в найвужчий інтервал.

Слід зазначити, що авторами даної методики обраний вельми вдалий спосіб ідентифікації емпіричного і теоретичного розподілів за значеннями початкових моментів, так як сукупність моментів утворює мінімальну систему достатніх статистик, як випливає з теорії статистики, однозначно визначають розподіл.

Методика має такі недоліки:

  • • при малому числі даних значення моментів вищих порядків (починаючи з третього) визначаються з великою похибкою;
  • • оцінка розподілу (6.3) не є оптимальною внаслідок того, що розглянутий метод являє собою одну з різновидів МПВ, а ширина вкладу випадкова;
  • • ефективність методу залежить від аналізованих теоретичних розподілів. Якщо в їх числі не знаходиться відповідної моделі, то перейти до вузьких довірчим інтервалам нс вдасться, що є наслідком неконструктивного, перевірочного характеру методу.

Розглянемо інформаційний підхід до побудови оцінок розподілу по обмеженому числу досвідчених даних. Кількість інформації (по Шеннону) про функції розподілу, що міститься у вибірці малого обсягу, обмежена, тому оцінити розподіл за експериментальними даними можна лише з певним ступенем точності. Метою розробки нових статистичних методів є можливо більш повне використання вибіркової інформації про функції розподілу і, отже, отримання оцінок розподілів, як можна більш близьких до істинним (див. 129, т. 2]).

На основі проведеного аналізу нетрадиційних методів математичної статистики можна зробити висновок, що у разі відсутності апріорних відомостей про функції розподілу доцільно будувати метод оцінювання таким чином, щоб виключити етапи, що вимагають використання будь-якої інформації, крім тієї, яка отримана досвідченим шляхом. Застосування ентропійного підходу дозволяє отримувати оцінку розподілу на основі лише експериментальних даних. У цьому випадку завдання формулюється таким чином.

Нехай випадкова величина X (у загальному випадку векторна) може приймати ряд значень з імовірностями, які невідомі. В результаті експерименту отримані середні значення функцій

причому m << n.

Требуется на основі наявної інформації визначити значення ймовірностей p i.

Доповнивши вихідні дані умовою нормування, отримаємо m + 1 рівняння з і невідомими.

З постановки задачі очевидно, що однозначно визначити значення p i за наявною інформацією не представляється можливим. Тому необхідний критерій, який з нескінченної кількості розподілів дозволяв би вибрати таке, яке найбільш точно узгоджується з наявними експериментальними даними. Дослідним шляхом показано, що в якості такого критерію слід використовувати ентропію розподілу. Під ентропією S розуміється невизначеність щодо істинних значень Pi (i = 1, 2, ..., п). Вихідна задача при цьому зводиться до наступної: необхідно визначити значення р i доставляють максимум функціоналу

(6.4)

при рівняннях зв'язку

(6.5)

Відзначимо, що при цьому згідно з умовою завдання типрозподілу Ρι покладається невідомим. При такому підході з усіх розподілів, що узгоджуються з вихідними даними і представлених у виді рівнянь зв'язку (6.5), необхідно вибрати найбільш

пологе (тобто найбільш близьке до рівномірного) розподіл. Тобто слід уникати розподілів, що мають гострі піки, при яких виділяється той чи інший результат, за винятком випадків, коли того вимагає умова розв'язуваної задачі.

Таким чином, оцінці розподілу, отриманою на основі ентропійного підходу, відповідає найбільша невизначеність (згідно (6.4)). Якщо число можливих значень випадкової величини X апріорно відомо, то кількість інформації про функції розподілу I jg, извлекаемое в результаті обробки вихідних статистичних даних, визначається співвідношенням

де S - максимальне значення ентропії розподілу (апостеріорне); Sапр - вихідна невизначеність, відповідна нагоди, коли відомо лише число можливих значень випадкової величини, обумовлена співвідношенням

(6.6)

З аналізу виразу (6.6) випливає, що оцінка, що доставляє максимум невизначеному апостеріорного розподілу, оберігає нас від використання будь-якої інформації, не пов'язаної з даними вибірки.

При використанні інформаційного підходу передбачається уявлення всіх зустрічаються одновимірних розподілів в єдиній формі:

де μj - значення параметрів розподілу, що визначаються за значеннями v j (наприклад, можна використовувати поліноми Лаггера, Чебишева, Ерланга, Якобі, Соніна та ін.).

Слід зазначити, що вибір характеристик розподілу значною мірою довільний. Наприклад, в якості центральної точки розподілу можуть виступати середнє, медіана і мода, як характеристик розсіювання - дисперсія, перший абсолютний момент і широта розподілу.

У літературних джерелах авторів з УДПУ [3] показано, що в якості v j доцільно використовувати значення початкових моментів розподілу.

Для цього існує дві причини. Перша полягає в тому, що оскільки початкові моменти є усередненими величинами, то при малому числі даних в їх значеннях виявляються більш стійкі закономірності, ніж у самих результатах спостережень. Друга причина полягає в тому, що сукупність початкових моментів утворює мінімальну систему достатніх статистик, однозначно характеризує функцію розподілу і стохастичну залежність між змінними, звичайно у випадку системи випадкових величин.

Як це відомо з теорії математичної статистики, для опису практично будь-якого розподілу досить враховувати тільки три-чотири початкові моменту. Авторами з УДПУ показано, що точність оцінок розподілу, одержуваних за допомогою розробленого методу, в цілому виявляється вище точності оцінок, що визначаються за допомогою статистичних методів аналогічного призначення. Таким чином, для оцінки показників надійності за вибіркою малого обсягу доцільно використовувати інформаційний підхід, що складається з різних методів.

  • [1] Вклади - це вихідні дані, зважені (ранжирування) за значимістю.
  • [2] Матеріали УДПУ. URL: ufdvgu.ru
  • [3] URL: ufdvgu.ru
 
< Попер   ЗМІСТ   Наст >