ЗАСОБИ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ ДАНИХ

Збільшення продуктивності серверів і здешевлення вартості зберігання даних дозволило накопичувати, зберігати і обробляти великі обсяги даних. Це дало можливість розвиватися методам інтелектуального аналізу даних, спрямованого на виявлення в даних прихованих і раніше невідомих закономірностей, практично корисних і доступних інтерпретації знань, які можуть бути використані при прийнятті рішень в різних сферах людської діяльності. В англійській мові для позначення цього процесу набули поширення два тер- міна: Knowledge Discovery in Databases (пошук знань в базах даних, KDD) і Data Mining (витяг знань, DM). Деякі експерти ототожнюють ці два поняття, деякі відносять Data Mining до одному} 'з кроків KDD. Засновником і одним з ідеологів Data Mining вважається Григорій Пятецкий-Шапіро (Gregory Piatetskv-Shapiro).

На відміну від засобів OLAP, які також дозволяють аналізувати дані, але можуть використовувати тільки пояснення або підтвердження передбачуваних залежностей, засоби Data Mining орієнтовані на пошук нових залежностей і закономірностей. По-різному ставляться завдання для OLAP і Data Mining: якщо для OLAP завданням може бути, наприклад, знаходження середньої вартості покупки, середнього віку клієнта, самого товару, що продається, то для Data Mining це пошук факторів, що впливають на покупку, сегментація клієнтів, визначення типових сценаріїв покупки і ін.

Засоби Data Mining дозволяють будувати нові гіпотези про характер невідомих, але реально існуючих відносин в даних, формувати моделі, які дають можливість кількісно оцінити ступінь впливу досліджуваних факторів.

Спільно інструментарій оперативної аналітичної обробки і видобутку даних дозволяє проводити розгорнутий аналіз інформації, що в свою чергу веде до більш ефективного результату процесу виявлення нових знань в сховищах даних. ОLАР-технології зазвичай застосовуються на ранніх стадіях процесу KDD. Це призводить до кращого розуміння даних, допомагає аналітикам виявити актуальні порції даних, а технології Data Mining збагачують цю функціональність.

Необхідним атрибутом технологій інтелектуального аналізу даних є клієнт-серверна архітектура, яка забезпечує виконання трудомістких процедур обробки даних на високопродуктивному сервері.

Процеси інтелектуального аналізу даних можна поділити на три великі групи:

  • 1) автоматичний пошук і виявлення важливих залежностей в даних;
  • 2) прогнозування, що передбачає автоматичне заповнення відсутніх значень в наборі даних на основі раніше виявлених залежностей;
  • 3) аналіз аномалій, тобто пошук нетипових даних, сильно відхиляються від стійких залежностей.

Системи інтелектуального аналізу даних застосовуються в наукових дослідженнях та освіті, у виробництві і багатьох інших областях. Особливо широко технологія інтелектуального аналізу даних використовується в ділових додатках. Працюючи з інформацією, що надходить з ІС підприємства, технології інтелектуального аналізу дають можливість менеджерам і ЛІР виявити закономірності в даних, проаналізувати деякі тенденції, що дозволяють виявити проблеми в діяльності організації, зрозуміти причини ситуації, що сталася, підготувати грунт для прийняття рішень в подальшому.

У процесі видобутку даних на основі підготовленого безлічі даних итеративно створюються моделі, які потім застосовуються до даних. Оскільки створення моделей на великих множини даних може виявитися досить дорогим, аналітики часто спочатку працюють з декількома вибірками безлічі даних.

У процесі інтелектуального аналізу даних можна виділити кілька етапів [1] .

  • 1. Підготовка вихідного набору даних. На цьому етапі на основі різних джерел створюється набір даних, вибираються навчальна і тестова вибірки. Для виконання цього етапу використовуються інструменти доступу до даних з різних джерел.
  • 2. Передобробка даних. Для ефективного застосування методів Data Mining може знадобитися попередня обробка вихідного набору даних, що включає в себе заповнення пропусків, видалення шумів, аномальних значень, усунення надмірності, доповнення даних деякої апріорної інформацією. Кожен метод Data Mining висуває свої вимоги до якості і формату надання вихідних даних. Більш того, іноді розмірність вихідних даних (кількість атрибутів і їх унікальних значень) занадто велика, і тоді необхідно застосовувати спеціальні алгоритми зниження розмірності.
  • 3. Трансформація і нормалізація даних. Для застосування деяких методів потрібно, щоб вихідні дані були представлені в певному виді. Наприклад, для використання нейронних мереж необхідно, щоб всі дані були числовими і нормалізованими, тобто їх значення повинні бути приведені до певного діапазону (зазвичай від 0 до 1).
  • 4. Застосування методів Data Mining. На цьому етапі до вихідних даних застосовуються різні алгоритми пошуку закономірностей: алгоритми кластеризації, пошуку асоціацій, послідовностей, нейронні мережі, дерева рішень і ін.
  • 5. Постобработка даних. На цьому етапі отримані результати інтерпретуються, робляться висновки. У подальшому отримані знання можуть застосовуватися на практиці.

Data Mining включає в себе велику кількість різних методів виявлення знань. Основними завданнями, які розв'язуються методами Data Mining, є класифікація, регресія, кластеризація, асоціація і пошук послідовних шаблонів.

Класифікація - це віднесення об'єктів (спостережень, подій) до одного з апріорно заданих груп, званих класами, всередині кожної з яких об'єкти схожі один на одного і мають приблизно однакові властивості і ознаки. Віднесення об'єктів до класів здійснюється на основі аналізу значень атрибутів (властивостей, ознак) об'єктів.

Методи класифікації застосовуються в маркетингу при сегментації клієнтів, оцінці постачальників, розпізнаванні образів, діагностиці обладнання та багатьох інших областях. Передбачається, що властивості об'єктів кожного класу відомі, тому коли з'являється новий об'єкт, він відноситься до певного класу, і всі властивості даного класу поширюються і на нього. Іноді використовується бінарна класифікація, при якій число класів зведено до двох, наприклад «Допустима операція» і «Неприпустима операція».

Для класифікації застосовуються різні методи, в тому числі нейронні мережі, дерева рішень, машини опорних векторів, метод ^ -бліжайшіх сусідів, алгоритми покриття та ін. При виконанні процедур класифікації інформаційний простір розбивається на області, кожна з яких відповідає певній класифікаційної групи. При цьому у вихідних даних для кожного об'єкта (спостереження) вказується мітка класу (тобто визначено, до якого класу об'єкт відноситься) і на основі цих даних розраховуються усереднені характеристики кожного класу. При появі нового об'єкта він ставиться до того класу, в область простору якого він потрапив (тобто до того, чиї характеристики йому найбільш близькі).

Регресія передбачає виявлення залежностей між безперервними змінними. У теорії ймовірностей і математичній статистиці під регресією розуміється залежність середнього значення випадкової величини від однієї або декількох інших величин. Слід відрізняти функціональну залежність від регресійної: якщо при функціональної залежності кожному значенню незалежної змінної відповідає єдине значення залежної, то при регресійної залежності в силу її випадкової природи кожному значенню незалежної змінної можуть відповідати різні значення залежною.

Одним із прикладів регресійної залежності може бути залежність між чисельністю персоналу компанії і її доходами. Як правило, компанії з більшою чисельністю персоналу відповідають більш високі доходи, проте це не завжди буває так. Зустрічаються успішні компанії з високими доходами, в штаті яких числиться невелика кількість людей. В такому випадку залежність між чисельністю персоналу і середнім рівнем доходів компанії буде регресійній.

Іншим прикладом регресії може бути залежність обсягів продажів від ціни (рис. 3.7). На діаграмі розсіювання видно, що, як правило, більш високі продажі відповідають автомобілям з більш низькою ціною, проте є автомобілі з досить низькою ціною, продажі яких нижче, ніж продажі деяких більш дорогих автомобілів.

Приклад регресійної залежності обсягу продажів

Мал. 3.7. Приклад регресійної залежності обсягу продажів

автомобілів від ціни

Регресія широко використовується при вирішенні різних бізнес-задач, таких як прогнозування різних показників діяльності підприємств окремо і розвитку економіки країни в цілому (прогнозування обсягів продажів, курсів валют і акцій), оцінка різних бізнес-показників на основі спостережуваних значень інших показників (скоринг) , виявлення залежностей між показниками і т.д.

Кластеризація - це групування об'єктів (спостережень, подій) на основі властивостей (атрибутів, характеристик), якими ці об'єкти мають. Передбачається, що об'єкти, що знаходяться всередині кластера, схожі за властивостями один на одного і значно відрізняються від тих, що увійшли в інші кластери.

Формально постановку задачі кластеризації можна описати таким чином. Нехай задані безлічі об'єктів X і номера кластерів У. Для об'єктів X задана деяка функція Д визначає відстань між кожною парою об'єктів. Є кінцева вибірка навчальних прикладів об'єктів Х т з безлічі X, яку потрібно розбити на непересекающі- еся підмножини (кластери) так, щоб кожне з них складалося б лише з елементів, які знаходяться на близькій відстані D один від одного. При цьому кожному об'єкту х, з безлічі Х т присвоюється номер кластера Уу Завдання кластеризації полягає в пошуку функції /, яка будь-якого об'єкта х з безлічі X ставить у відповідність номер кластера у з безлічі У. Число кластерів може бути відомо заздалегідь, але в більшості випадків його доводиться визначати при вирішенні конкретної задачі.

За допомогою кластеризації в даних можна виявити структурні групи, що надалі спростить обробку даних, і застосовувати свої методи аналізу до кожного з виявлених кластерів. Кластеризація дає можливість більш компактно зберігати дані: можна не зберігати всю вибірку, а залишити по одному типовому спостереження з кожного кластера. Крім того, в процесі кластеризації можуть бути виявлені нетипові об'єкти, які не змогли бути віднесені до жодного з кластерів. Приклад реалізації завдання кластеризації в середовищі Deductor представлений на рис. ВЗ [2] .

Кластеризація, як правило, застосовується при сегментації клієнтів і ринків, діагностиці несправностей устаткування, проведенні соціальних і демографічних досліджень, для оцінки надійності контрагента і в багатьох інших областях.

Завданням асоціації є виявлення асоціативних зв'язків між подіями. Про асоціативного зв'язку між подіями X і У говорять, коли при настанні події X в більшості випадків настає і подія У. Наприклад, ангіна часто супроводжується втратою голосу, похмура погода - низьким атмосферним тиском, оформлення іпотеки - покупкою квартири. При цьому зв'язок між подіями може бути необов'язково причинно-наслідковий. Вперше завдання асоціації була запропонована для пошуку типових шаблонів покупок, що здійснюються в супермаркетах, тому іноді її називають аналізом ринкової корзини (market basket analysis). Приклад пошуку асоціативних правил в середовищі Deductor представлений на рис. 3.8.

Приклад пошуку асоціативних правил в середовищі Deductor

Мал. 3.8. Приклад пошуку асоціативних правил в середовищі Deductor

Завдання пошуку послідовних шаблонів передбачає виявлення закономірностей між подіями, які пов'язані в часі. В результаті аналізу таких зв'язків формуються правила виду «якщо відбулася подія X , то з високою часткою ймовірності настане подія У».

Теорія послідовних шаблонів відбувається з теорії асоціативних правил. Принципова відмінність полягає в тому, що в асоціативних правилах розглядаються факти спільного появи подій і не розглядається порядок їх появи, а в послідовних шаблонах важливим аспектом є послідовність подій, так як передбачається, що попередні події впливають на ймовірність появи наступних.

Завдання пошуку послідовних шаблонів була вперше опрацьована Р. Агравалом і Р. Срікангом, авторами популярного алгоритму пошуку асоціативних правил Apriori [3] . Ними також були запропоновані алгоритми для вирішення завдання відкриття послідовних шаблонів на великих масивах даних - GSP, Apriori Some і Apriori All.

Послідовні шаблони використовуються для прогнозування затребуваності на ринку нового продукту компанії на основі спостерігалася динаміки споживання старих продуктів. Па базі аналізу великого числа таких послідовностей можна визначити типовий характер поведінки клієнтів щодо нових продуктів компанії.

Приватні проблеми бізнес-аналізу можуть формулюватися по-різному, але рішення більшості з них може бути зведене до тієї чи іншої задачі Data Mining або до їх комбінації. Наприклад, для оцінки ризиків вирішується завдання регресії або класифікації, завдання сегментації ринку можна звести до кластеризації, для виявлення факторів, що стимулюють попит, використовуються асоціативні правила. Фактично, з елементарних завдань Data Mining можна зібрати рішення переважної більшості реальних завдань бізнесу.

Для вирішення завдань Data Mining використовуються різні методи і алгоритми, які прийшли з різних дисциплін, таких як статистика, теорія інформації, машинне навчання, теорія баз даних, теорія оптимізації та ін.

До методів Data Mining відносяться нейронні мережі, дерева рішень, індукція правил, міркування на основі аналогічних випадків, нечітка логіка, генетичні алгоритми, алгоритми визначення асоціацій і послідовностей, аналіз з виборчим дією, логічна регресія, еволюційне програмування, візуалізація даних. Розглянемо деякі з них більш детально.

Нейронні мережі - це клас систем, архітектура яких має аналогію (як тепер відомо, досить слабку) з побудовою нервової тканини з нейронів. Найбільш поширеною архітектурою нейронної мережі є багатошаровий перцептрон зі зворотним поширенням помилки. Багатошаровий перцептрон є ієрархічною мережу, в якій кожен нейрон вищого рівня з'єднаний своїми входами з виходами нейронів нижчого шару. На нейрони самого нижнього шару подаються значення вхідних параметрів, в якості яких виступають фактори, на основі яких приймаються управлінські рішення, прогнозується розвиток ситуації. Наприклад, вирішується завдання прогнозування прибутку організації в залежності від таких параметрів, як кількість філій, кількості робочих, суми активів і ін. (Рис. 3.9). Значення вхідних параметрів розглядаються як сигнали, які передаються в наступний шар, послаблюючи або посилюючись в залежності від числових значень (ваг), приписуваних міжнейронних зв'язків. В результаті на виході нейрона самого верхнього шару виробляється деяке значення вихідного показника, яке розглядається як відповідь - реакція всієї мережі на введені значення вхідних параметрів. Для того щоб використовувати нейронну мережу, її колись потрібно «навчити» на отриманих раніше даних, для яких відомі і значення вхідних параметрів і вихідних показників. У процесі «навчання» здійснюється підбір ваг міжнейронних зв'язків, які забезпечують найбільшу близькість відповідей мережі до відомих фактичними значеннями вихідного показника при заданих вхідних параметрах.

Основний недолік нейронних мереж полягає в тому, що для їх «навчання» необхідно мати дуже великий обсяг вибірки даних. Недоліком є і те, що нейронна мережа являє собою «чорний ящик», і знання, зафіксовані як ваги декількох сотень міжнейронних зв'язків, не можуть бути проаналізовано та інтерпретовано людиною.

Проте нейромережеві технології використовуються для вирішення завдань прогнозування, обробки сигналів і розпізнавання образів. Їх використовують для виявлення нелінійних закономірностей в сильно зашумлених неоднорідних даних і при великій кількості вхідних параметрів.

Дерева рішення - є ієрархічну деревоподібну структуру классифицирующих правил типу «якщо ..., то ...». Щоб прийняти рішення, до якого класу віднести деякий об'єкт або ситуацію, необхідно перевірити виконання умов, що стоять в вузлах дерева рішення, починаючи з його кореня. В умови перевіряється відповідність деякого параметра деякому значенню або діапазону значень, наприклад «термін проживання позичальника в даній місцевості менше 6,5 років» (рис. В4). При виконанні умови здійснюється перехід до правого вузла наступного рівня, в іншому випадку - до лівого вузла. Потім знову перевіряється виконання умови, пов'язаного з відповідним вузлом. Так відбувається до тих пір, поки не буде досягнутий кінцевий вузол гілки дерева, що містить рішення.

Приклад нейронної мережі в середовищі Deductor

Мал. 3.9. Приклад нейронної мережі в середовищі Deductor

Гідність методу - його наочність і зрозумілість, проте недоліком дерев рішень є нездатність знаходити найбільш повні і точні правила в даних.

На відміну від дерев рішень при індукції правил створюється неієрархічні безліч умов, які можуть перекриватися. При цьому генеруються неповні дерева рішень, і для вибору, яке з них буде застосовано до вхідних даних, використовуються статистичні методи.

Ідея систем міркування на основі аналогічних випадків полягає в тому, що для того щоб зробити прогноз на майбутнє або вибрати правильне рішення, ці системи знаходять в минулому близькі аналогічній ситуації і вибирають ту саму відповідь, який був для них правильним. Цей метод ще називають методом «найближчого сусіда» (nearest neighbour). Системи міркування на основі аналогічних випадків показують дуже хороші результати в найрізноманітніших задачах. Основним їх недоліком є те, що вони не створюють будь-яких моделей або правил, узагальнюють попередній досвід, - у виборі рішення вони ґрунтуються на всьому масиві доступних історичних даних, тому неможливо сказати, на основі яких конкретно факторів ці системи будують свої відповіді.

Засоби для графічного відображення даних підтримуються більшістю систем Data Mining. До основних способів візуалізації даних відносяться уявлення їх у вигляді багатовимірних діаграм, діаграм розміщення, поверхонь, відображення даних на картах. Аналізовані показники при цьому асоціюються як з осями діаграми, так і з кольором, формою, розміром відображається на діаграмі точки. Крім того, системи візуалізації даних забезпечені зручними засобами для масштабування і обертання зображень (рис. В5).

Самі по собі методи інтелектуального аналізу даних, звичайно, не забезпечують успішність їх застосування в процесі аналізу і прийняття управлінських рішень. Важливими чинниками успіху є якість даних, функціональні можливості використовуваного програмного забезпечення і майстерність аналітика, який коректно ставить економічну задачу і бере участь в процесі побудови моделі.

  • [1] Методи і моделі аналізу даних: OLAP і Data Mining / А. А. Барсегян, М. С. Купріянов, В. В. Степаненко, І. І. Холод. СПб .: БХВ-Петербург, 2004.
  • [2] URL: http://www.basegroup.ru.
  • [3] Agrawal R., Srikant R. Fast algorithms for mining association rules in large databases.Research Report RJ 9839, IBM Almaden Research Center, San Jose, California, June 1994.
 
Переглянути оригінал
< Попер   ЗМІСТ   ОРИГІНАЛ   Наст >