Навігація
Головна
 
Головна arrow Маркетинг arrow Маркетингові дослідження
< Попередня   ЗМІСТ   Наступна >

Метод К-середніх (К-means)

Загальна характеристика.

Нагадаємо, що метод кластеризації К-середніх (K-Means) - це Неієрархічні метод, що дозволяє розділити об'єкти на задане число кластерів відповідно до достатньо "тонким" критерієм, що представляє собою статистику Фішера: ставлення межкластерной дисперсії до внутрікластерной. У результаті поділ здійснюється так, щоб мінливість змінних всередині кластерів була малою, між кластерами - великий.

Або, що те ж саме, об'єкти, що входять в один і той же кластер, були розташовані в просторі змінних близько, а вхідні в різні кластери - далеко один від одного.

На відміну від ієрархічних методів метод К-середніх не розглядає всі можливі варіанти розбиття на задане число кластерів. Починаючи роботу з якогось, як правило, довільного варіанту, метод послідовно змінює розбиття до тих пір, поки критерій оптимізації не перестає змінюватися. У силу цього, якщо на шляху алгоритму зустріти не глобальний максимум критерію, а невелика "гірка", метод може припинити свою роботу, не "дійшовши" до глобально оптимального розбиття. Тому при його використанні дуже важливі початкові умови.

Інша проблема при роботі з даним методом полягає в тому, що досліднику доводиться з якихось міркувань задавати число кластерів.

Таким чином, цей метод кластеризації істотно відрізняється від розглянутого нами вище агломеративного методу ієрархічної кластеризації.

Наведемо приклад використання методу К-середніх в діяльності авторів.

Приклад 13.11

Сегментування клієнтів фітнес-центру

Проведемо сегментування колишніх клієнтів фітнес-центру за відповідями респондентів на запитання про те, якими з надаваних центром послуг вони користувалися. Попередньо для визначення оптимального числа кластерів і знаходження їх центрів була виконана ієрархічна кластеризація. Виявилося, що раціональним числом кластерів є чотири. За результатами попереднього розбиття на чотири кластери були розраховані центри цих кластерів, координати цих центрів були збережені у файлі.

Потім розбиття клієнтів на чотири кластери було уточнено методом К-середніх, в якості початкових умов були взяті центри кластерів, збережені у файл. На рис. 13.23 показано, яким чином в 14-й англомовної та 17-й російськомовній версіях SPSS були вибрані необхідні для кластеризації змінні і зроблені зазначені вище призначення.

На рис. 13.24 показано умови, при досягненні яких ітерації повинні бути припинені. Такими умовами можуть служити або досягнення максимально допустимого числа ітерацій (в даному випадку 100), або той факт, що між черговими ітераціями критерій змінився менше, ніж на задане граничне значення. Одиницями виміру при цьому служать відсотки від мінімальної відстані між початковими центрами кластерів. Якщо значення критерію одно, наприклад, 0,02 ітерації припиняються, коли жоден з центрів кластерів не зрушується в результаті ітерації на відстань, що перевищує 2% від найменшої відстані між центрами будь-яких початкових кластерів. Якщо, як пропонується за замовчуванням, задати порогове значення рівним нулю, ітерації триватимуть до тих пір, поки не виявиться, що чергова ітерація не пересунули з кластера в кластер жодного об'єкту.

Призначення змінних, числа кластерів і початкових центрів розбиття на кластери

Рис. 13.23. Призначення змінних, числа кластерів і початкових центрів розбиття на кластери

Умови припинення ітерацій

Рис. 13.24. Умови припинення ітерацій

Наведене діалогове вікно дозволяє також замовити режим використання ковзних середніх (Use running means). У цьому режимі центри кластерів перераховуються не як звичайно, тобто після того як всі об'єкти в черговий раз розподілені між кластерами, виходячи з близькості до їх центрам, а після кожного "зарахування" об'єкта в той чи інший кластер.

На рис. 13.25 показано, як замовляється збереження у файлі даних про номерах кластерів і про відстані від кожного об'єкта до "свого" центру. Якщо зробити такі призначення, у файлі з'являться два стовпці з відповідною інформацією. Зокрема, за значеннями в другому з цих стовпців можна сказати, наскільки кожен респондент схожий на основну масу представників кластеру.

Нарешті, на рис. 13.26 показано, як замовити видачу в файл звіту даних про те, які первинні центри були нами задані для кластеризації, а також як вивести в файл звіту довідкову таблицю, аналогічну таблицями дисперсійного аналізу. Ця таблиця допомагає простежити, по яких змінним побудовані нами кластери істотно відрізняються один від одного, а за якими - незначно.

Перейдемо до розгляду результатів кластеризації методом К-середніх. Насамперед у файл звіту виводиться таблиця з координатами центрів одержані в підсумку кластерів (табл. 13.7).

Замовлення запису результатів кластеризації у файл з вихідними даними

Рис. 13.25. Замовлення запису результатів кластеризації у файл з вихідними даними

Замовлення видачі в файл звіту даних про початкових умовах для кластеризації і таблиці, аналогічної таблицями дисперсійного аналізу

Рис. 13.26. Замовлення видачі в файл звіту даних про початкових умовах для кластеризації і таблиці, аналогічної таблицями дисперсійного аналізу

Таблиця 13.7. Координати центрів кластерів у просторі вихідних змінних

Відвідували

Номери кластерів

1

2

3

4

Тренажерний зал

1,00

, 86

, 00

1,00

Сауна

, 00

, 95

, 28

1,00

Солярій

, 13

, 44

, 02

, 24

Інфрачервоні кабіни

, 04

, 82

, 02

, 00

Зал аеробіки

, 19

, 66

, 14

, 00

Масажний кабінет

, 06

, 19

, 02

, 16

Оскільки кластерний аналіз в даному випадку виконувався на бінарних (тобто містять тільки нулі і одиниці) змінних, в клітинах таблиці наведені частки представників кластера, які користувалися даною послугою. Ми бачимо, наприклад, що всі без винятку представники першого кластера відвідували тренажерний зал, 19% від їх числа відвідували зал аеробіки, 13% - солярій. Рештою послугами мало хто з них користувався, причому сауну не відвідувала ніхто з представників першого кластера. Таким чином, даному стилю користування послугами клубу природно дати умовну назву: "Тренажерний зал".

Зовсім інший стиль користування у представників четвертого кластера: всі вони відвідували і тренажерний зал, і сауну, а деякі - солярій і масажний кабінет (24 і 16% відповідно). Цей стиль ми назвали "Тренажерний зал і сауна".

Представники другого кластера користуються багатьма різними послугами фітнес-центру. Навіть такими рідко використовуваними, як послуги масажиста, користується майже кожен п'ятий з них (19%). А 15% користуються послугами салону краси, якими в цілому за опитуванням користуються лише 8%, внаслідок чого ця змінна не враховувалася при побудові кластерів. Умовна назва цього стилю - "Різноманітні послуги".

Третій кластер - повна протилежність другому: його представники жодного разу не відвідували тренажерний зал, лише по 2% від їх числа відвідували солярій, інфрачервоні кабіни і масажний кабінет. 14% з них ходили на аеробіку, 28% - в сауну, і це все, що вони робили в клубі, крім відвідування басейну. Оскільки басейн відвідують майже всі відвідувачі клубу (93%), відповідна змінна в кластеризації не брала участь. Проте виявилося, що басейн відвідували 100% представників третього кластера.

Таким чином, за допомогою кластерного аналізу вдалося виявити чотири зовсім різні стилю користування послугами фітнес-клубу. Умовна назва цього стилю - "Басейн"

Наступна таблиця демонструє наповненість кластерів (табл. 13.8).

Таблиця 13.8. Число респондентів у кожному кластері

Кластер 1

48,000

2

73,000

3

43,000

4

50,000

Valid (дійсні)

214,000

Missing (пропущені)

, 000

Ми бачимо, що найбільш численним (73 людини, або 34% від числа всіх опитаних) є другий кластер, програма перебування представників якого в клубі найбільш різноманітна. Найменше ж всього клієнтів (43 чоловіка, або 20%) у складі другого кластера, де мало користуються послугами клубу. Стилі ж "Тільки тренажери" і "Тренажери та сауна" майже однаково поширені: 48 і 50 осіб, 22 і 23% відповідно. Як вже зазначалося, при використанні методу К-середніх можна вивести в файл звіту таблицю, аналогічну результатами дисперсійного аналізу (табл. 13.9).

Таблиця 13.9. Таблиця результатів дисперсійного аналізу (ANOVA)

Відвідували

Cluster

Error

F

Sig.

Mean

Square

df

Mean

Square

df

Тренажерний зал

10,415

3

, 041

210

253,421

, 000

Сауну

12,792

3

, 059

210

216,084

, 000

Солярій

1,842

3

, 159

210

11,610

, 000

Инфра

червоні

кабіни

10,292

3

, 065

210

159,169

, 000

Зал аеробіки

5,180

3

, 138

210

37,621

, 000

Масажний кабінет

, 339

3

, 104

210

3,261

, 022

Дисперсійний аналіз (ANOVA) використовується у випадках, коли вибірка розділена за будь-якою ознакою і потрібно перевірити, чи розрізняються середні значення вихідних змінних при різних значеннях цієї ознаки. Для кожної ознаки за F-критерієм Фішера перевіряється нульова гіпотеза про те, що спостерігаються відмінності середніх значень випадкові, а насправді (у всій досліджуваної сукупності, а не вибірці) вони збігаються, тобто що межкластерная дисперсія незначно відрізняється від внутрікластерной. Відзначимо, однак, що у разі кластерного аналізу така сувора статистична інтерпретація даних таблиці дисперсійного аналізу неможлива, оскільки об'єкти спеціально розкладалися по кластерам так, щоб відмінності стали значущими. Використовувати таблицю можна лише в суто інформаційних цілях: з неї видно, по яким вихідним змінним середні значення розрізняються суттєво, а за якими - ні. Так, ми бачимо, що слабше всього розрізняється між кластерами частка респондентів, які користуються послугами масажного кабінету.

 
Якщо Ви помітили помилку в тексті позначте слово та натисніть Shift + Enter
< Попередня   ЗМІСТ   Наступна >
 
Дисципліни
Агропромисловість
Аудит та Бухоблік
Банківська справа
БЖД
Географія
Документознавство
Екологія
Економіка
Етика та Естетика
Журналістика
Інвестування
Інформатика
Історія
Культурологія
Література
Логіка
Логістика
Маркетинг
Медицина
Нерухомість
Менеджмент
Педагогіка
Політологія
Політекономія
Право
Природознавство
Психологія
Релігієзнавство
Риторика
Соціологія
Статистика
Техніка
Страхова справа
Товарознавство
Туризм
Філософія
Фінанси
Пошук