Диалоговое окно K-Means Cluster Analysis (Анализ кластерных центров)
-
Переменные от fac1_1 до fac4_1 поместите в поле тестируемых переменных. Теперь Вы подошли к тому месту, где нужно указывать количество кластеров. Подходящим вариантом было бы сперва провести иерархический кластерный анализ для произвольно выбранных наблюдений и получившееся количество кластеров принять за оптимальное. Вы, конечно же, можете провести и несколько опытных, пробных расчётов с различным количеством кластеров и после этого определиться с подходящим вариантом решения.
-
Мы остановимся на четырёх кластерах; введите это значение в поле Number of Clusters (Количество кластеров).
-
Через выключатель Iterate... (Итерации) укажите число итераций равное 99; установленное по умолчанию количество итераций равное 10, оказалось бы недостаточным.
-
Щёлкните по выключателю Save... (Сохранить), чтобы при помощи дополнительных переменных зафиксировать принадлежность наблюдений к кластеру.
-
Щёлкните на ОК, чтобы начать расчёт.
Сначала приводятся первичные кластерные центры и обобщённые данные итерационного процесса (30 итераций); затем выводятся окончательные кластерные центры и информация о количестве наблюдений.
Final Cluster Centers
(Кластерные центры окончательного решения) | ||||
|
Cluster (Кластер) | |||
1 |
2 |
3 |
4 | |
Приложение |
-,15219 |
-,62362 |
-,23459 |
1,16856 |
Программирование |
-2,91321 |
,232223 |
,23371 |
,05918 |
Использование Интернет |
-1,71057 |
,7232 |
-.02994 |
,25268 |
Игры |
,04717 |
,51053 |
-1,51014 |
,26081 |
При оценке кластерных центров следует в первую очередь обратить внимание на то, что здесь речь идёт о средних значениях факторов, которые находятся в пределах примерно от -3 до +3. К тому же, надо помнить, что в соответствии с кодировкой ответов (1 = отлично, 5 = абсолютно не использую) большое отрицательное значение фактора означает его большую степень его проявления, то есть сигнализирует о высокой компетентности, и наоборот, большое положительное значение фактора подразумевает низкую степень его проявления.
Если учесть всё вышесказанное, то наши четыре кластера можно интерпретировать следующим образом:
Кластер1: Программисты, Интернет-эксперты
Кластер2: Пользователи стандартного программного обеспечения
КластерЗ: Игроки
Кластер4: Начинающие пользователи
В заключение выводятся показатели количества наблюдений, относящихся к каждому из кластеров. Группа пользователей (кластер 2) наиболее многочисленна.
Number of Cases in each Cluster
(Количество наблюдений в каждом кластере) | ||
Cluster (Кластер) |
1 |
63,000 |
2 |
488,000 | |
3 |
221,000 | |
4 |
313,000 | |
Valid (Действительные) |
|
1085,000 |
Missing (Отсутствующие) |
,000 |
К исходному файлу была добавлена переменная qc1_1, отражающая принадлежность к определённому кластеру. Эту переменную можно использовать для обнаружения возможных связей между кластерной принадлежностью и полом, возрастом, профессией и происхождением (западные земли Германии, восточные земли Германии, зарубежные страны).
Наряду с количеством кластеров можно так же, как было упомянуто в начале главы, задать и первичные кластерные центры. Для этого их необходимо определённым образом ввести в файл данных SPSS. Изучим процесс создания такого файла на рассмотренном примере,
-
После щёлка в диалоговом окне K-Means Cluster Analysis (Кластерный анализ методом k-средних) по выключателю Centers» (Центры), диалоговое окно примет расширенный вид (см. рис. 20.5).
-
Активируйте Read initial from (Читать первичные значения из) и щёлкните на выключателе File... (Файл). Откроется диалоговое окно K-Means Cluster Analysis: Read initial from (Кластерный анализ методом К-средних: Читать первичные значения из).
-
Откройте файл zentren.sav.
Файл содержит
-
количественную переменную с именем cluster_
-
одну строку для каждого кластера
-
первичные значения для каждой кластерной переменной.
То, как выглядит этот файл в редакторе данных, Вы можете увидеть на рисунке 20.6. Аналогично тому, как Вы смогли считать из файла первичные кластерные центры, при помощи выключателя Write final as (Сохранить окончательные результаты как), Вы можете сохранить окончательные кластерные центры в отдельном файле для дальнейших расчётов.