Иерархический кластерный анализ с предварительным факторным анализом

20.2.3 Иерархический кластерный анализ с предварительным факторным анализом

Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:

Переменная	Значение
land	Страна
sb	Процент городского населения
lem	Средняя продолжительность жизни мужчин
lew
ks	Детская смертность на 1000 новорожденных
so	Количество часов ясной погоды в году
nt	Количество дней пасмурной погоды в году
tjan	Средняя дневная температура в январе
tjul	Средняя дневная температура в июле

Эти данные вы увидите, если откроете файл europa.sav. Переменная land является текстовой переменной, предназначенной для обозначения страны.

Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных (от непосредственного указания стран мы здесь воздержимся) становится заметным, что данные, содержащиеся в файле связаны исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки. Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.

Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который вы можете провести, выбрав в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)

Если Вы проведёте факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem. lew, ks и sb, а во второй фактор - переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причём высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают тёплый и сухой климат. Вместе с тем, Вы наверняка заметили, что в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Вы можете рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами fac1_1 и fac2_1. Чтобы Вам не пришлось самостоятельно проводить факторный анализ на этом этапе, указанные переменные уже включены в файл europa.sav. Вы можете видеть, к примеру, что высокой продолжительностью жизни обладают северные страны (высокие значения переменной fac1_1) или южные страны с тёплым и сухим климатом (высокие значения переменной fac2_1). Факторные значения можно вывести с помощью меню Analyze (Анализ) Reports (Отчёты) Case Summaries... (Итоги по наблюдениям)

Они выглядят следующим образом:

Case Summaries a (Итоги по наблюдениям)

	LAND (Страна)	Lebenserwartung (Ожидаемая продолжительность жизни)	Klima (Климат)
1	ALBA	-1,78349	,57155
2	BELG	,55235	-,57937
3	BULG	-,43016	-,13263
4	DAEN	,97206	-,23453
5	DDR	,26961	-,3351 1
6	DEUT	,19121	-,44413
7	FINN	-,30226	-1,28467
8	FRAN	1,05511	1,04870
9	GRIE	,12794	2,65654
10	GROS	,75443	-,05221
11	IRLA	,16370	-,66514
12	ISLA	1,75315	-,97421
13	ITAL	,40984	1,68933
14	JUGO	-2,63161	-,44127
15	LUXE	-.16469	-,98618
16	NIED	1,31001	-,29362
17	NORW	,96317	-,46987
18	OEST	-,20396	-,31971
19	POLE	-,65937	-,92081
20	PORT	-1,10510	1,59478
21	RUMA	-1,32450	,09481
22	SCHD	1,22645	-,20543
23	SCHZ	, 56289	-,45454
24	SOWJ	-,67091	-1,32517
25	SPAN	, 83627	1,91193
26	TSCH	-,59407	-,40632
27	TUER	-,52049	1,04424
28	UNGA	-,75761	-,08695
Total N	28	28	28

a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями).

Распределим эти 28 стран по кластерам при помощи двух факторов: ожидаемая продолжительность жизни и климат.

Выберите в меню Analyze (Анализ) Classify (Классифицировать) Hierarchical Cluster... (Иерархический кластерный анализ)
Переменные fac1_1 и fac2_1 поместите в поле тестируемых переменных, а переменную land (страна) — в поле с именем Label cases by: (Наименование (маркировка) наблюдений).
После прохождения выключателя Statistics... (Статистики), наряду с таблицей порядка агломерации сделайте запрос на вывод информации о принадлежности к кластеру для наблюдений. Активируйте Range of solutions: (Область решений) и введите граничные значения 2 и 5.
Для сохранения информации о принадлежности отдельных наблюдений к кластеру в виде дополнительных переменных, воспользуйтесь выключателем Save... (Сохранить). В соответствии с установками, произведенными в диалоговом окне статистики, активируйте и здесь Range of solutions: (Область решений) и введите граничные значения 2 и 5.
Деактивируйте вывод дендрограмм. Так как переменные, используемые в данном кластерном анализе, являются факторными значениями с одинаковыми областями допустимых значений, то стандартизация (z-преобразование) значений является излишней.

Agglomeration Schedule

(Порядок агломерации)
Stage (Шаг)	Cluster Combined (Объединение в кластеры)		Coefficients (Коэф-фициенты)	Stage Cluster First Appears (Шаг, на котором кластер появляется впервые)		Next Stage (Следу-ющий шаг)
Stage (Шаг)	Cluster 1 (Кластер 1)	Cluster 2 (Кластер 2)	Coefficients (Коэф-фициенты)	Cluster 1 (Кластер 1)	Cluster 2 (Кластер 2)	Next Stage (Следу-ющий шаг)
1	16	22	1,476	0	0	8
2	2	23	1,569	0	0	10
3	5	6	1,803	0	0	5
4	4	17	5,546	0	0	8
5	5	11	8,487	3	0	10
6	3	18	8,617	0	0	12
7	7	15	,108	0	0	15
8	4	16	,118	4	1	13
9	26	28	,129	0	0	12
10	2	5	,148	2	5	18
11	19	24	,164	0	0	15
12	3	26	,183	6	9	20
13	4	10	,228	8	0	18
14	13	25	,231	0	0	19
15	7	19	,254	7	11	20
16	1	21	,438	0	0	22
17	20	27	,645	0	0	22
18	2	4	,648	10	13	21
19	8	13	,810	0	14	23
20	3	7	,939	12	15	24
21	2	12	1,665	18	0	24
22	1	20	1,793	16	17	25
23	8	9	1,839	19	0	27
24	2	3	2,229	21	20	26
25	1	14	4,220	22	0	26
26	1	2	5,925	25	24	27
27	1	8	6,957	26	23	0

Сначала приводятся самые важные результаты. В таблице порядка агломерации Вы можете проследить последовательность образования кластеров; объяснения по этому поводу приводились в разделе 20.1. Скачкообразное изменение коэффициентов наблюдается при значениях 2,229 и 4,220; это означает, что после образования четырёх кластеров больше не должно происходит ни каких объединений и решение с четырьмя кластерами является оптимальным.

Принадлежность наблюдений к кластерам можно взять из нижеследующей таблицы, которая содержит также и информацию о принадлежности к кластерам для других вариантов решения (пять, три и два кластера).

Если Вы посмотрите на четырёхкластернное решение на нижеследующей таблице, то заметите, к примеру, что к третьему кластеру относятся следующие страны: Франция, Греция, Италия и Испания. Это страны с высокой продолжительностью жизни и тёплым климатом и поэтому не зря они являются предпочтительными для отдыха.

Cluster Membership (Принадлежность к кластеру)

Case (Случай)	5 Clusters (5 кластеров)	4 Clusters (4 кластера)	3 Clusters (3 кластера)	2 Clusters (2 кластера)
1:ALBA	1	1	1	1
2:BELG	2	2	2	1
3:BULG	3	2	2	1
4:DAEN 5:DEUT	2	2	2	1
6:DDR	2	2	2	1
7:FINN	3	2	-3	2
8:FRAN	4	3	-3	2
9:GRIE	4	2	2	1
10:iGROS	2		2	1
11:IRLA	2	2	2	1
12:ISLA	2	3	о	2
13:ITAL	4	4	1	1
14:JUGO	5	2	2	1
1 5:LUXE	3	2	2	1
16:NIED	2		2	1
17:NORW	2	2	2	1
18:OEST	3	2	2	1
19:POLE	3	2 1	1	1
20:PORT	1	1	1	1
21:RUMA	1	2		1
22:SCHD 23:SCHZ	2	2	2	1
24:SOWJ	3	1	i	2
!25:SPAN	4	1
26:TSCH	3	1	1	1
27:TUER 28:UNGA	1	2	1	1