Иерархический кластерный анализ с предварительным факторным анализом



20.2.3 Иерархический кластерный анализ с предварительным факторным анализом

Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:

Переменная

Значение

land

Страна

sb

Процент городского населения

lem

Средняя продолжительность жизни мужчин

lew

ks

Детская смертность на 1000 новорожденных

so

Количество часов ясной погоды в году

nt

Количество дней пасмурной погоды в году

tjan

Средняя дневная температура в январе

tjul

Средняя дневная температура в июле



Эти данные вы увидите, если откроете файл europa.sav. Переменная land является текстовой переменной, предназначенной для обозначения страны.

Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных (от непосредственного указания стран мы здесь воздержимся) становится заметным, что данные, содержащиеся в файле связаны исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки. Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.

Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который вы можете провести, выбрав в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)

Если Вы проведёте факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem. lew, ks и sb, а во второй фактор - переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причём высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают тёплый и сухой климат. Вместе с тем, Вы наверняка заметили, что в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Вы можете рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами fac1_1 и fac2_1. Чтобы Вам не пришлось самостоятельно проводить факторный анализ на этом этапе, указанные переменные уже включены в файл europa.sav. Вы можете видеть, к примеру, что высокой продолжительностью жизни обладают северные страны (высокие значения переменной fac1_1) или южные страны с тёплым и сухим климатом (высокие значения переменной fac2_1). Факторные значения можно вывести с помощью меню Analyze (Анализ) Reports (Отчёты) Case Summaries... (Итоги по наблюдениям)

Они выглядят следующим образом:

Case Summaries a (Итоги по наблюдениям)

LAND (Страна)

Lebenserwartung (Ожидаемая продолжительность жизни)

Klima (Климат)

1

ALBA

-1,78349

,57155

2

BELG

,55235

-,57937

3

BULG

-,43016

-,13263

4

DAEN

,97206

-,23453

5

DDR

,26961

-,3351 1

6

DEUT

,19121

-,44413

7

FINN

-,30226

-1,28467

8

FRAN

1,05511

1,04870

9

GRIE

,12794

2,65654

10

GROS

,75443

-,05221

11

IRLA

,16370

-,66514

12

ISLA

1,75315

-,97421

13

ITAL

,40984

1,68933

14

JUGO

-2,63161

-,44127

15

LUXE

-.16469

-,98618

16

NIED

1,31001

-,29362

17

NORW

,96317

-,46987

18

OEST

-,20396

-,31971

19

POLE

-,65937

-,92081

20

PORT

-1,10510

1,59478

21

RUMA

-1,32450

,09481

22

SCHD

1,22645

-,20543

23

SCHZ

, 56289

-,45454

24

SOWJ

-,67091

-1,32517

25

SPAN

, 83627

1,91193

26

TSCH

-,59407

-,40632

27

TUER

-,52049

1,04424

28

UNGA

-,75761

-,08695

Total N

28

28

28

a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями).

Распределим эти 28 стран по кластерам при помощи двух факторов: ожидаемая продолжительность жизни и климат.

  • Выберите в меню Analyze (Анализ) Classify (Классифицировать) Hierarchical Cluster... (Иерархический кластерный анализ)

  • Переменные fac1_1 и fac2_1 поместите в поле тестируемых переменных, а переменную land (страна) — в поле с именем Label cases by: (Наименование (маркировка) наблюдений).

  • После прохождения выключателя Statistics... (Статистики), наряду с таблицей порядка агломерации сделайте запрос на вывод информации о принадлежности к кластеру для наблюдений. Активируйте Range of solutions: (Область решений) и введите граничные значения 2 и 5.

  • Для сохранения информации о принадлежности отдельных наблюдений к кластеру в виде дополнительных переменных, воспользуйтесь выключателем Save... (Сохранить). В соответствии с установками, произведенными в диалоговом окне статистики, активируйте и здесь Range of solutions: (Область решений) и введите граничные значения 2 и 5.

  • Деактивируйте вывод дендрограмм. Так как переменные, используемые в данном кластерном анализе, являются факторными значениями с одинаковыми областями допустимых значений, то стандартизация (z-преобразование) значений является излишней.

Agglomeration Schedule

(Порядок агломерации)

Stage (Шаг)

Cluster Combined (Объединение в кластеры)

Coefficients (Коэф-фициенты)

Stage Cluster First Appears (Шаг, на котором кластер появляется впервые)

Next Stage (Следу-ющий шаг)

Cluster 1 (Кластер 1)

Cluster 2 (Кластер 2)

Cluster 1 (Кластер 1)

Cluster 2 (Кластер 2)

1

16

22

1,476

0

0

8

2

2

23

1,569

0

0

10

3

5

6

1,803

0

0

5

4

4

17

5,546

0

0

8

5

5

11

8,487

3

0

10

6

3

18

8,617

0

0

12

7

7

15

,108

0

0

15

8

4

16

,118

4

1

13

9

26

28

,129

0

0

12

10

2

5

,148

2

5

18

11

19

24

,164

0

0

15

12

3

26

,183

6

9

20

13

4

10

,228

8

0

18

14

13

25

,231

0

0

19

15

7

19

,254

7

11

20

16

1

21

,438

0

0

22

17

20

27

,645

0

0

22

18

2

4

,648

10

13

21

19

8

13

,810

0

14

23

20

3

7

,939

12

15

24

21

2

12

1,665

18

0

24

22

1

20

1,793

16

17

25

23

8

9

1,839

19

0

27

24

2

3

2,229

21

20

26

25

1

14

4,220

22

0

26

26

1

2

5,925

25

24

27

27

1

8

6,957

26

23

0

Сначала приводятся самые важные результаты. В таблице порядка агломерации Вы можете проследить последовательность образования кластеров; объяснения по этому поводу приводились в разделе 20.1. Скачкообразное изменение коэффициентов наблюдается при значениях 2,229 и 4,220; это означает, что после образования четырёх кластеров больше не должно происходит ни каких объединений и решение с четырьмя кластерами является оптимальным.

Принадлежность наблюдений к кластерам можно взять из нижеследующей таблицы, которая содержит также и информацию о принадлежности к кластерам для других вариантов решения (пять, три и два кластера).

Если Вы посмотрите на четырёхкластернное решение на нижеследующей таблице, то заметите, к примеру, что к третьему кластеру относятся следующие страны: Франция, Греция, Италия и Испания. Это страны с высокой продолжительностью жизни и тёплым климатом и поэтому не зря они являются предпочтительными для отдыха.

Cluster Membership (Принадлежность к кластеру)

Case (Случай)

5 Clusters (5 кластеров)

4 Clusters (4 кластера)

3 Clusters (3 кластера)

2 Clusters (2 кластера)

1:ALBA

1

1

1

1

2:BELG

2

2

2

1

3:BULG

3

2

2

1

4:DAEN 5:DEUT

2

2

2

1

6:DDR

2

2

2

1

7:FINN

3

2

-3

2

8:FRAN

4

3

-3

2

9:GRIE

4

2

2

1

10:iGROS

2

2

1

11:IRLA

2

2

2

1

12:ISLA

2

3

о

2

13:ITAL

4

4

1

1

14:JUGO

5

2

2

1

1 5:LUXE

3

2

2

1

16:NIED

2

2

1

17:NORW

2

2

2

1

18:OEST

3

2

2

1

19:POLE

3

2

1

1

1

20:PORT

1

1

1

1

21:RUMA

1

2

1

22:SCHD 23:SCHZ

2

2

2

1

24:SOWJ

3

1

i

2

!25:SPAN

4

1

26:TSCH

3

1

1

1

27:TUER 28:UNGA

1

2

1

1






Содержание раздела