Пример из области биологии



18.3 Пример из области биологии

Дискриминантный анализ очень часто применяется для обработки данных из области биологии. В следующем типичном примере для некоторого количества индивидуумов принадлежность к группе уже известна, на основании чего и строится дискриминантная функция. Далее она используется для того, чтобы оценить принадлежность к определенной группе тех индивидуумов, для которых она ещё не известна.

В файле vogel.sav хранятся данные о половой принадлежности, длине крыла, длине клюва, размере головы, длине лап и весе 245 птиц определённого вида. Причём пол смогли определить только для 51 особи. Кодировка пола соответствует 1 = мужской и 2 = женский; отсутствие данных кодируется 9.

Если для перечисленных параметров Вы рассчитаете средние значения для самцов и самок, то для самок получите более высокие показатели. Исходя из этого, при помощи дискриминантного анализа можно попытаться определить пол тех особей, для которых этого нельзя было сделать ранее.

  • Откройте файл vogel.sav.

  • В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменной geschl (Пол) присвойте статус групповой переменной с пределами от 1 до 2, а переменным fluegel (Длина крыла), schnl (Длина клюва), kopfl (Размер головы), fuss (Длина лап) и gew (Вес) — статус независимых переменных. Выберите пошаговый метод.

  • В диалоговом окне Discriminant Analysis: Classify (Дискриминантный анализ: Классифицировать) активируйте Casewise results (Результаты для отдельных наблюдений) с ограничением в 40 наблюдений и Summary table (Сводная таблица).

  • Через выключатель Save... (Сохранить) при помощи активирования опций Predicted group membership (Прогнозируемая принадлежности к группе) и Probabilities of group membership (Вероятности принадлежности к группе) затребуйте генерирование соответствующих переменных.

Из всех результатов, приводимых в окне просмотра, в книге рассматриваются только статистики для каждого наблюдения. По классификационной таблице видно, что для 51 наблюдения с заранее известным полом 44 раза, т.е. в 86,3 % наблюдений, пол был спрогнозирован верно (см. следующую таблицу).

Если мы рассмотрим наблюдение 8, то здесь пол известен — женский и в результате прогноза получается женский пол, а вот для наблюдения 30 пол известен как мужской, но прогнозируется как женский. Наблюдения с нераспознанным полом приводятся в таблице как "ungrouped" (не группированные).

Для наблюдения 1, для которого пол оказался неизвестным, он прогнозируется как женский. Значение вероятности прогнозирования, 0,990, указывается в колонке "P(G=g | D=d)" под заголовком "Highest Group" (Старшая группа). Менее достоверным является прогноз пола для наблюдения 10, здесь вероятность прогнозирования составляет только 0,721.

Casewise Statistics

(Статистики для наблюдений)

Case Number (Номер случая)

Actual Group (Факти-ческая группа)

Highest Group (Старшая группа)



Second Highest Group (Вторая по старшинству группа)

Discri-minant Scores (Значе-ния диск-рими- нантной фун-кции)

Predicted Group (Прог-нози- руемая группа)

P(D>d |

e=g)

P(G=9 I D=d)

Squared Ma-hala-nobis Distance to Cent-raid (Квадрат рас-стояния Маха-ланобиса до цент-роида)

Group (Груп-па)

P(G=g |D=d)

Squared Ма-halanobis Distance to Centraid (Квадрат рас-стояния Маха-ланобиса до центро-ида)

Fun-ction 1 (Фун-кция 1 )

P

df

Original (Пер- вона- чаль -но)

1

ungrouped (не груп-пирова-нный)

2

,222

1

,990

1,489

1

,010

10,679

2,304

2

ungrouped (не груп-пирова-нный)

2

,063

1

,997

3,453

1

,003

15,254

2,942

3

ungrouped (не груп-пирова-нный)

2

,064

1

,997

3,433

1

,003

15,213

2,937

4

ungrouped (не груп-пирова-нный)

2

,245

1

,989

1,353

1

,011

10,307

2,247

5

ungrouped (не груп-пирова-нный)

2

,126

1

,995

2,338

1

,005

12,792

2,613

6

ungrouped (не груп-пирова-нный)

2

,319

1

,984

,995

1

,016

9,271

2,081

7

ungrouped (не груп-пирова-нный)

2

,485

1

,971

,489

1

,029

7,543

1,783

8

2

2

,102

1

,996

2,673

1

,004

13,561

2,719

9

ungrouped (не груп-пирова-нный)

2

,387

1

,980

,748

1

,020

8,482

1,949

10

ungrouped (не группирова-нный)

2

,576

1

,721

,313

1

,279

2,213

,524

11

ungrouped (не груп-пирова-нный)

2

,651

1

,954

,205

1

,046

6,248

1,536

12

ungrouped (не груп-пирова-нный)

2

,140

1

,994

2,177

1

,006

12,411

2,559

13

ungrouped (не груп-пирова-нный)

2

,435

1

,976

,609

1

,024

7,995

1,864

14

ungrouped (не группиро-ванный)

2

,471

1

,973

,519

1

,027

7,662

1,804

15

ungrouped (не группиро-ванный)

2

,764

1

,938

,090

1

,062

5,510

1,384

16

ungrouped (не группиро-ванный)

2

,481

1

,972

,497

1

,028

7,576

1,789

17

ungrouped (не груп-пирова-нный)

2

,172

1

,993

1,868

1

,007

11,658

2,451

18

2

2

,399

1

,979

,712

1

,021

8,359

1,928

19

ungrouped (не груп-пирова-нный)

2

,705

1

,946

,143

1

,054

5,884

1,462

20

2

2

,969

1

,898

,002

1

,102

4,355

1,123

21

2

2

,249

1

,989

1,328

1

,011

10,238

_ 2,236

22

ungrouped (не груп-пиров-анный)

2

,121

1

,995

2,407

1

,005

12,953

2,636

23

2

2

,071

1

,997

3,263

1

,003

14,853

2,890

24

ungrouped (не груп-пирова-нный)

2

,367

1

,981

,815

1

,019

8,704

1,987

25

ungrouped (не груп-пиров-анный)

2

,880

1

,857

,023

1

,143

3,598

,933

26

ungrouped (не груп-пирова-нный)

2

,537

1

,966

,382

1

,034

7,103

1,702

27

ungrouped (не группиро-ванный)

1

,640

1

,955

,218

2

,045

6,323

-1,431

28

2

2

,744

1

,806

,107

1

,194

2,960

,757

29

ungrouped (не груп-пирова-нный)

2

,969

1

,883

,001

1

,117

4,035

1,045

30

1

2"

,625

1

,749

,239

1

,251

2,428

,595

31

ungrouped (не груп-пирова-нный)

2

,646

1

,760

,211

1

,240

2,521

,624

32

2

2

,173

1

,993

1,860

1

,007

11,636

2,448

33

1

2"

,504

1

,970

,447

1

,030

7,378

1,753

34

ungrouped (не груп-пирова-нный)

2

,544

1

,966

,368

1

,034

7,046

1,691

35

ungrouped (не груп-пирова-нный)

2

,618

1

,958

,248

1

,042

6,480

1,582

36

ungrouped (не груп-пирова-нный)

2

,727

1

,943

,122

1

,057

5,744

1,433

37

2

2

,458

1

,974

,551

1

,026

7,781

1,826

38

2

2

,362

1

,981

,829

1

,019

8,750

1,995

39

2

2

,814

1

,929

,055

1

,071

5,211

1,319

40

ungrouped (не груп-пирова-нный)

2

,812

1

,930

,057

1

,070

5,222

1,322

** Misclassified case (** - Неверно классифицированный случай)

Для того, чтобы хотя бы частично сократить количество ошибочных значений для переменной пола, при анализе вы можете применять прогнозируемую групповую принадлежность только в тех случаях, для которых вероятность прогнозирования принимает некоторое минимально допустимое значение, к примеру, 0,9.

IF (dis_1 = 1 and disl_1 >= 0,9)

geschl=1

. IF (dis_1 = 2 and dis2_1 >= 0,9)

geschl=2.

EXECUTE.

Таким образом, в используемом примере можно присвоить половой показатель ещё 90-а птицам. Если вы снизите минимально допустимое значение вероятности прогнозирования, то это число станет ещё больше.

К файлу были добавлены три новые переменные:

dis_1: Прогнозируемая группа

disl_1: Вероятность принадлежности к группе 1

dis2_1: Вероятность принадлежности к группе 2.






Содержание раздела