Данные файла bier.sav в редакторе данных
Переменная herkunft (производитель) указывает на страну-производителя пива, где США закодированы с помощью единицы. Расходы (kosten) приведены в долларах США для ёмкости равной 12 унциям для жидкости (примерно одна треть литра); калорийность указана для одинакового количества пива. Содержание алкоголя приводится в процентах.
Возьмём переменные kalorien (калории) и kosten (расходы) и представим их при помощи простой диаграммы рассеяния.
-
Выберите в меню Graphs (Графики) Scalier... (Диаграмма рассеяния)
-
Переменную kalorien (калории) поместите в поле оси х, а переменную kosten (расходы) в поле оси у, и для обозначения наблюдения используйте переменную bier (пиво).
-
Через кнопку Options... (Опции) активируйте опцию Display Chart with case labels (Показывать график с метками наблюдений).
Вы получите диаграмму рассеяния, представленную на рисунке 20.2.
Вы увидите четыре отдельных отчётливых группировки точек, три из них в нижней половине диаграммы и одну в верхнем правом углу. Следовательно, переменные kalorien (калории) и kosten (расходы), явно распадаются на четыре различных кластера по сортам пива.
Сорта пива, которые по значениям двух рассмотренных переменных похожи друг на друга, принадлежат к одному кластеру; сорта пива, находящиеся в различных кластерах, не похожи друг на друга. Решающим критерием для определения схожести и различия двух сортов пива является расстояние между точками на диаграмме рассеяния, соответствующими этим сортам.
Самой распространенной мерой для определения расстояния между двумя точками на плоскости, образованной координатными осями х и у, является евклидова мера: