Моменты распределения





Центральное значение, или расположение распределения, — первое, что надо знать о группе данных. Следующая величина, которая представляет интерес, — это изменчивость данных, или «ширина» относительно центрального значения.
Мы назовем значение центральной тенденции первым моментом распределения.
Изменчивость точек данных относительно центральной тенденции называется вторым моментом распределения. Следовательно, второй момент измеряет разброс распределения относительно первого момента.
Как и в случае с центральной тенденцией, существует много способов измерения разброса. Далее мы рассмотрим семь из них, начиная с наименее распространенных вариантов и заканчивая самыми распространенными.
Широта (range) распределения — это просто разность между самым высоким и самым низким значением распределения. Таким же образом широта перцентиля 10-90 является разностью между 90-й и 10-й точками. Эти первые две величины измеряют разброс по крайним точкам. Остальные пять измеряют отклонение от центральной тенденции (т.е. измеряют половину разброса).
Семи-интерквартильная широта (sem-interquartile range), или квартальное отклонение (quartile deviation), равна половине расстояния между первым и третьим квартилями (25-й и 75-й перцентили). В отличие от широты перцентиля 10-90, здесь широта делится на два.
Полуширина (half-width) является наиболее распространенным способом измерения разброса. Сначала надо найти высоту распределения в его пике (моде), затем найти точку в середине высоты и провести через нее горизонтальную линию перпендикулярно вертикальной линии. Горизонтальная линия пересечет кривую распределения в одной точке слева и в одной точке справа. Расстояние между этими двумя точками называется полушириной.
Среднее абсолютное отклонение (mean absolute deviation), или просто среднее отклонение, является средним арифметическим абсолютных значений разности значения каждой точки и среднего арифметического значений всех точек. Другими словами (что и следует из названия), это среднее расстояние, на которое значение точки данных удалено от среднего. В математических терминах:



где М = среднее абсолютное отклонение;
N = общее число точек данных;
X. = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных;
ABS() = функция абсолютного значения.


Содержание раздела