Определение алгоритмов предварительной обработки каждой переменной 2


Нормирование на основе привязки к другим переменным (linking) означает, что, если две компоненты измеряются в одних и тех же единицах, например, в рублях, и обе имеют один и тот же диапазон изменения, их может быть удобно нормировать с помощью одного фактора.

При автоматическом нормировании, как правило, компонента нормируется по стандартному отклонению, если диапазон ее изменения не превышает восьми стандартных отклонений. В противном случае нормирование производится по диапазону ее изменения. Число «8» выбрано, исходя из эвристических соображений, поскольку, как показывает практика, это приводит к более или менее естественному нормированию. В большинстве случаев лучше позволить компьютерной программе произвести нормирование переменных в соответствии с параметрами, предлагаемыми по умолчанию.

Присвоение переменной более или менее высокого приоритета имеет тот же эффект, что и явное изменение нормировки. Вводя приоритеты переменных, исследователь производит взвешивание переменных в процессе формирования плоскости выходных параметров. Например, если при сравнительной оценке эффективности работы предприятий показатель оборачиваемости активов считается менее важным, этой переменной может быть присвоен более низкий приоритет.

Приоритет переменной придает ей дополнительный вес путем умножения данного фактора на его внутренний масштаб. Если установленный приоритет превышает единицу, внутреннее представление соответствующей переменной будетохватывать более широкий диапазон, в результате чего кластеры, расположенные вдоль соответствующей оси, станут более протяженными. Напротив, если установленный приоритет не превышает единицы, соответствующая компонента будет сжата, и ее влияние на результирующую картину снизится. В частности, если фактору приоритета присвоено очень малое значение, например от 0 до 0,1, то влияние соответствующей компоненты становится абсолютно несущественным.

Этот эффект можно использовать при связывании того или иного параметра с остальными данными в целях устранения его влияния на процесс упорядочивания выходных параметров. Например, если при анализе прибыльности предприятий желательно, чтобы решающую роль в визуальном представлении играли затраты на персонал, можно определить приоритет соответствующего параметра большим единицы. Аналогично, если параметр краткосрочной задолженности не должен иметь большого значения, необходимо установить для него более низкий приоритет. Очевидно, что распределение приоритетов может приводить к значительным изменениям вида результирующих структур на плоскости выходных параметров.

Выбирая диапазон изменения переменной по гистограмме и устанавливая величину коэффициента увеличения, можно добавлять либо удалять записи в той или иной области пространства данных. Этот процесс обычно называется модификацией данных. Выбор диапазона увеличения является очень тонкой процедурой, поэтому использовать ее следует с большой осторожностью. Менее критичным является подавление части данных, которое может оказаться полезным при исключении выбросов или выборе диапазона для построения гистограмм. Если исследователя интересуют конкретные участки диапазона изменения данных, увеличение данных участков может послужить эффективным средством для того, чтобы сосредоточить процесс создания плоскости выходных параметров в соответствующей области. Любая модификация множества данных отражается на гистограмме не только выбранной, но и других компонент, поскольку при этом происходит добавление или удаление не только отдельных компонент, но записей данных в целом.