Определение алгоритмов предварительной обработки каждой переменной 3


Как правило, АНС позволяет обрабатывать наборы входных данных с некоторым количеством пропущенных параметров. Как отмечалось в предыдущем разделе, это является одним из важных преимуществ алгоритма. Таким образом, отсутствие нескольких значений во входных наборах не означает, что эти наборы должны быть удалены. Но если количество пропущенных данных в определенных наборах значительно, скажем, более 50%, то соответствующие векторы целесообразно исключить в процессе модификации данных.

Преобразование данных может быть использовано применительно к любой переменной с целью оценки ее значимости или влияния на окончательный результат.

Наиболее распространенными видами преобразования являются логарифмическое и сигмоидное. В ходе преобразования первого типа производится сжатие масштаба высоких значений переменных, последнее же принимает во внимание выбросы. Как правило, компьютерные программы, реализующие алгоритм АНС, предлагают установленные по умолчанию значения параметров преобразования, обеспечивающие достаточно правдоподобный выбор градиентов и смещения.

В процессе преобразования данных изменяются характеристики распределения данных. Внутреннее представление данных переопределяется переменной с помощью выбранной функции. Поскольку при этом изменяются расстояния между записями, данная процедура оказывает влияние на внутренние отношения соседства во множестве данных. Поэтому пользоваться этим средством следует с осторожностью.

Преобразование данных может также применяться для выравнивания гистограмм. Предположим, что записи конкретной переменной сконцентрированы, главным образом, в левой части ее гистограммы, и меньшее число записей имеет большие значения. В этом случае можно начать формирование АНС с более равномерного распределения плотности данных. Применение логарифмического преобразования ведет к большему выравниванию распределения, поскольку логарифмическая функция обладает высоким разрешением в области малых значений на гистограмме. За счет этого меньшие значения будут оказывать большее влияние на кластеризацию данных.

Напротив, сигмоидная функция создает более сбалансированное распределение путем растяжения центра гистограммы и сдвига ее концов. Преобразования с помощью сигмоидной функции позволяют обрабатывать резкие выбросы в исходных данных, не исключая их из рассмотрения.