Задача классификации 4


Классификатором называется некая сущность, определяющая, какому из предопределенных классов принадлежит объект по вектору признаков.

Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации. Таким описанием в нашем случае выступает база данных. Каждый объект (запись базы данных) несет информацию о некотором свойстве объекта.

Набор исходных данных (или выборку данных) разбивают на два множества: обучающее и тестовое.

Обучающее множество (training set) - множество, которое включает данные, использующиеся для обучения (конструирования) модели.

Такое множество содержит входные и выходные (целевые) значения примеров. Выходные значения предназначены для обучения модели.

Тестовое (test set) множество также содержит входные и выходные значения примеров.

Здесь выходные значения используются для проверки работоспособности модели.

Процесс классификации состоит из двух этапов [21]: конструирования модели и ее использования.

                Конструирование модели: описание множества предопределенных классов.

                Каждый пример набора данных относится к одному предопределенному классу.

                На этом этапе используется обучающее множество, на нем происходит конструирование модели.

                Полученная модель представлена классификационными правилами, деревом решений или математической формулой.

                Использование модели: классификация новых или неизвестных значений.

                Оценка правильности (точности) модели.

                Известные значения из тестового примера сравниваются с результатами использования полученной модели.

                Уровень точности -процент правильно классифицированных примеров в тестовом множестве.

                Тестовое множество, т.е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества.

 Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.





Содержание раздела