Ввод и «разглядывание» эталонов и образов

Устройства ввода информации — эталонов, входных векторов, исходных ситуаций — имеют для нейросети определяющее значение. С их помощью формируются и поддерживаются возбуждения входного слоя. Однако связь модели живого организма с внешней средой сложнее. Это настоящий конгломерат ряда частных технических и алгоритмических проблем, к которой относится успешно решаемая проблема видеоввода. Но ввести в компьютер «картинку» — это лишь поддела. «Картинку» надо обработать в целом и по частям, чтобы получить полную и достоверную информацию. В результате имеем аналог нашего восприятия действительности.

Существуют три способа обзора представляемого изображения:

сканирование сектора обзора, разбитого на элементарные сегменты;

сканирование сектора обзора со «своим окном просмотра»;

спонтанный обзор, обусловленный вниманием к цветовому или скоростному всплеску, быстрому увеличению размера (угрожающему приближению) объекта, указанию извне (целеуказанию) и т.д.

Третий способ также основан на сканировании сектора обзора, однако со значительно меньшими энергетическими затратами.

При первом и втором способах анализ сложнее, так как требует согласования виденного по сегментам, что, в свою очередь, приводит к включению высших уровней логического вывода (интеллекта).

Применив третий способ, можно добиться избирательности, чрезвычайности реакции, например, на резкие движения, на бег, на появление яркой расцветки в одежде и т.д., что может с успехом использоваться в игровых системах.

Все способы реализуются легче, если речь идет о единственном объекте единовременного распознавания букве, хозяине квартиры, подписи и т.д. В случае, если существует множество объектов, например туристская группа, любующаяся «умным» монстром, необходим не только детальный, но и совместный анализ этим монстром всех (многих) ее составляющих.

Впрочем, говоря о туристах, можно вести речь о конечной, усредненной реакции монстра на всю группу. Производя обзор, управляющая им нейросеть постепенно согласно критериям обучения «хорошо — плохо» воспринимает настроение как последовательное проявление радости и огорчения и приходит к некоторому окончательному состоянию, обусловленному количественным эквивалентом того и другого. Для разных групп туристов или экскурсантов это состояние будет разным: либо источником веселья и шутливого «поощрения» той группы, которая привела объект в радость, либо источником «осуждения» группы, ввергнувшей его в печаль.

Итак, на каждом такте обзора формируется сегмент, содержимое которого необходимо распознать. Чаще всего целесообразно допущение о том, что в элементарном сегменте (или в «окне просмотра») при дискретном сканировании находится не более чем один значимый объект. Пусть это — максимальная область текста, вмещающая единственную букву, написанную с допустимой долей небрежности. Как разглядеть эту букву? Повидимому, следует разместить ее на входном слое так, чтобы она максимально соответствовала тому размещению эталонов, с помощью которых производилось обучение. Тогда распознавание пойдет корректно (рис. 1.6). Такой процесс «разглядывания» предполагает:

поиск возможности совмещения условного центра элемента изображения и центра экрана — входного рецепторного слоя сети (фокусировку);

поиск варианта масштабирования элемента изображения (приближение — удаление);

поиск угла наклона и др. В результате таких пробных действий может вдруг начаться процесс распознавания, пусть и ошибочного.