Проблема распознавания образов. Обзор существующих методов распознавания образов

Процесс распознавания состоит в том, что система распознавания на основании сопоставления апостериорной информации относительно каждого поступившего на вход системы объекта или явления с априорным описанием классов принимает решение о принадлежности этого объекта (явления) к одному из классов. Правило, которое каждому объекту ставит в соответствие определенное наименование класса, называют решающим правилом. В литературе, посвященной распознаванию образов, утвердилось мнение, что суть проблемы распознавания заключается в определении решающих правил, нахождении в признаковом пространстве таких границ (решающих границ), придерживаясь которых признаковые пространства оптимальным образом, например с точки зрения минимизации ошибок распознавания, подразделяются на области, соответствующие классам. Так, в сказано, что в отыскании таких решающих правил на основании заданных описаний классов и заключается проблема распознавания.

При определении решающих правил (решающих границ в признаковом пространстве) в зависимости от объема исходной априорной информации рассматриваются следующие ситуации:

1. Количество исходной информации достаточно для того, чтобы путем ее анализа и непосредственной обработки определить решающие правила (системы распознавания без обучения, см. рис. 1.4).

2. Количество исходной информации недостаточно для определения решающих правил на основе ее непосредственной обработки, в связи с чем реализуется процедура обучения (обучающиеся системы распознавания, см. рис. 1.5).

В ситуациях 1 и 2 задача отыскания решающих правил базируется на том, что алфавит классов объектов и априорный словарь признаков, предназначенных для их описаний, известны. Рассматривается также и такая ситуация, когда словарь признаков известен, но неизвестен алфавит классов. При этом, однако, определен некоторый набор правил, в соответствии с которыми на основании процедуры самообучения находится искомый алфавит классов. Затем определяются решающие правила (самообучающиеся системы, см. рис. 1.6).

Исторически сложилось так, что первые теоретические исследования и прикладные работы в области распознавания базировались на том, что признаковое пространство известно, известен также и алфавит классов. В этих условиях проблема распознавания действительно может трактоваться как проблема определения в некотором смысле наилучших решающих границ (решающих правил). В настоящее время часто при построении распознающих устройств имеет место ситуация, когда известны и алфавит классов, и словарь признаков. Однако в общем случае при построении реальных систем распознавания, требующих разработки специальных измерительных средств и целых измерительных комплексов, исходить из того, что алфавит классов и словарь признаков априорно известны, к сожалению, не приходится.

Назначение систем распознавания - получить информацию, необходимую для принятия определенных решений, о принадлежности неизвестного объекта (явления) к тому или иному классу. Именно так обстоит дело в системах медицинской и технической диагностики, геологической разведки, метеорологического прогноза, криминалистике, системах распознавания целей и т. п. Поэтому системы распознавания, являясь частью системы управления (автоматической или автоматизированной), должны строиться с учетом обеспечения наиболее эффективного использования всего набора допустимых решений. Этот факт накладывает на построение систем распознавания следующие ограничения.

1. При прочих равных условиях повышение эффективности принимаемых решений следует связывать со степенью детализации определения или назначения либо характера распознаваемого объекта или явления. Степень детализации определяется количеством классов, на которое подразделено множество объектов или явлений. Так, если система управления располагает m различными решениями, то в алфавите классов системы распознавания, учитывая сказанное, целесообразно предусмотреть m+1 классов. Тогда, если распознанный объект относится к классу Ω 1 принимается решение l 1 , если к классу Ω 2 - решение h и т. д., если же объект относится к классу Ω m +1 , решение не принимается.

2. Эффективность принимаемых системой управления решений при прочих равных условиях (в том числе, естественно, при заданном алфавите классов) зависит от точности определения принадлежности распознаваемого объекта или явления к соответствующему классу. Точность же определения или ошибка распознавания при заданном по точности априорном описании классов определяется размерностью и информативностью признакового пространства, объемом и качеством апостериорной информации о значениях признаков (параметров), которыми характеризуется распознаваемый объект. Иначе говоря, расширение алфавита классов, увеличивающее степень детализации определения назначения либо характера распознаваемого объекта (явления), при неизменном словаре признаков увеличивает ошибку распознавания.

Пусть заданы три класса Ω 1 , Ω 2 и Ω 3 объектов распределениями f 1 (х), f 2 (x),f 3 (x) априорными вероятностями появления объектов соответствующих классов P(Ω 1)=P(Ω 2)=P(Ω 3)=P, а также потерями c 11 = c 22 = с 33 = 0 и с 12 = с 21 = c 13 = с 31 = с 23 = с 32 = с.

На рис. 2.1 представлены законы распределений. Средний (байесовский) риск (см. § 4.2)

Положим теперь, что объекты, относящиеся к классам Ω 1 и Ω 2 , решено объединить в один класс Ω 4 , описание которого

Средний риск в данном случае в предположении неизменности границы b составит

Из сравнения величин Rã 1 и Rã 2 видно, что Rã l >Rã 2 на величину

Следовательно, при заданном признаковом пространстве и прочих равных условиях уменьшение числа классов приводит

Рис. 2.1

к уменьшению ошибок распознавания и, наоборот, при увеличении числа классов системы распознавания в целях поддержания на заданном уровне или даже уменьшения среднего риска (вероятности ошибочных решений) надо расширять словарь признаков (естественно, при прочих равных условиях). В то же время расширение признакового пространства в целях уменьшения ошибок распознавания сопряжено с увеличением числа технических измерительных средств, каждое из которых обеспечивает определение соответствующего признака или группы признаков. Это, в свою очередь, требует увеличения затрат на построение системы распознавания. На величину же затрат в реальных условиях, как правило, накладываются те или другие ограничения.

Таким образом, стремление по возможности наиболее эффективно использовать набор возможных решений системы управления приводит к необходимости увеличения алфавита классов до m+1. Однако естественная ограниченность ресурсов, ассигнованных на построение измерительных средств системы распознавания или системы распознавания в целом, приводит к тому, что по мере увеличения алфавита классов ошибки распознавания растут, а это уменьшает эффективность использования возможных решений. Только некоторый компромисс между размерами алфавита классов и объемом рабочего словаря признаков системы, базирующийся на исходных данных относительно набора возможных решений и величины ресурсов, отпущенных на создание измерительной аппаратуры, реализующей словарь признаков, позволяет обеспечить решение задачи построения системы распознавания оптимальным образом.

Итак, в общем случае при построении систем распознавания приходится иметь дело со следующей ситуацией. Создается некоторая система управления, реализующая то или другое управление в зависимости от результатов оценки, существенных свойств, характера, назначения объекта или явления, его распознавания. Система управления располагает конечным числом решений. Составляющая эффективности управлений, зависящая от функционирования системы распознавания, обусловливается двумя факторами. Первый фактор связан со степенью детализации распознавания объектов или явлений, наибольшее значение которой будет в том случае, если число классов, содержащихся в алфавите классов системы распознавания, равно количеству возможных решений (плюс единица - последний класс, объекты которого не распознаются). Второй фактор - точность решения задачи распознавания. Естественно, чем она выше, тем меньше вероятность принять решение, не соответствующее особенностям данного объекта или явления. Например, применить не адекватную заболеванию стратегию лечения в случае использования системы медицинской диагностики; применить не по назначению данное средство противодействия в случае использования системы распознавания целей и т. п. Однако при заданном словаре признаков увеличение алфавита классов уменьшает точность решения задачи распознавания. Увеличение же словаря признаков в общем случае связано с разработкой новой или использованием существующей измерительной аппаратуры, что влечет за собой увеличение расходов на построение системы распознавания.

Таким образом, суть проблемы распознавания состоит в разработке таких алфавита классов и словаря признаков, которые в условиях ограниченных ресурсов на построение системы распознавания обеспечивают максимальную эффективность системы управления, принимающей соответствующее решение в зависимости от результатов решения задачи распознавания. При этом, безусловно, выбирая словарь признаков и определяя алфавит классов, следует находить наилучшие решающие правила, решающие границы между классами. Однако в общем случае не в этом состоит проблема распознавания, как не важна и как подчас не сложна задача определения оптимальных решающих правил, обеспечивающих в условиях заданных алфавита классов и словаря признаков наибольшую точность распознавания . Более того, при построении логических систем распознавания, использующих либо алгоритмы распознавания, основанные на методах алгебры логики, либо структурных (лингвистических) систем (см. гл. 8), решающие правила вообще не определяются.

Таким образом, нет достаточных оснований считать справедливым суждение о том, что проблема распознавания состоит в определении решающих правил (решающих границ).

Конец работы -

Эта тема принадлежит разделу:

Общая характеристика проблемы распознавания объектов и явлений

В а скрипкин.. методы распознавания.. общая характеристика проблемы распознавания объектов и явлений..

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Качественное описание задачи распознавания i
Распознавание образов (объектов, сигналов, ситуаций, явлений или процессов) - едва ли не самая распространенная задача, которую человеку приходится решать практически ежесекундно от первого до посл

Основные задачи построения систем распознавания
Рассмотренный в § 1.1 пример свидетельствует о том, что распознавание сложных объектов и явлений требует создания специальных систем распознавания - сложных динамических систем, сос

Экспертные системы распознавания
Рассмотренная классификация систем распознавания и принципы их функционирования отражают современное состояние вопроса. Все виды систем распознавания базируются на строго формализов

Постановка задачи распознавания
Пусть задано множество объектов или явлений Ω={w1 ..., ..., wz}, а также множество возможных решений L={l1, ..., lk}, которые могут

Метод решения задачи распознавания
Рассмотренная постановка проблемы распознавания позволяет определить последовательность задач, возникающих при разработке системы распознавания, предложить их формулировки и возможн

Системы распознавания без обучения
Построение систем распознавания без обучения возможно при наличии полной первоначальной априорной информации, которая представляет собой совокупность: 1) сведений о том, какова есте

Обучающиеся системы распознавания
Использование методов обучения для построения систем распознавания необходимо в случае, когда отсутствует полная первоначальная априорная информация. Ее объем позволяет подразделить

Самообучающиеся системы распознавания
На практике иногда приходится сталкиваться с необходимостью построения распознающих устройств в условиях, когда провести классификацию объектов либо невозможно, либо по тем или другим соображениям

Некоторые сведения из теории статистических решений
Рассмотрим основные результаты теории статистических решений на следующем примере. Пусть совокупность объектов подразделена на классы Ω1 и Ω2, а дл

Критерий Байеса
Критерий Байеса - правило, в соответствии с которым стратегия решений выбирается таким образом, чтобы обеспечить минимум среднего риска. Применение критерия Байеса целесообразно в с

Минимаксный критерий
При построении систем распознавания возможны такие ситуации, когда априорные вероятности появления объектов соответствующих классов неизвестны. Минимизировать значение среднего риск

Критерий Неймана-Пирсона
При построении некоторых систем распознавания могут быть неизвестны не только априорные вероятности появления объектов соответствующих классов, но и платежная матрица (1.7). В подоб

Процедура последовательных решений
Ранее предполагалось, что решение о принадлежности распознаваемого объекта w соответствующему классу Ωi, i=l, ..., m, принимается после измерения всей совокупности

Регуляризация задачи распознавания
В соответствии со стратегией Байеса, если у распознаваемого объекта со измеренное значение признака х = х0 , то

Рабочего словаря признаков
В § 5.1 был рассмотрен один из возможных методов выбора пространства признаков системы распознавания, обеспечивающий в пределах выделенных ресурсов максимальное значение критерия ка

Сравнительная оценка признаков
Выше были рассмотрены достаточно общие методы выбора совокупности признаков, которые целесообразно и доступно использовать при построении системы распознавания. Однако на практике д

Изображающие числа и базис
Булева функция считается заданной, если можно указать значения истинности этой функции при всех возможных комбинациях значений истинности входящих в нее элементов. Таблицу, которая

Восстановление булевой функции по изображающему числу
Рассмотрим методы, позволяющие переходить от задания булевой функции в виде изображающего числа к явному выражению ее через элементы. Дизъюнктивная нормальная форма (ДНФ).

Зависимость и независимость высказываний
Условия независимости. Поскольку каждая булева функция может иметь два значения истинности, n булевых функций могут образовывать 2n комбинаций значений истинности. По опр

Булевы уравнения
Решение многих задач, связанных с распознаванием объектов, может быть сведено к нахождению решений булевых алгебраических уравнений с одним (или более) неизвестным. Примером булева

Замена переменных
Понятие замены переменных в алгебре логики аналогично понятию замены переменных в обычной алгебре. Если А, В, С, ... - элементарные высказывания и совершается замена переменных, то,

Решение логических задач распознавания
В логических системах распознавания классы и признаки объектов рассматриваются как логические переменные. Чтобы подчеркнуть эту особенность, для обозначения классов и признаков введ

Решение задач распознавания при большом числе элементов
Приложение изложенных в предыдущих параграфах методов построения сокращенного базиса и решения логических задач существенно ограничивается объемом памяти ЭВМ и их быстродействием. Т

Алгоритм построения сокращенного базиса
В § 7.1 было показано, как с помощью ЭВМ, опираясь на сокращенный базис b´ [А1, А2, ...Ω1, Ω2,...], находить

Распознавание объектов в условиях их маскировки
Маскировка - один из основных методов снижения эффективности разведки противника в общем комплексе мероприятий по противодействию. Решение проблемы маскировки требует привлечения, с

Распознавание в условиях противодействия
Рассмотрим задачу распознавания объектов в условиях, когда противник может препятствовать как выявлению отдельных признаков объектов, так и сознательно изменять свою тактику в отнош

Алгоритмы распознавания, основанные на вычислении оценок
Логические алгоритмы распознавания, рассмотренные выше, в ряде случаев не позволяют получить однозначное решение о принадлежности распознаваемого объекта к определенному классу. Ю.

Общая характеристика структурных методов распознавания
Во многих случаях апостериорная информация о распознаваемых объектах или явлениях содержится в записях соответствующих сигналов (электрокардиограмм, энцефалограмм, отраженных от цел

Основные элементы аппарата структурных методов распознавания
Говоря о средстве описания объектов в терминах непроизводных элементов и их отношений, употребляют понятие язык. Правила этого языка, определяющие способы построения объекта из непр

Реализация процесса распознавания на основе структурных методов
Для распознавания неизвестного объекта на основе структурных методов необходимо прежде всего найти его непроизводные элементы и отношения между ними, а затем с помощью синтаксическо

Постановка задачи оптимизации процесса распознавания
Прежде всего покажем, что с увеличением числа признаков, используемых при распознавании, вероятность правильного распознавания неизвестных объектов также увеличивается. Вер

Алгоритм управления процессом распознавания
Рассмотренные понятия позволяют построить алгоритм управления процессом распознавания в виде правила последовательного поиска решений, обеспечивающего разработку оптимального плана

Частные подходы к принятию решений при распознавании
Решение задачи оптимизации распознавания в рассмотренной постановке требует наличия определенных данных. Когда они отсутствуют, приходится пользоваться частными подходами к пр

Алгебраический подход к задаче распознавания
Выше рассмотрены алгоритмы распознавания: детерминированные алгоритмы, основанные на проведении в признаковом пространстве решающей границы (границы, разделяющей классы и представля

Эффективность вероятностных систем распознавания
Чтобы оценить эффективность вероятностных систем распознавания на основе математического моделирования, можно использовать метод статистических испытаний. Для проведения таких испыт

Эффективность логических систем распознавания
При построении логических систем распознавания приходится сталкиваться с ситуацией, когда значения истинности элементов А1..., Аn, выражающих признаки объектов

Cтраница 2


При обучении распознаванию образов известны некоторые т изображений и их принадлежность образу. Проблема распознавания образов состоит в том, чтобы по тренировочной последовательности построить алгоритм, определяющий значение у для любого набора из области определения функции.  

Распознающая система на основании данных о процессе и внешних воздействий на этот процесс оценивает производственную ситуацию и выдает команды на управление процессом. С проблемой распознавания образов тесно связана проблема создания обучающихся автоматов, которые должны уметь оценивать сложившуюся ситуацию и на основании этого принимать наилучшее решение. Поэтому большая часть задач по обучению автоматов может быть сведена к задачам обучения распознавания образов.  

Есть много действительно серьезных, по-настоящему захватывающих проблем, над которыми работают сейчас тысячи ученых. Это - и проблема распознавания образа, и обработка информации, лингвистические проблемы и многие другие.  

Эффективность решения задачи распознавания в конечном счете определяется тем, насколько эффективно организовано обучение распознающего устройства процедуре классификации. Поэтому основное внимание в проблеме распознавания образов уделяется задаче обучения распознаванию.  

Кажется логичным изучение архитектур, соответствующих нашему пониманию организации и функций мозга. Человеческий мозг представляет существующее доказательство того факта, что решение проблемы распознавания образов возможно. Кажется разумным эмулировать работу мозга, если мы хотим повторить его работу. Однако контраргументом является история полетов; человек не смог оторваться от земли до тех пор, пока не перестал имитировать движения крыльев и полет птиц.  

Использование топографических принципов позволяет создать самую быстродействующую и самую емкую машинную память. Голограммная память разыскивает нужную информацию по законам ассоциации, что свойственно человеческой памяти. Голография может решить проблему распознавания образов, над которой много лет бьются кибернетики. Если голограмме предъявить группу предметов, она мгновенно ответит (путем отождествления) на те из них, изображения которых она хранит. Причем, чем сложнее предмет, тем надежнее голограмма узнает его.  

В четвертой главе излагаются основы теории дискретных самоорганизующихся систем. Определяется количественная мера самоорганизации и самообучения, исследуется поведение случайных автоматов и автоматов, работающих в условиях случайных внешних воздействий. Особое место уделяется проблеме распознавания образов и теории одного класса устройств (так называемых а-персептронов), предназначенных для решения этой проблемы. Рассматриваются некоторые вопросы моделирования условных рефлексов, а также процессов обучения распознаванию смысла и выработки новых понятий.  

На рис. 12.11 представлен пример, в котором в качестве образа выбрана заглавная буква А. Нетрудно видеть, что при сохранении соответствующей емкости памяти уже после нескольких релаксационных шагов из сильно искаженных шумами букв возникает четкий образ, изначально записанный в памяти. Именно в этом и заключается взаимосвязь между ассоциативной памятью изложенного выше типа и проблемой распознавания образа. В настоящее время не существует точных представлений относительно того, каким образом можно было бы обобщить и расширить изложенную выше модель ассоциативной памяти на основе спиновых стекол, чтобы она была применима и к сложной проблеме распознования повернутых или сдвинутых образов. Как показывает пример изображения на рис. 12.11, буква А, перевернутая вверх тормашками, не была бы распознана, так как даже смещение неискаженного образа на несколько узлов решетки (растра) превращает его распознавание в проблему, решение которой выходит за рамки ассоциативных возможностей модели Хопфидда. Будущее покажет, удастся ли решить и этот класс проблем с помощью ассоциативных запоминающих устройств.  

Сложность экологических проблем требует обработки больших массивов данных. Необходимы исследования, направленные на облегчение интерпретации и разумного применения накопленной информации. Существенную помощь в этом могут оказать работы в области искусственного интеллекта, связанные с проблемой распознавания образов. Новейшие достижения микропроцессорной и микрокомпьютерной техники начинают использоваться при конструировании разумных измерительных приборов. Необходимо обратить внимание на организацию, накопление и сбор данных об окружающей среде.  

Как видим, понятие симметрии приобретает поистине глобальный смысл. Впрочем, можно пойти еще дальше и обратить внимание на то, что, по большому счету, мы имеем дело с симметрией всякий раз, когда решаем проблему распознавания образов, проблему диагностики.  

Распознавание образов является одной из форм обработки информации, поступающей от системы или объекта. Классы характеризуются тем, что принадлежащие им объекты обладают некоторой общностью (сходством), например характеризуются одинаковой структурой функционального оператора. То общее, что объединяет объекты в класс, принято называть образом. К задаче построения математического описания объекта или системы с точки зрения проблемы распознавания образов можно подходить двояко. Один из подходов заключается в том, что в качестве образа, который необходимо опознать, выступает сам функциональный оператор ФХС. С другой стороны, вместо функционального оператора Ф строится кибернетическое распознающее устройство, которое прогнозирует поведение системы так же, как это делал бы соответствующий функциональный оператор.  

Из сказанного выше очевидно, что существует множество алгоритмов выделения признаков в процессе предварительной обработки информации; их число непрерывно и быстро растет, поскольку выбор способов решения конкретной задачи в большой степени обусловлен характером самой задачи. Успех всего исследования по проблеме распознавания образов определяется тем, насколько удачно выполнен этап выделения признаков. Общее признание получила точка зрения, согласно которой новых крупных достижений в этой области следует ожидать как раз на стадии выделения признаков при предварительной обработке информации.  

Я лично считаю, что такая трактовка дает современному специалисту по кибернетике ключ к более глубокому исследованию проблемы памяти, которая рассматривается в этой книге в другом разделе. Далее, хотя Лейбницу не удалось создать релятивистскую логику, его философские взгляды на проблему восприятия (являющуюся одним из важнейших вопросов кибернетики) примерно на три столетия опередили его эпоху. Ведь только с появлением работ Уайтхеда (Whitehead) в нашем веке был обоснован взгляд, что некоторый объект, не обладающий сам по себе сознанием, в состоянии реагировать в определенном смысле на связанные с ним события. Наконец, особенно характерно то, что в своих исследованиях всех этих связей Лейбниц стоял на принципиальных позициях теории исследования операций. Он гораздо меньше интересовался причинно-следственным истолкованием связей, чем динамическим, и считал, что часть является выражением целого, а не просто содержится в нем. Такой подход хорошо согласуется с гештальт-проблемами в современной психологии, с подходом к решению всех задач промышленной кибернетики с позиций органического единства, а также с современными кибернетическими исследованиями проблемы распознавания образов.  

FACE RECOGNITION: A PROBLEM AND A SOLUTION

Alexandr Morgunov

student the department "Information technology" Don State Technical University

Russia, Rostov-on-Don​

Diana Mansurova

research fellow in FGANU NII Specvuzavtomatika,

Russia, Rostov-on-Don​

Kay Tyurin

research fellow in FGANU NII Specvuzavtomatika,

Russia, Rostov-on-Don​

АННОТАЦИЯ

В статье описаны результаты сравнительного анализа существующих методов и алгоритмов распознавания человеческих лиц.

ABSTRACT

In this paper the problem of the human face recognition was considered. Various face recognition methods and algorithms were described and compared.

Ключевые слова: распознавание лиц, машинное обучение, компьютерное зрение, нейронные сети.

Keywords: face recognition, machine learning, computer vision, neural networks.

Распознавание объектов является легкой задачей для людей, эксперименты, проведенные в работе показали, что даже дети в возрасте от одного до трех дней способны различать запомненные лица. Так как человек видит мир не как набор отдельных частей, наш мозг должен как-то комбинировать различные источники информации в полезные паттерны. Задача автоматического распознавания лиц состоит в выделении этих значащих признаков из изображения, преобразуя их в полезное представление и производя некоторого вида классификации.

Процесс распознавания лиц, основывающийся на геометрических признаках лица, является, вероятно, наиболее интуитивным подходом к задаче распознавания лиц . Эксперименты на большом наборе данных показали, что в одиночку геометрические признаки не могут дать достаточно информации для распознавания лица.

Метод, который носит название Eigenfaces, описанный в работе , приводит целостный подход к задаче распознавания лиц. Изображение лица является точкой из многомерного пространства изображений, которому сопоставляется представление из так называемого маломерного пространства, где классификация становится простой задачей. Маломерное подпространство находится с помощью метода анализа принципиальных компонент (PCA), который идентифицирует оси с максимальной дисперсией. В то время, как такой вид трансформации является оптимальным с точки зрения реконструкции, он не учитывает классовые метки. Если дисперсия сгенерирована из внешнего источника (например, освещенности), оси с максимальной дисперсией могут не содержать какой-либо отчетливой информации, следовательно, классификация становится невозможной. Поэтому в работе для задачи распознавания лиц была применена классовая проекция с линейным дискриминантным анализом. Основная идея заключалась в том, чтобы минимизировать дисперсию внутри класса и в то же время максимизировать дисперсию между классами.

Не так давно несколько методов выделения локальных признаков были объединены. Для того чтобы избежать многомерности входных данных, описываются только локальные области изображения. Выделенные признаки получаются более устойчивыми против частичного перекрытия, освещенности и малого размера входного изображения. Алгоритмами, которые используют выделение локальных признаков, являются: Вейвлеты Габора , Дискретное косинусное преобразование и Локальные бинарные шаблоны . Вопрос о том, какой способ сохранить пространственную информацию при применении метода выделения локальных признаков является наилучшим, все еще открыт для исследований, так как пространственная информация является потенциально полезной для решения задачи распознавания лиц.

Метод Eigenfaces выполняет распознавание лица, по следующим шагам:

Проецирование всех обучающих примеров в подпространство анализа принципиальных компонент;

Проецирование запрошенного изображения в подпространство анализа принципиальных компонент;

Поиск ближайших соседей между спроецированными тренировочными изображениями и спроецированным запрошенным изображением.

На рисунке 1 представлен пример того, как представляются лица алгоритмом Eigenfaces. Была использована цветовая схема jet для того, чтобы показать, как значения оттенков серого распределяются в конкретных лицах. Алгоритм кодирует не только признаки лица, но также освещенность изображений.

Рисунок 1. Представление лиц алгоритмом Eigenfaces в цветовой схеме jet

.

Данные лица были реконструированы из аппроксимации малой размерности. На рисунке 2 представлены реконструкции с различным числом компонент от 10 до 310.

Рисунок 2. Реконструкции с различным числом компонент алгоритмом Eigenfaces

Источник: Face Recognition with OpenCV // OpenCV 2.4.13.4 documentation. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Очевидно, что 10 собственных векторов являются незначительным числом для хорошей реконструкции изображения. 50 собственных векторов уже могут способствовать кодированию важных признаков лиц. Можно получить хорошую реконструкцию с аппроксимацией в 300 собственных векторов. Существуют правила по подбору необходимого числа собственных векторов для удачного процесса распознавания лица, однако, они сильно зависит от входных данных .

Анализ принципиальных компонент (PCA), который является основой алгоритма Eigenfaces, находит линейные комбинации признаков, которые максимизируют общую дисперсию в данных. В то время, как PCA является хорошим способом представления данных, он не учитывает классы, и много полезной информации может быть потеряно во время преобразований. Если дисперсия данных генерируется внешним источником, таким как свет, компоненты, идентифицируемые PCA, могут не содержать четкой информации. Вследствие чего проецируемые данные смешиваются, и классифи­кация становится невыполнимой задачей.

Линейный дискриминантный анализ, выполняющий классовое понижение размерности входных данных, был предложен статистиком Рональдом Фишером, который успешно использовал его для класси­фикации цветов . Метод находит линейные комбинации признаков, которые лучше всего разделяют несколько классов объектов, а также максимизирует соотношение между разбросом разрозненных и тесно связанных классов, вместо того, чтобы максимизировать общее соотношение. Простая идея заключается в том, что одинаковые классы должны быть тесно связаны, и в то же время различные классы должны находиться максимально далеко друг от друга и представлении данных малой размерности. Подобный подход также был предложен Бельхамером, Хеспаной и Кригманом, которые применили дискриминантный анализ в задаче распознавания лиц в работе .

На рисунке 3 представлен пример работы алгоритма Fisherfaces, на котором изображены так называемые лица фишера. Каждое лицо фишера имеет такой же размер, как и оригинальное изображение, поэтому оно может быть отображено как изображение.

Рисунок 3. Пример работы алгоритма Fisherfaces

Источник: Face Recognition with OpenCV // OpenCV 2.4.13.4 documentation. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Алгоритм Fisherfaces использует трансформирующую матрицу, основанную на классах, поэтому он не учитывает освещение, также как алгоритм Eigenfaces. Вместо этого дискриминантный анализ находит признаки лица для установления различия между персонами. Важно отметить, что производительность алгоритма Fisherfaces также сильно зависит от входных данных. Если обучать алгоритм Fisherfaces на изображениях с сильным освещением, а потом попытаться распознать лица на плохо освещенных изображениях, метод, скорее всего, найдет неверные компоненты потому, что эти признаки могут не быть доминантными на плохо освещенных изображениях. Что является очевидным, так как алгоритм невозможно обучить распознавать освещение.

Алгоритм Fisherfaces позволяет делать реконструкции спроецированных изображений так же, как и Eigenfaces. Но в силу того, что алгоритм идентифицирует только лишь главные признаки, которые позволяют отличить объекты, нельзя ожидать хорошую реконструкцию исходного изображения. Для визуализации алгоритма Fisherfaces исходное изображение спроецировано на каждое из лиц фишера. На рисунке 4 представлена визуализация алгоритма Fisherfaces, где показано, какие признаки описывает каждое из лиц фишера.

Рисунок 4. Реконструированные лица фишера

Источник: Face Recognition with OpenCV // OpenCV 2.4.13.4 documentation. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Алгоритмы Eigenfaces и Fisherfaces предлагают некий целостный подход к решению задачи распознавания лиц. Представить данные в виде вектора где-нибудь в многомерном пространстве изображения. Известно, что многомерность является плохим свойством данных, поэтому определяется подпространство малой размерности, где вероятно сохраняется полезная информация. Алгоритм Eigenfaces максимизирует общий разброс, который может привести к проблеме, когда дисперсия генерируется из внешнего источника, так как компоненты с макси­мальной из всех классов дисперсией не обязательно являются полезными для классификации объекта. Поэтому для сохранения некоторой отчетливой информации применяется линейный дискриминантный анализ с оптимизацией, описанной в алгоритме Fisherfaces. Алгоритм Fisherfaces работает сравнительно хорошо, по крайней мере, для огра­ниченного сценария при одинаковом уровне освещенности изображения.

Но в реальности нельзя гарантировать идеальные параметры освещенности на изображениях. К тому же, если имеется только одно изображение на каждую личность, ковариационное счисление для подпространства, следовательно, и распознавание, может быть существенно неверным. Для открытой базы данных лиц AT&T алгоритмы Eigenfaces и Fisherfaces имеют уровень распознавания в 96%, но этот уровень сильно зависит (помимо остального) от числа обучающих изображений. На рисунке 5 представлены уровни распознавания алгоритмов Eigenfaces и Fisherfaces на открытой базе данных лиц AT&T, которая является достаточно легкой для распознавания.

Рисунок 5. Уровень распознавания алгоритмов Eigenfaces и Fisherfaces

Источник: Face Recognition with OpenCV // OpenCV 2.4.13.4 documentation. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

По рисунку видно, что для получения хорошего показателя распознавания требуется хотя бы 8(+–1) изображений на каждую личность, и алгоритм Fisherfaces не сильно помогает в данном случае.

Поэтому некоторые исследования сконцентрированы на извлечении локальных признаков из изображений. Идея заключается в том, чтобы не представлять все изображение в виде многомерного вектора, а описывать только локальные признаки объекта. Извлекаемые таким образом признаки имеют представление малой размерности. Однако представление входных изображений страдает не только от пока¬зателей освещенности, но и от размера изображения, его смещения или вращения. Поэтому локальное описание должно быть устойчиво к таким видам изменений. Методология локальных бинарных шаблонов имеет корни из двумерного текстурного анализа. Основная идея метода заключается в суммировании локальных структур изображения путем сравнения каждого пикселя с его соседями. В качестве центра берется пиксель и преобразуются значения его соседей. Если интенсивность пикселя-соседа больше или равна интенсивности центрального пикселя, то сосед помечается 1, иначе 0. После преобразования берется получившееся бинарное число (например, как 0010011). В итоге из 8 соседних пикселей получается 2 8 возможных комбинаций, называемых локальными бинарными шаблонами (LBP коды). Первый LBP-оператор описанный в литературе использовал окно размером 3×3, пример представлен на рисунке 6.

Рисунок 6. LBP-оператор

Источник: Face Recognition with OpenCV // OpenCV 2.4.13.4 documentation. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Такой подход позволяет захватить мелкие детали изображений. Фактически авторы могли конкурировать с передовыми результатами в классификации текстур. Вскоре было замечено, что фиксированный размер окна не мог закодировать детали различающегося размера. Поэтому оператор был расширен для использования переменного размера окна в работе . Идея заключается в выравнивании произвольного числа соседей в окружности переменного радиуса, которая позволяла бы захватить такие локальные бинарные шаблоны, которые представлены на рисунке 7.

Рисунок 7. Различные локальные бинарные шаблоны

Источник: Face Recognition with OpenCV // OpenCV 2.4.13.4 documentation. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Такой оператор является расширением оригинальных LBP-кодов, поэтому иногда он называется расширенный LBP. Если координаты точек на окружности не соответствуют координатам изображения, точка интерполируется. По определению LBP оператор устойчив к монотонным трансформациям в оттенках серого. Это можно увидеть на рисунке 8, где представлены LBP-изображения искусственно модифицированных исходных изображений.

Рисунок 8. Устойчивость LBP-оператора к монотонным трансформациям в оттенках серого

Источник: Face Recognition with OpenCV // OpenCV 2.4.13.4 documentation. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Осталось только объединить пространственную информацию в модели распознавания лиц. Подход, предложенный в работе , заключается в разделении LBP-изображения на m локальных областей и извлечь гистограммы из каждого. После чего, получается пространственно-расширенный вектор путем конкатенации гистограмм (не объединения). Такие гистограммы называются гистограммами локальных бинарных шаблонов.

На сегодняшний день дальше всего прошли методы и алгоритмы, основанные на нейронных сетях, такие как DeepFace и FaceNet . Так же большой вклад в решение проблемы распознавания лиц внесли работы Visual Geometry Group и Lightened Convolutional Neural Networks . Нейронные сети состоят из множества композиций функций или слоев, с последующей функцией потерь, которая определяет насколько хорошо нейронная сеть моделирует данные, т. е. насколько точно классифицирует изображение. Для решения проблемы распознавания лиц система, использующая нейронную сеть, должна найти лицо на изображении с помощью одного из многих существующих методов. Далее система из каждого найденного лица формирует нормализованные входные данные для нейронной сети. Такие данные являются слишком многомерными для того, чтобы сразу отдать их классификатору. Нейронная сеть используется для выделения главных характеристик с целью маломерное представление данных, которые описывают лицо. Такое маломерное представление данных уже может быть эффективно использовано в классификаторах.

Например, алгоритм DeepFace сначала использует трехмерное моделирование лица для нормализации входного изображения с целью получения фронтального отображения лица даже, если лицо на фотографии изначально было под другим углом. Далее алгоритм определяет классификацию как тесно связанный слой нейронной сети с Softmax‑функцией, что позволяет получить на выходе нормали­зованное вероятностное распределение. Нововведениями алгоритма DeepFace являются: выравнивание по 3D-модели, нейронная сеть с 120 миллионами параметров и обучение на 4,4 миллионах изобра­жений лиц. После завершения обучения нейронной сети на таком большом количестве лиц, финальный классификационные слой удаляется и выходные данные предыдущего слоя используются как маломерное представление лица.

Часто программы по распознаванию лиц ищут маломерное представление, которое хорошо обобщает новые лица, на которых не была обучена нейронная сеть. Подход алгоритма DeepFace справля­ется с такой проблемой, но представление является следствием обучения сети для высокоточной классификации Недостатком такого подхода является то, что полученное представление трудно использовать, так как лица одного человека не обязательно будут на кластеризованы, следовательно, классификационные алгоритмы не получат преимущества. Триплетная функция потерь (triplet-loss) в алгоритме FaceNet определена непосредственно в представлении. На рисунке 9 представлена процедура triplet-loss обучения.

Рисунок 9. Процедура triplet-loss обучения

1. Понятие образа

Образ, класс - классификационная группировка в системе классификации, объединяющая (выделяющая) определенную группу объектов по некоторому признаку.

Образное восприятие мира - одно из загадочных свойств живого мозга, позволяющее разобраться в бесконечном потоке воспринимаемой информации и сохранять ориентацию в океане разрозненных данных о внешнем мире. Воспринимая внешний мир, мы всегда производим классификацию воспринимаемых ощущений, т. е. разбиваем их на группы похожих, но не тождественных явлений. Например, несмотря на существенное различие, к одной группе относятся все буквы А, написанные различными почерками, или все звуки, соответствующие одной и той же ноте, взятой в любой октаве и на любом инструменте, а оператор, управляющий техническим объектом, на целое множество состояний объекта реагирует одной и той же реакцией. Характерно, что для составления понятия о группе восприятий определенного класса достаточно ознакомиться с незначительным количеством ее представителей. Ребенку можно показать всего один раз какую-либо букву, чтобы он смог найти эту букву в тексте, написанном различными шрифтами, или узнать ее, даже если она написана в умышленно искаженном виде. Это свойство мозга позволяет сформулировать такое понятие, как образ.

Образы обладают характерным свойством, проявляющимся в том, что ознакомление с конечным числом явлений из одного и того же множества дает возможность узнавать сколь угодно большое число его представителей. Примерами образов могут быть: река, море, жидкость, музыка Чайковского, стихи Маяковского и т. д. В качестве образа можно рассматривать и некоторую совокупность состояний объекта управления, причем вся эта совокупность состояний характеризуется тем, что для достижения заданной цели требуется одинаковое воздействие на объект. Образы обладают характерными объективными свойствами в том смысле, что разные люди, обучающиеся на различном материале наблюдений, большей частью одинаково и независимо друг от друга классифицируют одни и те же объекты. Именно эта объективность образов позволяет людям всего мира понимать друг друга.

Способность восприятия внешнего мира в форме образов позволяет с определенной достоверностью узнавать бесконечное число объектов на основании ознакомления с конечным их числом, а объективный характер основного свойства образов позволяет моделировать процесс их распознавания. Будучи отражением объективной реальности, понятие образа столь же объективно, как и сама реальность, а поэтому это понятие может быть само по себе объектом специального исследования.

В литературе, посвященной проблеме обучения распознавания образов (ОРО), часто вместо понятия образа вводится понятие класса.

2. Проблема обучения распознаванию образов (оро)

Одним из самых интересных свойств человеческого мозга является способность отвечать на бесконечное множество состояний внешней среды конечным числом реакций. Может быть, именно это свойство позволило человеку достигнуть высшей формы существования живой материи, выражающейся в способности к мышлению, т. е. активному отражению объективного мира в виде образов, понятий, суждений и т. д. Поэтому проблема ОРО возникла при изучении физиологических свойств мозга.

Рассмотрим пример задач из области ОРО.

Рис 1

Здесь представлены 12 задач, в которых следует отобрать признаки, при помощи которых можно отличить левую триаду картинок от правой. Решение данных задач требует моделирования логического мышления в полном объеме.

В целом проблема распознавания образов состоит из двух частей: обучения и распознавания. Обучение осуществляется путем показа отдельных объектов с указанием их принадлежности тому или другому образу. В результате обучения распознающая система должна приобрести способность реагировать одинаковыми реакциями на все объекты одного образа и различными - на все объекты различных образов. Очень важно, что процесс обучения должен завершиться только путем показов конечного числа объектов без каких-либо других подсказок. В качестве объектов обучения могут быть либо картинки, либо другие визуальные изображения (буквы), либо различные явления внешнего мира, например звуки, состояния организма при медицинском диагнозе, состояние технического объекта в системах управления и др. Важно, что в процессе обучения указываются только сами объекты и их принадлежность образу. За обучением следует процесс распознавания новых объектов, который характеризует действия уже обученной системы. Автоматизация этих процедур и составляет проблему обучения распознаванию образов. В том случае, когда человек сам разгадывает или придумывает, а затем навязывает машине правило классификации, проблема распознавания решается частично, так как основную и главную часть проблемы (обучение) человек берет на себя.

Проблема обучения распознаванию образов интересна как с прикладной, так и с принципиальной точки зрения. С прикладной точки зрения решение этой проблемы важно прежде всего потому, что оно открывает возможность автоматизировать многие процессы, которые до сих пор связывали лишь с деятельностью живого мозга. Принципиальное значение проблемы тесно связано с вопросом, который все чаще возникает в связи с развитием идей кибернетики: что может и что принципиально не может делать машина? В какой мере возможности машины могут быть приближены к возможностям живого мозга? В частности, может ли машина развить в себе способность перенять у человека умение производить определенные действия в зависимости от ситуаций, возникающих в окружающей среде? Пока стало ясно только то, что если человек может сначала сам осознать свое умение, а потом его описать, т. е. указать, почему он производит действия в ответ на каждое состояние внешней среды или как (по какому правилу) он объединяет отдельные объекты в образы, то такое умение без принципиальных трудностей может быть передано машине. Если же человек обладает умением, но не может объяснить его, то остается только один путь передачи умения машине - обучение примерами.

Круг задач, которые могут решаться с помощью распознающих систем, чрезвычайно широк. Сюда относятся не только задачи распознавания зрительных и слуховых образов, но и задачи распознавания сложных процессов и явлений, возникающих, например, при выборе целесообразных действий руководителем предприятия или выборе оптимального управления технологическими, экономическими, транспортными или военными операциями. В каждой из таких задач анализируются некоторые явления, процессы, состояния внешнего мира, всюду далее называемые объектами наблюдения. Прежде чем начать анализ какого-либо объекта, нужно получить о нем определенную, каким-либо способом упорядоченную информацию. Такая информация представляет собой характеристику объектов, их отображение на множестве воспринимающих органов распознающей системы.

Но каждый объект наблюдения может воздействовать по-разному, в зависимости от условий восприятия. Например, какая-либо буква, даже одинаково написанная, может в принципе как угодно смещаться относительно воспринимающих органов. Кроме того, объекты одного и того же образа могут достаточно сильно отличаться друг от друга и, естественно, по-разному воздействовать на воспринимающие органы.

Каждое отображение какого-либо объекта на воспринимающие органы распознающей системы, независимо от его положения относительно этих органов, принято называть изображением объекта, а множества таких изображений, объединенные какими-либо общими свойствами, представляют собой образы.

При решении задач управления методами распознавания образов вместо термина "изображение" применяют термин "состояние". Состояние - это определенной формы отображение измеряемых текущих (или мгновенных) характеристик наблюдаемого объекта. Совокупность состояний определяет ситуацию. Понятие "ситуация" является аналогом понятия "образ". Но эта аналогия не полная, так как не всякий образ можно назвать ситуацией, хотя всякую ситуацию можно назвать образом.

Ситуацией принято называть некоторую совокупность состояний сложного объекта, каждая из которых характеризуется одними и теми же или схожими характеристиками объекта. Например, если в качестве объекта наблюдения рассматривается некоторый объект управления, то ситуация объединяет такие состояния этого объекта, в которых следует применять одни и те же управляющие воздействия. Если объектом наблюдения является военная игра, то ситуация объединяет все состояния игры, которые требуют, например, мощного танкового удара при поддержке авиации.

Выбор исходного описания объектов является одной из центральных задач проблемы ОРО. При удачном выборе исходного описания (пространства признаков) задача распознавания может оказаться тривиальной и, наоборот, неудачно выбранное исходное описание может привести либо к очень сложной дальнейшей переработку информации, либо вообще к отсутствию решения. Например, если решается задача распознавания объектов, отличающихся по цвету, а в качестве исходного описания выбраны сигналы, получаемые от датчиков веса, то задача распознавания в принципе не может быть решена.

20 Проблема распознавания образов

Человеческий мозг, так же как и мозг животных, с самого рождения и на протяжении всей жизни ежеминутно решает задачи распознавания образов. Ребенок или детеныш животного с первых минут своего появления на свет узнает пищу, мать, ее голос, окружающие предметы. По мере взросления ребенок учится узнавать свои игрушки, комнату, дом, множество необходимых предметов, лица друзей, их речь, музыку, буквы, слова, книги и т.д.

В своей повседневной жизни человек настолько легко справляется с задачами распознавания, что это считается само собой разумеющимся. Между тем, попытки моделирования на компьютерах этих высокоинтеллектуальных функций наталкиваются на весьма серьёзные трудности.

Для того чтобы человек сознательно воспринял информацию, она должна пройти довольно длительный цикл предварительной обработки. Рассмотрим на примере восприятия зрительного образа:

1. Вначале свет попадает в глаз. Пройдя через всю оптическую систему фотоны попадают на сетчатку (слой светочувствительных клеток). Здесь происходит первый этап обработки информации. У млекопитающих, сразу за светочувствительными клетками находится обычно два слоя нервных клеток, которые выполняют сравнительно несложную обработку.

2. По зрительному нерву информация поступает в головной мозг, в так называемые "зрительные бугры".

3. Далее зрительная информация поступает в отделы мозга, которые уже выделяют из неё отдельные составляющие (горизонтальные, вертикальные, диагональные линии; контуры; области светлого, темного, цветного). До этих пор можно без труда смоделировать работу мозга применяя различные графические фильтры.

4. Постепенно образы становятся все более сложными и размытыми, но графический образ пройдет еще долгий путь, прежде чем достигнет уровня сознания. Причём на уровне сознания к образу могут примешаться еще звуки, запахи и вкусовые ощущения.

В целом проблема распознавания образов состоит из двух частей: обучения и распознавания. Обучение осуществляется путём показа отдельных объектов с указанием их принадлежности тому или другому образу. В результате обучения распознающая система должна приобрести способность реагировать одинаковыми реакциями на все объекты одного образа. За обучением следует процесс распознавания новых объектов, который характеризует действия уже обученной системы.

Круг задач, которые могут решаться с помощью распознающих систем, чрезвычайно широк. Сюда относятся не только задачи распознавания зрительных и слуховых образов, но и задачи распознавания сложных процессов и явлений, возникающих, например, при выборе целесообразных действий руководителем предприятия или выборе оптимального управления технологическими, экономическими, транспортными или военными операциями.

В настоящее время наибольших успехов удалось добиться в распознавании зрительных образов, таких как печатные символы. Не вызывает сомнений полезность известных программ распознавания текстовой информации – FineReader и CuneiForm . Функции обнаружения и распознавания военных объектов противника уже давно закладываются в бортовые компьютеры ракет, самолетов, кораблей и подводных лодок.

Какие идеи и принципы могут быть заложены в основу распознающих систем? Первое, что приходит в голову, – действовать "с позиции грубой силы": заложить в компьютер как можно больше известных образов-шаблонов и сравнивать их с поступающими для распознавания неизвестными образами. Однако этот путь сразу заводит в тупик. Предположим, что зрительное изображение считывается с помощью стандартной системы светочувствительных элементов – 32 позиции по ширине и 48 по высоте, т.е. всего 1536 элементов. Но даже на такой грубой сетке можно воспринять порядка 10 460 возможных образов. Хранить в памяти такое число шаблонных изображений и осуществлять с ними сравнение поступающих на вход образов невозможно.

Поэтому на практике системы распознавания на первой стадии обязательно обрабатывают изображение и выделяют характерные признаки, качественные или количественные. Таким образом, количество информации для распознавания существенно уменьшается.

Следующая идея, которая обычно используется в распознающих системах, – это идея обучения. Она является обязательным элементом многих современных интеллектуальных систем.