Некоторые подходы к задачам распознавания образов и их приложениям
Некоторые подходы к задачам распознавания образов и их приложениям
Е.Т. Рамазанов
Сейчас статистические исследования развиваются в направлении научного предсказывания, прогнозирования социально- экономической среды. Один из подходов решение вопроса прогнозирование заключается в решении задач классификаций.
Одно из условий развития науки в направлении научного прогнозирования заключается в возможностях современной ЭВМ, которые позволяют обрабатывать огромные массивы информации.
Известно что существует множество подходов решений вопроса научного прогнозирования, такие как эксперимент, компьютерная моделирования. Возникает вопрос, на сколько можно доверять результатам решений предсказываниие, и, вообще, достоверен ли полученный результат, насколько разница она с действительностью. Безусловно что решая конкретную заданную задачу, каждый метод имеет свои плюсы и минусы и исследователь используя тот или иной метод стремится к тому что бы ошибка разницы была достаточно маленькой, и если уж совсем ошибки не возможно устранить, то оценить их (здесь вопрос достоверности он переносит в иное поле, исследователь решает вопрос объективно имитирует ли реальный процесс или явление созданная модель. или. Строит критерий качества т.е. применяет идей оптимизации. Если да то он доверяет результату ). Оценить ошибку достоверности предсказывание порой и невозможно сделать ибо статистические оценки гипотез вероятностны.
Описанный здесь подход может быть эффективен с точки зрение достоверного предсказывания.
Задача классификаций тесно связана с такими дисциплинами как математическая статистика, теория вероятностей, кластерный анализ. Было проделана огромная работа по разработке методов и подходов решений задач классификаций. Фундаментом послужили такие работы как Дж. Хартигана, Миркина, Дюрана М.Б. ,Дж. Вэн Райзена , Айвазяна . и др.
Решение задачи классификаций основана на кластерном анализе.
Изложенные здесь основные идей кластерного анализа основываются на работах [2 ]и[ 3].
Пусть множество Т=( Т >1>Т>2> Т>3> ,…, Тn> >) обозначает n обьектов .
Предположим, что существует некоторое множество наблюдаемых
показателей или характеристик. Обозначим это множество
С=(С>1> С>2> С>3>, .. ., С>р>); этими характеристиками обладает каждый индивид из множества Т. Наблюдаемые характеристики могут быть количественными или качественными . Наблюдение часто называют измерениями. Результат измерение i-й характеристики(измерение ) T>j> –обьекта обозначим х>ij>> >, а> >вектор Х>j>=[ х>ij>] размером рХ1 будет отвечать каждому ряду измерений для j- го обьекта . Таким образом исследователь множеством
Х=(Х>1> Х>2> Х>3> ,…, Х>p>) описывает множество Т.
Множество Х может представлено как к точек в р- мерном евклидовом пространстве Е>р >.
Задача кластерного анализа заключается в том чтобы на оснований данных в множестве Х разбить множество Т на m-классов m<n.
Так чтобы, каждый обьект принадлежал одному и только одному подмножеству разбиение , и что бы обьекты принадлежащие одному и тому же классу были сходными в то время как обьекты различных классов были бы разнородными.
Разбиение здесь следует понимать как разделение множество Т на определенное число непустых попарно непересекающихся подмножеств.
Решение задачи кластерного анализа является разбиение удовлетворяющее некоторому критерию оптимальности . в качестве критерия может быть функционал например сумма квадратов отклонений
W=>>=>> xi-измерение i-го обьекта.
Критерий оптимальности показывает когда мы получили нужное разбиение.
Очевидно чтобы решить задачу кластерного анализа необходимо количественно определить понятия сходства и разнородности .
Задача была бы решена если Т>i> Т>j>> >обьекты попадали в один и тот же класс всякий раз когда расстояние между точками Х>i> Х>j>> >было бы достаточным малым и ,наоборот, обьекты попадали бы в разные классы когда между соответствующими точками расстояние было бы достаточно большим.
Расстояние d(X>i> X>j>) между точками Х>i> Х>j>> >p мерном евклидовом пространстве можно задать положительно определенной функцией, которая является метрикой и удовлетворяет аксиомам метрики. Отметим что функция расстояние d(X >i>> >X>j>) задает соответственно сходство между обьектами Т>i> Т>j>> >. Существует множество видов функций расстояние использующий в евклидовом пространстве .например евклидова метрика , Л норма, расстояние Махаланобиса . приведем лишь евклидова метрику
d(X>i> X>j>)=>>> ;>
Расстояние между n обьектами можно задать в виде симметричной матрицы размером nХn. Такую матрицу иногда называют матрицей связей.
Также можно определить меру сходства . Мера сходства s(X>i> X>j>) положительно определенная функция и удовлетворяет следушим условиям :
1. s(X>i> X>i>)=1 ;
2. s(X>i> X>j>)=s(X>j> X>i>) ;
3. s(X>i> X>j>) определена в интервале [0 1] ;
мы можем задать меру сходство с помощью функций расстояние
например:
s(X>i> X>j>)=1/1+d(X>i> X>j>) ;
Существует множество методов классификаций .описание этих методов и принципов вы можете найти в работе 3. Интересен аппроксимационный подход. Пусть имеется матрица связей D
размером nxn. Рассмотрим отношение эквивалентности R>n> , которое порождает разбиение множество Х на непустые m классы
R>n>=(R>n> R>n> R>n>…R>n>). представим R>k> в виде бинарной матрицы. Элемент матрицы равны 1, если обьекты лежат в одном классе и равны 0 в противном случае. Требуется найти разбиение с булевой матрицей R>n>> >, которая бы в наибольшей мере соответствовала матрице связей. Как сопоставить матрицу связей D и матрицу R>n> друг с другом. В работе [6] предлагают, взвешивать матрицу R>n> , вводя некоторый коэффицент маштаба > >, и сдвига>> с критерием аппроксимаций.
K(R>n>> >,>>,>>)=>>min;
Где dij=d(X>i>> >X>j>); rij-элементы матрицы R>n>.> >Для аналитического решение удобно что либо зафиксировать.
Если задан порог близости > >>0; Построим бинарную матрицу отношений толерантности Q с элементами равной 1 если dij>>>>, и равные 0 в противном случае. Близость между матрицами Q и R>k>> >оценивается расстоянием Хемминга .
r(Q, R>n>)=>>>> ;
где > >-неотрицательные весовые коэффициенты.
Требуется найти матрицу R>n> аппроксимирующего матрицу Q. Существует большая группа методов кластерного анализа в основе которой лежит решение этой задачи .
Предположим, что мы имеем результат разбиение построенного нами алгоритма классификаций. Справедливо ли отнес обьект Т>i>> >
классу R>n>> >, когда в действительности он принадлежит, быть может, к другому классу. В этом случай исследователь идет по одному из пути. Обрабатывает набор данных разными алгоритмами. результаты сравнивает между собой, или если есть эксперт, то сравнивает с его разбиением. Но экспертного разбиение может и не быть, а сравнение результатов разных алгоритмов может быть не достаточным.
В таком случае исследователь может проверит кластер данных на «реальность». Понятие реальности кластера данных основывается на идеях Дж.Хартигана.
Как вообще предполагается строить прогнозирования социально-экономической среды в задачах классификаций. Рассмотрим на примере . Пусть имеем n городов каждую из которых характеризуем некоторыми параметрами . например с1-потребление электроэнергий ,с2- личным потреблением и.т.д.
Тогда Х вектор представляет собой набор указанных характеристик Задача классификаций заключается в том чтобы разбить города по уровню развития. Ппредположим , что мы разбили города по уровню рразвития, и предположим ,что результат разбиение реален.
Теперь изменим параметр одного города проверим снова не изменился ли результат разбиение на основе результата можно строить прогнозы .Прогноз будет достоверным ибо алгоритм классификаций разбивает правильно . в заключении стоить отметит, что исследователь должен убедится в том, что алгоритм классификаций разбивает правильно.
Применение алгоритмов распознавания для решений задач сегментации. Одним из интересных приложений теорий распознавания является возможности использовать некоторые модели этой теорий для решения задач в разных областях математики. В частности для решения трудных комбинаторных задач и таких как задача сегментации программ[6]. Под задачей сегментации обычно принято понимать задачу разбиения последовательной программы на взаимозависимые по управлению и информационной части (блоки, сегменты и. т. д. ) в соответствии с той или иной целью. Для решения задач сегментации существует ряд методов. Которые разделяются условно на несколько подходов. Которые позволяют в основном получить лишь приближенные решения при неизвестной погрешности определяемых решений. Один из таких подходов является кластерный подход[6]. Кластерный подход основывается на представлении задачи сегментации как задачи кластерного анализа. Сама программа в этом случае является точкой n-мерного пространства.
Для решения задачи сегментации программ кластерный подход опирается на классическую графовую постановку задачи сегментации и обладающей некоторыми специфическими особенностями.
Формулировка задачи состоит в следующем: Требуется разрезать вершины полного, взвешенного графа на части таким образом, чтобы суммарный вес вершин, попавших в каждое подмножество не превосходил заданного значения, а суммарный вес внешних по отношению к разбиению ребер был бы минимален. При решении различных прикладных задач распознавания и классификации успешно применяется метод опорных подмножеств. Впервые метод опорных подмножеств был описан Ю.И. Журавлевым. Принципиальную возможность применения метода опорных подмножеств для решения задачи сегментации было описана в работе[6]. Основной трудностью здесь является содержательная интерпретация параметров данного метода, задающих соответствующий класс алгоритмов вычисления оценок.
Интересным подходом для решения задач распознавания образов и классификаций, а также некоторых дискретных экстремальных задач, в частности задачи сегментации является нейросетевой подход.
Список литературы
Гонсалес Р.К. Принципы распознавания образов./Пер. с англ. И.Б.Гуревича: под ред. Ю.И. Журавлева: М. Мир 1978.
Мандель И.Д. Кластерный анализ./ М.: Финансы и статистика.1988.
Дж. Вэн Райзен Классификация и кластер./Труды науч.семинара.: М. Мир.1980
Дюран М.Б. Кластерный анализ. - :М. Финансы и статистика, 1977.-220с.
Аркадьев А.Г. и Браверманн Э.М. Обучение машины классификаций объектов./М.Наука.1971.
Дюсембаев А.Е. Математические модели сегментации программ. - М.: Физматлит,
2001.-208с.
Вишняков Ю.С., Сулейманов Б.С. Построение алгоритмов распознавания для обработки видеоизображении, корректных для заданной контрольной выборки М.:Наука,1989.-126с.
Журавлев Ю.И . Алгоритмы вычисления оценок и их применение. - М.: Фан,1989.-119с.
Хартиган Дж. А. Задачи связанные с функциями распознавания в кластер-анализе. –М.: Мир, 1989.- 230c.
Кнут. Д. Исскуство прогаммирования для ЭВМ. М.: Мир,1977.-T.2.-724c.