Образовательный портал «Кафедра онлайн» НИЯУ «МИФИ», Обнинск"

Поиск похожего в графических базах

 Ю.Д. Калафати***,П.А. Козловский*, С.О. Старков*, А.А. Тельных**

*ИАТЭ НИЯУ МИФИ, г.Обнинск
**ИПФ РАН, г. Нижний Новгород
***ООО «CCT-Технология хаоса», г. Москва

 Введение

Технологии анализа сходства графических объектов, поиска дубликатов  активно развиваются на протяжении последних 10-15 лет [1-7].  В связи  с появлением облачных сервисов вопросы анализа «схожести»   графической и видео- информации приобретают дополнительную актуальность [8-16]. Перечень возникающих при этом применений достаточно широк:

— поиск похожих картинок, фотографий  в различных распределенных графических библиотеках;

— анализ  интернет-контента на предмет наличия  графической информации определенного содержания (символы, знаки, рисунки);

— поиск графического «плагиата» для  мониторинга нарушений авторского права в Интернете [2];

— фильтрация графического спама, для исключения дубликатов изображений при сборе графической информации в Интернете (например, поиск новостей, и отслеживание новостных сюжетов [3,4]) и т.д.

Наиболее сложной представляется проблема обнаружения сходства при неполной и частичном совпадении графических изображений, когда «меру сходства»- «похожесть» не удается однозначно формализовать.

Действительно, различные изображения разные люди могут посчитать как сходными, так и нет.

Мы будем придерживаться следующего определения нечетких дубликатов: если одно изображение можно получить из другого применением любой комбинации следующих преобразований: изменение контраста, малое масштабирование изображения, поворот на угол, кратый 90 градусам, добавление малого шума, применение сжатия с потерей качества, то такие изображения считаются нечеткими дубликатами. На фоне одинаковых изображений могут встречаться небольшие фрагменты с дополнительными символами, «баннерами», текстовыми вкраплениями. Эти изображения  также следует считать похожими. Таким образом, алгоритм поиска похожего должен быть устойчив к добавлению рамок, водяных знаков и других локальных изменениях в изображении, изменяющих незначительный процент его площади.

Наглядным примером актуальности рассматриваемого подхода может служить проблема регистрации товарных знаков. Для защиты интеллектуальной собственности товарный знак необходимо зарегистрировать в реестре товарных знаков. В процессе регистрации требуется проверить, не является ли регистрируемый торговый знак похожим на зарегистрированный ранее. Тогда, как для текстовых описаний решение этой задачи известно, в случае, когда товарный знак представляет собой изображение, данная проверка становится не такой простой. Например, исключаться должна ситуация  появления на фоне уже известного логотипа дополнительных надписей или фрагментов.

В статье приведен подход к описанию процесса индексации изображений, обсуждаются различные схемы использования алгоритмов поиска дубликатов,представлен алгоритм на основе бинарных шаблонов, который использует вышеприведенное понятие нечетких дубликатов.

Щелкните здесь мышкой, чтобы увидеть полный текст публикации.

Комментариев нет

Похожие публикации
 
 

Комментариев нет

Вы можете быть первым, кто оставит комментарий.

 
 

Вы можете оставить комментарий

 





 
 

Выполните простое задание (антиспам). Картинки можно сибирать приблизительно, без точной подгонки фрагментов.


 
 
 

Наверх