Обработка изображений: Улучшение алгоритма для распознавания Coca-Cola Can

Question

Обработка изображений: Улучшение алгоритма для распознавания Coca-Cola Can

1459

Одним из самых интересных проектов, над которыми я работал в последние пару лет, был проект обработка изображений. Цель состояла в том, чтобы разработать систему, чтобы иметь возможность распознавать "сильные" банки Coca-Cola (обратите внимание, что я подчеркиваю слово "банки", вы увидите, почему через минуту). Вы можете увидеть образец ниже, с возможностью распознавания в зеленом прямоугольнике с масштабом и вращением.

Некоторые ограничения для проекта:

Фон может быть очень шумным.
Банк может иметь любой масштаб или поворот или даже ориентацию (в разумных пределах).
Изображение может иметь некоторую степень нечеткости (контуры могут быть не совсем прямыми).
В изображении могут быть бутылки Coca-Cola, и алгоритм должен только обнаруживать банку!
Яркость изображения может сильно различаться (поэтому вы не можете "слишком много" полагаться на распознавание цвета).
Ящик может быть частично скрыт по бокам или посередине и, возможно, частично скрыт за бутылкой.
На изображении вообще ничего не может быть, и в этом случае вам нечего было найти и написать сообщение об этом.

Итак, у вас могут получиться такие сложные вещи (которые в этом случае полностью завершили мой алгоритм):

Я сделал этот проект некоторое время назад, и мне было очень весело, и у меня была достойная реализация. Вот некоторые подробности о моей реализации:

Язык: выполнен на С++ с использованием библиотеки OpenCV.

Предварительная обработка. Для предварительной обработки изображения, то есть преобразования изображения в более необработанную форму для предоставления алгоритма, я использовал 2 метода:

Изменение цветового домена от RGB до HSV и фильтрация на основе "красного" оттенка, насыщение выше определенного порога, чтобы избежать оранжевого цвета и фильтрацию низкого значения, чтобы избежать темных тонов. Конечным результатом было двоичное черно-белое изображение, в котором все белые пиксели будут представлять пиксели, соответствующие этому пороговому значению. Очевидно, в изображении все еще много дерьма, но это уменьшает количество измерений, с которыми вы должны работать.
Фильтрация шума с использованием медианной фильтрации (с учетом среднего значения пикселей всех соседей и замены пикселя на это значение) для уменьшения шума.
Используя Canny Edge Filter > , чтобы получить контуры всех элементов после двух шагов прецедента.

Алгоритм. Сам алгоритм, который я выбрал для этой задачи, был взят из этой удивительной книги по извлечению функции и вызвал Обобщенное преобразование Hough (довольно отличается от обычного преобразования Hough). В основном он говорит несколько вещей:

Вы можете описать объект в пространстве, не зная его аналитического уравнения (что здесь и есть).
Он устойчив к деформациям изображения, таким как масштабирование и вращение, поскольку он будет в основном проверять ваше изображение для каждой комбинации масштабного коэффициента и коэффициента поворота.
Он использует базовую модель (шаблон), которую алгоритм будет "учиться".
Каждый пиксель, оставшийся на контурном изображении, будет голосовать за другой пиксель, который предположительно будет центром (в терминах силы тяжести) вашего объекта, основываясь на том, что он узнал из модели.

В конце концов, вы получаете тепловую карту голосов, например, здесь все пиксели контура банки будут голосовать за свой гравитационный центр, поэтому у вас будет много голосов в одном пикселе соответствующий центру, и увидит пик в тепловой карте, как показано ниже:

Как только вы это сделаете, простая эвристика на основе порога даст вам местоположение центрального пикселя, из которого вы можете получить масштаб и поворот, а затем нарисуйте свой маленький прямоугольник вокруг него (конечная шкала и коэффициент вращения, очевидно, будут относительно исходного шаблона). Теоретически хотя бы...

Результаты. Теперь, когда этот подход работал в основных случаях, в некоторых областях он был крайне недостаточным:

очень медленно! Я недостаточно подчеркиваю это. Для обработки 30 тестовых изображений потребовался почти полный день, потому что у меня был очень высокий коэффициент масштабирования для вращения и перевода, поскольку некоторые из банок были очень маленькими.
Это было полностью потеряно, когда бутылки были на изображении, и почему-то почти всегда находили бутылку вместо банки (возможно, потому, что бутылки были больше, таким образом, было больше пикселей, тем самым было больше голосов).
Нечеткие изображения тоже не были хорошими, поскольку голоса попадали в пиксель в случайных местах вокруг центра, что заканчивалось очень шумной тепловой картой.
В-дисперсии в переводе и ротации было достигнуто, но не в ориентации, а это означало, что не может быть распознана возможность, которая не была непосредственно связана с объективом камеры.

Можете ли вы помочь мне улучшить свой определенный алгоритм, используя исключительно функции OpenCV, чтобы решить упомянутые проблемы четыре конкретных?

Я надеюсь, что некоторые люди также узнают что-то из этого, ведь я думаю, что не только люди, которые задают вопросы, должны учиться.:)

Charles Menguy 16 апр. 2012, в 04:10

Источник

36

Можно было бы сказать, что этот вопрос более уместен на dsp.stackexchange.com или stats.stackexchange.com, и вам, безусловно, следует рассмотреть возможность повторного запроса и на этих сайтах.
ely 16 апр. 2012, в 04:43
45

Первое, что нужно сделать здесь, это проанализировать, почему происходят разные случаи сбоев. Например, выделите примеры мест, где выигрывают бутылки, где изображения нечеткие и т. Д., И проведите некоторый статистический анализ, чтобы узнать разницу между их представлениями Хафа и теми, которые вы хотели бы обнаружить. Некоторые отличные места, чтобы узнать об альтернативных подходах здесь и здесь
ely 16 апр. 2012, в 04:48
1

@linker Не будет ли извлекать функции SIFT или SURF намного быстрее, чем преобразование hough? Зачем обнаруживать банки только тогда, когда вы можете обнаружить больше зарегистрированных объектов?
stacker 16 апр. 2012, в 04:48
4

@stacker делает хорошую мысль. Для скорости вы хотите получить дешевые функции для вычисления, такие как гистограммы ориентированных градиентов. По-настоящему наивным первым подходом было бы вручную пометить группу банок прямоугольников на некоторых обучающих изображениях и использовать эти плюс случайные отрицательные примеры для обучения SVM или классификатора дерева решений. Обучение займет больше времени, но выполнение новых изображений будет намного быстрее. Я планирую написать этот метод, когда у меня будет больше свободного времени, чтобы включить правильные ссылки.
ely 16 апр. 2012, в 04:52
0

@stacker Я сделал это, потому что область назначения была специально нацелена на банки CocaCola. Я мало что знаю о SIFT или SURF, но если этот алгоритм подходит для этой проблемы, я бы хотел увидеть ответ по этой теме.
Charles Menguy 16 апр. 2012, в 04:53
7

Как насчет подхода, похожего на reCAPTCHA ? ;)
George Duckett 16 апр. 2012, в 11:30
35

Почему это было перенесено с dsp.stackexchange.com ? Кажется, что этот сайт будет даже лучше, чем stackoverflow o_O
BlueRaja - Danny Pflughoeft 16 апр. 2012, в 20:57
0

@GeorgeDuckett reCAPTCHA может быть идеей, но у вас нет абсолютно никаких гарантий, что буквы Coca-Cola будут видны, они могут быть полностью скрыты, частично скрыты или их можно будет перевернуть. И не решает проблему с бутылкой, так как буквы одинаковы.
Charles Menguy 16 апр. 2012, в 22:07
2

Вы пытались обнаружить верхнее или нижнее уплотнение банки? Можно было бы обнаружить его как край, параллельный краю красной области.
maniek 16 апр. 2012, в 22:43
0

Я не имел в виду распознавание персонажей, я имел в виду использование идеи людей для поиска. Затем я покажу 2 изображения, одно из которых известно, а другое - нет. Просто пошутил. :-)
George Duckett 16 апр. 2012, в 23:07
0

Можете ли вы добавить еще несколько тестовых изображений, чтобы получить гораздо больше идей?
Abid Rahman K 25 апр. 2012, в 17:36
0

Вы пробовали это без преобразования RGB в HSV? Я думаю, что ваша проблема с бутылками заключается в вашем обращении, на самом деле вы убрали свои банки в первый шаг.
Saeed Amiri 27 апр. 2012, в 18:16
0

@SaeedAmiri Нет, преобразование в HSV работает нормально, просто я могу исключить некоторые вещи, которые явно не похожи на красные. Может и бутылка все еще там, даже после перехода на HSV, проблема в основном в том, как провести различие между двумя, поскольку они имеют общие характеристики.
Charles Menguy 27 апр. 2012, в 18:31
0

Но, кажется, ваш образец говорит что-то еще, я думаю, что в вашем первом примере после предварительной обработки изображения могут быть удалены? Вы бы организовали свои образцы шаг за шагом?
Saeed Amiri 27 апр. 2012, в 18:34
0

@SaeedAmiri О, я понимаю, что вы имеете в виду, изображения 2 и 3 в моем вопросе не совпадают оригинал! На изображении 3 была только банка. Я мог бы написать больше, но пытался свести вопрос к строгому минимуму. Просто предположим, что трансляция HSV правильно хранит как банки, так и бутылки (+ немного шума по всему изображению)
Charles Menguy 27 апр. 2012, в 18:46
0

У меня есть большой интерес к этому виду программного обеспечения. Кто-нибудь знает, есть ли зрелая и хорошо зарекомендовавшая себя библиотека Java для распознавания изображений?
John John Pichler 08 май 2012, в 13:54
2

@EdPichler openCV совсем недавно выпустили свои java-привязки для своей библиотеки (по состоянию на 2.4.4). Итак, в основном вы можете использовать openCV в Java (без всякой суеты делать JNI вручную). Я попробовал это, и это работало хорошо (но это все еще глючит, так как это совсем недавно)
Cashew 31 март 2013, в 09:29
0

Это все над моей головой, но я подумал: «Почему бы не использовать модуль GPU OpenCV и использовать преимущества своего GPU, чтобы значительно ускорить его?» OpenCV в основном имеет модуль GPU, который имеет алгоритмы, такие как Hough Transforms и что-то не написанное в CUDA, и работает на GPU с поддержкой CUDA. Самое замечательное в том, что нет необходимости изучать CUDA. Просто импортируйте модуль GPU и начните использовать его. Я надеюсь, что это помогает (теоретически это должно повысить производительность на порядок или более)
Cashew 31 март 2013, в 09:31
0

Это похоже на очевидное применение сверточной нейронной сети с инвариантностью масштаба / вращения.
ldog 21 авг. 2016, в 21:37
0

Если вы используете грубое преобразование, вы должны использовать более быструю версию исходного алгоритма. Вы можете изменить грубое преобразование, чтобы сосредоточиться только на параметрах с высокой вероятностью, используя такие методы, как RANSAC.
ldog 21 авг. 2016, в 21:40
0

Только информация особого красного и белого в кока-коле достаточно различима.
Takahiro Waki 28 окт. 2016, в 05:47
0

Это один из самых крутых проектов, которые я когда-либо видел в StackOverflow.
user5870134 05 фев. 2017, в 17:37
2

1337! Пожалуйста, никто не поднимает этот вопрос снова
Ofek Shilon 15 апр. 2018, в 06:41
2

это реклама кока-колы?
Martin Asenov 31 май 2018, в 09:35
0

Этот вопрос должен быть закрыт по 5 или 6 различным причинам, пожалуйста, нажмите кнопку «Закрыть».
Fattie 24 авг. 2018, в 12:07
0

Реальный вопрос заключается в том, может ли can can can?
HelloGoodbye 15 март 2019, в 12:59

Показать ещё 24 комментария

Теги:

c++

opencv

image-processing

algorithm

26 ответов

347

Чтобы ускорить процесс, я бы воспользовался тем, что вас не просят найти произвольный образ/объект, но, в частности, логотип Coca-Cola. Это важно, потому что этот логотип очень свойственен, и он должен иметь характерную, масштабно-инвариантную сигнатуру в частотной области, особенно в красном канале RGB. Другими словами, чередующийся рисунок красно-белого-красного цвета, встречаемый горизонтальной линией развертки (обученный на горизонтально выровненном логотипе), будет иметь отличительный "ритм", проходящий через центральную ось логотипа. Этот ритм будет "ускоряться" или "замедляться" в разных масштабах и ориентациях, но будет оставаться пропорционально эквивалентным. Вы могли бы определить/определить несколько десятков таких строк сканирования, как по горизонтали, так и по вертикали через логотип и еще несколько по диагонали, по шаблону звездообразования. Назовите эти "строки сканирования подписи".

Поиск этой сигнатуры в целевом изображении - это простой вопрос сканирования изображения в горизонтальных полосах. Ищите высокочастотную в красном канале (указывающую переход от красной области к белой), и после того, как она найдена, посмотрите, следует ли за ней один из частотных ритмов, определенных на тренировке. Как только совпадение будет найдено, вы мгновенно узнаете ориентацию и местоположение линии сканирования в логотипе (если вы будете отслеживать эти вещи во время обучения), поэтому определение границ логотипа оттуда тривиально.

Я был бы удивлен, если бы это был не линейно-эффективный алгоритм, а почти так. Очевидно, это не касается дискриминации на бутылочной бутылке, но, по крайней мере, у вас будут свои логотипы.

(Обновление: для распознавания бутылки я хотел бы найти кокс (коричневую жидкость), прилегающий к логотипу, то есть внутри бутылки. Или, в случае пустой бутылки, я бы искал кепку, которая будет всегда имеют одинаковую основную форму, размер и расстояние от логотипа и обычно будут белого или красного цвета. Найдите сплошную цветовую форму, в которой должна быть крышка, относительно логотипа. Конечно, без надежной защиты, но ваша цель здесь должно быть, чтобы быстро найти быстрые.)

(Прошло несколько лет с момента обработки изображений, поэтому я придерживался этого предложения на высоком уровне и концептуально. Я думаю, что это может слегка приблизиться к тому, как может работать человеческий глаз - или, по крайней мере, как мой мозг!)

kmote 17 апр. 2012, в 21:09

19

Это отличное предложение, мне особенно нравится тот факт, что этот алгоритм должен быть довольно быстрым, даже если он, вероятно, будет содержать много ложных негативов. Одна из моих скрытых целей - использовать это обнаружение в режиме реального времени для робототехники, так что это может быть хорошим компромиссом!
Charles Menguy 20 апр. 2012, в 03:30
37

Да, часто забывают (в области, характеризующейся точностью), что алгоритмы аппроксимации необходимы для большинства задач моделирования в реальном времени. (Я основал свой тезис на этой концепции.) Сохраните ваши алгоритмы, требующие много времени, для ограниченных регионов (чтобы исключить ложные срабатывания). И помните: в робототехнике вы обычно не ограничены одним изображением. Предполагая, что мобильный робот, быстрый алгоритм может искать десятки изображений с разных ракурсов за меньшее время, чем сложные алгоритмы тратят на одно, значительно уменьшая количество ложных негативов.
kmote 20 апр. 2012, в 16:00
27

Мне нравится идея использовать то, что составляет сканер штрих-кода для чрезвычайно быстрого обнаружения логотипов Coca-Cola. +1!
Li-aung Yip 23 апр. 2012, в 03:18
6

Проблема поиска подписей в этом случае состоит в том, что если мы перевернем банку на другую сторону, то есть скрываем подпись, алгоритм не сможет обнаружить банку.
karlphillip 25 апр. 2012, в 16:31
30

@karlphillip: если вы скрываете подпись, т.е. логотип, то любой метод, основанный на поиске логотипа, потерпит неудачу.
Li-aung Yip 27 апр. 2012, в 10:04
0

@ Li-aungYip Я знаю об этом, спасибо. Английский не мой родной язык. :)
karlphillip 27 апр. 2012, в 16:23
1

@karlphillip: Я думаю, что вы, возможно, хотели сказать, «представьте, если вы поверните банку на 90 градусов, чтобы была видна только часть логотипа». Вы можете преодолеть это, взяв три линии сканирования (верхнюю, среднюю и нижнюю часть логотипа) - если какая-либо часть логотипа видна, вы можете увидеть хотя бы одну из них.
Li-aung Yip 27 апр. 2012, в 16:28
5

@ Li-aungYip Хороший обходной путь, но метод подписи имеет другие ограничения, например, если этикетка банки немного повреждена или если банка немного разбита, обнаружение не удастся. Реальность такова, что этот вопрос является сложной исследовательской проблемой. Это слишком сложно, и его текущий формат требует расширенного обсуждения. Люди не понимают, что есть эксперты, ежедневно исследующие подобные вещи. Проблема не будет решена в SO потоке.
karlphillip 27 апр. 2012, в 16:39
1

@ Li-aungYip Верно, но это не обязательно означает, что он подходит для данного сайта вопросов и ответов. Что ж, мы уже много обсуждали эту тему на мета-уровне, нет причин делать это здесь снова. Мой аргумент был отменен, когда модератор сказал, что если людям это нравится, то мы должны оставить его.
karlphillip 27 апр. 2012, в 16:45
0

Вы можете заставить этот алгоритм распознавать форму банки, если добавите несколько дополнительных шагов: если ваша сигнатура обнаружена, есть массив длин, который, как вы ожидаете, может найти (и ожидать, что не найдет) красную банку в течение нескольких интервалов. по длине подписи. Сканируйте строку подписи, затем наружу, проверяя, соответствуют ли пиксели ожидаемому цвету.
mattbasta 03 янв. 2013, в 16:45
0

Дополнительная мысль: вам, вероятно, понадобится набор подписей, чтобы сделать определение формы работающим, потому что вы не можете предположить, что банка направлена прямо к камере. Вы также можете запустить другой алгоритм, чтобы найти середину поверхности банки, но это, вероятно, идет по длинной темной дороге;)
mattbasta 03 янв. 2013, в 16:47
0

Любая идея, что Google, если я хочу что-то построить, используя этот подход?
Diego Cerdan Puyol 15 май 2013, в 11:15
1

@DiegoCerdanPuyol: это довольно широко открытый вопрос. То, что я описал, является довольно элементарным применением области « Цифровой обработки изображений », для которой вы найдете множество книг на Amazon . Начните читать некоторые из этой литературы, и если вы столкнетесь с конкретным препятствием, опубликуйте более конкретный вопрос здесь, на SO (но не в комментариях).
kmote 15 май 2013, в 14:57
0

@kmote Какой формат представления знаний используется в «Цифровой обработке изображений» для хранения подписи в полезном формате, чтобы я мог сопоставить ее с новыми изображениями?
Diego Cerdan Puyol 15 май 2013, в 16:46
2

Это, безусловно, лучшее предложение, и оно должно стать решением этого вопроса; его простая элегантность, он ломает взгляд на вещи, он нашел взлом в вопросе, кратчайший путь к тому, как мы наблюдаем за миром. И вот что такое искусственное распознавание зрения.
user613326 16 нояб. 2014, в 02:42
0

-1: этот подход является специальным «решением», которое не работает ни с другими логотипами или типами объектов. Прежде чем пытаться придумать собственное решение, вы должны действительно изучить литературу по распознаванию логотипов, распознаванию объектов или классификации изображений.
Stefan 01 май 2015, в 12:04
2

@Stefan - Я с большим уважением отношусь к работе, которую вы проделали в распознавании логотипа, но я просто хотел отметить, что мое «решение» действительно отвечает конкретному вопросу ОП. Он не просил общего решения; он хотел быстрого решения, удовлетворяющего заявленным требованиям. Иногда, как эксперты, мы слишком спешим, чтобы перейти к чрезмерно спроектированному решению, когда простой «ad-hoc» подход может привести вас к этому с небольшой долей усилий. (Но в принципе я должен указать, что мой подход действительно расширяемый и теоретически может быть обучен на любом количестве логотипов.)
kmote 01 май 2015, в 17:22
2

Разве вам не нужно проверять каждую группу строк / строк на всем изображении, * 360 для каждого возможного поворота, для этого идентификатора «строки»? Я не думаю, что искусственная нейронная сеть вообще поможет в этой проблеме?
NoBugs 30 май 2015, в 19:17
0

Вы не должны искать высокие частоты в красном канале. Глубокий красный = (1,0,0) и белый = (1,1,1). Так что красный не меняется. Это другие компоненты, которые меняются.
Martijn Courteaux 11 окт. 2016, в 19:57
0

Вряд ли стоит упоминать, но, конечно, эта общая идея совершенно не соответствует кватернионной и масштабной инвариантности.
Fattie 25 окт. 2017, в 09:52
0

@NoBugs: (извиняюсь за чрезвычайно задержанный ответ!) Это требует одного прохода через каждую строку изображения, потому что мы не проверяем по однострочному идентификатору, а скорее с помощью скорректированной по ротации коллекции идентификаторов. (См. Раздел «Линии сканирования подписи».)
kmote 25 окт. 2017, в 14:02
0

@Fattie: На самом деле (хотя мне пришлось искать слово «кватернион»!) Я считаю, что оба ваших утверждения неверны. Если вы прочитаете описание более внимательно, вы заметите, что этот подход не зависит от масштаба и вращения. (И вращение по оси z для целей этого подхода эквивалентно масштабированию.)
kmote 25 окт. 2017, в 14:10
0

@kmote Я вижу, вы говорите, что тренировочные линии, на самом деле, скажем, 30 или около того "взяты" под разными углами. Итак, вы предлагаете взять (скажем, около 20)? Линии оригинала, возможно, под 30 углами, составляют около 1000. Затем вы делаете (скажем) около 100 линий сканирования SL изображения. таким образом, для каждого SL «совпадающее красно-белое сканирование» может появляться в: любом масштабе / любом месте в пределах SL. таким образом, мы решим эту конкретную классическую проблему распознавания изображений. таким образом, вы бы сделали 100 000 из этих «линейно-масштабных / позиционно-инвариантных» совпадений маховиков.
Fattie 25 окт. 2017, в 16:01
0

«Разве вам не нужно проверять каждую группу строк / строк на всем изображении, для каждого возможного [многих] поворотов, для этого« строчного »идентификатора» FWIW да, это правильно. обратите внимание, что «каждое» вращение не имеет смысла, вы просто стараетесь изо всех сил, скажем, с 20, 50 или 100 вращениями. В этой схеме для каждого сканирования тестового изображения (скажем, вы взяли 100 из них сверху вниз), вы должны попробовать каждое из этих 100 сканирований с каждым из (скажем) 50 поворотов, в каждом из (скажем, ) 10 или 20 тестовых строк на логотипе.
Fattie 25 окт. 2017, в 16:04
0

(продолжая этот последний комментарий) еще раз, отмечая, что каждый линейный линейный тест в этой предложенной схеме включает в себя неизменность положения / масштаба, которая должна быть решена каким-либо образом.
Fattie 25 окт. 2017, в 16:06

Показать ещё 23 комментария

132

Интересная проблема: когда я взглянул на изображение бутылки, я подумал, что это тоже может быть. Но, как человек, я сделал, чтобы сказать разницу, что я тогда заметил, что это тоже бутылка...

Итак, чтобы разделить банки и бутылки, как насчет просто сканирования бутылок в первую очередь? Если вы его найдете, замаскируйте ярлык, прежде чем искать банки.

Не слишком сложно реализовать, если вы уже делаете банки. Реальный недостаток - это удвоение времени обработки. (Но, думая заранее о реальных приложениях, вы все равно захотите делать бутылки; -)

Darren Cook 16 апр. 2012, в 05:52

5

Да, я тоже об этом думал, но у меня не было много времени, чтобы сделать это. Как бы вы узнали бутылку, поскольку ее основная часть будет выглядеть как чешуйчатая банка? Я тоже думал о том, чтобы найти красную пробку и посмотреть, совпадает ли она с бутылочным центром, но это не очень надежно.
Charles Menguy 16 апр. 2012, в 05:06
38

Если параллельно «кока-коле» есть красная крышка (или кольцо), то это, скорее всего, бутылка.
Lukasz Madon 16 апр. 2012, в 06:52
0

@linker Как вы тренировали свой алгоритм для банок? У вас были примеры банок? Как насчет тренировки с примерами бутылок?
siamii 16 апр. 2012, в 06:53
1

Сила этого алгоритма в том, что вам нужен только один шаблон для обучения, а затем он применяет все преобразования, чтобы сопоставить его с другими потенциальными банками. Я использовал бинаризованную и контурную версию этого шаблона для тренировки, поэтому единственной разницей между банкой и бутылкой была бы пробка, но я боюсь, что это принесет больше ложных срабатываний, поскольку центр тяжести будет где-то на краю или снаружи бутылки. Думаю, стоит попробовать. Но это удвоит мое время обработки, и я заплачу;)
Charles Menguy 16 апр. 2012, в 13:27
6

По сути, это разумное направление. Я бы назвал это немного по-другому: сначала найдите всех кандидатов, а затем для каждого кандидата определите, является ли это бутылкой, банкой или чем-то еще.
MSalters 17 апр. 2012, в 11:53
0

Мне очень нравится этот подход! К сожалению, этого недостаточно для обобщения, так как бутылки - не единственные правдоподобные ложные срабатывания, которые могут быть обнаружены. Я пошел вперед и свернул это в ответ , потому что это было слишком много, чтобы комментировать здесь. :)
MrGomez 22 апр. 2012, в 23:15
0

Вот Это Да! Я действительно думал, что на этой картинке две банки. Я думал, что это была банка в бутылке ... Возможно, вы не должны винить алгоритм за то, что пропустили его, только за то, что не обнаружили другой.
osa 12 авг. 2014, в 23:17
0

Этот «ответ» в лучшем случае просто комментарий. На всем сайте это «не ответ» с наибольшим количеством голосов.
Fattie 25 окт. 2017, в 09:48
0

@LukaszMadon Попробуйте "параллельную" идею для бутылки и банки, выровненной вместе ...
Cœur 21 май 2018, в 12:22

Показать ещё 7 комментариев

96

Разве не сложно даже людям различать бутылку и банку во втором изображении (при условии, что прозрачная область бутылки скрыта)?

Они почти одинаковы, за исключением очень маленькой области (т.е. Ширина в верхней части банки немного маленькая, в то время как обертка бутылки имеет одинаковую ширину, но незначительное изменение справа?)

Первое, что пришло мне в голову, - проверить красную бутылку. Но это все еще проблема, если нет вершины для бутылки или если она частично скрыта (как упоминалось выше).

Во-вторых, я думал о прозрачности бутылки. В OpenCV есть несколько работ по поиску прозрачных объектов в изображении. Проверьте приведенные ниже ссылки.

Особенно посмотрите на это, чтобы увидеть, как точно они обнаруживают стекло:

Записи OpenCV Meeting Minutes 2012-04-24

См. Их результат внедрения:

Они говорят, что это реализация статьи "Геодезическая активная контурная основа для поиска стекла" К. МакГенри и Дж. Понсе, CVPR 2006.

Это может быть полезно в вашем случае немного, но проблема снова возникает, если бутылка заполнена.

Поэтому я думаю, что здесь вы можете сначала искать прозрачное тело бутылок или красную область, связанную с двумя прозрачными объектами в боковом направлении, которая, очевидно, является бутылкой. (При работе в идеале изображение выглядит следующим образом.)

Теперь вы можете удалить желтую область, то есть метку бутылки и запустить свой алгоритм, чтобы найти банку.

Во всяком случае, это решение также имеет разные проблемы, как в других решениях.

Он работает, только если ваша бутылка пуста. В этом случае вам придется искать красную область между двумя черными цветами (если жидкость Coca Cola черная).
Другая проблема, если прозрачная часть покрыта.

Но, в любом случае, если на фотографиях нет упомянутых выше проблем, похоже, это лучше.

Abid Rahman K 19 апр. 2012, в 00:12

0

+1 Я думал об этом и был на моем пути для реализации этого подхода. Тем не менее, @linker должен поделиться своим набором изображений, чтобы мы могли попытаться сделать более образованные догадки.
karlphillip 25 апр. 2012, в 17:28
0

да .. я тоже думаю, что было бы хорошо, если бы было больше изображений.
Abid Rahman K 25 апр. 2012, в 17:35
0

обновил ссылки ..
Abid Rahman K 31 июль 2014, в 15:49
0

Учитывая, что у нас есть только этикетки для бутылок / банок и нет других отличительных факторов для крышки или прозрачности бутылки или банки сверху / снизу - ширина бутылки отличается от ширины банки.
Ken 04 сен. 2017, в 12:10

Показать ещё 2 комментария

41

Мне действительно нравится Darren Cook's и stacker ответы на эту проблему. Я был посреди того, чтобы бросить мои мысли в комментарии к ним, но я считаю, что мой подход слишком ответиен, чтобы не уйти отсюда.

Вкратце, вы определили алгоритм, чтобы определить, что логотип Coca-Cola присутствует в определенном месте в космосе. Теперь вы пытаетесь определить для произвольных ориентаций и произвольных коэффициентов масштабирования эвристику, подходящую для различения банок Coca-Cola из других объектов, включая: бутылки, рекламные щиты, рекламные объявления и атрибуты Coca-Cola, связанные с этим знаковым логотипом. Вы не вызывали многие из этих дополнительных случаев в своем заявлении о проблеме, но я чувствую, что они жизненно важны для успеха вашего алгоритма.

Секрет здесь заключается в определении того, какие визуальные функции могут содержать или, через отрицательное пространство, какие функции присутствуют для других продуктов Coke, которые не присутствуют в банках. С этой целью текущий верхний ответ набросает базовый подход для выбора "can" тогда и только тогда, когда "бутылка" не идентифицируется ни наличием бутылки колпачок, жидкость или другие подобные визуальные эвристики.

Проблема в том, что это ломается. Например, бутылка могла быть пуста и отсутствовала наличие колпачка, что приводило к ложному положительному результату. Или это может быть частичная бутылка с дополнительными функциями, искаженными, снова приводя к ложному обнаружению. Излишне говорить, что это не изящно и не эффективно для наших целей.

С этой целью наиболее правильные критерии выбора для банок выглядят следующим образом:

Является ли форма силуэта объекта, как вы набросали в своем вопросе, правильно? Если это так, +1.
Если мы предполагаем наличие естественного или искусственного света, мы обнаруживаем хром-план для бутылки, который означает, что это сделано из алюминия? Если это так, +1.
Определим ли мы, что зеркальные свойства объекта относительно наших источников света (иллюстративная видеосвязь на обнаружение источника света)? Если это так, +1.
Можем ли мы определить любые другие свойства объекта, которые идентифицируют его как банку, включая, но не ограничиваясь этим, топологическое искажение логотипа, ориентацию объекта, сопоставление объекта (например, на плоскую поверхность, подобную таблице или в контексте других банок), и наличие выталкивающей вкладки? Если да, то для каждого +1.

Ваша классификация может выглядеть следующим образом:

Для каждого совпадения кандидатов, если обнаружено присутствие логотипа Coca Cola, нарисуйте серая рамка.
Для каждого совпадения над +2 нарисуйте красную рамку.

Это визуально подчеркивает пользователю то, что было обнаружено, подчеркивая слабые положительные результаты, которые могут быть правильно обнаружены как искаженные банки.

Обнаружение каждого свойства имеет очень разную временную и пространственную сложность, и для каждого подхода быстрый проход через http://dsp.stackexchange.com более чем разумен для определения наиболее правильный и эффективный алгоритм для ваших целей. Мое намерение здесь состоит в том, чтобы чисто и просто подчеркнуть, что обнаружение, если что-то может быть, путем аннулирования небольшой части пространства обнаружения кандидата, не является самым надежным или эффективным решением этой проблемы, и в идеале вы должны предпринять соответствующие действия соответственно.

И привет, поздравляю публикацию Hacker News! В целом, это довольно потрясающий вопрос, достойный публичности, которую он получил.:)

MrGomez 23 апр. 2012, в 00:10

2

Это интересный подход, который, по крайней мере, стоит попробовать, мне очень нравятся ваши рассуждения о проблеме
Charles Menguy 23 апр. 2012, в 00:37
0

Это своего рода то, о чем я думал: не исключайте конкретные виды ложных срабатываний. Правило в том, что делает колу. Но мне интересно: что ты делаешь со сплющенной банкой? Я имею в виду, если вы наступите на колу, это все равно будет кола. Но он больше не будет иметь такую же форму. Или это проблема AI-Complete?
Ian 24 июнь 2012, в 06:31

36

Глядя на форму

Возьмите гусак в форме красной части банки/бутылки. Обратите внимание на то, как консервная банка слегка сужается на самом верху, а этикетка бутылки - прямо. Вы можете различать эти два, сравнивая ширину красной части по ее длине.

Глядя на основные моменты

Одним из способов различения бутылок и банок является материал. Бутылка изготовлена из пластика, тогда как банда изготовлена из алюминиевого металла. В достаточно хорошо освещенных ситуациях просмотр зеркальности будет одним из способов сказать этикетку с этикеткой на этикетке.

Насколько я могу судить, так это то, как человек скажет разницу между двумя типами этикеток. Если условия освещения плохие, неизбежно будет какая-то неопределенность в том, чтобы различать два в любом случае. В этом случае вы должны были бы обнаружить присутствие прозрачной/полупрозрачной бутылки.

tskuzzy 16 апр. 2012, в 09:13

0

Мне нравится идея, но, похоже, вам нужны действительно хорошие условия освещения. На примере изображения, где есть и банка, и бутылка, например, это довольно сложно различить.
Charles Menguy 17 апр. 2012, в 00:20
0

В вашем примере, обратите внимание, что зеркальность пластиковой этикетки гораздо более размыта, чем очень яркие пятна на банке? Вот как ты можешь сказать.
tskuzzy 17 апр. 2012, в 00:38
0

Я вижу, какой тип цветового пространства вы бы использовали в этом случае для отражения зеркальности в вашем алгоритме? Это кажется довольно сложным, чтобы получить в RGB или HSV
Charles Menguy 17 апр. 2012, в 00:55
2

Что, если источник света был позади банки? Я думаю, что вы не увидите основной момент.
Rui Marques 23 фев. 2014, в 22:17

Показать ещё 2 комментария

30

Пожалуйста, взгляните на Zdenek Kalal Отслеживание хищников. Это требует некоторой подготовки, но она может активно изучать, как отслеживаемый объект смотрит на разные ориентации и масштабы и делает это в реальном времени!

Исходный код доступен на его сайте. Он находится в MATLAB, но, возможно, есть реализация Java, уже сделанная членом сообщества. Я успешно выполнил повторную реализацию трекерной части TLD в С#. Если я правильно помню, TLD использует Ferns в качестве детектора ключевой точки. Вместо этого я использую SURF или SIFT (уже предложенный @stacker), чтобы повторно захватить объект, если он был потерян трекером. Обратная связь с трекером позволяет легко создавать со временем динамический список шаблонов sift/surf, которые со временем позволяют повторно захватить объект с очень высокой точностью.

Если вы заинтересованы в моей реализации С# трекера, не стесняйтесь спрашивать.

user1222021 17 апр. 2012, в 21:21

0

Спасибо за ссылку, которая выглядит интересно. Что касается обучения, каков размер тренировочного набора, который был бы разумным для достижения разумных результатов? Если у вас есть реализация, даже в C #, это было бы очень полезно!
Charles Menguy 18 апр. 2012, в 14:40
0

Исследуя TLD, я обнаружил, что другой пользователь ищет реализацию C # - есть ли причина не размещать вашу работу на Github? stackoverflow.com/questions/29436719/...
spillner 11 март 2018, в 14:47
1

NB Лет, позже, ссылка сейчас мертва
G Forty 05 май 2018, в 12:10
0

Новая ссылка: kahlan.eps.surrey.ac.uk/featurespace/tld
MTCoster 02 дек. 2018, в 16:36

Показать ещё 2 комментария

25

Если вы не ограничены только камерой, которая не была в одном из ваших ограничений, возможно, вы можете перейти к использованию датчика дальности, такого как Xbox Kinect. С помощью этого вы можете выполнить согласованную сегментацию изображения на основе глубины и цвета. Это позволяет быстрее разделять объекты на изображении. Затем вы можете использовать сопоставление ICP или аналогичные методы, чтобы даже соответствовать форме, а не просто ее контуру или цвет, и учитывая, что она является цилиндрической, это может быть допустимым вариантом для любой ориентации, если у вас есть предыдущее 3D-сканирование цели. Эти методы часто бывают довольно быстрыми, особенно когда они используются для такой конкретной цели, которая должна решить вашу проблему скорости.

Также я мог бы предложить, не обязательно для точности или скорости, но для удовольствия вы могли бы использовать обученную нейронную сеть на своем сегментированном изображении с оттенком, чтобы идентифицировать форму банки. Они очень быстрые и часто могут быть точными до 80/90%. Тренировка будет немного долгим процессом, хотя вам придется вручную идентифицировать банку в каждом изображении.

Fantastic Mr Fox 16 апр. 2012, в 06:34

3

На самом деле я не объяснил это в посте, но для этого задания мне дали набор из примерно 30 изображений, и мне пришлось создать алгоритм, который бы соответствовал всем им в различных ситуациях, как описано. Конечно, некоторые изображения были проведены для проверки алгоритма в конце. Но мне нравится идея датчиков Kinect, и я хотел бы прочитать больше на эту тему!
Charles Menguy 16 апр. 2012, в 04:56
0

Каков примерно размер тренировочного набора с нейронной сетью для получения удовлетворительных результатов? Что хорошо в этом методе, так это то, что мне нужен только один шаблон, чтобы соответствовать почти всем.
Charles Menguy 16 апр. 2012, в 05:00
2

Если ваш набор изображений предопределен и ограничен, просто хардкорные идеальные результаты в вашей проге;)
sne11ius 16 апр. 2012, в 06:06
0

Да, если я потренируюсь на наборе данных, с которым собираюсь запустить алгоритм, уверен, что получу отличные результаты :) Но, например, для этого задания, учитель в конце протестировал программу на наборе выдвинутых изображений , Я хотел бы сделать что-то, что было бы надежным и не соответствовало бы тренировочным данным.
Charles Menguy 16 апр. 2012, в 06:07
0

Количество тренировочных наборов может быть разным, но вы должны быть осторожны в нескольких вещах: не перетренируйтесь, вы, вероятно, хотите, чтобы тестовый набор показал вашу точность. Также количество тренировочных наборов будет зависеть от количества слоев, которые вы будете использовать.
Fantastic Mr Fox 16 апр. 2012, в 22:51
0

Что касается нейронных сетей в контексте распознавания форм, знаете ли вы что-то подобное в OpenCV? Или, если мне нужно будет реализовать свой собственный?
Charles Menguy 17 апр. 2012, в 00:21
0

Возможно, вы захотите реализовать свой собственный. Я не видел ничего в openCV.
Fantastic Mr Fox 26 апр. 2012, в 01:01
0

@ Толстяк За первым предложением вы бы заметили, как использовать технику для сопоставления трехмерных изображений. Я также написал это довольно новое в этой области за 5 лет до вашего комментария ...
Fantastic Mr Fox 06 нояб. 2018, в 16:41

Показать ещё 6 комментариев

21

Я бы обнаружил красные прямоугольники: RGB → HSV, фильтр red → двоичное изображение, закрыть (расширение затем размывается, называемое imclose в matlab)

Затем просмотрите прямоугольники от самых больших до самых маленьких. Прямоугольники, которые имеют меньшие прямоугольники в известном положении/масштабе, могут быть удалены (при условии, что пропорции бутылки постоянны, меньший прямоугольник будет крышкой для бутылок).

Это оставит вас с красными прямоугольниками, тогда вам нужно каким-то образом обнаружить логотипы, чтобы узнать, красные ли они прямоугольники или кокс. Как OCR, но с известным логотипом?

Alex L 16 апр. 2012, в 07:29

2

Как это обсуждалось на DSP за короткое время, когда он был перемещен, некоторые бутылки могут не иметь пробок;) или пробка может быть частично скрыта.
Charles Menguy 16 апр. 2012, в 18:31

19

Это может быть очень наивная идея (или может вообще не работать), но размеры всех кокса могут быть исправлены. Так может быть, если одно и то же изображение содержит как банку, так и бутылку, тогда вы можете рассказать их отдельно по соображениям размера (бутылки будут больше). Теперь из-за недостающей глубины (т.е. 3D-сопоставление для двумерного отображения) возможно, что бутылка может казаться сжатой и не существует разницы в размерах. Вы можете восстановить некоторую информацию о глубине с помощью стереоизображения, а затем восстановить исходный размер.

Sharad 16 апр. 2012, в 06:16

3

На самом деле нет: нет никаких ограничений по размеру или ориентации (или ориентации, но я на самом деле не справился с этим), поэтому вы можете иметь бутылку очень далеко на заднем плане, и банку на переднем плане, и банка будет намного больше чем бутылка.
Charles Menguy 16 апр. 2012, в 05:16
0

Я также проверил, что отношение ширины к высоте очень похоже на бутылку и может, так что это тоже не вариант.
Charles Menguy 16 апр. 2012, в 05:17
0

Соотношение меток (будучи товарным знаком) одинаково. Таким образом, если (большая) бутылка находится немного дальше на картинке, ее размер будет точно таким же, как и размер банки.
littleadv 16 апр. 2012, в 05:18
0

Да, именно поэтому я предлагаю стереоизображение, чтобы восстановить глубину в первую очередь. Используя стереоизображение, вы можете получить глубину, а затем оценить фактический размер, добавив информацию о глубине.
Sharad 16 апр. 2012, в 05:21
3

Чтобы объяснить немного больше. Предположим, что банка находится при z = 0, а бутылка при z = -100. Поскольку бутылка далеко позади, она будет выглядеть меньше. Но если я знаю, что бутылка находится в точке z = -100 и может в точке z = 0, тогда я могу рассчитать ожидаемый размер банки / бутылки, если оба значения будут переведены в z = 0. Так что теперь они на одной глубине, и, следовательно, я могу принимать решения на основе размера.
Sharad 16 апр. 2012, в 05:24
1

Это просто комментарий, а не ответ, но он гораздо ближе к тому, чтобы быть ответом, чем приведенный выше комментарий с ответом со 120 голосами.
Fattie 25 окт. 2017, в 09:49

Показать ещё 4 комментария

14

Хм, я на самом деле думаю, что нахожусь на чем-то (это похоже на самый интересный вопрос, когда-либо), поэтому было бы позором не продолжать пытаться найти "идеальный" ответ, хотя приемлемый был найден)...

Как только вы найдете логотип, ваши проблемы будут выполнены наполовину. Тогда вам нужно только выяснить различия между тем, что вокруг логотип. Кроме того, мы хотим сделать как можно меньше. Я думаю, что это на самом деле эта легкая часть...

Что вокруг логотипа? Для банки можно увидеть металл, который, несмотря на эффекты освещения, не меняет своего основного цвета. Пока мы знаем угол метки, мы можем сказать, что прямо над ним, поэтому мы смотрим на разницу между ними:

Здесь, что выше и ниже логотипа полностью темное, непротиворечивое по цвету. Относительно легко в этом отношении.

Здесь, что выше и ниже, является светлым, но все же последовательным по цвету. Это все-серебро, и все-серебристый металл на самом деле кажется довольно редкими, а также серебряными цветами в целом. Кроме того, он в тонкой скользкой и достаточно близко к красному, который уже был идентифицирован, чтобы вы могли проследить его форму на всю длину, чтобы рассчитать процент от того, что можно считать металлическим кольцом банки. На самом деле, вам нужна лишь небольшая часть того, что можно найти в любом месте, чтобы сказать, что это часть его, но вам все равно нужно найти баланс, который гарантирует ему не просто пустую бутылку с чем-то металлическим за ней.

И, наконец, сложный. Но не так сложно, как только мы пойдем только по тому, что мы можем видеть непосредственно над (и ниже) красной оберткой. Его прозрачность, что означает, что она покажет все, что стоит за ней. Это хорошо, потому что вещи, которые стоят за ним, вряд ли будут такими же последовательными по цвету, как серебряный круговой металл банки. За этим может быть много разных вещей, которые говорят нам, что это пустая (или наполненная прозрачной жидкостью) бутылка или постоянный цвет, который может означать, что он заполнен жидкостью или что бутылка просто перед сплошной цвет. Мы работаем с тем, что ближе всего к вершине и дну, и шансы на правильные цвета в правильном месте относительно тонкие. Мы знаем, что это бутылка, потому что у нее нет такого ключевого визуального элемента банки, который относительно упрощен по сравнению с тем, что может быть за бутылкой.

(последний из них был лучшим, что я мог найти в пустой большой бутылке с кокой-колой - интересно, что кепка и кольцо желтые, что указывает на то, что покраснение шапки, вероятно, не следует полагаться)

В редких случаях, когда подобный оттенок серебра стоит за бутылкой, даже после абстракции пластика, или бутылка каким-то образом заполнена тем же оттенком серебристой жидкости, мы можем отбросить то, что мы можем приблизительно оценить как форма серебра - как я уже упоминал, круглая и следует за формой банки. Но даже если мне не хватает знаний в обработке изображений, это звучит медленно. Еще лучше, почему бы не вывести это за однократную проверку сторон логотипа, чтобы убедиться, что там нет ничего такого же серебряного цвета? Ах, но что, если там есть такой же оттенок серебра за банкой? Затем мы действительно должны уделять больше внимания формам, снова глядя на верхнюю и нижнюю часть банки.

В зависимости от того, насколько безупречно это все должно быть, это может быть очень медленным, но я полагаю, что моя основная концепция - сначала проверить самые простые и самые близкие вещи. Идите по цветовым различиям вокруг уже подобранной формы (которая, кажется, самая тривиальная часть этого в любом случае), прежде чем приступить к разработке формы других элементов. Для его перечня:

Найдите основную привлекательность (красный фон логотипа и, возможно, логотип для ориентации, хотя в случае отказа банки можно сосредоточиться только на красном).
Проверьте форму и ориентацию, еще раз через очень своеобразную покраснение.
Проверьте цвета вокруг формы (так как это быстро и безболезненно)
Наконец, при необходимости проверьте форму этих цветов вокруг главной притяжения для правильной округлости.

В случае, если вы не можете этого сделать, это, вероятно, означает, что верхняя и нижняя части банки покрыты, и единственно возможными вещами, которые человек мог бы использовать для надежного проведения различия между банкой и бутылкой, является окклюзии и отражения банки, что было бы тяжелой биткой . Тем не менее, чтобы идти еще дальше, вы можете следить за углом банки/бутылки, чтобы проверить больше признаков, подобных бутылочке, используя полупрозрачные методы сканирования, упомянутые в других ответах.

Интересные дополнительные ночные кошмары могут включать в себя удобную сидячую за бутылкой на таком расстоянии, что металл его просто так выглядит, как показано выше и ниже метки, который все равно будет терпеть неудачу, пока вы сканируете по всей длине красной этикетки - на самом деле это больше проблема, потому что вы не обнаруживаете банку, где могли бы быть, а не считаете, что вы на самом деле обнаруживаете бутылку, в том числе банку, случайно. В этом случае стекло будет наполовину пустым!

Как отказ от ответственности, у меня нет опыта и никогда не думал об обработке изображений за пределами этого вопроса, но это так интересно, что я подумал об этом довольно глубоко, и, прочитав все остальные ответы, я считаю это возможно, самый простой и наиболее эффективный способ сделать это. Лично я просто рад, что мне не нужно думать о программировании этого!

ИЗМЕНИТЬ

Кроме того, посмотрите на этот рисунок, который я сделал в MS Paint... Это абсолютно ужасно и довольно неполно, но, основываясь только на форме и цветах, вы можете догадаться, что это будет. По сути, это единственные вещи, которые нужно искать для сканирования. Когда вы смотрите на эту очень своеобразную форму и сочетание цветов настолько близко, что еще может быть? Бит, который я не рисовал, на белом фоне, должен считаться "чем-то непоследовательным". Если бы у него был прозрачный фон, он мог бы переходить практически на любое другое изображение, и вы все равно могли бы его видеть.

Deji 12 июль 2014, в 17:22

10

Конкретный оттенок красного является в основном субъективным и сильно зависит от освещения и баланса белого. Вы можете быть удивлены тем, насколько они могут измениться. Рассмотрим, к примеру, эту иллюзию шахматной доски .
Octopus 20 авг. 2015, в 21:16

14

Я не знаю OpenCV, но, глядя на проблему логически, я думаю, что вы можете различать бутылку и можете, изменив изображение, которое вы ищете, например, Coca Cola. Вы должны включить до верхней части банки, так как в случае может быть серебряная подкладка наверху кока-колы, а в случае бутылки такой серебряной подкладки не будет.

Но очевидно, что этот алгоритм потерпит неудачу в тех случаях, когда вершина can скрыта, но в этом случае даже человек не сможет отличить два (если видна только часть кока-колы бутылки/банки)

techExplorer 19 апр. 2012, в 07:18

1

У меня была такая же мысль, но я думаю, что серебряная подкладка на верхней части банки резко меняется в зависимости от угла банки на изображении. Это может быть прямая линия или круг. Может быть, он мог использовать оба в качестве ссылки?
Alexis Dufrenoy 24 апр. 2012, в 14:55

11

Мне нравится вызов и я хочу дать ответ, который решает проблему, я думаю.

Извлечь функции (ключевые точки, дескрипторы, такие как SIFT, SURF) логотипа
Совместите точки с образцом модели логотипа (используя Matcher, например Brute Force)
Оцените координаты твердого тела (проблема PnP - SolvePnP)
Оцените положение крышки в соответствии с жестким корпусом
Сделайте обратную проекцию и вычислите положение пикселя изображения (ROI) крышки бутылки (я предполагаю, что у вас есть внутренние параметры камеры)
Проверьте, существует ли кепка или нет. Если есть, то это бутылка

Обнаружение крышки - еще одна проблема. Это может быть сложным или простым. Если бы я был вами, я бы просто проверил цветную гистограмму в ROI для простого решения.

Пожалуйста, дайте отзыв, если я ошибаюсь. Благодарю.

edayangac 24 сен. 2013, в 14:56

9

Существует множество цветовых дескрипторов, используемых для распознавания объектов, в приведенной ниже статье сравниваются многие из них. Они особенно эффективны в сочетании с SIFT или SURF. Только SURF или SIFT не очень полезны для изображения кока-колы, потому что они не распознают множество точек интереса, вам нужна информация о цвете, чтобы помочь. Я использую BIC (Border/Interior Pixel Classi fiation) с SURF в проекте, и он отлично работал для распознавания объектов.

Цветовые дескрипторы для поиска веб-изображений: сравнительное исследование

Guilherme Defreitas 03 янв. 2013, в 17:07

1

Ссылка не работает.
Rui Marques 23 фев. 2014, в 22:00

8

Мне нравится ваш вопрос, независимо от того, не зависит от него: P

Интересный в стороне; Я только что закончил тему в своей области, где мы рассмотрели робототехнику и компьютерное зрение. Наш проект на семестр был невероятно похож на тот, который вы описываете.

Нам пришлось разработать робот, который использовал Xbox Kinect для обнаружения коксовых бутылок и банок на любой ориентации в различных условиях освещения и окружающей среды. Наше решение включало использование полосового фильтра на канале Hue в сочетании с преобразованием окружности hough. Мы смогли немного ограничить окружающую среду (мы могли бы выбрать, где и как расположить робота и датчик Kinect), иначе мы собирались использовать преобразования SIFT или SURF.

Вы можете прочитать о нашем подходе на моем сообщении в блоге по теме:)

aaronsnoswell 04 янв. 2013, в 07:40

2

Интересный проект, но он относится только к вашей очень конкретной настройке.
Rui Marques 23 фев. 2014, в 22:01

7

Вам нужна программа, которая изучает и улучшает точность классификации органически из опыта.

Я предлагаю глубокое обучение, с глубоким обучением это становится тривиальной проблемой.

Вы можете перенастроить начальную модель v3 на Tensorflow:

Как перенести начальный конечный уровень для новых категорий.

В этом случае вы будете обучать сверточную нейронную сеть, чтобы классифицировать объект, как может кока-кола или нет.

Nuelsian 08 сен. 2017, в 18:33

2

Хот-дог или не хот-дог?
YellowPillow 01 авг. 2018, в 06:09

6

Глубокое обучение

Соберите по меньшей мере несколько сотен изображений, содержащих банки колы, аннотируйте ограничивающий прямоугольник вокруг них как положительные классы, включая бутылки колы и другие продукты колы, обозначающие их отрицательные классы, а также случайные объекты.

Если вы не собираете очень большой набор данных, выполните трюк использования глубоких функций обучения для небольшого набора данных. Идеально использовать комбинацию векторных машин поддержки (SVM) с глубокими нейронными сетями.

После того, как вы загрузите изображения в ранее обученную модель глубокого обучения (например, GoogleNet), вместо использования уровня принятия решений (окончательного) уровня нейронной сети для использования классификаций используйте данные предыдущего уровня (ов) как функции для обучения вашего классификатора.

OpenCV и Google Net: http://docs.opencv.org/trunk/d5/de7/tutorial_dnn_googlenet.html

OpenCV и SVM: http://docs.opencv.org/2.4/doc/tutorials/ml/introduction_to_svm/introduction_to_svm.html

Semih Korkmaz 08 май 2017, в 21:08

5

Я несколько лет опаздываю, отвечая на этот вопрос. Поскольку в последние 5 лет современное искусство подтолкнуло CNN к своим пределам, я бы не стал использовать OpenCV для выполнения этой задачи сейчас! (Я знаю, что вам особенно нужны функции OpenCv в вопросе). Я считаю, что алгоритмы обнаружения объектов, такие как Faster-RCNN, YOLO, SSD и т.д., будут иметь эту проблему со значительным запасом по сравнению с функциями OpenCV. Если бы я решил решить эту проблему сейчас (через 6 лет!!), я бы определенно использовал Faster-RCNN.

Abhijit Balaji 16 март 2018, в 04:47

5

В качестве альтернативы всем этим приятным решениям вы можете обучить свой собственный классификатор и сделать ваше приложение устойчивым к ошибкам. В качестве примера вы можете использовать Haar Training, предоставляя большое количество положительных и отрицательных изображений вашей цели.

Полезно извлекать только банки и их можно комбинировать с обнаружением прозрачных объектов.

madduci 04 дек. 2014, в 07:04

2

Ответы на этой странице действительно равны:

"использовать SIFT"
"использовать Kinect"

Если вас не интересует фактическая информатика распознавания образов, и вы просто хотите "использовать" что-то (например, SIFT или Kinect),

сегодня повсеместно просто использовать общедоступные системы распознавания образов.

По состоянию на 2017 год и в течение многих лет распознавание изображений широко и тривиально доступно.

Вы больше не сядете и (попробуете) добиться распознавания образов с нуля, чем сядете и начнете собирать и отображать карты, или что вы начнете рендеринг HTML с нуля или напишите базу данных SQL с нуля.

Вы просто используете тензометр Google (они достигли точки построения чипов, ради всего прочего, быстрее обрабатывать тензорный поток), Clarifai, Bluemix или что-то еще.

AWS только что выпустила хороший для распознавания изображений (2018).

Например, для использования любой из этих служб это несколько строк кода....

func isItACokeCan() {

    jds.headers = ["Accept-Language":"en"]
    let h = JustOf<HTTP> ...use your favorite http library

    let u: String =
        "https://gateway-a.watsonplatform.net/visual-recognition/api/v3/classify"
        + "?api_key= ... your API key ..."
        + "&version=2016-05-20"
        + "&classifier_ids= ... your Classifier name ..."

    h.post( u,
        files: ["x.jpeg": .data("x.jpeg", liveImageData!, "image/jpeg")]

    ) { r in
        if r.ok { DispatchQueue.main.async { self.processResult(r.json) } }
        else { DispatchQueue.main.async { self.doResults("network woe?") } }
    }
}

func processResult(_ rr: Any?){
    let json = JSON(rr!)
    print("\(json)")
}

Это буквально даст вам лучшее, существующее, кокс-распознавание на Земле, в настоящее время достигнутое.

По состоянию на 2018 год вы больше не можете сидеть и "писать лучше распознавания кокса, чем Bluemix", чем вы могли бы "сесть и написать лучшую программу Go, чем AlphaGo".

Системы, такие как Siri, Google Maps, BAAS, основные усилия по обработке изображений - и, очевидно, поиск в тексте google - меняют игру.

Обратите внимание на невероятную разницу только после того, как этот вопрос был задан шесть лет назад.

Во что бы то ни стало , если вы попали в фактическую компьютерную науку распознавания образов, перейдите к ней.

Но этот QA, по-видимому, является скорее обзором технологий.

Так как ответы здесь говорят "использовать библиотеку SIFT" - вы действительно этого не сделали. (Опять же - не более, чем вы по какой-то причине трудолюбиво программируете веб-сервер или базу данных SQL с нуля!)

Вы просто подключаетесь к хорошо известным, вездесущим системам распознавания образов "BAAS" - это строка кода.

Fattie 01 окт. 2017, в 13:47

2

Существует пакет компьютерного зрения под названием HALCON от MVTec, чьи демонстрации могут дать вам хорошие алгоритмические идеи. Существует множество примеров, похожих на вашу проблему, которые вы можете запустить в демонстрационном режиме, а затем посмотреть на операторов в коде и посмотреть, как их реализовать из существующих операторов OpenCV.

Я использовал этот пакет, чтобы быстро прототипировать сложные алгоритмы для таких проблем, а затем найти, как их реализовать, используя существующие функции OpenCV. В частности, для вашего случая вы можете попытаться реализовать в OpenCV функциональность, встроенную в оператор find_scaled_shape_model. Некоторые операторы указывают на научную статью о реализации алгоритма, которая может помочь выяснить, как сделать что-то подобное в OpenCV. Надеюсь, это поможет...

Darien Pardinas 10 апр. 2014, в 00:41

0

Вы всегда можете обучить каскадный классификатор HAAR, поддерживаемый opencv. Вы можете использовать в качестве положительных образцов бутылки, банки и т.д., Также обнаруживая объекты коки с разными этикетками!

ЗДЕСЬ вы можете воспользоваться некоторыми полезными ссылками, которые помогут вам в обучении.

Roberto Manfreda 28 июнь 2018, в 09:38

0

Возможно, слишком много лет поздно, но тем не менее теория, чтобы попробовать.

Отношение ограничивающего прямоугольника красной области логотипа к общему размеру бутылки/банки отличается. В случае Can, должно быть 1:1, тогда как будет отличаться от бутылки (с крышкой или без нее). Это должно облегчить различие между ними.

Обновление: Горизонтальная кривизна области логотипа будет отличаться между Can и Bottle из-за их соответствующей разницы в размерах. Это может быть особенно полезно, если вашему роботу необходимо забрать банку/бутылку, и вы решите захват соответственно.

K B 05 фев. 2018, в 20:16

0

Первыми вещами, которые я бы искал, являются цветные - например, RED, при обнаружении эффекта "красных глаз" на изображении - существует определенный диапазон цветов для обнаружения, некоторые характеристики об этом, учитывая окружающие области и такие, как расстояние, отличное от другого глаз, если он действительно виден на изображении.

1: Первая характеристика - цвет, а красный - очень доминирующий. После обнаружения Coca Cola Red есть несколько объектов, представляющих интерес 1A: Насколько велика эта красная область (достаточно ли количества, чтобы определить истинную возможность или нет - 10 пикселей, вероятно, недостаточно), 1B: содержит ли он цвет ярлыка - "Coca-Cola" или волна. 1B1: достаточно ли рассмотреть высокую вероятность того, что это метка.

Пункт 1 - это вид короткого вырезания - предварительный процесс, если этот сотовый объект существует в изображении - двигайтесь дальше.

Итак, если это так, то я смогу использовать этот сегмент своего изображения и начну искать более масштабное изображение из области, о которой идет речь, - в основном посмотрите на окружающий регион/края...

2: Учитывая указанную выше ID области изображения в 1 - проверьте окружающие точки [края] рассматриваемого предмета. A: Есть ли что-то сверху или снизу - серебро? B: Бутылка может казаться прозрачной, но также может быть стеклянный стол - так есть стеклянный стол/полка или прозрачная область - если так, то есть несколько возможных вариантов. Бутылка MIGHT имеет красную крышку, она может и не быть, но должна иметь либо форму винтов/винтов для бутылок, либо колпачок. C: Даже если это не удается A и B, оно все еще может быть частично. Это более сложно, если это частично, потому что частичная бутылка/частичная может выглядеть одинаково, поэтому некоторая дополнительная обработка измерения края красной области до края. Маленькая бутылка может быть похожа по размеру.

3: После вышеупомянутого анализа, когда я посмотрю на надпись и логотип волны - потому что я могу ориентировать мой поиск некоторых букв в словах. Поскольку у вас может не быть всего текста из-за отсутствия все банки могут выровняться в определенных точках в тексте (на расстоянии), чтобы я мог найти эту вероятность и знать, какие буквы должны существовать в этой точке волны на расстоянии х.

Ken 04 сен. 2017, в 12:10

0

Если вы заинтересованы в том, чтобы быть в реальном времени, то вам нужно добавить фильтр предварительной обработки, чтобы определить, что сканируется с помощью тяжелых вещей. Хороший быстрый, очень реальном времени, фильтр предварительной обработки, который позволит вам сканировать вещи, которые, скорее всего, будут кока-колой, может не выглядеть, чем прежде, чем перейти к более случайным вещам, это примерно так: поиск изображения для самых больших патчей цвета, которые являются определенным допуском от sqrt(pow(red,2) + pow(blue,2) + pow(green,2)) вашей кока-колы. Начните с очень строгой цветоустойчивости и проведите свой путь до более мягких цветовых допусков. Затем, когда ваш робот исчерпал выделенное время для обработки текущего кадра, он использует найденные в настоящее время бутылки для ваших целей. Обратите внимание, что вам нужно будет настроить цвета RGB в sqrt(pow(red,2) + pow(blue,2) + pow(green,2)), чтобы получить их в порядке.

Кроме того, это gona кажется действительно тупым, но вы обязательно включили оптимизацию компилятора -oFast при компиляции кода C?

user7892745 12 май 2017, в 23:17

-2

Я думаю, что лучшая разница между меткой бутылки и ярлыком может выглядеть следующим образом: Буклетная этикетка прямо по краям сверху вниз. Может ли изображение вверху становится тоньше. Помимо этого, с точки зрения алгоритма чрезвычайно сложно сделать разницу. В моем алгоритме, анализируя моменты, я бы специально искал эту функцию.

Wojciech Krukar 03 дек. 2017, в 02:58

Ещё вопросы

Можно было бы сказать, что этот вопрос более уместен на dsp.stackexchange.com или stats.stackexchange.com, и вам, безусловно, следует рассмотреть возможность повторного запроса и на этих сайтах.
Первое, что нужно сделать здесь, это проанализировать, почему происходят разные случаи сбоев. Например, выделите примеры мест, где выигрывают бутылки, где изображения нечеткие и т. Д., И проведите некоторый статистический анализ, чтобы узнать разницу между их представлениями Хафа и теми, которые вы хотели бы обнаружить. Некоторые отличные места, чтобы узнать об альтернативных подходах здесь и здесь
@linker Не будет ли извлекать функции SIFT или SURF намного быстрее, чем преобразование hough? Зачем обнаруживать банки только тогда, когда вы можете обнаружить больше зарегистрированных объектов?
@stacker делает хорошую мысль. Для скорости вы хотите получить дешевые функции для вычисления, такие как гистограммы ориентированных градиентов. По-настоящему наивным первым подходом было бы вручную пометить группу банок прямоугольников на некоторых обучающих изображениях и использовать эти плюс случайные отрицательные примеры для обучения SVM или классификатора дерева решений. Обучение займет больше времени, но выполнение новых изображений будет намного быстрее. Я планирую написать этот метод, когда у меня будет больше свободного времени, чтобы включить правильные ссылки.
@stacker Я сделал это, потому что область назначения была специально нацелена на банки CocaCola. Я мало что знаю о SIFT или SURF, но если этот алгоритм подходит для этой проблемы, я бы хотел увидеть ответ по этой теме.
Как насчет подхода, похожего на reCAPTCHA ? ;)
Почему это было перенесено с dsp.stackexchange.com ? Кажется, что этот сайт будет даже лучше, чем stackoverflow o_O
@GeorgeDuckett reCAPTCHA может быть идеей, но у вас нет абсолютно никаких гарантий, что буквы Coca-Cola будут видны, они могут быть полностью скрыты, частично скрыты или их можно будет перевернуть. И не решает проблему с бутылкой, так как буквы одинаковы.
Вы пытались обнаружить верхнее или нижнее уплотнение банки? Можно было бы обнаружить его как край, параллельный краю красной области.
Я не имел в виду распознавание персонажей, я имел в виду использование идеи людей для поиска. Затем я покажу 2 изображения, одно из которых известно, а другое - нет. Просто пошутил. :-)
Можете ли вы добавить еще несколько тестовых изображений, чтобы получить гораздо больше идей?
Вы пробовали это без преобразования RGB в HSV? Я думаю, что ваша проблема с бутылками заключается в вашем обращении, на самом деле вы убрали свои банки в первый шаг.
@SaeedAmiri Нет, преобразование в HSV работает нормально, просто я могу исключить некоторые вещи, которые явно не похожи на красные. Может и бутылка все еще там, даже после перехода на HSV, проблема в основном в том, как провести различие между двумя, поскольку они имеют общие характеристики.
Но, кажется, ваш образец говорит что-то еще, я думаю, что в вашем первом примере после предварительной обработки изображения могут быть удалены? Вы бы организовали свои образцы шаг за шагом?
@SaeedAmiri О, я понимаю, что вы имеете в виду, изображения 2 и 3 в моем вопросе не совпадают оригинал! На изображении 3 была только банка. Я мог бы написать больше, но пытался свести вопрос к строгому минимуму. Просто предположим, что трансляция HSV правильно хранит как банки, так и бутылки (+ немного шума по всему изображению)
У меня есть большой интерес к этому виду программного обеспечения. Кто-нибудь знает, есть ли зрелая и хорошо зарекомендовавшая себя библиотека Java для распознавания изображений?
@EdPichler openCV совсем недавно выпустили свои java-привязки для своей библиотеки (по состоянию на 2.4.4). Итак, в основном вы можете использовать openCV в Java (без всякой суеты делать JNI вручную). Я попробовал это, и это работало хорошо (но это все еще глючит, так как это совсем недавно)
Это все над моей головой, но я подумал: «Почему бы не использовать модуль GPU OpenCV и использовать преимущества своего GPU, чтобы значительно ускорить его?» OpenCV в основном имеет модуль GPU, который имеет алгоритмы, такие как Hough Transforms и что-то не написанное в CUDA, и работает на GPU с поддержкой CUDA. Самое замечательное в том, что нет необходимости изучать CUDA. Просто импортируйте модуль GPU и начните использовать его. Я надеюсь, что это помогает (теоретически это должно повысить производительность на порядок или более)
Это похоже на очевидное применение сверточной нейронной сети с инвариантностью масштаба / вращения.
Если вы используете грубое преобразование, вы должны использовать более быструю версию исходного алгоритма. Вы можете изменить грубое преобразование, чтобы сосредоточиться только на параметрах с высокой вероятностью, используя такие методы, как RANSAC.
Только информация особого красного и белого в кока-коле достаточно различима.
Это один из самых крутых проектов, которые я когда-либо видел в StackOverflow.
1337! Пожалуйста, никто не поднимает этот вопрос снова
Этот вопрос должен быть закрыт по 5 или 6 различным причинам, пожалуйста, нажмите кнопку «Закрыть».
Реальный вопрос заключается в том, может ли can can can?
Это отличное предложение, мне особенно нравится тот факт, что этот алгоритм должен быть довольно быстрым, даже если он, вероятно, будет содержать много ложных негативов. Одна из моих скрытых целей - использовать это обнаружение в режиме реального времени для робототехники, так что это может быть хорошим компромиссом!
Да, часто забывают (в области, характеризующейся точностью), что алгоритмы аппроксимации необходимы для большинства задач моделирования в реальном времени. (Я основал свой тезис на этой концепции.) Сохраните ваши алгоритмы, требующие много времени, для ограниченных регионов (чтобы исключить ложные срабатывания). И помните: в робототехнике вы обычно не ограничены одним изображением. Предполагая, что мобильный робот, быстрый алгоритм может искать десятки изображений с разных ракурсов за меньшее время, чем сложные алгоритмы тратят на одно, значительно уменьшая количество ложных негативов.
Мне нравится идея использовать то, что составляет сканер штрих-кода для чрезвычайно быстрого обнаружения логотипов Coca-Cola. +1!
Проблема поиска подписей в этом случае состоит в том, что если мы перевернем банку на другую сторону, то есть скрываем подпись, алгоритм не сможет обнаружить банку.
@karlphillip: если вы скрываете подпись, т.е. логотип, то любой метод, основанный на поиске логотипа, потерпит неудачу.
@ Li-aungYip Я знаю об этом, спасибо. Английский не мой родной язык. :)
@karlphillip: Я думаю, что вы, возможно, хотели сказать, «представьте, если вы поверните банку на 90 градусов, чтобы была видна только часть логотипа». Вы можете преодолеть это, взяв три линии сканирования (верхнюю, среднюю и нижнюю часть логотипа) - если какая-либо часть логотипа видна, вы можете увидеть хотя бы одну из них.
@ Li-aungYip Хороший обходной путь, но метод подписи имеет другие ограничения, например, если этикетка банки немного повреждена или если банка немного разбита, обнаружение не удастся. Реальность такова, что этот вопрос является сложной исследовательской проблемой. Это слишком сложно, и его текущий формат требует расширенного обсуждения. Люди не понимают, что есть эксперты, ежедневно исследующие подобные вещи. Проблема не будет решена в SO потоке.
@ Li-aungYip Верно, но это не обязательно означает, что он подходит для данного сайта вопросов и ответов. Что ж, мы уже много обсуждали эту тему на мета-уровне, нет причин делать это здесь снова. Мой аргумент был отменен, когда модератор сказал, что если людям это нравится, то мы должны оставить его.
Вы можете заставить этот алгоритм распознавать форму банки, если добавите несколько дополнительных шагов: если ваша сигнатура обнаружена, есть массив длин, который, как вы ожидаете, может найти (и ожидать, что не найдет) красную банку в течение нескольких интервалов. по длине подписи. Сканируйте строку подписи, затем наружу, проверяя, соответствуют ли пиксели ожидаемому цвету.
Дополнительная мысль: вам, вероятно, понадобится набор подписей, чтобы сделать определение формы работающим, потому что вы не можете предположить, что банка направлена прямо к камере. Вы также можете запустить другой алгоритм, чтобы найти середину поверхности банки, но это, вероятно, идет по длинной темной дороге;)
Любая идея, что Google, если я хочу что-то построить, используя этот подход?
@DiegoCerdanPuyol: это довольно широко открытый вопрос. То, что я описал, является довольно элементарным применением области « Цифровой обработки изображений », для которой вы найдете множество книг на Amazon . Начните читать некоторые из этой литературы, и если вы столкнетесь с конкретным препятствием, опубликуйте более конкретный вопрос здесь, на SO (но не в комментариях).
@kmote Какой формат представления знаний используется в «Цифровой обработке изображений» для хранения подписи в полезном формате, чтобы я мог сопоставить ее с новыми изображениями?
Это, безусловно, лучшее предложение, и оно должно стать решением этого вопроса; его простая элегантность, он ломает взгляд на вещи, он нашел взлом в вопросе, кратчайший путь к тому, как мы наблюдаем за миром. И вот что такое искусственное распознавание зрения.
-1: этот подход является специальным «решением», которое не работает ни с другими логотипами или типами объектов. Прежде чем пытаться придумать собственное решение, вы должны действительно изучить литературу по распознаванию логотипов, распознаванию объектов или классификации изображений.
@Stefan - Я с большим уважением отношусь к работе, которую вы проделали в распознавании логотипа, но я просто хотел отметить, что мое «решение» действительно отвечает конкретному вопросу ОП. Он не просил общего решения; он хотел быстрого решения, удовлетворяющего заявленным требованиям. Иногда, как эксперты, мы слишком спешим, чтобы перейти к чрезмерно спроектированному решению, когда простой «ad-hoc» подход может привести вас к этому с небольшой долей усилий. (Но в принципе я должен указать, что мой подход действительно расширяемый и теоретически может быть обучен на любом количестве логотипов.)
Разве вам не нужно проверять каждую группу строк / строк на всем изображении, * 360 для каждого возможного поворота, для этого идентификатора «строки»? Я не думаю, что искусственная нейронная сеть вообще поможет в этой проблеме?
Вы не должны искать высокие частоты в красном канале. Глубокий красный = (1,0,0) и белый = (1,1,1). Так что красный не меняется. Это другие компоненты, которые меняются.
Вряд ли стоит упоминать, но, конечно, эта общая идея совершенно не соответствует кватернионной и масштабной инвариантности.
@NoBugs: (извиняюсь за чрезвычайно задержанный ответ!) Это требует одного прохода через каждую строку изображения, потому что мы не проверяем по однострочному идентификатору, а скорее с помощью скорректированной по ротации коллекции идентификаторов. (См. Раздел «Линии сканирования подписи».)
@Fattie: На самом деле (хотя мне пришлось искать слово «кватернион»!) Я считаю, что оба ваших утверждения неверны. Если вы прочитаете описание более внимательно, вы заметите, что этот подход не зависит от масштаба и вращения. (И вращение по оси z для целей этого подхода эквивалентно масштабированию.)
@kmote Я вижу, вы говорите, что тренировочные линии, на самом деле, скажем, 30 или около того "взяты" под разными углами. Итак, вы предлагаете взять (скажем, около 20)? Линии оригинала, возможно, под 30 углами, составляют около 1000. Затем вы делаете (скажем) около 100 линий сканирования SL изображения. таким образом, для каждого SL «совпадающее красно-белое сканирование» может появляться в: любом масштабе / любом месте в пределах SL. таким образом, мы решим эту конкретную классическую проблему распознавания изображений. таким образом, вы бы сделали 100 000 из этих «линейно-масштабных / позиционно-инвариантных» совпадений маховиков.
«Разве вам не нужно проверять каждую группу строк / строк на всем изображении, для каждого возможного [многих] поворотов, для этого« строчного »идентификатора» FWIW да, это правильно. обратите внимание, что «каждое» вращение не имеет смысла, вы просто стараетесь изо всех сил, скажем, с 20, 50 или 100 вращениями. В этой схеме для каждого сканирования тестового изображения (скажем, вы взяли 100 из них сверху вниз), вы должны попробовать каждое из этих 100 сканирований с каждым из (скажем) 50 поворотов, в каждом из (скажем, ) 10 или 20 тестовых строк на логотипе.
(продолжая этот последний комментарий) еще раз, отмечая, что каждый линейный линейный тест в этой предложенной схеме включает в себя неизменность положения / масштаба, которая должна быть решена каким-либо образом.
Да, я тоже об этом думал, но у меня не было много времени, чтобы сделать это. Как бы вы узнали бутылку, поскольку ее основная часть будет выглядеть как чешуйчатая банка? Я тоже думал о том, чтобы найти красную пробку и посмотреть, совпадает ли она с бутылочным центром, но это не очень надежно.
Если параллельно «кока-коле» есть красная крышка (или кольцо), то это, скорее всего, бутылка.
@linker Как вы тренировали свой алгоритм для банок? У вас были примеры банок? Как насчет тренировки с примерами бутылок?
Сила этого алгоритма в том, что вам нужен только один шаблон для обучения, а затем он применяет все преобразования, чтобы сопоставить его с другими потенциальными банками. Я использовал бинаризованную и контурную версию этого шаблона для тренировки, поэтому единственной разницей между банкой и бутылкой была бы пробка, но я боюсь, что это принесет больше ложных срабатываний, поскольку центр тяжести будет где-то на краю или снаружи бутылки. Думаю, стоит попробовать. Но это удвоит мое время обработки, и я заплачу;)
По сути, это разумное направление. Я бы назвал это немного по-другому: сначала найдите всех кандидатов, а затем для каждого кандидата определите, является ли это бутылкой, банкой или чем-то еще.
Мне очень нравится этот подход! К сожалению, этого недостаточно для обобщения, так как бутылки - не единственные правдоподобные ложные срабатывания, которые могут быть обнаружены. Я пошел вперед и свернул это в ответ , потому что это было слишком много, чтобы комментировать здесь. :)
Вот Это Да! Я действительно думал, что на этой картинке две банки. Я думал, что это была банка в бутылке ... Возможно, вы не должны винить алгоритм за то, что пропустили его, только за то, что не обнаружили другой.
Этот «ответ» в лучшем случае просто комментарий. На всем сайте это «не ответ» с наибольшим количеством голосов.
@LukaszMadon Попробуйте "параллельную" идею для бутылки и банки, выровненной вместе ...
+1 Я думал об этом и был на моем пути для реализации этого подхода. Тем не менее, @linker должен поделиться своим набором изображений, чтобы мы могли попытаться сделать более образованные догадки.
да .. я тоже думаю, что было бы хорошо, если бы было больше изображений.
Учитывая, что у нас есть только этикетки для бутылок / банок и нет других отличительных факторов для крышки или прозрачности бутылки или банки сверху / снизу - ширина бутылки отличается от ширины банки.
Это интересный подход, который, по крайней мере, стоит попробовать, мне очень нравятся ваши рассуждения о проблеме
Это своего рода то, о чем я думал: не исключайте конкретные виды ложных срабатываний. Правило в том, что делает колу. Но мне интересно: что ты делаешь со сплющенной банкой? Я имею в виду, если вы наступите на колу, это все равно будет кола. Но он больше не будет иметь такую же форму. Или это проблема AI-Complete?
Мне нравится идея, но, похоже, вам нужны действительно хорошие условия освещения. На примере изображения, где есть и банка, и бутылка, например, это довольно сложно различить.
В вашем примере, обратите внимание, что зеркальность пластиковой этикетки гораздо более размыта, чем очень яркие пятна на банке? Вот как ты можешь сказать.
Я вижу, какой тип цветового пространства вы бы использовали в этом случае для отражения зеркальности в вашем алгоритме? Это кажется довольно сложным, чтобы получить в RGB или HSV
Что, если источник света был позади банки? Я думаю, что вы не увидите основной момент.
Спасибо за ссылку, которая выглядит интересно. Что касается обучения, каков размер тренировочного набора, который был бы разумным для достижения разумных результатов? Если у вас есть реализация, даже в C #, это было бы очень полезно!
Исследуя TLD, я обнаружил, что другой пользователь ищет реализацию C # - есть ли причина не размещать вашу работу на Github? stackoverflow.com/questions/29436719/...
NB Лет, позже, ссылка сейчас мертва
Новая ссылка: kahlan.eps.surrey.ac.uk/featurespace/tld
На самом деле я не объяснил это в посте, но для этого задания мне дали набор из примерно 30 изображений, и мне пришлось создать алгоритм, который бы соответствовал всем им в различных ситуациях, как описано. Конечно, некоторые изображения были проведены для проверки алгоритма в конце. Но мне нравится идея датчиков Kinect, и я хотел бы прочитать больше на эту тему!
Каков примерно размер тренировочного набора с нейронной сетью для получения удовлетворительных результатов? Что хорошо в этом методе, так это то, что мне нужен только один шаблон, чтобы соответствовать почти всем.
Если ваш набор изображений предопределен и ограничен, просто хардкорные идеальные результаты в вашей проге;)
Да, если я потренируюсь на наборе данных, с которым собираюсь запустить алгоритм, уверен, что получу отличные результаты :) Но, например, для этого задания, учитель в конце протестировал программу на наборе выдвинутых изображений , Я хотел бы сделать что-то, что было бы надежным и не соответствовало бы тренировочным данным.
Количество тренировочных наборов может быть разным, но вы должны быть осторожны в нескольких вещах: не перетренируйтесь, вы, вероятно, хотите, чтобы тестовый набор показал вашу точность. Также количество тренировочных наборов будет зависеть от количества слоев, которые вы будете использовать.
Что касается нейронных сетей в контексте распознавания форм, знаете ли вы что-то подобное в OpenCV? Или, если мне нужно будет реализовать свой собственный?
Возможно, вы захотите реализовать свой собственный. Я не видел ничего в openCV.
@ Толстяк За первым предложением вы бы заметили, как использовать технику для сопоставления трехмерных изображений. Я также написал это довольно новое в этой области за 5 лет до вашего комментария ...
Как это обсуждалось на DSP за короткое время, когда он был перемещен, некоторые бутылки могут не иметь пробок;) или пробка может быть частично скрыта.
На самом деле нет: нет никаких ограничений по размеру или ориентации (или ориентации, но я на самом деле не справился с этим), поэтому вы можете иметь бутылку очень далеко на заднем плане, и банку на переднем плане, и банка будет намного больше чем бутылка.
Я также проверил, что отношение ширины к высоте очень похоже на бутылку и может, так что это тоже не вариант.
Соотношение меток (будучи товарным знаком) одинаково. Таким образом, если (большая) бутылка находится немного дальше на картинке, ее размер будет точно таким же, как и размер банки.
Да, именно поэтому я предлагаю стереоизображение, чтобы восстановить глубину в первую очередь. Используя стереоизображение, вы можете получить глубину, а затем оценить фактический размер, добавив информацию о глубине.
Чтобы объяснить немного больше. Предположим, что банка находится при z = 0, а бутылка при z = -100. Поскольку бутылка далеко позади, она будет выглядеть меньше. Но если я знаю, что бутылка находится в точке z = -100 и может в точке z = 0, тогда я могу рассчитать ожидаемый размер банки / бутылки, если оба значения будут переведены в z = 0. Так что теперь они на одной глубине, и, следовательно, я могу принимать решения на основе размера.
Это просто комментарий, а не ответ, но он гораздо ближе к тому, чтобы быть ответом, чем приведенный выше комментарий с ответом со 120 голосами.
Конкретный оттенок красного является в основном субъективным и сильно зависит от освещения и баланса белого. Вы можете быть удивлены тем, насколько они могут измениться. Рассмотрим, к примеру, эту иллюзию шахматной доски .
У меня была такая же мысль, но я думаю, что серебряная подкладка на верхней части банки резко меняется в зависимости от угла банки на изображении. Это может быть прямая линия или круг. Может быть, он мог использовать оба в качестве ссылки?
Интересный проект, но он относится только к вашей очень конкретной настройке.

stacker · Accepted Answer · 2012-04-16T05-50-00.000Z

563

Лучший ответ

Альтернативный подход состоял бы в том, чтобы извлечь функции (ключевые точки), используя масштабно-инвариантное преобразование функции (SIFT) или Ускоренные надежные функции (SURF).

Он реализован в OpenCV 2.3.1.

Вы можете найти хороший пример кода, используя функции Features2D + Homography, чтобы найти известный объект

Оба алгоритма инвариантны к масштабированию и вращению. Поскольку они работают с функциями, вы также можете обрабатывать occlusion (если видны достаточно ключевых точек).

Источник изображения: пример учебника

Для SIFT обработка занимает несколько сотен мс, SURF бит быстрее, но не подходит для приложений реального времени. ORB использует FAST, который слабее относительно инвариантности вращения.

Оригинальные документы

stacker 16 апр. 2012, в 05:50

2

Звучит интересно. Этот алгоритм также обрабатывает неизменность ориентации (то есть, если банка не направлена непосредственно на объектив камеры)? Это один из главных моментов, когда мой алгоритм не удался.
Charles Menguy 16 апр. 2012, в 05:20
0

@linker, вы можете сделать несколько снимков 3D-объекта, вращая (вокруг объектов по оси Y). Поскольку изображения могут выглядеть по-разному с передней и задней стороны, вы попытаетесь найти наиболее близкое совпадение и оценить его ориентацию в тех случаях, когда логотип отсутствует. не полностью виден
stacker 16 апр. 2012, в 05:30
0

В идеале я хотел бы применить этот алгоритм в случае случайно выбранных изображений, где у меня просто обычное изображение в формате JPEG или PNG. Будет ли этот алгоритм все еще работать в этом случае, или мне нужны специальные изображения?
Charles Menguy 16 апр. 2012, в 18:36
0

Не могли бы вы привести в своем примере пример того, как использовать его с OpenCV? Это было бы круто!
Charles Menguy 17 апр. 2012, в 00:18
0

@linker Я пытался запустить его, используя ваши изображения, но кола в изображении сцены была, вероятно, слишком маленькой (возможно, с более высоким разрешением), чтобы извлечь достаточно функций. Если у вас возникли проблемы с функциями, измените параметр minHessian (Шаг 1).
stacker 17 апр. 2012, в 05:56
0

Отличный пост, спасибо за подробности! Да, я намеренно уменьшаю размер изображений здесь, чтобы уменьшить пропускную способность, но мои оригинальные изображения имеют гораздо лучшее качество. Я попробую, но звучит как то, для чего он сделан, и намного проще, чем GHT.
Charles Menguy 17 апр. 2012, в 14:30
5

Я согласен с @stacker - SIFT - отличный выбор. Это очень устойчиво к операциям масштабирования и вращения. Это несколько устойчиво к деформации перспективы (это может быть улучшено в соответствии с предложением Stacker: база данных шаблонов с различными видами перспективы нужного объекта). По моему опыту, его ахиллесовой пятой были бы сильные вариации освещения и очень дорогие вычисления. Я не знаю ни одной реализации Java. Я знаю о реализации OpenCV и использовал реализацию GPU c ++ / Windows ( SiftGPU ), подходящую для производительности в реальном времени.
user1222021 17 апр. 2012, в 20:40
24

Предупреждение: насколько я люблю SIFT / SURF и то, что они сделали со мной, они обременены патентами. Это может быть проблемой, в зависимости от ряда условий, включая географическое местоположение AFAIK.
Agos 18 апр. 2012, в 08:47
0

Потенциальная проблема может заключаться в том, что он может генерировать ложные срабатывания везде, где есть логотип Coca-Cola.
moooeeeep 19 апр. 2012, в 18:11
11

Так что попробуйте OpenCV ORB или FREAK, у которых нет проблем с патентами. ORB намного быстрее, чем SIFT. ORB немного беден масштабами и легкими вариациями в моем опыте, но попробуйте сами.
Rui Marques 30 сен. 2012, в 19:19
53

Как вы можете принять это как ответ ... Ни один из дескрипторов функций не может отличить бутылки от банок ... Все они просто просматривают инвариантные локальные дескрипторы образца. Я согласен с тем, что SIFT, SURF, ORB, FREAK и т. Д. Могут помочь вам в подборе характеристик, но ... Как насчет других ваших вопросов, таких как окклюзия, бутылка против банок и т. Д. Я надеюсь, что на самом деле это не полное решение, если бы вы УДАЛИТЕ вашу проблему, вероятно, первым результатом будет только этот ответ.
G453 10 дек. 2013, в 18:54
9

@ G453 ты абсолютно прав! Вероятно, он был очарован производительностью SHIFT и забыл, что извлечение и сопоставление функций НЕ было ПРОБЛЕМОЙ ...
sepdek 03 янв. 2014, в 08:45
1

Я также согласен с @ G453, но я думаю, что соответствие функций по-прежнему является лучшей отправной точкой. Что касается окклюзий, сопоставление признаков будет иметь некоторую степень надежности, для обнаружения может быть достаточно 1/3 видимого логотипа Cola. Чтобы отфильтровать только банки, я, вероятно, сделал бы что-то вроде обратной проекции, чтобы обнаружить металл, и я не вижу другого пути использования банок с отличительными цветовыми особенностями. Кроме этого, может быть, его геометрия.
Rui Marques 23 фев. 2014, в 21:56
0

Для меня очень важной особенностью является верхняя часть банки, металлический цвет и кривизна.
user391339 27 фев. 2014, в 04:02
0

Хотя я согласен с @ G453. Я также чувствую, что, поскольку ОП не исследовал этот путь. Его проблема не стала экспоненциально легче решить. Так как предоставленный ответ взял ОП в правильном направлении, я чувствую, что это хороший ответ. Кроме того, как только ОП находит дескриптор SIFT, остается лишь вопрос времени, прежде чем он выяснит, как найти вращение объекта и, следовательно, оценить местоположение и ориентацию банки.
Midhun Harikumar 23 март 2016, в 17:28
0

Как насчет современного уровня обнаружения объектов? Используя CNN, вы можете извлекать определенные функции и обучать сеть для обработки, чтобы получить ограничивающую рамку и объектность. Тем не мение. наиболее сложной задачей этой проблемы является классификация между банками и бутылками, и единственное, что я могу решить для решения этой проблемы, - это использовать Структуру из движения для восстановления объема, следовательно, получить трехмерную информацию.
crodriguezo 06 июнь 2016, в 02:26
2

Зеркало по ссылке Features2D + Homography для поиска известного объекта
B.Kosmowski 01 янв. 2017, в 10:54
0

Очевидно, что для бутылок cans V это совершенно разные предметы , вы просто тренируете их для двух разных вещей. (Вы могли бы также сказать «как заставить его распознавать как мотоциклы, так и внедорожники как транспортные средства ?!», бессмысленно.)
Fattie 01 окт. 2017, в 13:49
0

Этот ответ является просто комментарием («попробуйте использовать SIFT»).
Fattie 25 окт. 2017, в 09:47

Показать ещё 17 комментариев