«Яндекс» сделал поиск по запросам-картинкам, как у Google и Baidu

В Яндекс.Картинках сегодня заработали визуальные запросы - введя url картинки или загрузив изображение с компьютера, можно найти похожие изображения. 

Алгоритм для поиска дублей в Яндекс.Картинках работал давно - но не позволял пользователям делать "картиночные" запросы, а использовался для группировки результатов поиска (чтобы страница выдачи не была заполнена копиями одного изображения). Выпущенный сегодня сервис - ставит целью уже не поиск дублей, а распознавание объектов на картинках - чтобы в ответ на запрос пользователь получил не только информацию о размещении изображения в сети (хотя такая возможность тоже остается), а дополнительную информацию об изображенном на картинке объекте. 
Аналогичные сервисы уже есть у мировых поисковых гигантов Google, Baidu. В свое время (в 1999 году) их опередил канадский TinEye (далее исправлено - Roem.ru), ориентированный на поиск копий (в том числе модифицированных) и копиями ограничивающийся.
Мы провели небольшой сравнительный тест - на примере пресловутого "дизайнерского стула", который сервисы визуального поиска обещать помочь найти и купить:
Google "распознал" объект и автоматически добавил в запрос имя дизайнера. Сайты, содержащие копию/аналог изображения - в отдельной секции выдачи:
Яндекс (как и  TinEye с Baidu) по аналогичному запросу показывает просто "такие же картинки":
С локальным запросом (на картинке - одежда питерских дизайнеров) Яндекс справился лучше: 
 
Google отсылает к "народному" сервису распознавания/поиска товаров вручную - Wheretoget.it (отдельного внимания здесь заслуживает секция visually similar images):
На этих примерах видно, как визуальное "распознавание" основывается вовсе не на визуальном сопоставлении, а гораздо больше зависит от наличия и богатства метаинформации вокруг картинки: источник, текст, пользовательские тэги и т.д.. Накопившаяся к сегодняшнему дню база знаний позволяет искать "такие же картинки", возможно, отвечать на общие вопросы "что это"и "откуда" - но пока не позволяет сделать работающий на лету сервис, вроде Google Goggles (сам Goggles - тоже пока не смог, а "Яндекс", кстати, планирует выход "Сибири" - так называется технология визуального поиска - в виде мобильного сервиса). Про возможность распознать Ниагарский водопад на снимке "какого-то водопада" - Яндекс на данный момент всё-таки сильно преувеличивает (то есть, с любительским, а не каталожным снимком, это не срабатывает).

У визуального сопоставления, однако, даже в нынешнем виде есть коммерческий потенциал. Так, российский стартап Kuznech.com (сам поисковик работает в закрытой бете) уже продает магазинам функционал с содержанием "показать покупателю другие розовые туфли на каблуках в этом магазине вместо модели, отсутствующей на складе". Еще один стартап, о котором недавно писал Roem.ru - приложение для "визуального шопинга" Goodwin, мечтает от сканирования QR-кодов мобильником (с отсылкой в интернет-магазин) перейти к "сканированию" собственно желаемых объектов. Прототип визуально-распознающего-продающего сервиса есть и у Mail.Ru - это приложение TagBrand

Добавить 20 комментариев

  • Ответить
    kolmakova_v Диджитал Агентство "Мир Рекламы"

    Соглашусь с Игорь АКа, главная проблема в том, что Яндекс действительно знает слишком мало картинок (и фотографий особенно, ну не беря в расчет фотографии известных людей)

  • Ответить
    Sergei Erjemin VentureBox

    Справедливости ради стоит сказать, что TinEye не просто поиск дублей. В свое время я его специально тестировал на поиск популярных постеров. Он находит в том числе и картинки, где искомые постеры представлены в интерьере и не являются центральным объектом. Причем иногда искомая картина даже была перекрыта (т.е. постер на заднем плане, а спереди, например, люди)… Возможно сейчас TinEye уже этого не умеет (надо тестировать еще раз), но то что такое он умел еще года три назад — 100% факт.

  • Ответить

    > Беда только в том, что Яндекс знает очень мало картинок. Если не обслуживать файлы sitemap для изображений, то картинок не добавится. У Яндекса космические технологии на марше, а разбор текстового файла по идеологическим соображениям который год в загоне.

  • Ответить
    Альтер Эго

    По картиночным сервисам типа pinterest.com, pinme.ru работает визуальный и комбинированный поиск на http://wesee.com. Причем работает в открытой бете и шоппинговые товары находит очень хорошо.

  • Ответить

    > По картиночным сервисам типа pinterest.com, pinme.ru работает визуальный и комбинированный поиск на http://wesee.com. Да я бы сказал, поиск Яндекса вообще работает хуже, чем wesee.com или google.com. Даже непонятно, чем там в «Сибири» занимались столько времени, если учесть, что уже упомянутые компании имеют такой поиск более 1.5 лет, а Tineye еще дольше (правда, он и похож с Яндексом). А еще можно вспомнить был такой поиск picollator, так я это вообще еще в 2007 году видел. Яндекс бы лучше купил кого-нибудь, как это все крутые пацаны делают, чем мучиться самим. Мир уже далеко ушел за это время.

  • Ответить
    BigBrother Helmet-A

    Мда… Сделали поиск схожих изображений, зато выпилили сортировку выдачи по дате (и кому мешала? или просто в Гугле нет — и у нас не будет?). Спа-си-бо, вот просто рад безумно, каждый раз когда запрос, скажем, в сфере законодательства. Блин, с такими тенденциями возникает желание сделать свой поисковик в нише прямого поиска.

  • Ответить

    >зато выпилили сортировку выдачи по дате (и кому мешала? Выпилить по чисто технологическим соображениям могли, это весьма специфическая ветка ранжирования, которую поддерживать надо

  • Ответить
    Альтер Эго

    >Выпилить по чисто технологическим соображениям могли, это весьма специфическая ветка ранжирования, которую поддерживать надо Скорее отчаялись исправить очевидные ляпы в датировке контента.

  • Ответить
    Альтер Эго

    а как его правильно датируешь? у гугла в сниппетах какая-то непонятная дата указывается. раньше это была дата первой (или последней?) индексации, сейчас дата берётся прямо из _текста_ документа, т.е. это даже не дата, которую отдаёт сервер в заголовках. и в итоге там хрен знает что. фактически рандомная дата, смысла не несёт в большинстве случаев.

  • Ответить
    BigBrother Helmet-A

    > Выпилить по чисто технологическим соображениям могли, это весьма специфическая ветка ранжирования, которую поддерживать надо Миша, я, как ты понимаешь, слегка в курсе, как оно устроено :-) Отмазки «поддерживать тяжело» я от тебя бы принял, у вас понятно — ресурсов не так много. А вот от Яндекса слышать такое было бы странно. Кстати, для себя подумайте — для новостных и, особенно, юридических запросов эта штука в каком-то виде маст хэв. > Скорее отчаялись исправить очевидные ляпы в датировке контента. Звучит как хорошая формулировка задачи. Да, с датировкой все интересно, про дату из текста не совсем верно, есть и несколько других путей. — Но в общем — мне вот интересно — вот есть две фичи. Запущенная и выпиленная. Какой больше пользовались/пользуются?

  • Ответить
    Альтер Эго

    Ладно тебе, Рома. «Старик, ты же сам все понимаешь.» © Пришел новый молодой эффективный менеджер, сказал, что в ситуации дефицита ресурсов, мы не можем позволить поддерживать эту дорогую фишку. Лучше… Хм… Напишем машинное обучение для правильных цветов подложек колдунщиков. Через год он всем надоест, его уволят, придет новый эффективный менеджер, который запустит новую убер-дата-фичу. Сортировка по дате. Главное, чтобы не нашлось ретивого программиста, который бы за этот год удалил код.

  • Ответить
    Альтер Эго

    Ценители-зануды могут зайти на beta.yandex.ru и оценить, сколько еще старых, никому не нужных, фишек отломают молодые и эффективные в следующем релизе.

  • Ответить
    Альтер Эго

    >Да, с датировкой все интересно, про дату из текста не совсем верно, есть и несколько других путей. Путей может и несколько существуют, но используется-то один? Какое-то время назад я знал как гарантированно подсунуть гуглу нужную дату. при этом дата могла быть и в прошлом, и в будущем. А когда гугл пытается дату с каких-то случайных страничек получать, то получается почти случайная дата. типа вот есть на странице пост, а рядом выведен еще список постов с датами, присутствуют и другие даты, типа копирайта. и в сниппете дата не совпадает с датой поста, а совпадает хрен знает с чем. и какой в ней смысл?