Яндекс тестирует поиск похожих картинок

В поиске images.yandex.ru появилась опция «найти похожие». Около каждой картинки из поисковых результатов можно кликнуть на ссылку «найти похожие» и увидеть картинки, которые, по мнению алгоритма, похожи на заданный образец.

Главным критерием похожести пока являются цвет и форма объекта, альты и названия картинок. Поиск похожих картинок работает в режиме бета-тестирования. Вот результат его работы на примере запроса «апельсин».


Интересно, что ссылка «найти похожие» появляется не у каждой картинки. Так, по версии Яндекса, в Интернете немало людей, похожих на Берию и Путина, но нет никого, похожего на Матвиенко и Синодова.

Добавить 19 комментариев

  • Ответить
    Игорь Ашманов Сам себе компания

    Поискал себя, натурально. Вот набор «похожих картинок»: http://images.yandex.ru/yandsearch?text=&rpt=image&like=httpwww.lipka.rugalleryashmanovimg.jpg Очень похоже, что похожесть пока на уровне УРЛа и подписи. Потому что никакой графической похожести увидеть не удаётся. Ну разве что где-то тоже много белого фона. То есть, если и есть там идея графической похожести, то она очень старая, типа «определим порно по наличию телесного цвета».

  • Ответить
    Игорь Ашманов Сам себе компания

    Вообще я не вижу в этом смысла. говорят про это давно, но это ненужная вещь. Потому что для целей веб-фильтрации технологии анализа текстов на сайте и ссылок — вполне достаточно. Порнографы же хотят, чтобы их находили поисковики, поэтому текст там всегда есть. И используют они совершенно специфическую лексику. Имеющийся у нас веб-фильтр определяет порностраницы с точностью примерно 100% и полнотой 100%.

  • Ответить

    Игорь, поиск (и подавление) похожих нужен пользователю, чтобы при поиске по картинкам серп не был бы забит одной и той же картинкой. Обратная ситуация — есть картинка, найти похожие — нужна, как минимум, правообладателям. Как и цитатный поиск. То бишь я никакого принципиального отличия с текстовым поиском не вижу, потребности те же самые.

  • Ответить

    >Имеющийся у нас веб-фильтр определяет порностраницы с точностью примерно 100% и полнотой 100%. Смотря что считать порностраницей. Скажем, портал с мультфильмами, напичканный баннерной порнорекламой — порностраница? Там специфической лексики нет. Тоже определяет?

  • Ответить
    Альтер Эго

    А реально ли в обозримом будущем распознавать, что на картинке, на уровне кошка или человек или дом или дерево, ну чтобы искать без текста и без всяких подписей в альтах, ну не все же выкладывают и ищут только порнографию :) Ну и отдельно, что касается именно человеческих лиц, скажем, ищешь фотки с лицом определенного человека, а, может, не все они с подписью, ну там спецслужбы сфоткают кого-то во время каких-то безобразий, и сразу поиском найдут фото с его паспорта, как-то так — может, уже есть какие-то такие наработки, или это практически нереально?

  • Ответить

    Кстати, очень интересный факт: тестировать поиск похожих многие начинают с поиска похожих на себя. ;) На деле этот случай не такой уж и частый. Если смотреть на всех пользователей поиска картинок, то чаще ищут похожих кошечек, собачек…, виды природы, товары (последние чаще всего). А поиск похожих людей — это уже следующий шаг.

  • Ответить

    >Ну и отдельно, что касается именно человеческих лиц… Это как раз и делается, и про это есть сколько-то методов, как оказалось, вполне (и м.б. даже лучше) применимых и не к поиску физиономий. А вот найти похожее лицо в коллекции произвольных картинок, среди «разномасштабных и разночисленных кошек и собак»)), понятно, заметно сложнее

  • Ответить
    BigBrother Helmet-A

    Просто офигенный сервис. Поставил в закладки, буду использовать для поднятия настроения. PS: Я что, действительно так на Гоголя похож? Задумался.

  • Ответить
    Игорь Ашманов Сам себе компания

    Смотря что считать порностраницей. Скажем, портал с мультфильмами, напичканный баннерной порнорекламой — порностраница? Никто не мешает фильтрующему прокси сходить по ссылке под рекламой. А там текста есть в количестве. Наш фильтр так и делает. поиск (и подавление) похожих нужен пользователю, чтобы при поиске по картинкам серп не был бы забит одной и той же картинкой. Лёха, это подавление дублей. Ты сам решал такую задачу для Спамтеста. Сколько там было разных графических сигнатур для отождествления спамерских картинок — 4? Подавление дублей нужно для сервиса, а не для пользователя. А мы говорим о кнопке «Похожие», которую нажимает пользователь. Под которой как бы ничего похожего. Обратная ситуация — есть картинка, найти похожие — нужна, как минимум, правообладателям. Как и цитатный поиск. Во, это, оказывается, обратная ситуация. А ведь её-то мы и обсуждаем. Потому что как там давятся дубли на этапе ранжирования и показа — это дело поисковика, к кнопке «Похожие» отношения не имеет. Ну хорошо, пускай это для владельцев картинок и правообладателей. Которых среди аудитории хорошо если 1%. Ищем логотип Кока-Колы и похожие на него: http://images.yandex.ru/yandsearch?text=-&rpt=image&like=httpvipoboi.ucoz.ru_ph5599284264.jpg ну… типа… наверно, всё-таки по урлам…и подписям… Особенно доставляет вторая и следующие страницы: http://images.yandex.ru/yandsearch?p=1&text=-&rpt=image&like=httpvipoboi.ucoz.ru_ph5599284264.jpg Вообще поиск логотипов давно в сети есть и работает он вроде лучше. Но в принципе, это идея для очередного анализатора, да.

  • Ответить

    Ну я собственно о том, что имея работающий поиск дублей (качество конкретной реализации не хочу обсуждать), который работает по сигнатуре — грешно не прикрутить ту самую «обратную ситуацию». Наверное, даже меньше чем 1% нужную, ну так и цитатный поиск тоже мало кому нужен.

  • Ответить

    Второму альтер эге Да, вполне реально. Более того, такое распознование уже встроено в некоторые программные продукты вроде фотокаталогизаторов (самый известный пример — гугловская Пикаса). Точность пока не очень, но уже и не игрушка, весьма помогает тегизировать снимки.

  • Ответить

    2Ashmanov: Задачи подавления дубликатов в поиске изображений не стоит. Стоят другие задачи: — группировка дубликатов для а) увеличения разнообразия выдачи, б) улучшения точности поиска; - расклеивание дубликатов, если пользователю надо а) получить найденное изображение другого размера, б) почитать про картинку на разных сайтах; - для еще целой кучи задач поиска (и не только изображений ;) 2lexa: Правообладателям похожие не нужны, а нужны как раз дубликаты в самом широком их понимании: от точных копий, до картинок, полученных кропом, ресайзом, изменением пропорций, коррекцией цвета, добавлением всяких рамок, водяных знаков, фотожаб, коллажей и т. п. — всех тех преобразований, которые творят вебмастера, чтобы втиснуть картинку в свой сайт.