Открытка компании: Зачем Яндекс.Бот подглядывает в Яндекс.Браузер и ходит по приватным ссылкам пользователя?

На Хабре администратор сайта знакомств рассказал, что ЯндексБот ходит по приватным ссылкам пользователя, если пользователь просматривает их в Яндекс.Браузере или яндексовской сборке «Оперы».

Сегодня утром к нам в поддержку сайта знакомств написала девушка и сообщила, что она появляется у мужчин в списке «она вас посмотрела», хотя она точно не смотрела. И не пользовалась в это время компьютером. По цепочке это обращение дошло до меня. Расскажу, что мне получилось установить.
[.]

Итак, посмотрев лог захода девушки, которая к нам обратилась, я увидел только за сегодняшний день (на 8 часов утра) 11 заходов на сайт с ip 178.154.243.78 и юзер-агентом Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots). По whois ip-адрес действительно принадлежит Yandex LLC. Смотрю аккаунт девушки — почта на yahoo.com. Ищу заходы самой девушки по логам — нашел, юзер агент — Opera/9.80 (Windows NT 6.1; Edition Yx) Presto/2.12.388 Version/12.15, т.е. десктопная Opera, собранная Яндексом (Edition Yx). Вариантов, откуда Яндекс узнал о существовании 11 разных приватных ссылок, два.
1) Девушка заходила по этим ссылкам и Опера «стучала» об этом в Яндекс;
2) Она смотрела почту Yahoo через Оперу, используя сжатие данных, и Яндекс при проксировании (у девушки оно включено) собирал все ссылки, которые там были, для дальнейшего «использования». Опрос девушки подтвердил — Опера от Яндекса, сжатие данных, почта Yahoo. Но, забегая вперед, скажу, что больше доверяю 1-му варианту.

Продолжил копать. За 8 часов сегодняшнего лога nginx (11 часов по Москве, лог начинается с 0 по GMT), было 350 уникальных залогиниваний от ЯндексБота. Смотрю дальше — это всё оказалось по приватным ссылкам от 15 пользователей. Посмотрел двух случайных. Оба пользователя используют чистый Яндекс.Браузер. Без проксирования. Заходы ЯндексБота в аккаунт начались у всех 03.04.2015.

В комментариях отметился Роман Иванов из Яндекс.Браузера — он сказал, что так быть не должно, и попросил незацензуренные логи, чтобы разобраться. Разобрался или нет — не понятно, в посте «Яндекс» больше ничего рассказывать на эту тему не стал.


(Обновлено в 17:50): Комментарий пресс-службы «Яндекса»:

Яндекс.Браузер собирает обезличенную статистическую информацию для улучшения качества Браузера, в которую включаются в том числе и адреса посещённых страниц. Это происходит только в том случае, если человек разрешил делать это в настройках программы (проставил галочку «Отправлять в Яндекс статистику использования»).

Из-за технической ошибки информация о некоторых таких страницах из Браузера попала в список, индексируемый роботом Яндекса. Мы уже исправили её для сайта, о котором было рассказано на Хабре, и в скором времени исправим ее полностью. Мы благодарны пользователю Хабрахабра за то, что помог найти эту ошибку.

Добавить 16 комментариев

  • Ответить

    Кажется, такая история уже была несколько лет назад, только там фигурировал не Яндекс.Браузер (которого еще не было), а Яндекс.Тулбар

  • Ответить

    Синтаксическая (семантическая?) ошибка в статье, в последней фразе. Хотя это цитата, так что может быть ошибка не Роема, а отмазколепителя из Яндекса:
    забыли поставить двойные кавычки вокруг слова «ошибку». Наверное в комментарии еще была запятая после этого слова и добавлено «бггг». Просто при копипасте отвалилось.

  • Ответить

    Очевидно, браузер только и нужен «Яндексу» для сбора таких ссылок (как и гуглу). В чём откровение?
    Настоящий вопрос — ворует браузер куки или нет? :) Если нет, то создателям сайта знакомств нужно чинить своё детище.

  • Ответить
    ak

    И, что характерно, в комментариях к упомянутой выше новости ведь был комментарий по существу:

    «small_matter Андрей Винокуров

    Объясните, пожалуйста, еще раз, какое уникальное качество продвигают? «…делая упор на безопасности» от чего? От разрабов браузера?
    «

  • Ответить

    История была, в 2005-м, когда Бар слил боту недоделанный проект (Лента, по-моему), и он появился в выдаче.

    А в данном случае техническая ошибка заключается в том, что не опознали, что в урле есть ключ сессии — по таким урлам боту лучше не ходить.

  • Ответить

    Насчет безопасности — советую посмотреть и там и в Хроме список корневых сертификатов (лучше внутри, а не в UI).
    В сочетании с «ускорителем» (который, по сути, прокси) — смесь термоядерная, возможность HTTPS MiTM во все поля.

  • Ответить
    BigBrother > Альтер Эго контекст

    Через UI — в дополнительных настройках.
    Вообще они в профиле лежат, но у меня Хрома на машине нет сейчас (зачем мне spyware?), так что конкретное место не помню.

    А в Firefox — в его профиле (Users\_NAME_\AppData\Roaming\Mozilla\Firefox\Profiles\что-то\) есть два файла — cert8.db и cert_override.txt — в них.

  • Ответить

    > Очевидно, браузер только и нужен «Яндексу» для сбора таких ссылок (как и гуглу).

    Не только. Список посещенных урлов (и время на странице) еще и в ранжировании используется.

    Гугль пошел дальше, и сливает еще и heatmaps — то, что пользователь делает на странице. Гуглить по запросу «сетевая активность Chrome».

  • Ответить

    «Из-за технической ошибки информация о некоторых таких страницах из Браузера попала в список, индексируемый роботом Яндекса. »

    Нелепо. Браузер и Поиск совершенно разные проекты по своей сути. Как информация одного проекта могла «случайно» перелиться в другой? Дырочка в ведре — вот и пролилось в соседний чан? Скорее всего они действительно интегрированы.

    «Браузер собирает обезличенную статистическую информацию для улучшения качества Браузера»

    Но складывает в базу ссылок Поиска.