На Хабре администратор сайта знакомств рассказал, что ЯндексБот ходит по приватным ссылкам пользователя, если пользователь просматривает их в Яндекс.Браузере или яндексовской сборке "Оперы".
Сегодня утром к нам в поддержку сайта знакомств написала девушка и сообщила, что она появляется у мужчин в списке «она вас посмотрела», хотя она точно не смотрела. И не пользовалась в это время компьютером. По цепочке это обращение дошло до меня. Расскажу, что мне получилось установить.
[..]Итак, посмотрев лог захода девушки, которая к нам обратилась, я увидел только за сегодняшний день (на 8 часов утра) 11 заходов на сайт с ip 178.154.243.78 и юзер-агентом Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots). По whois ip-адрес действительно принадлежит Yandex LLC. Смотрю аккаунт девушки — почта на yahoo.com. Ищу заходы самой девушки по логам — нашел, юзер агент — Opera/9.80 (Windows NT 6.1; Edition Yx) Presto/2.12.388 Version/12.15, т.е. десктопная Opera, собранная Яндексом (Edition Yx). Вариантов, откуда Яндекс узнал о существовании 11 разных приватных ссылок, два.
1) Девушка заходила по этим ссылкам и Опера «стучала» об этом в Яндекс;
2) Она смотрела почту Yahoo через Оперу, используя сжатие данных, и Яндекс при проксировании (у девушки оно включено) собирал все ссылки, которые там были, для дальнейшего «использования». Опрос девушки подтвердил — Опера от Яндекса, сжатие данных, почта Yahoo. Но, забегая вперед, скажу, что больше доверяю 1-му варианту.Продолжил копать. За 8 часов сегодняшнего лога nginx (11 часов по Москве, лог начинается с 0 по GMT), было 350 уникальных залогиниваний от ЯндексБота. Смотрю дальше — это всё оказалось по приватным ссылкам от 15 пользователей. Посмотрел двух случайных. Оба пользователя используют чистый Яндекс.Браузер. Без проксирования. Заходы ЯндексБота в аккаунт начались у всех 03.04.2015.
В комментариях отметился Роман Иванов из Яндекс.Браузера - он сказал, что так быть не должно, и попросил незацензуренные логи, чтобы разобраться. Разобрался или нет - не понятно, в посте "Яндекс" больше ничего рассказывать на эту тему не стал.
(Обновлено в 17:50): Комментарий пресс-службы "Яндекса":
Яндекс.Браузер собирает обезличенную статистическую информацию для улучшения качества Браузера, в которую включаются в том числе и адреса посещённых страниц. Это происходит только в том случае, если человек разрешил делать это в настройках программы (проставил галочку «Отправлять в Яндекс статистику использования»).
Из-за технической ошибки информация о некоторых таких страницах из Браузера попала в список, индексируемый роботом Яндекса. Мы уже исправили её для сайта, о котором было рассказано на Хабре, и в скором времени исправим ее полностью. Мы благодарны пользователю Хабрахабра за то, что помог найти эту ошибку.
Добавить 16 комментариев
Кажется, такая история уже была несколько лет назад, только там фигурировал не Яндекс.Браузер (которого еще не было), а Яндекс.Тулбар
Хорошо что хоть совести хватило подписать их продукт как yandex.com/bots
А мне кажется Skype.
Про скайп тоже что-то было.
Вот конец той истории про Яндекс:
https://roem.ru/27-07-2011/120544/yandeksmetrike-teper-mojno-zapretit-otdavat-ssylki-dlya-indeksacii/
а начало как-то не хочет находиться.
Синтаксическая (семантическая?) ошибка в статье, в последней фразе. Хотя это цитата, так что может быть ошибка не Роема, а отмазколепителя из Яндекса:
забыли поставить двойные кавычки вокруг слова «ошибку». Наверное в комментарии еще была запятая после этого слова и добавлено «бггг». Просто при копипасте отвалилось.
Куплю пару сквозняков с банк-клиентов из топ-50 банков РФ.
со skype, с trend micro, с google и еще рядом компаний. но как это исключает отсутствие подобных историй в прошлом с яндексом?
Очевидно, браузер только и нужен «Яндексу» для сбора таких ссылок (как и гуглу). В чём откровение?
Настоящий вопрос — ворует браузер куки или нет? :) Если нет, то создателям сайта знакомств нужно чинить своё детище.
Четыре дня топику и никто так и не вспомнил, что Яндекс теперь продает свой браузер как «Безопасный» — https://roem.ru/21-05-2015/195900/yndx-browser-beta/
Ну т.е. это и с самого начала было смешно, но с такими историями каждый день есть подов для улыбок.
И, что характерно, в комментариях к упомянутой выше новости ведь был комментарий по существу:
«small_matter Андрей Винокуров
Объясните, пожалуйста, еще раз, какое уникальное качество продвигают? «…делая упор на безопасности» от чего? От разрабов браузера?
«
История была, в 2005-м, когда Бар слил боту недоделанный проект (Лента, по-моему), и он появился в выдаче.
А в данном случае техническая ошибка заключается в том, что не опознали, что в урле есть ключ сессии — по таким урлам боту лучше не ходить.
Насчет безопасности — советую посмотреть и там и в Хроме список корневых сертификатов (лучше внутри, а не в UI).
В сочетании с «ускорителем» (который, по сути, прокси) — смесь термоядерная, возможность HTTPS MiTM во все поля.
А где там смотреть список корневых сертификатов?
Через UI — в дополнительных настройках.
Вообще они в профиле лежат, но у меня Хрома на машине нет сейчас (зачем мне spyware?), так что конкретное место не помню.
А в Firefox — в его профиле (Users\_NAME_\AppData\Roaming\Mozilla\Firefox\Profiles\что-то\) есть два файла — cert8.db и cert_override.txt — в них.
> Очевидно, браузер только и нужен «Яндексу» для сбора таких ссылок (как и гуглу).
Не только. Список посещенных урлов (и время на странице) еще и в ранжировании используется.
Гугль пошел дальше, и сливает еще и heatmaps — то, что пользователь делает на странице. Гуглить по запросу «сетевая активность Chrome».
«Из-за технической ошибки информация о некоторых таких страницах из Браузера попала в список, индексируемый роботом Яндекса. »
Нелепо. Браузер и Поиск совершенно разные проекты по своей сути. Как информация одного проекта могла «случайно» перелиться в другой? Дырочка в ведре — вот и пролилось в соседний чан? Скорее всего они действительно интегрированы.
«Браузер собирает обезличенную статистическую информацию для улучшения качества Браузера»
Но складывает в базу ссылок Поиска.