В поисковиках нашли еще личных данных покупателей различных интернет-магазинов (пример из Google, прекрасный пример из «Яндекса» с палевом пользователей секс-шопа, «Бинг». Благодаря отсутствию операторов, плохо палит покупателей Go.mail.ru).
Пресс-секретарь «Яндекса» Очир Манджиков посоветовал вебмастерам ознакомиться с информацией о файле robots.txt и об его корректном использовании.
Особое внимание тому что индексируют поисковые системы СМИ стали уделять на прошлой неделе, после того как поисковая система «Яндекс», оказалось, проиндексировала и сохранила в сниппетах часть пользовательских SMS абонентов компании «Мегафон» отправлявших SMS через Интернет.
Позиция «Мегафона» заключается в том, что компания должна нести солидарную ответственность вместе с интернет-провайдерами, в то время как «Яндекс» упирает на то, что поисковая система работает с открытыми данными и не индексирует те данные, доступ к которым закрыт в файле robots.txt. При этом благодаря популярности «Яндекса», которая в России почти в три раза выше чем у любого другого поисковика, попадание данных в его индекс резко увеличивает их «находимость», что может иметь отрицательные стороны для всех пользователей интернета пользующихся сайтами с не самыми грамотными вебмастерами.
При этом веб-мастерам стоит думать не только о правильной работе с robots.txt, но и о том, чтобы ненужные данные не могли быть доступны вообще никому без авторизации, так как помимо поисковых систем, руководствующих robots.txt по сети ходит куча роботов, принадлежащих непонятно кому и руководствующихся своими собственными правилами.
Так много сайтов прокалывалось и посолиднее, включая например фейсбук (http://news.ycombinator.org/item?id=1402384) Не хотите чтобы ваши данные попали в поиск (а если на них специально не наставили ссылок, то в теории они попасть не должны) — не пользуйтесь Яндекс.Баром, Гугл.тулбаром и подобными продуктами с изначально заложенным в них шпионажем