В поисковиках нашли еще личных данных покупателей различных интернет-магазинов (пример из Google, прекрасный пример из "Яндекса" с палевом пользователей секс-шопа, "Бинг". Благодаря отсутствию операторов, плохо палит покупателей Go.mail.ru).
Пресс-секретарь "Яндекса" Очир Манджиков посоветовал вебмастерам ознакомиться с информацией о файле robots.txt и об его корректном использовании.
Особое внимание тому что индексируют поисковые системы СМИ стали уделять на прошлой неделе, после того как поисковая система "Яндекс", оказалось, проиндексировала и сохранила в сниппетах часть пользовательских SMS абонентов компании "Мегафон" отправлявших SMS через Интернет.
Позиция "Мегафона" заключается в том, что компания должна нести солидарную ответственность вместе с интернет-провайдерами, в то время как "Яндекс" упирает на то, что поисковая система работает с открытыми данными и не индексирует те данные, доступ к которым закрыт в файле robots.txt. При этом благодаря популярности "Яндекса", которая в России почти в три раза выше чем у любого другого поисковика, попадание данных в его индекс резко увеличивает их "находимость", что может иметь отрицательные стороны для всех пользователей интернета пользующихся сайтами с не самыми грамотными вебмастерами.
При этом веб-мастерам стоит думать не только о правильной работе с robots.txt, но и о том, чтобы ненужные данные не могли быть доступны вообще никому без авторизации, так как помимо поисковых систем, руководствующих robots.txt по сети ходит куча роботов, принадлежащих непонятно кому и руководствующихся своими собственными правилами.
Так много сайтов прокалывалось и посолиднее, включая например фейсбук (http://news.ycombinator.org/item?id=1402384) Не хотите чтобы ваши данные попали в поиск (а если на них специально не наставили ссылок, то в теории они попасть не должны) — не пользуйтесь Яндекс.Баром, Гугл.тулбаром и подобными продуктами с изначально заложенным в них шпионажем