Мегафон разрешил Яндексу индексировать пользовательские смски

Развитие событий: Поисковики спалили покупателей секс-шопа (25 июля 2011)

Похоже, на сайте Мегафона не закрыли от индексации страницу статуса отправки смс через веб-форму. А статус содержит текст самой смски. В результате в выдаче Яндекса есть и номера, и тексты смс

http://yandex.ru/yandsearch?p=8&text=url%3Awww.sendsms.megafon.ru*+|+url%3Asendsms.megafon.ru*&fyandex=1&lr=213

Скриншот

Лучшие комментарии

  • Контекст комментария

    Юрий Синодов Roem.ru

    «Яндекс» свалил все на вебмастеров Мегафона: Яндекс индексирует только открытую часть интернета — те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля. Страницы, индексация которых запрещена администратором сайта в файле robots.txt, Яндекс не индексирует, даже если они находятся в открытой части интернета. Это соответствует всем общепринятым нормам и правилам взаимодействия в интернете. В разделе отправки SMS на сайте МегаФона (www.sendsms.megafon.ru) в момент индексации по какой-то причине отсутствовал файл robots.txt. Насколько нам известно, сейчас администраторы сайта МегаФона уже установили robots.txt и закрыли этот раздел для индексации. В максимально скором времени все страницы этого раздела будут недоступны в результатах поиска Яндекса. Вебмастеров «Мегафона» жалко

Добавить 123 комментария

  • Ответить

    Искренне надеюсь, что кто-нибудь напишет скрипт, чтобы все это осталось для потомков. С лингвистической точки зрения это — золотая жила.

  • Ответить
    Альтер Эго

    господа, я все понимаю, но давайте не будем оттуда сюда смс копипастить, ладно? :) во-первых, их будет слишком много, во-вторых из Мегафона могут прийти ругаться

  • Ответить
    Альтер Эго

    Что интересно, внешних ссылок на проиндексированные страницы нигде нет, значит яндекс их вытаскивал прямо с компьютеров пользователей (Яндекс.Бар отправляет яндексу урлы для индексации?)

  • Ответить
    Альтер Эго

    начал пытаться спарсить результаты поиска)скопировал уже 20 страниц с ссылками на сообщения)

  • Ответить
    Альтер Эго

    Ничего не хочу сказать, но бОльшая часть СМСок — какие-то любовные разборки, признания и прочее. Че-то тут не так…

  • Ответить
    Альтер Эго

    Конечно, разборки — это же архив смс, отправленных с сайта. Оттуда как раз угрожатели и пишут, чтобы скрыть личность. Ну или для экономии.

  • Ответить

    Анонимный эксперт ленты.ру предположил что «утечка SMS могла произойти из-за установки инструмента «Яндекс.Метрика» на сайт «Мегафона», в том числе и на страницу, через которую осуществляется отправка SMS.»

  • Ответить

    Пишут вот под замком, но мысль. Дмитрий Воронов: «Мне кажется это фейк. Нету ни одной смс-ки по типу: «купи хлеба и яиц», или там «забери Вову из садика, я не успеваю». А все-какие то е******ские драмы».

  • Ответить
    Альтер Эго

    какую-то вы тут странную конспирологию развели. Ну вот вполне обычные бытовые смски http://gyazo.com/509674a34152cd0c731a4f54541ef29a.png http://gyazo.com/fedf6a56e2a49ae5d054b3cb2443b573.png http://gyazo.com/b1373a3a4ecaf962cac5b2bed81afad5.png http://gyazo.com/2d101b89eca4f446790006a07d9e410f.png вполне нормально, по-моему, что через сайт смски шлет молодежь, которая хочет сэкономить, что через сайт идут смс с «личными разборками» от тех, чей номер получатель заблокировал, потому что разборки ему уже надоели, и т.д.

  • Ответить

    Onlooker, очень легко! Метрика отслеживает страницу, на которой пользователь находится. Если такой страницы нет в индексе, на неё отправляется робот Яндекса. Всё логично

  • Ответить
    Альтер Эго

    у меня в ленте один блоггер уже проверку сделал — позвонил по одному из номеров, зачитал женщине смску и она сказала, что действительно ее получала

  • Ответить

    У меня есть страницы не закрытые для индексирования на которые никто не ссылается. Метрика на сайте установлена, но в индекс они не попали. Как так?

  • Ответить

    Я как-то сам постеснялся проверить подходят ли пароли от почты, которые есть в смс (ссылку давал выше), но на другом сайте, где идет обсуждение, не постеснялись и говорят ни один не подошел. Фейк? Либо уже увели…

  • Ответить
    Альтер Эго

    Искренне надеюсь, что кто-нибудь напишет скрипт, чтобы все это осталось для потомков. С лингвистической точки зрения это — золотая жила. яндекс только первые 1000 результатов показывает

  • Ответить

    Дыра просто огромная. Как такое могли допустить просто непонятно. Все, кто успел попробовали — работает fail, побаловались. Порадовались. Но, может, не надо выкладывать сюда тексты смс? Еще и с номерами. Как дети, ей богу.

  • Ответить
    Альтер Эго

    Оттуда же «Корреспонденты «Ведомостей», попытавшиеся отправить SMS с сайта «Мегафона», убедились, что сообщения действительно отображаются на сайте оператора в момент отправки и некоторое время после нее (просмотреть текст может тот, кто знает адрес страницы проверки статуса отправки SMS)»

  • Ответить

    Ну блин весело, то Гугл Вики Яндекса в кеш собирает, то Яндекс смс Мегафона. А все оттого что кто то экономит на сеошниках:)

  • Ответить

    «Яндекс» свалил все на вебмастеров Мегафона: Яндекс индексирует только открытую часть интернета — те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля. Страницы, индексация которых запрещена администратором сайта в файле robots.txt, Яндекс не индексирует, даже если они находятся в открытой части интернета. Это соответствует всем общепринятым нормам и правилам взаимодействия в интернете. В разделе отправки SMS на сайте МегаФона (www.sendsms.megafon.ru) в момент индексации по какой-то причине отсутствовал файл robots.txt. Насколько нам известно, сейчас администраторы сайта МегаФона уже установили robots.txt и закрыли этот раздел для индексации. В максимально скором времени все страницы этого раздела будут недоступны в результатах поиска Яндекса. Вебмастеров «Мегафона» жалко

  • Ответить

    Помните слив Wiki.yandex-team.ru в паблик? Наверное Google должен был написать следующее: Google индексирует только открытую часть интернета — те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля. Страницы, индексация которых запрещена администратором сайта в файле robots.txt, Google не индексирует, даже если они находятся в открытой части интернета. Это соответствует всем общепринятым нормам и правилам взаимодействия в интернете. В вики-разделе на сайте «Яндекса» (wiki.yandex-team.ru) в момент индексации по какой-то причине отсутствовал файл robots.txt. Насколько нам известно, сейчас администраторы сайта «Яндекса» уже установили robots.txt, включили доступ только из интранета и закрыли этот раздел для индексации. В максимально скором времени все страницы этого раздела будут недоступны в результатах поиска Google.

  • Ответить
    Игорь Ашманов Сам себе компания

    Как сказали тут у нас на кухне: если размышляешь, идти ли работать в ФСБ — вот хороший случай примерить на себя эту работу. Нравится тебе читать чужие СМСки или нет — можно понять на сайте Мегафона.

  • Ответить
    Альтер Эго

    Как и в момент «всплыва» этой информации, как и сейчас страницы ([URL=http://www.sendsms.megafon.ru/send/status/6BAB104B40CE82BC/]пример[/URL]), которые были доступны в выдаче были пустыми. Вопрос: и как в индекс попали данные?

  • Ответить

    Эти страницы живут недолго. Подозреваю, что сильнее всего пострадали юзеры яндекс.бара, который тут же отдавал «Яндексу» информацию об новом урле

  • Ответить
    Альтер Эго

    А вот и официальный комментарий Мегафона http://msk.corp.megafon.ru/press/information/20110718-1652.html типа, какой-то внешний администратор всё испортил, а внутренние всё починили. чего хорошего можно ожидать от людей, которые говорят «информация удалена из всех запросов» — непонятно…

  • Ответить
    Альтер Эго

    Я смотрю у некоторых развился своеобразный «вуаеризм». Читать чужие смски нехорошо. Хотя и многое почерпнул из них.

  • Ответить
    Альтер Эго

    Ну что… Кто-то еще не понял, что любая информация, проходящая через интернет рано или поздно (скорее рано) становится публичной? Это еще, на самом деле, цветочки. Юр, готовься к гораздо более суровым ягодкам — их есть у меня. Намекну — Google Chrome НЕЛЬЗЯ использовать в корпоративном окружении.

  • Ответить

    Если профессиональное сообщество не хочет медведевского закона о персональных данных — то можно и пиар-компанию. Через «неизвестного» «внешнего» «администратора» сайта Мегафона.

  • Ответить

    Если профессиональное сообщество не хочет медведевского закона о персональных данных — то можно и пиар-компанию. Через «неизвестного» «внешнего» «администратора» сайта Мегафона. Не слишком ли дорогая пиар-компания? Скорее всего просто косяк.

  • Ответить
    Альтер Эго

    Яндекс индексирует только открытую часть интернета — те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля. Страницы, индексация которых запрещена администратором сайта в файле robots.txt, Яндекс не индексирует, даже если они находятся в открытой части интернета. Это соответствует всем общепринятым нормам и правилам взаимодействия в интернете. Идиотский комментарий от Яндекса. В Гугле рассказывали, что они стараются не индексировать страницы с кредитными картами и социальными номерами (SSN) даже если те в открытом доступе и не закрыты robot.txt. Так как закрытая информация может стать открытой с точки зрения интернет доступа по ошибке или злонамеренно. Было бы неплохо если бы яндекс тоже старался выбирать, что он индексирует. А такой идиотской аргументацией «раз не закрыто, то в выдачу» можно оправдать все, что угодно и смски, и порнуху, и номера кредитных карточек НАЙДЕТСЯ ВСЕ!

  • Ответить
    Альтер Эго

    Слушайте, а кто у нас обслуживает социальные коммуникации «Мегафона»? Чего Смбатян так мечется в Твиттере?

  • Ответить
    Альтер Эго

    Альтер, вы случайно не домохозяйка? По вашему бравые ребята из яндекса руками проверяют каждый сайт перед индексацией?

  • Ответить

    Кстати, поскольку на эти страницы не было ссылок в открытом доступе, а их получили через бар или метрику, то в Яндексе вполне могли предполагать, что таким образом раскроют много личных данных. Полно сайтов где для доступа к личным данным используется хэши в url.

  • Ответить
    Альтер Эго

    Ха, все бодро отрапортовали об удалении информации, а смс-ки до сих пор доступны в кэше яндекса, надо только запрос чуть-чуть изменить.

  • Ответить
    Альтер Эго

    мегафон дописал абзац к своему пресс-релизу, они гонят что только яндекс во всем виноват Обращаем внимание, что информация о содержании SMS-сообщений клиентов не хранится на сайте оператора. Таким образом, несанкционированный доступ к текстам сообщений наших клиентов мог возникнуть через некоторые Интернет-сервисы Яндекса. Ни в какие другие поисковые системы данная информация не попадала. http://msk.corp.megafon.ru/press/information/20110718-1652.html но это вранье, утренние сообщения можно было просмотреть на сайте оператора, еще до обнародования информации в новостях

  • Ответить

    Я знаю док, в котором они все доступны. Но никому не скажу. Ибо нефиг. jet, в Яндексе могли знать. Но в принципе, вины их тут нет в любом случае, ибо сказано: не хотите, чтобы индексировало, закрывайте в роботс. Альтер, так они и говорят: дескать, через Метрику или через Я.Бар утекло — мы как бы и невиноватые. Видимо, Роем почитали, просветились.

  • Ответить
    Альтер Эго

    Кстати, столь оперативное вмешательство в поисковую выдачу со стороны Яндекса дезавуирует их прошлые и будущие тезисы про «мы не цензурируем интернет» и «мы всего лишь зеркало», и «у нас даже нет инструментов для цензуры». Когда нужно, тогда оказывается вполне себе в состоянии оперативно удалить частичку своей выдачи. Так что суды, которые будут выносить решения об удалении контента из Яндекса, могут спокойно опираться на сей факт и выдавать такие предписания.

  • Ответить

    Мегафон — после драки кулаками не машут))) А так если что СК будете друг ну друга жаловаться. Кто первый начал))) P. S. Какие все таки лохи в Мегафоне работают. Кто то в блогах заговорил про метрику и бар, а они сразу не разбираясь в свое заявление вставили. А тоже небось ходят все в костюмчиках и ездят на Бентли, стратегии решают. Тьфу. P. P. S. а в двойне лохи что так сразу не написали. Хоть как нибудь. А сразу взяли всю вину на себя. Всех уволить)))

  • Ответить

    По !моим субъективным наблюдениям — Google !мои сайты индексирует — !дней так на 7-15 раньше Яндекса. Потому с создавшегося фиаско по sms’кам, во славу новым медведовым законам о персональных — хоть по скорости индексации — надо отдать честь Яндексу. Соответствующий рекламный ролик, что ли запустить: «мы индексируем палево ещё до нажатия отправить!», прям не знаю.

  • Ответить

    Будет гут, если ситуация учтется на будущее — МегаФон и т.п. сайты-компании проведут аудит (чтобы не давать для индексации конф инфу), Яндекс — подумает как не давать в выдачу конф инфу.

  • Ответить
    Альтер Эго

    Написать распознаватель для таких текстовых коллекций не проблема, ложные срабатывания не страшны, так как даже если это не коллекции смсок, такие тексты представляют малую ценность Такие случаи уже случались. И в яндексе могли предохраниться. Но зачем? Это же такая сальная тема, а народ полюбит поискать сальное.

  • Ответить

    Ребят давно все утекло, вот сайт: http://www.smszoom.ru/ Платят на лапу админам и операторам, даж объява есть что набирают на работу, так что все под колпаком давно. Проверяла лично, на самом деле высылают 100% распечатку смс.

  • Ответить

    Нет, серьезно, почему коротких сообщений вообще нет? Как будто намеренно отсеяли скриптом самую клюкву (по количеству символов в сообщении), а потом уже проиндексировали.

  • Ответить

    Яндекс может не индексировать совсем уж короткие страницы (?) Зачем в индексе: «Я дома» — если это равно запросу «Я дома», но никаких дополнительных сведений, кроме «Я дома» — не содержит вообще.

  • Ответить

    Думаю, Ильин прав — страницы с очень короткими сообщениями могли не включаться в индекс, поскольку количество «служебной» информации (навигация, копирайты в футере и так далее) на них превышало количество «уникальных данных». Таким образом, страницы воспринимались как дубли.

  • Ответить

    С sms.prm.ru получилось более интересно — там номер и текст послания были как параметры в самом url. Индексировать такие урлы это уже больше похоже на фейл яндекса. Даже если страница открыта для индексирования, это не повод перехватывать урлы, где в параметрах cодержаться данные форм.

  • Ответить
    BlackFxRu Одно известное агентство интернет-рекламы

    Там было много страниц, где в сниппете был текст с сайта, а не содержимое смс. Вполне может быть, что Яндекс не брал в сниппет короткие сообщения, а брал вместо этого «околосмсочный» текст с сайта. Те, кто парсил выдачу брали сообщения из сниппетов, соответственно все короткие сообщения могли потеряться. Более того, в сниппетах не всегда сообщения отображались целиком, если зайти в сохраненную копию, можно было увидеть больше.

  • Ответить

    Публикация в Лайфе — она о планах лубянских мудрецов. Типа того, что уголовное дело про Яндекс даст возможность боевикам зайти в компанию и спустя пару дней вообще сесть на Яндекс «крышей». «Мы будем оборонять вас от недобродетельной индексации» — ну то есть — не алгоритмы и соглашения об интернет стандартах «будут решать», что нужно индексировать. А специально обученные люди, в партикулярном платье, но с погонами.

  • Ответить

    > почему коротких сообщений вообще нет ну, может быть, потому что короткое сообщение типа «да» можно и на телефоне набрать, а вот длинное в 500 слов — на телефоне заколеблешься, чере сайт проще :)

  • Ответить

    С sms.prm.ru больше похоже на фейл Яндекса. Там на сайте не хранились данные по смс, а они были только в параметрах урлов. То, что страница открыта для индексации, еще не повод для Яндекса перехватывать урлы, в которых есть данные форм, отправленных юзером.

  • Ответить
    dima5ty гасконец

    Ну как дети малые. Давайте говорить, типа «мощность текста недостаточна для включения в основной индекс», так правильней и круче. еще не повод для Яндекса перехватывать урлы, в которых есть данные форм, отправленных юзером. Вот вам страшная тайна — Яндекс перехватывает даже ссылки со своего Директа и плодит на неумёхах тыщщщи дублей страниц в индексе, чем опускает сайты своих же клиентов в своём же поиске за их же деньги, но даёт бонусы на рекламные урлы за счёт пользовательских факторов, которые недавно притопил, т.е. и бабло отжимают и индексацию портят (что в отчётах на счётчиках твориться — отдельная тема). Вот это тема, а вы про кривые формы какие-то. А ещё они не лезут во фреймы, не подклеивают код кривых флешек к контенту и не воруют урлы.

  • Ответить
    Альтер Эго

    А что имелось ввиду под сообщением? Где Хром успел отметиться? Ну что… Кто-то еще не понял, что любая информация, проходящая через интернет рано или поздно (скорее рано) становится публичной? Это еще, на самом деле, цветочки. Юр, готовься к гораздо более суровым ягодкам — их есть у меня. Намекну — Google Chrome НЕЛЬЗЯ использовать в корпоративном окружении.

  • Ответить

    > Вот это тема, а вы про кривые формы какие-то В том то и дело, что там форма не кривая, просто данные отправляются GET запросом, а не POST, это все в рамках стандарта Прежде чем собирать урлы из баров и от метрики, Яндексу следовало озаботиться, как отделить урлы, в которых есть персональные данные пользователя, когда данные вбиваются в различных формах и отправляются GET запросом. Это все из той же оперы, когда Гугл снифил открытый WiFi трафик с паролями итп.

  • Ответить

    > а почему этим Яндекс-то должен озабачиваться, а не Мегафон? 1. Речь шла про sms.prm.ru 2. Закрытие страницы от индексации и индексация данных форм, это не связанные вещи, если страница открыта в robots.txt это говорит только о том, что можно индексировать саму страницу, это не говорит что вебмастер разрешает индексировать данные пользовательских форм, они вообще никогда не должны индексироваться. Понятно, что Яндексу сложно отделить какие параметры в урле это навигация, а какие пользовательские данные, но это проблема Яндекса, не надо снифать урлы из баров и не будет такой проблемы.

  • Ответить
    Альтер Эго

    > А что имелось ввиду под сообщением? Где Хром успел отметиться? Пусть немного пыль осядет. А то про Гугль в том же разрезе писать сейчас не очень хорошо получится. Но пост за мной.

  • Ответить
    Альтер Эго

    сейчас яндекс все проиндексирует, и смски в ваших телефонах, готовьтесь к запуску нового продукта)))

  • Ответить

    > Понятно, что Яндексу сложно отделить какие параметры в урле это навигация, а какие пользовательские данные, но это проблема Яндекса, не надо снифать урлы из баров и не будет такой проблемы. Разделить урлы можно, достаточно не помещать в индекс те страницы, на которые никогда не было ссылок. Странно, что до сих пор это не так делается.

  • Ответить

    > на которые никогда не было ссылок На практике это означает, что не надо тащить урлы из баров и метрики. Но они от этого не откажутся, ведь размер индекса уменьшится. у Гугла такая же проблема с самоконтролем – лезут во все дыры.

  • Ответить
    dima5ty гасконец

    В том то и дело, что там форма не кривая, просто данные отправляются GET запросом, а не POST, это все в рамках стандарта А в рамках ДНК стандарт — не использовать get-формы если урл потом не должен передаваться (для поиска — хорошо, для авторизации — неприемлемо), да и хранить чужие письма и раздавать их без фильтра по кукам или айпишнику — тот ещё детсад. Технически результаты отработки get-формы и просто набор параметров скрипта не разрешимы по написанию адреса страницы. Разделить урлы можно, достаточно не помещать в индекс те страницы, на которые никогда не было ссылок. Странно, что до сих пор это не так делается. Знали б вы что творят периодически всякие эти вебдвамастера :)

  • Ответить

    > А в рамках ДНК стандарт — не использовать get-формы если урл потом не должен передаваться Мы же обсуждаем не качество и юзабилити интерфейса. Если форма соотвествует стандарту, то Яндекс должен корректно отрабатывать работу с ней и не тащить в индекс данные форм. Если не могут так сделать (технически это возможно — могли бы например парсить страницу и смотреть какие там есть элементы форм и обрезать их значения из урла), то надо ограничиваться только урлами, которые существуют в виде ссылок. > да и хранить чужие письма и раздавать их без фильтра по кукам или айпишнику — тот ещё детсад а это причем? на sms.prm.ru ничего не хранится, утекшие данные существуют только в параметрах урла

  • Ответить

    Интересно вот что: Вот например у меня кредитная карта, на ней написана последовательность символов. Эта последовательность — секрет. И вопросов это не вызывает. А вот урл. Тоже последовательность символов, моя последовательность, скажем это урл документа в гуглдокс или урл моей смс-ки. На мой вкус все это один хрен, и если ты с помощью бара, браузера или какого там аналитикса подсмотрел мой секрет, да еще и слил его, то ты казел. И неважно бинг ты, гугол, или как там еще. Вообще куда смотрят Касперкие? Почему нет продукта, который бы отслеживал мутантов, которые сливают данные? Недосмотр я щетаю.

  • Ответить

    Что касается разницы между постом и гетом. Понятно, что данные отпраленные гетом перехватить проще, и типа формы надо отправлять постом. Но это — рекомендация, призванная помочь обеспечить безопасность передачи данных. И она не означает, что данные отправленные гетом разрешается перехватывать. Это как рекомендация не оставлять свои вещи на пляже без присмотра. Нихрена она не означает, что их разрешается брать без спросу.

  • Ответить
    dima5ty гасконец

    Это как рекомендация не оставлять свои вещи на пляже без присмотра. Нихрена она не означает, что их разрешается брать без спросу. То, что вещи лежат на пляже — так же не означает, что к вещам должен прилагаться охранник при их покупке, что вы специально не оставляли их для кого-то, что сосед по этажу не может их забрать и вернуть пьяному голому товарищу, спящему в коридоре. Но мы ж не про трусы. Значение имеет только знание «через get контент не гнать», потому что урлы раздаются браузерами и барами куда не попадя, они ловятся внешними счётчиками, они могут быть в открытой серверной статистике, в логах провайдерских проксей всех уровней и т.п. С точки зрения оптимизаторской практики — использовать параметры в урлах вообще плохо, потому их тяжело контролировать, перепроверять, блюсти корректность значений и обработки, если изначально такая задача не ставилась. И robots.txt, мета-теги, линк-каноникалы, саймапы и прочее в определённым момент перестают спасать, но 99% проблем решают. Если герои смсочного дня нанимают глупых людей — это проблемы нанимателей, а не Яндекса. У данных есть простое свойство — если их не прячут, значит они открыты.

  • Ответить
    Альтер Эго

    А это уже как сложилось в праве той или иной страны. Если кто-то когда-то пробьет через все ветви законодательной власти закон о том, что нельзя без письменного разрешения владельца копировать в поисковую систему данные с сайта, как это запрещено делать с музыкой, то так тому и быть. Всем поисковикам придется взять под козырек. Гуглу к особым режимам функционирования и обращения с информацией в разных странах уже не привыкать, а вот Яндексу пора это блюдо отведать, чтобы быть готовым к различному в своей экспансии на международный рынок. После выхода на ипо, ох, сколько юристов поставили себе на заметку эту компанию. Надо делится, думают они и строчат свои запросы в прокураторы, суды и прочие инстанции. Велком ту хелл!

  • Ответить

    нет тут судебной перспективы, даже в в отношении Мегафона. Может будет наезд государства, может нет. СК в роботс.txt копаться не будет, сразу всем выговор с занесением. Но я думаю дело затухнет — нет никому выгоды. СК и ФАС еще в первый день свой пиар «защитников народа» отработали. Ну то есть если конечно если очередного ооротня в погонах сажать не будут могут от нечего делать мегафон с яндексом и поставить в угол.

  • Ответить

    > У данных есть простое свойство — если их не прячут, значит они открыты. Это не так. В гуглдокс, например, есть две такие на первый взгляд идентичные опции для документов. Это «общедоступно» и «открыто для пользователей у которых есть ссылка». Документы, сохраненные с первой опцией, — попадают в индекс, вторые — нет, нет до тех пор пока ссылка не появится где-нибудь. > они могут быть в открытой серверной статистике, в логах провайдерских проксей всех уровней Если ссылки были взяты из открытых источников, например из выдачи гугла или бинга, то вопросов нет. Если из бара, браузера или метрики, то это ничем не отличается от использования трояна для получения приватной информации, и это — уголовщина. > То, что вещи лежат на пляже — так же не означает, что к вещам должен прилагаться охранник Вот вам еще пример пораскинуть мозгами: Вы хозяин злой и глупой собаки. Что правильней, купить намордник, или убедить людей прятаться по углам?

  • Ответить
    dima5ty гасконец

    вторые — нет, нет до тех пор пока ссылка не появится где-нибудь Если ссылки были взяты из открытых источников, например из выдачи гугла или бинга, то вопросов нет. Если из бара, браузера или метрики, то это ничем не отличается от использования трояна для получения приватной информации, и это — уголовщина. Ну вот такие методы получения данных у поисковиков, видать не просто так. Я не очень понимаю зачем вы пытаетесь продвинуть идеальную картину мира, которая невозможна чисто из-за генетической природы этой самой картины. Вот вам еще пример пораскинуть мозгами: Вы хозяин злой и глупой собаки. Что правильней, купить намордник, или убедить людей прятаться по углам? Почему только два варианта? И с неправильной постановкой вопроса? Своя за месяц станет шелковой, от чужой сделаю собачью оптимизацию.

  • Ответить
    Альтер Эго

    > У данных есть простое свойство — если их не прячут, значит они открыты. [URL=http://en.wikipedia.org/wiki/Security_through_obscurity]Security through obscurity[/URL] Интересно, что в этом треде еще не обсудили тему влияния поведенческих факторов на Я. Сообщение появится на сайте в течение 40 секунд. Отменить публикацию можно с помощью ссылки UNDO

  • Ответить
    dima5ty гасконец

    Интересно, что в этом треде еще не обсудили тему влияния поведенческих факторов на Я. Ващето это функции, а не факторы, работающие с кликстримом. Если их обсудить, то всё сразу станет понятно и оправдано. А как же поговорить?

  • Ответить

    > Я не очень понимаю зачем вы пытаетесь продвинуть идеальную картину мира, которая невозможна чисто из-за генетической природы этой самой картины. Я тоже этого иногда не понимаю. Здесь наверное мне неприятно, что большие обижают маленьких. Что-то из этой серии. Но я могу потерпеть эту несправделивость. И просто забить тоже могу. И даже уже забил. :)

  • Ответить

    >Разделить урлы можно, достаточно не помещать в индекс те страницы, на которые никогда не было ссылок. >Странно, что до сих пор это не так делается. Если так делать, сильно упадет качество по запросам с интентом «свежести», QDF (query deserves freshness), т.к. отследить появление ссылки в навигации сайта в реальном времени невозможно, в отличие от..

  • Ответить

    Если так делать, сильно упадет качество по запросам с интентом «свежести», QDF (query deserves freshness), т.к. отследить появление ссылки в навигации сайта в реальном времени невозможно, в отличие от.. Улучшать свое качество, игнорируя нарушение чужой приватности конечно можно, только оно как-то плохо пахнет.

  • Ответить

    Если так делать, сильно упадет качество по запросам с интентом «свежести», QDF (query deserves freshness), т.к. отследить появление ссылки в навигации сайта в реальном времени невозможно, в отличие от.. Кстати можно такую фичу сделать в Я.Вебмастере — показывать страницы в индексе на которых нет внешних/внутренних ссылок. Если таких страниц много — это явные проблемы на сайте.

  • Ответить

    У Яндекса, как и у Гугла, наверняка есть ограничения, накладываемые на формат урлов, попадающих в real-time поиск. Я не помню, чтобы возникали проблемы с индексацией ссылок, подтверждающих отписку от рассылки, подтверждение регистрации, и.т.д. По формату урлов мегафоновских смс нереально понять что там содержится приватная информация. Но сейчас уже наверняка добавили этот случай в исключения. Такие проблемы будут подниматься в будущем все чаще и чаще, т.к. ПС обзаводятся своими браузерами и операционными системами (ну или операционки обзаводятся поисковиками -) ), дающими возможность частично индексировать так называемый deep web.

  • Ответить
    dima5ty гасконец

    Если таких страниц много — это явные проблемы на сайте. Упаси Господь узнать, что Вы из Сортировочной :) Я не помню, чтобы возникали проблемы с индексацией ссылок, подтверждающих отписку от рассылки, подтверждение регистрации, и.т.д. Чиста экспромт: http://yandex.ru/yandsearch?text=inurlunsubscribe+inurlmail.ru&clid=46510&lr=213

  • Ответить

    @dima5ty Тогда уж [URL=http://yandex.ru/yandsearch?text=inurlunsubscribe++++&clid=46510&lr=213]как-то так[/URL], или [URL=http://yandex.ru/yandsearch?text=++++mail.ru&clid=46510&lr=213]так[/URL]. В вашем примере страницы со ссылками на отписку, в моем страницы с информацией о том что юзер успешно отписан. Если бы Яндекс свободно индексировал такие ссылки, то результатов было бы гораздо больше. К тому же, для того чтобы поисковик зашел на такую страницу, предварительно на нее должен зайти пользователь и отправить урл поисковику. Т.е. в крайнем случае поисковик отпишет пользователя еще раз — ничего страшного.

  • Ответить
    dima5ty гасконец

    Если бы Яндекс свободно индексировал такие ссылки, то результатов было бы гораздо больше. К тому же, для того чтобы поисковик зашел на такую страницу, предварительно на нее должен зайти пользователь и отправить урл поисковику. Т.е. в крайнем случае поисковик отпишет пользователя еще раз — ничего страшного. Всё так. У меня тогда уточняющий вопрос: какие такие проблемы с индексацией и ограничения имелись ввиду в предыдущем Вашем посте? Ограничений и проблем как Вы сами выяснили нет. Так ведь? У Яндекса, как и у Гугла, наверняка есть ограничения, накладываемые на формат урлов, попадающих в real-time поиск. Я не помню, чтобы возникали проблемы с индексацией ссылок, подтверждающих отписку от рассылки, подтверждение регистрации, и.т.д.

  • Ответить

    >Ограничений и проблем как Вы сами выяснили нет. Так ведь? Нет, не так. Я выяснил только что «проблемных» документов, сгенеренных сервером после клика на ссылку «отписаться от рассылки», в индексе очень мало. Это как раз говорит о том, что ограничения скорее всего есть.

  • Ответить
    dima5ty гасконец

    Нет, не так. Я выяснил только что «проблемных» документов, сгенеренных сервером после клика на ссылку «отписаться от рассылки», в индексе очень мало. Можно подкорректирую? В пользовательском индексе. Про правильность корректировки Вы и без меня знаете, наверняка. Это как раз говорит о том, что ограничения скорее всего есть. Ну вот не представляю, как при наличии ограничений в индекс (даже просто в краулер) может попасть хоть одна подобная страница. Вот если снизу прям начинать — то одно из самых первых ручных правил для отработки таких урлов — это слово «unsubscribe» и символ собаки. И где оно это правило заплутало тогда?

  • Ответить
    Альтер Эго

    Вот я не понял, чего все парятся. Это же смски! Ну разве вы не знали, что они передаются в эфире без шифрования трафика и доступны любому любознательному школьнику, который не пожалел денег на китайскую радиоплату. Прям как дети, ей богу.