Google индексирует ссылки из GMail

Эмпирическим путем было установлено, что Google проводит индексирование сайтов, упоминаемых в почтовой переписке пользователей. И если для общедоступных сайтов это, возможно, полезно, то ресурсам, находящимся в разработке, попадание в публичную поисковую выдачу раньше времени вовсе ни к чему. Понятно, что управлять индексированием сайта можно с помощью директив в robots.txt, но из общегигиенических соображений такое поведение поисковика, может быть признано некорректным.

Так же вызывает вопросы переход поискового робота по ссылке, содержащей уникальный авторизационный токен, скажем, на закрытый профиль пользователя в социальной сети. В данной ситуации обладатель ссылки уже никак не может повлиять на индексирование страницы, если этим не озаботились разработчики целевого сайта.

В принципе, Google уже достаточно давно приучил пользователей к тому, что любая страница, которую они посещают, может стать известна Google — при помощи информации, отправляемой панелью инструментов Google или самим браузером Chrome, поэтому на данный момент надо привыкнуть лишь к новому кусочку мозаики изображающей «Старшего брата».

Лучшие комментарии

  • Контекст комментария

    Юрий Синодов Основатель Roem.ru, sinodov.com

    Уточняю. Появление страниц сайта из переписки корреспондентов в выдаче Google — зафиксировано. Переходы по конкретным страницам — нет.

  • Контекст комментария

    Михаил Калашник HeadHunter

    Если бы гугл индексировал подобные ссылки, об этом бы давно узнали. Например, по постоянно просроченным ссылкам об активации аккаунтов при регистрации. С другой стороны, мне на личную почту @gmail приходят уведомления об ошибках с сайтов, которые я разрабатываю, там содержится ссылка на страницу, на которой произошла ошибка. Сейчас проверил логи двух сайтов (они в разработке, ссылки нигде кроме багтрекера, писем и скайпа не публиковались) — ничего похожего на поисковых роботов нету.

Добавить 31 комментарий

  • Ответить

    Зашибись, теперь гугля будет переходить по ссылкам в запросах роботов для подтверждения каких-то действий и проверок на правильность email? «Если вы согласны получать нашу херню три раза в неделю, кликните по ссылке» «Для подтверждения регистрации в нашей кукушечке кликните по ссылке» «Если вы действительно хотите изменить пароль, кликните по ссылке». Вы точно со своим эмпирическим путём ничего не напутали?

  • Ответить

    Ну новость-то редакторская, так что интересно было бы услышать от Юры, что это за эмпирический путь такой. Кстати, вопрос этот волновал пользователей довольно давно. Вот, например, пост с описанием эксперимента 2008-го года. В результате него было установлено, что: Long story short: Google does not appear to index links in Gmail. I say, «appear», because the experiment was small in scope. Впрочем, эксперимент касался всего одной ссылки в одном письме. Возможно проведение более масштабного эксперимента с более достоверными результатами. Или кто-то уже проводил?

  • Ответить
    Альтер Эго

    Тут как-то автор очень сильно метод индукции применил)) Вначале написал, что эмпирически было выявлено, то индексирует новые САЙТЫ, а потом фигах и перескочил на то, что ходит по ссылкам из писем. Всё-таки получение информации из писем о появлении новых сайтов (читай, хостов) и переход по ссылкам — это ну очень разные весчи.

  • Ответить

    Если бы гугл индексировал подобные ссылки, об этом бы давно узнали. Например, по постоянно просроченным ссылкам об активации аккаунтов при регистрации. С другой стороны, мне на личную почту @gmail приходят уведомления об ошибках с сайтов, которые я разрабатываю, там содержится ссылка на страницу, на которой произошла ошибка. Сейчас проверил логи двух сайтов (они в разработке, ссылки нигде кроме багтрекера, писем и скайпа не публиковались) — ничего похожего на поисковых роботов нету.

  • Ответить
    Игорь Ашманов Сам себе компания

    Если бы гугл индексировал подобные ссылки, об этом бы давно узнали. Узнав, написали бы. Прочтя, горячо опровергли бы. Что мы сейчас и наблюдаем. Сейчас проверил логи двух сайтов (они в разработке, ссылки нигде кроме багтрекера, писем и скайпа не публиковались) — ничего похожего на поисковых роботов нету. Можно предположить, что: а) автор не привык читать логи, скажем, не замечает, какие агенты заходят и как ведут себя индексные роботы. Ясно, что по почтовым ссылкам Гугл может заходить под совершенно левым агентом. Для конспирации, хотя бы. б) возможно, эксперимент с новыми и уникальными сайтами ничего не показывает или показывает не то. Возможно, Гугл просто накапливает базу урлей и хостов, а индексирует только самые частые из них (или совпадающие с членами другого списка: со ссылками с других сайтов). Или по крайней мере включает их в общую базу публичного поиска только при частотности упоминаний в письмах. В любом случае, жаркие споры про индексирование ссылок в почте (с душком праведной защиты прайваси) — нелепы. Потому что сам ТЕКСТ писем Гугл точно индексирует. И для поиска по ним в вашем ящике, и для показа контекстной рекламы по ним. И он всегда это делал, с момента запуска Гмыла. Так что, текст вашего письма, написанный буквами, он всасывает, а урлы из него — нет? Странно как-то, нет? Ну если уж он мак-адреса вайфайных роутеров всего мира всосал… Поэтому правильно поставленный эксперимент должен был бы быть таким: а не показывает ли Гугл рекламу по ссылкам в письме?

  • Ответить
    kid

    Посмотрел авторизации пользователей по строкам «bot» и «google» в UserAgent`ах за последние пару дней. Обнаружил множество авторизаций под разными пользователями по авторизационным ссылкам, добавляемым в письма: 2010−12−25 11:38:09 95.108.246.252 Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) 2010−12−25 02:00:15 95.108.246.252 Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) … 2010−12−21 10:47:00 66.249.66.215 Mediapartners-Google Все без реферера и без продолжения авторизованной индекесации (авторизация идёт через куки которые роботы обычно не едят). IP-адреса проверил — принадлежат поисковикам.

  • Ответить

    Про активационные ссылки с форумов и прочих подобных мест тут уже написали. Если бы гугл ходил по таким ссылкам (а способа отличить их от не-таких _не_сходив_ у него нет), были бы крайне интересные эффекты. То есть базу ссылок в письмах — наверное имеет. Может использовать для ранжирования уже проиндексированного, нивапрос. А вот ходить по ним — неважно каким юзер-агентом и с какого IP — лично я бы не стал и гуглу бы не посоветовал.

  • Ответить

    О, ваше письмо по времени раньше, но когда я писал свое (которое выше) — ваше еще не появилось. Что важно было бы выяснить: эти заходы (особенно Яндексовые) — они _до_ того как юзер сходил по этому URL или после? Если после — это может быть отрыжка от тулбаров. Т.е. юзер сходил на страницу, спалил ее URL яндексу, яндекс на нее, соответственно, тоже пришел.

  • Ответить
    Юрий Синодов Основатель Roem.ru, sinodov.com

    Уточняю. Появление страниц сайта из переписки корреспондентов в выдаче Google — зафиксировано. Переходы по конкретным страницам — нет.

  • Ответить
    Альтер Эго

    Юрочка. Умоляю. думайте. Не продавайте за что купили. Что такое переходы? Вы имеете в виду заходы поисковых роботов? А как без заходов поисковых роботов Гугл может показывать страницы в выдаче, не задумывались?

  • Ответить
    Альтер Эго

    Ну и чего. Это раз. А два — разве гугл не может тупо хавать домен?! Нафиг ему ваши ссылки. Он заходит в корень домена, а дальше как обычно.

  • Ответить
    jet

    я как-то по глупости тестировал под нагрузкой один из проектов через зарубежный онлайн сервис (в тот момент было лень поставить софт для этого), проект был еще в разработке и светить его было нежелательно так вот через два дня несколько тысяч страниц из проекта были уже в выдаче гугла, оказывается на том сервисе на одной из страниц публиковались url, по которым проводилась проверка под нагрузкой и гугл их сразу добавлял в базу я потом замучался все эти страницы выковыривать из кэша гугла, геморой был страшный. особенно доставляло, что что в инструментах вебмастера удалять из кэша url можно только по одной, а не сразу весь домен

  • Ответить
    jet

    > А Disallow в robots не спасал? спасал, это было первое, что я сделал, когда увидел проект в выдаче) просто я не ожидал такой подлянки и думал 32 случайных символа в поддомене достаточная защита от случайных заходов, а вообще конечно не надо было клювом щелкать и пользоваться малознакомыми сервисами

  • Ответить

    Владельцу сайта из логов. А по внешнему виду результата поиска — из того, что заголовок у страницы стоит левый или отсутствует. Если б заходил, то взял бы настоящий заголовок.

  • Ответить
    Альтер Эго

    Вызывает Волож Сегаловича -Илья, только что на роеме прочитал о том, что гугл индексирует ссылки с гмэйла, теперь я понял почему гугл обгоняет нас по размеру индекса, нужно срочно скопировать эту фичу, как мы копировали другие фичи гугла -Аркадий, гениальная идея, но только гмэйл принадлежит не нам, а гуглу и ссылки оттуда мы копировать не можем (обнвяшись плачут друг другу в жилетку)

  • Ответить

    Когда-то в молодости гугл совал контекст в оперу (прям в приложение) и она была при этом типа бесплатной. После попадания в индекс Г одного из разрабатываемых ресурсов сообщил об этом в сообчествах. Крику было, типа не может такого быть, воне чесныя… Не свят гугол, не свят.

  • Ответить

    lexa: Если после — это может быть отрыжка от тулбаров Имена юзер-агентов YandexDirect и Mediapartners-Google ненавязчиво намекают, что на этих секретных страницах kid стоят рекламные блоки Директа и AdSense. Чтобы узнать, о чем эта страница и какую контекстную рекламу на ней показывать, Директ и AdSence должны загрузить эту страницу, узнать контекст. После того, как к этой странице с рекламными блоками обратился пользователь.

  • Ответить

    После — понятно. Рекламные блоки, тулбары, все дела. Вот насчет «до» — интересно же ж. И, естественно, без всяких внешних ссылок на страницу из «открытого» веба. Попробовать несложно, впрочем.

  • Ответить

    > Рекламные блоки, тулбары, все дела. Я просто к тому, что тулбар — это более сложное объяснение простому факту загрузки страницы рекламной системой. > Попробовать несложно, впрочем. Да, я попробовал позавчера, отправил ссылку в свои ящики на яндексе, гмейле и мейле, пока ни одна зараза не пришла :) Даже просто к главной странице поддомена не обратились, он тоже новый.

  • Ответить
    Альтер Эго

    Вряд ли они будут приходить из-за одного письма с мылкой Так они наберут много мусорных страниц Скорее всего они отбирают хоть сколько то популярные липки и идут туда

  • Ответить

    > Чтобы узнать, о чем эта страница и какую контекстную рекламу на ней показывать, Директ и AdSence должны загрузить эту страницу, узнать контекст, А если поведенческий таргетинг? В таком случае им нужно узнать данные пользователя, обратившегося к странице, а само её содержание не так важно.

  • Ответить

    > А если поведенческий таргетинг? Обычно он всё же используется вместе с контекстным, поэтому все равно нужно узнать контекст. Кстати, я посмотрел наши логи, бот YandexDirect за обе щеки ест [url=http://www.liveinternet.ru/rating/ru/]страницы[/url], на которых Директа нет и никогда не было. Видимо, какая-то адварь, которая цепляет ко всем страницам блок Директа? Некрасиво.