Google Chrome отправляет контент страниц в индекс?

28 июля 2011 в 20:54
Roem.ru

Я обещал рассказать историю о запрете Google Chrome в нашей организации еще в треде про SMS - выполняю обещание.

Итак, жил-был сайт. Часть его страниц была закрытой админской зоной. Причем закрыта была не в robots.txt (а зачем?), а на уровне доступа "white list" - то есть зайти туда можно было только с офисных IP самой компании.

И как же было удивительно видеть часть этих страниц в выдаче Гугла, причем, (вот это уже За Гранью Добра) не только страниц, но и сниппетов и сохраненной копии.

В общем расследование показало:
- Робот Гугла, естественно, туда зайти не мог - получал 500-ю ошибку.
- Но - была куча заходов с реферером от офисного Google Chrome, причем даже от тех людей, вход которых не был предусмотрен служебными обязанностями.
- Анализ трафика показывает, что Хром не просто отправляет URL посещенных пользователем страниц, но и их содержимое (!). Вот откуда и сниппеты, и сохраненная копия.

Как результат:
- Ну в общем я понимаю, что персональные данные всем безразличны, но тут уже речь идет о корпоративной информации в публичном доступе. Неужели и ей готовы делиться с Империей Добра?
- Google Chrome в нашей организации объявлен Spyware и запрещен.

Первая мысль естественно была пойти в суд, но увы - я не в России, и у нас нет такого вкусного закона о персональной информации. Но мы размышляем над этим.

PS: Нотариально Заверенные Скриншоты и логи естественно есть, в паблик не могу выложить - не хочу светить компанию. Но Юре покажу по его просьбе.
PPS: Кстати, и robots.txt Гугль не соблюдает - прямо закрытые им страницы все равно будут в выдаче как найденные (по ссылке? Нет таких ссылок!), но уже без сниппета и сохраненной копии (и на том спасибо!) Примеры опять же есть.

-----------
Комментарий Roem.ru: всё-таки вспомним случай с вики "Яндекса" - закрытый раздел оказался публичным и попал в кэш и снипеты Google. Не могло ли быть такого?

И, пожалуйста, покажите скриншоты-логи на sinodov@roem.ru, я хотя бы в комментариях подтвержу, что что-то странное происходило.

Лучшие комментарии

Контекст комментария
Юрий Синодов Roem.ru
Автор мне показал. Признавая справедливость множества вышенаписанных доводов, нельзя не сказать, что и его история с конкретными примерами выглядит впечатляюще (разумеется, он и сам признает, что доказать, что каталоги какое-то время не были открыты — невозможно) Ссылки на страницы из каталога закрытого для индексирования — тоже понравились Остальное автор расскажет сам, если захочет.

Добавить 91 комментарий

29 июля 2011 в 13:26 Ответить
Crio
А у вас там Google Desktop ни у кого не стоял часом? Вот в нем точно нифига не разберешь, что и где он индексирует, хранит и выдает. Но вообще, информация эта не проходит «тест Авраама Линкольна», рекламировавшийся давеча Ашмановым.
29 июля 2011 в 13:32 Ответить
Мзареулян Давид
Без нормальных доказательств это не более чем сообщение агентства ОБС. P. S. Юрий, а как Вы подтвердите «странное»? Как Вы определите, что ограничение доступа на том сайте работало нормально и всегда?
29 июля 2011 в 13:45 Ответить
chonduhvan
У меня есть страница на сайте для сотрудников в которую интегрирована форма из гуглдокс (есть и другие страницы, с другим контентом). Доступ открыт для всех. Я использую хром в котором стоит галочка «отправлять статистику…». На сайте установлен гугл аналитикс и яндекс метрика. Страница в выдачу не попала ни в яндекс, ни в гугл. Чувствую себя неудачником.
29 июля 2011 в 14:33 Ответить
weiss
Яндекс.Бар, кстати, тоже отправляет в поиск посещаемые страницы. Не знаю правда, передается ли содержимое, вроде только URL, но всё-таки.
29 июля 2011 в 14:55 Ответить
Валентин Домбровский Travelabs
> Без нормальных доказательств это не более чем сообщение агентства ОБС. Дак проверяется легко — сделать несколько страничек, «закрытых» от поискового агента ответом сервера и походить по ним Хромом.
29 июля 2011 в 15:05 Ответить
Максим Месилов 1С-Рарус
2Psycho: и смотреть что он родимый передаёт. Да и исходики ведь его открыты — что стоит посмотреть знающим людям?
29 июля 2011 в 15:09 Ответить
Мзареулян Давид
> Дак проверяется легко — сделать несколько страничек, «закрытых» от поискового агента ответом сервера и походить по ним Хромом. Смеётесь? Каждый юзер хрома в день посещает сотни закрытых страниц — от веб-почты до каких-нибудь интерфейсов соцсетей, доступных только этому юзеру. Что, все они попадают в индекс гугла?
29 июля 2011 в 15:17 Ответить
Evgeny Ushkalov
«Робот Гугла, естественно, туда зайти не мог — получал 500-ю ошибку» — 500 общая ошибка сервера, кторая говорит только о том, что чета не работает и надо зайти когда починят. О том что там ничего нет надо говорить 404, а о том что туда низя — 401. А лучше вообще ничего не говорить и на запрос уходить в таймаут или отбой. «была куча заходов с реферером от офисного Google Chrome» — не удивительно, ведь вы из офисного Хрома туда ходите. «Анализ трафика показывает, что Хром не просто отправляет URL посещенных пользователем страниц, но и их содержимое (!)» — логично. Ведь браузер сначала передает урл на сервер, в ответ получает содержимое страницы. Так HTTP иработает :)
29 июля 2011 в 15:25 Ответить
Evgeny Ushkalov
Защита через ROBOTS.TXT это не защита. Это типа того, как оставить кошелек на улице с запиской — «у меня тут деньги лежат, поэтому прошу не торгать — оно мое». Ага… щаз! Попробуй догони. Роботс и страныый урл — типа защита для лохов. Это ноль. Доступ к приложению по авторизации. Это раз. На уровне приложения. Закрытые портов, прокси и т.д. и т.п. Это два. На сетевом уровне. Закрытые двери и люди с автоматами, отключение от внешних сетей, включая электрические (автономное питание). Это три. На физическом уровне.
29 июля 2011 в 15:57 Ответить
Валентин Домбровский Travelabs
> Смеётесь? Каждый юзер хрома в день посещает сотни закрытых страниц — от веб-почты до каких-нибудь интерфейсов соцсетей, доступных только этому юзеру. Что, все они попадают в индекс гугла? Возможно, действительно дело в том, что выдавалась ошибка 500 — с 404 или 403, возможно, проблем не было бы.
29 июля 2011 в 15:57 Ответить
Роман Иванов Яндекс, а также ljsear.ch по выходным
Яндекс.Бар не отправляет в поиск страницы.
29 июля 2011 в 16:02 Ответить
Альтер Эго
Логика в таком поведении есть. Вы делаете страничку, которая роботу Гугла никак не отдается. Но на нее заходит куча народу и видит там совсем не 500ю ошибку. Гугл помечает эту страницу как важную, но находящуюся на плоходоступном сервере. Видимо, такие страницы Гугл не стесняется краулить с помощью пользовательского Хрома, т.к. не имеет возможности на каждую такую страницу каждые 5 минут посылать свой собственный краулер. Получается такой распределенный краулер для ненадежных серверов. Находка, конечно, удачная, но с моральной, а может и легальной стороной тогда проблемы. Публикации-то ведь не было, страница закрыта от просмотра по айпи, т.е. Гуглом были предприняты специальные действия, чтобы получить неправомерный доступ к закрытой информации. Все равно, что спереть в банке номера кредитных карточек, и ссылаться на то, что в каталоге, где были номера кредиток, robots.txt не было, и не выдавалась ошибка 404.
29 июля 2011 в 16:40 Ответить
Руслан Левиев Фонд борьбы с коррупцией
Тем более помните что там за галочки стоят при установке Гугл Хром? Одна что вы принимаете лицензионное соглашение, вторая что вы согласны помочь Гугл в сборе статистики и чём-то там ещё (правда она по умолчанию не стоит).
29 июля 2011 в 16:47 Ответить
Fitipaldi
Стоит у нас на всех внутренних страницах и ничего не попадает в индекс.
29 июля 2011 в 16:58 Ответить
blender
@Fitipaldi: Да не важно — попадает или не попадает. Важно — передается или нет.
29 июля 2011 в 17:01 Ответить
Fitipaldi
@Sniff-Sniff: И не передается тоже. Мне почему-то казалось, что в справочных руководствах поисковиков этот нюанс указывается.
29 июля 2011 в 17:12 Ответить
lrrr
А нельзя ли это самое повторить на тестовом сервере каком-нибудь и логи выложить? Ну или инструкции привести как это повторить, баг репорт типа
29 июля 2011 в 17:14 Ответить
Мзареулян Давид
> Возможно, действительно дело в том, что выдавалась ошибка 500 — с 404 или 403, возможно, проблем не было бы. Нет, дело в том, что описанное в статье — бездоказательный бред сивой кобылы, а толпа вроде бы умных людей этот бред всерьёз обсуждают:)
29 июля 2011 в 17:31 Ответить
Валентин Домбровский Travelabs
Скриншоты обещали Юре показать.
29 июля 2011 в 19:01 Ответить
Альтер Эго
Информацию Юре я выслал, как и обещал. Я отлично понимаю, что доказать, что раздел никогда не был открыт — невозможно. Так что кто хочет — может воспринимать это сообщение как бред или слух. Но советую все же проверить, когда будете делать у себя закрытые по white list разделы.
29 июля 2011 в 20:14 Ответить
adnull
А может тогда покажите общественности, как у вас организовано закрытие по white list? А то может и не закрыто было вовсе. «А мужыки и не знали»
29 июля 2011 в 20:41 Ответить
Альтер Эго
Мы у себя еще в 2005 еще и Google Bar как спайварь запретили. Помню как глядя на логт прозрачной прокси мы долго сходили с ума от дублирования юзерских заходов на сервера гугля — обыскались пока не заметили гуглбар в IE. Удаление гуглбара решило проблему.
29 июля 2011 в 21:03 Ответить
Альтер Эго
Вы тут все такие умные, кто защищает Империю Добра, творимого для всех сразу (тм), но я вот не поленился и посмотрел в соглашение: http://www.google.com/chrome/intl/ru/eula_text.html 6. Конфиденциальность и личная информация 6.1. Информация о способах защиты данных, применяемых Google, изложена в политике конфиденциальности Google: http://www.google.ru/privacy.html и http://www.google.com/chrome/intl/ru/privacy.html. В этой политике описывается, как Google обрабатывает личную информацию и обеспечивает Вашу конфиденциальность при использовании Услуг. 6.2. Вы разрешаете использовать свои данные в соответствии с политикой конфиденциальности Google. 7. Содержание, используемое в Услугах 7.1. Вы осознаете, что за всю информацию (такую как файлы данных, текстовые материалы, программное обеспечение, музыка, аудиофайлы и другие аудиоматериалы, фотографии, видео и другие изображения), к которой Вы можете получить доступ в процессе использования Услуг, ответственность несет исключительно то лицо, от которого поступило это содержание. Вся подобная информация будет именоваться далее «Содержание». … 7.3. Компания Google оставляет за собой право (но не берет на себя никаких обязательств) предварительно просматривать, помечать, фильтровать, изменять, отклонять или удалять Содержание (частично или полностью) из любых Услуг. … http://www.google.com/chrome/intl/ru/privacy.html Кроме того, некоторые функции браузера Google отправляют в компанию Google дополнительную информацию. Символы, которые вы вводите при указании URL или запросов в адресной строке, отправляются в поисковую систему, выбранную вами по умолчанию. Благодаря этому функция подсказок может автоматически предлагать варианты поискового запроса или URL, которые могут вам пригодиться. Если вы выбрали Google в качестве поисковой системы, браузер Chrome будет связываться с Google при запуске, чтобы определить наилучший локальный адрес для отправки поисковых запросов. Если вы решите предоставлять Google статистику использования и примете предложенный запрос или URL-адрес, Google Chrome отправит в Google также и эту информацию. … … Если включена вспомогательная функция «Автозаполнение», Chrome отправляет в Google лишь некоторые данные о структуре страницы с веб-формами и сведения о самих веб-формах. Эта информация необходима для улучшения работы Автозаполнения на этой странице. Chrome может отправлять в Google информацию о том, заполнено ли то или иное поле, но сами введенные данные не отправляются. Исключение составляют случаи , когда вы разрешаете сохранять эти данные в своем аккаунте с помощью функции синхронизации Google Chrome. Ели вы пользуетесь встроенной в Google Chrome функцией передачи данных о своем местоположении, браузер будет отправлять сведения о вашем сетевом подключении в службы определения местоположения Google, чтобы получить ваши приблизительные координаты. В зависимости от характеристик вашего устройства сведения о вашем сетевом подключении могут включать данные о ближайших маршрутизаторах WiFi, идентификаторы базовых станций сотовой связи, уровень сигнала и такие данные, как IP-адрес вашего устройства. Эти сведения используются для обработки запросов о местоположении, а также для работы, поддержки и улучшения Google Chrome и служб определения местоположения Google. Собранные сведения носят анонимный характер и агрегируются перед использованием разработчиками Google для создания новых и улучшения существующих функций, продуктов и служб. … Использование Информация, которую получает компания Google, когда вы используете Google Chrome, необходима для обеспечения работы и совершенствования браузера Google Chrome и других служб Google. … ==== Итого: all your database are belong to us (c) (тм).
29 июля 2011 в 21:14 Ответить
Альтер Эго
*ля, а я то все удивлялся, как гуголь умудряется видеть закрытые форумы и приватные гостевухи!!
29 июля 2011 в 21:17 Ответить
Юрий Синодов Roem.ru
Автор мне показал. Признавая справедливость множества вышенаписанных доводов, нельзя не сказать, что и его история с конкретными примерами выглядит впечатляюще (разумеется, он и сам признает, что доказать, что каталоги какое-то время не были открыты — невозможно) Ссылки на страницы из каталога закрытого для индексирования — тоже понравились Остальное автор расскажет сам, если захочет.
29 июля 2011 в 22:18 Ответить
Деомид Рябков
> доказать, что каталоги какое-то время не были открыты — невозможно в организации автора не принято сохранять логи веб-сервера? возьмите результат из поиска, посмотрите на timestam,p кешированной копии — «It is a snapshot of the page as it appeared on XXX», посмотрите на логи веб-сервера в это время. может какое-то время вы отдавали 200? или может вы отдавали 500 + нормальное тело? это можно понять по размеру ответа. ну и, конечно, в таких случаях отдавать надо 403, т.к. 500 — это немного про другое. я очень, ОЧЕНЬ сомневаюсь что к этому причастен хром. потому что даже для проверки на malware отсылается не url, а только хеш. (кстати, fun fact: IE9 отсылает в майкрософт имя, полный урл и хеш контента всех файлов, которые вы скачиваете)
29 июля 2011 в 22:38 Ответить
Альтер Эго
Роджер, да что ты так волнуешься то, выше в Google соглашениях все как на ладони видно.
29 июля 2011 в 22:49 Ответить
Деомид Рябков
AE, а что там видно? я читаю так: данные о структуре форм могут отправляться — имена полей, скажем, возможно и action url. не знаю как это помогает в улучшении работы автозаполнения — может, просто набивает базу известных форм, под которые потом тюнится автозаполнялка. если юзер хочет синхронизировать данные автозаполнения (настройки -> personal stuff -> sync -> [x] Autofill), то отправляются, естественно, и значения введённые юзером в поля и сохраняются вместе с профилем. из вышесказанного никак не следует, что страницы могут появляться в индексе.
29 июля 2011 в 22:52 Ответить
Evgeny Ushkalov
Ну а в чем проблема доказательств? Исходный код Хрома открыт. Скачивайте и изучайте. Вот вам и доказательства. А наказание… ФЗ «О персональных данных» защищает только личные данные гражданина. К данной истории отношения не имеет. А вот к этой истории могут иметь отношение: Уголовный Кодекс РФ Статья 138. Нарушение тайны переписки, телефонных переговоров, почтовых, телеграфных или иных сообщений Статья 183. Незаконные получение и разглашение сведений, составляющих коммерческую, налоговую или банковскую тайну
29 июля 2011 в 23:45 Ответить
Альтер Эго
Роджер, вы тему то не уводите. Цитирую полиси гугля для вас персонально: === Использование Информация, которую получает компания Google, когда вы используете Google Chrome, необходима для обеспечения работы и совершенствования браузера Google Chrome и других служб Google . === В число служб гугля, очевидно, входит поиск. //К.О., спасибо за подсказку. Также, есть фраза и сведения о самих веб-формах . Так как нигде не оговаривает какие именно, очевидно, что в эти сведения попадает то, что попадает в сниппет. Собственно, что и поимел топикстартер. Кстати, по этой же схеме полностью закрытые форумы утекают, судя по частоте встречи в гуглоиндексе рассекреченных форумов.
29 июля 2011 в 23:51 Ответить
Альтер Эго
Ushkalov Evgeny, вы — невежа, если считаете, что закрытый Chrome и открытый Chromium — одно и то же.
30 июля 2011 в 00:04 Ответить
Деомид Рябков
AE> сведения о самих веб-формах. Так как нигде не оговаривает какие именно, очевидно, что в эти сведения попадает то, что попадает в сниппет. о как. может, раскроете это ваше «очевидно»? я-то думал, что сведения о веб-формах — это данные из тега form, input name и т.п. и мне совсем не очевидно, что то, что попало в сниппет имело какое-то отношение к формам. автор, кстати говоря, об этом тоже не пишет. а пишет автор, что «доказать, что раздел никогда не был открыт — невозможно», хотя на самом деле, имея простые вебсерверные логи, вполне возможно — апач/нжинкс по дефолту логают и размер ответа, и код, который отдали. более того, по информации в кеше гугла можно точно понять, когда робот последний раз фетчил страницу — я написал как, проверил на своём сервере: в логе нашлась запись гуглобота, с точностью до секунды. при проверке пусть не забудет про разницу в таймзоне. например, в кеше я вижу » It is a snapshot of the page as it appeared on 11 Jul 2011 18:23:15 GMT.», на сервере делаю простой grep и вижу: $ grep -E ’11/Jul/2011:..:23:15′ access*.log access.log:66.249.71.206 — — [11/Jul/2011:22:23:15 +0400] «GET [uri] HTTP/1.0» 304 — «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» 345 184 что означает, что гуглобот приходил на мой московский сервер, ему сказали что url not modified. стало быть, никаких чудес. вот пусть автор проверит то же самое, это элементарно. также хотелось бы поиметь доказательства вот этого заявления: Анализ трафика показывает, что Хром не просто отправляет URL посещенных пользователем страниц, но и их содержимое (!). Вот откуда и сниппеты, и сохраненная копия. потому что это, вообще говоря, бомба, ежели правда.
30 июля 2011 в 00:12 Ответить
Альтер Эго
rojer, вы снова не правы. Я сейчас для вас посмотрел на примере моей утечки (просьба не путать меня с топикстартером) — в случае выдачи приватных страниц в SERP Google отсутствует ссылка на кеш и дата, когда гуглбот скачал ее при нормально оформленном снипете.
30 июля 2011 в 00:37 Ответить
Деомид Рябков
> в случае выдачи приватных страниц в SERP Google отсутствует ссылка на кеш и дата, когда гуглбот скачал ее при нормально оформленном снипете. а что у вас с настройками кеширования? предполагаю, что если сервер отдаёт pragma: no-cache и/или expires в прошлом, то гугл не будет кешировать (впрочем, не уверен). ну и у вас-то логи есть? если погрепать, то обращения от гуглобота находятся? я, кстати, посмотрел исходники хромиума — что именно отправляется на сервер и зачем. отправляется дайджест полей формы (хеши от имен и типов инпутов), назад получается эвристика возможных типов значений. значения полей и содержимое тегов не передаются. кому интересно — вот FormStructure::EncodeFormRequest и AutofillField::FieldSignature. не верящим, что этот код в хроме идентичем коду в хромиуме, предлагается взять в руки дизассемблер и обосновать.
30 июля 2011 в 00:48 Ответить
Альтер Эго
> я, кстати, посмотрел исходники хромиума Тут выше AE пояснил, что не нужно съезжать в обсуждении на открытый Chromium. ТС пишет про Chrome. > не верящим, что этот код в хроме идентичем коду в хромиуме Это не важно, достаточно этого: === Исключение составляют случаи, когда вы разрешаете сохранять эти данные в своем аккаунте с помощью функции синхронизации Google Chrome. === Из этой фразы ясно, что гугл индексирует абсолютно все, что к нему попало — см. выше цитированные полиси про такие случае.
30 июля 2011 в 01:01 Ответить
Альтер Эго
А вообще, там много интересного, например это: === Мы стремимся избежать отправки через Google Chrome информации, с помощью которой можно было бы идентифицировать личность пользователя. Однако в отчеты о сбоях может включаться информация из файлов, приложений и служб, которые были открыты в момент сбоя. Мы можем передавать третьим лицам определенную агрегированную неличную информацию, которую мы получаем в результате анализа, например сведения о частоте возникновения сбоев определенного типа. === И как бы всем наплевать, что я в это время скачивал выписку по своему банковскому счету. Или сидел на закрытой внутрикорпоративной доске. Но местные гуглоиды щас бросятся меня учить снимать галочки. Но вот беда — нас в компании много. И всегда найдется человек с умолчальным сетапом на его персональном ноутбуке.
30 июля 2011 в 01:14 Ответить
umkalive
Буду сафари юзать. Обещают никому про меня не рассказывать. )
30 июля 2011 в 01:31 Ответить
Деомид Рябков
AE> не нужно съезжать в обсуждении на открытый Chromium. ТС пишет про Chrome. Chrome базируется на Chromium. это сборка хромиума с копирайтами, pdf ридером, флешем и апдейтилкой. если вы делаете утверждение, что Chrome существенно отличается от Chromium в части передаваемых на сервер данных — на вас и задача обосновать это утверждение. дампы трафика, дизассемблированный код с вызовом BeEvil() или подобное — подойдут. патетическое заламывание рук и обобщения вроде «очевидно, что» — нет. AE> Из этой фразы ясно, что гугл индексирует абсолютно все, что к нему попало — см. выше цитированные полиси про такие случае. сохранять данные форм в аккаунте != выдавать содержимое страниц в результатах поиска. покажите мне где хром передаёт на сервер урлы, которые хотя бы теоретически можно было скормить пауку. я говорю — даже safe browsing api устроен так, что урлы на сервер не попадают. что касается крэш-дампов, то при создании профиля (т.е. при первом запуске хрома) он спрашивает, отсылать их или нет. и — внимание — галка эта по умолчанию снята. можете спать спокойно.
30 июля 2011 в 01:45 Ответить
Fitipaldi
Ого как все напряженно. Я вот удивляюсь, а где были эти люди и эти разговоры лет пять назад, когда и Опера, и Файрфокс тоже помогали гуглу индексировать странички? Опять же хочу напомнить о robots.txt и о meta name=»ROBOTS» content=»noindex, nofollow».
30 июля 2011 в 01:51 Ответить
dima5ty гасконец
что и его история с конкретными примерами выглядит впечатляюще Юра, а там есть логи снифферённых запросов из Хрома в Гугль с содержанием страниц? Просто ничто иное не имеет значения. Вообще за последние дни технические специалисты проштрафившихся ресурсов показывают недюжие пабликрелейшеновские способности взамен осведомлённости в технических вопросах.
30 июля 2011 в 04:21 Ответить
Альтер Эго
Беда пришла не одна. Один site:gov.ru со служебками чего стоит. Вот только инженеры там на местах от силы 25тр получают. + по 4 начальника на каждого.
30 июля 2011 в 06:02 Ответить
Альтер Эго
По порядку. Логи, естетсвенно, есть. И естесвенно, как только мы такое обнаружили, они были прогрепаны на предмет гугльбота. Отсюда и пассаж про 500-ю (как выяснилось, мы ее отдавали на закрытом разделе, так получилось). Сниф трафика мы тоже делали, но там часть уходит в https, и что конкретно внутри — понять сложно. В принципе, утекла у нас некритичная информация, так что ущерб больше моральный, я выше писал — просто хочу предупредить быть осторожнее. И насчет robots.txt — Я Юре бросал ссылку, закрытые им страницы все равно в индексе, как найденные по ссылкам. Но это Гугль сам себе злое буратино, ибо у нас закрыт юзерский раздел под логином, и прямой заход выдаст просто редирект на главную.
30 июля 2011 в 07:06 Ответить
dima5ty гасконец
Отсюда и пассаж про 500-ю (как выяснилось, мы ее отдавали на закрытом разделе, так получилось). Вот смотрите что получается: 1. Вы проверяете логи на предмет гугльбота, хотя настаиваете что Хром отдаёт контент, а не урлы (логика размыта). 2. Вы рассказываете про 500 ошибку и редирект одновременно (RFC 2616, пп. 14.30 определяется однозначное поведение только для кодов ответа 3xx и 201). 3. Что конкретно передаёт Хром Гуглю вы не знаете (но это точно номера паспортов и запись переговоров директора с Богом). И вот после всего этого вы хотите «просто предупредить быть осторожнее». Может стоит какбэ подучиться, прежде чем нести выводы в массы, так сказать? p.s. robots.txt не панацея да, мета-роботс работает чётче
30 июля 2011 в 07:53 Ответить
Альтер Эго
Видимо, не очень понятно написал, смешались мухи и котлеты. Это две разных темы. Одна — с закрытой по IP админкой, которая таки была проиндексирована через Хром. Вот она отдавала 500 при заходе с неразрешенных IP. Логи бота смотрели как раз для нее, чтобы убедиться, что она была закрыта, и робот не мог с нее контент получить. Вторая — про выдачу по ссылкам пользовательского раздела, закрытого в роботсе. Вот там как раз редирект.
30 июля 2011 в 09:19 Ответить
Деомид Рябков
Автор новости> Логи, естетсвенно, есть. И естесвенно, как только мы такое обнаружили, они были прогрепаны на предмет гугльбота. и? я так понимаю, что ничего не нашли? уверены что искали во всех / в правильных логах искали? есть ли ваши страницы в кэше, можете ли сделать такую проверку как я делал? а то может получиться, что в какой-то момент проиндексировались, потом сервак переустановили, логи потёрли, в новых логах уже ничего нет и т.п. всякое бывает. Автор новости> Сниф трафика мы тоже делали, но там часть уходит в https, и что конкретно внутри — понять сложно. да, но это кагбэ не вяжется с вот этим вашим утверждением: «Анализ трафика показывает, что Хром не просто отправляет URL посещенных пользователем страниц, но и их содержимое (!)» вот уж действительно — (!). собственно, только одним этим псто и интересен, а оказывается, что доказательств как-то не очень и есть.
30 июля 2011 в 09:43 Ответить
Тарас Евмина 365 Degrees
Два вопроса. 1)причём тут инсайды? 2)Как может браузер «отправлять содержимое страниц»? То есть он, получается, в два потока кеширует и шлёт в штаб Империи страницы целиком? Ну тогда абсолютно всем будет не трудно провести небольшой эксперимент. Потупить часок под Хромом, а потом часок под FF на каком-нибудь форуме (чтобы объём трафика был примерно одинаковым) — и потом сравнить таки кол-во исходящего трафа. По замыслу автора исходящий трафик должен почти удвоиться при использовании Chrome. И что-то мне подсказывает, что такую аномалию ВСЕ заметили бы сто лет назад.
30 июля 2011 в 12:45 Ответить
Мзареулян Давид
> Сниф трафика мы тоже делали, но там часть уходит в https, и что конкретно внутри — понять сложно. Всё с вами понятно. «Анализ трафика», видите ли, «показывает»… Вы, кстати, всё время уходите от ответов на прямые и существенные вопросы. Какого размера был ответ с кодом 500? Ответьте уж, это не секретная информация. В логах это есть.
30 июля 2011 в 14:26 Ответить
Murketolog
У кого еще есть вопросы зачем Google свой браузер? Демотиватор в тему http://seodemotivators.ru/?p=2780
30 июля 2011 в 14:53 Ответить
Деомид Рябков
Murketolog, пруфдамп или не было.
30 июля 2011 в 16:05 Ответить
Валентин Домбровский Travelabs
> 1)причём тут инсайды? При том, что так называется раздел с пользовательскими новостями на Роеме. На главной, что ли, пояснение должно висеть, чтобы подобные вопросы не задавались? ;)
30 июля 2011 в 16:13 Ответить
Альтер Эго
Psycho, вопрос, кстати, правильный: это, скорее, «открытка компании», а не инсайд. Про Гугл же речь, а не про ту контору, в которой работает автор сообщения.
30 июля 2011 в 16:34 Ответить
Валентин Домбровский Travelabs
О, мой Бог, да «Инсайды» — это название всего пользовательского раздела. Вы можете зайти в любую новость оттуда и увидите там «Инсайды». Видимо, надо просто переименовать это в «Пользовательское», как написано на главной, чтобы вопросов не возникало.
31 июля 2011 в 14:32 Ответить
Альтер Эго
Google’s mission is to organize the world‘s information and make it universally accessible and useful. Автор, радуйтесь — вашу внутреннюю корпоративную информацию сделали организовали и сделали universally accessible
31 июля 2011 в 15:52 Ответить
Дмитрий Москин
>>Сниф трафика мы тоже делали, но там часть уходит в https, и что конкретно внутри — понять сложно. а что собственно в этом сложного? берём сниффер, который умеет работать с https и смотрим содержимое пакетов. по-моему это не сложнее, чем слушать http трафик.
31 июля 2011 в 16:19 Ответить
Альтер Эго
> берём сниффер, который умеет работать с https и смотрим содержимое пакетов Как вы это себе представляете? Может сниффер порекомендуете? У вас на вашей стороне только часть ключа которая позволяет зашифровывать пакеты, а не расшифровывать. В принципе можно слушать https в конкретной программе типа броузера до того как он ушел в движок шифрования или если перехватить сессионный поточный ключ(для чего его тоже нужно взять изнутри программы)
31 июля 2011 в 16:27 Ответить
Дмитрий Москин
>>У вас на вашей стороне только часть ключа которая позволяет зашифровывать пакеты Извините, я полнейший нуб в области криптографии, поэтому совершенно не понимаю, как это работает и просто беру http analyzer и смотрю трафик, который идёт от меня гуглу и обратно по протоколу https.
31 июля 2011 в 17:24 Ответить
Деомид Рябков
Alter Ego> Как вы это себе представляете? генерите себе сертификат CA, вставляете в trusted roots на машине и выписываете себе сертификат на нужный домен (что-нибудь.google.com). это делает возможным MITM атаку. готовый продукт не порекомендую, но в целом не вижу почему бы это не сработало. но даже количественный мониторинг трафика дыл бы многое: как ни крути, если бы хром отсылал тела страниц в штаб — пусть не всех, пусть даже со сжатием, — то он бы генерил подозрительно много исходящего трафика. так что хотя бы корреляции вроде «загрузили N страниц по X кб страниц и с вероятностью P от хрома ушло Y кб в гугл». если можно установить какую-то корреляцию между X и Y, то можно сказать что количество трафика, передаваемого в штаб зависит от размера просматриваемы страниц. это меряется элементарно. начать можно с этого, потом уже организовать MITM через самопальный CA для подтверждения. но, естественно, куда интереснее и продуктивнее начать с поста на роеме под альтерэгой: у гугла репутация есть и её можно испортить, даже если кричать полную ерунду, но громко — кто-то да поведтся. а у альтерэги репутации нет, так что терять нечего. профит!
31 июля 2011 в 19:16 Ответить
centrist trueconf
rojer>генерите себе сертификат CA, вставляете в trusted roots на машине т.е. делая что-нибудь подобное описанному в статье, гугл будет продолжать доверять trusted roots на машине? Вкомпилировать свой сертификат они догадаться не могут? Не, я не верю, что хром это делает, но предложенный метод проверки как-то не катит.
31 июля 2011 в 20:04 Ответить
Деомид Рябков
centrist, ну да, могут, но вы проверили? а ещё им неплохо бы бинарник зашифровать, чтоб подменить нельзя было и разобраться сложнее, однако ж он почему-то не зашифрован. ну и см выше просто про количественный анализ трафика. вот ещё полезный пост: [url=http://www.mattcutts.com/blog/google-chrome-communication/]Preventing paranoia: when does Google Chrome talk to Google.com?[/url]. трёхлетней давности, но, насколько я знаю, в целом верный и говорит о том, что паранойя по поводу слежки гугла за всеми через хром началась сразу после его запуска (пост от 5-го сентября 2008, хром вышел 2-го). народ тут же откопал RLZ и поднял шум, в ответ гугл открыл код либы, а также код автоапдейтера. с тех пор прошло почти 3 года и вышло уже 12 релизов, но никто ничего не нашёл. думаете, гугл так хорошо прячет? вы слишком плохо думаете о тех, кто ищет. вспомните ребят, которые продрались через все кордоны и реверснули скайп — а они там в своём бинарнике поставили серьёзную защиту (включая сертификат собственного CA, естественно — читайте [url=http://www.secdev.org/conf/skype_BHEU06.handout.pdf]Silver Needle in the Skype[/url], весьма любпытно). поймите же, что потенциальный репутационный вред от такой фичи намного превосходит потенциальную пользу от полученных таким образом данных. вероятность же раскрытия чрезвычайно близка к единице, потому что в мире много умных людей, знающих как пользоваться снифферами трафика и дизассемблером. гугл не мог бы себе это позволить, даже если бы хотел.
31 июля 2011 в 20:56 Ответить
Дмитрий Москин
>>Исключение составляют случаи, когда вы разрешаете сохранять эти данные в своем аккаунте с помощью функции синхронизации Google Chrome. >>=== >>Из этой фразы ясно, что гугл индексирует абсолютно все, что к нему попало — см. выше цитированные полиси про такие случае. по-моему, и так должно быть ясно, что функция синхронизации предполагает то, что данные твоего профиля хранятся на серверах гугла и вполне логично, что они предупреждают об этом. и всё таки я больше склоняюсь к мнению, что в данном случае вина админа, как минимум из-за того, что он решил отдавать заголовок 500. вполне возможно, что вместе с этим заголовком отдавались и данные, и не смотря на то, что админ в своём браузере видел только сообщение об ошибке, гуглбот нормально загружал данные. давно пользуюсь хромом и часто слежу за его поведением и пока ничего, выходящего за рамки обычного поведения не наблюдал, а тем более не наблюдал в индексе гугла тех сайтов, которые я посещаю, но на которые нет ссылок и это не смотря на то, что хром передавал гуглу на них ссылки для реализация функции авто-поиска.
1 августа 2011 в 17:39 Ответить
dil
Давайте проведём натурный эксперимент. Я нарисовал две странички с уникальными словами внутри: dil.pp.ru/search1/ и dil.pp.ru/search2/ Внешних ссылок на них пока нигде нет, кроме как тут. Обе не закрыты в robots.txt, но первая выдает роботам Гугла и Яндекса (по user-agent’у) пустое тело с кодом 403, вторая выдаёт нормальное содержание, но с кодом 500. Всем остальным содержание отдаётся как обычно с кодом 200. Кому не лень, можете зайти туда хромом и прочими браузерами, оборудованными гугл-барами и яндекс-барами. Посмотрим, насколько быстро они окажутся в индексе и с какими параметрами.
1 августа 2011 в 17:41 Ответить
Мзареулян Давид
Наиболее разумное объяснение (из тех считанных битов информации, которые мы имеем) — криворукий админ пытался настроить доступ по white-листу, настроил криво, модуль проверки доступа не работал и выдавал 500-й код (что, как мы видим, было неожиданностью и для автора новости) вместе со всем содержимым страницы. Криворукий безопасник (а скорее всего он же и криворукий админ), вместо анализа того, что случилось, чохом запретил в конторе Хром и написал пост на Роем. Так возникают нездоровые сенсации ©
1 августа 2011 в 17:49 Ответить
ayc
weiss> Яндекс.Бар, кстати, тоже отправляет в поиск посещаемые страницы. Яндекс на днях официально опровергал это. Бар не отправляет в поиск, только Метрика отправляла, но и это теперь отключабельно в настройках Метрики.
1 августа 2011 в 18:00 Ответить
dil
> Яндекс на днях официально опровергал это. Где? Очень хочется почитать официальное мнение Яндекса по этому вопросу.
1 августа 2011 в 18:05 Ответить
blender
2 dil: http://roem.ru/2011/07/29/addednews32694/?c#message99318 Проблема даже не в криворукости конкретных специалистов, а проблема с профессиональной самооценкой. Самоучки, бессистемно осилившие какие-то основы начинают считать себя серьезными специалистами. Поэтому, когда говно таки начинает тонуть, то конечно виноват кто-то третий, а не ты.
1 августа 2011 в 18:11 Ответить
dil
2 Sniff-Sniff: Спасибо. Кукуц, конечно, знает, чтО говорит, но это таки не официальное заявление.
1 августа 2011 в 18:27 Ответить
ayc
Здесь: http://webmaster.ya.ru/replies.xml?item_no=11122 «Особо хотим отметить, что посещение пользователем страницы с помощью браузера с установленным Яндекс.Баром не приводило и не приводит к ее индексации.»
1 августа 2011 в 18:53 Ответить
Деомид Рябков
dil, в открытую такой эксперимент проводить нельзя — кто мешает воспользоваться http://www.google.com/addurl/ куда только что и вбил оба урла (иначе это втихую мог бы сделать кто-то другой). кроме того, нужно завести ещё контрольную, которая всем отдаёт 200 — чтобы понять, когда обновится индекс.
1 августа 2011 в 19:07 Ответить
Crio
2rojer: так написав ссылки на роеме, пусть в текстовом виде, автор все равно с хорошей вероятностью дал гуглояндекс-роботу наводку на эти страницы; главный вопрос — доберется ли робот до содержания.
1 августа 2011 в 19:27 Ответить
Деомид Рябков
Crio, на самом деле мы не знаем, отдавал ли автор контент вместе с 500-й, так что результат проверки ничего нам не скажет. автор поспешно обвинил хром в утечке, запаниковал — даже запретил его по всей конторе, — написал на роем, а когда понял, что поспешил с выводами, то слился. весомых доказательств утечки представлено не было, а доказать отсутствие утечки чрезвычайно сложно. по-моему, тему можно закрывать.
1 августа 2011 в 23:39 Ответить
dil
2 rojer: я проверяю не методы попадания урла в поисковые системы, а методы индексирования. Первая страница в выдаче может появиться только в том случае, если её содержание попадёт в поисковую систему не от паука, а из пользовательского браузера. А вторая — только если индексируется содержание страниц с кодом 500. Добавил контрольную страницу dil.pp.ru/search3, она всем отдаёт 200. Хотя в чём будет её контрольность, я не понял. Само по себе её появление в выдаче ни о чём не скажет. Её могут добавить через addurl совершенно независимо от остальных. Или, наоборот, добавить остальные, а её не. Заодно нашёл в логах интересную вещь: чей-то «Mozilla/5.0 (Windows NT 6.1; WOW64; rv:5.0) Gecko/20100101 Firefox/5.0» пришёл с реферером «http://roem.ru/2011/07/29/addednews32694/», хотя на этой странице гиперссылок на /search* нет. Все остальные приходили с пустым реферером.
2 августа 2011 в 09:12 Ответить
Альтер Эго
> Здесь: http://webmaster.ya.ru/replies.xml?item_no=11122 «Особо хотим отметить, что посещение пользователем страницы с помощью браузера с установленным Яндекс.Баром не приводило и не приводит к ее индексации.» Про сейчас — не знаю, про прошлое — наглая ложь. Все помнят историю с бетой Ленты в выдаче? Вот через бар она как раз и ушла. Яндекс, не стыдно?
2 августа 2011 в 12:10 Ответить
_xxx_
dil В пятом Фаерфоксе при клике правой кнопки по plain-тексту, похожему на УРЛ, появляется 3 кнопки меню «Open Link …», я всегда так перехожу по таким ссылкам вместо Ctrl-C / Ctrl-V. При этом реферер передаётся в поле Referer (проверил только что с помощью плагина Tamper Data). Не разводи лишней паранойи, и так весь топик параноидальный. ТС судя по всему просто некомпетентен, 500 — это Internal Server Error, Апач возвращает такую ошибку в случае ошибки (чаще всего — кривой настройки), скорее всего он настроил всё глючно через одно место, хотя думает что настроил белый список IP, при этом логи читать не умеет, трафик снифать тоже, и логи для общественности не предоставил, так что никаких хоть минимально убедительных доказательств вины Хрома нету.
2 августа 2011 в 14:14 Ответить
Альтер Эго
Яндекс.бар, про прошлое — наглая ложь скорее просто бардак и всеобщая (включая вашу) некомпетентность :)
7 августа 2011 в 02:50 Ответить
dil
Гуглобот первый и последний раз пришёл на /search1/ 4 августа и получил свою 403 ошибку: 66.249.66.83 — — [04/Aug/2011:10:59:28 +0100] «GET /search1/ HTTP/1.0» 403 20 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» «-» «dil.pp.ru» На /search2/ приходил 4 и 5 августа: 66.249.66.83 — — [04/Aug/2011:14:09:03 +0100] «GET /search2/ HTTP/1.0» 500 231 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» «-» «dil.pp.ru» 66.249.71.54 — — [05/Aug/2011:00:14:57 +0100] «GET /search2/ HTTP/1.0» 500 231 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» «-» «dil.pp.ru» 66.249.66.83 — — [05/Aug/2011:12:42:54 +0100] «GET /search2/ HTTP/1.0» 500 231 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)» «-» «dil.pp.ru» Ни одна из трёх меток в гуглопоиске [пока?] не обнаруживается.
8 августа 2011 в 04:14 Ответить
Maxim Mordashov Microsoft
Гугл зарабатывает на рекламе. Чтобы как можно больше зарабатывать, он усердно рекламирует свой браузер. Вряд ли они достигали бы своих целей, просто предоставляя хорошие бесплатные браузеры, операционные системы и множество всего другого. Впрочем, так делают многие: Мозилла с поиском Яндекса, ИЕ, Опера. Но Гугл единственный, который заходит столь далеко. Это уже даже не смешно.
8 августа 2011 в 12:34 Ответить
Дмитрий Москин
>>Но Гугл единственный, который заходит столь далеко. Это уже даже не смешно. о чём речь? пока никто не смог подтвердить факт того, что браузер от гугла отправляет контент посещаемых пользователем страниц на сервера гугла, кроме того, не получить заставить гугл проиндексировать страницы с кодами ответов 403 и 500. так что пока остаётся единственный возможный вариант — ошибка админа, который криво закрыл доступ, а когда заметил проблему, придумал на кого можно спихнуть вину.
4 октября 2011 в 08:35 Ответить
Альтер Эго
бугога http://chrome.blogspot.com/2011/09/problems-with-microsoft-security.html И вы мне тут еще будете доказывать что гугл харошый.
4 октября 2011 в 17:41 Ответить
Альтер Эго
Кроме секретных зон есть огромное количество обычных сайтов с системами управления, большинство распространенных систем управления админятся не через собственный толстый клиент, а через браузер. Если правильно понимаю исходную статью, получается, что при работе с админкой любой CMS через браузер Хром, есть риск попадания сохраненных копий страниц админки в выдачу и кэш поисковика? Тогда просто слов нет, но очень странно, что раньше никто не замечал. И тут вопрос не на уровне хороший Гугл или нехороший, а что вообще делать в принципе. Отказываться от распространенных браузеров при работе с админками и любыми зонами сайтов, не предназначенными для публикации в свободном доступе? Пусть даже сегодня Сафари хороший, но если все браузеры начнут таскать все, что видят, то кто и как гарантирует, что и Сафари завтра не займется тем же?
4 октября 2011 в 17:53 Ответить
Альтер Эго
Вы этта, с темы про Хром не съезжайте. FF — Нормальный браузер, пока туда какое-нибудь говно типа панелей от гула или квипа не доставится. А с Хромом стыд сплошной.
4 октября 2011 в 17:54 Ответить
Дмитрий Москин
>>И вы мне тут еще будете доказывать что гугл харошый. антивирус микрософта по ошибке принял хром за вирус. и в чём же в данной ситуации вина гугла или других разработчиков хрома? >>Если правильно понимаю исходную статью статью понимаете правильно, но рекомендую прочитать комментарии. из них можно узнать почему описанное в статье не могло произойти и как такое могло случиться.
4 октября 2011 в 18:08 Ответить
Деомид Рябков
что делать? ничего не делать. успокоиться. никто ничего никуда не отправляет. автор не представил доказательств и куда-то слился, эксперимент, который поставил один из комментаторов, тоже, я так понимаю, ничего не дал. так что можно нести вилы и рогатины обратно в сарай и расходиться.
4 октября 2011 в 20:44 Ответить
Альтер Эго
Автор никуда не сливался. Внимательно читал тред, в общем реакция была ожидаемая. Но вообще интересно — я вот не верю, что мелкософтовцы специально гасили конкурентов. А вот в то, что сигнатуры совпали со спайварем — почему-то верю больше.
4 октября 2011 в 21:05 Ответить
Альтер Эго
Роджер, в твоих указаниях что нам делать — мы не нуждаемся. К тому же, ты показал себя сейчас не с лучшей стороны, давая всем указания. Сразу видно диктатуру со стороны гугла. С чем поведешься, того и наберешься, правда, роджер?
4 октября 2011 в 22:11 Ответить
Альтер Эго
http://roem.ru/2011/10/04/addednews36805/?c#message104776
4 октября 2011 в 22:41 Ответить
Деомид Рябков
Автор новости, привет-привет. ожидаемая реакция? потроллить что ли хотел? ты дампы принесёшь или так и будешь молчать? напомню, что ты пишешь в новости: «Анализ трафика показывает, что Хром не просто отправляет URL посещенных пользователем страниц, но и их содержимое (!).» вот хотелось бы на этот анализ посмотреть и провести аналогичный. > я вот не верю, что мелкософтовцы специально гасили конкурентов. А вот в то, что сигнатуры совпали со спайварем — почему-то верю больше. да, сигнатуры совпали, потому что это были плохие сигнатуры — иначе с чего бы МС стала бы исправлять их? я тоже не верю, что они гасили конкурентов. я думаю, что это просто ошибка. плохие сигнатуры выпускали уже абсолютно все вендоры, а гугл однажды отличился, пометив все результаты поиска как malware. бывает. shit happens.
4 октября 2011 в 22:48 Ответить
Альтер Эго
Роджер, спасибо, что убедили нас в том, что вам за отстаивание репутации гугла в этом треде платят.
4 октября 2011 в 23:04 Ответить
Деомид Рябков
ув. Alter Ego, очевидно, прочёл брошюру «интернет троллинг для начинающих» и практикуется. пока получается так себе, толстовато.
4 октября 2011 в 23:13 Ответить
Альтер Эго
Чуть менее толсто, чем rojer. Раз вы настолько бессовестны, rojer, то мне придется объяснить, почему. Дело не в том, что у всех были плохие антивирусные сигнатуры, а в том, что приложение, называемое «браузер», имеет настолько классическую схему работы, что ни один антивирус не удалял ни один браузер как что-то подозрительное. Квалифицированная часть аудитории соглашается со мной выше в том, что если в браузере код очень странный, что оказывается повторяющим сигнатуру спайваро-малвари, это очень заметное событие в мире браузеров. Ведь гугл первый, кто отличился так.
4 октября 2011 в 23:27 Ответить
Дмитрий Москин
>>если в браузере код очень странный, что оказывается повторяющим сигнатуру спайваро-малвари а вы случаем не путаете понятия «сигнатура» и «хеш»? и как по вашему мнению, сколько антвирусов скажут о программе, что она вирус, если программа будет состоять из одной строки «writeln(‘Iam virus’)»?
4 октября 2011 в 23:31 Ответить
Деомид Рябков
ууу, как всё запущенно… хорошо, можете объяснить мне тогда, почему МС отозвала эту сигнатуру? чего ж они не оттоптались по этому поводу? почему они выпустили [URL=http://www.microsoft.com/security/portal/Threat/Encyclopedia/Entry.aspx?name=PWSWin32Zbot]пресс-релиз[/URL], в котором вместо того чтобы описать как именно хром связан с PWS:Win32/Zbot, они извинились за ошибку? дайте угадаю: на самом деле, это заговор. МС и гугл только делают вид, что конкурируют, а на самом деле они состоят в сговоре, чтобы… извините, тут моей фантазии не хватает. но направление я угадал, да? так что вы продолжите мысль, я думаю.

Важное

Обсуждаемое