Поисковое влияние

26 июля 2011 в 01:55

…к размещаемому на наших страницах контенту

мы порой предъявляем требования даже строже,

чем явно прописанные в законодательстве

Яндекс

Аналогии дело неблагодарное (статью на эту тему мне обещал написать Вячеслав Варванин", но ещё не написал), поэтому придётся проводить параллели исключительно с самим "Яндексом", чтобы позиция выглядела попрочнее.

Новости СМИ2

Итак: с прошлой недели российская инфосфера сотрясается от постоянных публикаций на тему того, что с помощью "Яндекса" можно найти практически любую незащищенную от неавторизованного доступа информацию. Началось всё с "Мегафона" и злосчастных SMS его абонентов, которые им отправляли с сайта - они оказались в результатах поиска "Яндекса". При этом на сайте самого "Мегафона" их обнаружить уже не удавалось (по крайней мере автору этих строк о таких случаях неизвестно).

Позиция "Яндекса" по данному вопросу оказалась чиста как слеза младенца: компания индексирует доступные ей страницы в интернете и обслуживает тех, кто ищет данные. Если вебмастера незнакомы с тем, как работают поисковые системы и как использовать robots.txt - им рекомендуется расширить свой кругозор. Всё.

Вам это ничего не напоминает? Мне напоминает. "Яндекс" почти пять лет, с 2004-го по 2009-й год в связи с претензиями к рейтингу поиска по блогам постоянно утверждал, что рейтинг является зеркалом блогосферы (как сам "Яндекс" является зеркалом Рунета), поэтому все то плохое, что находится в блогосфере "Яндекс" просто отражает.

На смену концепции потребовалось почти пять лет и пролезание в блогорейтинг накануне девятого мая 2009-го поста поносящего советских солдат. За этот пост "Яндекс" огрёб по полной программе (дискуссии долетели и до Роема), а через две недели компания сделала разворот на 180 градусов и опубликовала эссе "Имеет ли Яндекс медийное влияние?". Ответ давался однозначный - имеет. Ещё через полгода, в ноябре 2009-го, рейтинг блогосферы "Яндекса" был закрыт

Тут очень интересно то, чем "Яндекс" мотивировал наличие у себя медийного влияния:

- медийное влияние имеют только несколько

действительно популярных страниц, которые

вся аудитория видит одинаково: главная

страница Яндекса и страницы, на которые

можно попасть по ссылкам, на ней

расположенным (находящимся «в одном клике»)

Компания, очевидно, подстелила соломку, чтобы её не дёргали всякий раз, когда по запросу "Путин" в "Яндексе" вылезает какая-нибудь ерунда. Но при этом не удержалась от того, чтобы показать, как поисковик может быть белым и пушистым. Если захочет:

По умолчанию мы считаем, что наша целевая аудитория — все пользователи интернета, любого пола и возраста. Поэтому к размещаемому на наших страницах контенту мы порой предъявляем требования даже строже, чем явно прописанные в законодательстве. Так, мы стараемся оберегать детей от недетского контента — на массовых страницах работают фильтры мата и порно

То есть, компания осознаёт, что её сервисы могут причинять вред. И принимает меры, для того, чтобы этот вред не причинять. Это не бизнес "Яндекса", продвигать мат и порнографию для детей. Я предполагаю (хотя на этот счет есть альтернативные мнения альтернативных главных редакторов), что искать клиентов секс-шопов или пользовательские SMS - тоже не бизнес "Яндекса".

И вот тут возникает расхождение: в одной ситуации "Яндекс" вред осознает и исправляет его, ничего не спрашивая у пользователей, а в другой - перекладывает все проблемы на вебмастеров.

Скорее всего, эта отмазка некоторое время будет работать, но недолго. Потому что до всех вебмастеров докричаться не получится в любом случае. В итоге будут страдать люди, которые никакой robots.txt нигде прописать не смогут - они лишь клиенты, а не владельцы сайтов. Их "Яндекс", в отличие от детей, жалеть не собирается

Дикий, дикий Запад

Было бы наивно предполагать, что данные проблемы свойственны лишь "Яндексу". В силу ошибок тех же вебмастеров, данные скачивают все поисковики. В Штатах проблемы подобного рода возникали еще полдесятка лет назад: в 2006-м данные номеров социального страхования 619 учащихся попали в Google.

Что сказали представители университета?

Catawba officials said Friday that, once they were notified about the discovery, they immediately removed the information from the school system's Web site and asked Google to eliminate access to the information on its end.
The Web page that contains the numbers should have been accessible to only a handful of school officials with a secret password, Catawba schools spokeswoman Beverly Lampe said. She said they don't know how an outside source accessed the protected information
(Представители университета Катауба были в курсе инцидента, удалили данные с сайта и попросили Google уничтожить доступ к информации.

Сведения о номерах социального страхования не были публичны и были доступны лишь после ввода секретного пароля)

И что ответил Google?

But Google said that its program that collects snapshots of Web pages is not able to enter passwords.

(Робот Google краулил страницы в интернете и не вводил никаких паролей)

Хоть убейте, но линия поведения Гугла и университета в точности совпадает с линией поведения "Яндекса" и "Мегафона". "Яндекс" просто краулил страницы, "Мегафон" просто ничего не выкладывал. Только в итоге люди оказались с опубликованными личными данными. (здесь надо разделять "персональные данные" в юридической формулировке 152-ФЗ и личные данные).

Не поверите, но такие инциденты на Западе в конечном счете приводят к тому, что Google будет вынужден проходить аудит FTC по пользовательским данным. У нас, если я правильно понял желание "Яндекса", все вебмастера должны будут выучить правила обращения с robots.txt. Вы в это верите? Я - нет.

А раз нет, то интересно, кто даст гарантию, что у "Яндекса" в кэше не окажется данных, подпадающих под определение 152-ФЗ? И что портал не будет признан (вместе с вебмастерами, скормившими ему эти данные) оператором этих данныех? Гарантии такой не даёт даже сам "Яндекс", недвусмысленно указавший противоречивость применения российского законодательства одним из факторов риска в своей деятельности при выходе на биржу.

"Яндекс", хочет он этого или нет, обладает "поисковым влиянием" и способностью вскрывать ошибки вебмастеров как консервный нож банку. Представим что завтра какая-то организация не спрячет ещё более чувствительные данные (номера паспортов, например). Яндексоиды, в общем-то прекрасные люди, смогут отпускать шуточки типа "Середина 2011 года останется в памяти людей великим открытием: поисковики индексируют интернет и ищут по нему" и ждать, пока вебмастер догадается исправить robots.txt (0:46 26 июля - пусто), плюя на юзеров, которые ни в чём не виноваты.

Многие меня упрекнут в том, что нельзя же всё валить на "Яндекс", так как эти страницы индексируются и другими поисковыми системами. Это верно. Также нельзя одновременно тыкать палкой в слоган Don't be evil Гугла и смеяться над людьми, пострадавшими из-за чужих ошибок: тут, как говорится, "или крестик, или трусы".

Ещё мне кажется, что "Яндексу" порой надо к размещаемому на его серверах контенту предъявлять требования более жесткие, чем явно прописанные в законодательстве. Рад, что мы в этом мнении с "Яндексом" совпадаем (смотрите эпиграф).

Осталось чтобы слово "Яндекса" не расходилось с его делом.

Юрий Синодов, главный редактор Roem.ru

Редакция Roem.ru приглашает авторов к публикации материалов на темы интернет-бизнеса. Пишите по адресу sinodov@roem.ru

Лучшие комментарии

Контекст комментария
bormotov
Есть идея, чего в таких случаях делать Яндексу (знаю, что они прочитают и надеюсь подумают в этом направлении) Если опубликована дыра в защите сайта, то индекс нужно чистить, это забота о простых людях. А вот сайты, у которых прорвало, в назидание, вынести из выдачи совсем. Скажем, на год. В случае магазинов, которые построены на дырявом движке — вынести все магазины. На мой взгляд, это прямо соответствует тому, к чему Яндекс стремится — находить для людей хорошие ресурсы в Интернете. Зачем людям дырявые онлайн магазины, которые сливают данные пользователей?
Контекст комментария
internet_gign
Один из наиболее интересных примеров — отношения Яндекс к переходам на зараженные страницы, много лет их позиция была — что это не их проблема, вещали постоянно, в 2009 году только дошло до людей
Контекст комментария
Alex Ilyin
Юра, аналогии иногда работают, а иногда не очень. Я не знаю, чем кончится дело, но вот какие вижу варианты: 1. Яндекс сам или под дулом будет фильтровать результаты. Автоматически убирать приватные данные он точно не сможет: не найти таких критериев. Будут либо грубые критерии (на страницу нет ссылок; используется кривой коробочный скрипт и т.д), либо ручная фильтрация по стуку. Это приведет к тому, что утечек станет сильно меньше, но оставшиеся утечки (наверняка в рунете полно таких же страниц, по недосмотру включенных в сайтмапы, реферреров на них, торчащих в открытых логах awstat и т.д.) полностью выйдут из-под контроля. Вебмастеры почувствуют облегчение и начнут идиотничать снова. История повторится, только вместо бара или метрики в главной роли будет что-то еще. Да, про Гугл тоже не стоит забывать. 2. Яндекс добьется признания своей позиции. Вебмастеры станут думать, заказчики станут думать, уровень просвещения чуть поднимется. Все промсходящее окажется хорошим уроком. Все это уже проходили на западе. Мне второй вариант кажется чуть более интересным, честно говоря, т.к. борется с причиной, а не с симптомом. Мне было бы некомфортнее заказывать эротический костюм серого волка в мире, где все стрелки переведены на Яндекс.
Контекст комментария
Suomynona
А вот это уже [url=http://yandex.ru/yandsearch?text=+++sitekroki.ru&lr=213] не на WebAsyst [/url].

Добавить 53 комментария

26 июля 2011 в 01:20 Ответить
Альтер Эго
а чего вы эту статью платной не сделали? =)
26 июля 2011 в 01:30 Ответить
Юрий Синодов Roem.ru
Мы за этот текст никому гонорар не платили, прямых расходов нет. Хотите заплатить — платите здесь: http://roem.ru/2011/07/25/addednews32299/ мне особой разницы нет.
26 июля 2011 в 01:34 Ответить
Альтер Эго
зачем платить, когда можно скачать с торрентов? )
26 июля 2011 в 01:35 Ответить
Юрий Синодов Roem.ru
Alter 2, please explain?
26 июля 2011 в 01:39 Ответить
Юрий Синодов Roem.ru
Alter 3, я похож на копираста?
26 июля 2011 в 01:55 Ответить
Альтер Эго
а давайте не будем оффтопить тут насчет платных сервисов Роема, пожалуйста я понимаю ваше желание обсудить платные сервисы Роема, мы отведем для этоо специальное место. дальше будет модерация. Спасибо за внимание.
26 июля 2011 в 01:57 Ответить
bormotov
посмотрел пристально на страницы /register/ и /auxpage_warranties/ у того же Sexyz. Никаких обещаний, что они оберегают данные пользователя не заметил. Может, так и было задумано? В смысле влив всего в поисковик? Да, конечно у платформы магазина в лицензионном соглашении есть пункт про as is (п.5). Хотя, любопытно, не пробуют ли другие продукты тех же авторов «на зуб». И дело тут не только и не столько в robots.txt :)
26 июля 2011 в 03:01 Ответить
Иван Ильин
Если троллеобразно рассмотреть ситуацию с «утечкой SMS в Яндекс» и подключить знание Заговоров, то следует выделить 2 обстоятельства: Первое. Ситуацию с приоткрытием — необходимо ставить на поток в рекламных целях. Но не прямолинейно. Мнимо, для роста цитируемости «раскрывая» чьи нибудь сфабрикованные данные. А «сложно». В 2 оборота. Первый виток — фабрикация «раскрытия данных» и медийный шум и изучение найденных сообщений или персон и нахождение там вообще «примечательных» сведений. Например вида: условный «Витя» «Бут» пишет другому бандюге, условной «Анне» «Чапман»: — «Анечка», «Арктик Си» благополучно дошёл до наших друзей. До тех что вино не пьют. Можно заказывать перевозку Эмпайр Стейт Билдинг в Ново-Огарёво. Оплачу кэшем! Сразу после подобной публикации, свидетели Заговора — начинают сами, без внешней поддержки, обильно обсуждать и распространять весть про «Арктик Си». И вот тут то! Вторым ударом запускается реклама «Оружейного Барона 2». Широкоформатного кена, где трейлер выстроен вокруг всеми расцитированного «шокирующего» сообщения. И второе обстоятельство. Из уже подзатихших Викиликс — кто-то сделал выводы. Схема же той «утечки» была проста и красива. «Дай сфальсифицированную банальщину, но не просто так, а под видом прикосновения к тайне» — и отжимай ситуацию, как ещё никогда раньше с банальщины отжать было нельзя. Как Игорь Станиславович, в колонке для Ведомостей, верно поставил вопрос: «а откуда вообще была внесена мода делать эдакий нетривиальный запрос про Мегафон?» Кто? А предположим, например, что существуют в мире силы — не заинтересованные в рынке SMS, и равно недовольные существованием Яндекса. Кто бы это мог такой быть? Правильно. Это какой-то конкурент Яндекса одновременно являющийся производителем мессенджеров для телефонов. Такие дела.
26 июля 2011 в 07:57 Ответить
Альтер Эго
Школьный сайт пятилетней давности, а из торговли есть примеры утечек? Тут не в поисковиках дело, магазинам закрывать все данные по максимуму и левых cms не пользовать. Почти вся мелкая торговля сидит на подсистемах amazon/ebay, там на каждый чих подтверждение пароля. Подобных утечек вроде не было?
26 июля 2011 в 09:06 Ответить
Юрий Синодов Roem.ru
Хронология с «Мегафоном» изложена в видео Валерия Ермакова. У них всё было так: В 11 часов СБ Мегафона узнала, что в «Яндексе» есть SMS (как узнала? Это можно было сделать и без такого запроса — просто кто-то искал конкретный номер и нашёл). В 13:40 они обратились в «Яндекс» В 14 с небольшим блогосфера взорвалась. Я вполне допускаю, что если даже СБ Мегафона за 2 часа не придумала способа проверки количества утекших данных, то в «Яндексе» уж такой запрос за 20 минут сгенерировать смогли. Поделились внутри компании, а с учётом того, что в ней работает несколько тысяч человек, да и никакой вины за собой «Яндекс» не чувствует, внешней утечки ждать недолго. Alter, у Amazon обычно другие утечки — карточки пролюбить, например. Думаю и остальные данные теряют
26 июля 2011 в 09:26 Ответить
Роман Иванов Яндекс, а также ljsear.ch по выходным
В видео изложена фигня, блогосфера взорвалась в 13:00.
26 июля 2011 в 09:37 Ответить
Meneldor
А чем закончилось выяснение, откуда Яндекс берет такие ссылки для индексирования? Писали что-то по Яндекс.Бар, потом про Метрику… Робот, по логике, не имеет права вносить в индекс страницы, до которых нельзя дойти по прямым ссылкам с уже известных страниц или которые не добавили явным образом пользователи. Вряд ли Мегафон держал в публичном доступе карту своего смсочного сайта — равно как и порно шопы.
26 июля 2011 в 09:55 Ответить
Юрий Синодов Roem.ru
Meneldor, Яндекс вносит в индекс страницы, адреса которых ему стали известны из «Яндекс.Бара» или «Метрики». Если они не закрыты в robots.txt. Это, собственно, никто из Яндекса не отрицает. Дальнейший предмет для дискуссий это то, должен ли включать голову «Яндекс» (и поисковики вообще) или вебмастера. Судя по тому, что robots.txt на самом прикольном сайте sexyz.ru всё ещё пуст, у нас есть прекрасный шанс наблюдать крысиные бега с целью замазать личные данные. Пока никто не добежал, но подозреваю, что кто-нибудь не выдержит. Остальные в этот момент со своими рассуждениями о необходимости правильного robots.txt станут выглядеть напыщенными козлами.
26 июля 2011 в 10:03 Ответить
Meneldor
Для меня очевидно — робот не должен быть таким жадным, в индекс должны попадать только страницы, явным образом доступные по ссылкам с других страниц либо добавленные вручную, что, впрочем, не отменяет и полезности robots.txt. А пока получается, что люди, доверившиеся полезным сервисам типа Бара, тем самым себя подставили.
26 июля 2011 в 10:17 Ответить
worldmind
Похоже на наезд на яндекс, который тут совершенно ничем не выделяется, думаю должно быть более нейтральное «поисковые системы» — все они одинаково обрабатывают robots.txt и все индексируют доступные без авторизации страницы
26 июля 2011 в 10:23 Ответить
Игорь Ашманов Сам себе компания
В видео изложена фигня, блогосфера взорвалась в 13:00. Муртазин на РБК-ТВ говорил, что в начальных постах давалась ссылка на новость на Ленте, которая была недоступна и появилась только спустя час после того. Вообще посев такой сенсации — довольно интересная вещь. В утечку из Яндекса про утечку из Мегафона про утечку СМС — не верится. На самом деле уязвимость могла существовать многие месяцы. То, что страницы с подтверждением СМС надо закрыть, было известно ещё год-полтора назад (для сервисов на региональных сайтах М), рекомендации такие давались давно.
26 июля 2011 в 10:30 Ответить
bormotov
Есть идея, чего в таких случаях делать Яндексу (знаю, что они прочитают и надеюсь подумают в этом направлении) Если опубликована дыра в защите сайта, то индекс нужно чистить, это забота о простых людях. А вот сайты, у которых прорвало, в назидание, вынести из выдачи совсем. Скажем, на год. В случае магазинов, которые построены на дырявом движке — вынести все магазины. На мой взгляд, это прямо соответствует тому, к чему Яндекс стремится — находить для людей хорошие ресурсы в Интернете. Зачем людям дырявые онлайн магазины, которые сливают данные пользователей?
26 июля 2011 в 10:44 Ответить
deaddy
worldmind ну вот опять. а ничего, что в тех магазинах, которые не использовали яндекс метрику, никакой утечки не произошло?
26 июля 2011 в 10:45 Ответить
deaddy
По мне так никакого разворота не произошло, Яндекс как стоял на позиции «я не я», так и стоит. Руководство до сих пор имеет наглость всем втюхивать про отсутствующий роботс.тхт
26 июля 2011 в 10:54 Ответить
blender
Причем тут Муртазин? Неужели нет способа отследить по хронологии ретвитов изначальный пост? Да и насколько помню, началось все в районе часа и были ссылки на результаты поиска, не на Ленту. Мне вот до сих пор интересно, какая сволочь во время взрывов в метро в Москве твитнула про Проспект Мира (на котором ничего не было) и как это живо разошлось по сети, убавив здоровья и нервов.
26 июля 2011 в 10:55 Ответить
Meneldor
Это пока кто-нибудь забавы ради не подставит Яндекс аналогичным образом под 152-ФЗ.
26 июля 2011 в 11:08 Ответить
worldmind
2 deaddy вы бы хоть почитали http://roem.ru/2011/07/25/addednews32332/ гугл и бинг там всё отлично индексируют
26 июля 2011 в 11:14 Ответить
bormotov
deaddy Лично я не возражаю, чтоб те магазины, у которых слива данных покупателей в индексе нет — оставить в выдаче. Будем считать, что они сопровождаются грамотными специалистами и не опасны для простых людей.
26 июля 2011 в 11:30 Ответить
Игорь Ашманов Сам себе компания
Причем тут Муртазин? Неужели нет способа отследить по хронологии ретвитов изначальный пост? Муртазин просто озвучил версию вброса, у него, вероятно, есть какие-то основания. Я сам не хочу это расследовать, лень, но следующий вброс про секс-шопы уже в формате пресс-релиза Информзащиты делает версию вбросов и чьего-то пиара более вероятной. Мне кажется, служба безопасности Мегафона реагировала уже на чьи-то посты в блогах.
26 июля 2011 в 11:34 Ответить
Юрий Синодов Roem.ru
Да, Информзащита, конечно, обратившись в Ведомости отожгла. Странно, что про структуры, чей бизнес столь тесно завязан на сотрудничество с органами, еще никто не сбацал чего-нибудь конспирологоического.
26 июля 2011 в 11:39 Ответить
Юрий Синодов Roem.ru
Wow, SexyZ сделал robots.txt!
26 июля 2011 в 11:58 Ответить
Альтер Эго
Да это БДБД мстит яндексу за то что их в очередной раз того..
26 июля 2011 в 14:03 Ответить
internet_gign
Один из наиболее интересных примеров — отношения Яндекс к переходам на зараженные страницы, много лет их позиция была — что это не их проблема, вещали постоянно, в 2009 году только дошло до людей
26 июля 2011 в 14:30 Ответить
Юрий Синодов Roem.ru
Да это абсолютно стандартное поведение «Яндекса» : выработать какую-то позицию и держаться за нее как за святыню, вежливо (а иногда не очень) отшивая всех недовольных. Когда, наконец, развитие сервиса подходит к тому, что фича внедряется, про выработанную позицию забывают (об этом мало кто вспоминает, у людей вообще очень плохо с памятью) и пишут пресс-релиз «Для удобства наших пользователей мы сделали то, о чём нас просили много лет, но мы от всех отбивались». Точно такая же история была с пробками, когда «Яндексу» много лет говорили, что надо делать прокладывание маршрутов с учётом пробок, на что сотрудники отвечали, что если так делать, то на пути объезда тоже немедленно будет пробка, что мешает вводить этот сервис. Бред очевидный для любого, кто мало-мальски интересуется проблемами транспорта — на самом деле, информирование о пробках помогает их разгружать. В итоге, когда смогли, выкатили прокладывание маршрутов с учётом пробок, невзирая на свою озвучиваемую позицию. Такое ощущение, будто не в интернете живут: всё же записывается. P.S. Раньше писал, что из-за перетекания пробок с маршрута на маршрут яндексоиды говорили «так делать не нужно». Извините, был неправ. Всё остальное — правда
26 июля 2011 в 15:52 Ответить
topmedia
Пара слов в защиту Яндекса. Ну, может быть, не в защиту, но на тему. Дискуссия к этой статье, и ко второй про магазины, получается немного сумбурной, из-за смешения двух тем: — кто виноват (технические причины); — социальная ответственность массового сервиса (типа добровольшная цензура). Про первое — это, стопроцентно, грубое нарушение азбучных правил веб-программирования. Передача чувствительных данных через get-запрос, равно как и неограниченный доступ на страницу с такими данными — такие ошибки, которые делают разве что недоучившиеся троешники. Здесь однозначно вина разработчиков (и владельцев сайтов). Удивительно, что пинают поисковики, но никто ни слова не сказал по поводу продавцов скрипта магазина. Вот им бы следовало срочно выпустить заплатку и за свой счет обновить все магазины. А вторая часть — она выглядит шире, не только цензура доступа к персональным данным, но так же и доступ к сайтам, зараженным вирусами, сайтам с материалами, нарушающими закон, сайтам с нелицензионным контентом и т.д. Пролоббируйте закон, обязывающий поисковые системы убирать ссылки на какие-то сайты, и ПС это сделают. Пока закона нет, остается только поговорить — сформулировать некие правила, которые не слишком ущемляли одних и достаточно защищали других. С другой стороны, » сам термин «социальная ответственность» подсказыает, что здесь не ситуация нескольких/многих бизнесов, которые нужно регулировать законом, чтобы отдельные не получали преимущества перед остальными, нарушая сложившиеся правила поведения (моральные нормы). Здесь ситуация одной организации/компании, которая обслуживает людей с разными потребностями, возможностями, способностями. Любое ограничение/послабление дает больше возможностей/подрывает бизнес одним/другим. Как другие монополии (железная дорога, электросети), эта виртуальная монополия должна регулироваться, и регулироваться сбалансированно. Банальные вещи, но вся суть дискуссии, на мой взгляд, к этому ведет. В реальности, пока дело ограничивалось добровольной цензурой, в некоторых случаях со строгой подсказкой государства (в Китае, например).
26 июля 2011 в 15:57 Ответить
internet_gign
Нюанс в том что такой подход распространяется и на продукты, что часто недоприносит денег —— Видимо банально чужое мнение мало интересует, все знают по всем вопросам
26 июля 2011 в 15:59 Ответить
internet_gign
идея выносить из выдачи магазины из-за подобных проблем мне кажется неадекватной, с учетом (полу)монопольного положения яндекс во многих сегментах
26 июля 2011 в 16:15 Ответить
charset
Точно такая же история была с пробками, когда «Яндексу» много лет говорили, что надо делать прокладывание маршрутов с учётом пробок, на что сотрудники отвечали, что если так делать, то на пути объезда тоже немедленно будет пробка, поэтому так делать не нужно.. Вполне здравая позиция Яндекса, кстати. Говорю как специалист. Альтернативные маршруты — вещь сиюминутная и постоянно меняющаяся. В условиях Москвы нет такой постоянной вещи, как «удобный маршрут объезда пробки X». Закон больших чисел и открытых знаний очень быстро забивает любой объезд.
26 июля 2011 в 16:18 Ответить
Альтер Эго
может кому интересно, яндекс проиндексировал РЖД РЖД+Яндекс :) http://yandex.ru/yandsearch?p=12&text=urlwww.railwayticket.ru*|urlrailwayticket.ru*&lr=213
26 июля 2011 в 16:35 Ответить
Meneldor
Аккуратность программистов и robots.txt — это прекрасно. Но всё-таки ответьте, защитники Яндекса, с какой стати робот индексирует страницы, которые просматриваются в Яндекс.Баре или попадают в Яндекс.Метрику? Именно это поведение — ненормально. Но про это почему-то не говорят.
26 июля 2011 в 17:16 Ответить
internet_gign
Так яндекс сам определяет про что говорить, а про что нет ;)…
26 июля 2011 в 17:19 Ответить
blaze
Если в интернет-магазине есть имя и адрес покупателя, то это уже не личные, а самые настоящие персональные данные. И за их ненадлежащее хранение (читай утечку в интернет) операторы получат по самое небалуйся. robots.txt после этого будет выучен моментально.
26 июля 2011 в 17:26 Ответить
Альтер Эго
яндекс и паспортные данные http://yandex.ru/yandsearch?text=(urlwww.tutu.ru*+|+urltutu.ru*)++&lr=43
26 июля 2011 в 17:42 Ответить
Валентин Домбровский Travelabs
По-моему, надо 3 ветки в одну сливать. :) (гм, да… пожалуй, именно сливать ;))
26 июля 2011 в 17:48 Ответить
soomrack
> яндекс и паспортные данные Кстати, в этом случае, Яндекс (почему-то?) копии страниц не хранит.
26 июля 2011 в 18:02 Ответить
Alex Ilyin
Юра, аналогии иногда работают, а иногда не очень. Я не знаю, чем кончится дело, но вот какие вижу варианты: 1. Яндекс сам или под дулом будет фильтровать результаты. Автоматически убирать приватные данные он точно не сможет: не найти таких критериев. Будут либо грубые критерии (на страницу нет ссылок; используется кривой коробочный скрипт и т.д), либо ручная фильтрация по стуку. Это приведет к тому, что утечек станет сильно меньше, но оставшиеся утечки (наверняка в рунете полно таких же страниц, по недосмотру включенных в сайтмапы, реферреров на них, торчащих в открытых логах awstat и т.д.) полностью выйдут из-под контроля. Вебмастеры почувствуют облегчение и начнут идиотничать снова. История повторится, только вместо бара или метрики в главной роли будет что-то еще. Да, про Гугл тоже не стоит забывать. 2. Яндекс добьется признания своей позиции. Вебмастеры станут думать, заказчики станут думать, уровень просвещения чуть поднимется. Все промсходящее окажется хорошим уроком. Все это уже проходили на западе. Мне второй вариант кажется чуть более интересным, честно говоря, т.к. борется с причиной, а не с симптомом. Мне было бы некомфортнее заказывать эротический костюм серого волка в мире, где все стрелки переведены на Яндекс.
26 июля 2011 в 18:12 Ответить
internet_gign
позиция яндекс — непонятная сущность, она постоянно меняется, тут главная проблема и интерес у них один — собственная прибыль
26 июля 2011 в 18:32 Ответить
Иван Ильин
@payalnik Как я понимаю — список чувствительных пользовательских данных — Конечный. Необъятной простынёй «непонятно чего» — он не является. Это набор из X пунктов (скорее всего на него даже норматив есть, «ГОСТ»). Со временем число чувствительных пунктов растёт, но это обновления, а не «полное отсутствие каких-либо рамок вообще всегда». Сегодня Яндекс, отпарсив страницу, умеет автоматически понять: «к какому персонажу она относится?» — берёт производную и подклеивает страницу в нужное время и место в Яндекс.Новости. Это значит, что компетенции выделять и «пользовательские данные», а не имена, или сочетания «пользовательских данных» — у Яндекса тоже есть. Просто ещё не сделали и не развернули. После развёртывания — красивым алгоритмическим решением, следующим из обнаружения пользовательских данных, будут, например, следующие функции: A) пользователей Яндекс.Бара информировать индикатором, что данный сайт де подвержен утечкам (или наоборот — «этот сайт безопасен») Б) владельцев сайтов с возможностью утечек — информировать письмом, что до устранения этого позора — их сайт будет предпоследним из миллиона ссылок в SERP при прочих равных Данными мерами, конечно, ограничиваться не надо. Можно придумать и куда больший набор красивых силовых действий. Но силу Яндекс сможет прикладывать Только к заслуживающим этого дуракам. И достаточно наивно предполагать, что компания будет тратить значительные усилия, чтобы саму себя бить по мордасам. Вводить баны на магазинные движки и учинять порочие злодейства самой себе. P.S. Никакой проблемы — в том, что компания рассчитывает на прибыль — разумеется нет. На прибыль или стоимость активов и следует ориентироваться. А не на какие-то там перемены собственных позиций в компании.
26 июля 2011 в 18:48 Ответить
Suomynona
А вот это уже [url=http://yandex.ru/yandsearch?text=+++sitekroki.ru&lr=213] не на WebAsyst [/url].
26 июля 2011 в 19:01 Ответить
internet_gign
Фокусироваться на прибыли — очень правильно, не вопрос но не нужно озвучивать иные цели, типа удобства и комфорт пользователей ——— Люди которые решают только собственные вопросы (собственного позиционирования, не привязанного к результату) — есть в любой компании, вопрос в пропорции сколько таких людей, а сколько работающих на компанию
26 июля 2011 в 19:54 Ответить
altrr
@sinodov >> Meneldor, Яндекс вносит в индекс страницы, адреса которых ему стали известны из «Яндекс.Бара» или «Метрики». Если они не закрыты в robots.txt. >> Это, собственно, никто из Яндекса не отрицает. поправлю, возможность использования метрики для индексации отрицается как минимум в лицензии на нее: 11. Пользователь понимает и соглашается с тем, что счётчик, установленный на сайте Пользователя, собирает анонимные (без привязки к персональным данным посетителей сайта) данные о посещениях сайта Пользователя и в автоматическом режиме передаёт их Яндексу для получения обобщённой статистической информации , доступной для дальнейшего использования с помощью Сервиса как Пользователю, так и Яндексу. Яндекс не гарантирует, что установка счётчика, сбор, обработка и передача Яндексу указанной информации не нарушает законодательство места пребывания Пользователя. Пользователь осуществляет установку счётчика и использование Сервиса на свой риск, и самостоятельно несёт ответственность за все свои действия, связанные с использованием Сервиса, в том числе с установкой счётчика, сбором и использованием Пользователем указанной информации. http://metrika.yandex.ru/agreement.xml
26 июля 2011 в 22:35 Ответить
Crio
> Но всё-таки ответьте, защитники Яндекса, с какой стати робот индексирует страницы, которые просматриваются в Яндекс.Баре или попадают в Яндекс.Метрику? Хороший, правильный вопрос. Насколько я понимаю, для Яндекс.Бара индексация страниц, на которых побывал пользователь — это основная и едва ли не единственная цель существования. Поэтому спрашивать, почему робот индексирует такие страницы как-то странно. Можно (и нужно) спрашивать, почему об этом пользователю сообщается крупными буквами при установке; вероятно, за это Яндекс неплохо было бы и вздрючить так или иначе — но именно за это, а не за то, что робот зашел куда не надо. Что касается Яндекс.Метрики, то тут админам полагается знать, что страницы, где она стоит, автоматически попадут в индекс. Для большинства случаев это желательно, но если админы впихнули ее куда не надо, то это целиком их вина.
26 июля 2011 в 23:18 Ответить
megapinion
По-моему для класса однотипных УРЛов определить автоматически, что на страницах с этими УРЛами в фиксированных позициях часто (большая доля этих страниц) находятся семантические единицы, с большой вероятностью являющиеся «персональными данными» (фамилии или, например, номера телефонов) – это тривиальная задача …
26 июля 2011 в 23:45 Ответить
Meneldor
Crio , цитирую страницу Яндекс.Бар для Оперы: Яндекс.Бар 1.2 для Opera 11 Сервисы Яндекса во всплывающем окне: – работа с письмами в Яндекс.Почте; – подробный прогноз погоды; – пробки на карте; – счет и оплата в Яндекс.Деньгах; – общение с друзьями в Я.ру; – отзывы о странице. Отзывы о странице — последний и далеко не единственный пункт. Но не в этом дело. Яндекс.Бар имеет полное моральное право индексировать все страницы для целей самого сервиса, но с какой стати они попадают в публичную выдачу Яндекс.Поиска? Давайте тогда и письма из Яндекс.Почты в публичную выдачу включим — они ведь тоже Яндексу доступны.
27 июля 2011 в 00:53 Ответить
godegisel
> Что касается Яндекс.Метрики, то тут админам полагается знать, что страницы, где она стоит, автоматически попадут в индекс. Ведь выше уже процитировали http://metrika.yandex.ru/agreement.xml — ну никак оттуда не следует, про «полагается знать». Я решительно не понимаю, почему Мегафон не в претензии к Яндексу за столь его явное нарушение собственного соглашения.
27 июля 2011 в 09:07 Ответить
Альтер Эго
А что в соглашении нарушено?!
27 июля 2011 в 09:13 Ответить
Meneldor
А вот и [url=http://www.google.ru/search?source=ig&hl=ru&rlz=&q=allintitle++++sitegov.ru&btnG=++Google] google + gov.ru [/url].
28 июля 2011 в 13:03 Ответить
qqq
Meneldor, а это наш асиметричный ответ Ассанжу. Чувак рискует жизнью и здоровьем, доставая и публикуя секретные документы. А наши взяли и сами все открыли :)

Важное

Обсуждаемое