Поисковики спалили покупателей секс-шопа

В поисковиках нашли еще личных данных покупателей различных интернет-магазинов (пример из Google, прекрасный пример из "Яндекса" с палевом пользователей секс-шопа, "Бинг". Благодаря отсутствию операторов, плохо палит покупателей Go.mail.ru).

Яндекс, Google поисковики спалили покупателей секс-шопа

Пресс-секретарь "Яндекса" Очир Манджиков посоветовал вебмастерам ознакомиться с информацией о файле robots.txt и об его корректном использовании.

Особое внимание тому что индексируют поисковые системы СМИ стали уделять на прошлой неделе, после того как поисковая система "Яндекс", оказалось, проиндексировала и сохранила в сниппетах часть пользовательских SMS абонентов компании "Мегафон" отправлявших SMS через Интернет.

Позиция "Мегафона" заключается в том, что компания должна нести солидарную ответственность вместе с интернет-провайдерами, в то время как "Яндекс" упирает на то, что поисковая система работает с открытыми данными и не индексирует те данные, доступ к которым закрыт в файле robots.txt. При этом благодаря популярности "Яндекса", которая в России почти в три раза выше чем у любого другого поисковика, попадание данных в его индекс резко увеличивает их "находимость", что может иметь отрицательные стороны для всех пользователей интернета пользующихся сайтами с не самыми грамотными вебмастерами.

При этом веб-мастерам стоит думать не только о правильной работе с robots.txt, но и о том, чтобы ненужные данные не могли быть доступны вообще никому без авторизации, так как помимо поисковых систем, руководствующих robots.txt по сети ходит куча роботов, принадлежащих непонятно кому и руководствующихся своими собственными правилами.

Лучшие комментарии

  • Контекст комментария

    altrr

    Так много сайтов прокалывалось и посолиднее, включая например фейсбук (http://news.ycombinator.org/item?id=1402384) Не хотите чтобы ваши данные попали в поиск (а если на них специально не наставили ссылок, то в теории они попасть не должны) — не пользуйтесь Яндекс.Баром, Гугл.тулбаром и подобными продуктами с изначально заложенным в них шпионажем

  • Контекст комментария

    Руслан Левиев Фонд борьбы с коррупцией

    На самом деле утекли приватные данные заказов сотен магазинов (в том числе и секс-шопов). Большинство их объединяет одна деталь: они используют движок Shop-Script, в функциях которого есть просмотр данных заказа по специальной ссылке без авторизации.

  • Контекст комментария

    Валентин Домбровский Travelabs

    Кстати, на серче Сергей заявил: «Я уже не надеюсь, что до этих «специалистов» дойдет, что Яндекс.Бар здесь не причем, но на всякий случай повторю — Яндекс.Бар здесь не причем. Страницы магазинов и жд билетов проиндексированы благодаря Метрике». Правда, натолкнулся на возражение о том, что в индекс попали сайты без Яндекс.Метрики.

  • Контекст комментария

    Gray

    zotov, вы не представляете, как вы правы — это очень примитивная демагогия. Я вот сейчас пошел на один известный сервис и вижу там адреса страниц, которые раньше мне известны не были совершенно. А этот сервис мне их показывает. Причем не убеждается, что они публичные, как тут предлагает его автор, а показывает, несмотря на то, что ему-то точно известно — этот адрес открыл только один человек. [URL=http://forumimg.net/blog/2011-07-26_02-10-14.png]http://forumimg.net/blog/2011-07-26_02-10-14.png[/URL]

  • Контекст комментария

    Gray

    Нет, Миша, никто над юзерами не издевается. И ты сам прекрасно понимаешь, что ни один самый умный робот не определит по урлу, публично доступному, публично известному и не закрытому от индексации, что это вебмастер тут глупее робота, поэтому надо не индексировать, а то чего доброго…

  • Контекст комментария

    Игорь Ашманов Сам себе компания

    Игорь, спасибо за новую грань с PR-атакой, да. Юра, по-моему, ты не вкурил в мой комментарий. Пиар-атака здесь не при чём, в том числе потому что ты, как журналюга, вообще таких вещей не чувствуешь, как рыба не чувствует воды. Ещё раз: нет никакой общедоступности результатов поиска по запросу, пока ты не знаешь этот самый точный запрос. Да, ссылка от запроса по сути ничем не отличается. Одно можно получить DNS-запросом, а другое — поисковым запросом. В любом случае, и то, и другое почти нельзя получить случайно, а нарочно — можно. Что касается «цензуры» результатов поиска, о которой тут гневно пишет Петренко, то приведу совершенно очевидный пример: Вот у системы «Виза» есть требование к организациям, совершающим операции с кредитными картами Визы на сумму больше 100 000 евро то ли в день, то ли в месяц (не помню), чтобы номера кредитных карт не выходили наружу из организации в открытом виде ни в почте, ни ещё как. Что такие организации должны подтвердить обязательствами в договоре, какой-то сертификацией и т.п. Номер кредитной карты — это не просто N циферок, это довольно сложный объхект с внутренней логикой, циферки там как-то зависят друг от друга. Мы как-то писали такой распознаватель для компании Infowatch, которая продаёт систему защиты от утечек, в том числе от таких утечек финансовых данных. Ясно, что и объекты типа «ФИО», «почтовый адрес», «адрес электронной почты», «номер ГНИ», «БИК», «номер банковского счёта», «номер телефона», «номер автомобиля» и т.п. — система защиты от утечек распознавать должна. Для этого пишутся специальные картриджи-распознаватели. Часть из них, типа «ФИО», «должность», «название организации», уже есть и у Яндекса, в пресс-портретах. Ну ладно, Инфовотч — это специализированная система, в которую вбиты сотни человеко-лет. Но вот распознаватель номеров кредиток — это не бином Ньютона и не рокит сайенс. Его-то можно в индексатор Яндекса встроить? Сергей, скажи мне, если Яндекс видит на странице номер кредитной карты , должен ли он поместить эту страницу в общий индекс? Или было бы разумно разобрать несколько вариантов принятия решения в данном случае, среди которых, например — заиндексировать страницу, но забить номер иксами, или просто не брать страницу в индекс, или не класть её в кеш и т.п.?

  • Контекст комментария

    Игорь Ашманов Сам себе компания

    Игорь, в том то и дело, что ее неодинаково легко найти. Есть информация с уникальным локатором, известным только тебе. Ну, уникальный локатор при этом выглядит как простой урл с циферками в конце. Во многих случаях сработает простой перебор. Хакеры тоже ведь не дураки. Ну да, если ты знаешь второй уникальный локатор в виде ключевого слова, которое есть в СМСках или бланках заказа/доставки, можно по нему и поиcковый запрос построить. Но что уникального в локаторах вида: url:www.railwayticket.ru* | url:railwayticket.ru*?

  • Контекст комментария

    Игорь Ашманов Сам себе компания

    Посчитали Крибрумом, когда появилась первая запись про СМСки Мегафона (мы всё равно меряем операторов). Первая запись, которую видит Крибрум — это Hitman в Твиттере, примерно в 13.07. Его дальнейшие записи в Твиттере выглядят адекватно, в русле версии о его вбросе («вброс, кстати, мой! знакомый директор компании кинул в личку, у них в штате есть сеошнег, оттуда корни, сами побоялись публиковать»). Следующая волна — это ретвиты именно этой записи.

  • Контекст комментария

    Игорь Ашманов Сам себе компания

    А вообще мне нравится наблюдать, как работает моск у Юры и прочих местных правозащитников — они не понимают того, что сами же пишут. Или даже понимают ровно наоборот — то, что сказали сами же. Вот они негодуют: Смотри, Яндекс — ты же в прошлый раз игнорировал общественное мнение! Не хотел киски и школьниц почистить! Не хотел рейтинг блогов модерировать! А ведь потом пришлось!!! И сейчас придётся! Ну да, а как ещё жизнь устроена? Это и показывает, что Яндекс прислушивается к общественности, а не наоборот! Вы против чего согласны-то? Ребята, а как вы вообще представляете себе достижение общественного консенсуса? Да даже консенсуса с вашей женой по поводу отпуска или покупки шмотки? Ну да, она сначала будет спорить, у неё будут свои аргументы, у вас свои, интересы же разные; потом вы её частично убедите, она уступит, вы уступите, кто-то предложит решение, вы договоритесь на чём-то. А вы что — хотели бы, раз в прошлый раз Яндексу пришлось подвинуться в вопросе порно, чтоб он теперь по щелчку ваших пальцев прибегал и спрашивал: чего изволите в этот раз удалить из выдачи?! Будет сделано! Есть! Так точно! Бегу выбрасывать! Больше не повторится!!! На Роеме же написали!!! Вы жену-то смогли так выдрессировать? Начните с неё, вы ей хотя бы денег даёте. Скорее всего скандал ещё будет продолжать шириться, всякие компании и специалисты из ИБ, студенты и оптимизаторы будут искать «уязвимости», чтоб отпиариться, в Яндекс последуют запросы из официальных органов, вожди выскажутся, пиарщики отстреляются, СМИ охрипнут, «эксперты» повторят сто банальностей, яндексоиды найдут какую-то формулу согласия (как с удалением рейтинга блогозаписей), объявят о ней. Ну и что? Так и рихтуются обычаи делового оборота и законы. Например, так появился известный Сарбейнс-Оксли. Яндексу, кстати, этот шум выгоден, как ни странно — он повышает значимость поиска в обществе. Вы пафос-то правозащитный снизьте всё же. Обсуждайте суть проблемы, а не возмутительную неуступчивость Яндекса. И кстати, а что ж вы перестали гневно обличать ВКонтакт за средний палец, порно и неуважение к пользователям? Или теперь за это отвечает Пеганов?

  • Контекст комментария

    Михаил Козлов Mediascope

    Позиция Яндекса, конечно, доставляет. Ребята, ну посмотрите как выглядит ситуация: ваши _клиенты_ (а раз стоит Метрика, наверняка сайт размещал или размещает прямо сейчас рекламу в Директе/Маркете) получают от сотрудничества с вами проблемы, большие проблемы. Мало того, что вы используете информацию о посещении клиентского сайта для рекламы его конкурентов, так еще и вытаскиваете контент, который клиенты не планировали выдавать кому-нибудь наружу. Ну, да, эти вебмастера не такие крутые парни, как вы, не всегда думают про роботс.тхт и что контент может стать доступным случайно. Но зачем вы над ними издеваетесь и поплевываете свысока? Сергей, ты правда не понимаешь, что позиция «сам дурак» не только некрасивая, но и проигрышная? Раз вы такие умные, сделайте хотя бы элементарную защиту от дурака. Метод, который предлагает Максим Зотов хороший, никакая ценная информация не потеряется, а от скандалов себя и ваших клиентов вы убережете. А кто тут рассуждает про «цензуру», так вспомните, что несколько лет назад сайт без авторитетных внешних ссылок вообще имел довольно мало шансов попасть в выдачу, по крайней мере, в Гугле (про Яндекс уже не помню). И никто это цензурой не считал.

  • Контекст комментария

    Михаил Козлов Mediascope

    Gray, ок-ок. Назвать своих клиентов идиотами — это было не издевательство, а просто констатация факта. Я понял. altrr, не знаю что там с лицензией на Метрику, но сотрудники Яндекса публично подтверждали, что данные Метрики используются и для индексации (вот прямо на этой странице в т.ч.), и для подбора объявлений в Директе.

  • Контекст комментария

    Михаил Козлов Mediascope

    Игорь, Яндекс как раз увеличивает публичность, да еще как. Уникальный адрес, куда может попасть человек никому не мешает. Особенно, если этот адрес действует ограниченное время (10 минут, час, сутки) — как в случае с Мегафоном. Случайно попасть туда нельзя. Разве что перебором — ну, так для этого и делают длинный урл со странными последовательностями символов. А вот если такая страница засвечена в поисковике, то попасть на нее случайно — дело времени, примерно как попасть на порно по запросу «киска», если специально ничего не фильтровать. На мегафоновские смски можно было легко попасть по номеру телефона (я иногда задаю такие запросы), в этот магазин — например, по названию товара, имени получателя, адресу и еще много как. Если продолжать твою аналогию с кустами, то в магазине эти кусты были где-то в глухой Сибири, а Яндекс перенес их на Тверскую.

  • Контекст комментария

    zotov

    > URL известен не только браузеру, но и еще неопределенному числу роутеров, прокси и т.д. Это всё очень примитивная демагогия. С таким же успехом можно публиковать http-пароли на том основании, что они передаются в открытом виде через роутеры и прокси. Тут как раз тот случай, когда количество переходит в качество. Не важно, что URL принципиально может быть известен посторонним, важно то, что кроме поисковиков все остальные посторонние не предоставляют простой и свободный доступ ко всем этим данным. Этот ваш сферический прокси позволяет любому человеку получить одним простым запросом все СМС, отправленные через сайт? Все заказы магазина? Пусть Яндекс, раз уж берет адреса из Бара и/или Метрики, убеждается, что эти адреса являются публичными, очень простым способом: если этот адрес открыло хотя бы более двух человек. А лучше более 10.

  • Контекст комментария

    zotov

    Gray , думаю, беседа будет неконструктивной, потому что каждый кулик всё равно будет защищать своё болото. :) > Что принципиально здесь невозможно? 1) при переходе без ссылок не показывается полный адрес, только домен; 2) параметры URL (то, что после знака ?) по умолчанию удаляются; 3) статистика по умолчанию доступна только по паролю; 4) адреса с одним просмотром/переходом обычно хранятся только за текущий день; 5) переход с приватной страницы (например, статуса заказа) на посторонний сайт на порядки более редкое явление, чем само открытие этой страницы пользователем. В итоге по умолчанию в LiveInternet доступ к этим данным осложнён. И владельцу сайта нужно предпринять дополнительные усилия, чтобы разрешить доступ к ним. С другой стороны, Яндекс по умолчанию всё индексирует и всё показывает. Владельцу сайта нужно предпринять дополнительные усилия, чтобы запретить доступ. При этом в статистике LiveInternet вы увидите только единичные случаи с приватными данными (переход с приватной страницы на ваш сайт). В Яндексе же вы найдёте все приватные страницы, потому что Метрика загружается на всех страницах и все их сливает индексатору. Разве непонятна принципиальная разница между «все» и «ничтожная доля»? И получается, что Яндекс удобно и легко использовать для доступа к приватным данным, а LiveInternet — нет. Если хотите, можно сократить: Яндекс удобен, LiveInternet — нет, возражать не буду :)

Добавить 168 комментариев

  • Ответить
    Руслан Левиев Фонд борьбы с коррупцией

    На самом деле утекли приватные данные заказов сотен магазинов (в том числе и секс-шопов). Большинство их объединяет одна деталь: они используют движок Shop-Script, в функциях которого есть просмотр данных заказа по специальной ссылке без авторизации.

  • Ответить

    Самое неприятное то, что и-маги все мелкие, а в случае со статусами заказов 152-ФЗ без всяких оговорок. Золотое дно для контролирующих организаций :-/

  • Ответить

    Это всё хорошо. А вот объясните, как Яндекс узнает уникальные адреса страниц со статусом заказа с многоразрядным уникальным кодом?

  • Ответить

    @ludkiewicz Я.Метрика. Я.Бар. В письме с подтверждением заказа отправляется URL для просмотра статуса. Google Chrome историю посещений хранит догадайтесь, где.

  • Ответить

    @Suomynona. То есть можно вот так на голубом глазу тырить Баром или Метрикой приватные урлы с персональной информацией и вываливать их в паблик?

  • Ответить

    >Очень просто узнаёт. >Человек пользуется IE, Gmail и «Яндекс.Баром» Ну, [url=http://bar.yandex.ru/firefox/agreement.xml]лизензионное соглашение Яндекс-Бара[/url], к примеру, в п. 6.3 говорит, что собирает информацию анонимно (без привязки к пользователю). А какое ж тут анонимно, если все его персональные данные в паблик попадают?

  • Ответить

    @ludkiewicz URL не приватные ни разу. Нет никаких запретов к их индексированию, ни в robots.txt, ни в meta-тегах страниц. Тут все вопросы к компании Webasyst, автору скрипта.

  • Ответить

    Людкевич, ну тебе ж дали ответ: http://webmaster.ya.ru/replies.xml?item_no=10941 Например, Яндекс.Бар или Google.Бар показывают ранг страницы, для чего передают ее адрес на сервер А что до лицензионного соглашения, они же не записывают, кто эти данные там вводил? Может муж жене что-то покупал. Полная анонимность, какие претензии?

  • Ответить

    >Полная анонимность, какие претензии? Вы считаете, что есть анонимность, я считаю, что нет — вот и претензии. Интересно, с кем из нас согласится Алсина Шагабиева или Екатерина Ульянкина?

  • Ответить

    Отнюдь. Есть определенные этические нормы. И правовые. Если собираешь автоматически приватную информацию от пользователя, то убедись, что она не содержит данных, охраняемых законом, прежде, чем её публиковать. В статье 23 Конституции РФ нет ни слова про файл robots.txt. Зато есть, что «1. Каждый имеет право на неприкосновенность частной жизни, личную и семейную тайну, защиту своей чести и доброго имени. 2. Каждый имеет право на тайну переписки, телефонных переговоров, почтовых, телеграфных и иных сообщений. Ограничение этого права допускается только на основании судебного решения.» P.S. И да. Мне очень интересно, как бы отреагировал на публикацию о себе подобной информации г-н Юрий Синодов. У меня такое впечатление, что он относится к ней весьма щепетильно. Помнится, как-то очень огорчался по поводу номера банковской карточки.

  • Ответить

    Ну так это вопрос к владельцам магазинов, а не к Яндексу/Google/Bing… Кто выложил на всеобщее обозрение приватные данные?

  • Ответить

    >Кто выложил на всеобщее обозрение приватные данные? Дык, Яндекс (Гугль, Бинг — нужное подчеркнуть), разве не? До того, как юзер зашел на страницу с приватными данными в браузере с установленным баром поисковика, они были известны только ему и владельцу магазина. Ну, а затем, через свой бар об этом узнал поисковик и рассказал по секрету всему свету. Разве не так?

  • Ответить

    Дискуссионный, а то. Ты установил у себя перед дверью камеру наблюдения, а её операторы, подсмотрев через неё уникальный код твоего цифрового замка, открывают твою дверь, входят к тебе и вывешивают снимки твоего белья на всеобщем обозрении. И оправдывают свои действия тем, что на двери не написано «Не входить». Смешно… Или грустно?

  • Ответить

    Эти данные доступны любому, кто знает URL. А вовсе не только администратору и покупателю. Поисковик URL знает. Доступ к данным предоставляется без авторизации. Нет даже указания на то, что данные нельзя индексировать.

  • Ответить

    Серег, адрес страницы, посещенной юзером, не является приватной информацией. Прежде всего потому, что юзер обезличен. Строго говоря, вообще неизвестно, кто это — роботу поиска или любой другой службы (прокси-сервера, например, или антифишингового фильтра) становится известен адрес страницы. Скажи, что в этом приватного, что само по себе, безотносительно к содержанию страницы, безусловно запрещает ее посещение/индексацию?

  • Ответить

    по-моему спор банальный есть такое понятие как шифрование с ключом, в качестве этого ключа выступает некая комбинация символов и она действительно известна только магазину и покупателю, но передается она через браузер и браузер имеет наглость этот ключ палить по-моему это тупо не этично. и до того, как Гуглы, Яндексы и прочие охамели это был вполне приличный способ давать доступ к контенту без авторизации. например, мы в своей CRM-ке даем по ссылкам из письма просматривать быстро счета, ну а что пользователю каждый раз логиниться в CRM, чтобы открыть счет? да ну вы господа окуели. такой метод отправки форм как GET нужно видимо заранее исключить из стандарта HTML как более неактуальный закончится это тем, что поисковики начнут неоткрытые ссылки из писем открывать и индексировать и вопрос лишь времени когда поисковики начнут индексировать и выкладывать письма, как видим понятие об этики перевешиваются жаждой заработка на показе частной информации и контекста к ней заметим было бы желание, подобные страницы, на которых нет внешних индексируемых ссылок поисковики могли бы более тщательно проверять на приватность данных. тему значит определять можем, Матрикснет придумали, скоро роботы яичницу будут готовить, а то что на странице есть ФИО, телефон и адрес сопоставить мы не можем, ага

  • Ответить

    Серег, Gray, как Ядексом были получены адреса этих страниц? Ты можешь для начала дать простой ответ на простой вопрос? А далее поговорим о приватности.

  • Ответить

    URL известен не только браузеру, но и еще неопределенному числу роутеров, прокси и т.д. Логи проксей, кстати, иногда оказываются доступны из интернетов.

  • Ответить

    Suomynona, значит robots.txt не является панацеей, верно? кстати, насколько я знаю, booking.com до сих пор позволяет, просто зная ссылку, зайти на определенную страницу и отменить бронирование отеля вот повеселиться от души то можно, если ссылочки пособирать

  • Ответить

    Сереж, да элементарно. Адрес каждой из этих страниц передан реферером при запросе счетчика Метрики, который стоит на каждой из них. Ты заодно все же задайся вопросом, а как эти же страницы оказались в Гугле, хотя никакого Аналитикса там не присутствует? Так вот про приватность — ты настаиваешь на том, что, получив не по своей инициативе адрес страницы в качестве реферера, некто не имеет права его использовать?

  • Ответить

    Конечно, robots.txt не панацея. По факту, это всего лишь просьба не индексировать документ по указанному URL. Приличные люди к просьбе отнесутся с пониманием, но найдутся и те, кто наплюет. Тем не менее в выдачу популярных поисковиков документ не попадет. Насколько этого достаточно — решать тем, кто занимается безопасностью.

  • Ответить

    >получив не по своей инициативе адрес страницы в качестве реферера, некто не имеет права его использовать? С приватными данными нет. Синодову тоже «подкинули», так он в фотошопе закрасил. Если бы не по своей инициативе получили героин, его можно продавать?

  • Ответить

    > URL известен не только браузеру, но и еще неопределенному числу роутеров, прокси и т.д. Это всё очень примитивная демагогия. С таким же успехом можно публиковать http-пароли на том основании, что они передаются в открытом виде через роутеры и прокси. Тут как раз тот случай, когда количество переходит в качество. Не важно, что URL принципиально может быть известен посторонним, важно то, что кроме поисковиков все остальные посторонние не предоставляют простой и свободный доступ ко всем этим данным. Этот ваш сферический прокси позволяет любому человеку получить одним простым запросом все СМС, отправленные через сайт? Все заказы магазина? Пусть Яндекс, раз уж берет адреса из Бара и/или Метрики, убеждается, что эти адреса являются публичными, очень простым способом: если этот адрес открыло хотя бы более двух человек. А лучше более 10.

  • Ответить

    zotov, вы не представляете, как вы правы — это очень примитивная демагогия. Я вот сейчас пошел на один известный сервис и вижу там адреса страниц, которые раньше мне известны не были совершенно. А этот сервис мне их показывает. Причем не убеждается, что они публичные, как тут предлагает его автор, а показывает, несмотря на то, что ему-то точно известно — этот адрес открыл только один человек. [URL=http://forumimg.net/blog/2011-07-26_02-10-14.png]http://forumimg.net/blog/2011-07-26_02-10-14.png[/URL]

  • Ответить

    > Я вот сейчас пошел на один известный сервис Повторюсь: разница в массовом простом и универсальном доступе. Через этот известный сервис вы не получите ни текста смс, ни фамилий с адресами заказчиков красных труселей.

  • Ответить

    Почему же? Представим себе простое — ваш счетчик стоит на странице с приватной информацией (точно так же, как сейчас Метрика), пользователь с нее переходит на мой сайт — причем необязательно по ссылке, вы же умеете определять переходы без ссылок, верно? Bingo — вы мне показываете адрес страницы с приватной информацией. И не только мне, коль скоро статистика моего сайта общедоступна. Что принципиально здесь невозможно?

  • Ответить

    Юра, а что за необоснованные высказывания по поводу Bing? Покажите скриншот с такой выдачей из Bing пожалуйста, где были бы перс. данные? я просмотрел 10 страниц выдачи и ничего там нет такого.

  • Ответить

    Gray , думаю, беседа будет неконструктивной, потому что каждый кулик всё равно будет защищать своё болото. :) > Что принципиально здесь невозможно? 1) при переходе без ссылок не показывается полный адрес, только домен; 2) параметры URL (то, что после знака ?) по умолчанию удаляются; 3) статистика по умолчанию доступна только по паролю; 4) адреса с одним просмотром/переходом обычно хранятся только за текущий день; 5) переход с приватной страницы (например, статуса заказа) на посторонний сайт на порядки более редкое явление, чем само открытие этой страницы пользователем. В итоге по умолчанию в LiveInternet доступ к этим данным осложнён. И владельцу сайта нужно предпринять дополнительные усилия, чтобы разрешить доступ к ним. С другой стороны, Яндекс по умолчанию всё индексирует и всё показывает. Владельцу сайта нужно предпринять дополнительные усилия, чтобы запретить доступ. При этом в статистике LiveInternet вы увидите только единичные случаи с приватными данными (переход с приватной страницы на ваш сайт). В Яндексе же вы найдёте все приватные страницы, потому что Метрика загружается на всех страницах и все их сливает индексатору. Разве непонятна принципиальная разница между «все» и «ничтожная доля»? И получается, что Яндекс удобно и легко использовать для доступа к приватным данным, а LiveInternet — нет. Если хотите, можно сократить: Яндекс удобен, LiveInternet — нет, возражать не буду :)

  • Ответить

    Так много сайтов прокалывалось и посолиднее, включая например фейсбук (http://news.ycombinator.org/item?id=1402384) Не хотите чтобы ваши данные попали в поиск (а если на них специально не наставили ссылок, то в теории они попасть не должны) — не пользуйтесь Яндекс.Баром, Гугл.тулбаром и подобными продуктами с изначально заложенным в них шпионажем

  • Ответить

    Gray, я не понимаю, почему вы в «Яндексе» игнорируете тот факт, что вы существенно улучшаете искабельность информации. Посмотри в список Владимира Иванова: Итак, на страничку не зашел еще ни один живой человек, но про нее уже могут знать тысячи программ по всему интернету: • поисковые системы, куда вебмастер отправил ссылку вручную; • блог-платформы и сокращатели ссылок; • поисковые системы, которые переиндексировали страницы с ссылками на эту (а зачастую это происходит очень быстро); • всевозможные анализаторы и подписчики RSS (если на сайте есть RSS), причем не только через RSS сайта, где расположена страничка, но и через RSS блогов, агрегаторов, блогов агрегаторов, агрегаторов блогов, агрегаторов агрегаторов и так далее; • компании-владельцы интернет-мессенджеров и провайдеры почтовых сервисов. Из этого списка реальную возможность найти приватную информацию предоставляют исключительно поисковики. Причём благодаря развесистости вашего языка запросов (в противовес Mail.ru) и популярности вашего «Бара» (в противовес Google) у вас этой информации существенно больше и найти её намного легче. С момента, когда об этом стало известно, скоро уже сутки пройдут — вам всё пофиг. Ну дождётесь, как это было с медийным влиянием, платиновую акцию еще Роскомнадзору подарите.

  • Ответить

    Причем тут «дождетесь»? В данном случае действительно отвественность ровным слоем расползается по всем поисковикам, к счастью Яндекса. Конечно глобально проблему Яндекс не решил, и следующий вибратор может им и в голову прилететь, но в данном случае драма в отношении не очень уместна. И кстати зря. У вас 2000 человек поиском занимаются, ассесоры все такое. ВСе ваши многомудрые алгоритмы не могут отсеять такую хрень? P. S. Я не думаю что им пофигу, если бы ЯНдекс мог отсеивать такое не в ручном режиме — отсеивал бы. Так что это просто ну, нетривиальная задача)))

  • Ответить

    А что, отсутствие каких-либо ссылок на страницу вида http://smth.ru/smbd/priv-data/34SDLFK340SDLFKJSDFE4/ не является основанием для неиндексации? Ну, зашёл человек с баром на приватную страницу. Яндекс узнал о том, что эта страница существует. Яндекс по-прежнему не знает ни единой страницы, которая бы ссылалась на эту «приватную». Зачем её индексировать? Если даже владелец сайта не озаботился тем, чтоб на эту «приватную» страницу можно было попасть, кликая по ссылкам сайта, то зачем Яндексу такая страница в выдаче? («даже» — т.е. не только внешних нет, но и внутренней НИ ОДНОЙ) Яндексу что, индексировать больше нечего? Весь интернет уже проиндексировали, остались только непубличные страницы без единой входящей ссылки?

  • Ответить

    Господа, я офигеваю от вашего спора. Поисковики для того и придуманы, чтобы легко и быстро находить информацию, всю информацию, любую информацию, которая общедоступна. Это им смысл существования и разбираться, какая информация приватна, какая может быть государственным секретом и проч. им просто вредно. Следующий этап — это вопрос, какая информация попадает в общий доступ. «Секретный» код (например, сессии) в URL — это не просто плохой способ защиты, а очень плохой, кажется, об этом знали еще десять лет назад все, даже те, кто не занимался разработкой сайтов (я, например). Код можно угадать, пользователь может скопировать куда-то url вместе с кодом, она окажется в качестве реферера в логах чужих веб-серверов — есть десятки способов стырить информацию с таких страниц. «что пользователю каждый раз логиниться в CRM, чтобы открыть счет?» — конечно, да, если он делает это не со своего компьютера (а на своем у него может стоять кука). Наконец Я.Бар и иже с ними — имхо, это зло с точки зрения пользователя, но для поисковика ценен любой дополнительный источник ссылок. Ведь проиндексировать микрософт.ком не хитрость, сложно проиндексировать какие-нибудь хоумпейджи, на которые ссылаются полторы калеки во всем интернете. Но про существование этих самых Баров давно известно и то, что разработчики сайтов игнорируют их существование — косяк исключительно этих самых разработчиков и нечего с больной головы на здоровую валить. Повторюсь, «спрятанные» открытые ссылки могут попасть к поисковику тысячей способов, ни один из которых разработчик не контролирует. Все, что он контролирует, это доступ к странице, этим он и обязан заниматься.

  • Ответить

    Охренеть! Это вообще Роем, да? Это тот самый сайт, все альтерэги которого тут ухмылялись «Да, конечно, у них технические сложности, поэтому именно Навального они не проиндексировали»? Это те самые люди, которые под любое отсутствие страницы в поиске подводили сложноэтажные объяснения с участием президентов и олигархов? И это ровно они же рассказывают, что Яндексу следует цензурировать данные в поиске, что мы слишком быстро и много индексируем и что у нас слишком хороший язык запросов, позволяющий слишком хорошо все находить? Юра, мы не игнорируем факты. «Улучшение искабельности информации» — это суть поисковика. Наша задача заключается в том, что если есть в интернете информация, которая может быть ответом на вопрос пользователя, надо помочь ему ее найти в удобном и понятном виде. А если попутно выясняется, что кто-то в здравом уме и собственном невежестве ходит по улице без трусов, то наша машинка его сфотографирует и с большой вероятностью опубликует на Панорамах. И никто в Яндексе не задастся целью пририсовать ему трусы — мы не цензоры. И не сторожи братьям нашим по разуму, пусть и младшим.

  • Ответить

    ну есть универсальный довод про детское порно. А тут что порно, что публикация персональной информации — нарушение закона. qui prodest? никому. P. S. И если вы такие все в белом и трусов не рисуетте, зачем смсски из выдачи выпилили?

  • Ответить

    > Весь интернет уже проиндексировали, остались только непубличные страницы без единой входящей ссылки? А как Яндекс узнает, что на эту страницу нет входящих ссылок с какой-нибудь еще такой же «темной» страницы? Вы хотите, чтобы весь интернет был единым связным графом, но совершенно непонятно, почему он должен являться, почему бы ему не распадаться на несколько — потенциально много — отделных графов не связанных между собой?

  • Ответить

    Gray, не надо путать меня с Альтер Эгами, мне эта конспирология по бану Навального в Яндексе по дебильным запросам в поиске картинок (!) кажется полной ерундой, о чём я не стеснялся писать. По-моему, топик по этому поводу даже выше «прочего» не поднялся. А если попутно выясняется, что кто-то в здравом уме и собственном невежестве ходит по улице без трусов, то наша машинка его сфотографирует и с большой вероятностью опубликует на Панорамах Google с такой логикой сам знаешь чего дождался, да? (один из примеров). Вы получите то же самое. И вы цензоры, не надо «ля-ля». Explicit контент у вас отлично режется, а песню про «зеркало Рунета» вы слили в 2009-м. Вам предложили вполне изящный способ — забанить к чёрту эти сайты в поиске — они некачественные, даже по вашим меркам. А вы сидите и в ус не дуете.

  • Ответить

    Да у них на каждый случай своя логика. Когда случился скандал с исключением из американского мета-поисковика за индексацию детского порно — тут же подсуетились и всё вычистили. А тут себя зеркалами Рунета объявляют.

  • Ответить

    Если бы они забанили то разверзлись бы хляби небесные помоев претензий со всех сторон, по прецеденту. Потом есть уже универсальный довод — а че вы к нам пристали, гугл тоже участовал. Но бывает разы когда сложно плести про роботс и гугл — тогда трется выдача. Вот если таких разов будет много может и поймут что нужно чистить не руками, а алгоритмами. Или таки перемогут и будут искать как прежде. P. S. На самом деле наверное поисковики будут стоять стеной за возможность искать везде, кроме чайлдпорн. нам остается либо смириться с потерей privacy, либо это должно быть какое то международное законодательство. И пока не понятно какое. В этом смысле действительно с Яндекса спроса нет. ФОрмально.

  • Ответить

    Серега, а вот передергивать нехорошо. «Скандал про мета-поисковик» был связан со сбоем в поиске и его починили. А здесь никакого сбоя нет — страницы можно индексировать и они проиндексированы. Страницы с смс были удалены после установки на сайте Мегафона robots.txt. Сайты на скрипте WebAsyst (название уже, кажется, многое говорит об уровне), если поставят robots.txt, могут через webmaster.yandex.ru указать адреса страниц, которые должны быть удалены, или просто в саппорт написать. Юра, это тебе изящный способ — вон сколько Альтерэг, хоть половину забань, новые на их место встанут. А банить сайты в поиске только потому, что их вебмастера сами себя считают глупее нашего робота, — этак можно и правда экономику Рунета обрушить. Ни почитать чего перед сном не будет, ни одеть перед ним же.

  • Ответить

    Серег, так это сугубо ваше личное дело — что объявить сбоем в поиске, а что — нет. Завтра поднажмут на вас — может оказаться, что это тоже сбой был :)

  • Ответить

    мне одному кажется что нужно отделить мух от котлет? поисковик проиндексировал то, что ему было разрешено — это нормально? это более чем нормально. разрешить или запретить во власти вебмастера. поисковик выдал информацию, которая подпадает под закон о защите персональных данных — это нормально? нет, это нарушение закона, со всеми вытекающими. и совершенно без разницы, как эти данные были получены (из открытых источников или нет).

  • Ответить

    Да вы прямо в корень глянули. Трабла в том, что «Яндекс» не хочет ничего отделять и разбираться, что за данные он проиндексировал. Цензуры у них типа нет.

  • Ответить

    Я не скажу, что я спец по закону о защите персональных данных, но по-моему, определение данных, подлежащих защите, зависит от их происхождения. Если я передал кому-то свои ФИО и адрес как клиент для совершения транзакции — получатель должен из защищать; если я в интервью журналисту (или в своем блоге) сообщил, что я такой-то такой-то и живу там-то и там-то, разве на ком-то есть обязанность не распространять данные, полученные из такого источника (например, при перепечатке интервью)? По-моему, Яндекс не имеет шансов разобраться здесь и с его точки зрения все данные, к которым имеет доступ его робот — публичные. Ну а если кто-то доверенные ему персональные данные разместил так, что робот Яндекса получил к ним доступ, то это ЕГО вина, а не Яндекса. Другими словами, не надо различать события проиндексировал/опубликовал; все, что индексируется — уже опубликовано. Да, и дело не в цензуре. Это не их зона ответственности, поэтому непонятно, почему они должны этим заниматься.

  • Ответить

    Crio, если на эти данные есть ссылки, по которым пришел робот, то так оно и есть. Если же на них ссылок принципиально нет и доступ к ним получен как то еще (с помощью того же тулбара), то логично предположить, что что то из таких страниц не предназначено для публичного доступа. Отсылка пользователю персонализированной ссылки — возможно не лучшая, но распространенная практика. Как и определенное человеческое раздолбайство вебмастеров — обычное явление. в итоге же страдают и пользователь того же тулбара и (по мере того как тему обсуждают в СМИ) в целом доверие к интернет коммерции.

  • Ответить

    Crio, да все гораздо проще. Ну в чем интерес обсуждать идиотизм разработчиков движка магазина или вебмастеров, которые оказались глупее, чем 20 тысяч строк кода на С? В чем здесь удовольствие? Да ни в чем — земля скудеть идиотами не желает и не будет. А вот подробно порассуждать о громком названии, высказать собственное непонимание законодательства и privacy в интернете, высосать из этого пальца рассуждения об IPO, курсе акций и взаимоотношениях с ДАМом лично — вот это достойное занятие для постоянного посетителя этого сайта. Ну не robots.txt же на сайты ставить, что вы, право.

  • Ответить
    Игорь Ашманов Сам себе компания

    они были известны только ему и владельцу магазина. Ну, а затем, через свой бар об этом узнал поисковик и рассказал по секрету всему свету. Разве не так? Вообще-то нет. Яндекс никому ничего не рассказывал. Он показал список этих страниц один раз кому-то — а вот тот уже рассказал всему свету, сознательно и энергично. Только после этого Яндекс показал эти же результаты поиска всем — когда все уже знали. В Яндексе заиндексированы миллиарды страниц, подавляющее большинство из которых доступны только теоретически, но никогда и никому не показывались в поиске. Просто потому что их никто не искал, а если и искал, до них не долистал в результатах поиска. Вы посмотрите на средний результат поиска — 100 000 страниц найдено, а смотрят 10-20 максимум. То-то и оно: публикация в Яндексе — чисто потенциальная. У 99,(9)% адресов страниц в Яндексе количество кликов = 0. Вообще-то это публикация ровно такая же потенциальная, как на странице с уникальным урлом на сайте магазина или в кеше прокси-сервера. Кто-то, кто знает адрес или запрос, может получить доступ, а потом растрепать всем. Кто не знает — не может. Когда адрес стал публичным — смотрят все. То же с запросом. Вообще непонятно, как вы отличаете ссылку на страницу, которая с помощью сервиса DNS поднимает страницу из СУБД на сайте или из кешей прокси, от запроса, который ту же страницу поднимает из индекса Яндекса. Разница-то в чём? И то и другое — просто публичный ID страницы. Таким образом, нужен кто-то, кто сознательно сделает ссылку или запрос достоянием общественности. Этот кто-то — человек, а вовсе не робот. Возможно — заинтересованный человек, конкурент или пиарщик. Поэтому всему свету об этих СМСках и кожаных стрингах рассказали люди. А именно СМИ, а также те, кто осуществляет поиск этих «уязвимостей» и по сути пиарную атаку на Яндекс.

  • Ответить

    > Да вы прямо в корень глянули. > Трабла в том, что «Яндекс» не хочет ничего отделять и разбираться, что за данные он проиндексировал. > Цензуры у них типа нет. Если Яндекс решит публично взять на себя функцию цензуры, представьте что тогда будет! Его заклюют все, недовольны будут все. Но зато сколько будет предметов для обсуждения! Это гораздо интереснее, чем вебмастеру-недоумку читать help.yandex.ru про robots.txt .

  • Ответить

    Gray, переводить стрелки — самое простое что может быть. никто не защищает раздолбаев-вебмастеров. вопрос только в том, какой именно закон разрешает распространять конфиденциальную информацию, ставшую известной случайно, третьим лицам? можно конкретные ссылки на конкретные пункты законодательства? а то пока «высказать собственное непонимание законодательства и privacy в интернете» относится исключительно к Вам.

  • Ответить

    Да-да, я слышал эти песни. С зеркалом Рунета понадобилось 5 лет, чтоб вы их перестали петь. Но написать новую легенду, про глупых вебмастеров и идиотов-разработчиков и петь её много лет, пока «Яндекс» не прижмут к ногтю — достойное занятие для сотрудника «Яндекса» Kost, Яндекс уже давно взял на себя функции «цензуры» как вы называете и фильтрации, как это явление называть корректнее. Сами пишут — никакой порнографии и мата на популярных страницах. Представьте, из чего состоял бы топ блогорейтинга (пока был жив), если б этих фильтров не было

  • Ответить

    Игорь, спасибо за новую грань с PR-атакой, да. Это многое объясняет. Борьба «Яндекса» за право ничего не делать в таких условиях выглядит как борьба с терроризмом — никаких переговоров и уступок, пусть видят, что нам никого не жалко. robots.txt должен быть написан!

  • Ответить

    to ashmanov ТО есть вы считаете что если интернет магазин сделает доступной возможность искать по своей базе заказы других людей то его вины в этом нет. Он всегда может сказать — это просто база, че вы туда лазите со своими дурацкими запросами, если бы вы не распиарили то никто бы не знал что у пенсионера Сидорова Феррари. Вообще у нас эта запись в самом низу, и ее никто не видел, просто лежала пылилась. Ага, от любопытства кошка сдохла.

  • Ответить

    Позиция Яндекса, конечно, доставляет. Ребята, ну посмотрите как выглядит ситуация: ваши _клиенты_ (а раз стоит Метрика, наверняка сайт размещал или размещает прямо сейчас рекламу в Директе/Маркете) получают от сотрудничества с вами проблемы, большие проблемы. Мало того, что вы используете информацию о посещении клиентского сайта для рекламы его конкурентов, так еще и вытаскиваете контент, который клиенты не планировали выдавать кому-нибудь наружу. Ну, да, эти вебмастера не такие крутые парни, как вы, не всегда думают про роботс.тхт и что контент может стать доступным случайно. Но зачем вы над ними издеваетесь и поплевываете свысока? Сергей, ты правда не понимаешь, что позиция «сам дурак» не только некрасивая, но и проигрышная? Раз вы такие умные, сделайте хотя бы элементарную защиту от дурака. Метод, который предлагает Максим Зотов хороший, никакая ценная информация не потеряется, а от скандалов себя и ваших клиентов вы убережете. А кто тут рассуждает про «цензуру», так вспомните, что несколько лет назад сайт без авторитетных внешних ссылок вообще имел довольно мало шансов попасть в выдачу, по крайней мере, в Гугле (про Яндекс уже не помню). И никто это цензурой не считал.

  • Ответить

    Юра, ты про что? Разве эти смски или сексшопы мы выложили на главную страницу или привели в качестве популярных запросов в очередном исследовании? Там, где данные проходят отбор — да, мы имеем право применять редакционную политику. А в поиске никакой редакционной политики нет и не будет.

  • Ответить

    Сергей, извини, я уже устал колья на голове тешить. Подожду пять лет просто, кину тебе ссылку на этот топик. Если ты честный человек — пришлёшь мне бутылку коньяка.

  • Ответить

    Нет, Миша, никто над юзерами не издевается. И ты сам прекрасно понимаешь, что ни один самый умный робот не определит по урлу, публично доступному, публично известному и не закрытому от индексации, что это вебмастер тут глупее робота, поэтому надо не индексировать, а то чего доброго…

  • Ответить

    mkozloff, лицензия на метрику не дает права яндексу использовать данные для индексации. Только для статистики и больше ни для чего. Надеюсь, представители яндекса тут это легко подтвердят

  • Ответить

    Эрик Шмидт сказал совершенно умную вещь — не надо делать того, что может станет известно, если вам эта известность не приятна Покупали в сексшопе — Яндекс сделает это известным широкой публике рано или поздно. «А у них робота не была, наша система ничего не знает» или любая другая причина.

  • Ответить

    че ха конспирологический бред про метрику. ВСе уже договорились, что мы не можем указывать поисковикам какую информацию индексировать а какую нет. Эти страницы индексирует и гугл, и бинг, и яндекс. Другое дело что некоторую информаци показывать в выдаче не красиво и не хорошо. Никто же не сомневается в том что Яндекс знает где лежит чайлд порно? P. S. Да да, щас начнется бред про цензуру etc. Порно цензурируете же? В конце концов это работа поисковиков — показывать или не показывать ту или иную инфу пользователю.

  • Ответить

    > Разве эти смски или сексшопы мы выложили на главную страницу ну, вообще-то, час назад на морде яндекса была новость «Поисковики раскрыли клиентов секс-шопов», т.е. таки да, выложили на главную :)

  • Ответить

    Gray, Вы правильно разделили публичную доступность и публичную известность контента. Пусть есть некий магазин, отправивший пользователю уникальную ссылку о статусе заказа. О ней знает только магазин, пользователь и почтовая система. Публично доступной ее сделал нерадивый вебмастер, не закрывший ее в робота.тхт. Угадайте, кто ее сделал публично известной?

  • Ответить

    Мне положительно нравится отношения Яндекса к своей работе. Даже нет намека на то, что этого, пусть и теоритически, не стоит публиковать. По ряду причин это для и так не ахти какой интернет торговли серьезный удар, это вред репутации людей, и прочее. Пффф, цинизм?

  • Ответить

    Яндекс — не СМИ и понятия публикации в нем не существует. Спасибо, кстати, Игорю Ашманову, который это здесь объяснил подробно. Поэтому у сотрудников сервиса не может быть позиции — нельзя публиковать. Есть позиция «нельзя предоставлять информацию, которую ищет пользователь, поскольку это явно запретил владелец сайта». А позиция «Не будем предоставлять информацию, которая доступна в интернете, в ответ на прямой запрос пользователя» называется цензурированием результатов поиска. За этим — в государственный поисковик, если он когда-нибудь сгустится из фантазий.

  • Ответить

    Gray, ок-ок. Назвать своих клиентов идиотами — это было не издевательство, а просто констатация факта. Я понял. altrr, не знаю что там с лицензией на Метрику, но сотрудники Яндекса публично подтверждали, что данные Метрики используются и для индексации (вот прямо на этой странице в т.ч.), и для подбора объявлений в Директе.

  • Ответить

    Мне кажется, в данном случае виноват магазин. Именно он не достаточно хорошо обеспечил сохранность частных данных. Из структуры ссылки видно, что вебмастер принял меры для сокрытия данных: чтобы увидеть данные по заказу нужно знать не только номер заказа, но и хеш, вычисляемый по не публичной информации. В старом вебе этого было бы достаточно, но… В веб 2.0 такой защиты уже недостаточно. Privacy в веб 2.0 это очень большая проблема. При открытии страницы вся ее информация, урлы, вводимые данные могут быть доступны: 0. самому сайту; 1. счетчикам, установленным на этой странице; 2. рекламодателям, чьи рекламные блоки крутятся на этой странице; 3. сайтам чей контент вставлен на эту страницу (картинки с др. сервисов, ролики, виджеты…); 4. дополнениям к вашему браузеру; 5. браузерам; 6. ОС. Т.е. даже в самом обычном случае около 10 сторон имеют доступ к информации, а в некоторых случаях из модет быть до сотни. И как тут обеспечить privacy?! Как минимум вебмастер должен сделать так, чтобы на странице, где есть непубличная информация, не было ничего от сторонних сайтов, это защита от п.1,2,3. Как защититься от остальных пунктов — непонятно, возможно в рамках современного веба только грамотно написанный java-applet может обеспечить защиту. Других вариантов я пока не вижу.

  • Ответить

    На всякий случай — во фразе «altrr, автор топика на Роем.ру?» altrr является обращением и по правилам русского языка выделяется запятой.

  • Ответить

    > В конце концов это работа поисковиков — показывать или не показывать ту или иную инфу пользователю. На мой взгляд, работа поисковиков это ПОКАЗЫВАТЬ информацию, по определению. Не показывать — это работа каких-то других органов. (И если вы хотите снова поднять вопрос ДП, то я за то, чтобы поисковик ее показывал наравне с любой другой информацией в частности для того, чтобы другие органы быстрее шевелились по вопросу ликвидации складов.)

  • Ответить

    Gray, тогда Вам с этим вопросом к sinodov. И вообще про авторство постов на роем как раз сейчас есть очень интересный соседний Говоря о Вашей мантре, если речь идет именно о данных, обсуждаемых в этом топике, собранных с помощью отслеживания поведения пользователя, то я не вижу выигрышности такой позиции ни для Янденкса, ни для магазинов, ни для пользователей. Mkozloff, я думаю, что если и было сказано, то не подумав, и очень надеюсь, что это не так.

  • Ответить

    2long: почитал закон; из него совершенно очевидно, что Яндекс не является «оператором» обработки персональных данных (статья 3.2), поэтому его этот закон ни к чему не обязывает. С другой стороны, мегафон/магазины/прочие сайты грубо нарушают статью 19.1 данного закона, а именно: «Оператор при обработке персональных данных обязан принимать необходимые организационные и технические меры, в том числе использовать шифровальные (криптографические) средства, для защиты персональных данных от неправомерного или случайного доступа к ним , уничтожения, изменения, блокирования, копирования, распространения персональных данных, а также от иных неправомерных действий.» С них и спрос.

  • Ответить

    Я седня нудю, но все таки хотел бы уточнить >> А позиция «Не будем предоставлять информацию, которая доступна в интернете, в ответ на >> прямой >> запрос пользователя» называется цензурированием результатов поиска. это значит что по запросы детское порно вы должны мне показать детское порно? Или где то там ниточка с иголочкой не сходятся.

  • Ответить
    Игорь Ашманов Сам себе компания

    Игорь, спасибо за новую грань с PR-атакой, да. Юра, по-моему, ты не вкурил в мой комментарий. Пиар-атака здесь не при чём, в том числе потому что ты, как журналюга, вообще таких вещей не чувствуешь, как рыба не чувствует воды. Ещё раз: нет никакой общедоступности результатов поиска по запросу, пока ты не знаешь этот самый точный запрос. Да, ссылка от запроса по сути ничем не отличается. Одно можно получить DNS-запросом, а другое — поисковым запросом. В любом случае, и то, и другое почти нельзя получить случайно, а нарочно — можно. Что касается «цензуры» результатов поиска, о которой тут гневно пишет Петренко, то приведу совершенно очевидный пример: Вот у системы «Виза» есть требование к организациям, совершающим операции с кредитными картами Визы на сумму больше 100 000 евро то ли в день, то ли в месяц (не помню), чтобы номера кредитных карт не выходили наружу из организации в открытом виде ни в почте, ни ещё как. Что такие организации должны подтвердить обязательствами в договоре, какой-то сертификацией и т.п. Номер кредитной карты — это не просто N циферок, это довольно сложный объхект с внутренней логикой, циферки там как-то зависят друг от друга. Мы как-то писали такой распознаватель для компании Infowatch, которая продаёт систему защиты от утечек, в том числе от таких утечек финансовых данных. Ясно, что и объекты типа «ФИО», «почтовый адрес», «адрес электронной почты», «номер ГНИ», «БИК», «номер банковского счёта», «номер телефона», «номер автомобиля» и т.п. — система защиты от утечек распознавать должна. Для этого пишутся специальные картриджи-распознаватели. Часть из них, типа «ФИО», «должность», «название организации», уже есть и у Яндекса, в пресс-портретах. Ну ладно, Инфовотч — это специализированная система, в которую вбиты сотни человеко-лет. Но вот распознаватель номеров кредиток — это не бином Ньютона и не рокит сайенс. Его-то можно в индексатор Яндекса встроить? Сергей, скажи мне, если Яндекс видит на странице номер кредитной карты , должен ли он поместить эту страницу в общий индекс? Или было бы разумно разобрать несколько вариантов принятия решения в данном случае, среди которых, например — заиндексировать страницу, но забить номер иксами, или просто не брать страницу в индекс, или не класть её в кеш и т.п.?

  • Ответить

    в общем все одно и тоже по кругу. Короче Sinodov прав. проблема всем ясна, признает Яндекс или нет. Может они и раньше об этом думали, теперь будут думать активнее. Щас все будут стоять на своих позициях, но глядишь если, дай бог, лет через пять, перестанут попадать личные данные в выдачу, Яндекс первым скажет что это хорошо.

  • Ответить
    Игорь Ашманов Сам себе компания

    ТО есть вы считаете что если интернет магазин сделает доступной возможность искать по своей базе заказы других людей то его вины в этом нет. По-моему, вы не вчитываетесь или не понимаете, что написано. Кто виноват в изначальном создании возможности доступа к персональным данным или личной переписке — очевидно, это вебмастер. И именно он нарушил закон, который выше процитировал Crio, не приняв достаточных мер к защите чувствительной информации. Помещение этих данных на открытую страницу с прямым адресом — это уже публикация (или возможность доступа, неважно). Однако ж помещение открытой страницы в индекс Яндекса нисколько не увеличивает степень её публичности — по сравнению с прямым адресом страницы. И то, и другое — доступно, лежит где-то в кустах. Случайно натолкнуться трудно, а если специально искать — и то, и другое одинаково легко найти. И фишеры/хакеры/спамеры, которые перебирают адреса/пароли, хорошо это знают.

  • Ответить
    Игорь Ашманов Сам себе компания

    ashmanov вдруг сменил курс и стал толкать свой продукт. Элегантно. Какое убожество мысли. Это не мой продукт. И фамилия тоже не моя. Меня зовут Игорь Ашманов. Я просто говорю о том, что мы занимались утечками профессионально, писали ОЕМ-модули для Infowatch (там, впрочем, сейчас своя технология), картриджи распознавания, поэтому я кое-что об этом знаю. Вопрос про блокирование номеров кредиток при индексации — не праздный. Это легко сделать, и это очень чувствительная, опасная информация.

  • Ответить

    конечно убожество, куда уж мне. Просто сначала вы говорите что поисковик ни в чем не виноват, а потом — что можно было бы и получше стараться. Не, это ваше дело что кому где писать.

  • Ответить

    > Случайно натолкнуться трудно, а если специально искать — и то, и другое одинаково легко найти. О, ну расскажите же нам, как «если специально искать» без использования яндекса легко и быстро найти хотя бы один урл страницы со статусом заказа вида http://www.railwayticket.ru/print.php?n=014e3a8e1b3ca79e7d358e3ac4cff025 которые легко находятся по запросу http://yandex.ru/yandsearch?p=12&text=urlwww.railwayticket.ru*|urlrailwayticket.ru*&lr=213

  • Ответить

    проблема еще в том, что Яндекс коллеционирует не одну страницу, которую можно спалить через роутер или получив доступ к почте одного человека он палит все заказы с сайта с такой вот дыркой. если знать, что есть на таком то сайте уязвимость, то собрать все подобные страницы просто не получится. поэтому это приемлимый способ безопасности яндекс просто взял и собрал все данные по одному источнику через свои spyware

  • Ответить

    Игорь, в том то и дело, что ее неодинаково легко найти. Есть информация с уникальным локатором, известным только тебе. Одно дело, если ты сообщил о нем кому-то, или кто-то догадался, и на нее появились ссылки, т е она стала известна. Другое — если твое поведение отследили (легитимнос или нет — не важно, пусть даже ты сам по непониманию на это согласился) информацию проиндексировали и сделали доступной по релевантным ключевым словам (разумеется они и отличают ссылку, а точнее URL от запроса в поисковик)

  • Ответить

    to Ashmanov: > Вопрос про блокирование номеров кредиток при индексации — не праздный. Это легко сделать, и это очень чувствительная, опасная информация. Исключение из индекса частной информации (номера кредиток, паспортные данные, номера электронных кошельков и пр.) это плюс для поиска в плане очистки выдачи от мусора, но никак не защита персональных данных. Если такие данные собрал поисковик, значит их может собрать и другой робот, не публичный. На мой взгляд, если частные данные Яндексом проиндексировались, то чем быстрее они окажутся на главной витрине рунета (в его выдаче), тем быстрее их закроют, и тем меньше роботов их соберет. Другое дело, что наличие подобных данных в поисковиках и др. сервисах сбора информации надо централизовано отслеживать и оперативно выносить предписания дырявым сайтам.

  • Ответить
    Игорь Ашманов Сам себе компания

    Если такие данные собрал поисковик, значит их может собрать и другой робот, не публичный. Для этого ему потребуется вторая компонента этого бинарного оружия — передача урлов через Метрику, Гугл-Аналитику, тулбар или троян. Наиболее вероятный сценарий»непубличного робота» — именно трояны. Но за атаку троянов судить никого не будут, а вот за индексацию Янедксом — могут.

  • Ответить
    Игорь Ашманов Сам себе компания

    Игорь, в том то и дело, что ее неодинаково легко найти. Есть информация с уникальным локатором, известным только тебе. Ну, уникальный локатор при этом выглядит как простой урл с циферками в конце. Во многих случаях сработает простой перебор. Хакеры тоже ведь не дураки. Ну да, если ты знаешь второй уникальный локатор в виде ключевого слова, которое есть в СМСках или бланках заказа/доставки, можно по нему и поиcковый запрос построить. Но что уникального в локаторах вида: url:www.railwayticket.ru* | url:railwayticket.ru*?

  • Ответить

    > Для этого ему потребуется вторая компонента этого бинарного оружия — передача урлов через Метрику, Гугл-Аналитику, тулбар или троян. Наиболее вероятный сценарий»непубличного робота» — именно трояны. Но за атаку троянов судить никого не будут, а вот за индексацию Янедксом — могут. Сколько в среднем аддонов установлено в браузерах? А ведь каждый из них потенциально может собирать эту информацию. И она никогда не попадет в поисковую выдачу.

  • Ответить

    > Сергей, скажи мне, если Яндекс видит на странице номер кредитной карты, должен ли он поместить эту страницу в общий индекс Предположим, что ответ на этот вопрос «нет». А потом мы захотим найти документ системы VISA, описывающий конструкцию номера кредитной карты на примерах и его почему-то не окажется в индексе; потом не окажется в индексе части статей какого-нибудь журнала, потому что их ISDN номера случайно оказались потенциально верными номерами кредитных карт, ну и так далее. Идти по этому пути можно, но там столько подводных камней, что «сделайте это немедленно!» точно не получится.

  • Ответить

    >О, ну расскажите же нам, как «если специально искать» без использования яндекса легко и быстро найти хотя бы один урл страницы со статусом заказа вида Конкретно такого — фиг знает; но вообще методом «подбора урл» чего только не взламывали, от банков до Блумберга. Если история ничему не учит, то…

  • Ответить

    Ashmanov> Случайно натолкнуться трудно, а если специально искать — и то, и другое одинаково легко найти Что-то я не пойму, как легко можно узнать специфический адрес, который теоретически был известен только покупателю. Каким перебором? Там хеш из нескольких десятков символов с мультитриллионым числом комбинаций. Я хочу найти в Интернете информацию о каком-то человеке. Я не строю никаких сложных запросов, просто имя и фамилия. Например, ищу «Иван Ла**ун» (на всякий случай зазвездю). И нахожу страницу с информацией о его заказе в магазине на второй позиции в Яндексе. Что такого случайного в моем запросе? Для меня, если я знаю человеке или хочу узнать о нем что-то, ничего случайного. Или вбиваю номер телефона и нахожу смски для этого человека. Что такого специфического и хакерского в моих запросах?

  • Ответить

    Игорь, Яндекс как раз увеличивает публичность, да еще как. Уникальный адрес, куда может попасть человек никому не мешает. Особенно, если этот адрес действует ограниченное время (10 минут, час, сутки) — как в случае с Мегафоном. Случайно попасть туда нельзя. Разве что перебором — ну, так для этого и делают длинный урл со странными последовательностями символов. А вот если такая страница засвечена в поисковике, то попасть на нее случайно — дело времени, примерно как попасть на порно по запросу «киска», если специально ничего не фильтровать. На мегафоновские смски можно было легко попасть по номеру телефона (я иногда задаю такие запросы), в этот магазин — например, по названию товара, имени получателя, адресу и еще много как. Если продолжать твою аналогию с кустами, то в магазине эти кусты были где-то в глухой Сибири, а Яндекс перенес их на Тверскую.

  • Ответить

    > методом «подбора урл» чего только не взламывали Во всех случаях (с Мегафоном и интернет-маназина), где ссылки нашлись в Яндексе, методом подбора урла, найти валидный урл было невозмжно (были длинные случайные части в урлах). Поэтому слова Ашманова — попытка выдать желаемое за действительное.

  • Ответить
    Игорь Ашманов Сам себе компания

    Это верно, Яндекс публичность повышает. Но не кардинально. Главное сделано — страница открытая. От страницы, которая выдаётся только по куке или которая в принципе не выдаётся никакому поисковику, распознаваемому по user agent, открытую страницу с прямым адресом отделяет такая пропасть, что разница между этой прямой ссылкой или запросом в Яндексе — незаметна. Просто сначала вы говорите что поисковик ни в чем не виноват, а потом — что можно было бы и получше стараться. А вы отвлекитесь от своего чёрнобелого взгляда в духе «а ты за красных или за белых?!!!». Предположим, что ответ на этот вопрос «нет». А потом мы захотим найти документ системы VISA, описывающий конструкцию номера кредитной карты на примерах и его почему-то не окажется в индексе; потом не окажется в индексе части статей какого-нибудь журнала Это пошёл разговор про полноту и точность распознавателя номеров кредиток. Ну так вся история поисковиков про полноту и точность. Да, будут и ложные срабатывания, а где же обходится без них? Этак можно сказать, что и спам не надо фильтровать, а то могут быть ложные срабатывания. Это же управление рисками, непрерывный спектр. А сейчас имеется чёрно-белая ситуация, мы находимся на одном конце спектра: вообще номера кредиток/ФИО/паспортные данные/адреса не распознаём и ничего не делаем. Заметим также, что там могут быть промежуточные решения, о которых я писал: зачёркивать сами номера, а страницы индексировать и показывать. Вас же никого не напрягает замазывание почтовых адресов или номеров кредиток в скриншотах здесь на Роеме?

  • Ответить
    Игорь Ашманов Сам себе компания

    Во всех случаях (с Мегафоном и интернет-маназина), где ссылки нашлись в Яндексе, методом подбора урла, найти валидный урл было невозмжно (были длинные случайные части в урлах). Я в этом не уверен. И вы этого утверждать не можете: откуда вы знаете, насколько там случайные части? Может, у них рандомайзер кривой и на двадцатом урле зацикливается? Для того чтобы добраться для этих урлов, нужен был сборщик урлов. Это может быть перебор, а может быть тулбар в браузере, которых десятки тысяч видов. Да та же Алекса, например, гугловские прилады и т.п. Вот Андрей Иванов Казанский как-то прошлой осенью раздавал поисковый тулбар в ФФ (сначала от АиП), который сравнивает и замешивает результаты поиска Яндекса и Гугла, а также размечает выдачу. Он роздал 30 000 тулбаров за три дня, а мог бы раздавать 120 000 в день — были бы деньги. Это стоит 1-3 рубля за установку, если хорошо договоришься. И этот тулбар люди практически не сносили (1-2% в неделю), при этом он отдавал на сервер всё: IP, урлы, запросы, клики в выдаче. И никто не парился. Ну и собрал бы он этих сексшопных урлов с тем же успехом. А потом роботом по ним пройтись, заиндексировать — не фокус.

  • Ответить

    > Я в этом не уверен. И вы этого утверждать не можете: откуда вы знаете, насколько там случайные части? Может, у них рандомайзер кривой и на двадцатом урле зацикливается? Доказать, что числа действительно случайные, конечно, невозможно. Но точно так же вы не можете предложить простого и быстрого способа перебора этих урлов, что делает разговор о том, насколько он случайные, бессмысленным. > Для того чтобы добраться для этих урлов, нужен был сборщик урлов. Спасибо, Кэп! > Это может быть перебор, а может быть тулбар в браузере, которых десятки тысяч видов. В случае с SMS от мегафона и с интернет-магазинами, это не может быть перебор, так как нет алгоритма, по которому его нужно осуществлять, чтобы получить значительное число урлов за приемлемое время. > .. раздавал поисковый тулбар в ФФ .. Установка тулбаров или spyware — это работающий способ получения урлов, но в отличие от поиска через Яндекс, он 1. Не простой 2. Не дешевый 3. Не всегда охватывает значительную часть пользователей > Ну и собрал бы он этих сексшопных урлов Ну и сколько бы урлов он собрал 30 000 тулбаров (потратив 1-3 рубля за каждую установку тулбара)?

  • Ответить
    Игорь Ашманов Сам себе компания

    Вот, кстати, запрос в духе «паспорт уфмс дата выдачи место жительства» выдаёт такие страницы: http://bz.uao.mos.ru/textform.aspx?docid=46986&treepath=46968,46986 Тоже Яндекс виноват? Гугл туда же. И что делать вот с такими страницами — они хорошие или плохие: http://kprf-kaluga.ru/documents/wide/475

  • Ответить

    Друзья, ваши попытки скрасить проблемы поисковиков столь же понятны, сколь и смешны. Запомните истину: Нельзя подслушивать чужие телефонные переговоры, несмотря на то, что провода и эфир доступны. Нельзя перехватывать смс-ки, сообщения электронной почты, аськи, скайпа, несмотря на то, что теоретически это можно осуществить. Нельзя индексировать страницы на которые нет ссылок. Если вы будете плевать на эту простую штуку — люди вас сожрут. И по другому быть не может.

  • Ответить

    Игорь, про кредитки вопрос даже не так сложен, как ты пишешь — он даже более сложен :). Во-первых, остается вопрос с первоисточником — если публиковать номера нельзя, то их индексация является нарушением того, кто опубликовал. Во-вторых, сам по себе номер малоопасен — требуется еще точное имя кардхолдера, CVV, срок действия. В-третьих, представь, что это все опубликовано, только номер кредитки представлен последними четырьмя цифрами, а остальные замазаны. Собственно, банкоматы так часто выдают слипы. Внешне все безопасно, только подобрать и использовать такую кредитку ерунда — первые четыре цифры это код банка, вторые 6 даже простым перебором узнать — ну, вполне комфортное время понадобится. А если они связаны какими-то закономерностями — и подавно.

  • Ответить

    Вот вам пример а ля мысленный эксперимент: В супермаркете, вы стояли на кассу за женщиной, которая ничего не знала про роботс.тхт и даже более простых вещей она не знала. Вы видели как она расчитывалась карточкой. Вы обладаете хорошой помятью и запомнили детали с ее карточки. Вечером вы опубликовали данные в своем уютном бложике. Женщину обокрали. Внимание вопрос: Кто виноват?

  • Ответить

    > Заметим также, что там могут быть промежуточные решения, о которых я писал: зачёркивать сами номера, а страницы индексировать и показывать. > Вас же никого не напрягает замазывание почтовых адресов или номеров кредиток в скриншотах здесь на Роеме? Конечно, спектр решений может быть разный. Но правильное(ТМ) решение — это навесить люлей тем, кто так раздолбайски подходит к разработке отвественных приложений.

  • Ответить
    Игорь Ашманов Сам себе компания

    Посчитали Крибрумом, когда появилась первая запись про СМСки Мегафона (мы всё равно меряем операторов). Первая запись, которую видит Крибрум — это Hitman в Твиттере, примерно в 13.07. Его дальнейшие записи в Твиттере выглядят адекватно, в русле версии о его вбросе («вброс, кстати, мой! знакомый директор компании кинул в личку, у них в штате есть сеошнег, оттуда корни, сами побоялись публиковать»). Следующая волна — это ретвиты именно этой записи.

  • Ответить

    Кошмарная позиция компании. Необъяснимо безответственная. Только лень удержала от установки Метрики в подружкин хобби-магазинчик на Шопскрипте. Теперь это правило, в дополнение к имеющимся в отношении уже значительного количества других продуктов и сервисов Яндекса — сменить поиск по умолчанию в ФФ сразу после установки, снять все галки при установке чего угодно, предлагающего Бар, не использовать прием ЯД. Вы и правда дождетесь, на юпиках будет не только «на Лукойле не заправляюсь».

  • Ответить

    Если говорить грубо, то заставить Яндекс фильтровать индекс на номера паспортов, карт, и прочую подобную информцию, это значит назначить его всероссийской мамочкой вебмастеров и обязать подтирать всем им сопли.

  • Ответить
    Игорь Ашманов Сам себе компания

    Однако ж никто не закрывает пункты потерянных вещей, а также вытрезвители и ночлежки для бомжей. Нам социал-дарвинизма не нужно! будем утирать сопли согражданам!

  • Ответить

    > Если говорить грубо, то заставить Яндекс фильтровать индекс Яндексу наверное лучше всего сказать, что наш хрупкий мир столкнулся с новым вызовом, и он, яндекс, активно борется с современными угрозами в отличие от некоторых недобросовестных, которым не место в современной России, но лишь на задворках цивилизации. Ну, типа гасить такой пожар неразумно, много легче направить на дом зажиточного соседа. :)

  • Ответить

    2 umkalive — я совершенно не сомневался, что вы и вопрос зададите, и сами на него ответите, вот и подумал, чего мне мол встревать? Правда, я надеялся, что здравый смысл иногда бывает сильнее инстинктов тролля, и вы догадаетесь, что виноват в краже тот, кто собственно обокрал. Но такой простой ответ вам в голову придти не мог, ибо к нему никак не пришьешь причастность Яндекса. > Кошмарная позиция компании. Необъяснимо безответственная. Переводя на простой язык — какой ужас, что большая компания Яндекс не желает взять на себя ответственность, освободив от нее остальных. Тех, кто оставлял в открытом доступе такую информацию, и тех, кто добросовестно разнес по бложикам и твиттерам ссылки на нее. Виноватым, как водится, должно остаться зеркало — не на рожу ж кривую пенять.

  • Ответить

    Я не совсем понимаю этот мир, дорогая редакция. Какие-то раздолбаи нарушают элементарные правила безопасности, в том числе просто храня персональные данные, а отвечает за это Яндекс? Кстати неужели никто из потерпевших не может обратиться в суд, заверив нотариально свободный доступ к такой приватной информации?

  • Ответить

    Яндексоиды старательно обходят тему того, как такие документы попадают в индекс, упирая на открытость урлов, robots.txt и прочие мелочи. Оно и понятно, хочется ведь проиндексировать побыстрее и побольше, сокращая отставание от Гугла, но при этом без дополнительных затрат. Потому и берутся урлы и Бара и Метрики, а на то, какие урлы туда могут попасть и что из этого может получиться для конкретных юзеров — тупо плевать. Ведь все можно списать на дебилоидных вебмастеров, которые не защитили сайты от воровства персональной информации хитрыми поисковиками. Ну так они во многих случаях не защитили не потому, что дебилоиды, а потому что не ожидали таких наглых действий. В то же время есть простое решение, о котором уже неоднократно писали в этой ветке — не включать в поиск урлы, на которые нет внешних ссылок. Но это же сложно, и качество быстроробота станет еще хуже, потому проще сделать морду кирпичом и гордо повторять: «роботс.тхт!»

  • Ответить

    > не включать в поиск урлы, на которые нет внешних ссылок. Если бы Яндекс мог знать, что на эту страницу есть ссылка, то он бы уже знал и адрес этой страницы от обычного бота-паука. И не было бы никакого смысла поставлять ссылки из Барометрики. Оттуда нужны как раз те ссылки, о которых Яндекс еще не знает.

  • Ответить

    > Оттуда нужны как раз те ссылки, о которых Яндекс еще не знает. Оттуда можно много чего брать акромя. Только без разбору все хватать не стоит небось. Хотя золотая акция, туда-суда, может быть им и можно. Судя по тому, что мой айтелефон показывает рост акций Яндекса на +4.4%, наверное им разрешается больше, чем я думал.

  • Ответить

    Оттуда нужны как раз те ссылки, о которых Яндекс еще не знает. Вот оттуда не нужно. Хотите быстро найти новые документы — делайте быстрых роботов или выделяйте для этого больше железа. По поводу внешних ссылок я бы даже ужесточил правило — ссылки должны быть с этого же сайта. Если вебмастер хочет иметь документ в индексе поисковиков — он ставит на него ссылку на уже известных поисковикам страницах, если не хочет, то либо не ставит ссылок, либо закрывает урл в роботс.тхт. Это естественное правило работало всегда, какого хрена сейчас кто-то будет его отменять в своих корыстных целях и по праву монополиста?

  • Ответить

    Я вот, видимо, что-то пропустил за последние годы. Когда, на каком съезде какой партии было принято решение, что поисковики не имеют права индексировать документы без единой входящей ссылки? Это кто такое решил и утвердил? Может, где-то RFC на эту тему написали?

  • Ответить

    > на каком съезде какой партии было принято решение, что поисковики не имеют права индексировать документы без единой входящей ссылки Это было очень давно. Сначала просто считалось неэтичным подсматривать в замочную скважину. Потом, с развитием производственных отношений, этот момент приобрел правовую форму. А вообще вот тут почитайте, просветляет : http://ru.wikipedia.org/wiki/__

  • Ответить

    Сергей, твоя позиция понятна. Очень жаль, что Яндекс не может себе позволить прислушиваться к общественному мнению. Дискуссию о порно по запросу «школьницы» и «киски» тут многие прекрасно помнят. Вы тогда тоже говорили «мы зеркало, мы зеркало». Но потом ведь включили здравый смысл, и сделали как просили, правда? Очень надеюсь, что вы там уже ведете какие-то работы, чтобы обсуждаемые данные в Яндексе не всплывали (по крайней мере, не а таких объемах). Если нет, уверен, что это дело ближайших месяцев. И RFC тут не при чем. Здравый смысл, ничего более.

  • Ответить

    Сначала просто считалось неэтичным подсматривать в замочную скважину. Не у всех. Некоторые и сейчас считают вполне этичным подсмотреть в замочную скважину, какие рожи корчит сосед в своем собственном сортире, а потом рассказать об этом всей улице. Причем в итоге виноват во всем именно сосед и его строители — зачем ставили на сортирную дверь замок старого образца?

  • Ответить

    А вообще во как было бы круто разрулить: Такой продвинутый президент Медведев заявляет по факту ситуевины. Мол, я такой врубчивый интернетчик подписал указ в котором даю три месяца Яндексу, Гуглу (всему большому Гуглу) навести порядок сцуко во всем-при-во-всем сцуко-интернете. И если че как не так, через три месяца — сцуко вон. В остатке: — Президент с рейтингом. — Граждане с личной жизнью — Яндекс с долей — Гугол весь индекс ради Медведева не переколбасил и потому был послан. Давайте может так и поступим? :)

  • Ответить

    Кстати, по поводу чужой переписки: прекрасно делает МТС, присылающий уведомления о задолженности на открытках По идее открытки тоже читать нельзя, но на собираемость задолженностей, подозреваю, такие послания влияют намного лучше

  • Ответить

    Илья, ты забыл одну фигню: данные юзеров секс-шопов утекли не только в Яндекс. И Гугл «быстрый» тоже не только потому, что по ссылкам бегает. Действительно, индексация только лишь по ссылкам — это сильное отставание в оперативности индексации. Инфа про подачу дела в прокуратуру порадовала — таки не прописал robots, получи повестку. Первый случай, когда SEO-неграмотность приводит к таким результатам.

  • Ответить

    Psycho, ну если хочется быстрых документов, то в Баре и Метрике донор (в случае действительно нужных свежих страниц) почти всегда известен. Ничто не мешает тут же проверить донора на наличие ссылки. Если ее нет — пока не индексировать. Хотя копить пользовательскую активность на новых урлах можно, я думаю. Впрок. Никаких сложных технологий такой подход не требует, все зависит от желания поисковика. Гугл тоже замазан, но в этой теме его топы не отписываются, в отличие от. Потому и обсуждаем тех, кто идет на «как бы диалог».

  • Ответить

    Ну и кстати, насчет информации под логином/паролем. Если рассмотреть две «хакерские» задачи: 1. Юзер зарегистрировался в личном кабинете простенького секс-шопа (как правило для регистрации нужен е-мейл и пароль) и что-то там купил (мы так думаем). Нужно подобрать пароль и узнать что. 2. То же, что и в п. 1, но покупка без регистрации, юзеру сгенерировали сложный урл. Задача та же — узнать, что он купил. Сложность решения задачи для хакера примерно одинакова, часто п.1 решается проще, пароль подбирается, т.к. на простеньком магазине может не быть супер защиты. Т.е. вариант из п.2 был достаточно надежным (хотя и не без минусов — в процессе поиска наш хакер мог получить инфу по куче других заказов, ему не нужную, но все же), пока его не убили поисковики. А убив, заявили, что они тут не при чём, во всем виноваты вебмастера. Ну да, стопудово. :)

  • Ответить

    Кстати, на серче Сергей заявил: «Я уже не надеюсь, что до этих «специалистов» дойдет, что Яндекс.Бар здесь не причем, но на всякий случай повторю — Яндекс.Бар здесь не причем. Страницы магазинов и жд билетов проиндексированы благодаря Метрике». Правда, натолкнулся на возражение о том, что в индекс попали сайты без Яндекс.Метрики.

  • Ответить

    А как узнать, от какой даты текущая версия пользовательского соглашения Метрики и можно ли как-то посмотреть предыдущие редакции?

  • Ответить

    По словам его представителя Очира Манджикова, «Яндекс» не удаляет страниц из результата поиска, пока владельцы сайта не примут мер, чтобы их содержимое не было доступно поисковой системе, для этого нужно ограничить доступ к страницам через файл robots.txt. Google, по словам его представителя Аллы Забровской, может сам удалить данные из индекса, если получит информацию — от пользователей и из других источников, включая госорганы, — о незаконно опубликованных персональных данных. Забровская пообещала, что ссылки на данные пользователей интернет-магазинов тоже будут удалены. Последние утечки — особый случай, считает представитель Microsoft Александра Паришева: «Поисковые системы сканируют информацию в публичном доступе, но мы прорабатываем техническую возможность ограничения доступа к опубликованным персональным данным граждан». http://www.vedomosti.ru/tech/news/1326617/lichnost_po_zaprosu Думаю, участникам дискуссии будет интересно узнать, что «Яндекс» свою позицию не изменил ни на йоту. И в этих крысиных бегах за вымпелом Don’t be Evil занял последнее место. Время сносить «Яндекс.Бары», однако.

  • Ответить
    Игорь Ашманов Сам себе компания

    Думаю, участникам дискуссии будет интересно узнать, что «Яндекс» свою позицию не изменил ни на йоту. А ты, значит, почувствовал в себе невиданную силушку богатырскую, прогнуть Яндекс, да? Заставить его изменить позицию! Азарт почувствовал? И в этих крысиных бегах за вымпелом Don’t be Evil занял последнее место. Even if you win a rat race, you are still a rat. Каким это образом Яндекс занял последнее место? Ты, наверно хочешь сказать, что он а) не участвовал ни в каких бегах, б) на словах меньше прогнулся. Заметим, что процитированные Ведомостями пиарщики Гугла и Бинга вообще не могут никак повлиять на то, что на самом деле будет сделано внутри поисковиков, которые разрабатываются в далёких США. Планы разработки от них не зависят. Они просто говорят слова, приличествующие случаю. Ну да, их начальники (директора русских офисов продаж) сигнализируют наверх о локальных юридических проблемах на рынке третьего эшелона, да и будут ждать у моря погоды. Заметим, что Яндекс таки убрал СМСки из выдачи, а что к этому моменту уже сделали Гугл и Бинг, кроме слов пресс-секретарей?

  • Ответить
    Игорь Ашманов Сам себе компания

    А вообще мне нравится наблюдать, как работает моск у Юры и прочих местных правозащитников — они не понимают того, что сами же пишут. Или даже понимают ровно наоборот — то, что сказали сами же. Вот они негодуют: Смотри, Яндекс — ты же в прошлый раз игнорировал общественное мнение! Не хотел киски и школьниц почистить! Не хотел рейтинг блогов модерировать! А ведь потом пришлось!!! И сейчас придётся! Ну да, а как ещё жизнь устроена? Это и показывает, что Яндекс прислушивается к общественности, а не наоборот! Вы против чего согласны-то? Ребята, а как вы вообще представляете себе достижение общественного консенсуса? Да даже консенсуса с вашей женой по поводу отпуска или покупки шмотки? Ну да, она сначала будет спорить, у неё будут свои аргументы, у вас свои, интересы же разные; потом вы её частично убедите, она уступит, вы уступите, кто-то предложит решение, вы договоритесь на чём-то. А вы что — хотели бы, раз в прошлый раз Яндексу пришлось подвинуться в вопросе порно, чтоб он теперь по щелчку ваших пальцев прибегал и спрашивал: чего изволите в этот раз удалить из выдачи?! Будет сделано! Есть! Так точно! Бегу выбрасывать! Больше не повторится!!! На Роеме же написали!!! Вы жену-то смогли так выдрессировать? Начните с неё, вы ей хотя бы денег даёте. Скорее всего скандал ещё будет продолжать шириться, всякие компании и специалисты из ИБ, студенты и оптимизаторы будут искать «уязвимости», чтоб отпиариться, в Яндекс последуют запросы из официальных органов, вожди выскажутся, пиарщики отстреляются, СМИ охрипнут, «эксперты» повторят сто банальностей, яндексоиды найдут какую-то формулу согласия (как с удалением рейтинга блогозаписей), объявят о ней. Ну и что? Так и рихтуются обычаи делового оборота и законы. Например, так появился известный Сарбейнс-Оксли. Яндексу, кстати, этот шум выгоден, как ни странно — он повышает значимость поиска в обществе. Вы пафос-то правозащитный снизьте всё же. Обсуждайте суть проблемы, а не возмутительную неуступчивость Яндекса. И кстати, а что ж вы перестали гневно обличать ВКонтакт за средний палец, порно и неуважение к пользователям? Или теперь за это отвечает Пеганов?

  • Ответить

    Добавлю свои пять копеек, что ли. 1. Начиная с какого времени Яндекс.Метрика начала поставлять список URL для индексации поисковому роботу? 2. Это, как вы успели убедиться, довольно важное изменение. Почему была отвергнута идея сделать e-mail рассылку вебмастерам о нем? 3. Почему было решено не выносить это изменение отдельным пунктом к лиц. соглашению? Не для всех очевидно, что право собирать анонимную статистику может повлечь передачу собранных реферреров поисковому боту. 4. Почему был отвергнут вариант сделать этот процесс опциональным и по умолчанию отключенным? Вебмастер в принципе сам должен понимать, что если сайт готов к такому вниманию со стороны роботов, этот пункт выгоднее включить, т.к. это должно увеличить скорость индексации. 5. Я правильно понимаю, что в современном Яндексе теперь считается, что если человек научился делать сайты и хочет начать собирать статистику, например поставив метрику, Яндекс не считает его целевой аудиторией, ибо сейчас яро выставляет его виноватым в индексации «скрытых» страниц. Человек как минимум должен постичь азы SEO и понять как ему аукнется метрика и отсутствие robots.txt, иначе должен идти лесом? Спасибо за внимание. :)

  • Ответить

    > По поводу внешних ссылок я бы даже ужесточил правило — ссылки должны быть с этого же сайта. > Если вебмастер хочет иметь документ в индексе поисковиков — он ставит на него ссылку на уже известных поисковикам страницах, Пардон, а откуда в таком случае на новом сайте появятся «уже известные поисковикам страницы»?! По этому пути можно пойти дальше — кто подал в поисковик sitemap, тот и индексируется, причем ровно в объеме этого sitemaр и ни на йоту больше; можно сразу со списками ключевых слов. Очень удобно для (криворуких) вебмастеров, но совершенно невыгодно пользователям.

  • Ответить

    > Сложность решения задачи для хакера примерно одинакова, часто п.1 решается проще, пароль подбирается, т.к. на простеньком магазине может не быть супер защиты Bullshit. Вполне надежные решения этой проблемы разработаны, описаны и даже включены в стандартные библиотеки. Если «простенький магазин» не имеет приличной парольной защиты, то только по раздолбайству его авторов (которое еще раз подтверждается использованием «секретных url»).

  • Ответить

    > Ну да, а как ещё жизнь устроена? Это и показывает, что Яндекс прислушивается к общественности, а не наоборот! Вы против чего согласны-то? В кои-то веки я согласен с Ашмановым :)

  • Ответить

    Игорь, нормально у меня работает моск. Я поэтому Петренко и в статье и написал про пять лет, через которые или падишах, или Яндекс. Ну или я, да. А из Google SMS тоже исчезли. Их там, правда и было чуть — тексты в сниппет не попали, а время жизни страниц действительно невелико. То есть, переход на них ничего не давал

  • Ответить

    Я правильно понимаю, что в современном Яндексе теперь считается, что если человек научился делать сайты и хочет начать собирать статистику, например поставив метрику Вы путаете домашние странички и манипуляции с персональными данными, (коммерческой|государственной) тайной. Я вот уколы могу ставить и периодически самолечением занимаюсь, но если от это кто-то пострадает, то меня ждет уголовная ответственность.

  • Ответить

    У меня вопрос к представителям поисковиков: На моем домашнем компьютере куда мне положить роботс.тхт или, скажем, «нижайше_прошу_пощадить.тхт», чтобы бары/браузеры не выкладывали мои личные фотки в сеть? А то там у меня есть такие, где я неважно выгляжу и стесняюсь.

  • Ответить

    И еще вопросик, если можно, уважаемые. Могу ли я установить апач на домашнем компе? Если да, то буду ли я после этого храброго поступка считаться ответственным перед человечеством вебмастером?

  • Ответить

    > to umkalive: если под этим апачем будут собраны чьи-то персональные данные, боюсь что да. Даже если домена нет? Ужос. Лучше не буду ставить от греха.

  • Ответить

    Мне казалось, что работа Сергея Петренко локальная менеджерская и к технологии и идеологии поиска отношения не имеет. Тогда можно предположить, что Сергею передали официальную версию, чтобы он ее озвучивал или же он говорит свое личное мнение, которое к действиям Яндекс отношения не имеет. Или я неправильно понимаю роль Сергея в Яндексе?

  • Ответить

    Короткий ответ — вам казалось. Более длинный — видимо, что-то вам мешает предположить самое очевидное — что мое личное мнение совпадает с позицией компании. Как это происходит технически — включите воображение.