Поисковики спалили покупателей секс-шопа

25 июля 2011 в 21:53
Roem.ru

В поисковиках нашли еще личных данных покупателей различных интернет-магазинов (пример из Google, прекрасный пример из "Яндекса" с палевом пользователей секс-шопа, "Бинг". Благодаря отсутствию операторов, плохо палит покупателей Go.mail.ru).

Новости СМИ2

Пресс-секретарь "Яндекса" Очир Манджиков посоветовал вебмастерам ознакомиться с информацией о файле robots.txt и об его корректном использовании.

Особое внимание тому что индексируют поисковые системы СМИ стали уделять на прошлой неделе, после того как поисковая система "Яндекс", оказалось, проиндексировала и сохранила в сниппетах часть пользовательских SMS абонентов компании "Мегафон" отправлявших SMS через Интернет.

Позиция "Мегафона" заключается в том, что компания должна нести солидарную ответственность вместе с интернет-провайдерами, в то время как "Яндекс" упирает на то, что поисковая система работает с открытыми данными и не индексирует те данные, доступ к которым закрыт в файле robots.txt. При этом благодаря популярности "Яндекса", которая в России почти в три раза выше чем у любого другого поисковика, попадание данных в его индекс резко увеличивает их "находимость", что может иметь отрицательные стороны для всех пользователей интернета пользующихся сайтами с не самыми грамотными вебмастерами.

При этом веб-мастерам стоит думать не только о правильной работе с robots.txt, но и о том, чтобы ненужные данные не могли быть доступны вообще никому без авторизации, так как помимо поисковых систем, руководствующих robots.txt по сети ходит куча роботов, принадлежащих непонятно кому и руководствующихся своими собственными правилами.

Выбор редакции

Мегафон разрешил Яндексу индексировать пользовательские смски 123

Лучшие комментарии

Контекст комментария
altrr
Так много сайтов прокалывалось и посолиднее, включая например фейсбук (http://news.ycombinator.org/item?id=1402384) Не хотите чтобы ваши данные попали в поиск (а если на них специально не наставили ссылок, то в теории они попасть не должны) — не пользуйтесь Яндекс.Баром, Гугл.тулбаром и подобными продуктами с изначально заложенным в них шпионажем
Контекст комментария
chonduhvan
@altrr, вы самый главный вывод забыли — при заказе анальных украшений не используйте реальные данные.
Контекст комментария
Руслан Левиев Фонд борьбы с коррупцией
На самом деле утекли приватные данные заказов сотен магазинов (в том числе и секс-шопов). Большинство их объединяет одна деталь: они используют движок Shop-Script, в функциях которого есть просмотр данных заказа по специальной ссылке без авторизации.
Контекст комментария
Валентин Домбровский Travelabs
Кстати, на серче Сергей заявил: «Я уже не надеюсь, что до этих «специалистов» дойдет, что Яндекс.Бар здесь не причем, но на всякий случай повторю — Яндекс.Бар здесь не причем. Страницы магазинов и жд билетов проиндексированы благодаря Метрике». Правда, натолкнулся на возражение о том, что в индекс попали сайты без Яндекс.Метрики.
Контекст комментария
Gray
zotov, вы не представляете, как вы правы — это очень примитивная демагогия. Я вот сейчас пошел на один известный сервис и вижу там адреса страниц, которые раньше мне известны не были совершенно. А этот сервис мне их показывает. Причем не убеждается, что они публичные, как тут предлагает его автор, а показывает, несмотря на то, что ему-то точно известно — этот адрес открыл только один человек. [URL=http://forumimg.net/blog/2011-07-26_02-10-14.png]http://forumimg.net/blog/2011-07-26_02-10-14.png[/URL]
Контекст комментария
Gray
Нет, Миша, никто над юзерами не издевается. И ты сам прекрасно понимаешь, что ни один самый умный робот не определит по урлу, публично доступному, публично известному и не закрытому от индексации, что это вебмастер тут глупее робота, поэтому надо не индексировать, а то чего доброго…
Контекст комментария
Игорь Ашманов Сам себе компания
Игорь, спасибо за новую грань с PR-атакой, да. Юра, по-моему, ты не вкурил в мой комментарий. Пиар-атака здесь не при чём, в том числе потому что ты, как журналюга, вообще таких вещей не чувствуешь, как рыба не чувствует воды. Ещё раз: нет никакой общедоступности результатов поиска по запросу, пока ты не знаешь этот самый точный запрос. Да, ссылка от запроса по сути ничем не отличается. Одно можно получить DNS-запросом, а другое — поисковым запросом. В любом случае, и то, и другое почти нельзя получить случайно, а нарочно — можно. Что касается «цензуры» результатов поиска, о которой тут гневно пишет Петренко, то приведу совершенно очевидный пример: Вот у системы «Виза» есть требование к организациям, совершающим операции с кредитными картами Визы на сумму больше 100 000 евро то ли в день, то ли в месяц (не помню), чтобы номера кредитных карт не выходили наружу из организации в открытом виде ни в почте, ни ещё как. Что такие организации должны подтвердить обязательствами в договоре, какой-то сертификацией и т.п. Номер кредитной карты — это не просто N циферок, это довольно сложный объхект с внутренней логикой, циферки там как-то зависят друг от друга. Мы как-то писали такой распознаватель для компании Infowatch, которая продаёт систему защиты от утечек, в том числе от таких утечек финансовых данных. Ясно, что и объекты типа «ФИО», «почтовый адрес», «адрес электронной почты», «номер ГНИ», «БИК», «номер банковского счёта», «номер телефона», «номер автомобиля» и т.п. — система защиты от утечек распознавать должна. Для этого пишутся специальные картриджи-распознаватели. Часть из них, типа «ФИО», «должность», «название организации», уже есть и у Яндекса, в пресс-портретах. Ну ладно, Инфовотч — это специализированная система, в которую вбиты сотни человеко-лет. Но вот распознаватель номеров кредиток — это не бином Ньютона и не рокит сайенс. Его-то можно в индексатор Яндекса встроить? Сергей, скажи мне, если Яндекс видит на странице номер кредитной карты , должен ли он поместить эту страницу в общий индекс? Или было бы разумно разобрать несколько вариантов принятия решения в данном случае, среди которых, например — заиндексировать страницу, но забить номер иксами, или просто не брать страницу в индекс, или не класть её в кеш и т.п.?
Контекст комментария
Игорь Ашманов Сам себе компания
Игорь, в том то и дело, что ее неодинаково легко найти. Есть информация с уникальным локатором, известным только тебе. Ну, уникальный локатор при этом выглядит как простой урл с циферками в конце. Во многих случаях сработает простой перебор. Хакеры тоже ведь не дураки. Ну да, если ты знаешь второй уникальный локатор в виде ключевого слова, которое есть в СМСках или бланках заказа/доставки, можно по нему и поиcковый запрос построить. Но что уникального в локаторах вида: url:www.railwayticket.ru* | url:railwayticket.ru*?
Контекст комментария
Игорь Ашманов Сам себе компания
Посчитали Крибрумом, когда появилась первая запись про СМСки Мегафона (мы всё равно меряем операторов). Первая запись, которую видит Крибрум — это Hitman в Твиттере, примерно в 13.07. Его дальнейшие записи в Твиттере выглядят адекватно, в русле версии о его вбросе («вброс, кстати, мой! знакомый директор компании кинул в личку, у них в штате есть сеошнег, оттуда корни, сами побоялись публиковать»). Следующая волна — это ретвиты именно этой записи.
Контекст комментария
Игорь Ашманов Сам себе компания
А вообще мне нравится наблюдать, как работает моск у Юры и прочих местных правозащитников — они не понимают того, что сами же пишут. Или даже понимают ровно наоборот — то, что сказали сами же. Вот они негодуют: Смотри, Яндекс — ты же в прошлый раз игнорировал общественное мнение! Не хотел киски и школьниц почистить! Не хотел рейтинг блогов модерировать! А ведь потом пришлось!!! И сейчас придётся! Ну да, а как ещё жизнь устроена? Это и показывает, что Яндекс прислушивается к общественности, а не наоборот! Вы против чего согласны-то? Ребята, а как вы вообще представляете себе достижение общественного консенсуса? Да даже консенсуса с вашей женой по поводу отпуска или покупки шмотки? Ну да, она сначала будет спорить, у неё будут свои аргументы, у вас свои, интересы же разные; потом вы её частично убедите, она уступит, вы уступите, кто-то предложит решение, вы договоритесь на чём-то. А вы что — хотели бы, раз в прошлый раз Яндексу пришлось подвинуться в вопросе порно, чтоб он теперь по щелчку ваших пальцев прибегал и спрашивал: чего изволите в этот раз удалить из выдачи?! Будет сделано! Есть! Так точно! Бегу выбрасывать! Больше не повторится!!! На Роеме же написали!!! Вы жену-то смогли так выдрессировать? Начните с неё, вы ей хотя бы денег даёте. Скорее всего скандал ещё будет продолжать шириться, всякие компании и специалисты из ИБ, студенты и оптимизаторы будут искать «уязвимости», чтоб отпиариться, в Яндекс последуют запросы из официальных органов, вожди выскажутся, пиарщики отстреляются, СМИ охрипнут, «эксперты» повторят сто банальностей, яндексоиды найдут какую-то формулу согласия (как с удалением рейтинга блогозаписей), объявят о ней. Ну и что? Так и рихтуются обычаи делового оборота и законы. Например, так появился известный Сарбейнс-Оксли. Яндексу, кстати, этот шум выгоден, как ни странно — он повышает значимость поиска в обществе. Вы пафос-то правозащитный снизьте всё же. Обсуждайте суть проблемы, а не возмутительную неуступчивость Яндекса. И кстати, а что ж вы перестали гневно обличать ВКонтакт за средний палец, порно и неуважение к пользователям? Или теперь за это отвечает Пеганов?
Контекст комментария
Михаил Козлов Mediascope
Позиция Яндекса, конечно, доставляет. Ребята, ну посмотрите как выглядит ситуация: ваши _клиенты_ (а раз стоит Метрика, наверняка сайт размещал или размещает прямо сейчас рекламу в Директе/Маркете) получают от сотрудничества с вами проблемы, большие проблемы. Мало того, что вы используете информацию о посещении клиентского сайта для рекламы его конкурентов, так еще и вытаскиваете контент, который клиенты не планировали выдавать кому-нибудь наружу. Ну, да, эти вебмастера не такие крутые парни, как вы, не всегда думают про роботс.тхт и что контент может стать доступным случайно. Но зачем вы над ними издеваетесь и поплевываете свысока? Сергей, ты правда не понимаешь, что позиция «сам дурак» не только некрасивая, но и проигрышная? Раз вы такие умные, сделайте хотя бы элементарную защиту от дурака. Метод, который предлагает Максим Зотов хороший, никакая ценная информация не потеряется, а от скандалов себя и ваших клиентов вы убережете. А кто тут рассуждает про «цензуру», так вспомните, что несколько лет назад сайт без авторитетных внешних ссылок вообще имел довольно мало шансов попасть в выдачу, по крайней мере, в Гугле (про Яндекс уже не помню). И никто это цензурой не считал.
Контекст комментария
Михаил Козлов Mediascope
Gray, ок-ок. Назвать своих клиентов идиотами — это было не издевательство, а просто констатация факта. Я понял. altrr, не знаю что там с лицензией на Метрику, но сотрудники Яндекса публично подтверждали, что данные Метрики используются и для индексации (вот прямо на этой странице в т.ч.), и для подбора объявлений в Директе.
Контекст комментария
Михаил Козлов Mediascope
Игорь, Яндекс как раз увеличивает публичность, да еще как. Уникальный адрес, куда может попасть человек никому не мешает. Особенно, если этот адрес действует ограниченное время (10 минут, час, сутки) — как в случае с Мегафоном. Случайно попасть туда нельзя. Разве что перебором — ну, так для этого и делают длинный урл со странными последовательностями символов. А вот если такая страница засвечена в поисковике, то попасть на нее случайно — дело времени, примерно как попасть на порно по запросу «киска», если специально ничего не фильтровать. На мегафоновские смски можно было легко попасть по номеру телефона (я иногда задаю такие запросы), в этот магазин — например, по названию товара, имени получателя, адресу и еще много как. Если продолжать твою аналогию с кустами, то в магазине эти кусты были где-то в глухой Сибири, а Яндекс перенес их на Тверскую.
Контекст комментария
zotov
> URL известен не только браузеру, но и еще неопределенному числу роутеров, прокси и т.д. Это всё очень примитивная демагогия. С таким же успехом можно публиковать http-пароли на том основании, что они передаются в открытом виде через роутеры и прокси. Тут как раз тот случай, когда количество переходит в качество. Не важно, что URL принципиально может быть известен посторонним, важно то, что кроме поисковиков все остальные посторонние не предоставляют простой и свободный доступ ко всем этим данным. Этот ваш сферический прокси позволяет любому человеку получить одним простым запросом все СМС, отправленные через сайт? Все заказы магазина? Пусть Яндекс, раз уж берет адреса из Бара и/или Метрики, убеждается, что эти адреса являются публичными, очень простым способом: если этот адрес открыло хотя бы более двух человек. А лучше более 10.
Контекст комментария
zotov
Gray , думаю, беседа будет неконструктивной, потому что каждый кулик всё равно будет защищать своё болото. :) > Что принципиально здесь невозможно? 1) при переходе без ссылок не показывается полный адрес, только домен; 2) параметры URL (то, что после знака ?) по умолчанию удаляются; 3) статистика по умолчанию доступна только по паролю; 4) адреса с одним просмотром/переходом обычно хранятся только за текущий день; 5) переход с приватной страницы (например, статуса заказа) на посторонний сайт на порядки более редкое явление, чем само открытие этой страницы пользователем. В итоге по умолчанию в LiveInternet доступ к этим данным осложнён. И владельцу сайта нужно предпринять дополнительные усилия, чтобы разрешить доступ к ним. С другой стороны, Яндекс по умолчанию всё индексирует и всё показывает. Владельцу сайта нужно предпринять дополнительные усилия, чтобы запретить доступ. При этом в статистике LiveInternet вы увидите только единичные случаи с приватными данными (переход с приватной страницы на ваш сайт). В Яндексе же вы найдёте все приватные страницы, потому что Метрика загружается на всех страницах и все их сливает индексатору. Разве непонятна принципиальная разница между «все» и «ничтожная доля»? И получается, что Яндекс удобно и легко использовать для доступа к приватным данным, а LiveInternet — нет. Если хотите, можно сократить: Яндекс удобен, LiveInternet — нет, возражать не буду :)

Добавить 168 комментариев

25 июля 2011 в 21:38 Ответить
Руслан Левиев Фонд борьбы с коррупцией
На самом деле утекли приватные данные заказов сотен магазинов (в том числе и секс-шопов). Большинство их объединяет одна деталь: они используют движок Shop-Script, в функциях которого есть просмотр данных заказа по специальной ссылке без авторизации.
25 июля 2011 в 21:39 Ответить
Руслан Левиев Фонд борьбы с коррупцией
Вот можно полюбоваться: http://goo.gl/6UZZQ
25 июля 2011 в 21:59 Ответить
chonduhvan
справедливости ради стоит отметить что и [URL=http://bit.ly/mRFiaF]в гугле та же картина[/URL]
25 июля 2011 в 22:33 Ответить
tsukanov
Эх, всю клиентскую базу слили:) Зато сайт, скорее всего, за 3 копейки сделал. Жертва №2: http://yandex.ru/yandsearch?text=site…D1&lr=2
25 июля 2011 в 23:06 Ответить
Руслан Левиев Фонд борьбы с коррупцией
Хотите аще жесть? Ваши «хоум-видео», которые вы передаёте через QIP своей подружке, как правило тоже доступны всему интернету. Вот описание: http://www.yaplakal.com/forum2/topic344180.html
25 июля 2011 в 23:19 Ответить
Suomynona
Самое неприятное то, что и-маги все мелкие, а в случае со статусами заказов 152-ФЗ без всяких оговорок. Золотое дно для контролирующих организаций :-/
25 июля 2011 в 23:25 Ответить
mshome
Ндэ, чуваки использующие один и тот же имейл для сексшопов и госзаказов добавлют жира в тему.
26 июля 2011 в 00:56 Ответить
ludkiewicz
Это всё хорошо. А вот объясните, как Яндекс узнает уникальные адреса страниц со статусом заказа с многоразрядным уникальным кодом?
26 июля 2011 в 01:03 Ответить
Роман Иванов Яндекс, а также ljsear.ch по выходным
И про Гугл сразу заодно, и про Бинг.
26 июля 2011 в 01:03 Ответить
Suomynona
@ludkiewicz Я.Метрика. Я.Бар. В письме с подтверждением заказа отправляется URL для просмотра статуса. Google Chrome историю посещений хранит догадайтесь, где.
26 июля 2011 в 01:08 Ответить
ludkiewicz
@Suomynona. То есть можно вот так на голубом глазу тырить Баром или Метрикой приватные урлы с персональной информацией и вываливать их в паблик?
26 июля 2011 в 01:09 Ответить
Юрий Синодов Roem.ru
Очень просто узнаёт. Человек пользуется IE, Gmail и «Яндекс.Баром»
26 июля 2011 в 01:10 Ответить
ludkiewicz
@kukutz. А Вы за Яндекс ответьте, плиз. А про Гугль и про Бинг я спрошу у тех, кто может ответить за них. ;)
26 июля 2011 в 01:18 Ответить
ludkiewicz
>Очень просто узнаёт. >Человек пользуется IE, Gmail и «Яндекс.Баром» Ну, [url=http://bar.yandex.ru/firefox/agreement.xml]лизензионное соглашение Яндекс-Бара[/url], к примеру, в п. 6.3 говорит, что собирает информацию анонимно (без привязки к пользователю). А какое ж тут анонимно, если все его персональные данные в паблик попадают?
26 июля 2011 в 01:21 Ответить
Suomynona
@ludkiewicz URL не приватные ни разу. Нет никаких запретов к их индексированию, ни в robots.txt, ни в meta-тегах страниц. Тут все вопросы к компании Webasyst, автору скрипта.
26 июля 2011 в 01:22 Ответить
Юрий Синодов Roem.ru
Людкевич, ну тебе ж дали ответ: http://webmaster.ya.ru/replies.xml?item_no=10941 Например, Яндекс.Бар или Google.Бар показывают ранг страницы, для чего передают ее адрес на сервер А что до лицензионного соглашения, они же не записывают, кто эти данные там вводил? Может муж жене что-то покупал. Полная анонимность, какие претензии?
26 июля 2011 в 01:28 Ответить
ludkiewicz
>Полная анонимность, какие претензии? Вы считаете, что есть анонимность, я считаю, что нет — вот и претензии. Интересно, с кем из нас согласится Алсина Шагабиева или Екатерина Ульянкина?
26 июля 2011 в 01:32 Ответить
Юрий Синодов Roem.ru
Сарказм, сарказм
26 июля 2011 в 01:38 Ответить
ludkiewicz
Отнюдь. Есть определенные этические нормы. И правовые. Если собираешь автоматически приватную информацию от пользователя, то убедись, что она не содержит данных, охраняемых законом, прежде, чем её публиковать. В статье 23 Конституции РФ нет ни слова про файл robots.txt. Зато есть, что «1. Каждый имеет право на неприкосновенность частной жизни, личную и семейную тайну, защиту своей чести и доброго имени. 2. Каждый имеет право на тайну переписки, телефонных переговоров, почтовых, телеграфных и иных сообщений. Ограничение этого права допускается только на основании судебного решения.» P.S. И да. Мне очень интересно, как бы отреагировал на публикацию о себе подобной информации г-н Юрий Синодов. У меня такое впечатление, что он относится к ней весьма щепетильно. Помнится, как-то очень огорчался по поводу номера банковской карточки.
26 июля 2011 в 01:41 Ответить
Suomynona
Ну так это вопрос к владельцам магазинов, а не к Яндексу/Google/Bing… Кто выложил на всеобщее обозрение приватные данные?
26 июля 2011 в 01:47 Ответить
ludkiewicz
>Кто выложил на всеобщее обозрение приватные данные? Дык, Яндекс (Гугль, Бинг — нужное подчеркнуть), разве не? До того, как юзер зашел на страницу с приватными данными в браузере с установленным баром поисковика, они были известны только ему и владельцу магазина. Ну, а затем, через свой бар об этом узнал поисковик и рассказал по секрету всему свету. Разве не так?
26 июля 2011 в 01:48 Ответить
Юрий Синодов Roem.ru
То есть, у поисковиков есть право их хранить, пока магазин не спохватится? Мне кажется, это дискуссионный вопрос.
26 июля 2011 в 01:55 Ответить
ludkiewicz
Дискуссионный, а то. Ты установил у себя перед дверью камеру наблюдения, а её операторы, подсмотрев через неё уникальный код твоего цифрового замка, открывают твою дверь, входят к тебе и вывешивают снимки твоего белья на всеобщем обозрении. И оправдывают свои действия тем, что на двери не написано «Не входить». Смешно… Или грустно?
26 июля 2011 в 01:58 Ответить
Suomynona
Эти данные доступны любому, кто знает URL. А вовсе не только администратору и покупателю. Поисковик URL знает. Доступ к данным предоставляется без авторизации. Нет даже указания на то, что данные нельзя индексировать.
26 июля 2011 в 02:02 Ответить
ludkiewicz
Эх, на колу висит мочало…
26 июля 2011 в 02:13 Ответить
Gray
Серег, адрес страницы, посещенной юзером, не является приватной информацией. Прежде всего потому, что юзер обезличен. Строго говоря, вообще неизвестно, кто это — роботу поиска или любой другой службы (прокси-сервера, например, или антифишингового фильтра) становится известен адрес страницы. Скажи, что в этом приватного, что само по себе, безотносительно к содержанию страницы, безусловно запрещает ее посещение/индексацию?
26 июля 2011 в 02:17 Ответить
coffesup
по-моему спор банальный есть такое понятие как шифрование с ключом, в качестве этого ключа выступает некая комбинация символов и она действительно известна только магазину и покупателю, но передается она через браузер и браузер имеет наглость этот ключ палить по-моему это тупо не этично. и до того, как Гуглы, Яндексы и прочие охамели это был вполне приличный способ давать доступ к контенту без авторизации. например, мы в своей CRM-ке даем по ссылкам из письма просматривать быстро счета, ну а что пользователю каждый раз логиниться в CRM, чтобы открыть счет? да ну вы господа окуели. такой метод отправки форм как GET нужно видимо заранее исключить из стандарта HTML как более неактуальный закончится это тем, что поисковики начнут неоткрытые ссылки из писем открывать и индексировать и вопрос лишь времени когда поисковики начнут индексировать и выкладывать письма, как видим понятие об этики перевешиваются жаждой заработка на показе частной информации и контекста к ней заметим было бы желание, подобные страницы, на которых нет внешних индексируемых ссылок поисковики могли бы более тщательно проверять на приватность данных. тему значит определять можем, Матрикснет придумали, скоро роботы яичницу будут готовить, а то что на странице есть ФИО, телефон и адрес сопоставить мы не можем, ага
26 июля 2011 в 02:18 Ответить
ludkiewicz
Серег, Gray, как Ядексом были получены адреса этих страниц? Ты можешь для начала дать простой ответ на простой вопрос? А далее поговорим о приватности.
26 июля 2011 в 02:23 Ответить
Suomynona
URL известен не только браузеру, но и еще неопределенному числу роутеров, прокси и т.д. Логи проксей, кстати, иногда оказываются доступны из интернетов.
26 июля 2011 в 02:29 Ответить
coffesup
Suomynona, значит robots.txt не является панацеей, верно? кстати, насколько я знаю, booking.com до сих пор позволяет, просто зная ссылку, зайти на определенную страницу и отменить бронирование отеля вот повеселиться от души то можно, если ссылочки пособирать
26 июля 2011 в 02:35 Ответить
Gray
Сереж, да элементарно. Адрес каждой из этих страниц передан реферером при запросе счетчика Метрики, который стоит на каждой из них. Ты заодно все же задайся вопросом, а как эти же страницы оказались в Гугле, хотя никакого Аналитикса там не присутствует? Так вот про приватность — ты настаиваешь на том, что, получив не по своей инициативе адрес страницы в качестве реферера, некто не имеет права его использовать?
26 июля 2011 в 02:38 Ответить
Suomynona
Конечно, robots.txt не панацея. По факту, это всего лишь просьба не индексировать документ по указанному URL. Приличные люди к просьбе отнесутся с пониманием, но найдутся и те, кто наплюет. Тем не менее в выдачу популярных поисковиков документ не попадет. Насколько этого достаточно — решать тем, кто занимается безопасностью.
26 июля 2011 в 02:47 Ответить
Suomynona
Кроме того, CMS WebAsyst ShopScript наоборот предлагает проиндексировать URL /order_status/, вот часть sitemap с первого попавшегося сайта: http://mag-online.ru/sitemap.php?app=SC&section=pages и то, есть-ли там дальше хэш или нет — роли не меняет.
26 июля 2011 в 02:54 Ответить
M-Borman
>получив не по своей инициативе адрес страницы в качестве реферера, некто не имеет права его использовать? С приватными данными нет. Синодову тоже «подкинули», так он в фотошопе закрасил. Если бы не по своей инициативе получили героин, его можно продавать?
26 июля 2011 в 03:04 Ответить
zotov
> URL известен не только браузеру, но и еще неопределенному числу роутеров, прокси и т.д. Это всё очень примитивная демагогия. С таким же успехом можно публиковать http-пароли на том основании, что они передаются в открытом виде через роутеры и прокси. Тут как раз тот случай, когда количество переходит в качество. Не важно, что URL принципиально может быть известен посторонним, важно то, что кроме поисковиков все остальные посторонние не предоставляют простой и свободный доступ ко всем этим данным. Этот ваш сферический прокси позволяет любому человеку получить одним простым запросом все СМС, отправленные через сайт? Все заказы магазина? Пусть Яндекс, раз уж берет адреса из Бара и/или Метрики, убеждается, что эти адреса являются публичными, очень простым способом: если этот адрес открыло хотя бы более двух человек. А лучше более 10.
26 июля 2011 в 03:06 Ответить
Gray
А откуда вам известно, что по адресу http://smth.ru/smbd/priv-data/34SDLFK340SDLFKJSDFE4/ находятся приватные данные? Вы вот так смотрите на урл и вам это сразу понятно?
26 июля 2011 в 03:12 Ответить
zotov
Gray , если адрес открыло несколько человек, то с приемлемой вероятностью его можно считать публичным.
26 июля 2011 в 03:14 Ответить
Gray
zotov, вы не представляете, как вы правы — это очень примитивная демагогия. Я вот сейчас пошел на один известный сервис и вижу там адреса страниц, которые раньше мне известны не были совершенно. А этот сервис мне их показывает. Причем не убеждается, что они публичные, как тут предлагает его автор, а показывает, несмотря на то, что ему-то точно известно — этот адрес открыл только один человек. [URL=http://forumimg.net/blog/2011-07-26_02-10-14.png]http://forumimg.net/blog/2011-07-26_02-10-14.png[/URL]
26 июля 2011 в 03:24 Ответить
zotov
> Я вот сейчас пошел на один известный сервис Повторюсь: разница в массовом простом и универсальном доступе. Через этот известный сервис вы не получите ни текста смс, ни фамилий с адресами заказчиков красных труселей.
26 июля 2011 в 03:33 Ответить
Gray
Почему же? Представим себе простое — ваш счетчик стоит на странице с приватной информацией (точно так же, как сейчас Метрика), пользователь с нее переходит на мой сайт — причем необязательно по ссылке, вы же умеете определять переходы без ссылок, верно? Bingo — вы мне показываете адрес страницы с приватной информацией. И не только мне, коль скоро статистика моего сайта общедоступна. Что принципиально здесь невозможно?
26 июля 2011 в 03:35 Ответить
Владимир Габриель Microsoft
Юра, а что за необоснованные высказывания по поводу Bing? Покажите скриншот с такой выдачей из Bing пожалуйста, где были бы перс. данные? я просмотрел 10 страниц выдачи и ничего там нет такого.
26 июля 2011 в 04:10 Ответить
zotov
Gray , думаю, беседа будет неконструктивной, потому что каждый кулик всё равно будет защищать своё болото. :) > Что принципиально здесь невозможно? 1) при переходе без ссылок не показывается полный адрес, только домен; 2) параметры URL (то, что после знака ?) по умолчанию удаляются; 3) статистика по умолчанию доступна только по паролю; 4) адреса с одним просмотром/переходом обычно хранятся только за текущий день; 5) переход с приватной страницы (например, статуса заказа) на посторонний сайт на порядки более редкое явление, чем само открытие этой страницы пользователем. В итоге по умолчанию в LiveInternet доступ к этим данным осложнён. И владельцу сайта нужно предпринять дополнительные усилия, чтобы разрешить доступ к ним. С другой стороны, Яндекс по умолчанию всё индексирует и всё показывает. Владельцу сайта нужно предпринять дополнительные усилия, чтобы запретить доступ. При этом в статистике LiveInternet вы увидите только единичные случаи с приватными данными (переход с приватной страницы на ваш сайт). В Яндексе же вы найдёте все приватные страницы, потому что Метрика загружается на всех страницах и все их сливает индексатору. Разве непонятна принципиальная разница между «все» и «ничтожная доля»? И получается, что Яндекс удобно и легко использовать для доступа к приватным данным, а LiveInternet — нет. Если хотите, можно сократить: Яндекс удобен, LiveInternet — нет, возражать не буду :)
26 июля 2011 в 04:27 Ответить
altrr
Так много сайтов прокалывалось и посолиднее, включая например фейсбук (http://news.ycombinator.org/item?id=1402384) Не хотите чтобы ваши данные попали в поиск (а если на них специально не наставили ссылок, то в теории они попасть не должны) — не пользуйтесь Яндекс.Баром, Гугл.тулбаром и подобными продуктами с изначально заложенным в них шпионажем
26 июля 2011 в 08:05 Ответить
chonduhvan
@altrr, вы самый главный вывод забыли — при заказе анальных украшений не используйте реальные данные.
26 июля 2011 в 10:06 Ответить
Юрий Синодов Roem.ru
Gray, я не понимаю, почему вы в «Яндексе» игнорируете тот факт, что вы существенно улучшаете искабельность информации. Посмотри в список Владимира Иванова: Итак, на страничку не зашел еще ни один живой человек, но про нее уже могут знать тысячи программ по всему интернету: • поисковые системы, куда вебмастер отправил ссылку вручную; • блог-платформы и сокращатели ссылок; • поисковые системы, которые переиндексировали страницы с ссылками на эту (а зачастую это происходит очень быстро); • всевозможные анализаторы и подписчики RSS (если на сайте есть RSS), причем не только через RSS сайта, где расположена страничка, но и через RSS блогов, агрегаторов, блогов агрегаторов, агрегаторов блогов, агрегаторов агрегаторов и так далее; • компании-владельцы интернет-мессенджеров и провайдеры почтовых сервисов. Из этого списка реальную возможность найти приватную информацию предоставляют исключительно поисковики. Причём благодаря развесистости вашего языка запросов (в противовес Mail.ru) и популярности вашего «Бара» (в противовес Google) у вас этой информации существенно больше и найти её намного легче. С момента, когда об этом стало известно, скоро уже сутки пройдут — вам всё пофиг. Ну дождётесь, как это было с медийным влиянием, платиновую акцию еще Роскомнадзору подарите.
26 июля 2011 в 10:27 Ответить
Heinrich Brüssow
Причем тут «дождетесь»? В данном случае действительно отвественность ровным слоем расползается по всем поисковикам, к счастью Яндекса. Конечно глобально проблему Яндекс не решил, и следующий вибратор может им и в голову прилететь, но в данном случае драма в отношении не очень уместна. И кстати зря. У вас 2000 человек поиском занимаются, ассесоры все такое. ВСе ваши многомудрые алгоритмы не могут отсеять такую хрень? P. S. Я не думаю что им пофигу, если бы ЯНдекс мог отсеивать такое не в ручном режиме — отсеивал бы. Так что это просто ну, нетривиальная задача)))
26 июля 2011 в 10:27 Ответить
Val Petruchek
А что, отсутствие каких-либо ссылок на страницу вида http://smth.ru/smbd/priv-data/34SDLFK340SDLFKJSDFE4/ не является основанием для неиндексации? Ну, зашёл человек с баром на приватную страницу. Яндекс узнал о том, что эта страница существует. Яндекс по-прежнему не знает ни единой страницы, которая бы ссылалась на эту «приватную». Зачем её индексировать? Если даже владелец сайта не озаботился тем, чтоб на эту «приватную» страницу можно было попасть, кликая по ссылкам сайта, то зачем Яндексу такая страница в выдаче? («даже» — т.е. не только внешних нет, но и внутренней НИ ОДНОЙ) Яндексу что, индексировать больше нечего? Весь интернет уже проиндексировали, остались только непубличные страницы без единой входящей ссылки?
26 июля 2011 в 10:41 Ответить
Heinrich Brüssow
ПО моему является. К сожалению пока их петух в ж… не клюнет по настоящему они этого не признают.
26 июля 2011 в 10:45 Ответить
Crio
Господа, я офигеваю от вашего спора. Поисковики для того и придуманы, чтобы легко и быстро находить информацию, всю информацию, любую информацию, которая общедоступна. Это им смысл существования и разбираться, какая информация приватна, какая может быть государственным секретом и проч. им просто вредно. Следующий этап — это вопрос, какая информация попадает в общий доступ. «Секретный» код (например, сессии) в URL — это не просто плохой способ защиты, а очень плохой, кажется, об этом знали еще десять лет назад все, даже те, кто не занимался разработкой сайтов (я, например). Код можно угадать, пользователь может скопировать куда-то url вместе с кодом, она окажется в качестве реферера в логах чужих веб-серверов — есть десятки способов стырить информацию с таких страниц. «что пользователю каждый раз логиниться в CRM, чтобы открыть счет?» — конечно, да, если он делает это не со своего компьютера (а на своем у него может стоять кука). Наконец Я.Бар и иже с ними — имхо, это зло с точки зрения пользователя, но для поисковика ценен любой дополнительный источник ссылок. Ведь проиндексировать микрософт.ком не хитрость, сложно проиндексировать какие-нибудь хоумпейджи, на которые ссылаются полторы калеки во всем интернете. Но про существование этих самых Баров давно известно и то, что разработчики сайтов игнорируют их существование — косяк исключительно этих самых разработчиков и нечего с больной головы на здоровую валить. Повторюсь, «спрятанные» открытые ссылки могут попасть к поисковику тысячей способов, ни один из которых разработчик не контролирует. Все, что он контролирует, это доступ к странице, этим он и обязан заниматься.
26 июля 2011 в 10:49 Ответить
Gray
Охренеть! Это вообще Роем, да? Это тот самый сайт, все альтерэги которого тут ухмылялись «Да, конечно, у них технические сложности, поэтому именно Навального они не проиндексировали»? Это те самые люди, которые под любое отсутствие страницы в поиске подводили сложноэтажные объяснения с участием президентов и олигархов? И это ровно они же рассказывают, что Яндексу следует цензурировать данные в поиске, что мы слишком быстро и много индексируем и что у нас слишком хороший язык запросов, позволяющий слишком хорошо все находить? Юра, мы не игнорируем факты. «Улучшение искабельности информации» — это суть поисковика. Наша задача заключается в том, что если есть в интернете информация, которая может быть ответом на вопрос пользователя, надо помочь ему ее найти в удобном и понятном виде. А если попутно выясняется, что кто-то в здравом уме и собственном невежестве ходит по улице без трусов, то наша машинка его сфотографирует и с большой вероятностью опубликует на Панорамах. И никто в Яндексе не задастся целью пририсовать ему трусы — мы не цензоры. И не сторожи братьям нашим по разуму, пусть и младшим.
26 июля 2011 в 10:56 Ответить
TerekhovAnton
Да вирусняк это, магазин Sexyz.ru — крутые!
26 июля 2011 в 10:59 Ответить
Heinrich Brüssow
ну есть универсальный довод про детское порно. А тут что порно, что публикация персональной информации — нарушение закона. qui prodest? никому. P. S. И если вы такие все в белом и трусов не рисуетте, зачем смсски из выдачи выпилили?
26 июля 2011 в 11:03 Ответить
Crio
> Весь интернет уже проиндексировали, остались только непубличные страницы без единой входящей ссылки? А как Яндекс узнает, что на эту страницу нет входящих ссылок с какой-нибудь еще такой же «темной» страницы? Вы хотите, чтобы весь интернет был единым связным графом, но совершенно непонятно, почему он должен являться, почему бы ему не распадаться на несколько — потенциально много — отделных графов не связанных между собой?
26 июля 2011 в 11:05 Ответить
Юрий Синодов Roem.ru
Gray, не надо путать меня с Альтер Эгами, мне эта конспирология по бану Навального в Яндексе по дебильным запросам в поиске картинок (!) кажется полной ерундой, о чём я не стеснялся писать. По-моему, топик по этому поводу даже выше «прочего» не поднялся. А если попутно выясняется, что кто-то в здравом уме и собственном невежестве ходит по улице без трусов, то наша машинка его сфотографирует и с большой вероятностью опубликует на Панорамах Google с такой логикой сам знаешь чего дождался, да? (один из примеров). Вы получите то же самое. И вы цензоры, не надо «ля-ля». Explicit контент у вас отлично режется, а песню про «зеркало Рунета» вы слили в 2009-м. Вам предложили вполне изящный способ — забанить к чёрту эти сайты в поиске — они некачественные, даже по вашим меркам. А вы сидите и в ус не дуете.
26 июля 2011 в 11:13 Ответить
ludkiewicz
Да у них на каждый случай своя логика. Когда случился скандал с исключением из американского мета-поисковика за индексацию детского порно — тут же подсуетились и всё вычистили. А тут себя зеркалами Рунета объявляют.
26 июля 2011 в 11:15 Ответить
Heinrich Brüssow
Если бы они забанили то разверзлись бы хляби небесные помоев претензий со всех сторон, по прецеденту. Потом есть уже универсальный довод — а че вы к нам пристали, гугл тоже участовал. Но бывает разы когда сложно плести про роботс и гугл — тогда трется выдача. Вот если таких разов будет много может и поймут что нужно чистить не руками, а алгоритмами. Или таки перемогут и будут искать как прежде. P. S. На самом деле наверное поисковики будут стоять стеной за возможность искать везде, кроме чайлдпорн. нам остается либо смириться с потерей privacy, либо это должно быть какое то международное законодательство. И пока не понятно какое. В этом смысле действительно с Яндекса спроса нет. ФОрмально.
26 июля 2011 в 11:38 Ответить
Gray
Серега, а вот передергивать нехорошо. «Скандал про мета-поисковик» был связан со сбоем в поиске и его починили. А здесь никакого сбоя нет — страницы можно индексировать и они проиндексированы. Страницы с смс были удалены после установки на сайте Мегафона robots.txt. Сайты на скрипте WebAsyst (название уже, кажется, многое говорит об уровне), если поставят robots.txt, могут через webmaster.yandex.ru указать адреса страниц, которые должны быть удалены, или просто в саппорт написать. Юра, это тебе изящный способ — вон сколько Альтерэг, хоть половину забань, новые на их место встанут. А банить сайты в поиске только потому, что их вебмастера сами себя считают глупее нашего робота, — этак можно и правда экономику Рунета обрушить. Ни почитать чего перед сном не будет, ни одеть перед ним же.
26 июля 2011 в 12:13 Ответить
ludkiewicz
Серег, так это сугубо ваше личное дело — что объявить сбоем в поиске, а что — нет. Завтра поднажмут на вас — может оказаться, что это тоже сбой был :)
26 июля 2011 в 12:15 Ответить
Юрий Синодов Roem.ru
Gray, ты шутишь что ли? Тут ни одного Alter Ego. И попробуй забань его, как же.
26 июля 2011 в 13:00 Ответить
long
мне одному кажется что нужно отделить мух от котлет? поисковик проиндексировал то, что ему было разрешено — это нормально? это более чем нормально. разрешить или запретить во власти вебмастера. поисковик выдал информацию, которая подпадает под закон о защите персональных данных — это нормально? нет, это нарушение закона, со всеми вытекающими. и совершенно без разницы, как эти данные были получены (из открытых источников или нет).
26 июля 2011 в 13:03 Ответить
Юрий Синодов Roem.ru
Да вы прямо в корень глянули. Трабла в том, что «Яндекс» не хочет ничего отделять и разбираться, что за данные он проиндексировал. Цензуры у них типа нет.
26 июля 2011 в 13:13 Ответить
Crio
Я не скажу, что я спец по закону о защите персональных данных, но по-моему, определение данных, подлежащих защите, зависит от их происхождения. Если я передал кому-то свои ФИО и адрес как клиент для совершения транзакции — получатель должен из защищать; если я в интервью журналисту (или в своем блоге) сообщил, что я такой-то такой-то и живу там-то и там-то, разве на ком-то есть обязанность не распространять данные, полученные из такого источника (например, при перепечатке интервью)? По-моему, Яндекс не имеет шансов разобраться здесь и с его точки зрения все данные, к которым имеет доступ его робот — публичные. Ну а если кто-то доверенные ему персональные данные разместил так, что робот Яндекса получил к ним доступ, то это ЕГО вина, а не Яндекса. Другими словами, не надо различать события проиндексировал/опубликовал; все, что индексируется — уже опубликовано. Да, и дело не в цензуре. Это не их зона ответственности, поэтому непонятно, почему они должны этим заниматься.
26 июля 2011 в 13:25 Ответить
Heinrich Brüssow
никто не отрицает вину публикаторов данных. Удивляет позиция Яндекса — нас это не парит, пешите роботсу.
26 июля 2011 в 13:38 Ответить
long
Crio, не нужно быть экспертом, можно прочитать статьи 1, 3 (пункты 2, 3, 4 и 12), 6 и 8 (http://www.rg.ru/2006/07/29/personaljnye-dannye-dok.html) — все очень прозрачно описано.выделяются только общедоступные источники, к которым (согласно тому же 3.12) не могут относится обсуждаемые url-ы
26 июля 2011 в 13:44 Ответить
altrr
Crio, если на эти данные есть ссылки, по которым пришел робот, то так оно и есть. Если же на них ссылок принципиально нет и доступ к ним получен как то еще (с помощью того же тулбара), то логично предположить, что что то из таких страниц не предназначено для публичного доступа. Отсылка пользователю персонализированной ссылки — возможно не лучшая, но распространенная практика. Как и определенное человеческое раздолбайство вебмастеров — обычное явление. в итоге же страдают и пользователь того же тулбара и (по мере того как тему обсуждают в СМИ) в целом доверие к интернет коммерции.
26 июля 2011 в 13:51 Ответить
Gray
Crio, да все гораздо проще. Ну в чем интерес обсуждать идиотизм разработчиков движка магазина или вебмастеров, которые оказались глупее, чем 20 тысяч строк кода на С? В чем здесь удовольствие? Да ни в чем — земля скудеть идиотами не желает и не будет. А вот подробно порассуждать о громком названии, высказать собственное непонимание законодательства и privacy в интернете, высосать из этого пальца рассуждения об IPO, курсе акций и взаимоотношениях с ДАМом лично — вот это достойное занятие для постоянного посетителя этого сайта. Ну не robots.txt же на сайты ставить, что вы, право.
26 июля 2011 в 14:08 Ответить
Игорь Ашманов Сам себе компания
они были известны только ему и владельцу магазина. Ну, а затем, через свой бар об этом узнал поисковик и рассказал по секрету всему свету. Разве не так? Вообще-то нет. Яндекс никому ничего не рассказывал. Он показал список этих страниц один раз кому-то — а вот тот уже рассказал всему свету, сознательно и энергично. Только после этого Яндекс показал эти же результаты поиска всем — когда все уже знали. В Яндексе заиндексированы миллиарды страниц, подавляющее большинство из которых доступны только теоретически, но никогда и никому не показывались в поиске. Просто потому что их никто не искал, а если и искал, до них не долистал в результатах поиска. Вы посмотрите на средний результат поиска — 100 000 страниц найдено, а смотрят 10-20 максимум. То-то и оно: публикация в Яндексе — чисто потенциальная. У 99,(9)% адресов страниц в Яндексе количество кликов = 0. Вообще-то это публикация ровно такая же потенциальная, как на странице с уникальным урлом на сайте магазина или в кеше прокси-сервера. Кто-то, кто знает адрес или запрос, может получить доступ, а потом растрепать всем. Кто не знает — не может. Когда адрес стал публичным — смотрят все. То же с запросом. Вообще непонятно, как вы отличаете ссылку на страницу, которая с помощью сервиса DNS поднимает страницу из СУБД на сайте или из кешей прокси, от запроса, который ту же страницу поднимает из индекса Яндекса. Разница-то в чём? И то и другое — просто публичный ID страницы. Таким образом, нужен кто-то, кто сознательно сделает ссылку или запрос достоянием общественности. Этот кто-то — человек, а вовсе не робот. Возможно — заинтересованный человек, конкурент или пиарщик. Поэтому всему свету об этих СМСках и кожаных стрингах рассказали люди. А именно СМИ, а также те, кто осуществляет поиск этих «уязвимостей» и по сути пиарную атаку на Яндекс.
26 июля 2011 в 14:09 Ответить
Kost
> Да вы прямо в корень глянули. > Трабла в том, что «Яндекс» не хочет ничего отделять и разбираться, что за данные он проиндексировал. > Цензуры у них типа нет. Если Яндекс решит публично взять на себя функцию цензуры, представьте что тогда будет! Его заклюют все, недовольны будут все. Но зато сколько будет предметов для обсуждения! Это гораздо интереснее, чем вебмастеру-недоумку читать help.yandex.ru про robots.txt .
26 июля 2011 в 14:09 Ответить
long
Gray, переводить стрелки — самое простое что может быть. никто не защищает раздолбаев-вебмастеров. вопрос только в том, какой именно закон разрешает распространять конфиденциальную информацию, ставшую известной случайно, третьим лицам? можно конкретные ссылки на конкретные пункты законодательства? а то пока «высказать собственное непонимание законодательства и privacy в интернете» относится исключительно к Вам.
26 июля 2011 в 14:12 Ответить
Юрий Синодов Roem.ru
Да-да, я слышал эти песни. С зеркалом Рунета понадобилось 5 лет, чтоб вы их перестали петь. Но написать новую легенду, про глупых вебмастеров и идиотов-разработчиков и петь её много лет, пока «Яндекс» не прижмут к ногтю — достойное занятие для сотрудника «Яндекса» Kost, Яндекс уже давно взял на себя функции «цензуры» как вы называете и фильтрации, как это явление называть корректнее. Сами пишут — никакой порнографии и мата на популярных страницах. Представьте, из чего состоял бы топ блогорейтинга (пока был жив), если б этих фильтров не было
26 июля 2011 в 14:18 Ответить
Юрий Синодов Roem.ru
Игорь, спасибо за новую грань с PR-атакой, да. Это многое объясняет. Борьба «Яндекса» за право ничего не делать в таких условиях выглядит как борьба с терроризмом — никаких переговоров и уступок, пусть видят, что нам никого не жалко. robots.txt должен быть написан!
26 июля 2011 в 14:19 Ответить
Heinrich Brüssow
to ashmanov ТО есть вы считаете что если интернет магазин сделает доступной возможность искать по своей базе заказы других людей то его вины в этом нет. Он всегда может сказать — это просто база, че вы туда лазите со своими дурацкими запросами, если бы вы не распиарили то никто бы не знал что у пенсионера Сидорова Феррари. Вообще у нас эта запись в самом низу, и ее никто не видел, просто лежала пылилась. Ага, от любопытства кошка сдохла.
26 июля 2011 в 14:25 Ответить
altrr
Ashmanov, Вы правда не видите разницы между ссылкой и запросом? ;)
26 июля 2011 в 14:29 Ответить
Михаил Козлов Mediascope
Позиция Яндекса, конечно, доставляет. Ребята, ну посмотрите как выглядит ситуация: ваши _клиенты_ (а раз стоит Метрика, наверняка сайт размещал или размещает прямо сейчас рекламу в Директе/Маркете) получают от сотрудничества с вами проблемы, большие проблемы. Мало того, что вы используете информацию о посещении клиентского сайта для рекламы его конкурентов, так еще и вытаскиваете контент, который клиенты не планировали выдавать кому-нибудь наружу. Ну, да, эти вебмастера не такие крутые парни, как вы, не всегда думают про роботс.тхт и что контент может стать доступным случайно. Но зачем вы над ними издеваетесь и поплевываете свысока? Сергей, ты правда не понимаешь, что позиция «сам дурак» не только некрасивая, но и проигрышная? Раз вы такие умные, сделайте хотя бы элементарную защиту от дурака. Метод, который предлагает Максим Зотов хороший, никакая ценная информация не потеряется, а от скандалов себя и ваших клиентов вы убережете. А кто тут рассуждает про «цензуру», так вспомните, что несколько лет назад сайт без авторитетных внешних ссылок вообще имел довольно мало шансов попасть в выдачу, по крайней мере, в Гугле (про Яндекс уже не помню). И никто это цензурой не считал.
26 июля 2011 в 14:29 Ответить
Gray
Юра, ты про что? Разве эти смски или сексшопы мы выложили на главную страницу или привели в качестве популярных запросов в очередном исследовании? Там, где данные проходят отбор — да, мы имеем право применять редакционную политику. А в поиске никакой редакционной политики нет и не будет.
26 июля 2011 в 14:33 Ответить
Юрий Синодов Roem.ru
Сергей, извини, я уже устал колья на голове тешить. Подожду пять лет просто, кину тебе ссылку на этот топик. Если ты честный человек — пришлёшь мне бутылку коньяка.
26 июля 2011 в 14:48 Ответить
Gray
Нет, Миша, никто над юзерами не издевается. И ты сам прекрасно понимаешь, что ни один самый умный робот не определит по урлу, публично доступному, публично известному и не закрытому от индексации, что это вебмастер тут глупее робота, поэтому надо не индексировать, а то чего доброго…
26 июля 2011 в 14:50 Ответить
altrr
mkozloff, лицензия на метрику не дает права яндексу использовать данные для индексации. Только для статистики и больше ни для чего. Надеюсь, представители яндекса тут это легко подтвердят
26 июля 2011 в 14:51 Ответить
opyatzabyl
Эрик Шмидт сказал совершенно умную вещь — не надо делать того, что может станет известно, если вам эта известность не приятна Покупали в сексшопе — Яндекс сделает это известным широкой публике рано или поздно. «А у них робота не была, наша система ничего не знает» или любая другая причина.
26 июля 2011 в 14:57 Ответить
Heinrich Brüssow
че ха конспирологический бред про метрику. ВСе уже договорились, что мы не можем указывать поисковикам какую информацию индексировать а какую нет. Эти страницы индексирует и гугл, и бинг, и яндекс. Другое дело что некоторую информаци показывать в выдаче не красиво и не хорошо. Никто же не сомневается в том что Яндекс знает где лежит чайлд порно? P. S. Да да, щас начнется бред про цензуру etc. Порно цензурируете же? В конце концов это работа поисковиков — показывать или не показывать ту или иную инфу пользователю.
26 июля 2011 в 15:00 Ответить
qqq
> Разве эти смски или сексшопы мы выложили на главную страницу ну, вообще-то, час назад на морде яндекса была новость «Поисковики раскрыли клиентов секс-шопов», т.е. таки да, выложили на главную :)
26 июля 2011 в 15:02 Ответить
altrr
Gray, Вы правильно разделили публичную доступность и публичную известность контента. Пусть есть некий магазин, отправивший пользователю уникальную ссылку о статусе заказа. О ней знает только магазин, пользователь и почтовая система. Публично доступной ее сделал нерадивый вебмастер, не закрывший ее в робота.тхт. Угадайте, кто ее сделал публично известной?
26 июля 2011 в 15:04 Ответить
Gray
altrr, автор топика на Роем.ру?
26 июля 2011 в 15:08 Ответить
Heinrich Brüssow
gray, убили))))
26 июля 2011 в 15:10 Ответить
Юрий Синодов Roem.ru
Нет, это не altrr, к моему глубочайшему altrr, если захочешь быть автором топиков на Roem.ru — в любое время Гонорар в двойном, нет, в тройном размере
26 июля 2011 в 15:11 Ответить
Heinrich Brüssow
Мне положительно нравится отношения Яндекса к своей работе. Даже нет намека на то, что этого, пусть и теоритически, не стоит публиковать. По ряду причин это для и так не ахти какой интернет торговли серьезный удар, это вред репутации людей, и прочее. Пффф, цинизм?
26 июля 2011 в 15:17 Ответить
altrr
Gray, нет я не автор топика. Даже если бы я им был, то что?
26 июля 2011 в 15:21 Ответить
Gray
Яндекс — не СМИ и понятия публикации в нем не существует. Спасибо, кстати, Игорю Ашманову, который это здесь объяснил подробно. Поэтому у сотрудников сервиса не может быть позиции — нельзя публиковать. Есть позиция «нельзя предоставлять информацию, которую ищет пользователь, поскольку это явно запретил владелец сайта». А позиция «Не будем предоставлять информацию, которая доступна в интернете, в ответ на прямой запрос пользователя» называется цензурированием результатов поиска. За этим — в государственный поисковик, если он когда-нибудь сгустится из фантазий.
26 июля 2011 в 15:25 Ответить
Михаил Козлов Mediascope
Gray, ок-ок. Назвать своих клиентов идиотами — это было не издевательство, а просто констатация факта. Я понял. altrr, не знаю что там с лицензией на Метрику, но сотрудники Яндекса публично подтверждали, что данные Метрики используются и для индексации (вот прямо на этой странице в т.ч.), и для подбора объявлений в Директе.
26 июля 2011 в 15:25 Ответить
soomrack
Мне кажется, в данном случае виноват магазин. Именно он не достаточно хорошо обеспечил сохранность частных данных. Из структуры ссылки видно, что вебмастер принял меры для сокрытия данных: чтобы увидеть данные по заказу нужно знать не только номер заказа, но и хеш, вычисляемый по не публичной информации. В старом вебе этого было бы достаточно, но… В веб 2.0 такой защиты уже недостаточно. Privacy в веб 2.0 это очень большая проблема. При открытии страницы вся ее информация, урлы, вводимые данные могут быть доступны: 0. самому сайту; 1. счетчикам, установленным на этой странице; 2. рекламодателям, чьи рекламные блоки крутятся на этой странице; 3. сайтам чей контент вставлен на эту страницу (картинки с др. сервисов, ролики, виджеты…); 4. дополнениям к вашему браузеру; 5. браузерам; 6. ОС. Т.е. даже в самом обычном случае около 10 сторон имеют доступ к информации, а в некоторых случаях из модет быть до сотни. И как тут обеспечить privacy?! Как минимум вебмастер должен сделать так, чтобы на странице, где есть непубличная информация, не было ничего от сторонних сайтов, это защита от п.1,2,3. Как защититься от остальных пунктов — непонятно, возможно в рамках современного веба только грамотно написанный java-applet может обеспечить защиту. Других вариантов я пока не вижу.
26 июля 2011 в 15:28 Ответить
Gray
На всякий случай — во фразе «altrr, автор топика на Роем.ру?» altrr является обращением и по правилам русского языка выделяется запятой.
26 июля 2011 в 15:39 Ответить
Crio
> В конце концов это работа поисковиков — показывать или не показывать ту или иную инфу пользователю. На мой взгляд, работа поисковиков это ПОКАЗЫВАТЬ информацию, по определению. Не показывать — это работа каких-то других органов. (И если вы хотите снова поднять вопрос ДП, то я за то, чтобы поисковик ее показывал наравне с любой другой информацией в частности для того, чтобы другие органы быстрее шевелились по вопросу ликвидации складов.)
26 июля 2011 в 15:42 Ответить
altrr
Gray, тогда Вам с этим вопросом к sinodov. И вообще про авторство постов на роем как раз сейчас есть очень интересный соседний Говоря о Вашей мантре, если речь идет именно о данных, обсуждаемых в этом топике, собранных с помощью отслеживания поведения пользователя, то я не вижу выигрышности такой позиции ни для Янденкса, ни для магазинов, ни для пользователей. Mkozloff, я думаю, что если и было сказано, то не подумав, и очень надеюсь, что это не так.
26 июля 2011 в 15:46 Ответить
Crio
2long: почитал закон; из него совершенно очевидно, что Яндекс не является «оператором» обработки персональных данных (статья 3.2), поэтому его этот закон ни к чему не обязывает. С другой стороны, мегафон/магазины/прочие сайты грубо нарушают статью 19.1 данного закона, а именно: «Оператор при обработке персональных данных обязан принимать необходимые организационные и технические меры, в том числе использовать шифровальные (криптографические) средства, для защиты персональных данных от неправомерного или случайного доступа к ним , уничтожения, изменения, блокирования, копирования, распространения персональных данных, а также от иных неправомерных действий.» С них и спрос.
26 июля 2011 в 15:51 Ответить
Heinrich Brüssow
Я седня нудю, но все таки хотел бы уточнить >> А позиция «Не будем предоставлять информацию, которая доступна в интернете, в ответ на >> прямой >> запрос пользователя» называется цензурированием результатов поиска. это значит что по запросы детское порно вы должны мне показать детское порно? Или где то там ниточка с иголочкой не сходятся.
26 июля 2011 в 15:54 Ответить
Игорь Ашманов Сам себе компания
Игорь, спасибо за новую грань с PR-атакой, да. Юра, по-моему, ты не вкурил в мой комментарий. Пиар-атака здесь не при чём, в том числе потому что ты, как журналюга, вообще таких вещей не чувствуешь, как рыба не чувствует воды. Ещё раз: нет никакой общедоступности результатов поиска по запросу, пока ты не знаешь этот самый точный запрос. Да, ссылка от запроса по сути ничем не отличается. Одно можно получить DNS-запросом, а другое — поисковым запросом. В любом случае, и то, и другое почти нельзя получить случайно, а нарочно — можно. Что касается «цензуры» результатов поиска, о которой тут гневно пишет Петренко, то приведу совершенно очевидный пример: Вот у системы «Виза» есть требование к организациям, совершающим операции с кредитными картами Визы на сумму больше 100 000 евро то ли в день, то ли в месяц (не помню), чтобы номера кредитных карт не выходили наружу из организации в открытом виде ни в почте, ни ещё как. Что такие организации должны подтвердить обязательствами в договоре, какой-то сертификацией и т.п. Номер кредитной карты — это не просто N циферок, это довольно сложный объхект с внутренней логикой, циферки там как-то зависят друг от друга. Мы как-то писали такой распознаватель для компании Infowatch, которая продаёт систему защиты от утечек, в том числе от таких утечек финансовых данных. Ясно, что и объекты типа «ФИО», «почтовый адрес», «адрес электронной почты», «номер ГНИ», «БИК», «номер банковского счёта», «номер телефона», «номер автомобиля» и т.п. — система защиты от утечек распознавать должна. Для этого пишутся специальные картриджи-распознаватели. Часть из них, типа «ФИО», «должность», «название организации», уже есть и у Яндекса, в пресс-портретах. Ну ладно, Инфовотч — это специализированная система, в которую вбиты сотни человеко-лет. Но вот распознаватель номеров кредиток — это не бином Ньютона и не рокит сайенс. Его-то можно в индексатор Яндекса встроить? Сергей, скажи мне, если Яндекс видит на странице номер кредитной карты , должен ли он поместить эту страницу в общий индекс? Или было бы разумно разобрать несколько вариантов принятия решения в данном случае, среди которых, например — заиндексировать страницу, но забить номер иксами, или просто не брать страницу в индекс, или не класть её в кеш и т.п.?
26 июля 2011 в 15:57 Ответить
Heinrich Brüssow
в общем все одно и тоже по кругу. Короче Sinodov прав. проблема всем ясна, признает Яндекс или нет. Может они и раньше об этом думали, теперь будут думать активнее. Щас все будут стоять на своих позициях, но глядишь если, дай бог, лет через пять, перестанут попадать личные данные в выдачу, Яндекс первым скажет что это хорошо.
26 июля 2011 в 16:02 Ответить
Heinrich Brüssow
ashmanov вдруг сменил курс и стал толкать свой продукт. Элегантно.
26 июля 2011 в 16:08 Ответить
Игорь Ашманов Сам себе компания
ТО есть вы считаете что если интернет магазин сделает доступной возможность искать по своей базе заказы других людей то его вины в этом нет. По-моему, вы не вчитываетесь или не понимаете, что написано. Кто виноват в изначальном создании возможности доступа к персональным данным или личной переписке — очевидно, это вебмастер. И именно он нарушил закон, который выше процитировал Crio, не приняв достаточных мер к защите чувствительной информации. Помещение этих данных на открытую страницу с прямым адресом — это уже публикация (или возможность доступа, неважно). Однако ж помещение открытой страницы в индекс Яндекса нисколько не увеличивает степень её публичности — по сравнению с прямым адресом страницы. И то, и другое — доступно, лежит где-то в кустах. Случайно натолкнуться трудно, а если специально искать — и то, и другое одинаково легко найти. И фишеры/хакеры/спамеры, которые перебирают адреса/пароли, хорошо это знают.
26 июля 2011 в 16:11 Ответить
Игорь Ашманов Сам себе компания
ashmanov вдруг сменил курс и стал толкать свой продукт. Элегантно. Какое убожество мысли. Это не мой продукт. И фамилия тоже не моя. Меня зовут Игорь Ашманов. Я просто говорю о том, что мы занимались утечками профессионально, писали ОЕМ-модули для Infowatch (там, впрочем, сейчас своя технология), картриджи распознавания, поэтому я кое-что об этом знаю. Вопрос про блокирование номеров кредиток при индексации — не праздный. Это легко сделать, и это очень чувствительная, опасная информация.
26 июля 2011 в 16:13 Ответить
Игорь Ашманов Сам себе компания
Ну и про вирусы на страницах — тот же вопрос. Здесь Яндекс осознал и блокирует, почему? Это же цензура.
26 июля 2011 в 16:14 Ответить
Heinrich Brüssow
конечно убожество, куда уж мне. Просто сначала вы говорите что поисковик ни в чем не виноват, а потом — что можно было бы и получше стараться. Не, это ваше дело что кому где писать.
26 июля 2011 в 16:15 Ответить
trix
> Случайно натолкнуться трудно, а если специально искать — и то, и другое одинаково легко найти. О, ну расскажите же нам, как «если специально искать» без использования яндекса легко и быстро найти хотя бы один урл страницы со статусом заказа вида http://www.railwayticket.ru/print.php?n=014e3a8e1b3ca79e7d358e3ac4cff025 которые легко находятся по запросу http://yandex.ru/yandsearch?p=12&text=urlwww.railwayticket.ru*|urlrailwayticket.ru*&lr=213
26 июля 2011 в 16:16 Ответить
Heinrich Brüssow
Никто не спорит с тем, что магазин виноват. МОжет ли Яндекс публиковать или сознательно не публиковать — это другой вопрос.
26 июля 2011 в 16:19 Ответить
coffesup
проблема еще в том, что Яндекс коллеционирует не одну страницу, которую можно спалить через роутер или получив доступ к почте одного человека он палит все заказы с сайта с такой вот дыркой. если знать, что есть на таком то сайте уязвимость, то собрать все подобные страницы просто не получится. поэтому это приемлимый способ безопасности яндекс просто взял и собрал все данные по одному источнику через свои spyware
26 июля 2011 в 16:22 Ответить
altrr
Игорь, в том то и дело, что ее неодинаково легко найти. Есть информация с уникальным локатором, известным только тебе. Одно дело, если ты сообщил о нем кому-то, или кто-то догадался, и на нее появились ссылки, т е она стала известна. Другое — если твое поведение отследили (легитимнос или нет — не важно, пусть даже ты сам по непониманию на это согласился) информацию проиндексировали и сделали доступной по релевантным ключевым словам (разумеется они и отличают ссылку, а точнее URL от запроса в поисковик)
26 июля 2011 в 16:27 Ответить
soomrack
to Ashmanov: > Вопрос про блокирование номеров кредиток при индексации — не праздный. Это легко сделать, и это очень чувствительная, опасная информация. Исключение из индекса частной информации (номера кредиток, паспортные данные, номера электронных кошельков и пр.) это плюс для поиска в плане очистки выдачи от мусора, но никак не защита персональных данных. Если такие данные собрал поисковик, значит их может собрать и другой робот, не публичный. На мой взгляд, если частные данные Яндексом проиндексировались, то чем быстрее они окажутся на главной витрине рунета (в его выдаче), тем быстрее их закроют, и тем меньше роботов их соберет. Другое дело, что наличие подобных данных в поисковиках и др. сервисах сбора информации надо централизовано отслеживать и оперативно выносить предписания дырявым сайтам.
26 июля 2011 в 16:36 Ответить
Игорь Ашманов Сам себе компания
Если такие данные собрал поисковик, значит их может собрать и другой робот, не публичный. Для этого ему потребуется вторая компонента этого бинарного оружия — передача урлов через Метрику, Гугл-Аналитику, тулбар или троян. Наиболее вероятный сценарий»непубличного робота» — именно трояны. Но за атаку троянов судить никого не будут, а вот за индексацию Янедксом — могут.
26 июля 2011 в 16:41 Ответить
Игорь Ашманов Сам себе компания
Игорь, в том то и дело, что ее неодинаково легко найти. Есть информация с уникальным локатором, известным только тебе. Ну, уникальный локатор при этом выглядит как простой урл с циферками в конце. Во многих случаях сработает простой перебор. Хакеры тоже ведь не дураки. Ну да, если ты знаешь второй уникальный локатор в виде ключевого слова, которое есть в СМСках или бланках заказа/доставки, можно по нему и поиcковый запрос построить. Но что уникального в локаторах вида: url:www.railwayticket.ru* | url:railwayticket.ru*?
26 июля 2011 в 16:41 Ответить
soomrack
> Для этого ему потребуется вторая компонента этого бинарного оружия — передача урлов через Метрику, Гугл-Аналитику, тулбар или троян. Наиболее вероятный сценарий»непубличного робота» — именно трояны. Но за атаку троянов судить никого не будут, а вот за индексацию Янедксом — могут. Сколько в среднем аддонов установлено в браузерах? А ведь каждый из них потенциально может собирать эту информацию. И она никогда не попадет в поисковую выдачу.
26 июля 2011 в 16:41 Ответить
Crio
> Сергей, скажи мне, если Яндекс видит на странице номер кредитной карты, должен ли он поместить эту страницу в общий индекс Предположим, что ответ на этот вопрос «нет». А потом мы захотим найти документ системы VISA, описывающий конструкцию номера кредитной карты на примерах и его почему-то не окажется в индексе; потом не окажется в индексе части статей какого-нибудь журнала, потому что их ISDN номера случайно оказались потенциально верными номерами кредитных карт, ну и так далее. Идти по этому пути можно, но там столько подводных камней, что «сделайте это немедленно!» точно не получится.
26 июля 2011 в 16:45 Ответить
Crio
>О, ну расскажите же нам, как «если специально искать» без использования яндекса легко и быстро найти хотя бы один урл страницы со статусом заказа вида Конкретно такого — фиг знает; но вообще методом «подбора урл» чего только не взламывали, от банков до Блумберга. Если история ничему не учит, то…
26 июля 2011 в 16:50 Ответить
zotov
Ashmanov> Случайно натолкнуться трудно, а если специально искать — и то, и другое одинаково легко найти Что-то я не пойму, как легко можно узнать специфический адрес, который теоретически был известен только покупателю. Каким перебором? Там хеш из нескольких десятков символов с мультитриллионым числом комбинаций. Я хочу найти в Интернете информацию о каком-то человеке. Я не строю никаких сложных запросов, просто имя и фамилия. Например, ищу «Иван Ла**ун» (на всякий случай зазвездю). И нахожу страницу с информацией о его заказе в магазине на второй позиции в Яндексе. Что такого случайного в моем запросе? Для меня, если я знаю человеке или хочу узнать о нем что-то, ничего случайного. Или вбиваю номер телефона и нахожу смски для этого человека. Что такого специфического и хакерского в моих запросах?
26 июля 2011 в 17:10 Ответить
Михаил Козлов Mediascope
Игорь, Яндекс как раз увеличивает публичность, да еще как. Уникальный адрес, куда может попасть человек никому не мешает. Особенно, если этот адрес действует ограниченное время (10 минут, час, сутки) — как в случае с Мегафоном. Случайно попасть туда нельзя. Разве что перебором — ну, так для этого и делают длинный урл со странными последовательностями символов. А вот если такая страница засвечена в поисковике, то попасть на нее случайно — дело времени, примерно как попасть на порно по запросу «киска», если специально ничего не фильтровать. На мегафоновские смски можно было легко попасть по номеру телефона (я иногда задаю такие запросы), в этот магазин — например, по названию товара, имени получателя, адресу и еще много как. Если продолжать твою аналогию с кустами, то в магазине эти кусты были где-то в глухой Сибири, а Яндекс перенес их на Тверскую.
26 июля 2011 в 17:22 Ответить
trix
> методом «подбора урл» чего только не взламывали Во всех случаях (с Мегафоном и интернет-маназина), где ссылки нашлись в Яндексе, методом подбора урла, найти валидный урл было невозмжно (были длинные случайные части в урлах). Поэтому слова Ашманова — попытка выдать желаемое за действительное.
26 июля 2011 в 17:23 Ответить
Игорь Ашманов Сам себе компания
Это верно, Яндекс публичность повышает. Но не кардинально. Главное сделано — страница открытая. От страницы, которая выдаётся только по куке или которая в принципе не выдаётся никакому поисковику, распознаваемому по user agent, открытую страницу с прямым адресом отделяет такая пропасть, что разница между этой прямой ссылкой или запросом в Яндексе — незаметна. Просто сначала вы говорите что поисковик ни в чем не виноват, а потом — что можно было бы и получше стараться. А вы отвлекитесь от своего чёрнобелого взгляда в духе «а ты за красных или за белых?!!!». Предположим, что ответ на этот вопрос «нет». А потом мы захотим найти документ системы VISA, описывающий конструкцию номера кредитной карты на примерах и его почему-то не окажется в индексе; потом не окажется в индексе части статей какого-нибудь журнала Это пошёл разговор про полноту и точность распознавателя номеров кредиток. Ну так вся история поисковиков про полноту и точность. Да, будут и ложные срабатывания, а где же обходится без них? Этак можно сказать, что и спам не надо фильтровать, а то могут быть ложные срабатывания. Это же управление рисками, непрерывный спектр. А сейчас имеется чёрно-белая ситуация, мы находимся на одном конце спектра: вообще номера кредиток/ФИО/паспортные данные/адреса не распознаём и ничего не делаем. Заметим также, что там могут быть промежуточные решения, о которых я писал: зачёркивать сами номера, а страницы индексировать и показывать. Вас же никого не напрягает замазывание почтовых адресов или номеров кредиток в скриншотах здесь на Роеме?
26 июля 2011 в 17:31 Ответить
Игорь Ашманов Сам себе компания
Во всех случаях (с Мегафоном и интернет-маназина), где ссылки нашлись в Яндексе, методом подбора урла, найти валидный урл было невозмжно (были длинные случайные части в урлах). Я в этом не уверен. И вы этого утверждать не можете: откуда вы знаете, насколько там случайные части? Может, у них рандомайзер кривой и на двадцатом урле зацикливается? Для того чтобы добраться для этих урлов, нужен был сборщик урлов. Это может быть перебор, а может быть тулбар в браузере, которых десятки тысяч видов. Да та же Алекса, например, гугловские прилады и т.п. Вот Андрей Иванов Казанский как-то прошлой осенью раздавал поисковый тулбар в ФФ (сначала от АиП), который сравнивает и замешивает результаты поиска Яндекса и Гугла, а также размечает выдачу. Он роздал 30 000 тулбаров за три дня, а мог бы раздавать 120 000 в день — были бы деньги. Это стоит 1-3 рубля за установку, если хорошо договоришься. И этот тулбар люди практически не сносили (1-2% в неделю), при этом он отдавал на сервер всё: IP, урлы, запросы, клики в выдаче. И никто не парился. Ну и собрал бы он этих сексшопных урлов с тем же успехом. А потом роботом по ним пройтись, заиндексировать — не фокус.
26 июля 2011 в 17:45 Ответить
trix
> Я в этом не уверен. И вы этого утверждать не можете: откуда вы знаете, насколько там случайные части? Может, у них рандомайзер кривой и на двадцатом урле зацикливается? Доказать, что числа действительно случайные, конечно, невозможно. Но точно так же вы не можете предложить простого и быстрого способа перебора этих урлов, что делает разговор о том, насколько он случайные, бессмысленным. > Для того чтобы добраться для этих урлов, нужен был сборщик урлов. Спасибо, Кэп! > Это может быть перебор, а может быть тулбар в браузере, которых десятки тысяч видов. В случае с SMS от мегафона и с интернет-магазинами, это не может быть перебор, так как нет алгоритма, по которому его нужно осуществлять, чтобы получить значительное число урлов за приемлемое время. > .. раздавал поисковый тулбар в ФФ .. Установка тулбаров или spyware — это работающий способ получения урлов, но в отличие от поиска через Яндекс, он 1. Не простой 2. Не дешевый 3. Не всегда охватывает значительную часть пользователей > Ну и собрал бы он этих сексшопных урлов Ну и сколько бы урлов он собрал 30 000 тулбаров (потратив 1-3 рубля за каждую установку тулбара)?
26 июля 2011 в 17:45 Ответить
Игорь Ашманов Сам себе компания
Вот, кстати, запрос в духе «паспорт уфмс дата выдачи место жительства» выдаёт такие страницы: http://bz.uao.mos.ru/textform.aspx?docid=46986&treepath=46968,46986 Тоже Яндекс виноват? Гугл туда же. И что делать вот с такими страницами — они хорошие или плохие: http://kprf-kaluga.ru/documents/wide/475
26 июля 2011 в 17:47 Ответить
umkalive
Друзья, ваши попытки скрасить проблемы поисковиков столь же понятны, сколь и смешны. Запомните истину: Нельзя подслушивать чужие телефонные переговоры, несмотря на то, что провода и эфир доступны. Нельзя перехватывать смс-ки, сообщения электронной почты, аськи, скайпа, несмотря на то, что теоретически это можно осуществить. Нельзя индексировать страницы на которые нет ссылок. Если вы будете плевать на эту простую штуку — люди вас сожрут. И по другому быть не может.
26 июля 2011 в 17:52 Ответить
Gray
Игорь, про кредитки вопрос даже не так сложен, как ты пишешь — он даже более сложен :). Во-первых, остается вопрос с первоисточником — если публиковать номера нельзя, то их индексация является нарушением того, кто опубликовал. Во-вторых, сам по себе номер малоопасен — требуется еще точное имя кардхолдера, CVV, срок действия. В-третьих, представь, что это все опубликовано, только номер кредитки представлен последними четырьмя цифрами, а остальные замазаны. Собственно, банкоматы так часто выдают слипы. Внешне все безопасно, только подобрать и использовать такую кредитку ерунда — первые четыре цифры это код банка, вторые 6 даже простым перебором узнать — ну, вполне комфортное время понадобится. А если они связаны какими-то закономерностями — и подавно.
26 июля 2011 в 18:02 Ответить
umkalive
Вот вам пример а ля мысленный эксперимент: В супермаркете, вы стояли на кассу за женщиной, которая ничего не знала про роботс.тхт и даже более простых вещей она не знала. Вы видели как она расчитывалась карточкой. Вы обладаете хорошой помятью и запомнили детали с ее карточки. Вечером вы опубликовали данные в своем уютном бложике. Женщину обокрали. Внимание вопрос: Кто виноват?
26 июля 2011 в 18:04 Ответить
umkalive
Внимание ваш ответ: Женщина, ибо не пропатчила роботс.тхт. :)
26 июля 2011 в 18:07 Ответить
Crio
> Заметим также, что там могут быть промежуточные решения, о которых я писал: зачёркивать сами номера, а страницы индексировать и показывать. > Вас же никого не напрягает замазывание почтовых адресов или номеров кредиток в скриншотах здесь на Роеме? Конечно, спектр решений может быть разный. Но правильное(ТМ) решение — это навесить люлей тем, кто так раздолбайски подходит к разработке отвественных приложений.
26 июля 2011 в 18:12 Ответить
trix
> Женщина, ибо не пропатчила роботс.тхт [url=http://habrahabr.ru/blogs/subconsciousness/73575/]вы не поверите[/url] P.S. Шучу, шучу
26 июля 2011 в 18:15 Ответить
Игорь Ашманов Сам себе компания
Посчитали Крибрумом, когда появилась первая запись про СМСки Мегафона (мы всё равно меряем операторов). Первая запись, которую видит Крибрум — это Hitman в Твиттере, примерно в 13.07. Его дальнейшие записи в Твиттере выглядят адекватно, в русле версии о его вбросе («вброс, кстати, мой! знакомый директор компании кинул в личку, у них в штате есть сеошнег, оттуда корни, сами побоялись публиковать»). Следующая волна — это ретвиты именно этой записи.
26 июля 2011 в 18:16 Ответить
umkalive
О! Обязательно пропатчу свою карточку. Буагага :)
26 июля 2011 в 18:18 Ответить
deaddy
Кошмарная позиция компании. Необъяснимо безответственная. Только лень удержала от установки Метрики в подружкин хобби-магазинчик на Шопскрипте. Теперь это правило, в дополнение к имеющимся в отношении уже значительного количества других продуктов и сервисов Яндекса — сменить поиск по умолчанию в ФФ сразу после установки, снять все галки при установке чего угодно, предлагающего Бар, не использовать прием ЯД. Вы и правда дождетесь, на юпиках будет не только «на Лукойле не заправляюсь».
26 июля 2011 в 18:21 Ответить
Crio
Если говорить грубо, то заставить Яндекс фильтровать индекс на номера паспортов, карт, и прочую подобную информцию, это значит назначить его всероссийской мамочкой вебмастеров и обязать подтирать всем им сопли.
26 июля 2011 в 18:28 Ответить
Игорь Ашманов Сам себе компания
Однако ж никто не закрывает пункты потерянных вещей, а также вытрезвители и ночлежки для бомжей. Нам социал-дарвинизма не нужно! будем утирать сопли согражданам!
26 июля 2011 в 18:30 Ответить
umkalive
> Если говорить грубо, то заставить Яндекс фильтровать индекс Яндексу наверное лучше всего сказать, что наш хрупкий мир столкнулся с новым вызовом, и он, яндекс, активно борется с современными угрозами в отличие от некоторых недобросовестных, которым не место в современной России, но лишь на задворках цивилизации. Ну, типа гасить такой пожар неразумно, много легче направить на дом зажиточного соседа. :)
26 июля 2011 в 18:31 Ответить
umkalive
> будем утирать сопли согражданам! Вот это — слова Гражданина. :)
26 июля 2011 в 19:08 Ответить
Gray
2 umkalive — я совершенно не сомневался, что вы и вопрос зададите, и сами на него ответите, вот и подумал, чего мне мол встревать? Правда, я надеялся, что здравый смысл иногда бывает сильнее инстинктов тролля, и вы догадаетесь, что виноват в краже тот, кто собственно обокрал. Но такой простой ответ вам в голову придти не мог, ибо к нему никак не пришьешь причастность Яндекса. > Кошмарная позиция компании. Необъяснимо безответственная. Переводя на простой язык — какой ужас, что большая компания Яндекс не желает взять на себя ответственность, освободив от нее остальных. Тех, кто оставлял в открытом доступе такую информацию, и тех, кто добросовестно разнес по бложикам и твиттерам ссылки на нее. Виноватым, как водится, должно остаться зеркало — не на рожу ж кривую пенять.
26 июля 2011 в 19:10 Ответить
anrdey rabotnov
Я не совсем понимаю этот мир, дорогая редакция. Какие-то раздолбаи нарушают элементарные правила безопасности, в том числе просто храня персональные данные, а отвечает за это Яндекс? Кстати неужели никто из потерпевших не может обратиться в суд, заверив нотариально свободный доступ к такой приватной информации?
26 июля 2011 в 19:22 Ответить
qqq
anrdey rabotnov, за юзеров уже заступисся Роскомнадзор — http://tasstelecom.ru/news/one/3490 P.S. Удивляет что тут на Роеме такая буча, а на профессоинальных ресурсах про интернет-торговлю — тишина :)
26 июля 2011 в 19:45 Ответить
G00DMAN
Яндексоиды старательно обходят тему того, как такие документы попадают в индекс, упирая на открытость урлов, robots.txt и прочие мелочи. Оно и понятно, хочется ведь проиндексировать побыстрее и побольше, сокращая отставание от Гугла, но при этом без дополнительных затрат. Потому и берутся урлы и Бара и Метрики, а на то, какие урлы туда могут попасть и что из этого может получиться для конкретных юзеров — тупо плевать. Ведь все можно списать на дебилоидных вебмастеров, которые не защитили сайты от воровства персональной информации хитрыми поисковиками. Ну так они во многих случаях не защитили не потому, что дебилоиды, а потому что не ожидали таких наглых действий. В то же время есть простое решение, о котором уже неоднократно писали в этой ветке — не включать в поиск урлы, на которые нет внешних ссылок. Но это же сложно, и качество быстроробота станет еще хуже, потому проще сделать морду кирпичом и гордо повторять: «роботс.тхт!»
26 июля 2011 в 19:59 Ответить
zotov
> не включать в поиск урлы, на которые нет внешних ссылок. Если бы Яндекс мог знать, что на эту страницу есть ссылка, то он бы уже знал и адрес этой страницы от обычного бота-паука. И не было бы никакого смысла поставлять ссылки из Барометрики. Оттуда нужны как раз те ссылки, о которых Яндекс еще не знает.
26 июля 2011 в 20:15 Ответить
umkalive
> Оттуда нужны как раз те ссылки, о которых Яндекс еще не знает. Оттуда можно много чего брать акромя. Только без разбору все хватать не стоит небось. Хотя золотая акция, туда-суда, может быть им и можно. Судя по тому, что мой айтелефон показывает рост акций Яндекса на +4.4%, наверное им разрешается больше, чем я думал.
26 июля 2011 в 20:39 Ответить
G00DMAN
Оттуда нужны как раз те ссылки, о которых Яндекс еще не знает. Вот оттуда не нужно. Хотите быстро найти новые документы — делайте быстрых роботов или выделяйте для этого больше железа. По поводу внешних ссылок я бы даже ужесточил правило — ссылки должны быть с этого же сайта. Если вебмастер хочет иметь документ в индексе поисковиков — он ставит на него ссылку на уже известных поисковикам страницах, если не хочет, то либо не ставит ссылок, либо закрывает урл в роботс.тхт. Это естественное правило работало всегда, какого хрена сейчас кто-то будет его отменять в своих корыстных целях и по праву монополиста?
26 июля 2011 в 20:41 Ответить
Gray
Я вот, видимо, что-то пропустил за последние годы. Когда, на каком съезде какой партии было принято решение, что поисковики не имеют права индексировать документы без единой входящей ссылки? Это кто такое решил и утвердил? Может, где-то RFC на эту тему написали?
26 июля 2011 в 21:04 Ответить
umkalive
> на каком съезде какой партии было принято решение, что поисковики не имеют права индексировать документы без единой входящей ссылки Это было очень давно. Сначала просто считалось неэтичным подсматривать в замочную скважину. Потом, с развитием производственных отношений, этот момент приобрел правовую форму. А вообще вот тут почитайте, просветляет : http://ru.wikipedia.org/wiki/__
26 июля 2011 в 21:06 Ответить
Михаил Козлов Mediascope
Сергей, твоя позиция понятна. Очень жаль, что Яндекс не может себе позволить прислушиваться к общественному мнению. Дискуссию о порно по запросу «школьницы» и «киски» тут многие прекрасно помнят. Вы тогда тоже говорили «мы зеркало, мы зеркало». Но потом ведь включили здравый смысл, и сделали как просили, правда? Очень надеюсь, что вы там уже ведете какие-то работы, чтобы обсуждаемые данные в Яндексе не всплывали (по крайней мере, не а таких объемах). Если нет, уверен, что это дело ближайших месяцев. И RFC тут не при чем. Здравый смысл, ничего более.
26 июля 2011 в 21:11 Ответить
umkalive
Вот еще: http://document.kremlin.ru/doc.asp?ID…T=1&Page=2 Пункт 4 прямо говорит о том, что читать чужую переписку нельзя. ЗЫ Даже если конверт не запечатан — нельзя.
26 июля 2011 в 21:31 Ответить
G00DMAN
Сначала просто считалось неэтичным подсматривать в замочную скважину. Не у всех. Некоторые и сейчас считают вполне этичным подсмотреть в замочную скважину, какие рожи корчит сосед в своем собственном сортире, а потом рассказать об этом всей улице. Причем в итоге виноват во всем именно сосед и его строители — зачем ставили на сортирную дверь замок старого образца?
26 июля 2011 в 21:33 Ответить
umkalive
А вообще во как было бы круто разрулить: Такой продвинутый президент Медведев заявляет по факту ситуевины. Мол, я такой врубчивый интернетчик подписал указ в котором даю три месяца Яндексу, Гуглу (всему большому Гуглу) навести порядок сцуко во всем-при-во-всем сцуко-интернете. И если че как не так, через три месяца — сцуко вон. В остатке: — Президент с рейтингом. — Граждане с личной жизнью — Яндекс с долей — Гугол весь индекс ради Медведева не переколбасил и потому был послан. Давайте может так и поступим? :)
26 июля 2011 в 21:42 Ответить
Юрий Синодов Roem.ru
Кстати, по поводу чужой переписки: прекрасно делает МТС, присылающий уведомления о задолженности на открытках По идее открытки тоже читать нельзя, но на собираемость задолженностей, подозреваю, такие послания влияют намного лучше
26 июля 2011 в 21:42 Ответить
Валентин Домбровский Travelabs
Илья, ты забыл одну фигню: данные юзеров секс-шопов утекли не только в Яндекс. И Гугл «быстрый» тоже не только потому, что по ссылкам бегает. Действительно, индексация только лишь по ссылкам — это сильное отставание в оперативности индексации. Инфа про подачу дела в прокуратуру порадовала — таки не прописал robots, получи повестку. Первый случай, когда SEO-неграмотность приводит к таким результатам.
27 июля 2011 в 00:04 Ответить
G00DMAN
Psycho, ну если хочется быстрых документов, то в Баре и Метрике донор (в случае действительно нужных свежих страниц) почти всегда известен. Ничто не мешает тут же проверить донора на наличие ссылки. Если ее нет — пока не индексировать. Хотя копить пользовательскую активность на новых урлах можно, я думаю. Впрок. Никаких сложных технологий такой подход не требует, все зависит от желания поисковика. Гугл тоже замазан, но в этой теме его топы не отписываются, в отличие от. Потому и обсуждаем тех, кто идет на «как бы диалог».
27 июля 2011 в 00:21 Ответить
G00DMAN
Ну и кстати, насчет информации под логином/паролем. Если рассмотреть две «хакерские» задачи: 1. Юзер зарегистрировался в личном кабинете простенького секс-шопа (как правило для регистрации нужен е-мейл и пароль) и что-то там купил (мы так думаем). Нужно подобрать пароль и узнать что. 2. То же, что и в п. 1, но покупка без регистрации, юзеру сгенерировали сложный урл. Задача та же — узнать, что он купил. Сложность решения задачи для хакера примерно одинакова, часто п.1 решается проще, пароль подбирается, т.к. на простеньком магазине может не быть супер защиты. Т.е. вариант из п.2 был достаточно надежным (хотя и не без минусов — в процессе поиска наш хакер мог получить инфу по куче других заказов, ему не нужную, но все же), пока его не убили поисковики. А убив, заявили, что они тут не при чём, во всем виноваты вебмастера. Ну да, стопудово. :)
27 июля 2011 в 00:24 Ответить
Валентин Домбровский Travelabs
Кстати, на серче Сергей заявил: «Я уже не надеюсь, что до этих «специалистов» дойдет, что Яндекс.Бар здесь не причем, но на всякий случай повторю — Яндекс.Бар здесь не причем. Страницы магазинов и жд билетов проиндексированы благодаря Метрике». Правда, натолкнулся на возражение о том, что в индекс попали сайты без Яндекс.Метрики.
27 июля 2011 в 00:37 Ответить
deaddy
А как узнать, от какой даты текущая версия пользовательского соглашения Метрики и можно ли как-то посмотреть предыдущие редакции?
27 июля 2011 в 03:54 Ответить
Юрий Синодов Roem.ru
По словам его представителя Очира Манджикова, «Яндекс» не удаляет страниц из результата поиска, пока владельцы сайта не примут мер, чтобы их содержимое не было доступно поисковой системе, для этого нужно ограничить доступ к страницам через файл robots.txt. Google, по словам его представителя Аллы Забровской, может сам удалить данные из индекса, если получит информацию — от пользователей и из других источников, включая госорганы, — о незаконно опубликованных персональных данных. Забровская пообещала, что ссылки на данные пользователей интернет-магазинов тоже будут удалены. Последние утечки — особый случай, считает представитель Microsoft Александра Паришева: «Поисковые системы сканируют информацию в публичном доступе, но мы прорабатываем техническую возможность ограничения доступа к опубликованным персональным данным граждан». http://www.vedomosti.ru/tech/news/1326617/lichnost_po_zaprosu Думаю, участникам дискуссии будет интересно узнать, что «Яндекс» свою позицию не изменил ни на йоту. И в этих крысиных бегах за вымпелом Don’t be Evil занял последнее место. Время сносить «Яндекс.Бары», однако.
27 июля 2011 в 04:36 Ответить
jet
Следующая серия: документы ДСП с gov.ru http://www.google.ru/search?q=allintitle:++++site:gov.ru
27 июля 2011 в 07:10 Ответить
Игорь Ашманов Сам себе компания
Думаю, участникам дискуссии будет интересно узнать, что «Яндекс» свою позицию не изменил ни на йоту. А ты, значит, почувствовал в себе невиданную силушку богатырскую, прогнуть Яндекс, да? Заставить его изменить позицию! Азарт почувствовал? И в этих крысиных бегах за вымпелом Don’t be Evil занял последнее место. Even if you win a rat race, you are still a rat. Каким это образом Яндекс занял последнее место? Ты, наверно хочешь сказать, что он а) не участвовал ни в каких бегах, б) на словах меньше прогнулся. Заметим, что процитированные Ведомостями пиарщики Гугла и Бинга вообще не могут никак повлиять на то, что на самом деле будет сделано внутри поисковиков, которые разрабатываются в далёких США. Планы разработки от них не зависят. Они просто говорят слова, приличествующие случаю. Ну да, их начальники (директора русских офисов продаж) сигнализируют наверх о локальных юридических проблемах на рынке третьего эшелона, да и будут ждать у моря погоды. Заметим, что Яндекс таки убрал СМСки из выдачи, а что к этому моменту уже сделали Гугл и Бинг, кроме слов пресс-секретарей?
27 июля 2011 в 07:31 Ответить
Игорь Ашманов Сам себе компания
А вообще мне нравится наблюдать, как работает моск у Юры и прочих местных правозащитников — они не понимают того, что сами же пишут. Или даже понимают ровно наоборот — то, что сказали сами же. Вот они негодуют: Смотри, Яндекс — ты же в прошлый раз игнорировал общественное мнение! Не хотел киски и школьниц почистить! Не хотел рейтинг блогов модерировать! А ведь потом пришлось!!! И сейчас придётся! Ну да, а как ещё жизнь устроена? Это и показывает, что Яндекс прислушивается к общественности, а не наоборот! Вы против чего согласны-то? Ребята, а как вы вообще представляете себе достижение общественного консенсуса? Да даже консенсуса с вашей женой по поводу отпуска или покупки шмотки? Ну да, она сначала будет спорить, у неё будут свои аргументы, у вас свои, интересы же разные; потом вы её частично убедите, она уступит, вы уступите, кто-то предложит решение, вы договоритесь на чём-то. А вы что — хотели бы, раз в прошлый раз Яндексу пришлось подвинуться в вопросе порно, чтоб он теперь по щелчку ваших пальцев прибегал и спрашивал: чего изволите в этот раз удалить из выдачи?! Будет сделано! Есть! Так точно! Бегу выбрасывать! Больше не повторится!!! На Роеме же написали!!! Вы жену-то смогли так выдрессировать? Начните с неё, вы ей хотя бы денег даёте. Скорее всего скандал ещё будет продолжать шириться, всякие компании и специалисты из ИБ, студенты и оптимизаторы будут искать «уязвимости», чтоб отпиариться, в Яндекс последуют запросы из официальных органов, вожди выскажутся, пиарщики отстреляются, СМИ охрипнут, «эксперты» повторят сто банальностей, яндексоиды найдут какую-то формулу согласия (как с удалением рейтинга блогозаписей), объявят о ней. Ну и что? Так и рихтуются обычаи делового оборота и законы. Например, так появился известный Сарбейнс-Оксли. Яндексу, кстати, этот шум выгоден, как ни странно — он повышает значимость поиска в обществе. Вы пафос-то правозащитный снизьте всё же. Обсуждайте суть проблемы, а не возмутительную неуступчивость Яндекса. И кстати, а что ж вы перестали гневно обличать ВКонтакт за средний палец, порно и неуважение к пользователям? Или теперь за это отвечает Пеганов?
27 июля 2011 в 08:56 Ответить
kemko
Добавлю свои пять копеек, что ли. 1. Начиная с какого времени Яндекс.Метрика начала поставлять список URL для индексации поисковому роботу? 2. Это, как вы успели убедиться, довольно важное изменение. Почему была отвергнута идея сделать e-mail рассылку вебмастерам о нем? 3. Почему было решено не выносить это изменение отдельным пунктом к лиц. соглашению? Не для всех очевидно, что право собирать анонимную статистику может повлечь передачу собранных реферреров поисковому боту. 4. Почему был отвергнут вариант сделать этот процесс опциональным и по умолчанию отключенным? Вебмастер в принципе сам должен понимать, что если сайт готов к такому вниманию со стороны роботов, этот пункт выгоднее включить, т.к. это должно увеличить скорость индексации. 5. Я правильно понимаю, что в современном Яндексе теперь считается, что если человек научился делать сайты и хочет начать собирать статистику, например поставив метрику, Яндекс не считает его целевой аудиторией, ибо сейчас яро выставляет его виноватым в индексации «скрытых» страниц. Человек как минимум должен постичь азы SEO и понять как ему аукнется метрика и отсутствие robots.txt, иначе должен идти лесом? Спасибо за внимание. :)
27 июля 2011 в 10:02 Ответить
Crio
> По поводу внешних ссылок я бы даже ужесточил правило — ссылки должны быть с этого же сайта. > Если вебмастер хочет иметь документ в индексе поисковиков — он ставит на него ссылку на уже известных поисковикам страницах, Пардон, а откуда в таком случае на новом сайте появятся «уже известные поисковикам страницы»?! По этому пути можно пойти дальше — кто подал в поисковик sitemap, тот и индексируется, причем ровно в объеме этого sitemaр и ни на йоту больше; можно сразу со списками ключевых слов. Очень удобно для (криворуких) вебмастеров, но совершенно невыгодно пользователям.
27 июля 2011 в 10:07 Ответить
Crio
> Сложность решения задачи для хакера примерно одинакова, часто п.1 решается проще, пароль подбирается, т.к. на простеньком магазине может не быть супер защиты Bullshit. Вполне надежные решения этой проблемы разработаны, описаны и даже включены в стандартные библиотеки. Если «простенький магазин» не имеет приличной парольной защиты, то только по раздолбайству его авторов (которое еще раз подтверждается использованием «секретных url»).
27 июля 2011 в 10:08 Ответить
Crio
> Ну да, а как ещё жизнь устроена? Это и показывает, что Яндекс прислушивается к общественности, а не наоборот! Вы против чего согласны-то? В кои-то веки я согласен с Ашмановым :)
27 июля 2011 в 11:52 Ответить
Юрий Синодов Roem.ru
Игорь, нормально у меня работает моск. Я поэтому Петренко и в статье и написал про пять лет, через которые или падишах, или Яндекс. Ну или я, да. А из Google SMS тоже исчезли. Их там, правда и было чуть — тексты в сниппет не попали, а время жизни страниц действительно невелико. То есть, переход на них ничего не давал
27 июля 2011 в 11:52 Ответить
chonduhvan
Я правильно понимаю, что в современном Яндексе теперь считается, что если человек научился делать сайты и хочет начать собирать статистику, например поставив метрику Вы путаете домашние странички и манипуляции с персональными данными, (коммерческой|государственной) тайной. Я вот уколы могу ставить и периодически самолечением занимаюсь, но если от это кто-то пострадает, то меня ждет уголовная ответственность.
27 июля 2011 в 12:13 Ответить
umkalive
У меня вопрос к представителям поисковиков: На моем домашнем компьютере куда мне положить роботс.тхт или, скажем, «нижайше_прошу_пощадить.тхт», чтобы бары/браузеры не выкладывали мои личные фотки в сеть? А то там у меня есть такие, где я неважно выгляжу и стесняюсь.
27 июля 2011 в 12:17 Ответить
umkalive
И еще вопросик, если можно, уважаемые. Могу ли я установить апач на домашнем компе? Если да, то буду ли я после этого храброго поступка считаться ответственным перед человечеством вебмастером?
27 июля 2011 в 14:31 Ответить
Михаил Фадеев Яндекс
to umkalive: если под этим апачем будут собраны чьи-то персональные данные, боюсь что да.
27 июля 2011 в 16:46 Ответить
umkalive
> to umkalive: если под этим апачем будут собраны чьи-то персональные данные, боюсь что да. Даже если домена нет? Ужос. Лучше не буду ставить от греха.
27 июля 2011 в 17:10 Ответить
chonduhvan
Ну как это домена нет? А localhost?
28 июля 2011 в 17:11 Ответить
inweb
Мне казалось, что работа Сергея Петренко локальная менеджерская и к технологии и идеологии поиска отношения не имеет. Тогда можно предположить, что Сергею передали официальную версию, чтобы он ее озвучивал или же он говорит свое личное мнение, которое к действиям Яндекс отношения не имеет. Или я неправильно понимаю роль Сергея в Яндексе?
29 июля 2011 в 01:25 Ответить
Gray
Короткий ответ — вам казалось. Более длинный — видимо, что-то вам мешает предположить самое очевидное — что мое личное мнение совпадает с позицией компании. Как это происходит технически — включите воображение.

Важное

Обсуждаемое

Мегафон разрешил Яндексу индексировать пользовательские смски 123

Лучшие комментарии