Точка зрения
"КТ": А насколько качество поиска коррелирует с популярно-стью поискового сервиса?Себрант:Ни насколько.Волож: Да нет, если наш поиск долго будет хуже гугловского или рамблеровского, то люди начнут уходить.
Себрант: Но не наоборот. Если предположить, что гугловский поиск будет на два процента лучше, то… Во-первых, что значат эти два процента? Во-вторых, что значит "лучше"?
Волож: Неизвестно, как устроена эта материя. Почему пользо-ватели приходят туда, а не сюда - никто не знает.
Сегалович: Ну, нет, я знаю.
Волож: У тебя теории. У всех свои гипотезы. Я вот считаю, что просто не надо вредить. Надо стараться делать хорошо…
«Яндекс. Сегодня» - Сергей Леонов, Владимир Гуриев,
опубликовано в журнале "Компьютерра" №11 от 22 марта 2006 года - http://offline.computerra.ru/2006/631/259144/
Такая вот была три года назад приятная добродушно-расслабленная беседа первых лиц Яндекса, безусловного лидера русского поиска, с корреспондентами «Компьютерры». Хорошо-то ведь как: пользователи почему-то приходят сюда, а не туда; что такое "лучшее качество поиска" - непонятно, а гипотез разных много, ну их к лешему; надо просто стараться делать хорошо, стараться делать лучше… Спустя два года, в 2008-м получилось "как всегда": 25% новых сайтов, по данным Яндекса, были классифицированы как поисковый спам, на бесплатных хостингах – свыше 50%.
Появление новых сайтов и поиск – звенья единой цепи в деле обеспечения нас качественным Интернетом. Похоже на завод: продукция - сайты, поиск – отдел упаковки и доставки до потребителей. Сравнение хорошее, сразу видно: что-то здесь не так. Не может быть все в порядке на заводе, где каждое четвертое изделие официально признано браком. И сколько их, "почти хороших" сайтов, до потребителей все же дошло.
Пользователей поиска в Рунете десятки миллионов человек. Говорить от имени такой аудитории позволяют себе только поисковики. Мол, мы даем ответы на десятки миллионов запросов, значит, пользователям это нравится, иначе бы не спрашивали. Или, как сказал вице-президент Google Марио Коэйрос, "мы можем оценить адекватность своих представлений о качестве поиска по работе Google в сотне стран". Поэтому, когда я вижу – который год уже - в ответ на запрос "рассказы" в первой десятке Яндекса и Google девять ссылок на сайты с низкопробной порнографией, начинаю сомневаться в первую очередь в собственной адекватности; авторитет опыта организации поиска для миллионов пользователей и в сотне стран давит бетонной плитой. Выдача не нравится категорически, так ведь Google!, ведь Яндекс же!.. Но вспоминаю анекдот: "Если на стене сарая видишь надпись из трёх букв - не верь глазам своим. В сарае дрова лежат", - и становится как-то легче.
Попытаюсь сформулировать претензии к нашим "зеркалам Интернета" именно с точки зрения пользователя. Личной, а не десятков миллионов. Совпадают ли наблюдения с вашими, читатель, вам и решать.
Что не нравится
Итак, что не нравится. Думайте сами - тенденции это или мелкие единичные недостатки, которые не очень-то и портят общую радужную картину замечательного русского поиска.
- Не нравится, что в результатах поиска по запросам, совпадающим с названием товара или услуги, показывают большей частью а) адреса продавцов, б) продавцов московских. Если я, проживая в Казани, ввожу запрос "мебель" - это не значит, что я уже готов покупать мебель в Москве. Думаю, пользователи поиска из "немосквы" картину узнают.
- Не нравится навязчивая порнография. Я не принципиальный ее противник, просто меру знать надо. "Рассказы", "бесплатное видео", "девушки", "брюнетка", "крупный план", "негры", "пляж" и так далее – это не те запросы, по которым нужно показывать по 3-10 порноссылок.
- Не нравится бессистемность, бесструктурность выдачи. По запросу "литература" должен выдаваться подробный рубрикатор, позволяющий быстро представить себе состояние дел в этой области в Сети, а не пять ссылок на электронные библиотеки, статью из Википедии и пару известных литературных ресурсов. То же самое касается и других информационных запросов.
- Не нравится низкое качество текстов на сайтах, "оптимизированных" для поисковых систем. Именно они чаще всего хорошо видны в результатах поиска. "Вы спросили в Яндексе «шкаф-купе». Вы хотите купить шкаф-купе, потому что нужно сложить вещи в шкаф, который может быть купе. Правильно, шкаф-купе это самое лучшее решение. Наши шкафы-купе помогут вам. Мы уже триста лет делаем эти самые шкафы-купе и в производстве шкафов-купе приобрели изрядный шкафокупейный опыт. Купейношкафные мастера, изготовляющие шкафы-купе нашей компании размножаются в наших же шкафах-купе и передают опыт шкаф, irfa, купе, regt из поколения в поколение…" Иными словами, "SEO-копирайтинг".
- Не нравится практика поисковых систем вываливать в ответ на точный - длинный - запрос кучу ссылок ни к селу, ни к городу. Видимость "поиска" создается, но результат нулевой. В ответ на запрос "где в Казани починить часы" предлагают тексты "Затем он посетил митрополита, оттуда был в монастыре Девичьем, где чудотворный образ Явления Казанской Богородицы. Потом был у вице-губернатора Кудрявцева, 18. За три дня пребывания в Казани Петр I осмотрел кожевенный и суконный заводы…", По дороге он тяжело заболел и был времен-но оставлен в Казани, в доме профессора Казанского... Важную роль сыграл он в организации и дея-тельности факультета восточных языков СПбу, где дважды избирался на пост декана (1855-1858, 1866-1870) и т.п. Всего 56 тысяч страниц, и ни одной ссылки по делу. Пример, понимаете, не единственный. Судя по всему, в недалеком будущем нас ждет появление возможности голосового ввода запроса в поисковые системы, что приведет к стремительному сдвигу потока запросов в сторону более длинных, естественных формулировок. Чтобы увидеть, с какой проблемой столкнутся тогда и пользователи, и поисковики, "наговорите" с клавиатуры что-нибудь вроде "сломался генератор на Suzuki, где в Москве находятся фирменные автосервисы" и насладитесь результатами поиска в ответ на отлично сформулированный запрос.
- Не нравятся расплодившиеся в последние годы "мэшапы", "информационные ресурсы", "развлекательные порталы", сайты, состоящие большей частью из ворованной информации на самые разные темы – без указания авторов, источников. Нашпигованные рекламой и желтыми заголовками, провоцирующие кликать и кликать по ним. Воровство информации поставлено на промышленную основу, свежие украденные статьи на таких сайтах в поисковом индексе появляются раньше, чем оригиналы.
- Не нравятся сайты несуществующих компаний, созданные для продажи ссылок.
- Не нравится ссылочный мусор на хороших, живых проектах.
- Не нравятся сайты, на которых "партнерская" реклама самих же поисковых систем занимает центральное место на странице, либо является основным содержанием.
- Не нравится откровенный спам – страницы, напичканные галиматьей, нечитаемым текстом, "рерайтом", авторефератами, автоматические дорвеи.
- Не нравятся многочисленные "каталоги", "доски объявлений" и "энциклопедии", использующие одну и ту же базу данных, но пролезающих в индекс и результаты поиска в виде разных сайтов.
- Не нравятся проекты, у которых хорошо видна цель продвинуть как можно больше страниц в поисковые индексы. Доходит до абсурда, "Войну и мир" пытаются разбить чуть ли не по предложениям, по одному на каждой странице. Естественно, с блоком рекламы на каждой.
- Не нравятся "партнерские программы", как "товарные", так и "знакомств" - база данных одна, сайтов в индексе тысячи, везде одни и те же рожи.
Все упомянутое только мне кажется, или вы тоже замечали что-то подобное?
Но больше всего не нравится, что весь этот мутный вал некачественной, анонимной, недостоверной, неструктурированной информации, за которую "владельцы сайта не несут никакой ответственности, ссылка при копировании обязательна", не уменьшается, он растет с каждым годом. Ни Интернет, ни поиск лучше не становятся. Впрочем, как философски заметил руководитель спецпроектов Яндекса Андрей Себрант, "что значит лучше"?
Что значит "лучше"?
Вопрос, конечно, интересный. Подходы к оценке результатов поиска описаны в статье "Парадоксы релевантности" и дополнены в 9-м выпуске рассылки "Проблемы качества поиска". Если уж браться за этот вопрос, стоит изучить терминологию. Иначе может быть непонятно, почему единственный пертинентный ответ на сотой позиции при наличии 99 вышестоящих релевантных ссылок может считаться как вполне качественным, так и не очень, дело в методиках. Общепринятой пока нет, поэтому без "теорий и гипотез" не обойтись. Рассматривать лучше крайние подходы, истина окажется где-то между.
Вот первый. Поисковики служат пользователям, пользователи и решают, насколько хорош тот или иной поиск. Кому что нравится. Если опросить всех пользователей, а каждого пользователя по всем сделанным им запросам, можно получить достоверные данные. Что-то вроде: 100000 человек в Яндексе задали вопрос такой-то, остались довольны результатом 50000, недовольны 20000, 30000 сами еще не поняли. И так для каждого запроса. В итоге выйдет цифра некоей "удовлетворенности" аудитории своим поисковиком – 75%, 50%... Всех, конечно, не опросить, но с помощью выборочных опросов можно получить более-менее приближенную цифру. Примерно так сегодня и делается.
Другой подход. Попытаться сравнить реальные результаты поиска с неким "эталоном", идеальными результатами. Прием хорошо используется во многих науках, но в поисковых технологиях с эталонами явная проблема. Есть хорошее описание идеального поиска от бывшего руководителя исследовательских лабораторий Yahoo! Гари Флейка: "Если бы веб-поиск был совершенен, он бы выдавал ответ на каждый запрос, и это происходило бы так, будто на вопрос отвечает умнейший человек в мире, у которого есть под рукой вся справочная информация, и все это выполняется меньше, чем за мгновение. Другими словами, поисковик был бы ... таким умным, что если правильный ответ теоретически может быть найден в стремящихся к бесконечности ресурсах, он бы нашел его. Если бы верного ответа не существовало, тогда ... выдавал наиболее близкий по смыслу ответ, или даже объяснение, почему ваш запрос не может получить идеальных результатов".
Как видим, определение не так-то просто применить для оценки результатов по отдельно взятым запросам, например, любимыми оптимизаторами "кондиционерам", "пластиковым окнам" или "шарикоподшипникам". А руководитель спецпроектов Яндекса Андрей Себрант, скорее всего, философски заметит: "Что значит «умнейший»?".
Стоит отметить следующее. В случае сравнения с идеалом значение имеет каждый (!) анализируемый ответ. При статистической же оценке миллион некачественных ответов на разные запросы вполне можно списать на ошибки измерений. Первый подход обычно применяют представители поисковиков: "Мы не знаем, как должны выглядеть идеальные результаты в ответ на запрос «шарикоподшипники». Зачем думать об одном запросе, наш поиск отвечает на десятки миллионов разных запросов". Второй - пользователи: "Я искал схему агрегата N, куча мусора в ответ, ничего не нашел. Какой же отвратительный этот поиск M!".
Теории идеального ответа, которую можно применять на практике, сегодня не существует. По методике РОМИП (описана в "Парадоксах релевантности"), "идеальным алгоритмом ранжирования считается тот, для которого выводы, сделанные системой, согласуются с мнением оценивающих экспертов". А экспертам рекомендовано использовать… здравый смысл. Цитирую инструкцию для асессора дорожки поиска: "Ключевое правило - используйте ваш здравый смысл и попробуйте представить себя на месте человека, задавшего этот запрос".
Здравый смысл - вещь, конечно, хорошая, но сложно представить себе результаты работы врача, архитектора, конструктора, основанные исключительно на здравом смысле, без предварительной специальной теоретической подготовки.
Мой здравый смысл говорит, что девять ссылок на порнуху в топе выдачи по запросу "рассказы" - это уже за гранью здравости; асессоры, оценивающие релевантность каждой такой ссылки, ничего плохого не нашли.
Спросил "рассказы"? – Это рассказы.
Рассказы могут быть эротическими? - Могут. Значит, релевантно.
И так девять раз подряд. И нет никакого теоретического положения, согласно которому асессор должен понижать оценку качества выдачи в ответ на нечеткий запрос, если она состоит из однотипных предложений, являющихся ответами на более точный, узкий запрос.
Гипотеза первая
Вряд ли поисковики смогут кардинально изменить качество результатов поиска до тех пор, пока не появится более-менее приличная рабочая теория формирования идеальной выдачи в ответ на поисковый запрос. Это даст хотя бы возможность сравнивать версии ответов, что уже лучше, чем "во-вторых, что значит «лучше»?".
Конечно, "надо стараться делать хорошо". Но, как писал А.В. Суворов, "надобно ж и умение", на одном здравом смысле далеко не уедешь.
Экономика антикачества
Вернемся к нашей заводской аналогии, где каждое четвертое изделие бракуется. Почему? Продукцию делают не роботы, люди, у каждого спам-сайта всегда есть автор, чей творческий замысел так негативно оценила поисковая система. Считать спамеров клиническими дебилами, не понимающими смысл слов Аркадия Воложа "просто не надо вредить", не получается, таких сайтов сотни тысяч, слишком много. Налицо четко выраженная мотивация для их изготовления и порожденные ей технологии. Которые технический директор Яндекса Илья Сегалович еще в 2000 году назвал "антипоисковыми".
Давайте взглянем, что сегодня выгодно.
- Воровать контент - выгодно. О масштабах воровства можно судить по тому факту, что крупнейшие западные издательские дома и компании в марте попросили Google избавиться от медиапаразитов, использующих чужой эксклюзивный контент для перехвата посетителей из верхних строчек результатов поиска.
- Уродовать оригинальный текст, завышая частоты ключевых слов – выгодно.
- Генерировать бессмысленный, но грамматически правильный текст – выгодно.
- На базе одной хорошей статьи с помощью ручного или автоматического "рерайта" делать пять и больше – выгодно.
- Разбивать большие тексты по одному абзацу на странице для увеличения количества страниц в поисковых индексах – выгодно.
- Создавать сайты несуществующих компаний – выгодно.
- Обвешивать сайты партнерской рекламой на самых видных местах – выгодно. - Создавать псевдопроекты, единственной целью которых является попадание в индекс, для продажи ссылок – выгодно.
- Посредничать в торговле ссылками – выгодно.
- Размещать на хороших сайтах блоки "продвигающих" ссылок – выгодно.
- Взламывать сайты и размещать втайне от их владельцев блоки ссылок – выгодно.
Вышеперечисленное никак не может улучшить качество Интернета и поиска, но активно применяется в самых различных комбинациях. Доход обеспечивается при необходимом участии в схеме поисковых систем, без них ни один из упомянутых приемов не работает.
Это не попытка морализаторства, это попытка констатации факта, что экономика сайтостроительства сегодня ориентирована не на улучшение, а на ухудшение сетевого контента. Сегодня, чтобы зарабатывать на продаже ссылок, необходимо выполнить единственное условие: добиться, чтобы сайт был проиндексирован; качество содержимого сайта при этом не имеет никакого значения.
Тем же владельцам сайтов, которые смысл слов "не надо вредить" понимают хорошо, предложен тяжелый выбор. Или "не вредить" и находиться на сотых позициях в поиске в надежде, что поисковики когда-нибудь научатся фильтровать поисковый спам, отличать лучшее от худшего, и все праведники, наконец-то, честно попадут в рай, т.е. в топ выдачи. Дожить бы. Или заплатить специалистам, которые "оптимизируют тексты", "пропишут сайт в каталогах" и "разместят ссылки на сайт", т.е. профинансировать откровенное вредительство. При этом позиции в поиске, за которые поисковики, как гусары с женщин, денег не берут, свободно продаются SEO-компаниями с гарантией: нет позиции – не нужно платить.
Гипотеза вторая
Пока не будут созданы экономические условия прибыльности производства действительно хорошего контента, надеяться на общее улучшение качества поиска вряд ли возможно. Каждый веб-мастер, создающий хороший сайт, должен точно знать, чем это ему выгодно, и как эта выгода будет реализована. Спамеры и оптимизаторы механизмы получения дохода от своих действий знают прекрасно.
Вспомним Крылова: "Навозну кучу разрывая, Петух нашел жемчужное зерно…". Поисковики, конечно, будут все больше и больше настраивать свои "сотни параметров ранжирования" в поисках жемчужных зерен, но дело уже не в факторах, а в сравнении экономик производства жемчуга и навоза. В условиях современной концепции поиска производить дерьмо намного выгоднее. То есть искать по-настоящему хорошую информацию будет все трудней.
SEO – друзья или враги
19 марта известный SEO-специалист Евгений Трофименко опубликовал объявление, что готов выплатить от $1000 сотруднику Яндекса, который согласится продать служебный документ - инструкцию для асессоров.
Обоснование Евгения: "Я хочу уметь делать качественные сайты. А в инструкции написано, какие сайты качественные, а какие - нет. Так что реального секрета здесь быть не может, по крайней мере, вреда в этом нет".
Разработчик поисковых систем "Апорт" и Gogo.ru Михаил Костин так прокомментировал это заявление. "На самом деле, поисковые системы не скрывают информацию о том, какие сайты они считают качественными, а какие нет, наоборот, постоянно стараются об этом рассказывать. Но публиковать с этой целью внутреннюю инструкцию для асессоров было бы странно - у нее другое назначение, и она не подходит для использования в качестве справочника веб-мастера".
Интерес к такой инструкции со стороны SEO-специалистов связан, я думаю, все же не с недостатком информации о том, что поисковики считают качественным сайтом. Скорее, с тем, что из нее можно попытаться извлечь какую-то информацию о внутренней кухне поисковиков, о том, как трактуются какие-то пограничные ситуации, на что особо обращается внимание асессоров и т.п. В предоставлении оптимизаторам такой информации поисковики, естественно, не очень заинтересованы - хотя чего-то особо секретного в подобных инструкциях и нет".
Через четыре часа предложение было снято, видимо, кто-то продал. По слухам, через пару дней империя нанесла ответный удар – Яндекс сократил на треть количество своих асессоров.
Отношения с SEO-сообществом - пожалуй, самая спорная тема в позиционировании поисковых систем. Пользователи – понятно, поисковики работают для них. Спамеры – тоже понятно, они откровенно работают против поисковиков и иллюзий не имеют: поисковики в этой войне пленных не берут, но и спамеры не обязаны проявлять к поисковикам лояльность и понимание. А кто такие "оптимизаторы", чего от них больше – вреда или пользы?
Оптимизаторы сообщают саппорту поисковой системы о наличии в выдаче по интересующим их запросам поискового спама – это хорошо.
Оптимизаторы активно предлагают своим клиентам пользоваться контекстной рекламой, ведут клиентские кампании, консультируют, иными словами, помогают поисковику заработать – это тоже хорошо.
Оптимизаторы привлекают в Интернет новые компании, новые бизнесы, новую информацию – и это хорошо.
Оптимизаторы продвигают наверх в результатах поиска, как правило, профессионально сделанные качественные сайты, выдача по запросам, где эти сайты уместны, становится лучше – и даже это хорошо.
Но оптимизаторы также делают почти все, что перечислено в "Экономике антикачества". По данным компании "Ашманов и Партнеры", в 2008 году только на платные ссылки ими было потрачено около 50 миллионов долларов.
Таким образом, оптимизаторы привлекают в Сеть деньги клиентов, часть которых достается поисковым системам и расходуется на обеспечение качества поиска. С другой стороны, те же оптимизаторы от тех же клиентов привлекают в Сеть деньги, которые финансируют откровенное вредительство - платные ссылки поисковики не приветствуют. Оборот контекстной рекламы в 2008 году оценивается в 300-350 миллионов долларов, и неизвестно, какая часть этих денег поступила благодаря авторизованным рекламным агентствам, являющихся подразделениями SEO-компаний.<.p>
Проблема поисковиков не в сложности выбора, стоит ли ради прибыли в n миллионов терпеть в заднице шило стоимостью в 50 миллионов. Суть ее в пункте 3.4 лицензии Яндекса: "Яндекс (читай – поисковая система) понимает релевантность как наилучшее соответствие интересам пользователей, ищущих информацию, что может в общем случае не совпадать с интересами авторов сайтов".
Соответствие интересам пользователей всегда определяется по паре "запрос – ответ". Например, очень хороший качественный сайт "Анекдоты из России". Давайте продвинем его по запросам "яндекс", "сбербанк", "роем" - пусть пользователи с такими запросами улыбнутся. Пользователи, может, и улыбнутся, а вот поисковики вряд ли и обязательно постараются убрать из выдачи этот "юмор". Такой пример несовпадения интересов авторов сайтов и интересов пользователей понятен всем, ситуация доведена до абсурда.
Вот другой пример. Можно ли сайт funkeprofi.ru продвигать по запросу "пластиковые окна в Москве" (Яндекс, 10 позиция)? Не можно, а нужно, это московская компания, продающая пластиковые окна, ссылка будет отличным ответом.
А можно ли этот сайт продвигать по запросу "пластиковые окна" (Яндекс, 11 позиция)? Это уже непростой вопрос, об "оконной" выдаче стоит почитать две статьи - "Коммерческое и некоммерческое" и "Транзакционность и ранжирование" в архиве рассылки "Проблемы качества поиска".
А можно ли этот сайт продвигать по запросу "пластиковые окна в Казани" (Яндекс, 13 позиция)? Сайт в выдаче с ремаркой "найден по ссылке с текстом «пластиковые окна казань»", т.е. намерение продвинуть очевидно. Нельзя, да?
В данном примере все три запроса для продвижения были выбраны оптимизатором. В первом случае результат улучшает выдачу, в третьем ухудшает, а во втором мнения разделяются на прямо противоположные; я знаю точки зрения как за, так и против, и доказательства для каждой. Но какой точки зрения придерживаются поисковые системы по этому вопросу и почему – вот это – тайна. То ли скрывают, то ли просто еще серьезно не думали на эту тему.
Инструкция для асессоров, действительно, может быть нужна лишь для выяснения пограничных ситуаций в оценке сайтов только для случаев, когда речь идет о создании сайтов линкоподдержки, чья задача одна – удержаться в индексе. В случае клиентских сайтов вопрос об их качестве не возникает, по крайней мере, ни разу о таком не слышал. А вот споры о целевых запросах для продвижения – постоянно. И точка зрения поисковых систем по этому вопросу, что же лучше для пользователей, к сожалению, является крайне неопределенной. Впрочем, это уже относится к рассмотренной выше проблеме теории идеальной выдачи.
Гипотеза третья
Поисковым машинам вряд ли удастся принципиально улучшить ситуацию с качеством поиска по нечетким информационным запросам без диалога с профессиональным сообществом, активно влияющим на выдачу. Суть диалога – обсуждение не темы "качества сайтов", а темы качества выдачи по запросам разных типов.
Нет смысла обсуждать, сколько исходящих ссылок должно быть на странице, каков максимальный процент ключевых слов, какую площадь на веб-странице можно использовать под PPC-рекламу и т.п. Обсуждать нужно простой вопрос, который уже много лет не решаются четко поставить ни поисковики, ни представители околопоискового бизнеса: кто, по какому запросу и почему имеет право находиться в поисковой выдаче.
Андрей Иванов,"Ашманов и Партнеры"
Раз Саша, Илья или Ден до сюда не дочитали давайте я опровергну. Асессоров не сокращали и наоборот их количество постоянно увеличивается. Оценка в 25 человек была верна 2-3 года назад. По поводу оценки порно и прочего: оно сейчас не считается высокорелевантным ответом, тем не менее оно лезет т.к. переоптимизировано. Оценка непосредственно на ранжирование не влияет, только через формулу, а на нее так же влияют много других запросов которые говорят толковать высокую текстовую и линковую релевантность, как положительные факторы. Оценивать один сайт как релевантный, а следующий такой же как не релевантный асессор не может — это только собьет с толку настройку формулы(2 сайта с одинаковыми факторами оценены по разному -> вывод: факторы не значимы). Т.е. к сожалению это не та проблема, которую, можно победить именно таким методом, что однако не означает, что мы ее не знаем и не пытаемся с ней бороться.