Открытка компании: Почему Яндекс не внедряет разработанные технологии (+)

Сотрудники поискового отдела Яндекса рассказывают, что в калифорнийском отделе яндекс разработали аналог гугловского real-time search, позволяющий моментально индексировать и делать доступными в поиске часто обновляющиеся сайты вроде Facebook или Livejournal. Почему эта разработка не внедрена? Разработали ее полгода назад, но по прежнему яндекс очень долго обновляет индекс для ЖЖ и при поиске в яндексе нельзя найти свежие записи.

Комментарий представителя компании

  • Контекст комментария

    Федор Романенко

    Привет, я занимаюсь свежестью в поиске Яндекса, хочу прокомментировать этот удивительный инсайд. Он как бы в тему, но демонстрирует некоторое непонимание фактов таинственными сотрудниками поискового отдела. Тут не просто сформулирован вопрос, а неявно сделано несколько препозиций. 1. В Яндексе сейчас нельзя найти свежие записи из ЖЖ. 2. Real-Time search у Гугла — это такая технология, которая позволяет быстро индексировать сайты. 3. Калифорния полгода назад закончила разработку аналога Real-Time search. 4. Но Яндекс его не внедряет. 5. Потому, что не хочет. 6. Если бы внедрил, ЖЖ сразу попал бы на выдачу. Для тех самых коллег отмечу только, что почти все предположения — неверные. В остальном можно сказать, что мы занимаемся свежестью, у нас была недавно пара запусков, и обязательно скоро будут еще. И всеми доступными нам замечательными технологиями мы распорядимся наилучшим образом! ;)

Добавить 30 комментариев

  • Ответить
    Альтер Эго

    наверное потому что у Яндекса есть отдельный поиск по блогам, куда блоговые записи попадают молниеносно?

  • Ответить

    И можно — если появится реальное время поиска, сделать в Яндекс.Баре, в отзывах о странице помигивание пузыря с комментариями — мол — наяривают! P. S. Пользуясь случаем баг-репорт о отзывах. Последние несколько месяцев пузырь никогда не показывает число отзывов, открывающееся поверх окна браузера панелька с выдержками из последних отзывов — тоже никогда не заполнена, отзывы можно увидеть только если перейти по «посмотреть все отзывы», то есть они есть, но бар их больше не видит, кнопка стала из сообщающей что либо просто навигационной, что плохо и рушит всю идею.

  • Ответить
    Анатолий Орлов ex-Яндекс

    Сейчас уже некоторое количество документов попадает на поиск за несколько минут. Это на самом деле первое внедрение этого проекта который вы называли realtime. Другой вопрос, что этих документов должно быть больше и ранжироваться они должны лучше. Мы над этим работаем.

  • Ответить
    Альтер Эго

    Это на самом деле первое внедрение этого проекта который вы называли realtime Анатолий, а эти результаты будут, как в гугле, особым образом выделены? чтобы они являлись не частью топ-10, а блоком внутри него? мне кажется, это правильно, нельзя от этого варианта отказываться только потому, что гугл сделал :)

  • Ответить
    Альтер Эго

    Индексить и искать — это меньше пол-дела, вся соль в подмешивании (в ранжировании) этих данных в основную выдачу — вот это Яндекс не осилил, наверное, пока.

  • Ответить
    Альтер Эго

    Наверное, все-таки имелось ввиду, что яндекс научился быстро обновлять основной индекс для таких сайтов? Не большая проблема обслуживать отдельный простой индекс вроде яндекс блогов. Яндекс блоги ранжирует просто по времени, там нет никаких осмысленных параметров это совершенной примитивный поисковик, который индексирует малое число документов Если же Яндекс научился вносить в основной индекс моментально обновления с большого числа сайтов и вычислять все параметры необходимые для ранжирования и понимать для каких горячих запросов надо выдавать эти свежие документы, а для каких нет, то это действительно новая технология. Про такую технологию тут говорится или нет?

  • Ответить

    Привет, я занимаюсь свежестью в поиске Яндекса, хочу прокомментировать этот удивительный инсайд. Он как бы в тему, но демонстрирует некоторое непонимание фактов таинственными сотрудниками поискового отдела. Тут не просто сформулирован вопрос, а неявно сделано несколько препозиций. 1. В Яндексе сейчас нельзя найти свежие записи из ЖЖ. 2. Real-Time search у Гугла — это такая технология, которая позволяет быстро индексировать сайты. 3. Калифорния полгода назад закончила разработку аналога Real-Time search. 4. Но Яндекс его не внедряет. 5. Потому, что не хочет. 6. Если бы внедрил, ЖЖ сразу попал бы на выдачу. Для тех самых коллег отмечу только, что почти все предположения — неверные. В остальном можно сказать, что мы занимаемся свежестью, у нас была недавно пара запусков, и обязательно скоро будут еще. И всеми доступными нам замечательными технологиями мы распорядимся наилучшим образом! ;)

  • Ответить

    Действительно, поиск по блогам Яндекса научился выкладывать на поиск ЖЖ, Твиттер и другие блоги за минуты-секунды. Большую часть подобной информации он качает через технологии типа Streaming API. Однако, это совершенно не означает, что мы не собираемся сокращать задержку в основном поиске до тех же секунд. В большом поиске очень важной и сложной задачей является правильное ранжирование свежего. В ППБ основная выдача идет с сортировкой по времени, поэтому такой проблемы нет.

  • Ответить
    Альтер Эго

    fedor57 Иногда такая выдача бывает крайне важной Например, в первые часы после извержения вулкана блоги и твиты гораздо более важны и актуальны по ряду запросов вроде «вулкан исландия», чем старые более качественные в других условиях результаты. Это относится почти ко всем запросам, связанным с текущими событиями. Вы совершенно неверно думаете, что блоги, апдейты фейсбука и твиты не важны. http://searchengineland.com/google-launches-real-time-search-31355 http://videos.webpronews.com/2009/02/19/smx-west-search-engines-chasing-real-time-search/ http://www.theinsider.com/news/3125607_Brittany_Murphy_s_Death_Google_s_Real_Time_Search_Results_Danny_Sullivan_Search_Engine_Land

  • Ответить

    Сорри, а кто «неверно думаете, что блоги, апдейты фейсбука и твиты не важны.»? 8)) Имхо, все (и Яндекс в первую очередь) понимают, что это важно. Например, Сегалович активно пишет в твиттер, вот его мнение: http://habrahabr.ru/blogs/twitter/72795/#comment_2107747 Действительно, задача совместного ранжирования принципиально разных ресурсов (википедия vs твиттер, к примеру — что лучше?) непростая задача. Очевидно, Яндекс пытается ее решать.

  • Ответить

    Alter Ego, спасибо за ссылки и постановку проблемы. Хочу сказать, что все немного сложнее. Во-первых, по «свежему» запросу про какие-то только что произошедшие события старые документы (т.е. написанные ДО события) — не просто менее важные, они — вообще нерелевантные. Если после события про него написали блоги и СМИ, например, (1) Твиттер, 13:00 — «Кенни умер. Кайл — 3 min ago», (2) Lenta.ru, 15:31: «В американском South Park-е погиб подросток Кенни» с обстоятельствами, комментариями полиции и очевидцев, заявлениями госдепа. (3) Твиттер, 16:40 — «Они убили Кенни, сволочи! Картман — 5 sec ago» (4) pupkin.livejournal.com, 16:50 — «Опять в этом South Park убивают этого Кенни, во всех новостях, надоело про это читать» По запросу «кенни» или «убили кенни» после 13:00 нужно показывать Твиттер (1). Причем, в ближайшие два часа, скорее всего, будет много твитов про Кенни по всему миру, неправда, что они лучше, чем (1). После 15:30 нужно показывать (2) Lenta.Ru В 16:40:01 нужно показывать (2) Lenta.Ru, даже, если твит Картмана супер-свеж (5 секунд назад) В 16:50:01 нужно показывать (2) Lenta.Ru, и немного livejournal.com в рамках предоставления не только официальной информации, но и мнений людей. Это — не полная или точная инструкция, а примеры того, что «более свежее не обязательно означает — лучшее». Real-Time serp — это попытка отранжировать одновременно по свежести/релевантности, он выдает не все, что есть свежего. Выбор приоритета, как правило, почти случаен, именно поэтому по БОЛЬШИНСТВУ запросов, однако, с небольшими ВАЖНЫМИ исключениями, — это игрушка. Например, откройте Real-Time serp Гугла, подождите 2 мин и нажмите F5, список документов и Твитов полностью изменится: какой из двух списков был наилучшим для пользователя в момент перегрузки страницы?. Если посмотреть в код, то видно, что Гугл грузит скриптом по 5 твитов, потом их полминуты дозирует, выдавая по-одному, создавая красивый визуальный эффект. Я предполагаю, что его разработчики не относятся к изделию сверх-серьезно, однако, снаружи это не говорится.

  • Ответить
    Альтер Эго

    какой из двух списков был наилучшим для пользователя в момент перегрузки страницы?. Я не думаю, что в таких случаях пользователям интересен статичный «список» документов в каком-то порядке Пользователям интересен постоянно обновляющийся «поток» документов. Важно, что сейчас пишут и какие новые записи прибывают.Важна динамика, а не статика. В этих случаях традиционный IR 90ых cо статичными списками не соответствует интересам пользователя. Важна не релевантность, как таковая. Что релевантнее для запроса вулкан во время извержения? «Облако пепла вулкана уже на Францией» или «отменили рейсы из аэропорта Ливерпуля из -за вулкана «. Важно только отфильтровывать совсем плохие документы — порно, рекламу, оптимизацию, глупости («вулкан!!!! вулкан!!!!! вулкан!!!!») и выдавать непрерывный постоянно обновляющийся поток.

  • Ответить
    Альтер Эго

    Да, в калифорнии разработали систему по обходу и поиску всего свежего. Компонентов у системы много. Некоторые компоненты уже внедрены, некоторые еще нет. Работа идет. Но отраслевая желтая пресса не дремлет. И это правильно, товарищи.

  • Ответить
    Альтер Эго

    Докладчику Спасибо, интересно, А что еще рассказал не в меру болтливый сотрудник Яндекса?

  • Ответить

    Царь Я просто показал, что в одну и ту же секунду Гугл может показывать две совершенно разные выдачи по одному запросу (до и после F5). Если бы они осознавали какую-то конкретную потребность пользователя в этом месте, они бы сделали метрику, а потом постарались бы показать оптимальный набор документов, максимизирующий метрику. Альтернативный подход: «если не знаем, что нужно, давайте покажем что-нибудь. Только, чтобы мигало и крутилось». Я тут совершенно не осуждаю авторов, наоборот очень даже понимаю: почему и зачем это было сделано. ;)

  • Ответить
    Альтер Эго

    > очень даже понимаю: почему и зачем это было сделано. ;) и почему же? озвучьте, пожалуйста, мысль до конца.

  • Ответить

    Alter Ego Ну, во-первых, это режим, который случайно может оказаться кому-то изредка полезен. Запускать нужно еще и потому, что аналогов почти нет. Машина определить не сможет, что именно нужно и по каким запросам, люди будут тыкаться, кто-то случайно что-то ценное прочитает. Во-вторых, это — отличный PR свежести. Т.е. Гугл показывает пользователю, что он умеет быстро доносить документы до поиска. Без специального режима (развития сортировки по дате), пользователь бы этого не увидел. Ибо встретить супер-свежие результаты естественным образом в релевантной выдаче — маловероятно для пользователя. В 5 годах — около 2.5 млн. минут. Представим себе вероятность того, что релевантный документ был загружен в последнюю минуту. Как часто на обычной выдаче мы будем видеть надписи X sec назад?

  • Ответить
    Альтер Эго

    Представим себе вероятность того, что релевантный документ был загружен в последнюю минуту. Как часто на обычной выдаче мы будем видеть надписи X sec назад? Полная ерунда и непонимание запросов пользователей Есть множество запросов, которые связаны с текущими событиями «речь президента» — лучший результат последняя речь президента, «матч Х У» — лучший результат страница о матче между футбольными коммандами Х и У, который проходит прямо сейчас и страница обновляется прямо сейчас, а не репортаж о матче 4 года назад, «Майкл Джексон» — свежая страница о смерти звезды. Любой пользователь в повседневной жизни достаточно часто встречается с запросами, где нужны документы буквально минутной свежести.

  • Ответить

    Alter Ego Ох, ну что же вы заставляете расжевывать, я и так уже слишком много букв написал. У меня основное занятие — работа со свежими запросами, а вы думаете, что я не догалался о факте их существования? В типичный день в потоке есть 1−2% свежих запросов, люди ищут что-то про события, которые произошли в среднем 4−5 часов назад, документ «минутной свежести», как правило, не более релевантен, чем документ 2-х часовой свежести (см. повнимательней выше). Вероятность того, что релевантный событийному запросу документ загружен минуту назад, можно оценить как 1.5%*(¼.5*60) = 1/18тыс. Это, безусловно, больше, чем ½.5млн, но пользователи все равно будут крайне редко сталкиваться с супер свежими результатами, и PR-задача не будет решена.

  • Ответить
    Альтер Эго

    Я думаю всесто того, чтобы собирать секреты от сотрудников Яндекс, Мэйл Ру, Рамблер посредством третьих лиц Надо просто сделать анонимное сообщение «новости от сотрудников » и гарантировать, что в логах не будет как и айпи Тогда сотрудники Яндекс и пр сами понесут все секреты на роем.

  • Ответить
    Альтер Эго

    В типичный день в потоке есть 1−2% свежих запросов Каким образом я могу проверить эту информацию? Иначе ваше заявление несколько голосовно. Вероятность того, что релевантный событийному запросу документ загружен минуту назад, можно оценить как 1.5%*(¼.5*60) = 1/18тыс Вы предполагаете uniform распределение. Проблема в том, что и новые «страницы» (твиты) и новые запросы об этом события будут резко расти в первые десятки минут после события. И пользователи в эти первые минуты-десятки минуты заинтересованы самыми последними твиттами. Насколько я знаю число запросов в день в bing.com/twitter огромное От твитеррян я слышал, что число запросов в поиске твиттера тоже очень высокое, особенно в дни когда были какие-то события То есть существует огромная информационная потребность в «страницах» созданных в последние минуты. Я не понял о какой PR задаче говорится.

  • Ответить
    Альтер Эго

    >Каким образом я могу проверить эту информацию? Иначе ваше заявление несколько голосовно. А с какого перепугу яндексойд тебе должен что-то доказывать?

  • Ответить

    Alter Ego Я поделился своим пониманием проблемы, постарался проиллюстрировать, но не хочу ничего доказывать. Есть случаи, когда нужна супер-свежая информация, их, скажем, 0.1% от потока, это — очень много, если учесть, что в день к Яндексу 100mln запросов. Однако, нужно не забывать про остальные 1.9% потока, которым нужно свежее, но не нужно супер-свежее. Идея «чем свежее, тем лучше» исходит из предположения, что ситуация все время развивается, постоянно появляется новая информация, более поздние сообщения исходят из более полного кол-ва данных. Но оказывается, что для большинства событий и свежих запросов это не так. Ситуация существенно НЕ развивается. А более свежее — это тормозные перепечатки старой, уже известной информации в блогах или вторичных СМИ.

  • Ответить

    поумничаю :) fedor57: > во-первых, это режим, который случайно может оказаться кому-то изредка полезен, но ведь это не так мало, с учетом того, что прочим это скорее не повредило? > это — отличный PR свежести. Т.е. Гугл показывает пользователю, что он умеет вот именно. гугл уже настолько приучил пользователей, что у него всегда найдется что-то свеженькое, что им (пользователям) уже просто интересно попробовать новую «фишечку» Гугла. сие вносит некий элемент здоровой развлекательности. ну и > люди будут тыкаться, кто-то случайно что-то ценное прочитает, а что, статистика кликов по рилтайм-результатам не полезна разве для улучшения понимания этого самого рилтайм поиска? итого, в свете изложенного, критика автора поста выглядит обоснованной. типа такое мнение, что «раз у Я есть технологии, нужно их вывести пользователям как есть, но чтобы не попортить себе карму :), а там на живых результатах все понятнее будет»

  • Ответить
    Альтер Эго

    Насколько я помню рил тайм серч родился примерно так. В 2008—2009 году было много компаний, которые сделали неплохие поисковики над твиттером. Дело стало очень популярно, такой поиск нужен многим и о поддержке такого поиска сообшил Бинг-Микрософт. Это было сенсацией. Через полчаса после объявления Бинга на сцену выбежала Мориса Майер из Гугла и громко закричала, что и гугла будет рил тайм серч. Месяца через три гугл выпустил рил тайс серч.