Яндекс сообщает, что разработал и внедрил новую поисковую технологию, которая позволяет находить совсем свежие документы — через минуты после их появления в интернете.
Робот «Orange Crawler», отвечающий за индексацию свежего контента, обходит не все известные Яндексу страницы, а только наиболее важную для поиска в реальном времени часть. А также учитывает недавние поисковые запросы и тематику новых сообщений в СМИ. Неизвестно, насколько автоматическим является процесс составления списка самых важных сайтов, служащих агрегаторами новой информации. В блоге компании упоминается, что:
Люди обычно попадают на новые урлы через первые страницы любимых сайтов или по ссылкам с других новых сообщений. Поисковый робот должен находить эти же ссылки, часто освежая старые страницы, и ходить по ссылкам из новых уже скачанных документов.
Чтобы определять, нужна ли свежая информация в ответ на те или иные запросы, Яндекс разработал несколько детекторов. Они анализируют самую разную информацию — например, тематику сообщений в СМИ или рост количества поисковых запросов по той или иной теме.
«Быстрый робот» существовал в Яндексе и раньше, но методика добавления новых документов в индекс давала задержку до 20-ти минут. Новая система Real-Time поиска позволяет индексировать и выкладывать документы на поисковые сервера буквально за несколько секунд.
Несмотря на всё это, сейчас в поиске Яндекса задать временной диапазон для поиска можно только в «Расширенном поиске», а в предлагаемых на выбор диапазонах минимальным является диапазон в две недели. У одного из конкурентов Яндекса – Google, диапазон можно уточнить прямо на странице результатов поиска в боковой панели, а минимальный предлагаемый диапазон составляет 24 часа.
Добавить 12 комментариев
что значит «поиск реального времени»? кому надо искать время? при чем тут задание временного диапазона? почему в новости не отражен тот факт, что для Яндекса свежесть контента связана с определенными категориями запросов и отдельными типами контента? Не новость, а ссылка на пресс-релиз, окруженная мутным бесполезным текстом. Хоть бы комментарии у ньюсмейкеров брали, штоле.
Информация про это была опубликована на роеме за три месяца до запуска технологии яндексом http://roem.ru/2010/04/23/addednews14517/
Что за «урлы»? Что за слэнг в официальном блоге большой компании? Какой безграмотный «умник» писал? Скоро в блоге яндекса будут писать «Пацаны, мы выкатили новый апдейт. Тыцайте кнопками — прикольно!»
Задание диапазона притом, что позволяет искать свежие документы. Т.е. я могу хотеть не только видеть в SERP пометку «8 часов назад», а провести поиск только среди свежих документов. Про категории запросов и категории контента в пресс-релизе и блоге Яндекса ничего не сказано. Там сказано, что пользователи куда-то идут и на что-то там тыкают, а Яндекс, на основе того, куда пользователи идут, и на основе поисковых запросов, будет некоторые сайты и ссылки с них индексировать быстрее, чем другие. Об этом и написано во втором абзаце.
> Скоро в блоге яндекса будут писать «Пацаны, мы выкатили новый апдейт. Тыцайте кнопками — прикольно!» так и будет, привыкайте. Слова «мочить» и «беспредел» резали слух в начале 90-х. А сейчас почему-то вплоть до президента. А уж про «типа» я вообще молчу, типа.
Про категории запросов и категории контента в пресс-релизе и блоге Яндекса ничего не сказано. да ну? А если почитать? http://company.yandex.ru/news/press_releases/2010/0709/index.xml Достаточно много поисковых запросов (от 2% в спокойные дни до 8% в дни важных событий) посвящено событиям, которые случились совсем недавно Некоторые сайты интернета обновляются не очень часто, а на других — например, на новостных ресурсах — новые документы создаются постоянно. Orange обходит такие сайты Чтобы определять, нужна ли свежая информация в ответ на те или иные запросы, Яндекс разработал несколько детекторов. Они анализируют самую разную информацию — например, тематику сообщений в СМИ или рост количества поисковых запросов по той или иной теме.
а чёйта тэги в комментариях работать перестали??? я так не играю
«Свежие документы» (а особенно архивные за какую-то дату) — многослойное понятие. Вот, например, документ изданный 2005 но помещённый в сеть в 2009-ом а проиндексированный только в 2010-м это какой датой датированный документ? «А хрен его знает какой» — ответ. Нужен определённый контентный анализ. У гугла (по необходимости пробовал недавно кое-что конкретное и кое что хорошо понятное по датам найти) — технология выдачи по временным диапазонам иногда весьма странные с человеческой точки зрения документы предлагает.
Интересно, что после той утечки из Яндекса Расковалов, Плахов и прочие поисковики перестали появляться на роем ру Видимо запрет.
после какой утечки?
уточки
Дык там комментинг мейл хе был, вроде без уточег.