Открытка компании: Как «Яндекс» ищет по мировому интернету? (+)

Редакция Roem.ru не несет ответственности за материалы, размещенные в этом разделе читателями ресурса. Они добавляются через форму на сайте, и могут быть опубликованы без предварительной модерации.

Анатолий Орлов пишет, что "Яндекс" начал искать по мировому Интернету. Действительно, вроде есть время от времени в выдаче какая-то примесь доткомовских сайтов. А иногда нет.

Пока ничего не понятно.

Но в блоге "Яндекса" ни слова про это нет.

В новостях "Яндекса" тоже нет.

Эй, яндексоиды, поясните, как там все устроено? Может, это отзвук первого апреля?

Лучшие комментарии

  • Контекст комментария

    Den Raskovalov

    Не понимаю слова «немножко». Честно проиндексирован миллиард документов. Честно ранжируются. Зарубежный источник не включается по запросам с русскими буквами. Также из него не показывается более одного результата. Положительно сказывается на качестве поиска.

  • Контекст комментария

    Den Raskovalov

    > Не более 1 результата, только по не русским запросам — по-моему это костыль… Нет. Это прежде всего желание не навредить. Соберем отзывы, статистику, поймем, не сделали ли дырок для дорвейщиков, оптимизаторов, тогда и изменим правила.

  • Контекст комментария

    Игорь Ашманов Сам себе компания

    Нет, товарищ Завьялов, широкие массы, в том числе и не анонимные, по-прежнему не понимают. Откуда «в сто раз меньше интернетов»? Это размер как раз Рунета — 1-2% от мирового. А финамовец говорил не про Рунет, а про мировой Интернет. Да и собственно тема о том же. Там размер такой же, как у Гугля и Яхи. То есть миллиардов 20 страниц МИНИМУМ. А может, и больше. Да, нагрузка меньше. Но формула ваша, тов. Мотто, неверна, точнее, работает как-то не так возле нуля. Даже если нагрузка равна нулю или почти нулю, скажем, 1 запрос в сутки (для показа на КиБе Дм. Медведеву), то число серверов не равно нулю, то есть это не чистое произведение. Все равно в индексе должен быть весь Интернет. Значит, у формулы есть свободный член — стоимость минимального серверного/дискового пространства для хранения всего Интернета, его текстовой копии для сниппетов плюс стоимость серверов для выкачивания. Ну, туда же плюсуем стоимость трафика и стоек. И, сюрприз, индекс должен быть АКТУАЛЬНЫМ. ДАЖЕ если нагрузки нет. То есть в формуле должен быть ещё один член — скорость обхода Интернета (период повторной выкачки). Таким образом, уточнённая формула может выглядеть так: Баблище = А* (скорость обхода) * (количество данных) * (количество пользователей в день) + В, где А — произвольный эмпирический нормировочный коэффициент, а Б — свободный член, показывающий минимальное ограничение снизу в серверах-деньгах на хранение и сбор индекса (без нагрузки со средней актуальностью раз в неделю, например). Так вот этот свободный член, по-моему, стоит дороже $15М. Впрочем, Яндексу виднее. Неплохо бы послушать их мнение.

  • Контекст комментария

    Илья Сегалович Яндекс

    > А* (скорость обхода) * (количество данных) * (количество пользователей в день) + В Учтите в расчетах, что обход и индексация становится дешевле поиска, если запросов в единицу времени много: То есть на самом деле так: > (количество данных) * (А* (скорость обхода) + В * (число запросов)) + С

  • Контекст комментария

    Andrey

    На РИФЕ говорил об этом с парочкой ребят. Когда познакомились оказались что они из гугла. Так что идея давно витала в воздухе. Начинаешь понимать смысл ссылок на конкурирующие поисковики внизу яндекса. Хорошая обратная связь, видимо последнее время по иностранным запросам, стало больше уходить на гугль. Не сомневаюсь, что решение хорошо просчитанное, а реализацию посмотрим. Мне например будет явно мало одной ссылки, но возможно 80% потребностей она сможет покрыть.

  • Контекст комментария

    motto

    Почему Гуглю нужно было потратить несколько милиардов долларов (как и МСНу, и Яхе) на десятки могучих датацентров на сотни тысяч серверов, а Яндексу надо всего 15 миллионов? Вы, товарищ аноним, правда не понимаете? Ну вопрос. Количество железа, необходимое для поиска пропорционально количеству поисковых запросов и размеру индекса, то есть произведению этих параметров. То есть, чтобы Яндексу проиндексировать в сто раз меньше интернетов, чем Гуглу (а это и много и достаточно для большинства пользователей) и обслуживать количество запросов к этим интернетам в сто раз меньшее, чем у Гугла (на для того формата, который выбрал яндекс нужно и того меньше), то ему для этого потребуется в 10000 раз меньше железа. Так что, Финамовские миллионы — это скорее всего сильно больше, чем требуется на самом деле

Добавить 36 комментариев

  • Ответить

    Не понимаю слова «немножко». Честно проиндексирован миллиард документов. Честно ранжируются. Зарубежный источник не включается по запросам с русскими буквами. Также из него не показывается более одного результата. Положительно сказывается на качестве поиска.

  • Ответить

    > Не более 1 результата, только по не русским запросам — по-моему это костыль… Нет. Это прежде всего желание не навредить. Соберем отзывы, статистику, поймем, не сделали ли дырок для дорвейщиков, оптимизаторов, тогда и изменим правила.

  • Ответить
    Альтер Эго

    Клименко думает иначе: Пока Google плохо искал по-русски, многие пользователи искали русскоязычные сайты в «Яндексе», а остальное — в Google, продолжает он; теперь же, когда Google все глубже индексирует рунет, можно ограничиться его сервисом. Скорее всего, «Яндекс» хочет удержать таких потенциальных перебежчиков, а не стать глобальным поисковиком, полагает Клименко http://www.vedomosti.ru/newspaper/article.shtml?2008/04/07/145253

  • Ответить
    Альтер Эго

    Там много кто чего «думает». Клименко дал хотя бы разумную коммерческую гипотезу. А вот неназванный представитель Финама считает, что «чтобы проиндексировать весь интернет, «Яндексу» понадобится $12-15 млн на дополнительные серверы». Думаю, это опять волшебный пиарщик Вячеслав Кочетков отжог. Почему Гуглю нужно было потратить несколько милиардов долларов (как и МСНу, и Яхе) на десятки могучих датацентров на сотни тысяч серверов, а Яндексу надо всего 15 миллионов? Понятно, что у тех еще и нагрузка, но голову все-таки нужно прикладывать, когда комментируешь Ведомостям.

  • Ответить

    2DenRaskovalov А почему по всевозможным названиям фильмов, включая пример поискового запроса в яндексовском новостном сообщении подсовываются imdb сайты вместо навигационных?

  • Ответить
    Альтер Эго

    > А почему по всевозможным названиям фильмов, включая пример поискового запроса в яндексовском новостном сообщении подсовываются imdb сайты вместо навигационных? Ну вот я бы например именно на imdb хотел попасть по этим запросам. А на уродливые сайты фильмов — нет, спасибо.

  • Ответить

    > А почему по всевозможным названиям фильмов, включая пример поискового запроса в яндексовском новостном сообщении подсовываются imdb сайты вместо навигационных? Наши алгоритмы обхода и ранжирования все равно рассчитаны на русскоязычного пользователя. Обучаются алгоритмы на основании некой статистической информации. После обучения могучих алгоритмов оказалось, что пользователю из России http://southlandtales.com к примеру менее интересен, чем http://www.imdb.com/title/tt0405336 Вкратце так.

  • Ответить

    Почему Гуглю нужно было потратить несколько милиардов долларов (как и МСНу, и Яхе) на десятки могучих датацентров на сотни тысяч серверов, а Яндексу надо всего 15 миллионов? Вы, товарищ аноним, правда не понимаете? Ну вопрос. Количество железа, необходимое для поиска пропорционально количеству поисковых запросов и размеру индекса, то есть произведению этих параметров. То есть, чтобы Яндексу проиндексировать в сто раз меньше интернетов, чем Гуглу (а это и много и достаточно для большинства пользователей) и обслуживать количество запросов к этим интернетам в сто раз меньшее, чем у Гугла (на для того формата, который выбрал яндекс нужно и того меньше), то ему для этого потребуется в 10000 раз меньше железа. Так что, Финамовские миллионы — это скорее всего сильно больше, чем требуется на самом деле

  • Ответить
    Игорь Ашманов Сам себе компания

    Нет, товарищ Завьялов, широкие массы, в том числе и не анонимные, по-прежнему не понимают. Откуда «в сто раз меньше интернетов»? Это размер как раз Рунета — 1-2% от мирового. А финамовец говорил не про Рунет, а про мировой Интернет. Да и собственно тема о том же. Там размер такой же, как у Гугля и Яхи. То есть миллиардов 20 страниц МИНИМУМ. А может, и больше. Да, нагрузка меньше. Но формула ваша, тов. Мотто, неверна, точнее, работает как-то не так возле нуля. Даже если нагрузка равна нулю или почти нулю, скажем, 1 запрос в сутки (для показа на КиБе Дм. Медведеву), то число серверов не равно нулю, то есть это не чистое произведение. Все равно в индексе должен быть весь Интернет. Значит, у формулы есть свободный член — стоимость минимального серверного/дискового пространства для хранения всего Интернета, его текстовой копии для сниппетов плюс стоимость серверов для выкачивания. Ну, туда же плюсуем стоимость трафика и стоек. И, сюрприз, индекс должен быть АКТУАЛЬНЫМ. ДАЖЕ если нагрузки нет. То есть в формуле должен быть ещё один член — скорость обхода Интернета (период повторной выкачки). Таким образом, уточнённая формула может выглядеть так: Баблище = А* (скорость обхода) * (количество данных) * (количество пользователей в день) + В, где А — произвольный эмпирический нормировочный коэффициент, а Б — свободный член, показывающий минимальное ограничение снизу в серверах-деньгах на хранение и сбор индекса (без нагрузки со средней актуальностью раз в неделю, например). Так вот этот свободный член, по-моему, стоит дороже $15М. Впрочем, Яндексу виднее. Неплохо бы послушать их мнение.

  • Ответить
    Игорь Ашманов Сам себе компания

    Ну, и кстати, полученный тобою результат довольно странный. Если предположить, что условный Гугль потратил на свои дейтацентры, например, 10 миллиардов долларов, то если поделить их на 10 тысяч, получится миллион. Паша, ты же не можешь всерьёз думать, что за миллион можно заиндексировать весь западный Интернет? А если выбирать «лучшие сайты», то есть что-то вроде индексирования по каталогу, то может быть и меньше, конечно. Но не миллион, в любом случае.

  • Ответить

    Игорь, привет! Да, про вторую сотню я загнул, хотя и не сильно. А сформулировал неудачно, моя вина. Для того, чтобы показывать «какой-то» поиск по «всемирному интернету», совершенно не обязательно индексировать его в таких же количествах, как у Гугла (мы же помним робота Апорта, да?). «100 раз» — это я, наверное загнул. Все 20 млрд. страниц тоже не очень надо индексировать, тем более — часто. Что касается формулы, то она, разумеется, не моя. И в ноль ее выводить нельзя, тоже правда (но никто и не собирается, из здоровых-то людей). Получается, что с тем, что «десятки могучих на сотни тысяч» не нужны, ты согласен, а вот Б(В) оцениваешь, как >15M Считать чужие деньги не мудро, но я попробую: 1. Стойка с роботом в DE-CIX, канал-трафик в Москву 2. БОльший по размеру ящик железа в Москве, люди которые его обслуживают 3. При «честном» учете — некоторый кусок от всех затрат в большой поиск за все время его существования. Мне кажется, что яндекс внутри себя считает, что 1+2 ему обходится меньше, чем десятки миллионов, возможно — единицы. Это из области ощущений, я могу сто раз ошибиться

  • Ответить

    >Паша, ты же не можешь всерьёз думать, что за миллион можно заиндексировать весь западный Интернет? Я продолжаю настаивать, что весь кузнец не нужен. И еще раз напоминаю о счастливых пользователях Апорта. Какой доли русского индекса им хватало для счастья? Опять же, тормозной робот — лучший антиспам :) >то есть что-то вроде индексирования по каталогу Поскольку отходом производства «русского» робота является не так чтобы совсем плохая развесовка «нерусских доменов», то понятно, где фонарь, под которым надо искатьиндексировать. Возвращаясь к первому вопросу: да, я могу всерьез думать, что яндекс может посчитать, что добавление забугорных сайтов ему обошлось в миллион. Я допуская, что, например, посчитав только железо работающее _только_ на эту задачу, не посчитав зарплаты, инт. собственность, которая уже есть и инфраструктуру, которая есть и используется всем яндексом, можно получить и такое число тоже. Из этого не следует, что мировой поиск можно сделать за лимон.

  • Ответить
    Альтер Эго

    Куда и почему утекают пользователи из поиска яндекса уже обсуждалось давольно давно. Теперь стало ясно, что яндекс давно уже над этим работает. Предлагаю пообсуждать следующую проблемму. Предположим Яндеск проиндексирует все 100% мирового интернета (гугл уже индескирует). Яндекс сейчас зарабатывает только на 1-2% мирового интернета, а Гугл(я думаю) на 50% этого мирового индекса, а скоро будет на 100%. Трудозатраты на само индексирование и храниение данных у Гугла и Яндеска будут примерно одинаковые. А вот доход от этого индекса у гугла будет на 2 порядка больше. По моему соотношение не в пользу Яндекса. Я думаю, что Яндекс в недалеком будущем вынужден будет думать, как заработать на других сегментах рынка, либо с кем-то объедениться, кто уже зарабатывает на западном, азиатском и других сегментах рынка.

  • Ответить

    > А* (скорость обхода) * (количество данных) * (количество пользователей в день) + В Учтите в расчетах, что обход и индексация становится дешевле поиска, если запросов в единицу времени много: То есть на самом деле так: > (количество данных) * (А* (скорость обхода) + В * (число запросов)) + С

  • Ответить
    Альтер Эго

    Если смотреть на перспектуиву, то население платнеты будет расти медленнее нежели количество цифрового контента, которое оно генерит, а это значит что обход и индексация будет быстрее расти нежели количество поисковых запросов. Да, техника не стоит на месте конечно, но ее производительность почти одинаково растет для того и другого.

  • Ответить
    Alexey Y Grid Dynamics Consulting

    >>Яндекс сейчас зарабатывает только на 1-2% мирового интернета, а Гугл(я думаю) на 50% этого мирового индекса, >>а скоро будет на 100%. Трудозатраты на само индексирование и храниение данных у Гугла и Яндеска будут >>примерно одинаковые. 1) даже 1-2% ( даже 0.5% ) от мирового поискового трафика позволяют очень неплохо жить любой поисковой система и полностью окупать и дц и разработку и тп. 2) «трудозатраты на само индексирование и храниение данных у Гугла и Яндеска будут примерно одинаковые» только тогда когда у яндекса будет такой же объем аппаратных ресурсов и такое же количество разработчиков в офисах разбросанных по всему миру — а это случится только если яндекс в мировом масштабе приблизится к гуглю по доле рынка. аппаратные ресурсы ( и разработка ) как у гугля нужны для того чтобы отхватить кусок в 50%, не поперхнуться пережевывая его и никому его потом не отдать.

  • Ответить

    В настоящий момент ситуация с оборотом деленным на сотруднический нос — не в пользу Яндекса. У Гугла разика в 4 примерно повыше. Индексация буржунета очевидно это положение ухудшает если нет планов выходить за пределы СНГ. Ну совсем грубо, иностраноязычных запросов — мало (процентов 10, допустим, можно точнее оценить), а ресурсов на поддержание этого дела нужно много (в пределе — сильно больше чем на рунет) Хотя результаты поиска на английском — временами интересные. Секреты глубинного веба, блин. А временами — примерно ожидаемые.

  • Ответить
    BigBrother (Скоро смогу сказать)

    Во-первых, хочу поздравить ребят — я уже и не верил, что вы это сделаете. Хотя пока, насколько я вижу, не до конца. Не прошло и двух лет. Во-вторых — в общем Мотто прав — у Яндекса гораздо менее ресурсозатратная схема организации поиска (видел обе) — поэтому им такое расширение действительно очень недорого обошлось как по железу, так и по затратам. В этой схеме есть свои недостатки, но в данном случае несущественные. А в третьих, цель Яндекса так никто и не угадал.

  • Ответить
    Alexey Y Grid Dynamics Consulting

    > Ну совсем >грубо, иностраноязычных запросов — мало (процентов 10, допустим, можно точнее оценить), а ресурсов на >поддержание этого дела нужно много (в пределе — сильно больше чем на рунет С учетом посещаемости яндекса 10% — это не совсем мало, а много. даже 1% — это не мало, а много. Про ресурсы motto уже высказался.

  • Ответить

    Цель понятна: дать полноценный поиск по всему (максимально) релевантному интернету закрывающий весь (максимально) поток запросов, идущий из Рунета. Все просто на самом деле: весь интернет Яндексу (прямо сейчас) не нужен (китайский и японский например), грубо, сразу можно размер Y|G|L уполовинить. То что остается, всего-то раз в 10-20 больше Рунета. Искать по этому сегменту рунетовцу нужно максимум в 10-20% случаев (судим по нашей статистике, и немного экстраполируем), то есть нагрузка на поиск сопоставима с той, что Яндекс сейчас держит (база намного больше, но запросов намного меньше). Что касается обхода, то ресурсов на обход нужно все же поменьше, чем на поиск 45 млн запросов в день (коэффицент совсем другой).

  • Ответить
    Игорь Ашманов Сам себе компания

    Самый интересный вывод из этой дискуссии такой: Роем.ру работает. Не успели здесь обсудить в подробностях тот факт, что Яндексу нужно индексировать западный Интернет для конкуренции с Гуглом: http://roem.ru/2008/03/21/mktshare/?c#message9020 как опа! — Яндекс выкатывает такой поиск.

  • Ответить

    Игорь, при всем уважении к Яндексу — я не уверен, что они за две недели смогли бы накачать миллиард буржуйских страниц и запустить. Либо мем с roem.ru им запустили раньше, либо просто эти мемы берутся из атмосферы.

  • Ответить
    Альтер Эго

    Я думаю это не роем работает :), а люди которые это обсуждают и другие люди которые это реализуют. А тема эта началась на самом деле 2 года назад, когда гугл открыл центр разработок в Москве http://www.webplanet.ru/forum/news.html?news=10803 (практически те же люди коментируют) И я больше чем уверен, что этот диалог продолжится и дальше.

  • Ответить

    Илья а не следовало бы сделать что-то подобное гугловскому поиску с автоматическим переводом (http://searchengineland.com/070524-082328.php) автоматический перевод страницы на русский здорово бы помог бы среднему пользователю яндекса Когда Яндекс реализует такой поиск?

  • Ответить

    Просто Яндекс, вслед за Гуглом начала размножать блоги компании [URL=http://webmaster.ya.ru/replies.xml?item_no=535&ncrnd=3898]на своем собственном блогохостинге[/URL]

  • Ответить

    На РИФЕ говорил об этом с парочкой ребят. Когда познакомились оказались что они из гугла. Так что идея давно витала в воздухе. Начинаешь понимать смысл ссылок на конкурирующие поисковики внизу яндекса. Хорошая обратная связь, видимо последнее время по иностранным запросам, стало больше уходить на гугль. Не сомневаюсь, что решение хорошо просчитанное, а реализацию посмотрим. Мне например будет явно мало одной ссылки, но возможно 80% потребностей она сможет покрыть.

  • Ответить

    Извините, я поздно читаю. И плохо понимаю. Вот про предмет и логику обсуждения совсем не понял: > 15% запросов в яндексе – не по-русски (ПОСЫЛКА) > Искать по этому [внерунет-]сегменту рунетовцу нужно максимум в 10-20% случаев (такой ВЫВОД?) Т.е. понимать так, что в и-нете “рунетовец” будет искать то же, что сейчас он ищет не по-русски в рунете?! Вполне горячий контрпример: hardcore (до сего дня) яндексом не искали. Но не потому, что “секса не было”, ведь по-русски-то очень даже искали. Просто зачем искать по-английски, если знаешь, что вне-рунет не охвачен. Из двух ложных утверждений 1)в и-нете будут искать по-англ практически то же, что и сейчас по-англ. ищут в рунете 2)в и-нете будут искать по-англ практически то же, что сейчас ищут в рунете по-русски, т.е. практически все менее ошибочно последнее (еще раз, ложные — оба). Зы. Впрочем, сейчас уникальная ситуация: отзывчивые (на объявление о продвижении во вне-рунет) пользователи за последние дни уже сделала свои один-два спровоцированных объявлением запроса (вряд ли больше, ведь их еще и результат интересует). Подозреваю, что предметный охват (не число,конечно) англояз. запросов заметно расширился. И если доверчивые пользователи вдруг найдут косвенные основания для своего доверия, то и доля англояз.запросов заметно подрастет [за счет hardcore :) ]

  • Ответить
    Альтер Эго

    buzik Мне кажется эффективность нового сервиса оценить просто Предпологая, что иностранные сайты показываются для 15 процентов трафика, и что они берут скажем 20 процентов этого траффика (большинство результатов в верхних позициях) и что 50 процентов этих запросов «одно сайтовый» тояндекс должен потерять полтора процента в лайвинтернетовской статистике после введения этой фичи Если такого изменения не наблюдается то пользователи видимо не кликают на иностранные результаты

  • Ответить

    Про клики по топовым рунет/не_рунет-страницам как меру «[не]рунетозаинтересованности» понравилось — и потому, что самый малозатратный(=изящный?) способ оценки (я,правда,такие люблю), и еще потому,что это ответ не на тот коммент,который был, а на тот для которого ЗДЕСЬ были основания (тожеправда:)