Почему Блогояндекс криво считает число записей на блогохостингах? (+)

Решил тут я значит пройтись по топу блог-сервисов на http://blogs.yandex.ru и был поражен, как все жестко накручивают!
И так, пройдемся по списку сверху вниз:
1. LiveJournal 73849
2. Блоги@Mail.Ru 21659
3. Diary.ru 20865
4. Я.ру 20377
5. LiveInternet 19351
6. Love ♥ Planet 8933
7. BabyBlog.ru 6857
8. IRC.LV — Блоги 6751
9. Blogger.com 6364
10. MAY ♂♀ BE 5405
11. 24open.ru 4821
12. Блог ру 3734

Первые 6 блог-сервисов можно сразу отбросить, для них эти цифры выглядят вполне реально.

Babyblog.ru.
Сразу переходим на четырехсотую страницу с общим списком всех записей: babyblog.ru/all/index/400. Что мы тут видим? Правильно — записи сделанные два дня назад. Нехитными подсчетами получаем цифру 4000 записей за два дня, но ни как не 6857 за сутки, как нам говорит яша.

IRC.LV
Заходим на сайт, на первый взгляд тут жизнь кипит! Идем в раздел «блоги», смотрим архив за февраль: irc.lv/blogs?year=2010&month=2. Что мы тут видим? Правильно! всего какие-то жалкие 576 записей с начала месяца, в тоже время яндекс уверен что там в 10 раз больше записей за сутки!

Maybe.ru
На первой же странице общей блог-ленты заканчиваются сегодняшние записи: maybe.ru/blogs/bloglenta.php

Blog.ru
Смотрим «прямой эфир» и поражаемся обилию спама. Конечно тут цифры может быть и реальные, но это же спам! Вообще удивительно, как с таким доменным именем, не раскрутиться до нормального сервиса.

Уважаемый Яндекс, что же это такое? Вы разучились считать?

Лучшие комментарии

  • Контекст комментария

    Soloviev

    Что касается BabyBlog.ru ссылка /all/ - это так называемый раздел «Прямая речь», куда попадает только небольшая часть ежедневных постов. Многие сообщества и дневники отключены от прямой речи, хотя посты в них индексируются Яндексом.

  • Контекст комментария

    Soloviev

    Однако, для верности хочется спросить у топикстартера — откуда он взял данные в 6857 постов у БебиБлога? В данный момент показывается цифра 3491, что с небольшой погрешностью сответствует нашей внутренней статистике постов (у нас постов больше — так как часть из них закрытые или только для друзей). Другое дело, что иногда, где-то раз в месяц Яндекс действительно глючит и показывает всем сайтам примерно удвоенные результаты.

  • Контекст комментария

    Антон Волнухин Яндекс

    Во-первых, хочу сказать, что не готов комментировать данные, которые отображаются на главных страницах самих блогхостингов: вполне возможно, там выводится не всё, работает какой-то фильтр или что-то ещё. Все записи из любого блогхостинга за день можно найти в нашем поиске и самостоятельно проверить, действительно ли они существуют. Перед попадением в поиск мы проверяем записи антиспамом, кроме того в рейтинге сервисов на главной странице не учитываются записи из блогов, созданных за последние три дня (чтобы успеть проверить их на спамность). При этом, конечно, накрутки или технические ошибки в экспорте со стороны блогхостингов случаются, мы проверим все указанные вами блогхостинги.

Добавить 12 комментариев

  • Ответить
    Альтер Эго

    Коммуникационный отдел Яндекса все чаще и чаще лажает. Кукц явно не справляется со своей работой. Волож, нужна новая кровь!

  • Ответить

    По поводу бэбиблога — полностью согласен с топикстартером. Накручивают. Как — с помощью ли самого Я или сами трэшат — мне как-то по барабану. Но факт. По остальным даже лениво смотреть. Впрочем, даже бэбиблога уже достаточно, чтобы послушать официальные комментарии от Я. Всё-таки, морда проекта под вопросом.

  • Ответить

    Во-первых, хочу сказать, что не готов комментировать данные, которые отображаются на главных страницах самих блогхостингов: вполне возможно, там выводится не всё, работает какой-то фильтр или что-то ещё. Все записи из любого блогхостинга за день можно найти в нашем поиске и самостоятельно проверить, действительно ли они существуют. Перед попадением в поиск мы проверяем записи антиспамом, кроме того в рейтинге сервисов на главной странице не учитываются записи из блогов, созданных за последние три дня (чтобы успеть проверить их на спамность). При этом, конечно, накрутки или технические ошибки в экспорте со стороны блогхостингов случаются, мы проверим все указанные вами блогхостинги.

  • Ответить

    Что касается BabyBlog.ru ссылка /all/ - это так называемый раздел «Прямая речь», куда попадает только небольшая часть ежедневных постов. Многие сообщества и дневники отключены от прямой речи, хотя посты в них индексируются Яндексом.

  • Ответить

    Однако, для верности хочется спросить у топикстартера — откуда он взял данные в 6857 постов у БебиБлога? В данный момент показывается цифра 3491, что с небольшой погрешностью сответствует нашей внутренней статистике постов (у нас постов больше — так как часть из них закрытые или только для друзей). Другое дело, что иногда, где-то раз в месяц Яндекс действительно глючит и показывает всем сайтам примерно удвоенные результаты.

  • Ответить

    >Другое дело, что иногда, где-то раз в месяц Яндекс действительно глючит и показывает всем сайтам примерно удвоенные результаты. Ну не раз в месяц, а гораздо чаще в последнее время ;)

  • Ответить

    >Blog.ru >Вообще удивительно, как с таким доменным именем, не раскрутиться до нормального сервиса. как будто в наши времена торжества поисковиков тайп-ин что-то решает эстетическая фишка, не более того

  • Ответить
    Альтер Эго

    касательно ЖЖ — не учтена где-то половина записей. На ww.livejournal.ru, в блоке Статистика Живого Журнала Вчера было создано: Записей 156 701 Не может быть, чтобы половина записей была спамом и подзамочными постами! Я.ППБ по прежнему лажает …

  • Ответить

    Именно так, часто и больше половины — спам, роботные или трансляции. Сколько подзамочных знают только в самом ЖЖ. Для ЖЖ всё считается верно, к нам попадают все публичные записи.

  • Ответить
    Альтер Эго

    Да нет, может. Бывали дни, когда 75% записей были спамовыми. Не верю в то, что это сильно меняется из дня в день. Если сильно меняется значит у вас классификатор неправильный совершенно. Вы его как проверяете?