Сервис Liveinternet.ru теперь позволяет владельцам сайтов узнавать социально-демографические данные своих посетителей: пол и возраст. Ссылки на отчет о демографических данных доступны по адресам вида
http://www.liveinternet.ru/stat/site.ru/demo где site.ru - имя домена.
На данный момент все посетители сайтов делятся на четыре категории: девушки, женщины, юноши и мужчины.

У Roem.ru неженское лицо
Откуда берутся данные об аудитории ресурса, Li.ru не раскрывает, однако можно предположить, что компания, владеющая популярным сервисом статистики, вполне в состоянии определять пол пользователя по его поведенческим реакциям, которые отличаются у разных полов и возрастов.
Стоит отметить, что до сегодняшнего дня доступным и бесплатным способом получения данных об аудитории были исследования МАСМИ, которые проводятся раз в полгода, однако для получения адекватной картины необходимо чтобы посетители сайта за месяц заполнили несколько сотен анкет.
Другим способом получения демографических данных является подписка на услуги TNS Gallup, которая производится на платной основе и требует наличия на сайте 10 тысяч посетителей в сутки. Однако данные TNS обновляются ежемесячно, а участие в его исследовании помогает привлекать на сайт рекламодателей.

Официальная позиция / Комментарий эксперта
Самое приятное, что никто не спорит по сути, в основном детали : "откуда дрова" и "как посмели"
Контекст комментария
Лучшие комментарии
А мне кажется портрет по поведению даже отчнее, чем реальный, по возрасту.
Вот есть челу 20 лет, он лазит по авто сайтам, подбирает себе тачку на следующий месяц, еще тусовки пафосные за бугром смотрит - да ему лет 35-40 и доход норм.
А другой в 40 лет тусит на форуме растаманов, качает фри музыку и ведет блог с приколами - да ему по поведению лет 20.
Так что по поведению точнее получается возраст, чем реальный, биологический.
Контекст комментария
Комментарии
Про паттерны поведения - это интересная идея, но не однозначная.
Может быть - в какой то момент пользователи идентифицируются (может быть с помощью какой то внешней информации - на блогах, на мамбе и т.д.) - а потом уже просто счетчиком ведутся?
Они не собираться раскрывать источники этих сведений?
(но Тагиевым тоже не надо подписываться, ага)
Представьте - миллионный бюджет, тысячи сайтов, миллиарды показов рекламы. Нужно обоснование, почему это деньги пошли именно туда.
Хорошо, если продавцы рекламы есть в отчете Гэллапа! А если нет? А показов - миллиарды! А бюджетов - миллионы!
И тут, на белом коне, в стан мятущихся рекламщиков въезжает Гера и со своего плеча дает им бумажку, которой они прикрывают многомиллиардные закупки баннеров. ВСЁ! Все счастливы!!!
(сцены всеобщего братания, ликования и подноса коньяка остаются за кадром)
Ничего, если я сошлюсь на TNS Gallup? Так вот, по их данным, аудитория Мамбы и Liveinternet отличается не более чем на 20%.
Gornal, возвращаемся к вечному спору. Чем выборка (панель) Liveinternet хуже панели TNS?
Потому что там девочек в 2.5 раза больше, чем мальчиков в целом по Рунету.
>Ничего, если я сошлюсь на TNS Gallup? Так вот, по их данным, аудитория Мамбы и Liveinternet отличается не более чем на 20%.
А там партнерки Мамбы как учитываются? Ибо один love.mail.ru уже больше, чем 120% liveinternet по счетчику liveinternet.
>Gornal, возвращаемся к вечному спору. Чем выборка (панель) Liveinternet хуже панели TNS?
Это про что и о чем? Видимо, спор недостаточно вечен, чтобы я был в его контексте.
>Данные по одноклассникам можно получить при помощи парсинга той страницы, на которой чаще всего бывает юзер. Счетчик Li.ru там же стоит.
Заблочат.
Alter Ego, подписывайтесь!
И опять истекла сессия.
--Парсить не дадут, роботов в соцсети тоже запростотак не пускают.
"Ничего, если я сошлюсь на TNS Gallup? Так вот, по их данным, аудитория Мамбы и Liveinternet отличается не более чем на 20%. "
- а сколько верно указанных анкет пол-возраст знает TNS?
Парсить не дадут, роботов в соцсети тоже запростотак не пускают.
Так ведь парсить нужно далеко не все подряд. Зная структуру конкретного сайта -можно легко отличить когда допустим пользователь заходит на страницу со своей анкетой - только ее и парсить.
А если допустим этот механизм вставить в счетчик - то парсить(а точнее - с учетом того, что структура сайта и его страниц заранее известна - точечно извлекать некоторые части кода страницы) - это все можно на стороне клиента.
Робот при всем желании не сможет распарсить ни одной анкеты Одноклассников, это полностью закрытый сервис, попробуйте открыть профиль незалогинившись.
Чтобы "парсить" на стороне клиента, Одноклассники сами должны прописать соответствующий код на своих страницах. Загляните внутрь и убедитесь, что это не так.
Парсить, в принципе, может лирушный тулбар, но его пользователи итак заполнили свои профили на Лирушке.
Ссылаться на данные TNS не стоило. Удивлен, что вас до них вообще допустили.
Заблуждение-то очевидно: на Лирушке большинство посетителей -- читатели без аккаунта, это же блогхостинг; а вот на Мамбе без аккаунта делать совсем нечего. В общем, сравнивать медийный охват бессмысленно, когда речь заходит о профилях.
Ну и про партнерки Мамбы тоже не забываем, Знакомства на Мэйле уделают кого хочешь.
Роботу не нужно залазить внутрь Одноклассников/Мамбы/В контакте и т.д. – пользователь загружает страницу себе, залогиненый, со всем контентом – со счетчиком на ней. Счетчик – знаете, вот эти картиночки с циферками (часто они так выглядят) – они не на стороне сервера в страницу вставляются, а на стороне клиента, в его браузере, в страницу с контентом, которую себе пользователь залогиненый загрузил.
Чтобы "парсить" на стороне клиента, Одноклассники сами должны прописать соответствующий код на своих страницах.
Это мне особенно понравилось, да. Я ведь кажется ясно написал «допустим этот механизм вставить в счетчик». Одноклассники этот код прописывают, когда счетчик лайвинтернетовский себе в страницы вставляют. Там же код такой - счетчик JavaScript-ом с лайвинтернетовского сервера вытягивается.
А код li.ru, в который будет включена возможность парсинга... - еще надо добиться чтобы "Одноклассники" его себе в страницу воткнули.
Это по всему счётчику. По той же Ленте — уже порядка 40% получается. Чёрт его знает, к чему бы это.
js-код liruшного счетчика - там document.write(и пошла картинка с liрушного сервера) - там в общем можно много чего впихнуть.
А код li.ru, в который будет включена возможность парсинга... - еще надо добиться чтобы "Одноклассники" его себе в страницу воткнули.
Это конечно уже конспирология - ну а зачем нужно говорить, что он теперь такой? :) Он ведь от обычного - в плане кода который нужно вставлять в страницу - отличаться не будет. У пользователя - да будет видно, но не всегда.
Клименко это интересует в последнюю очередь. Сейчас он смотрит выстрелит или нет, а обоснование можно придумать и потом.
Конечно антинаучно. Также антинаучно, как исследования ВЦИОМ'а, как отчеты TNS Gallap.
Сплошное шаманство и надувательств доверчивых людей.
Вот, к примеру, на многих партнёрах Мамбы стоит счётчик liveinternet (банально mail.ru и о11и). А поиск на Мамбе делается GET-ом. Таким образом остаётся только аккуратно записывать поисковые параметры из реферера и сопоставлять с айдишниками.
Есть и другие варианты "кражи" соцдема -- всё зависит от того, насколько далеко могли себе позволить зайти разработчики.
А где можно почитать что-нибудь про панель LI ? Ну там соцдем и все такое...
Чтобы посравнивать лучше-хуже
Лично у меня складывается ощущение, что этот проект по обсчету аудитории, находится на стадии тестирования и доводки, либо это такая "хохма", которая не имеет под собой ничего серьезного.
Естественно, что все что есть, можно куда-то улучшать.
А то что заметка появляется лишь на одном сайте - ну бывает так, что о чем-то пишет только один сайт. Никто в этом не виноват. Я же не должен бегать по остальным сайтам и рассказывать, какие клевые вещи делают в Liveinternet, правильно?
Лучший комментарий. Развернуть?
Заходит туда йобот, а ему вместо анкеты форму регистрации суют как и всем. Заходит под левым логином-паролем - его лочат и "до свидания!".
Я ж писал выше - никуда робот не заходит, нужно пытаться на стороне клиента парсить, когда сам пользователь страницу со своими данными откроет.
Скриптами счетчика пытаться вытащить контент, проанализировать и отправить маме?
Эротично.
Стоящий сейчас на Одноклассниках счетчик (и вообще счетчик Лиру), никакие скрипты не подгружает. Из тега img скрипт не запустишь, что бы там в src вместо картинки не отдавалось. А данные по демографии мы видим уже сейчас, так что никакие гипотетические изменения кода Лиру не понадобились, не там роете.
Вообще, предположение, что Одноклассники, не задумываясь, установят код, который будет парсить их страницу, -- из области научной фантастики. Я скорее поверю в то, что они потеряли диск со всеми логами, а Клименко его подобрал.
Gornal>Потому что там девочек в 2.5 раза больше, чем мальчиков в целом по Рунету.
У вас есть данные по 100 цветкам семейства лютиковых и 100 цветкам семейства зонтиковых.
Тут еще притащили данных по 50 цветкам лютиковых.
Неожиданное мнение, что эти дополнительные данные сделают результаты обучения - классификации хуже, а не лучше.
Комментарий представителя ньюсмейкера. Развернуть?
Пытался вынудить, не поняли. Так откуда дровишки (анкетки). (с уважением)
Вы симпатичный фантазер, нормально аргументируете. Но в мире рок-н-роллла (рекламы) очень жесткие законы. Кто платит тот заказывает музыку. Маркетологам нужна (не факт, что получают) исчерпывающая инфа о челе, к которому прикладывают вектор силы. В массовом порядке, регулярно. Просто догадки/тонкие настройки про растамана здесь не катят. Знаю миллионеров-фриков (растаманов, .....).
Вы симпатичный фантазер, нормально аргументируете
П.Е.Б.
спасибо,
реально - так всё и есть. Очень удивлен Ваашей проницательностью . ОЧЕНЬ!. Вы реально нечего такой чел. ЗАЧЕТ!!!!!!
з.ы.
глубоко пох. на тему, но про меня очень точно!! :)))
Да - я тоже считаю, что если такое получиться сделать (или кто уже так делает) - это очень эротично.
Phaker North, да угомонитесь вы уже.
Стоящий сейчас на Одноклассниках счетчик (и вообще счетчик Лиру), никакие скрипты не подгружает. Из тега img скрипт не запустишь, что бы там в src вместо картинки не отдавалось.
Сами бы вы Phaker, угомонились. Как тогда счетчик - любой современный, не только лиру - куки устанавливает/проверяет и т.д?
А данные по демографии мы видим уже сейчас, так что никакие гипотетические изменения кода Лиру не понадобились, не там роете.
Ну раз вы знает как все- так подскажите где "рыть".
Вообще, предположение, что Одноклассники, не задумываясь, установят код, который будет парсить их страницу, -- из области научной фантастики.
Про это я писал выше.
На самом деле ответ так прост, что вы просто его не заметили...
Слишком глубоко копаете.
> устанавливает/проверяет и т.д?
Читайте спецификацию протокола HTTP.
Куку вам вставят при загрузке чего угодно. Хоть текстовой строчки.
И ставят куки не только счетчики, а все, кому не лень.
"Это даже я умею" (с) Промокашка
Куку вам вставят при загрузке чего угодно. Хоть текстовой строчки.
И ставят куки не только счетчики, а все, кому не лень.
Ставят куки все кому не лень. Куку вставят при загрузке чего угодно - Хоть текстовой строчки.
Куки может поставить и прочесть web сервер, CGI скрипт или js на стороне клиента - что дальше то? Как это связанно с вопросом - может ли liрушный счетчик вытаскивать данные со стороны клиента и посылать их на сервер?
У Вас в профиле написанно: "Наименование компании: Liveinternet.ru" - если это правда, так может Вы нам и расскажите - откуда эти данные берутся, что бы теорий лишних не плодить?
>Как тогда счетчик - любой современный, не только лиру - куки устанавливает/проверяет и т.д?
>Куки может поставить и прочесть web сервер, CGI скрипт или js на стороне клиента
Эх, ну кто ж вас так учил! Конспирологическая теория может противоречить реальности — но сама себе противоречить не должна!
А Вы действительно верите в то, что Liveinternet парсит одноклассников и "крадет" соцдем ? :)
Это выясняется в два клика.
>так может Вы нам и расскажите - откуда эти данные берутся, что бы теорий лишних не плодить?
Да шо я, рыжий? Вперед батьки лезть? :)
Спалил наш маленький концлагерь для программистов ? :) Фи. Стыдно :)
Она сама себе и не противоречит. Для данной теории главный вопрос - "есть ли такая техническая возможность или нет?" А не "кто же так будет делать, кто себе такое будет ставить и т.д."
Пока источники данных не обозначены - можно обдумывать любые - даже самые необычные версии)
Ну и потом - почему же "крадет"? Privacy не нарушается, коммерческим интересам тех же Однокласников ущерба не наноситься - а данные, если они будут собраны, будут полезны всем.
Если бы соцдем считался преимущественно на основе профилей ЛИ.ру, то там доля тинейджеров была бы намного выше - посмотрите соцдем самого Ли.ру по TNS. Там должны быть задействованы еще большие внешние источники профильных данных...
(может быть конечно система Ли.ру считает, что если у человека нет профиля в Ли.ру, то ему точно больше 20 :) )
Пот версии TNS:
12-17 23%,18-24 28%, 25-34 22%, 35-44 18%, 45-54 10%
По версии li.ru
Женщины старше 20 лет 78,255 32.8%
Мужчины старше 20 лет 73,821 30.9%
Женщины младше 20 лет 67,539 28.3%
Мужчины младше 20 лет 19,098 8.0%
Данные не противоречат абсолютно и даже похожи очень.
А аудитории в 6 миллионов человек в месяц(конечно не все имеют профайлы) вполне хватит, что бы точно считать соцдем.
И к томуже я писал, что данные могут еще браться из профайлов дружественных проектов.
Итак, вы утверждаете, что сейчас, без ведома Одноклассников, Лиру может парсить их страницы на стороне клиента. Стало быть, вы знаете, как это можно реализовать на практике. Ок, предлагаю пари, скажем на 1000 Яндекс.Денег, если покажете как.
Выложите куда-нибудь (да хоть на Народ) два файла. Один -- html с кодом счетчика ровно в том виде, что стоит на Одноклассниках. Другой -- то, что каверзная лирушка могла бы отдать вместо картинки.
Код счетчика (не уверен, что Роем его не попортит), оригинал смотрите на Одноклассниках, здесь я повыкидывал лишнее:
<!--document.write("<img src='URL_вашего_второго_файла' width=1 height=1 alt=''>")//-->
Вполне все разумно и близко к истине.
Для того, что бы сделать достоверный демографический отчет у нас более чем достаточно данных.
Мне кажется что North все прекрасно понимает, но ... бывают же любители жесткой конспирологии :)
Нет. У картинки счетчика нет технической возможности получить текст страницы, с которой она вызвана. Кроме информации о ссылающейся странице и разрешении экрана в адресе картинки больше ничего не передаётся.
Если бы код счетчика LiveInternet был не картинкой, а внешним JavaScript, то тогда он (javascript-код) теоретически мог бы анализировать код страницы, с которой вызван. Но, так как код скрипта является открытым и общедоступным, то даже если у кого-то возникнет желание сделать такое, это можно будет обнаружить, вести подобный сбор данных скрытно невозможно.
Я с вами согласен, по возрасту-понятно, но еще стоит учесть момент, что указывать свой истиный возраст у лирушников нет никакого резона - можно вымышленный указать - омолодиться или стать взрослее. Другое дело Одноклассники или Вконтакте - там твои друзья знают сколько тебе лет, и лажу публикуют единицы. Из этого позволю сделать себе вывод, что реальную соцдемкартину без данных анкет этих двух сервисов не сделать. Примерно, некую экстраполяцию анкет лиру на всю аудиторию - конечно можно, но тогда должны быть опубликованы допущения и методика, а этого нет. Ну, в общем-то должен появиться в ближайшее время провайдер соцдем данных, платный естественно. Насколько я знаю, ни одноклассники, а теб более Вконтакте данных своих не давали.
Во первых я не знаю лично таких людей(пароноиков), которые скрывают свой пол или возраст.
Во вторых, когдато давным давно на тервере я решал такие элементарные задачки и получалось, что даже если очень большой процент соврет результаты статистики всеравно будут иметь очень высокую точночть (я думаю что такую задачку должен был решать недавний студент который еще не позабыл тервер и збч :) )
В третьих социалка liveinternet(на сколько я вижу) уже приблизилась по функционалу и аудитории к таким проектам как вконтакте и одноклассники, не смотря на то что не имеет таких мегаинвестиций как они. У них получается немного неказисто(на мой взгляд), но это потому что они не копируют тупо западные проекты (вконтакте=facebook,одноклассники=one.lv)
Я думаю самые достоверные данные по статистике это логи провайдеров, но и они будут грешить такими же погрешностями(ведь провайдер не знает толи это гость толи человек который заключил договор занимается вэбсерфингом).
Чтобы такое утверждат надо знать что такое социалка.
можно сказать что фликр это фотоальбом а не социалка, одноклассники это поиск одноклассников а не социалка, хабр это блог площадка айтишников а не социалка. Не так давно мне один вэбмастер дал определение социалки - это сайты там где есть аякс.
вот классическое определение http://ru.wikipedia.org/wiki/%D0%A1%D...1%82%D1%8C
В качестве социалок приводятся блог платформы, циатат: "Пример — службы размещения блогов, блог-платформы."
Надо всегда изучать теорию
Спокойнее, Phaker, мы с Вами обязательно докопаемся до истины)
И еще раз напоминаю – я не говорю, что в данный момент счетчик liru парсит Одноклассников, взламывает квартиры пользователей и выносит оттуда ценные вещи.
Я говорю о возможном техническом решении проблемы сбора информации таким способом.
Код счетчика (не уверен, что Роем его не попортит), оригинал смотрите на Одноклассниках, здесь я повыкидывал лишнее:
<!--document.write("<img src='URL_вашего_второго_файла' width=1 height=1 alt=''>")//-->
Сходу идея такая -
Нужно, что бы сервер http://counter.yadro.ru/ при обращении к нему -отдавал вместо URL_вашего_второго_файла (картинки)
текстовую строку, которая соответственно document.write-ом будет вписываться в код страницы. То есть – вместо URL_вашего_второго_файла
отдается допустим:
URL_картинки_1'><br><script src="http://li.ru/slava-robotam.js" type="text/javascript"><\/script><br><img src='URL_картинки_2
Я потому и предлагаю вам не теоретизировать, а выложить эти два файла на хостинг и посмотреть, что происходит. Просветление гарантировано.
Hint: URL_второго_файла прописан Одноклассниками и Лиру не имеет возможности поменять что-либо в коде первого файла..
> Никто не укажет верные данные по своему возрасту, если их никто не проверит и не опровергнет
Не судите по себе. Вообще-то большинству людей проще и естественнее не врать без причины. Да, в анкете почтовых сервисов писать правильный возраст нет никакого резона - все равно эту информацию никто не видит. Но в соцсетях (в широком смысле, включая и "блоговые сети") возраст - информация публичная, и влияющая на круг общения, восприятие онлайновыми френдами.
За ЛИ.ру не скажу, но по ЖЖ на больших массивах видна четкая корреляция между заявляемым возрастом и поведением: девочки бльше играются с настройками журналов, люди старше 25 чаще пользуются ЖЖ только в будни, и т.д. Не думаю, что честность лирушников принципиально отличается от ЖЖистов
> ТНСом не надо трясти, это часть инструмета регулирования под себя рынка определенной группой компаний. К Геллапу отношения не имеет
К Джорджу Гэллапу проект Web Index точно отношения не имеет :)
Но вообще в нынешнем медиамире имя TNS значит куда больше, чем имя Gallup, так что смысл утверждения не очень понятен
Мы слишком мало знаем про источники данных и методику Лирушной демографии, чтобы уверенно говорить про то, где там главная погрешность
Но если говорить про проблему с использованием одного домашнего компьютера несколькими людьми - надо помнить, что на статистике это сказывается только если они это делают из под одной учетной записи. А вот какая часть пользователей заводит себе раздельные учетки - такой статистики я к сожалению никогда не видел
К сожалению нет – ничего этого он не делает. А жаль – было бы на много интереснее.
Вполне возможно – только проблема в том, что Вы еще хуже меня представляете как они работают.
Hint: URL_второго_файла прописан Одноклассниками и Лиру не имеет возможности поменять что-либо в коде первого файла..
Ответный Hint: Что отдает сервер на запрос URL_второго_файла? А что будет если сервер будет отдавать что то другое - не то, что мы от него ожидаем?
Третий раз я прошу вас, выложите два файлика на Народ, вы же знаете, что в них записать. Один эксперимент заменит сотню теоретических комментариев. И вы наконец поймете, что браузер ни при каких обстоятельствах не станет записывать содержимое загружаемой "картинки" в html.
Вот все что я могу Вам предложить.