Со всех сторон слышится: "В Интернете всё можно измерить!" Действительно, в сравнении с оффлайном возможности онлайн-статистики неисчерпаемы: можно узнать точное количество просмотров рекламного объявления, число кликов по баннеру, сосчитать посетителей сайта и оценить их повадки, подсмотреть цифры конкурентов и рекламных площадок.
Сейчас верить никому нельзя. Даже себе. Мне — можно
Однако многие маркетологи, пытаясь сравнить данные, замечают, что цифры из разных источников не сходятся. В моде легенды, небылицы, теории заговора и другие версии возникновения расхождений. Я постараюсь пояснить, почему такие погрешности — неотъемлемая черта всех методик оценки трафика и кому стоит верить при оценке собственных и чужих проектов (если вкратце — никому!).
Исторически первым способом подсчета статистики, используемым в Вебе, был анализ лог-файлов. В журнале сервера есть информация о каждом просмотре страницы, по ней легко составить картину посещаемости сайта. Уникальных пользователей можно было отличить по IP-адресам — многим веб-мастерам такой информации было вполне достаточно.
В конце 90х народ массово начал создавать сайты на виртуальных хостингах, без доступа к логам и необходимых навыков администрирования UNIX — словом, магия анализаторов лог-файлов оказалась доступной не всем, а заветную циферку увидеть хотелось, да и хвастаться посещаемостью стало модно. На этой волне появились и приобрели большую популярность "пузомерки" — счётчики посещаемости в виде небольших картинок, которые вебмастер размещал на своих страницах. Когда браузер пользователя загружал сайт, загружалась и картинка с сайта пузомерки. Пузомерка считала загрузки картинок на разных сайтах уже по своим логам, оценивала посещаемость этих сайтов, строила рейтинги и графики. На самом сайте отображалась кнопочка пузомерки с текущей посещаемостью.
Изображение с сайта seonews.ru
Одновременно в браузерах развивалась поддержка языка программирования JavaScript, с помощью которого можно собирать намного больше данных. Что самое главное, JavaScript смог передавать счетчикам данные о реферрере (ссылке, по которой пользователь зашел на сайт). Большинство пузомерок благодаря JavaScript начало обрастать дополнительными отчетами и превратилось в мини-системы аналитики. В России такие системы были чаще всего совмещены с тематическими каталогами сайтов: Рамблер Топ-100, List.ru (теперь Top.mail.ru), Liveinternet. На базе JavaScript стали строиться и более функциональные системы аналитики для вебсайтов. Многие из них становились платными (к примеру, SpyLog). Liveinternet до сих пор интересен: он широко распространен в рунете и позволяет увидеть сводные данные по всем сайтам, на которых он установлен, сразу. Положение сайта в рейтингах надолго стало важным критерием успеха: на него ориентировались рекламодатели, конкуренты и клиенты веб-проектов.
При анализе совокупных данных Liveinternet не забывайте включить сегмент ru, выделяющий только визиты из России: в противном случае система будет учитывать и посещения сайтов с установленным счетчиком Liveinternet из-за рубежа.
В то же время браузеры начали как следует поддерживать Cookies. Куки позволили отвязаться от идентификации уникальных пользователей по IP-адресам и считать в качестве "уников" уникальные браузеры. Из-за того, что развитие инфраструктуры Интернета привело к массовому распространению трансляции IP-адресов (целый офис может выходить в сеть с одного внешнего адреса) и буму динамических адресов (к примеру, Стрим меняет адрес для каждого пользователя каждые 24 часа), идентификация "уников" по кукам со временем полностью вытеснила старый метод. Зато IP-адреса стали использоваться системами аналитики для определения региона пользователя.
Наконец во время бума доткомов в сеть начали приходить большие деньги. Им потребовалось надувать щёки до упора, поэтому для них стали разрабатывать аналитические инструменты enterprise-уровня (в переводе "очень дорогие"): Omniture, WebTrends. Один из этих инструментов ждала особенная судьба: его производителя, компанию Urchin, приобрела Google, а сам инструмент сделала бесплатным, переименовав в Google Analytics. Данных в интерфейсе Analytics уже сильно больше, чем способен понять среднестатистический любопытный вебмастер без специальной подготовки. Эти системы в подавляющем большинстве используют ту же методику, что и менее продвинутые пузомерки: JavaScript-код, исполняющийся на странице сайта. Однако, многие из них (платные) могут быть установлены на серверах клиента и не передают важные данные третьим лицам.
Даже данных из самых навороченных систем аналитики для многих крупных рекламодателей было недостаточно. Потребовались методики из оффлайна, позволяющие узнавать соцдемографические параметры аудитории и проводить независимый аудит популярности веб-ресурса. В Рунет пришли монстры вроде TNS со своим опытом оценки аудитории медийных ресурсов. Они воспользовались проверенной методикой панельного исследования: выделили группу пользователей Интернета, установили на их компьютеры измерительные инструменты и смогли оценить состав аудитории популярных порталов (отчеты TNS Web Index доступны всем). Помимо панелей, поставщики исследований изучают аудиторию в оффлайне, ставят JS-счётчики на сайты и используют другие методы (подробнее тут).
Название "панельное исследование" не имеет никакого отношения к "панелям инструментов" браузера (тулбаров). Однако разработчики популярных панелей инструментов (toolbars) для пользователей Интернета как раз имеют отличную возможность проводить свои собственные "панельные" исследования: ведь они могли отслеживать, на какие сайты ходят пользователи с установленным тулбаром! Если пользователь к тому же зарегистрирован на сервисе, "родственном" тулбару, о нем можно узнать больше: социально-демографические данные, например. Среди таких систем на Западе популярна панель Alexa.com, Google, у нас данные тулбаров использует Яндекс, Liveinternet.ru (для сервиса webomer.ru) и другие сервисы.
И все эти штуки считают по-разному!
В логах правды нет
Закончив исторический экскурс, мы возвращаемся к наболевшему вопросу: где правда? Врёт ли TNS, глючит ли Analytics, стоит ли доверять Вебомеру? Где смотреть истинную статистику своих и чужих сайтов?
Прежде всего хочу развеять миф, что системы статистики, анализирующие лог-файлы, могут сообщить нам точные данные о посетителях. Несмотря на то, что число просмотров страниц в этих инструментах будет точно соответствовать реальному количеству запросов с сервера, вас всё же будут интересовать немного другие метрики:
- Количество уникальных анонимных пользователей и сессий в этих системах может считаться только по кукам, полностью аналогично JS-счётчикам. Средний срок жизни куки у пользователя не превышает нескольких недель, поэтому число уников, подсчитанных таким образом за месяц, будет уже некорректным. Для сайтов с обязательной регистрацией картина намного лучше, но данные регистрации можно передать и в JS-системы.
- Далеко не всех ботов можно отличить от реальных пользователей (особенно если они специально притворяются людьми), так что спамеры и (иногда) поисковые системы будут увеличивать цифры визитов. JS-счётчики тоже подвержены этой погрешности (вспомните хотя бы всплески в Analytics в дни, когда Google ходил по сайтам и собирал скриншоты для поисковой выдачи), но они по крайней мере полностью игнорируют ботов, не исполняющих скрипт счётчика.
- В логах не будут считаться показы страниц из кеширующих прокси-серверов и, иногда, кэша браузеров. Такого трафика очень немного — скорее, это показательный пример того, что анализ по логам не является непогрешимым.
Я уже упоминал, что все "навороченные" аналитические системы предпочитают работать с JS-кодом: современные браузеры отлично поддерживают JavaScript, умеют загружать его в асинхронном режиме (счетчики загружаются параллельно с другими элементами страницы, не тормозя ее отображение у пользователя и не теряя времени), да и данных так удается собрать намного больше. Поэтому обычная рекомендация — обращаться к логам только в редких случаях с целью проверки или дополнительного анализа (например, по ним удобно проверять корректность установки Google Analytics), но не сравнивать данные посещаемости напрямую.
При установке счетчиков вроде Google Analytics (на которых мы собаку съели) существует множество нюансов, влияющих на точность сбора данных. Например, на сайтах с поддоменами необходимо обязательно включить в счетчик директиву установки общих кук, иначе уники и посещения начнут множиться при переходах пользователя между поддоменами. Некорректная установка временной зоны тоже приводила к забавным расхождениям между Метрикой и Аналитиксом, установленными рядом.
Есть и разница в терминологии: например, Liveinternet считает, что сессия завершается через 15 минут неактивности, а Google Analytics и Яндекс.Метрика — через 30. Есть сайты, для которых даже 30 минут — некорректная установка (например, видеопорталы, где пользователь может вдохновленно смотреть фильм полтора часа, не совершая на сайте действий). Analytics позволяет настроить длительность сессии в соответствии с нуждами хозяина счётчика.
Эти баги тоже послужили причиной появления мифов о том, что один счетчик точнее другого. На самом деле это не так: при грамотной установке JS-системы аналитики считают практически одинаково.
О панелях
Зачастую панельные исследования являются единственной возможностью оценить аудиторию чужого сайта. Создать внешнюю систему статистики, способную восстановить истинную картину посещаемости, очень сложно: имея лишь относительно небольшую выборку пользователей, нужно по ней восстановить общую картину посещения аудитории. Для этого нужно иметь общую статистику аудитории Рунета, точно знать параметры каждого пользователя в выборке и подсчитывать его "вес" в общей статистике исходя количества пользователей, "похожих" на него.
Внешние системы анализа аудитории обросли мифами. Народная молва гласит, что российским исследователям можно "занести", надо пользоваться "неподкупной" Alexa. Проблема, однако, в том, что в России этот тулбар установлен у столь малой доли аудитории, что о её репрезентативности в Рунете можно практически и не мечтать (мой коллега Алексей Скобелев провел исследование, подтверждающее эти выводы). Панель Liveinternet.ru, на данных которой основан сервис Webomer.ru, получает намного больше данных. По моим подсчетам, его данные основываются примерно на 300 000 активных панелях. Новый сервис netchart может похвастаться на порядок меньшими показателями, но, в свою очередь, лучше Alexa примерно в 10 раз.
Однако, выборка пользователей, установивших по собственной воле все эти браузерные панели, нерепрезентативна: в самом деле, вероятность обнаружить панель Liveinternet у школьника намного выше, чем программиста или менеджера. Коррекцию выборки и подсчет весов эти системы не делают: у них слишком мало информации о пользователях. Данные, собранные профессиональными панелями вроде TNS и Comscore, заслуживают большего доверия. Их составители периодически проводят установочные исследования для оценки общей структуры аудитории в России, уделяют внимание подбору участников исследования и валидации результатов, а также рискуют репутацией и деньгами в случае обнаружения несоответствия результатов. Посмотреть параметры выборки для WebIndex, например, вы можете в конце каждого исследования:
Отдельно упомяну о Google AdPlanner — инструменте оценки аудитории рекламных Интернет-площадок от Google. В AdPlanner вы увидите результаты смешанного исследования, включающего в себя информацию от браузерных тулбаров Google, некоторых данных Google Analytics (в случае, если владелец сайта разрешил анонимное использование этой информации) и других источников данных. Информация о методике подсчета полностью закрыта, сотрудники Google не отвечают на вопросы, связанные с составлением выборки, и результаты работы мощных алгоритмов зачастую получаются очень странными. В России, где рекламная сеть Google не столь развита, компания не уделяет достаточно внимания точности данных, поэтому мой совет — не верьте этому инструменту.
Накрутки
Можно ли накрутить счётчики? Обычно можно. Проще всего это сделать с внутрисайтовыми системами: запросы, поступающие в счетчик, можно генерировать с помощью ботнета так, что они будут неотличимы от настоящих. Можно обмануть и браузерные тулбары: поставить Алексу на множество компьютеров, пользователи которых ходят на нужный сайт. Сложнее всего накрутить панельное исследование от профессионалов: попасть в него со стороны не выйдет, остается только возможность "договориться" с составителями исследования. "Скрутить" счетчик в обратную сторону, заставив его показать меньше аудитории, чем сайт имеет на самом деле, невозможно. Расхождения в меньшую сторону возможны только в том случае, если система подсчета работает неверно или в исследовании не учитывается какой-то подпроект, субдомен или мобильная аудитория, например.
Итого
Честнее всего посещения сайта считают системы аналитики, установленные на страницах: Google Analytics и Яндекс.Метрика. Однако в этих системах большие проблемы с подсчетом уникальных посетителей, особенно на длинных временных периодах (куки успевают протухнуть) — поэтому они предпочитают оперировать метрикой "Посещения". Для больших проектов аудиторные показатели точнее всего предоставляют профессиональные исследования вроде WebIndex. Если вас интересуют данные сайта, не входящего в такую панель и не предоставившего доступ к внутренней системе аналитики, рекомендую пользоваться Вебомером с его относительно большим охватом аудитории.
Устанавливая счетчики на собственном сайте, будьте внимательны и аккуратны: ошибок, приводящих к нарушению работы инструментов, можно наделать множество. В Google Analytics особенно много возможностей отстрелить себе ногу: к примеру, у одного из наших клиентов несовпадения директив по установке кук на домены на основном сайте и внутри Flash-приложения привели к безумно странным аудиторным показателям (аудитория размножилась в разы). Тут без дебаггера не обойтись.
Наконец, не придавайте данным абсолютной посещаемости такое значение! Обычно для понимания рынка и состояния проектов намного важнее динамика, рост аудитории со временем. К примеру, я давно слежу по Вебомеру за ростом аудитории Google Plus в России и меня волнует именно скорость, с которой он набирает популярность, а не попытки представить в абсолютных цифрах процент аудитории за сегодняшний день. Путь к получению точных данных длиннее, чем тысяча ли, а результат чаще всего не стоит усилий.
Автор - Алексей Ильин, iConText
Счетчики нужны для того, чтобы можно было, сравнивая сайты между собой, измерять: а) динамику б) абсолютные цифры Чтобы измерять динамику и относительный охват, достаточно любого счетчика. Удобно это делать в LiveInternet и Top.Mail.Ru. Но так как счетчики, хоть и являются самыми популярными, установлены не на всех сайтах, то наиболее удобным средством оказывается Вебомер — пользуюсь этой замечательной системой с момента ее запуска. Для подсчета абсолютных цифр подходят те самые счетчики LiveInternet и Top.Mail.Ru. Понятно, что «абсолютные» цифры вовсе не являются абсолютными, но это самая близкая к реальности информация, которую можно продавать рекламодателю (речь, понятное дело, не о накрутчиках, коих среди больших достойных сайтов практически нет). Особо пафосному требовательному рекламодателю придется продавать TNS («это же TNS!»). Но исследование TNS Web Index вызывало и будет вызывать вопросы у человека, знакомого с вопросом. У них есть цифра Unique Visitors, которую дает их счетчик и которая похожа на цифры Мэйла и Лива. Но выводы из нее они все равно делают странные (если, конечно, она вообще на что-то влияет). Например, по Ливу ежедневная аудитория ВКонтакте на ноябрь 2011 составляла не менее 20 млн человек (может, и 25 — уже не помню). А TNS в отчете за ноябрь говорит, что ежеМЕСЯЧНАЯ аудитория составила 25 млн. Ну ладно, они считают 12-54 лет. Ну ладно, часть посетителей ВК — не из России. Ну ладно, ядро аудитории очень большое. Но в итоге, в любом случае никак не должно быть различие в несколько раз. Более того, TNS сам себе противоречит: при ежемесячной посещаемости ВКонтакте 25 млн он показывает ежедневную — 13.5 млн. Во вторую цифру я готов с натяжкой поверить, в первую — нет. А основной пузомеркой ведь является именно она. И так по всем основным сайтам, если сравнивать данные TNS и счетчиков — различие ежемесячной аудитории по России в 2-3 раза. Получается, что сайт, подключающийся к TNS, осознанно идет на гарантированное (и, главное — непонятно чем обусловленное) уменьшение цифры, которую он будет показывать рекламодателям. При этом участие в TNS стоит денег. А в целом посыл статьи верный — никому нельзя верить :)