IT-центр Принстонского университета: Яндекс.Метрика лучше всех собирает чувствительные данные о посетителях сайта

Центр по изучению информационных технологий Принстонского университета проанализировал, какие данные о действиях пользователя собирают и передают наиболее популярные в мире системы web-аналитики. Для этого был создан специальный скрипт, который симулировал действия пользователя через подстановку уникальной метки в HTML и отслеживал попытки отправить данную метку на сервер аналитики. Были проанализированы сервисы FullStory, Yandex.Метрика, Hotjar, User Replay, Session Cam и Smartlook.

Черные кружки - данные не передаются, половина кружка - данные передаются частично:

user_replay_automated_redaction

Многие проанализированные сервисы не только передают на сторонние серверы содержимое web-форм до их отправки на основной сайт, но и транслируют поля с номерами кредитных карт, паспортными данными, адресами и другой персональной информацией. Худший результат показала Yandex.Метрика - она не передает только пароли пользователей. Пресс-служба "Яндекса" не смогла предоставить оперативный коммениарий.

«Вебвизор» в Яндекс.Метрике записывает действия посетителей сайта и позволяет просматривать их в режиме «живого видео». «Яндекс» купил эту технологию в 2010 году, через год добавил в нее запись происходящего на https-страницах. За 7 лет сервис исключительно редко попадал в двусмысленные ситуации, когда его следы находили на чувствительных веб-страницах и всегда оказывалось, что никаких проблем ни у кого, в действительности, нет.

В 2014 году Иван Бегтин, директор НПО «Информационная Культура», в российском Роскомнадзоре уточнил отношение к записи пользовательских сессий «Вебвизором». Ведомство рассмотрело вопрос и установило, что никакой угрозы персональным данным служба не несёт (Роскомнадзор — уполномоченное в РФ ведомство по охране персональных данных и надзору за их оборотом). К 2017 году мобильные приложения «Яндекса» и «Метрика» переросли онлайн, вышли за его пределы и научились следить за посетителями офлайн заведений.


Обновлено в 20:20. «Яндекс» пояснил:

Пользовательские сессии записываются только если вебмастер принимает решение включить это в «Метрике». Сами сессии при этом анонимизированы, персональные данные, такие как пароли или данные карт, не записываются. Кроме того, мы предоставляем вебмастерам возможность отключать запись пользовательской сессии для отдельных мест на сайте, где могут быть, например, поля, куда пользователь вводит чувствительную информацию.


Лучшие комментарии

  • Контекст комментария

    Иван Бегтин АНО "Информационная Культура"

    Честно говоря мне тогда просто было недосуг бодаться с Роскомнадзором, но ситуация такова что:
    1. Данные передаются, вне зависимости от комментариев Яндекса о том хранятся они или нет — факт передачи есть.
    2. Внешний аудит ни их сервис, ни один из вышеперечисленных не проходил. Верить представителям организаций что данные не хранятся можно только исходя из «репутации бренда».

    Меня более всего беспокоит когда технологии записи сессий используются именно в личных кабинетах. Такое есть на некоторых госсайтах (редко) и на очень многих коммерческих сайтах (часто).

    Если это личный кабинет форума по разведению котиков — это еще ничего, а если это личный кабинет банка или медицинской организации, то «какого $&%?».

Добавить 25 комментариев

  • Ответить

    У меня в hosts «127.0.0.1 mc.yandex.ru», я в домике :)

    Жаль, они в исследовании не указали полные урлы остальных скриптов (или я плохо смотрел?)

  • Ответить

    Google Analytics не пишет лог «живого видео». Посещение со всеми деталями, с передвижением мышкой, вводом символов, скролингом. У Google более примитивная в этом смысле система. Там просто показываются, так сказать, «горячие зоны» на сайте и типа того, но «видеозаписи посещения» — у аналитики (в розницу, не знаю уж что они там смотрят сами для себя внутри) нету.

  • Ответить

    Почитайте исходники исследования что-ли, а то как обычно есть некоторые проблемы с переводом.

    Тестировали они не обычные счетчики, а т.н. «session reply» сервисы (у Яндекса это вебвизор).

    Google Analytics такого функционала не предоставляет.

  • Ответить
    Владимир Мяу и компания

    Ну вот они озаботились тем, что если я поставил на свой собственный сайт рекордер, который запишет пароль, и этот пароль всё равно безо всякого рекордера будет передаваться на мой же сервер, то это бида-пичаль. Впрочем, там затронута тематика медицинских данных и SSN, которые «утекают» к третьим лицам, и это да, можно подумать.

    А вот другой вопрос. Когда выходила Windows 10, было много жужжания, что у нее кейлогер встроен. И что якобы его чуть ли не обратно портировали в Win 8 и 7. И что голос может переливаться куда-то в «окей гуглы». Вот тоже вполне себе и медицинская информация и всё остальное — неким третьим лицам. Что бы они про это думали? Хотя конечно там всё зашифровано и просто так не снифанёшь, да. Не пойман не вор.

  • Ответить

    >Google Analytics не пишет лог «живого видео»

    Это понятно что критерии отбора такие чтоб своих не зацепило, ну а то что яндекс самый ‘опасный’ оказался то это просто случайное совпадение, такой же опасный как и Касперский…

    У русских же все опасно для культурного человека, даже Трампа выбрали они бешенного, который может перепутать кнопку вызова кокаколы с ядерной кнопкой.

    Жду следующего иследования, как RT негативно влияет на психически не здоровых стрелков с намеком что это они тоже виноваты, в смысле русские.

  • Ответить

    Пойду почитаю оригинальные материалы исследования.
    Я не понял как вообще можно считать CC number, CC CVC, CC expires.
    Вроде бы эти данные вводятся не на странице самого интернет магазина, а на сайте организации предоставляющей услуги интернет эквайринга. Разве нет?
    И сколько я платил в интернете, не видел, чтобы на этих страницах были какие-либо счетчики. Страницы эти можно чуть-чуть изменить, поставить свой логотип, но возможности начинить их скриптами там нет. Многие магазины оставляют эти странице в дизайне посредника.
    Возможно, я ошибаюсь.

  • Ответить

    >Я не понял как вообще можно считать CC number, CC CVC, CC expires.
    Вроде бы эти данные вводятся не на странице самого интернет магазина, а на сайте организации предоставляющей услуги интернет эквайринга. Разве нет?

    В американских интернет-магазинах часто принимают данные карты у себя на сайте в соответствии с PCI DSS, но я как то слабо верю что у них массово яндекс метрика стоит и еще и на странице оплаты.

    В порядке бреда могу предположить что полно фишинговых сайтов использующих яндекс метрику, сайты эти естественно русские создали, больше некому же.

  • Ответить

    Полная запись сессий, на самом деле, не очень-то и популярна (промежуточный вывод — Метрика стоит, но редко). Авторы штудий пишут:

    For this study we analyzed seven of the top session replay companies (based on their relative popularity in our measurements [2]). The services studied are Yandex, FullStory, Hotjar, UserReplay, Smartlook, Clicktale, and SessionCam. We found these services in use on 482 of the Alexa top 50,000 sites.

    — как я понимаю, в подобном топе, по естественным причинам полно американских сайтов, но есть, конечно, и наши.

  • Ответить

    Денис, не кипишуйте. В исходном исследовании никакого упора не делают на яндексе или его российскости, да и рейтинг они там не составляли, просто в целом рассматривают сервисы для session reply и очевидные проблемы с privacy, которые они создают.

    При этом логично, что российский сайт roem.ru вынес Яндекс в заголовок. Если бы Яндекса в исследовании не было, его бы наверняка вообще не перепостили.

  • Ответить

    Отличное исследование, не включающее Гугл Аналитикс.
    Я тут видел рассуждения про «армии Европы», в котором у РФ была самая большая армия. И делался вывод, что РФ — типичный потенциальный агрессор. Армии США и Китая были ненавязчиво и скромно выпущены из таблички.

  • Ответить
    Иван Бегтин АНО "Информационная Культура"

    Честно говоря мне тогда просто было недосуг бодаться с Роскомнадзором, но ситуация такова что:
    1. Данные передаются, вне зависимости от комментариев Яндекса о том хранятся они или нет — факт передачи есть.
    2. Внешний аудит ни их сервис, ни один из вышеперечисленных не проходил. Верить представителям организаций что данные не хранятся можно только исходя из «репутации бренда».

    Меня более всего беспокоит когда технологии записи сессий используются именно в личных кабинетах. Такое есть на некоторых госсайтах (редко) и на очень многих коммерческих сайтах (часто).

    Если это личный кабинет форума по разведению котиков — это еще ничего, а если это личный кабинет банка или медицинской организации, то «какого $&%?».

  • Ответить

    >Денис, не кипишуйте. В исходном исследовании никакого упора не делают на яндексе или его российскости

    Да я как в том анекдоте, оптимист учит английский, пессимист китайский, а реалист учит конструкцию АКМ.

    Пора уже реестр программистов составлять, чтоб они если что не в окопах оказались а мозгами помогали в общем деле победы.

    Я просто несколько в изучение истории погрузился и для меня тут ничего нового мало, перед первой мировой общественность Германии тоже настраивали против всего русского, на какой ни будь ярмарке в порядке вещей было сжечь кремль например, шутки ради.

    Так и тут идет накачка населения, которое в массе своей совсем не агрессивное и не хочет воевать…

    А так да все хорошо, подумаешь ерунда то какая, русские во всем виноваты, выбрали трампа, Касперским все украли а тут еще и яндекс на первой стройки антирейтинга:
    https://webtransparency.cs.princeton.edu/no_boundaries/session_replay_sites.html

  • Ответить

    Ладно, с заговорщиками понятно, в полемику тут вступать бессмысленно.

    На мой взгляд, поиск заговора в данном случае только отвлекает от основной проблемы: пользователь пришел к вам на сайт, а введенные им данные (в том числе и персональные) утекают к третьей стороне, о которой он понятия не имеет.

    Эту ситуацию нужно исправлять. Яндексу — улучшить механизмы анонимизации, разработчикам — осознать, что не все можно безболезненно собирать, господам депутатам — доработать закон о персональных данных. Надеюсь мы доживем до момента, когда аналог GDPR примут и у нас.

  • Ответить

    С Гуглом непонятно что делать. Они уже делают очень много, чтобы максимально анонимизировать собираемые данные (см. differential privacy). Но это все видимость и пыль в глаза. Даже просто данных, отдаваемых партнерам по RTB, достаточно, чтобы деанонимизировать пользователей.

    А Яндекс, к сожалению, даже видимости не создает. Надо бы хотя бы начать.

  • Ответить

    >>Денис Демидов
    >>Пора уже реестр программистов
    >>составлять, чтоб они если что не в окопах
    >>оказались, а мозгами помогали в общем
    >>деле победы.
    Посадить программеров в шарашки и заставить за еду писать хорошие платформы для маленьких региональных магазинчиков? :) Чтобы помогали в общей борьбе с Алиэкспресс? :)

  • Ответить

    >>Меня более всего беспокоит когда технологии записи сессий используются
    >> именно в личных кабинетах. Такое есть на некоторых госсайтах (редко) и
    >> на очень многих коммерческих сайтах (часто).

    Заходим в личный кабинет сбербанка и смотрим что там:
    //www.googletagmanager.com/ns.html?id=…
    //www.googletagmanager.com/gtm.js?id=…
    //mc.yandex.ru/watch/…
    mc.yandex.ru/metrika/watch.js…
    Даже когда мы отправляем квиток на печать, мы докладываем об этом гуглу.
    Конечно, ничего страшного в этом нет, мы же верим, что яндекс и гугл надежно защищают полученные данные.

  • Ответить
    Игорь Ашманов Сам себе компания

    Мы им верим, как себе.
    Что надёжно защищают — верим, ибо считают их своей собственностью.
    Что используют, хранят, продают, перепродают, отдают спецслужбам — тоже верим, ибо это естественно и никак иначе быть не может.

  • Ответить

    > Мы им верим, как себе.
    > Что используют, хранят, продают, перепродают, отдают спецслужбам — тоже верим,

    Палитесь, Игорь Станиславович, ой палитесь….

  • Ответить

    >Google Analytics упоминается, а Яндекс.Метрика — нет.
    К чему бы это?..

    К тому что метрика это для школоты, легкая свистелка перделка и там и так все понятно, а в гугл аналитике можно много более глубокий анализ проводить и у школоты от одного только их интерфеса тоска зеленая начинается.