Женщины Рунета в поиске ленивее мужчин

Согласно исследованию Яндекса, женщины почти по всем количественным параметрам поискового поведения отстают от мужчин. У них меньше количество запросов в сутки (6 против 6,1 у мужчин), количество запросов за поисковую сессию (2,2 против 2,3), на 1% выше доля сессий из одного запроса (у обоих полов таковые составляют больше половины), на 3% меньше доля уникальных запросов. 

Женщины делают меньше ошибок и опечаток и задают более длинные запросы, но, по мнению аналитиков Яндекса, связано это с тем, что женщины копируют в поисковую строку длинные цитаты.

Женщины ленятся адаптировать свои запросы под понимание роботов и чаще разговаривают с машиной на естественном языке, задавая ей вопросы типа "что приготовить на ужин". Они почти в два раза реже, чем мужчины, используют в запросах цифры - а когда используют, это чаще всего возраст детей, даты и номера учреждений. 

Мужчины используют цифры при поиске товаров по артикулам. Латиница присутствует почти в трети мужских запросов и всего в 13% женских, да и то 40% женских запросов с латиницей - это адреса сайтов, введенные в поисковую строку вместо адресной строки браузера, и непереключенная раскладка клавиатуры.

Есть в исследовании и неожиданные выводы. Например, любимый цвет у женщин вовсе не розовый, а коричневый - именно такой чаще всего попадается в женских запросах. Анализ поисковых запросов с точки зрения цели поиска показал, что мужчины чаще интересуются покупками, а женщины хотят "скачать" или "смотреть онлайн".

Не менее интересной, чем выводы исследования, является методика ее проведения. Яндекс определяет пол пользователя вовсе не по соцдем-данным, оставленным при регистрации в его социальных сервисах, как, например, Mail.ru. У Яндекса пол определяет Матрикснет - алгоритм машинного обучения:

Чтобы научить Матрикснет понятиям «мужчина» и «женщина», ему надо «показать» достаточное количество тех и других. Но для этого сначала надо отобрать пользователей с известным полом — а это непростая задача. В качестве основы брались данные из профессиональной социальной сети МойКруг — в профессиональной жизни люди чаще указывают о себе правильную информацию.

Дальше данные обезличивались и автоматически сверялись с информацией из других источников. Отбирались только те пользователи, пол которых совпадал во всех источниках — в итоге около 500 тысяч мужчин и около 500 тысяч женщин. Именно по поисковым сессиям этих пользователей и учился Матрикснет — и выявил около трёхсот важных закономерностей.

Из этих закономерностей Матрикснет построил сложную математическую формулу. По ней и определяется пол пользователя.

Добавить 17 комментариев

  • Ответить

    Разбросы между женщинами и мужчинами по основным технических параметрам (количество слов в запросе, опечатки..) очень маленькие. Получается что основной вклад в алгоритм вносит сам запрос, его тематика, всякие тонкости, типа указания города. Там разбросы побольше, но не намного. Качественное конечно исследование, но имхо оно показало что отделить мужчину от женщины поисковику очень сложно и будет большая погрешность.

  • Ответить
    Игорь Ашманов Сам себе компания

    Почему-то мне кажется, что формула для отделения мужчин от женщин также имеется у ВКонтакте и Фейсбука. Вместе с формулами для определения возраста, оконченного университета, школы, домашнего адреса и прочего соцдема.

  • Ответить
    Альтер Эго

    Таких технологий аж целых две штуки было в Яндексе, у Вконтакта и ФБ просто не может не быть

  • Ответить
    Игорь Ашманов Сам себе компания

    Это была шутка. ВКонтакту не нужны Высокие Технологии, распознающие пол или возраст. Дело в том, что его пользователи сами сообщают всё, что нужно и всё, что можно. И даже то, что нельзя.

  • Ответить
    Альтер Эго

    Тоже мне бином ньютона. Яндекс без всякого матрикснета вполне может считать мужчиной того, у кого фамилия заканчивается на «-ов», а женщиной — на «-ова» (+ другие). Исходя из этого делать выводы. Фамилию юзер вводит при регистрации аккаунта на Яндексе (дальше приветственной формы регистрации я смотреть не стал). Выборка из залогиненных пользователей должна получиться достаточно репрезентативной. Или вопрос в том, как по поисковому запросу определить age & sex? С третьим пунктом (location) проблем нет. Если запрос пользователя обрабатывается матрикснетом за 1 мс — значит мужчина. Если за 10 мс — значит женщина. Если запросом является строка «vkontakte.ru» — значит молодая, незамужняя блондинка.

  • Ответить

    Блин, есть еще фамилии на о! И мужчины с фамилией на а! А также на досуге рекомендую подумать над понятием «статистически значимый». Оно хоть и продажное (какой пол???) дитя империализма, но помогает иногда трезво оценить некоторые «открытия».

  • Ответить

    >>мужчины чаще интересуются покупками Видимо, женщинам интереснее само хождение по магазинам, как процесс. А мужчинам лениво идти в магазин, легче купить онлайн..

  • Ответить
    Альтер Эго

    Откуда мужчины и женщины? Согласно одному из предыдущих исследований Яндекса, имеющему такую же ценность как и это исследование средний российской блогер это москвичка 22 лет. Мне как профессиональному статистику смешно смотреть на какие выкрутасы способны не очень умные люди. добравшиеся до огромных массовов данных. Это относится не только к Яндексу, а и к работникам ит отделом банков, супермаркетов. Давайте посчитаем, кто чаще покупает пиво мужчины или женщины? А кто чаще покупает конфеты с шоколадом мужчины 25-30 лет или 40-45? А кто чаще делает покупки в северных отделах супермеркате, те кто за день до этого покупал конфеты или те кто обычно ходит в супермаркет в дождливый день? А какой средний покупатель кроссовок Найк. Оказывается усреднив мы получим, что это москвич 23 лет, живущий в района станции Боровицкая. Было 1000 человек со станции Отрадная и 1000 с Каширки при усреднении получили центр Москвы. А какой средний блогер? Оказывается ему двадцать два года и у него в среднем одна сиська. А какой средний запрос у мужчины и насколько он отличается от среднего запроса у женщины. У женщины он немножко длинее, в то время как у мужчин Он немного длиннее. Бр… дай дураку богу молиться, он и лоб расшибет.

  • Ответить
    Альтер Эго

    Яндекс без всякого матрикснета вполне может считать мужчиной того, у кого фамилия заканчивается на «-ов», а женщиной — на «-ова» (+ другие). Ой. Сколько усилий было зря потрачено. Вспоминается история про 10 млн, которые были потрачены на изобретение шариковой ручки, которую можно использовать в невесомости. А оказалось, что карандаш вполне пригоден.

  • Ответить

    А какая точность получилась на тестовом множестве? Учитывая ограниченное число различных моделей поведения, она наверное должна быть сильно больше 90%. Так и вышло? Бр… дай дураку богу молиться, он и лоб расшибет. Вы ошибаетесь, нормальные исследования не делаются подсчетом среднего арифметического числа сисек и средней удаленности жилья от центра. :) Строятся гораздо более интересные модели, которые основываются на том, что различных вариантов поведения человека в заданных условиях — крайне мало, не смотря на то, что все эти человеки такие разные снаружи и внутри. :)

  • Ответить
    Альтер Эго

    G00DMAN 29.06.2011 14:42:16 Нормальные не делаются. Но тут нам презентовали имено вычисления средних, наибольших и корреляций между длиной и полом.

  • Ответить
    Альтер Эго

    Гудман — знаменитый ученый. Он знает правду. А такие параметры как средний возраст или любимый цвет важны для рекламодателей, которые будут делать лучший таргетинг своих адвертайзментов чтобы улучшить клик сру рейт.

  • Ответить

    Что-то мне подсказывает, что погрешность такого демографического таргетинга будет сильно выше погрешности при указании пола пользователями самостоятельно…. хотя и это продать можно.

  • Ответить

    вообще, как человек проф. занимающийся статистикой, скажу средняя — это вообще «ниачем». Там гораздо интересней распределение. Какие и где есть пики, с чем они связаны. И тд и тп. Я уж молчу, что если распределение не является нормальным, то гораздо яснее не «средняя», а «медиана»!