Открытка: Почему исследования «Яндекса» иногда теряют связь с реальностью

Совладелец компании Data Insight Борис Овчинников написал о недостатках выпущенного сегодня исследования «Яндекса». Интернет-компания опубликовала исследование по данным Яндекс.Карт — о российских улицах. Аналитики «Яндекса» изучили более 560 000 улиц в 43 000 населённых пунктов. Суммарная длина этих улиц — более 395 000 километров (чуть больше чем до Луны).

Я всегда с интересом смотрю на те исследования, которые делает и публикует Яндекс. Но увы иногда попадаются примеры из серии "как не надо делать". Например, "как не надо строить выборки и экстраполировать данные"
Например, сегодняшнее исследование про улицы российских городов (ссылку дам в комментарии). В частности, выбрали 1000 самых популярных названий улиц (самые популярные = встречающиеся в наибольшем количестве населенных пунктов), плюс добавили некоторое количество популярных в отдельных регионах - и разобрали эти названия по категориям: в честь людей, в честь городов и т.д. В среднем по России так были разобраны по категориям примерно 60% названий. Но в Москве, где улиц очень много и у большинства уникальные названия (не повторяющиеся больше нигде в России), под такую классификацию попало хорошо если 25% названий
Но авторы исследования на такие мелочи внимание увы не обращают, и однозначно пишут, что чаще всего названия в Москве связаны с городами (3,7%) и с людьми (3,3%). По сути за профиль московских названий выдается статистика по присутствию в Москве типовых общероссийских названий улиц и переулков. Какие типы названий характерны для основной массы московских топонимов (то есть простите годонимов) - уникальных или редко повторяющихся в других городах названий? Насколько топ категорий, посчитанный на небольшой и смещенной выборке, характерен для Москвы в целом?
На эти вопросы в исследовании конечно нет ответа
Я взял случайную выборку из 100 московских названий (без Зеленограда и Новой Москвы и только улицы и переулки, на которых есть жилые дома) - и среди них 18 названий по городам и 26 по людям. А если учесть дореволюционные названия, когда улицы не назывались в честь людей - но их названия естественно вырастали из фамилий местных владельцев, то доля названий "по людям" вырастает до 36%. Есть разница между 3,3% и то ли 26%, то ли 36%? На мой взгляд, есть :)
Каких названий в Москве больше - в честь городов (как говорит Яндекс) или в честь людей (как показывает небольшая случайная выборка)?
А теперь последний вопрос: какая часть читателей исследования Яндекса способна заметить странность в цифрах по Москве, понять причины возникновения этой странности и понять, что приводимые Яндексом цифры имеют очень слабое отношение к реальности?

Опубликовано Борисом Овчинниковым 4 октября 2017 г.

Добавить 6 комментариев

  • Ответить

    Видимо, традиция собирать странные данные. Даже тот же опрос, который им какая-то компания проводит (приглашения в почте), вместо того, чтобы сразу сделать окошко «расскажи», идет листинг с вариантами ответов. Ну три или две страницы я прошла, но дальше этот унылый квест пройти сложно.

  • Ответить
    Альтер Эго

    > Я взял случайную выборку из 100 московских названий (без Зеленограда и Новой Москвы и только улицы и переулки, на которых есть жилые дома)

    > Совладелец чего-то там

    Это офигенно же. Профессионалы в треде.

    Возьми выгрузку ФИАС (замена КЛАДР) и проанализируй хоть в Экселе.

    Взял он 100 случайных, вручную считал что ли?

  • Ответить

    А как вы предлагаете не в ручную считать количество названий в честь городов и в честь людей? Неужели есть база, где улицы уже размечены по этому признаку? Или может быть есть простые формальные признаки для такой классификации?

  • Ответить

    Все выборки несовершенны. Это не означает, что они одинаково плохие

    Выборка Яндекса — неслучайная. Это по сути даже не выборка, а просто подмножество — «улицы Москвы, носящие характерные для других российских городов названия». Подмножество достаточно специфическое и охватывающее меньше половины улиц Москвы. Статистика по такому «миноритарному» подмножеству может очень сильно отличаться от реальных характеристик всего множества

    Моя выборка — реально случайная. Только она репрезентирует не все улицы Москвы как субъекта РФ, а подмножество «улицы с жилыми домами, расположенные в городе Москве» [где город — не административное понятие, а человеческое]. В отличие от яндексовского подмножества, мое (а) охватывает более половины улиц Москвы (т.е. чисто арифметически максимально возможное отклонение результатов от реальных меньше, чем у Яндекса) и (б) выделено по критерию, не связанному напрямую с названиями — так что уместно предположить, что в статистике названий по анализируемой выборке и по улицам, не попавшим в анализ (улицы без жилых домов), существенной разницы не будет

  • Ответить

    Стартапер штоле?

    Яндексовское поделие сообщает бесполезную информацию о доле популярных (в России) названий улиц в крупных городах. Ну да, если растёт число уникальных названий, то уменьшается доля каждого из названий, внезапно.

    Вы же прочитали это как процент улиц какого-то класса (фамилия, города, бубубу) в Москве (Whaaa?) и предложили свою методику, которая отвечает на вопрос, который Вы придумали когда смотрели эти непонятные цифры. При этом умудрились сами себе поломать данные вычеркнув промзоны. Неважно насколько сместился результат в данном случае, важно что вы сделаете ту же самую ошибку когда это будет критично.

    Попробуйте ещё своё «исследование» сравнить с урожаем баобаба, например, терять уже нечего, но можно ещё поржать.