Бегтин: «большие данные» усиливают проблему информационного неравенства

Развитие событий: Наталья Касперская: big data россиян в интернете должны быть признаны собственностью государства (30 ноября 2016)

Иван Бегтин, директор АНО «Информационная культура», объяснил в РБК почему Big Data — это не только полезный инструмент для преследования чиновников за злоупотребления, но и способ при помощи которого люди, владеющие технологиями, смогут узнавать о нас гораздо больше, чем нам нужно для нашей же безопасности. Это — цифровое неравенство.

Иван Бегтин. Фото: Мария Борисенок
Иван Бегтин. Фото: Мария Борисенок

В вопросе информационной открытости есть две стороны. С одной стороны, «панамские бумаги» убеждают нас в ее пользе: мы получаем больше информации о лицах, принимающих решения, и видим случаи масштабной коррупции.

[…]

С другой стороны, каждый из нас по отдельности беззащитен перед корпорациями с их огромными техническими ресурсами, позволяющими обрабатывать наши данные. Это и есть цифровое неравенство: мы знаем о банках и их владельцах очень ограниченный объем официальной информации, которую требует публиковать ЦБ. Банки могут узнать о нас значительно больше, изучая наши соцсети и следы в интернете.

Примеры: 1. Как соцсети и история поиска влияют на выдачу займов? || 2. Мария Вейхман, Scorista: «Чем больше заемщики говорят в соцсетях, тем хуже возвращают займы».

Корпорации, основанные на данных (data corporations), знают многое о наших потребительских предпочтениях и начинают манипулировать нами, подкидывая нужную рекламу. По косвенным признакам о нас можно узнать больше, чем мы бы сами хотели рассказывать окружающим.

Полностью: Иван Бегтин. Темная сторона открытости: почему не все данные стоит раскрывать, Технологии и медиа, РБК.

Добавить 20 комментариев

  • Ответить
    Владимир Мяу и компания

    > мы знаем о банках и их владельцах очень ограниченный
    > объем официальной информации, которую требует
    > публиковать ЦБ. Банки могут узнать о нас значительно
    > больше, изучая наши соцсети и следы в интернете.

    Это означает только одно — что банкиры не оставляют следов в интернете и не вываливают о себе тонны интереснейших фактов в соцсети. Какое отношение неравенство имеет к эксгибиционизму?

    Сразу чего-то вспомнилась древнейшая ископаемая статья Литвинович в РЖ на эту тему.

    UPD: Прочитал всю статью Бегтина и не смог понять, в чём её посыл? Раскрывают или не раскрывают полицейские данные о преступлениях с точностью до дома — это, конечно, важно, но при чем здесь неравенство кого-либо с кем-либо? Раскрывают или не раскрывают образовательные учреждения данные о среднем выпускном балле своих учеников — это тоже важно и тоже к неравенству не имеет отношения. Точнее говоря, наоборот, если данные НЕ раскрывается, то получается искусственная уравниловка, как будто бы все школы одинаково хорошие (точнее, одинаково плохие). Что, искусственное равенство (когда на деле оно ни фига не равенство) лучше что ли? В общем, статья оставила ощущение «поразвожу-ка я руками».

  • Ответить

    «Например, согласно одному из исследований, по уровню заряда телефона в течение дня с точностью 90% можно определить вероисповедание его владельца.»

    Надо бы поподробнее.

  • Ответить
    Игорь Ашманов Сам себе компания

    Ну, там скорее всего нейронная сеть, она же диплёрнинг.
    Взяли обучающую выборку из двух известных факторов — таблица заряда за день + вероисповедание. Про тех, про кого и то, и другое известно.
    Обучились. Получили механизм распознавания, посчитали точность на той же выборке и на контрольной.

  • Ответить
    Владимир Мяу и компания

    А, извиняюсь, не заметил — видимо, потому, что цифра совершенно феерически недостоверно выглядит. Кажется, даже детектор лжи ложь и то не так уверенно детектирует, а то аж целое вероисповедание.

  • Ответить
    Игорь Ашманов Сам себе компания

    Тех, у кого график заряда батареи показывает вероисповедание, а пациент отказывается и упрямится — тех крестят или обрезают принудительно.
    Поэтому процент такой высокий — за вычетом 10% побегов и прочих потерь.

  • Ответить

    Ночью телефон подключён к розетке. Заряд аккумулятора или повышается или равен 100%. Мусульмане встают на намаз чуть-чуть перед рассветом. Если исследуемый телефон начинает разряжаться «вслед за рассветом» (и так всегда, как по календарю. Начало разряда аккумулятора плывёт вслед за рассветом) — владелец мусульманин. 10% населения работают в ночь или ходят в клубы. Их не определить.

  • Ответить
    Владимир Мяу и компания

    Давно заметил, у жителей европейских регионов странные представления о мусульманах. В нашем регионе их исторически много живет, и я чет ни одного не знаю, кто бы на намаз вставал. Хотя такие, конечно же, тоже есть, но до 90% все же «чуть-чуть» не дотягивают. Прочем, даже если он встал на намаз, казалось бы, при чем здесь вообще телефон, он вместе с владельцем чтоль молиться начинает, выдергивая себя из розетки? :)

    Ну ладно, а другие вероисповедания тогда как детектятся?

  • Ответить

    Другие на практике, не очень нужно определять. Однако, как я погуглил—посмотрел — эти самые «другие» (и не другие тоже), определяются по набору приложений, обращающихся к аккумулятору. Тут уже почти бигдата (на самом деле нет, чистая статистика). У мусульман — одни приложения используются реже-чаще, а у марсиан — другие. Правда, как пишут в гуглах — начиная с определённой версии Android, операционка закрыла эту статистику от всяких левых приложений (то есть потенциальных шпионов), хотя до определённого момента на неё даже особенных «разрешений» пользователь не должен был приложению-шпиону выдавать. Но «закрыла от приложений», в наши дни обозначает: «взяла себе» на эксклюзиве.

  • Ответить

    развитие всех технологий как процесса накопления и систематизации информации, само по себе изначально подразумевает усиление информационного неравенства, точнее неравномерности распределения информации между информационными узлами.

    неравномерность создаёт напряжённости на границах узлов и лежит в основе процессов обмена информации. старый добрый осмос кароче.

    ну это теория. на практике конечно не совсем понятно чем конкретно оказались полезны панамские бумажки простому Ваську с завода чтобы строить на них легенду о существовании т.н. «информационной открытости» в противовес единственно реально существующей и отшлифованной тысячелетиями системе «жрецов и тех кто впадает в ужас при виде предсказанных жрецами солнечных затмений».

  • Ответить

    «Чем больше заемщики говорят в соцсетях, тем хуже возвращают займы».

    Если утверждение верно, то г-ну Ашманову, например, вообще нельзя давать в долг.

  • Ответить

    «Например, согласно одному из исследований, по уровню заряда телефона в >>течение дня с точностью 90% можно определить вероисповедание его >>владельца.»
    >>Надо бы поподробнее.

    Элементарно, Ватсон. Настоящий Рабинович всегда даже телефон поставит на зарядку ночью, т.к. ночной тариф на электричество гораздо дешевле.

  • Ответить

    >Ну ладно, а другие вероисповедания тогда как детектятся?

    А моэет всё и статистически. Например, Википедия говорит, что христианство и ислам — это аваамические религии. Статистически, они, думаю, на территории России 90% и составляют. Остальные как раз входят в 10%. Таким образом, можно с точностью 90% сказать о вероисповедании и по цвету чехольчика. Кстати, если чехольчик розовый, то статистически, с вероятность 95%, можно определить гендерную принадлежность.

    Ну а так если детектить ислам, наверное, можно с датчика гироскопа брать, около трех раз в день. А если детектить христианство, то в районе первого вокресенья после полнолуния весной, вокруг микрофона будут хрустеть скорлупой.

  • Ответить

    любопытно, как выглядит график зарядок смартфона у атеиста? Хаос?
    Что дадут такие данные для практики? Приходскому батюшке проверку местоположения паствы а также число потенциальных прихожан своей конфессии на вверенном участке? Так сказать, вычисление потенциала роста?
    вот и идея вам для стартапа. Приложение, обеспечивающее напоминание о времени зарядки а также саморазрядку в соответствии с выбранным вероисповеданием для пущей мимикрии в стране пребывания.

  • Ответить
    Игорь Ашманов Сам себе компания

    Мужики, по-моему, вы не очень понимаете, что такое машинное обучение.
    Вы пытаетесь правила и эвристики придумать, а при машинном обучении они не нужны, нужны только набор факторов и распознаватели факторов, а правила вычисляет машина, и они могут оказаться сколько угодно странными, контр-интуитивными и неестественными, но при этом работающими.
    Более того, сами правила при тренировке, например, нейронной сети, вы даже и не увидите — просто нейронная сеть внезапно начнёт разделять мусульман от атеистов с какой-то точностью.

  • Ответить

    дык ить, тогда она ( машина ) должна понимать кто есть кто.
    Иначе она ить сперва разделит множество на два или более подмножеств, а кто потом будет определять, почему именно так они разделились? Может, это бритые-бородатые или брюнеты-рыжие итп. Или опрос среди них проводить и анкетрование? Тогда зачем машина нужна?

  • Ответить
    Игорь Ашманов Сам себе компания

    Нет, не должна она ничего знать. Машинное обучение работает так:

    1) выделяем факторы в изучаемых данных. Например, время включения телефона, время первой транзакции, время последней транзакции, время достижения 90, 80, 70, 60, 50, 40, 30, 20, 10 процентов зарядки, количество СМС каждый час, прочие.

    2) берём и размечаем обучающую выборку, по анкетам, по IP на дружественном ресурсе или добровольцами, или ещё как.
    Например, из трёх-четырёх множеств: православные, мусульмане, атеисты, остальные.

    3) запускаем самообучение. Машина берёт набор векторов значений факторов для каждого подмножества и подбирает веса факторов так, чтобы получилось распознающее правило.

    То есть, например, такой функционал со значениями от 0 до 100 (сумма значений факторов с действительными коэффициентами или произведение с дробными степенями, или сумма квадратов с коэффициентами и т.п.), что если подставить значения факторов и получится от 100 до 70 — это православный, от 30 до 70 — мусульманин, до 30 — атеист, меньше 10 — неизвестно кто.

    Берём контрольную группу и проверяем.
    Добавляем факторов, убираем факторы, подкручиваем обучалку.
    И так много раз.

    В итоге некоторые факторы получат большой вес, некоторые маленький, некоторые — нулевой, потому что не влияют именно на эту задачу разделения.

    4) Всё, после этого имеем распознаватель с известной точностью. Дальше можно его аккуратно дообучать, беречь от переобучения, смазывать и заряжать.

    5) Применяем его к большой выборке. Продаём результаты бесчестным коммерсантам. Профит.

  • Ответить

    да это то понятно.
    речь то шла про выявление принадлежности к вероисповеданию анализом параметров зарядки смартфона.
    А так то, когда все данные, тут хошь вектора, хошь просто смотри сайты посещаемые, хошь накладывай на календари конфессиональных праздников, хошь просто графы сообществ. А можно тупо посмотреть по базе кому симки принадлежат. Если написано Бердымухамед Кырлындибаев, род. в г. Челымкенте, то , с высокой вероятностью можно предполагать что он не принадлежит к англиканской церкви. Хотя и не на 100%.