Ашманов коротко (тысяч на 10 знаков) объясняет проблемы с внедрением ИИ в России

27 мая 2022 в 17:06
Игорь Ашманов

Для обсуждения этих вопросов "что может и что не может делать госструктура с распознаванием лиц" на содержательном уровне нужно представлять себе, что вообще происходит на "рынке" распознавания лиц.

Новости СМИ2

Вот ниже мой длинный текст про ИИ, распознавание лиц и психологию и деловое произведение разработчиков, представляющий собою исключительно моё оценочное суждение:

Разработчики ИИ: психология, деловое поведение

Здесь обобщены наблюдения за большим количеством разработчиков ИИ, полученные в ходе работы и общения внутри этого сообщества и рынка в России и за рубежом за многие годы.

Несмотря на приличные фасады, вылизанные договора и соглашения о неразглашении, реальная ситуация с доступом к технологиям и их «диффузией» по рынку – примерно такова, как описано ниже.

Большая часть описанного – в России незаконна, как с точки зрения контрактного права, Гражданского Кодекса, так и 152-ФЗ, и других законов, но это никого из разработчиков (и часто и заказчиков) ИИ – не останавливает. Большинство из них имеют не очень высокие моральные и правовые стандарты и очень высокую материальную мотивацию. Кроме того, рынок ИИ буквально взрывается, что порождает у его участников эйфорию и чувство, что всё можно и всё прощается "на подъёме".

Период первоначального накопления данных, то есть дикого поля, хаоса и беспредела – пока в области ИИ не закончился.

Подробнее:

Психология и деловая практика типового разработчика ИИ

1. Делай своё за деньги клиента. Разработчик ИТ-систем, в особенности разработчик ИИ, всегда улучшает свою технологию за деньги заказчика, от контракта к контракту.

2. Всегда оставляй технологию для себя. Ни при каких обстоятельствах разработчик не может отдать технологию заказчику «с концами», не оставив её себе, даже если это прямо предписывается контрактом.

3. Разработчик накапливает технологический капитал. Разработчик ИИ – как компания, так и конкретный менеджер или программист, считает технологию и сопутствующие ей данные (базу лиц, голоса и т.п.) своей первичной ценностью, которая должна только сохраняться и увеличиваться при переходе от контракта к контракту, от проекта к проекту или из фирмы в фирму. Это капитал, который гораздо лучше и ценнее денег.

4. Библиотеки – чужие, данные – свои. Большая часть разработки ИИ делается на западных технологиях – нейронных библиотеках Гугла и Фейсбука. Если разработчик ИИ заявляет, что использует собственные технологии, в большинстве случаев это касается «обвязки» – систем запуска обученных нейронных сетей на разных платформах, систем разметки и очистки данных.

5. Основная ценность в ИИ – это данные. Сказанное означает, что основной ценностью для разработчика ИИ являются базы данных, datasets, то есть базы лиц, голоса, другой биометрии, изображений, логов, записей персональных данных, других объектов, собранных на предыдущих местах работы. Эти базы очень дороги и трудоёмки в сборе, чистке и разметке, стоят больших денег и времени.

6. Добыча данных. Для получения лучшей технологии на рынке разработчик ИИ никогда не гнушается любыми способами добывания дополнительных данных (лиц, образцов голоса, другой биометрии, других больших данных). В том числе с помощью покупки данных у инсайдеров в банках, МВД, мэриях, интернет-компаниях, массовой рознице, а также путём переманивания разработчиков вместе с их данными.

7. Пополнение своей базы данными заказчика. Кроме того, разработчик систем распознавания всегда пополняет свою базу для обучения своей системы данными очередного заказчика. Обычно это делается на основании договорённости о постоянной поддержке и дообучении технологии (для чего нужно постоянно получать от заказчика поток свежих данных), либо через недокументированные технические возможности ПО распознавания.

8. Вынос данных и технологий. Уходя в другой проект или компанию, разработчик заведомо уносит с собой знания о процессах и моделях в своей голове, а также часть моделей и базу данных – на дисках или в облаке, какие бы ни были у него NDA или риски быть пойманным СБ предыдущего нанимателя. Поскольку базы данных, кроме собственной квалификации – это основная воспринимаемая ценность разработчика для себя самого и будущих нанимателей.

9. Частая миграция. Разработчики ИИ в настоящее время постоянно ищут новых возможностей, часто «смотрят на сторону», ищут новых проектов и нанимателей. Они меняют места работы раз в 2-3 года (если они не владельцы компании). В случае владельцев компании миграция тоже происходит, так как слияния и поглощения в области ИИ сейчас также происходят чаще, чем в среднем по ИТ-индустрии – раз в 3-4 года минимум.

10. Диссипация технологий и данных. Описанные выше обстоятельства жизни и работы, образ мыслей разработчиков, их постоянная миграция и «вынос» технологий и данных приводят к «диффузии», «диссипации» технологий ИИ и соответствующих баз данных биометрии и других в окружающее пространство, в другие компании, проекты, часто через границы страны.

11. Пока всё можно. Нужно понимать, что пока разработчик, сисадмин, менеджер ИИ-компании чувствуют свою абсолютную безнаказанность при выносе, уводе, диссипации данных и технологий. Часть из них уже вступает в преступные сговоры с криминалом на «маркетплейсах» данных в Даркнете.

Пример: распознавание лиц в РФ

Ниже приведены сведения, которые нельзя предъявить в суд или официально вынести на публику, но они довольно достоверные – получены в личном общении от разработчиков и участников проектов по распознаванию лиц. Это уровень рассказов участников, слухов и наших предположений, частично сведения могут быть неточными или содержать ошибки в деталях, но общая картина такова:

Для создания первых баз обучения по лицам в российских компаниях была получена в том числе база лиц, собиравшаяся в МВД с 90-х годов – за деньги или через дружественных полицейских. База содержала сотни миллионов изображений лиц, часто плохого качества, с паспортов и иных документов, часто неактуальных.
Естественно, к данной базе данных добавлялись изображения лиц от первых заказчиков, а также за счёт сбора фотографий в открытом Интернете (соцсетях).
Можно предположить, что эта база содержала как атрибутированные лица (с ФИО и другими персональными данными), так и неизвестные. В дальнейшем база подвергалась и подвергается непрерывной очистке и разметке.
Эта база с сотнями миллионов образцов позволила компаниям-разработчикам получить неплохой уровень распознавания на одном миллионе и на 10 миллионах лиц в базе.
Есть основания предполагать, что контакт в МВД сохранился, и база продолжает актуализироваться у разработчиков в том числе данными МВД.
Есть основания предполагать также, что эта основная база в 2017-2018 годах пополнялась изображениями лиц с камер наблюдения в крупных ритейлерах.
Технологии были приобретены в том числе государственными организациями (в 2018-2020 годах). Они используются как для вычленения рамки лица в потоке, так и для распознавания, то есть атрибутирования лица персональными данными (ФИО, номер кредитки и пр.).
Есть основания полагать, что системы видеонаблюдения в разных местах и на транспорте снимают лица всех проходящих пассажиров/пешеходов, в том числе не зарегистрированных в системах для оплаты лицом (что естественно – до съёмки лица нельзя попытаться его распознать), после чего передают все лица в ЦОД на сервера обучения и распознавания (так как серверные мощности на станциях, скорее всего, неспособны хранить весь поисковый индекс, а терминалы на турникетах заведомо его не хранят, из-за недостаточной мощности). Это косвенно подтверждается тем, что легко увидеть, что камеры установлены и на турникетах на выходе.
Таким образом, снимают всех, в том числе тех, кто не давал согласия, в том числе несовершеннолетних (то есть большинство).
Есть основания полагать, что неидентифицированные лица передаются также и исполнителям – формально для улучшения технологии, а также для попытки "поматчить", то есть сопоставить их с уже имеющейся базой лиц с персональными атрибутами, таким образом, происходит постоянное увеличение количества записей с атрибутированными лицами – параллельно с процессом регистрации в системах оплаты лицом, пропускных системах с идентификацией по лицу и других.
Есть также подозрения, что изображения лиц, присвоенные им персданные, а также вычисленные вектора (дескрипторы) передаются или будут вскоре передаваться также в единые базы по всему населению. То есть здесь будет происходить распространение этих баз в государственный сектор, в том числе в руки государственных системных администраторов и ИТ-шиков.
Тем временем, низовые, средние и верхние разработчики компаний-разработчиков постоянно мигрируют: довольно многие из них ушли в 2018-2019 году в компанию Хуавей, а ещё через 2-3 года – в другие компании, мобильные операторы, банки и т.п. Сами компании-разработчики также иногда покупаются целиком. Вообще рынок труда в ИИ представляет собой бурлящий котёл.
Кроме того, часть разработчиков и менеджеров в последние годы основывала компании за рубежом, в США и ЕС, куда наверняка выносились и базы лиц.
Есть основания предположить, что через всех мигрирующих разработчиков происходила диссипация в окружающую среду как технологий распознавания лиц, так и самих баз данных изображений лиц и дескрипторов, на разных стадиях развития этих баз. Нам, например, известно про случаи продажи на сторону данных, собранных для конкретных заказчиков из числа мобильных операторов.
Это предположение о просачивании технологий и баз данных биометрии подтверждается также анализом патентов компаний-разработчиков: они обычно самые общие, реальная ИС в них не фиксируется, патенты носят скорее пиар-характер, что означает, что ключевые, корневые технологии не показываются на публику даже в формате патентов – и мигрируют, несмотря на патенты.
На периферии данных компаний разработчиков и их заказчиков имеется также третий слой – облако обслуживающих этот ИИ компаний, предоставляющих услуги очистки и разметки биометрических данных. Они по факту получают доступ примерно к тем же данным, ответственность за них у компаний и их сотрудников ещё ниже, в то же время среди них есть иностранные компании (на Украине, в Армении, в США, в ЕС). То есть утечки и продажа данных могут происходить – и наверняка происходят – и через этот обслуживающий слой.

Метрополитен разошёлся с Ашмановым миром → Roem.ru

Выбор редакции

Добавить 7 комментариев

27 мая 2022 в 17:36 Ответить
Павел Сутырин
А как у них?
Что делать?
27 мая 2022 в 18:20 Ответить
soomrack
О, вынесли в отдельный топик, кул.
Игорь, а не могли бы вы еще некоторые моменты уточнить, исходя из того, что вы видите:
есть ли российские разработки софта для работы с нейронками и пр, т.е. грубо говоря аналогии keras, tensorflow, пакетам матлаба и пр.?
*(я видел только зачатоные вещи, ничего сопоставимого с названным мне неизвестно)
сколько математиков в этом направлении работает, т.е. специалистов, которые делают не обвязку и полуосознанный выбор архитектур нейронок и т.п., а прям вот тяжелую вычислительную составляющую — мат. оптимизацию, мат. статистику?
*(по моим впечатлениям, в этой области работает меньше 30 норм. математиков, приток новых специалистов около 0, и новых не готовят, появляются только как исключение — последнее я могу утверждать весьма обосновано по северозападу РФ)
сбор данных из глобального мира, насколько он интенсивный, грубо говоря есть ли копии всего linkedin, профилей facebook, траф с публичных камер и т.п.?
*(тут мне непонятно, вроде это просто, но я могу назвать только 3-4 конторы, которые подобные вещи могут делать, и я не знаю, делают ли…)
PS: Про слив баз понятно, все что есть — слито, без вопросов. Про утечку идей и мозгов тоже понятно, это естественно, программы в РФ не патентуются, нельзя требовать забыть что человек делал, тут только может быть запрет на занятие аналогичных должностей/обязанностей в трудовом контракте (на западе такая практика есть, типа не работать по аналогичному направлению в течении 1-3 лет)…
27 мая 2022 в 19:44 Ответить
Игорь Ашманов > soomrack контекст
"есть ли российские разработки софта для работы с нейронками и пр, т.е. грубо говоря аналогии keras, tensorflow, пакетам матлаба и пр."?
Есть несколько. Сын мой делает, в частности, в "Нейронных сетях Ашманова" (это не тот Ашманов). Назывется puzzlelib. Есть в опенсорсном виде.
Есть и ещё отечественные нейронные библиотеки (фреймворки) и разные другие прилады, в частности в МО. Но в них мало кто вкладывается — есть же халява от Гугла. Сейчас будут более востребованы. Про конкретный обзор надо спросить Стаса Ашманова, я не очень владею состоянием рынка.
(я видел только зачаточные вещи, ничего сопоставимого с названным мне неизвестно)
Ничего сравнимого с Гуглом сделать нельзя существующими силами и при существующем отношении государства. Там разработкой занимаются десятки тысяч, при отличном финансировании, на данных и мощностях Гугла в том числе.
Сбор данных из глобального мира, насколько он интенсивный, грубо говоря есть ли копии всего linkedin, профилей facebook, траф с публичных камер и т.п.? (тут мне непонятно, вроде это просто, но я могу назвать только 3-4 конторы, которые подобные вещи могут делать, и я не знаю, делают ли…)
Ничего простого здесь нет: ФБ и прочие яростно сопротивляются сбору (scraping), это очень большие нагрузки очень большие данные. Крибрум частично это делает, но не по всему мировому социальному Интернету. Это много данных, с 2010 — 4 петабайта. Мог бы делать Яндекс, могло бы Мыло, но не делают. Доступ к данным с камер есть только у государства, по большому счёту.
тут только может быть запрет на занятие аналогичных должностей/обязанностей в трудовом контракте (на западе такая практика есть, типа не работать по аналогичному направлению в течении 1-3 лет)…
У нас это запрещено Трудовым Кодексом, называется "ухудшение положения работника".
27 мая 2022 в 20:31 Ответить
soomrack > Игорь Ашманов контекст
Ничего сравнимого с Гуглом сделать нельзя существующими сиkами и при существующем отношении государства. Там разработкой занимаются десятки тысяч, при отличном финансировании, на данных и мощностях Гугла в том числе.
Мне кажется, что на хорошем, достаточном для приложений, уровне сейчас это еще можно сделать, если влить денег на уровне финансирования одного из бесчисленных и почти бессмысленных российских университетов, но лет через 5, кадров для этого уже не будет.
Халява это да, проблема. Любой хороший математик видя эту халяву начинает задавать вопросы, а как там это внутри? И ответов не находит, ну как бы код открыт, но разбираться в нем сложно, и он очень наворочен с обилием опций и пр. Короче, доверия к нему нет. Использовать можно только для предварительных расчетов, с учетом того, что если решение найдено, то потом его нужно реализовать самому… Но вот последний пункт, как-то опускается, в жизни…
Ничего простого здесь нет: ФБ и прочие яростно сопротивляются сбору (scraping), это очень большие нагрузки очень большие данные. Крибрум частично это делает, но не по всему мировому социальному Интернету. Это много данных, с 2010 — 4 петабайта. Мог бы делать Яндекс, могло бы Мыло, но не делают.
Сопротивляются, но при сравнительно небольшом финансировании и административном ресурсе, думаю, что я бы смог это организовать и сделать на базе нескольких университетов, некоторая формальная база для этого есть, тут проблема в АБСОЛЮТНОМ отсутствии финансирования. Кое-какой опыт сбора данных у меня есть. Не уровня крибрума, конечно, но ресурсы на уровне терабайта я собирал, единолично, just for fun.
У нас это запрещено Трудовым Кодексом, называется "ухудшение положения работника".
Интересно, не знал. Видимо, это наследние СССР.
PS: самсунг в Москве тоже активно хантинт специалистов по ML, у меня аспирант туда ушел.
31 мая 2022 в 12:41 Ответить
max@iqhost.ru
Как правило наши клиенты после обучения стирают свои данные. специально просят размещаться на шифрованных дисках. нужно совсем деловую этику не соблюдать чтобы продавать арендованные data lake
1 июня 2022 в 00:46 Ответить
Alexandre Prokoudine
Есть основания полагать, что системы видеонаблюдения в разных местах и на транспорте снимают лица всех проходящих пассажиров/пешеходов, в том числе не зарегистрированных в системах для оплаты лицом…, после чего передают все лица в ЦОД на сервера обучения и распознавания…
А почему "основания предполагать", если разработчики решения этого даже не скрывают?
Вот английским по чёрному: "With re-identification one can search video for people and cars for which there is no information available other than an image".
https://ntechlab.com/findface-multi/
1 июня 2022 в 08:45 Ответить
Игорь Ашманов > Alexandre Prokoudine контекст
Ну, они не скрывают такую техническую возможность "поиска по картинке".
А вот то, что камеры конкретной государственной или муниципальной организации а) снимают всех, идущих по улице, проходящих через турникеты и т.п., б) сохраняют лица, местоположение, маршруты всех попавших на камеры, в) передают их (и вектора-дескрипторы) разработчику, г) разработчик добавляет их в базу, д) пытается поматчить с известными лицами в общей базе и атрибутировать ПДн —
этого никто не признаёт и не признает, потому что это нарушение целого букета законов и Конституции РФ.