#СтартапДня: Kaggle — платформа для проведения конкурсов по машинному обучению

Развитие событий: #СтартапДня: Habitissimo — испанский YouDo, успешный проект и локальный лидер (14 марта 2017)

Позавчера подтвердилась новость о покупке Гуглом Kaggle – отличный повод написать об отличном проекте. #стартапдня Kaggle – платформа для проведения конкурсов по машинному обучению и обработке данных. Большая компания публикует какие-нибудь свои данные и задачу – ну, например, по анонимизированным данным о пользователях и их действиях надо предсказать отток, а тысячи специалистов из всего мира пытаются построить лучшую предиктивную модель. Платформа Kaggle автоматически проверяет качество предложенных моделей, применяя их к неопубликованной части исходных данных, а в назначенный день останавливает прием вариантов, и лидер превращается в победителя.
Денежную составляющую приза назначает компания – автор задачи и это совершенно произвольная сумма без каких-либо ограничений и правил, отличных от “чем больше, тем лучше”. Рекордное соревнование идет прямо сейчас – за улучшение алгоритма диагностики рака предлагают миллион долларов, но это совершенно нетипичная сумма. Конкурсов на сто тысяч или больше за историю сервиса было чуть больше двух десятков, а медианный размер приза – на глазок около 10 тысяч.
Экономика участников при этом выглядит примерно так: заказчик платит свои десять тысяч победителям, ещё, скажем, столько же Kaggle и столько же составляют расходы на время своих сотрудников по всей организации процесса – тридцать тысяч долларов, порядок стоимости двух человеко-месяцев средних датасайнсеров в Долине. За это он получает 200-300 хоть что-то сделавших команд, из которых пусть 10% квалифицированы и вкладывались в работу. Итого 20-30 попыток и пропорциональное количество шансов, что, хотя бы случайно, получится очень сильный результат, который можно использовать в своей системе, ведь права на код победителя по стандартным условиям переходят компании-заказчику, – однозначный выигрыш. Участники, соответственно, в формальном проигрыше – если поделить 10 000 на 20-30 эффективных участников, то сумма выйдет не очень большая даже для специалистов из Индии. Но зато азарт, интерес, отвлечение от рабочей рутины – эмоциональный результат они точно получат. Kaggle же кроме консалтинга для заказчика и хостинга не делает ничего, для него каждый конкурс – сплошная выручка.
Но не деньгами едиными, Kaggle это не только про заработок, это ещё и про хантинг. Часть конкурсов без всякой маскировки разыгрывают билет на собеседование в крутой компании – и участников в среднем больше, чем в борьбе за типичные $10 000. Это, кстати, совершенно рационально – прибавка в зарплате очень быстро разовый кеш обгонит, даже если другие преимущества новой работы не учитывать. Есть и просто раздел вакансий, куда можно написать что-нибудь зажигательное, заплатив сумму порядка $1000 за одно объявление. Однако такая прямота – только вершина айсберга, результаты конкурсов открыты и успешный профиль на Kaggle – шикарный пункт в резюме, причем такой прозрачный, что даже самому простому hr-менеджеру можно объяснить, как плохой отличить от хорошего, а хороший от такого, что “ах, поклониться в ноги и немедленно звать самого главного”.
Что касается общих чисел. За все время существования сервиса проведено чуть больше двухсот (не двухсот тысяч, именно двухсот) конкурсов, разыграно миллионов пять долларов (инвестиций в проект было в три раза больше), зарегистрировано больше 800 000 “датасайнсеров”. Реальное количество настоящих специалистов я бы оценил тысяч в пятнадцать-двадцать, если специалистом считать того, кто может построить модель, выигрывающую у Random, и готов вложить в конкурсы необходимое для такой модели время. Если критерии ставить другие, то оценка, разумеется, сдвинется :-). Кроме собственно соревнований у Kaggle есть огромный и популярный форум, среди своих есть что обсудить, а за хорошие топики можно получить медальку в профиль, не так круто как за соревнование, но для компании второго ряда сойдет.
Несмотря на популярность в сообществе и пользу для всех, денег Kaggle толком не зарабатывает – ну что такое 200 конкурсов за 5 лет и 40 вакансий в месяц? Сильно задрать стоимость соревнования нельзя, она должна быть ниже какой-то психологической рамки, чтобы компания-заказчик могла эти деньги выкинуть без гарантий успеха и многомесячных согласований, а просто в рамках текущего бюджета одного из подразделений. По цене вакансии тоже ограничения есть, конкуренция с обычными способами найма сильная, сравнительная эффективность легко считается, и, наверное, сейчас баланс достигнут.
Понятно, что всегда есть куда расти – можно до конца автоматизировать конкурсы и делать их не 200, а 20 000, понизив планку цены. Собственно, автоматические и бесплатные приватные соревнования Kaggle уже запустил, но как-то в активный коммерческий продукт это пока не превратилось, всё левой ногой сделано, может и нет потенциала на столько конкурсов. Можно пытаться запретить контакты рекрутеров и участников мимо платных вакансий, но это, наверное, испортит имидж и усложнит нормальные пользовательские сценарии.
В общем, Kaggle решил заработать, продав базу специалистов целиком самому большому работодателю, и отдался Google. Цену сделки не называют, думаю, что она составила миллионов сто долларов. Жить проект продолжит, скорее всего, даже активнее, чем раньше, деньги можно будет не экономить. Ну а мы стали ещё чуть больше под колпаком Старшего Брата, не привыкать.

Google впервые купил портфельный проект Юрия Мильнера

Kaggle: Your Home for Data Science

Добавить 1 комментарий