Еще пять лет назад Big Data воспринималась как экзотика, что было обусловлено, в основном использованием технологий с открытым кодом. Для создания моделей по работе с данными требовалось приложить немало усилий. И это логично приводило к ряду сложностей, как при внедрении, так и при эксплуатации, ведь российский бизнес раньше имел неистребимую привычку к коробочным решениям известных зарубежных вендоров. Людям хотелось купить готовый продукт от SAP или Oracle, получить «упакованный» результат под конкретным брендом. Часто внедрялись решения Amdocs или IBM TDW, стоящие приличных денег.
Но сегодня мы видим, что ситуация меняется: появляются всевозможные коннекторы при обновлении существующего ПО, разрабатываются новые визуальные инструменты, предназначенные для руководителей и конечных пользователей, формируется инфраструктура для работы с массивами данных. Решения развиваются, и у пользователей постепенно появляется возможность обновить софт, сделать его удобным и комфортным для использования Больших Данных. При этом не нужно быть суперпрограммистом – для большинства ситуаций уже созданы готовые рецепты, и это способствует повсеместному применению новых технологий. Например, одна телекоммуникационная компания собрала кластер серверов Big Data (на базе Hadoop) из того, что буквально было куплено на Савеловском рынке – в непосредственной близости к офису оператора. У них получился интересный набор решений для маркетинга, продаж и розничной сети.
В 2015 году аналогичный проект был запущен в одном из крупнейших розничных банков. Переломный момент заключался в том, что кредитная организация не стала связываться с консалтингом и решениями крупных вендоров, но специалисты банка собрали решение самостоятельно, причем более зрелое и комплексное, чем предложение крупных игроков по состоянию на 2014 – 2015 годы, когда происходило построение системы.
Рост популярности Big Data подтверждают и прогнозы аналитиков. IDC ожидает, что в 2017 году мировой рынок больших данных вырастет на 12,4%, причем основным драйвером будут выступать финансовые и производственные организации, а также компании, работающие в сфере профессиональных услуг. Такая ситуация невольно заставляет задуматься: раз растет спрос на Big Data, что и каким образом получают от внедрения этих технологий ваши конкуренты?
Смотрим вглубь
Если рассмотреть концепцию Big Data с точки зрения информационных технологий, то мы обнаружим, что никаких принципиально новых инструментов она в себе не несет. Сегодня ее стоит рассматривать больше как маркетинговый термин, который нашел глубокий отклик в кругах топ-менеджмента благодаря активной работе маркетологов.
Тем временем, грамотное использование ИТ-инструментов, лежащих в основе машинного обучения (Machine Learning) и глубокого обучения (Deep Learning), помогает экономить деньги и эффективно решать сложные задачи, когда традиционные подходы оказываются очень дорогими или сложными. Например, решение коллекторских задач получается весьма непростым на базе классических технологий: необходимо собирать огромное количество информации, хранить ее где-то, выделять процессорные мощности на анализ. Но Big Data позволяет не сохранять все необходимые данные, затрачивая на это значительные средства, анализируя источники, «как они есть» - прямо в социальных сетях, протоколах сотовых операторов и других неструктурированных массивах данных.
Классическая структура Big Data подразумевает наличие аналитического движка с тщательно настроенными алгоритмами, собственного хранилища информации (например, данных о клиентах или о транзакциях), коннекторов к внешним источникам, включая социальные сети и Интернет, а также инфраструктуры сбора данных, которая чаще всего оказывается представленной множеством датчиков, объединенных в Интернет Вещей (IoT). Чтобы решить эту задачу в реальных условиях нужно работать с различными инструментами. Сегодня мы видим необходимость поддержки таких платформ, как Cloudera и Hortonworks (самые популярные в России дистрибутивы Hadoop – базы данных для работы с Big Data). Для загрузки и обработки данных подойдут специальные инструменты, например, Informatica – самый популярный в России софт для управления потоками данных внутри кластера. Анализ и прогнозирование можно реализовать в RapidMiner. Впрочем, можно использовать и другие разработки – главное, чтобы задачи сбора и анализа данных решались эффективно.
Зачем нужны независимые операторы больших данных, которые будут хранить цифровую личность человека
Миллион факторов – миллион денег
Самое важное при реализации подхода Big Data заключается в том, чтобы разобраться, что вам нужно анализировать и какие параметры могут привести к реальной экономии или заработкам. Для этого можно использовать любые цифровые источники – данные о погоде, статистические выкладки (например, индексы потребительских цен), открытые данные о котировках или, например, документы с портала госзакупок с последующим разбором неструктурированного текста для учета количества и характеристик требуемой продукции. Фактически, ограничений нет – важна лишь целесообразность извлечения и анализа данных для бизнеса.
В практике КРОК был очень интересный проект для ближневосточной компании, предоставляющий коммунальный сервис охлаждения – для граждан и предприятий. Как и в любой сфере, связанной с генерацией, компания всегда имеет избыточные мощности, которые оказываются не потребленными в реальности. Как сократить их? Более того, холодильное оборудование нельзя моментально выключить или включить, как электрический тумблер – система имеет инерцию, и нередко включенные резервные мощности выходят на нужный уровень работы тогда, когда пиковая нагрузка уже прошла, и ресурсы тратятся впустую.
В случае с холодом, необходимо учесть массу факторов – динамику средних температур, паттерны потребления населением, расписание работы предприятий, график национальных выходных и праздников, историю потребления и так далее. Чтобы проанализировать все элементы потребовались бы десятки аналитиков, но внедрив решение, анализирующее все эти факторы, компания смогла свести на нет форс-мажорные ситуации и сократить энергопотребление на 6% - а это миллионы долларов.
Установка многочисленных датчиков и моделирование процессов в промышленности тоже дает очень хорошие результаты. Например, оперативный расчет производственных параметров в реальном времени позволяет экономить реальные деньги. В одной генерирующей компании наши специалисты внедрили решение Big Data, учитывающее параметры потребления и генерации, и только за счет перераспределения нагрузок добились 1,2% экономии топлива и еще 1% за счет краткосрочного планирования. В масштабах производства речь опять же идет о крупных суммах, а окупаемость системы составила 1,5 года. Вообще, как показывает практика, серьезный бизнес-результат от применения Big Data становится виден примерно через 3-4 месяца.
Эффект от применения Big Data хорошо виден в финансовой сфере, когда речь идет об оценке кредитоспособности клиента. Каждый бит дополнительных данных позволяет сделать более точный прогноз, и, например, сотрудничество российских кредитных организаций с сотовыми операторами, которое стало масштабным в последние два года, позволяет говорить о качественном улучшении скоринга – вплоть до 7 п.п. Джини (коэффициент, позволяющий определить, насколько хороша и точна скоринговая модель). Big Data позволяет учитывать такие факторы, как количество сим-карт, пополнения счета, география их использования и легче выявлять мошенников, которые точно не вернут полученный кредит.
Большой интерес представляют и широко известные кейсы. В компании United Parcel Service была внедрена система управления транспортом, которая учитывает, пожалуй, максимальное количество факторов – от картографии и ситуации на дорогах, до особенностей грузов, сроков их доставки и расписания работы пунктов доставки вместе с пожеланиями клиентов. Постоянно работающая система Big Data корректирует движение транспорта в реальном времени и уже позволила UPS экономить 6 миллионов литров топлива в год. Умножив эту цифру на стоимость бензина, несложно получить результат в миллионы долларов США.
Дешёвый стандарт
Конечно, размер экономии или заработка на Big Data зависит от масштабов деятельности компании, но общая парадигма говорит о результате в 1-5% от общего оборота компании. Но современные технологии позволяют легко реализовать систему нужного масштаба и практически без капитальных затрат. Многие считают, что Big Data – это дорого, но ситуация сильно изменилась с развитием облачных технологий, и теперь Big Data доступны практически любой компании.
Все мы помним, когда в России было принято тратить огромнейшие деньги на СУБД, СХД и сервера, но сегодня все прекрасно знают, что можно купить все системы стандартной архитектуры, и бренд не имеет значения. То же самое можно сказать сегодня и про Big Data: с открытыми технологиями и стандартными платформами данные стало обрабатывать действительно дешево. Вы можете потратить минимум средств на оборудование или даже взять вычислительные мощности в аренду. Главное, чтобы у вас были специалисты, которые смогут определить, что нужно анализировать и какие параметры просчитывать. Тогда можно будет запустить проект с любым количеством данных и получить отдачу в кратчайшей перспективе.