Как сделать использование больших данных наиболее эффективным

Большие данные постепенно трансформируются из технологий будущего в конкретные решения и проекты. На повестке дня вопрос о том, как сделать их использование наиболее эффективным, считают участники организованного CNews Conferences круглого стола «Большие данные 2018».

Состоянию рынка больших данных посвятил свое выступление Валерий Артемьев, консультант отдела разработки политик, стандартов и процедур департамента статистики и управления данными Банка России. По его мнению, потенциал структурированных данных еще до конца не исчерпан. Однако сегодня все больше и больше внимания уделяется неструктурированным данным, несмотря на то, что их достоверность пока еще сложно проверить. Среди них как cгенерированные машиной (например, данные в формате обмена, изображения со спутника, научные данные, фото и видео), так и сгенерированные человеком (тексты и офисные документы, социальные медиа, мобильные данные, Web-контент). Еще один тренд – продвинутая аналитика – обсуждается все чаще –  несмотря на то, что 90% необходимой бизнесу информации можно получить с помощью традиционных BI и Data Mining. Кроме того, по мнению Валерия Артемьева, инструменты больших данных пока еще сложно встраиваются в корпоративную ИТ-инфраструктуру.

Как использовать данные

Несмотря на то, что будущее развития рынка ITSM за развитием сервисов самообслуживания и использованием баз знаний, до настоящего времени 90% пользователей звонят в службу техподдержки. В такой ситуации актуальной становится максимальная автоматизация работы службы технической поддержки. Как рассказал участникам конференции Никита Никитинский, руководитель направления R&D компании Naumen, концепция ITSM 3.0 предполагает использование больших данных и машинного обучения для автоматизации услуг, оказываемых сервисными службами (АХО, ИТ, HR), создание сервисов самообслуживания и упрощение пользовательских интерфейсов существующих платформ. Портал самообслуживания с умной строкой(ITSM 3.0) представляет собой дообучаемую и легко кастомизируемую систему, основанную на новых технологиях, методиках, алгоритмах и программных средствах. В отличие от традиционных ITSM-систем, он позволяет сэкономить на обслуживании и обучении пользователей.

Сфера применения прогнозной аналитики практически безгранична, говорит Евгения Евдокимова, руководитель направления прогнозной аналитики «Тринити». В качестве источников данных могут выступать как традиционные транзакционные (заказы, транзакции, оплаты, возвраты) и описательные (атрибуты, характеристики, социально-демографические) данные, так и новые данные по взаимодействию (E-mail/мгновенные сообщения, звонки в клиентские центры, потоки кликов на сайте, текст и диалоги) и по отношению (мнения и предпочтения, требования и желания, результаты опросов, данные из социальных сетей). Основная цель прогнозной аналитики – поддержка принятия решений. Решения могут приниматься практически без данных, но с их помощью эффективность этого процесса существенно выше благодаря автоматизации некоторых интеллектуальных процессов, уверена Евгения Евдокимова.

О том, как собрать максимум информации перед покупкой бизнеса, рассказал Игорь Кукоев, руководитель экономического департамента группы компаний «Шоколадница». Для начала надо определиться, с какой целью осуществляется покупка – это позволит понять, какие данные необходимы и где их можно найти. Это могут быть как структурированные данные, такие как физические характеристики объектов, операционные, финансовые, юридические данные и данные о материальных ресурсах, так и слабо упорядоченные данные (взаимоотношения с контрагентами, данные о сотрудниках, маркетинговые акции и рекламные компании, и неупорядоченные данные (отзывы клиентов, результаты проверок, происшествия, заявки на обслуживание, конкурентное окружение, ИТ-инфраструктура). В результате их обработки можно получить максимально полную информацию о приобретаемом бизнесе.

Об использовании больших данных в процессе анализа хода сложных бизнес-проектов рассказал Вячеслав Колчин, заместитель генерального директора по развитию ФРД. В отличие от KPI, которые завязаны на конкретных людей, большие данные позволяют анализировать бизнес-процессы, в которых участвуют несколько человек. По мнению Вячеслава Колчина, понять мотивы менеджеров, принимающих решения, помогут интеллектуальные агенты. Они же могут своевременно подстраивать систему KPI и таким образом оптимизировать управление системами различной сложности. 

Что есть и что будет

Большой интерес участников конференции вызвали примеры практического использования больших данных в самых разных сферах. Так, одна из важнейших задач руководства промышленного предприятия – обеспечить непрерывную загрузку производства. «Сибур» достаточно  активно использует системы анализа телеметрических данных. Владимир Чернаткин, куратор проектов больших данных и интернета вещей «Сибур», поделился с участниками конференции опытом создания аналитической модели, с помощью которой удалось сократить число обрывов полипропиленовой пленки при производстве. 

О создании новой платформы банка рассказал Борис Рабинович, директор Центра компетенций развития BI-технологий компании «Сбербанк-Технологии». Платформа была реализована in-Memory. Данные хранятся в ней 3 месяца, затем отправляются в хранилище Hadoop. Кроме этого, в новой платформе реализована фабрика данных. В настоящее время ведутся работы над тем, чтобы все решения в банке принимались на основе их анализа. Для этого Сбербанк активно развивает Data Engineering. В нем создана лаборатория, где проводят эксперименты с данными перед тем, как перейти к внедрению технологий. В настоящее время в системе хранится уже 2,5 Пб данных, в течение 2018 г. их объем возрастет до 10 ПБ. Объем получаемых изменений составляет 15,5 Тб в сутки. Каждую секунду происходит 2000 – 5000 транзакций в секунду. Параллельно реализуется 400 заданий загрузки данных. Объем ежесуточно обновляемой информации в репликах составляет 200 ТБ.

Транспортный комплекс Москвы ежедневно собирает данные о передвижениях около 9,5 млн пассажиров общественного транспорта и 3,6 млн граждан, использующих личный транспорт. На основе огромных массивов данных, получаемых с видеокамер, парковок и пр. планируется создать уникальную персонализированную систему коммуникаций, рассказал Михаил Самойлов, заместитель генерального директора «Инфокомпас». С ее помощью можно информировать пассажиров об оптимальных маршрутах и тарифах в соответствии с их потребностями, предупреждать о необходимых действиях для обеспечения безопасности на транспорте, используя данные о внештатных ситуациях, скоростных режимах и статистку ДТП, обеспечить получение обратной связи и выявление факторов удовлетворенности пассажиров для приоритизации инициатив транспортного комплекса, а также анализировать данные для принятия решений на основе отчетов в реальном времени.

Планируется, что система будет запущена в 2 этапа. На первом будет создан ее фундамент и реализованы базовые сценарии, например, рассылка предложения воздержаться от использования личного транспорта с учетом прогноза дорожной ситуации, информирование водителей о перекрытиях, инцидентах, городских событиях. Второй этап предполагает обогащение данных и появление расширенного функционала, например, актуализация оптимального маршрута общественного транспорта при изменении дорожной ситуации, предложение программ лояльности и оптимальных тарифов, и информирование ГИБДД и пр.

К 2025 г. многие финансовые инструменты перестанут существовать – их заменят роботы, использующие скоринговые модели. Человек зачастую не может избежать предвзятости и ошибок. Скоринговая модель лишена этих недостатков, особенно тогда, когда она работает не с ограниченной выборкой, а с большими данными в реальном времени. Уже созданы системы искусственного интеллекта, способные работать в паре – первая анализирует данные, а вторая на основе больших данных проверяет ее выводы и в случае необходимости корректирует их. А это значит, что скоринговые модели будут развиваться очень быстро, говорит Илья Мунерман, генеральный директор управляющей компании «Мунерман и партнеры».

Проблемам создания направления больших данных в компании, где его еще нет, посвятила свой доклад Варвара Новожилова, руководитель отдела направления продуктов отчетности компании «Аэроклуб». Среди них особенности работы с персональными данными, сложность обогащения данных, большой прирост данных, а также недостаток грамотных аналитиков данных в компании. Однако все эти проблемы решаемы, считает она.

Роль CDO в компании обсуждали участники состоявшейся в заключение конференции дискуссии. По мнению Сергея Спевака, советника президента по вопросам ИТ компании «Снежная Королева», такой специалист необходим. Он должен понимать, как формируются большие данные  в компании и какую информацию из них можно извлечь. Пока же по-настоящему грамотных специалистов в этой области немного. Борис Рабинович уточнил, что в Сбербанке кроме CDO есть должность CDPO (Data Protection Officer) – человека, отвечающего за их защиту, а также CDS (Data Scientist), отвечающего за применение данных. Место CDO в организационной структуре пока обсуждается, но по мнению участников дискуссии такой специалист должен находиться не в ИТ-департамента, а иметь возможность руководить не только техническими, но и бизнес-подразделениями.

Валерий Артемьев уточнил, что в ЦБ создан Центр по управлению данными, который подчиняется Комитету по управлению данными, возглавляемому зампредседателя ЦБ РФ. Основная задача такой структуры – обеспечить возможность взаимодействия бизнеса и ИТ. Сергей Жуков, начальник ОИАО ЦУП авиакомпании «Сибирь» отметил, что множество результатов проектов в области больших данных разбивается об административные барьеры, мешающие их практическому применению и монетизации. Так, в области авиации есть жесткие регламенты, которые  невозможно изменить даже тогда, когда анализ данных показывает, что это надо сделать.

Участники дискуссии так и не смогли прийти к общему мнению, кто же должен нести ответственность, если проект в области больших данных окажется неудачным. Высказывалось мнение о том, что большие данные – это та сфера, в которой отрицательный результат – это тоже результат. Если разработанная модель не сработала, ее надо совершенствовать, а если применять такие технологии, как «Обучение с подкреплением», то это можно автоматизировать. Таким образом, каждый отрицательный результат может стать шагом к созданию совершенной модели.