Как российским компаниям стать лидерами рынка больших данных

Число работающих кейсов в сфере больших данных на российском рынке растет. Российские разработчики готовы включиться в конкурентную борьбу на мировом рынке. Главное, чтобы государство не зарегулировало этот новый, только зарождающийся рынок, говорят участники организованной CNews Conferences конференции «Большие данные в России: новые проекты».

страницы:

Большие данные являются безусловным трендом современного рынка информационных технологий и останутся таковым еще долгое время. Об их существовании знают уже, наверное, все. Однако на рынке, по крайней мере российском, наблюдается явный недостаток реальных кейсов, наглядно демонстрирующих пользу от внедрения этого решения, которое, к слову, требует немалых затрат. Множество таких кейсов было представлено на организованном CNews Conferences мероприятии «Большие данные в России: новые проекты».

Большие данные помогают предсказывать тренды на финансовых рынках. О том, как создавалось такое решение, участникам конференции рассказала Екатерина Золотарева, руководитель лаборатории машинного обучения Финансового университета при Правительстве РФ.

Все больше кейсов появляется в HR-сфере. Так, Superjob внедряет технологии больших данных для предоставления дополнительных сервисов как своим клиентам, так и соискателям, использующим ресурс для поиска работы. В качестве примера Кирилл Котов, директор департамента разработки Superjob, привел интеллектуальные системы обработки обращений, позволяющие формировать автооответы и проводить автомодерацию размещаемых вакансий и резюме, скоринг соискателей вакансий и аналитика их зарплатных ожиданий.

Система автомодерации резюме используется также и HeadHunter, продолжает Александр Сидоров, руководитель направления анализа данных HeadHunter. Результаты ее использования налицо – если в 2016 г. усилиями 20 сотрудников обрабатывалось в среднем 20 тыс. новых резюме в день, то в 2017 г. на обработку 30 тыс. резюме требуется только 12 сотрудников. Также компания предлагает своим заказчикам дополнительную информацию о претендентах на вакансии, например, созданные на основании анализа его данных прогноз времени работы на новом месте, KPI и оценку риска его ухода. Соискатели могут автоматически получать специально отобранные для них предложения вакансий, наиболее соответствующих их требованиям. А работодатели – наиболее подходящие резюме.

Именно анализ больших данных позволил ivi стать крупнейшим на российском рынке провайдером VOD-сервисов, уверен Евгений Россинский, директор по технологиям онлайн-кинотеатра. В компании была создана собственная фабрика экспериментов, в состав которой входит собственная система аналитики, позволяющая «резать» данные под произвольными углами, технология оперативной проверки гипотез путем проведения тестов (более 500 на сегодняшний день) и построения моделей маржинальности сделок. Все это позволяет существенно повысить качество принимаемых управленческих решений.

Что говорят разработчики

Разработчики решений в области больших данных уверены: сфера их применения практически безгранична. Так, Евгения Евдокимова, руководитель направления прогнозной аналитики компании «Тринити», предлагает использовать технологию анализа поведения покупателя на основе данных видеонаблюдения. Идентификация клиента производится на основании биометрических данных – по его лицу. После чего система получает возможность оценить его действия – какими товарами он интересуется, как на них реагирует, каково его впечатление от посещения магазина. К тому моменту, как клиент подойдет к кассе, информация о нем уже появится в системе лояльности, и кассиру не надо будет просить у него карту магазина или уговаривать заполнить анкету для ее получения. Также построенная на основании анализа действий покупателя прогнозная модель поможет максимально точно определиться с тем, какие дополнительные коммуникации подойдут именно этому клиенту и сделать ему по-настоящему персональные предложения с высокой вероятностью положительного отклика.

Видеонаблюдение как карта лояльности


Источник: Тринити, 2017

Еще одна сфера применения больших данных – комплексный анализ информации о контрагентах на основании сведений, содержащихся в открытых источниках – ЕГРЮЛ и ЕГРИП, базе должников ФССП, реестре недобросовестных поставщиков, картотеке арбитражных дел, данных Росстата и портала госзакупок. Как рассказал участникам конференции Эдуард Федечкин, ведущий эксперт по системам бизнес-аналитики «Терн», технологии больших данных помогут получить подробную информацию об истории компании, аффилированных с ней структурах, оценить ее финансовую устойчивость и результативность участия в тендерах, а также предупредить мошенничество. Кроме того, с помощью больших данных можно прогнозировать множество разнообразных показателей в промышленности, считает Эдуард Федечкин. Это и влияние воздействия различных факторов на параметры продукции и объемы ее производства, и отказы работы оборудования, позволяющие перейти от его обслуживания по регламенту к обслуживанию по состоянию, и потребление электроэнергии и других ресурсов.

Идеи и технологии

Огромные объемы накопленных данных о клиентах и партнерах, хранящиеся в архивах и полученные из социальных сетей, информация, поступающая от разнообразных датчиков сами по себе не представляют ценности для бизнеса. Ему необходимы инсайты – то есть сведения, полученные в результате их обработки и анализа. Но получить такие сведения зачастую непросто. Существует множество решений, позволяющих загрузить, защитить, обработать данные для получения желаемого результата, и выбрать из них именно то, что наилучшим образом соответствует поставленным задачам, нелегко. Петр Борисов, руководитель направления больших данных компании DIS group, предлагает использовать для этих целей платформу Informatica, которая позволяет управлять всеми этапами жизненного цикла данных – от разработки и тестирования до архивации и списания. Решение снижает полную стоимость владения и повышает возврат инвестиций, связанных с такими бизнес-приложениями, как ERP, CRM, HR, SCM и хранилищами данных.

Обработка больших данных с помощью платформы Informatica


Источник: DIS group, 2017

«Сбербанк» является одним из лидеров российского рынка в сфере обработки больших данных. Активно заниматься этим компания начала еще в 2014 г. На сегодняшний день в «Сбербанке» создана полноценная фабрика данных, в состав которой входит облако данных – единое место их сбора, хранения и распространения, а также среда промышленного исполнения аналитических моделей, и лаборатория данных, отвечающая за их исследование, поиск знаний и проверку гипотез, разработку и валидацию моделей, рассказал Александр Ерофеев, управляющий директор управления корпоративных данных «Сбербанка». Лаборатория построена на основе стека Hadoop. На сегодняшний день в «Сбербанке» работают более 300 аналитиков данных, для анализа используется более 50 систем-источников, открыты более 200 Open Source библиотек для работы с Python и более 1000 для работы с R. В ближайших планах банка cоздание и запуск моделей на real-time потоках данных, использование GPU для обучения моделей с использованием нейронных сетей и дообучение моделей на промышленных потоках данных.

Фабрика данных


Источник: Сбербанк, 2017

Задача обработки больших данных актуальна не только для крупного, но и для малого и среднего бизнеса, продолжает Максим Шляпнев, ИТ-директор компании «Сильверхоф». Руководство таких компаний в первую очередь заинтересовано в оптимизации управления товарными запасами, ценообразованием, товарной матрицей, а также привлечении и удержании покупателей. Таким образом, перед ИТ-службами даже небольших торговых предприятий ставятся задачи прогнозирования трафика и спроса, классификации покупателей и товаров. Однако, в отличие от крупных торговых предприятий, имеющих возможность вложить в большие данные серьезные средства, возможности СМБ довольно ограничены – они могут или воспользоваться универсальным сервисом с минимумом кастомизации, что не всегда в полной мере отражает специфику бизнеса, или внедрить кастомное решение с привлечением сторонней экспертизы. Компания «Сильверхоф» пошла по второму пути для решения задачи прогнозирования трафика в оффлайн-магазины. Пока проект находится в стадии реализации.

Большой интерес участников конференции также вызвало выступление Павла Савицкого, руководителя практики IP & TMT «Борениус Россия», посвященное законодательному регулированию обработки больших данных в ритейле.

Актуальные проблемы

Наиболее актуальные проблемы рынка больших данных участники конференции обсудили в ходе открытой дискуссии. Для того, чтобы Россия могла занять достойное место на развивающемся рынке больших данных, необходимо уже сегодня вводить в обиход собственные термины в этой сфере – это станет одним из драйверов ее развития в стране, уверен Сергей Спевак, советник президента по вопросам ИТ компании «Снежная Королева». Созданные в рамках научных лабораторий знания выходят на рынок и становятся достоянием всего мира, и люди воспринимают их не как продукт определенной страны, а как технологию, созданную определенным разработчиком, возражает ему Евгений Россинский. Для того, чтобы диктовать рынку свои условия, надо сначала стать его лидером.

Пока же большие данные в России используются в нескольких крупных банках, интернете и телекоме. Основная часть российского бизнеса не готова к внедрению этой технологии потому, что плохо понимает собственные бизнес-процессы, продолжает Павел Клеменков, руководитель отдела машинного обучения Rambler&Co. Часто бизнес просто не верит тому, что на базе больших данных можно что-то сделать, согласен с ним Александр Сидоров.

Для того, чтобы это направление развивалось, надо не просто рассказывать о нем, но и показывать успешные кейсы, в том числе на государственном уровне, продолжает эксперт. Бизнес может развивать технологии самостоятельно, без участия государства, уверен Евгений Россинский. Уже сегодня многие крупные компании занимаются подготовкой кадров по программе Data Scientist. А внедрение таких программ в государственных вузах может затянуться на многие годы.

Наиболее актуальные проблемы рынка больших данных участники конференции обсудили в ходе открытой дискуссии

Стоит ли государству регулировать сферу больших данных? По словам Павла Савицкого, проблем в этой области множество. Например, в России нельзя продать информацию – по закону она не является предметом сделки. Можно продавать или сервис, или лицензии. То есть получить данные и сделать так, чтобы кроме тебя их никто не использовал, очень сложно с юридической точки зрения. Существует проблема и с персональными данными – до сих пор не определено, сколько усилий должен приложить оператор для того, чтобы найти их владельца. И если он не может его найти, то остаются ли они персональными? Более того, какой объем данных дает возможность однозначно идентифицировать их владельца? Пока эти вопросы обсуждаются только профессиональным сообществом, но на уровень законодателей они еще не вышли.

Избыточное регулирование деятельности компаний, которые занимаются большими данными, приведет к тому, что они не смогут стать конкурентоспособными на мировом рынке, уверен Александр Сидоров. В России же умудряются, не урегулировав, зарегулировать любую сферу. Например, в нашей стране события, попадающие в «серую зону» незаконны, а в Великобритании – наоборот, законны, уточняет Павел Савицкий.

Тоже самое можно сказать и про введение стандартов использования больших данных. Они должны носить не обязательный, а рекомендательный характер. В противном случае их навязывание рынку приведет к тому, что Россия опять окажется позади других стран.

Константин Русаков, аналитик данных «Тринити», рассказал о прогнозной аналитике

Олег Бейлезон

CNews: Насколько востребована прогнозная аналитика российскими заказчиками?

Константин Русаков: Решения прогнозной аналитики весьма востребованы российскими заказчиками и являются перспективным направлением развития бизнеса, оптимизации бизнес-процессов и решения бизнес-задач Особенно спрос идет из ритейла. В большинстве своем интересен прогноз продаж и производные от этого. Также есть запрос на оптимизацию процессов, например, в логистике или тех. обслуживании.

Читать далее


Презентации участников форума

Презентация Кураш Антон, Руководитель направления по работе с государственным сектором, CNews
Большие данные – большой бизнес 2017 г.
Презентация Евдокимова Евгения, Руководитель направления прогнозной аналитики, Тринити
От энтропии данных к конкордации знаний
Презентация Федечкин Эдуард, Ведущий эксперт по системам бизнес-аналитики, Терн
Новые горизонты применения бизнес-аналитики
Презентация Борисов Петр, Руководитель направления Big Data, DIS group
Ценность для бизнеса в кратчайшие сроки с помощью новой платформы Informatica
Презентация Шляпнев Максим, ИТ-директор компании, Сильверхоф
Малый и средний бизнес Данные есть Что с ними делать?
Презентация Ерофеев Александр, Управляющий директор управления корпоративных данных, Сбербанк
Негго Никита, Руководитель проектов, Сбербанк
Панфилова Дарья, Руководитель направления, Сбербанк
Развитие DataLab в Сбербанке

Презентация Золотарева Екатерина, Руководитель лаборатории машинного обучения, Финансовый университет при Правительстве Российской Федерации
Система предсказания трендов на финансовых рынках
Презентация Котов Кирилл, Директор Департамента разработки программного обеспечения, Superjob.ru
Большие данные — от объема к разнообразию
Презентация Сидоров Александр, Руководитель направления анализа данных, HeadHunter
Большие данные и машинное обучение в HeadHunter: умный поиск, рекомендации, прогнозирование
Презентация Россинский Евгений, Директор по технологии, Онлайн-кинотеатр ivi
Как большие данные помогают управлять VOD сервисом
Презентация Савицкий Павел, Советник и руководитель практики «Интеллектуальная собственность и информационные технологии», Borenius
Обработка BIG DATA в ритейле: мнения юристов разных отраслей, новый опыт
Презентация Скачать архив целиком
страницы: