В настоящее время многие организации сталкиваются с задачей обработки больших объемов данных в виде текстовых и табличных данных, в виде изображений и видеозаписей. Каждый вид таких данных имеет свою структуру, средства и методы их обработки. Данные могут храниться как в самой организации, так и за ее пределами, например в центрах обработки данных или социальных сетях. Организации могут иметь доступ к огромному массиву собственных данных и не иметь необходимых инструментов, которые могли бы установить взаимосвязи между этими данными и сделать на их основе выводы, которые могут быть использованы для принятия решений. Процесс принятия управленческого решения включает в себя получение информации, ее переработку, анализ, подготовку и принятие решения.
Документационное обеспечение управления - вид обеспечения управления организацией, который включает фиксацию, передачу и хранение информации о состоянии организации и управляющих воздействий по изменению ее состояния <1>. Именно документы обеспечивают реализацию управленческих функций, в них определяются планы, фиксируются учетные и отчетные показатели и другая информация. Для повышения степени обоснованности принимаемых решений необходимы современные технологии оперативного сбора, передачи и обработки больших объемов информации.
--------------------------------
<1> Документационное обеспечение управления (http://bmanager.ru/articles/dokumentacionnoe-obespechenie-upravleniya.html).
В настоящее время для обработки больших объемов данных используется технология Big Data. Данная технология применяется тогда, когда нельзя решить задачу обработки данных и поиска информации только средствам СУБД (систем управления базами данных). Системы управления базами данных позволяют хранить и обрабатывать только структурированные разнотипные данные. Так, в СУБД реляционного типа информация представляется в виде таблиц. В таблице могут быть представлены данные числовые и текстовые. Для каждого типа данных задается размер. Таблицы связываются между собой и образуют определенную схему данных. Но документы могут содержать информацию в виде изображений, видеозаписей или слабоструктурированного текста. В этом случае необходимы средства для обработки неструктурированных данных. Задача обработки данных усложняется, если данные меняются в режиме реального времени и распределены в сети ЭВМ. В этом случае необходимы технологии обработки структурированных и неструктурированных данных, меняющихся динамически и размещенных в сети ЭВМ. Всеми этими свойствами обладают технологии Big Data.
Технологии Big Data могут быть полезны для решения следующих задач <2>:
- прогнозирования рыночной ситуации;
- маркетинга и оптимизации продаж;
- эффективного сегментирования клиентов;
- совершенствования товаров и услуг;
- принятия более обоснованных управленческих решений на основе анализа Big Data;
- оптимизации портфеля инвестиций;
- повышения производительности труда;
- эффективной логистики;
- мониторинга состояния основных фондов.
--------------------------------
<2> Аналитический обзор рынка Big Data (https://habrahabr.ru/company/moex/blog/256747/).
Большие данные получили широкое распространение во многих отраслях бизнеса. Их используют в здравоохранении, телекоммуникациях, торговле, логистике, в финансовых компаниях, а также в государственном управлении.
Рассмотрим несколько примеров применения больших данных. Так, например, в базах данных розничных магазинов может быть накоплено множество информации о клиентах, системе управления запасами, поставках товарной продукции. С помощью накопленной информации можно управлять поставками товара, его хранением и продажей. На основании накопленной информации можно прогнозировать спрос и поставки товара.
Большие данные также получили широкое распространение в телекоммуникационной отрасли. Операторы сотовой связи имеют одни из самых объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной информации. Главной целью анализа данных является удержание существующих клиентов и привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их трафики, определяют социальную принадлежность абонента.
На сегодняшний день технологии сбора, хранения, обработки больших данных уже начали успешно использоваться в России. Применение методов принятия решений на основе анализа больших массивов данных может быть полезно, например, в государственном регулировании сферы энергетики и ЖКХ. К примеру, при организации работы электрической энергосистемы требуется в режиме реального времени синхронизировать деятельность огромного количества объектов и выработать ценообразование с учетом многих факторов <3>. Создание единой информационно-аналитической системы в сфере ЖКХ позволит осуществлять сбор данных, проводить их анализ и рассчитывать тарифы на воду, электричество, газ, тепло.
--------------------------------
<3> Как Big Data работает в России (http://www.popmech.ru/technologies/15670-kak-big-data-rabotaet-v-rossii/).
В качестве другого примера можно рассмотреть внедрение Big Data на примере торговли на финансовых рынках в России. Появление экономических новостей часто влияет на стоимость акций и других финансовых инструментов. На развитых торговых площадках в последнее десятилетие используются системы автоматизированной торговли. Некоторые из них автоматически анализируют появляющиеся новости.
Следует также отметить, что Big Data являются одной из самых быстрорастущих сфер информационных технологий; согласно статистике общий объем получаемых и хранимых данных удваивается каждые 1,2 года.
Описание технологии Big Data
Под термином Big Data подразумеваются как сами данные, так и их анализ с помощью аналитических систем.
Рассмотрим, какими признаками обладают большие данные <4>:
- Volume: действительно большие (хотя размер зависит от доступных ресурсов для их обработки);
- Variety: слабо структурированные и разнородные;
- Velocity: обрабатывать надо очень быстро (причем и результаты часто нужны оперативно, если речь об онлайновых сервисах).
--------------------------------
<4> Как Big Data работает в России (http://www.popmech.ru/technologies/15670-kak-big-data-rabotaet-v-rossii/).
В сущности, понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Большие данные - это технологии, которые позволяют извлекать смысл из данных.
Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.
Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.
Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.
Работа с большими данными не похожа на обычный процесс бизнес-аналитики, где простое сложение известных значений приносит результат: например, итог сложения данных об оплаченных счетах становится объемом продаж за год. При работе с большими данными результат получается в процессе их очистки путем последовательного моделирования: сначала выдвигается гипотеза, строится статистическая, визуальная или семантическая модель, на ее основании проверяется верность выдвинутой гипотезы и затем выдвигается следующая. Этот процесс требует от исследователя либо интерпретации визуальных значений или составления интерактивных запросов на основе знаний, либо разработки адаптивных алгоритмов машинного обучения, способных получить искомый результат. Причем время жизни такого алгоритма может быть довольно коротким. Представим на рис. 1 процесс сбора, хранения обработки информации в соответствии с технологией Big Data.
Процесс сбора, хранения, обработки информации
в соответствии с технологией Big Data
┌───────────────────────────────┐
│Неструктурированные данные │
│┌──────────────┐ │
││Данные │ │
││операторов │ │
││сотовой связи │ │
│└──────────────┘┌─────────────┐│
│┌────────────┐ │┌───────────┐││
││Данные с │ ││Изображения│││
││датчиков │ │└───────────┘││
│└────────────┘ └─────────────┘│
│ ┌─────────┐ │
│ ┌─┴────────┐│ │
│┌─┴─────────┐││ │ ┌──────────────────┐
││Текстовые │├┘ │ │Анализ данных │
││структуры ├┘ ├────────>│аналитиками с │
│└───────────┘ │ │помощью методов │
└───────────────────────────────┘ │систем │
┌───────────────────────────────┐ │искусственного │
│Структурированные данные ├────────>│интеллекта │
│ ──────────┐ │ └────────┬─────────┘
│ / /│ │ \│/
│┌─────────┐ │ ┌─────────┐ │ ┌──────────────────────────┐
││База │ ├─>│СУБД │ │ │Получение отчета в виде │
││данных │ │ └─────────┘ │ │рекомендации для принятия │
││ │/ │ │решений │
│└─────────┘ │ └──────────────────────────┘
└───────────────────────────────┘
Рис. 1
С технологией Big Data связана такая область знаний, как Data Science, то есть "наука о данных, или интеллектуальный анализ данных". Потребность в анализе данных, нахождении в них закономерностей во многом обусловлена феноменом Big Data, т.е. необходимостью в манипулировании и обработке данных огромных объемов, различной природы, часто плохо структурированных. Это стало возможно благодаря развитию Интернета и технологий хранения и передачи информации. У компаний накопилось очень много различных данных и закономерно появилась задача извлечения из них полезной информации, которая может помочь в принятии решений.
Традиционным подходом к проблемам такого вида была статистика, получившая большое развитие в XX в. Однако одних возможностей, которые предоставляет статистический аппарат, мало для всестороннего анализа больших неструктурированных данных. Стало понятно, что специалисту по анализу данных необходим сплав знаний из различных областей математики, статистики, информатики и предметной области знаний.
Существует несколько методов, связанных с наукой о данных, Data Mining (интеллектуальный анализ данных) и Machine Learning (машинное обучение). Машинное обучение применяется в тех случаях, когда существует некоторая закономерность, структура в данных, которую необходимо извлечь, но этого нельзя сделать обычным математическим путем, и для достижения поставленной цели используются данные. Таким образом, можно сказать, что машинное обучение занимается обучением модели из доступных данных так, чтобы она наилучшим образом обобщалась на неизвестные данные относительно некоторой меры качества. Иначе можно сказать, что Machine Learning - направление в системах искусственного интеллекта, которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных.
Интеллектуальный анализ данных Data Mining - методы обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Иначе можно сказать, что это методы извлечения знаний из данных. Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечеткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Data Mining - набор методик, который позволяет определить наиболее восприимчивые для продвигаемого продукта или услуги категории потребителей, выявить особенности наиболее успешных работников, предсказать поведенческую модель потребителей.
Существуют методы Data fusion и Data integration. Это набор методик, который позволяет анализировать комментарии пользователей социальных сетей и сопоставлять с результатами продаж в режиме реального времени.
Применяется также методика Genetic algorithms (генетические алгоритмы). В этой методике возможные решения представляют в виде "хромосом", которые могут комбинироваться и мутировать. Как и в процессе естественной эволюции, выживает наиболее приспособленная особь.
Метод Natural language processing (NLP) - это набор заимствованных из информатики и лингвистики методик распознавания естественного языка человека. Набор методик Association rule learning используется для выявления взаимосвязей, т.е. ассоциативных правил, между переменными величинами в больших массивах данных. Статистический метод классификации объектов по группам за счет выявления наперед неизвестных общих признаков называется Cluster analysis и используется в data mining. Методика сбора данных из большого количества источников называется Crowd sourcing. Метод Network analysis - это набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т.п.
Для реализации технологии больших данных необходимы инфраструктура, программное обеспечение, аналитики, способные работать с информацией. Информационная инфраструктура включает:
- территориально распределенные государственные и корпоративные компьютерные сети;
- телекоммуникационные сети;
- системы специального назначения и общего пользования;
- сети и каналы передачи данных;
- средства коммутации и управления информационными потоками.
Информационная инфраструктура сегодня - это в основном Интернет, который не только предоставляет принципиально новые возможности глобального информационного обмена, но и создает условия для трансформации различных видов человеческой деятельности. Новые профессиональные сетевые сферы деятельности также следует отнести к элементам информационной инфраструктуры.
Многие компании в России и за рубежом начинают формировать отделы или специальные подразделения из data scientists, чья главная задача - это алгоритмизация бизнеса через управление информацией и с помощью программного обеспечения.
Все больше компаний сегодня приходят к пониманию того, что нельзя все данные зачесать под одну гребенку, построить их в один ряд и одинаково работать с ними. Возникают такие понятия, как связанные и несвязанные данные, промышленные и непромышленные данные, и такие инструменты, как аналитическая экосистема, которые позволяют бизнесу использовать любые данные в любое время для любых задач <5>.
--------------------------------
<5> Data mining (https://ru.wikipedia.org/wiki/Data_mining).
Возможности бизнес-аналитики формируют два вида бизнес-преимуществ. Во-первых, это качественные улучшения, которые иногда трудно точно измерить, например снижение трудозатрат, повышение прозрачности, повышение точности и скорости подготовки отчетов.
Специалистов, занимающихся наукой о данных, можно разделить на две категории:
1) аналитики, которые занимаются анализом данных. Как правило, чаще всего они приходят из статистики или математики и занимаются построением моделей из данных;
2) разработчики, которые создают конечные, работающие программные и информационные продукты.
Особенности применения технологии больших данных
в отличие от работы с базами данных
Для реализации технологии Big Data в настоящее время разработаны архитектуры вычислительных систем и необходимое информационное и программное обеспечение. В их число входят:
- Hadoop - реализация модели распределенных вычислений MapReduce и набор различных утилит и библиотек для выполнения программ и распределенных вычислений;
- MapReduce - framework для вычисления распределенных задач;
- Pig - платформа для создания MapReduce приложений с помощью Hadoop;
- Hive, Impala - инфраструктуры хранилища данных, построенного на основе Hadoop;
- Spark - инструментарий для распределенного анализа данных;
- NoSQL базы данных: HBase, MongoDB, Apache Cassandra.
Что такое технология Hadoop
Технология Hadoop представляет собой программный framework, позволяющий хранить и обрабатывать данные с помощью компьютерных кластеров, используя парадигму MapReduce. В MapReduce приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат. Фреймворк - это программное обеспечение, облегчающее разработку и объединение разных компонентов большого программного проекта. Можно также говорить о каркасном подходе как о подходе к построению программ, где любая конфигурация программы строится из двух частей: первая (постоянная) часть - каркас, не меняющийся от конфигурации к конфигурации и несущий в себе гнезда, в которых размещается вторая (переменная) часть - сменные модули. Данный подход позволяет построить высокопроизводительный кластер на базе low-end или middle-end серверов, что обеспечивает существенно более низкую стоимость решения по сравнению с одним высокопроизводительным сервером. Кластер серверов - это не просто несколько компьютеров, соединенных друг с другом. Это в первую очередь программное обеспечение, которое управляет данной вычислительной системой, распределяет запросы, синхронизирует, осуществляет балансировку нагрузки, подключает базу данных.
В основе технологии лежит распределенная файловая система HDFS (Hadoop Distributed File System), которая обеспечивает хранение данных Hadoop сразу на нескольких узлах кластера.
Таким образом, если один или несколько узлов кластера выходят из строя, то риск потери информации сводится к минимуму и кластер продолжает работу в штатном режиме.
Вторым важным элементом Hadoop является MapReduce - framework для вычисления распределенных задач. В соответствии с подходом MapReduce обработка данных состоит из двух шагов: Map и Reduce. На шаге Map выполняется предварительная обработка данных, которая осуществляется параллельно на различных узлах кластера. На шаге Reduce происходит сведение предварительно обработанных данных.
Примеры применения технологии Big Data
Технология применяется в таких информационных гигантах, как Google, Facebook или Amazon, которые оперируют петабайтами данных. За пределами интернет-среды технология может применяться прежде всего в телекоме и в финансовом секторе, где также присутствуют большие объемы данных. Примером может служить реализация проекта компании ВымпелКом по оптимизации работы системы BI-отчетности при работе с большими объемами данных с помощью вычислительной платформы Hadoop и интеграции данного решения в текущую инфраструктуру. В старой архитектуре ВымпелКом подготовка данных для отчетов осуществлялась с помощью базы данных, реализованной в СУБД Oracle. Несмотря на то что под Oracle было выделено достаточно дорогое и мощное оборудование, на обработку данных уходило достаточно много времени.
Кроме того, существовал ряд проблем, таких как:
- высокая нагрузка на базу источника;
- очереди и, соответственно, долгое ожидание данных конечными пользователями;
- периодическая недоступность данных в связи с проблемами в БД Oracle.
В рамках проекта был реализован интерфейс загрузки данных из базы Oracle в кластер Hadoop, который позволяет произвести все необходимые расчеты и вернуть полученные результаты обратно в базу данных для дальнейшей обработки в BI-системе. Таким образом, предложенная архитектура решения позволила сохранить все существующие преимущества текущей BI-системы и устранить вышеперечисленные проблемы.
Рассмотрим преимущества решения на базе технологии Hadoop:
- снижение времени на обработку данных за счет использования кластеров;
- снижение стоимости оборудования для хранения и обработки данных;
- повышение отказоустойчивости. Выход из строя одного или нескольких узлов кластера влияет только на производительность системы, при этом система продолжает корректно работать и предоставлять сервис конечным пользователям;
- линейная масштабируемость. Решение позволяет наращивать производительность просто за счет добавления новых узлов кластера. При этом производительность кластера возрастает линейно;
- работа с неструктурированными данными. Технология позволяет осуществлять сложную обработку любых файлов, в том числе неструктурированных, благодаря чему такие данные могут быть эффективно обработаны и использованы.
Прежде всего технология применяется для анализа накопленных данных, а также данных, полученных из дополнительных источников, таких как социальные сети, Интернет, архивы, данные информационных систем и т.д. Hadoop позволяет не только сократить время на обработку и подготовку данных для аналитических систем, но и существенно расширяет возможности по анализу, позволяя оперировать новой информацией, слабоструктурированными или совсем неструктурированными данными.
Технология также используется для оптимизации существующих процессов обработки данных, позволяет существенно сократить затраты на хранение и обработку и при этом обеспечить эффективность работы с данными.
Большие массивы данных и модели, созданные на их основе, широко используются в финансовой сфере, телекоме, различных видах интернет-бизнеса, интернет-маркетинге. Hadoop-проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределенных программ, работающих на кластерах из сотен и тысяч узлов. Используется для реализации поисковых и контекстных механизмов многих высоконагруженных веб-сайтов. Разработан на Java в рамках вычислительной парадигмы MapReduce, согласно которой приложение разделяется на большое количество одинаковых элементарных заданий, выполнимых на узлах кластера и естественным образом сводимых в конечный результат.
Современное состояние и тенденции развития технологий Big Data в России и за рубежом.
Большие данные получили широкое распространение во многих отраслях бизнеса. Их используют в здравоохранении, телекоммуникациях, торговле, логистике, в финансовых компаниях, а также в государственном управлении. На рис. 2 представлено в процентном соотношении внедрение технологий больших данных в различных отраслях (источник Tech Pro Reseach). Как видно из рисунка, наибольший процент применения Big Data - в области телекоммуникаций, инжиниринге, в государственных предприятиях, а наименьший - в здравоохранении и образовании.
Внедрение технологий больших данных в различных отраслях
/│ │
/ │ │
/ │ │
┐ │ │
│ ┌─┴──┐ │
Здравоохранение│ │ │13 │
│ └─┬──┘ │
┤ │ │
│ ┌─┴───┐ │
Образование│ │ │15 │
│ └─┬───┘ │
┤ │ │
│ ┌─┴─────┐ │
Бизнес-сервис/Консалтинг│ │ │18 │
│ └─┬─────┘ │
┤ │ │
│ ┌─┴──────────────┐ │
Логистика и транспорт│ │ │33 │ ┌─┐
│ └─┬──────────────┘ │ │ │
┤ │ │ └─┘
│ ┌─┴──────────────┐ │Ряд 1
Финансы и страхование│ │ │33 │
│ └─┬──────────────┘ │
┤ │ │
│ ┌─┴────────────────┐ │
IT-компании│ │ │36 │
│ └─┬────────────────┘ │
┤ │ │
│ ┌─┴──────────────────┐ │
Государственное предприятие│ │ │38 │
│ └─┬──────────────────┘ │
┤ │ │
│ ┌─┴──────────────────────────┐ │
Инжиниринг и...│ │ │45 │
│ └─┬──────────────────────────┘ │
┤ │ │
│ ┌─┴──────────────────────────────┐ │
Телекоммуникационные...│ │ │58 │
│ └────────────────────────────────┘ /
│ / /
│/ /
┼───────────┬───────────┬───────────┐
0 20 40 60
Рис. 2
На сегодняшний день Big Data активно внедряются в зарубежных компаниях. Такие компании, как Nasdaq, Facebook, Google, IBM, VISA, Master Card, Bank of America, HSBC, AT&T, Coca-Cola, Starbucks и Netflix уже используют ресурсы больших данных.
В целом объем рынка вырастет с 1,345 млрд евро в 2015 г. до 3,198 млрд евро в 2019 г., средний темп роста составит 24%.
Компаниями финансового сектора, по данным Bain Company's Insights Analysis, будут произведены значительные инвестиции, средний темп роста инвестиций составит 22% до 2020 г. Интернет-компании планируют потратить 2,8 млрд долл. США, средний темп роста увеличения затрат на большие данные составит 26%.
По прогнозам IDC тенденции развития рынка выглядят следующим образом <6>:
- в следующие 5 лет затраты на облачные решения в сфере технологий больших данных будут расти в 3 раза быстрее, чем затраты на локальные решения. Станут востребованными гибридные платформы для хранения данных;
- рост приложений с использованием сложной и прогнозной аналитики, включая машинное обучение, ускорится в 2017 г., рынок таких приложений будет расти на 65% быстрее, чем приложения, не использующие прогнозную аналитику;
- медиа аналитика утроится в 2017 г. и станет ключевым драйвером роста рынка технологий больших данных;
- ускорится тенденция внедрения решений для анализа постоянного потока информации, которая применима для "Интернета вещей";
- к 2018 г. 50% пользователей будут взаимодействовать с сервисами, основанными на когнитивном вычислении.
--------------------------------
<6> Аналитический обзор рынка Big Data
|