Данные для всех

Тренды 28 января 2020

Анализ больших объемов данных перестал быть уделом самых продвинутых. Благодаря ряду новых технологий и концепций круг пользователей Big Data в бизнесе значительно расширился.

Big Data считают одним из самых перспективных и многообещающих направлений развития компьютинга. В 2019 году аналитики Frost & Sullivan предсказывали, что в 2021 году общий объем мирового рынка аналитики больших объемов данных составит $67,2 млрд при среднегодовых темпах прироста в 35,9%. Такой рост объясняется тем, что данные стали основным средством развития бизнеса.

На что способны большие данные

Большие данные используются сегодня практически во всех сферах экономики. С их помощью предприятия добиваются повышения производительности труда, ведут прогнозирование ситуаций на рынках, разработку и усовершенствование товаров и услуг, оптимизируют логистику. Системы навигации прогнозируют трафик на основе данных, которые поступают от всех пользователей в режиме реального времени. Сотовые операторы собирают большие данные для того, чтобы разрабатывать новые тарифы, прогнозировать нагрузку на сети. Банки с помощью Big Data анализируют кредитоспособность, управляют рисками, борются с мошенничеством, обеспечивают кибербезопасность. К примеру, Сбербанк еще в 2016 году благодаря Big Data смог сократить число проблемных кредитов, а это дало возможность снизить ставки для надежных клиентов.

Расширение доступности технологий Big Data — задача, которую ставит перед собой большинство игроков этого сегмента глобального IT-рынка. И их работа приносит свои плоды. Сегодня получают распространение решения, которые позволяют работать с большими данными не только структурам, имеющим доступ к суперкомпьютерам.

Граничные вычисления

Одна из таких технологий — граничные вычисления (Edge Computing), которые позволяют вести первичную обработку данных непосредственно на устройствах, с помощью которых они собираются. Это могут быть и пользовательские устройства, и устройства, работающие в составе комплексов интернета вещей, и серверы, которые используются для сбора и обработки объемных, но не больших массивов данных. Принято считать, что в случае Edge Computing работа ведется не с большими, а «мгновенными» данными, которые, прежде чем их передадут в массив Big Data, приобретают заданную форму. Это позволяет сэкономить и на сетях передачи данных за счет сокращения объема информации, и на системах хранения, и на системах обработки.

Представим себе систему видеонаблюдения, камеры которой фиксируют движение на охраняемой территории. Сбор и хранение всего видеоматериала в таком случае будет чрезвычайно дорогим и трудоемким, ведь системе придется анализировать огромный массив видео. В таких случаях и приходят на выручку граничные вычисления. Первичный анализ данных осуществляется либо самими камерами, либо небольшим сервером, к которому они непосредственно подключены, а в аналитическую систему поступают уже обработанные результаты. Таким образом и уменьшается объем данных, которые приходится передавать и хранить, и упрощается задача для аналитических алгоритмов.

In-Memory Computing

Еще один способ оптимизировать работу с большими данными — использование технологии In-Memory Computing. Она обеспечивает обработку данных в реальном времени в оперативной памяти. Обычно массивы данных хранятся на дисках, и системам приходится затрачивать мощности на их считывание и передачу. Чем больше данных требуется для анализа, тем большее время затрачивает система на их загрузку. In-Memory Computing позволяет исключить эти процессы ввода-вывода и значительно ускорить работу систем. Аналитические системы загружают данные одновременно из разных источников, это заметно сокращает сроки получения аналитического отчета.

Одним из ярких примеров может служить аналитическая платформа QlikView, которая позволяет визуализировать сложные отчеты. С помощью технологии In-Memory Computing она мгновенно формирует визуальные представления для самой сложной аналитики, использующей множество источников данных самого разного характера, это помогает значительно ускорить и упростить работу с Big Data.

Расширенная аналитика

Если In-Memory Computing и Edge Computing уже можно назвать устоявшимися трендами, то Augmented Analytics, или расширенная аналитика, только готовится стать господствующим явлением в анализе больших данных. Компания Gartner назвала расширенное управление данными одним из главных трендов 2020 года.

Строго говоря, расширенная аналитика не технология, а методология. Для описания ее сути хорошо подходит фраза евангелиста компании Qlik Джона Сендса: «Мы богаты данными, но очень бедны информацией», — именно эту проблему решает Augmented Analytics. Подход заключается в использовании искусственного интеллекта и машинного обучения на всех этапах работы с данными — от подготовки до формулировки выводов. Благодаря этому снижается риск потери важных инсайтов в работе с Big Data, а сама технология становится доступна широкому кругу пользователей за счет обработки естественного языка: запросы к массивам данных можно формулировать не при помощи алгоритмов, а обычным языком — так же, как запрашивается информация в Google.

В следующем году расширенная аналитика обещает стать не нишевым, а массовым явлением. А значит, производители BI-систем дополнят их функциональность такими возможностями, как формирование аналитических запросов при помощи языка человека, а работа с данными превратится в настоящий конвейер, на котором они последовательно собираются, извлекаются и анализируются.

Облачные данные

Огромное влияние на работу с Big Data в последние годы оказали также облачные технологии. Создание собственной платформы, позволяющей хранить и обрабатывать массивы больших данных, чрезвычайно затратный проект, который доступен только крупным корпорациям. Благодаря облачным сервисам воспользоваться преимуществами Big Data сегодня может практически любая компания: провайдеры обеспечивают как доступ к данным, так и полную инфраструктуру для их обработки.

Например, облако SberCloud включает все элементы, необходимые для работы с большими данными. Арендовать необходимые мощности для обработки данных и управлять кластерами данных в удобном интерфейсе позволяет MapReduce Service, а для поиска по массиву данных используется Cloud Search Service — распределенная поисковая система, которая способна находить структурированную и неструктурированную информацию в разных источниках.

Для анализа данных в SberCloud есть также специализированный аналитический сервис Data Lake Insight, который способен интегрироваться со средствами визуализации. Этот сервис во многом уникален, его способен предоставить далеко не каждый облачный провайдер. Он автоматически масштабируется в зависимости от текущей нагрузки и поддерживает все актуальные технологии работы с данными, включая бессерверные вычисления и In-Memory Computing.