Что такое Big data: собрали всё самое важное о больших данных. Big Data и блокчейн — прорыв в области анализа данных

Big Data – это не только сами данные, но и технологии их обработки и использования, методы поиска необходимой информации в больших массивах. Проблема больших данных по-прежнему остается открытой и жизненно важной для любых систем, десятилетиями накапливающих самую разнообразную информацию.

С данным термином связывают выражение «Volume, Velocity, Variety» – принципы, на которых строится работа с большими данными. Это непосредственно объем информации , быстродействие ее обработки и разнообразие сведений , хранящихся в массиве. В последнее время к трем базовым принципам стали добавлять еще один – Value , что обозначает ценность информации . То есть, она должна быть полезной и нужной в теоретическом или практическом плане, что оправдывало бы затраты на ее хранение и обработку.

В качестве примера типичного источника больших данных можно привести социальные сети – каждый профиль или публичная страница представляет собой одну маленькую каплю в никак не структурированном океане информации. Причем независимо от количества хранящихся в том или ином профиле сведений взаимодействие с каждым из пользователей должно быть максимально быстрым.

Большие данные непрерывно накапливаются практически в любой сфере человеческой жизни. Сюда входит любая отрасль, связанная либо с человеческими взаимодействиями, либо с вычислениями. Это и социальные медиа, и медицина, и банковская сфера, а также системы устройств, получающие многочисленные результаты ежедневных вычислений. Например, астрономические наблюдения, метеорологические сведения и информация с устройств зондирования Земли.

Информация со всевозможных систем слежения в режиме реального времени также поступает на сервера той или иной компании. Телевидение и радиовещание, базы звонков операторов сотовой связи – взаимодействие каждого конкретного человека с ними минимально, но в совокупности вся эта информация становится большими данными.

Технологии больших данных стали неотъемлемыми от научно-исследовательской деятельности и коммерции. Более того, они начинают захватывать и сферу государственного управления – и везде требуется внедрение все более эффективных систем хранения и манипулирования информацией.

Впервые термин «большие данные» появился в прессе в 2008 году, когда редактор журнала Nature Клиффорд Линч выпустил статью на тему развития будущего науки с помощью технологий работы с большим количеством данных. До 2009 года данный термин рассматривался только с точки зрения научного анализа, но после выхода еще нескольких статей пресса стала широко использовать понятие Big Data – и продолжает использовать его в настоящее время.

В 2010 году стали появляться первые попытки решить нарастающую проблему больших данных. Были выпущены программные продукты, действие которых было направлено на то, чтобы минимизировать риски при использовании огромных информационных массивов.

К 2011 году большими данными заинтересовались такие крупные компании, как Microsoft, Oracle, EMC и IBM – они стали первыми использовать наработки Big data в своих стратегиях развития, причем довольно успешно.

ВУЗы начали проводить изучение больших данных в качестве отдельного предмета уже в 2013 году – теперь проблемами в этой сфере занимаются не только науки о данных, но и инженерия вкупе с вычислительными предметами.

К основным методам анализа и обработки данных можно отнести следующие:

  1. Методы класса или глубинный анализ (Data Mining).

Данные методы достаточно многочисленны, но их объединяет одно: используемый математический инструментарий в совокупности с достижениями из сферы информационных технологий.

  1. Краудсорсинг.

Данная методика позволяет получать данные одновременно из нескольких источников, причем количество последних практически не ограничено.

  1. А/В-тестирование.

Из всего объема данных выбирается контрольная совокупность элементов, которую поочередно сравнивают с другими подобными совокупностями, где был изменен один из элементов. Проведение подобных тестов помогает определить, колебания какого из параметров оказывают наибольшее влияние на контрольную совокупность. Благодаря объемам Big Data можно проводить огромное число итераций, с каждой из них приближаясь к максимально достоверному результату.

  1. Прогнозная аналитика.

Специалисты в данной области стараются заранее предугадать и распланировать то, как будет вести себя подконтрольный объект, чтобы принять наиболее выгодное в этой ситуации решение.

  1. Машинное обучение (искусственный интеллект).

Основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.

  1. Сетевой анализ.

Наиболее распространенный метод для исследования социальных сетей – после получения статистических данных анализируются созданные в сетке узлы, то есть взаимодействия между отдельными пользователями и их сообществами.

В 2017 году, когда большие данные перестали быть чем-то новым и неизведанным, их важность не только не уменьшилась, а еще более возросла. Теперь эксперты делают ставки на то, что анализ больших объемов данных станет доступным не только для организаций-гигантов, но и для представителей малого и среднего бизнеса. Такой подход планируется реализовать с помощью следующих составляющих:

  • Облачные хранилища.

Хранение и обработка данных становятся более быстрыми и экономичными – по сравнению с расходами на содержание собственного дата-центра и возможное расширение персонала аренда облака представляется гораздо более дешевой альтернативой.

  • Использование Dark Data.

Так называемые «темные данные» – вся неоцифрованная информация о компании, которая не играет ключевой роли при непосредственном ее использовании, но может послужить причиной для перехода на новый формат хранения сведений.

  • Искусственный интеллект и Deep Learning.

Технология обучения машинного интеллекта, подражающая структуре и работе человеческого мозга, как нельзя лучше подходит для обработки большого объема постоянно меняющейся информации. В этом случае машина сделает все то же самое, что должен был бы сделать человек, но при этом вероятность ошибки значительно снижается.

  • Blockchain.

Эта технология позволяет ускорить и упростить многочисленные интернет-транзакции, в том числе международные. Еще один плюс Блокчейна в том, что благодаря ему снижаются затраты на проведение транзакций.

  • Самообслуживание и снижение цен.

В 2017 году планируется внедрить «платформы самообслуживания» – это бесплатные площадки, где представители малого и среднего бизнеса смогут самостоятельно оценить хранящиеся у них данные и систематизировать их.

Все маркетинговые стратегии так или иначе основаны на манипулировании информацией и анализе уже имеющихся данных. Именно поэтому использование больших данных может предугадать и дать возможность скорректировать дальнейшее развитие компании.

К примеру, RTB-аукцион, созданный на основе больших данных, позволяет использовать рекламу более эффективно – определенный товар будет показываться только той группе пользователей, которая заинтересована в его приобретении.

Чем выгодно применение технологий больших данных в маркетинге и бизнесе?

  1. С их помощью можно гораздо быстрее создавать новые проекты, которые с большой вероятностью станут востребованными среди покупателей.
  2. Они помогают соотнести требования клиента с существующим или проектируемым сервисом и таким образом подкорректировать их.
  3. Методы больших данных позволяют оценить степень текущей удовлетворенности всех пользователей и каждого в отдельности.
  4. Повышение лояльности клиентов обеспечивается за счет методов обработки больших данных.
  5. Привлечение целевой аудитории в интернете становится более простым благодаря возможности контролировать огромные массивы данных.

Например, один из самых популярных сервисов для прогнозирования вероятной популярности того или иного продукта – Google.trends. Он широко используется маркетологами и аналитиками, позволяя им получить статистику использования данного продукта в прошлом и прогноз на будущий сезон. Это позволяет руководителям компаний более эффективно провести распределение рекламного бюджета, определить, в какую область лучше всего вложить деньги.

Примеры использования Big Data

Активное внедрение технологий Big Data на рынок и в современную жизнь началось как раз после того, как ими стали пользоваться всемирно известные компании, имеющие клиентов практически в каждой точке земного шара.

Это такие социальные гиганты, как Facebook и Google, IBM., а также финансовые структуры вроде Master Card, VISA и Bank of America.

К примеру, IBM применяет методы больших данных к проводимым денежным транзакциям. С их помощью было выявлено на 15% больше мошеннических транзакций, что позволило увеличить сумму защищенных средств на 60%. Также были решены проблемы с ложными срабатываниями системы – их число сократилось более, чем наполовину.

Компания VISA аналогично использовала Big Data, отслеживая мошеннические попытки произвести ту или иную операцию. Благодаря этому ежегодно они спасают от утечки более 2 млрд долларов США.

Министерство труда Германии сумело сократить расходы на 10 млрд евро, внедрив систему больших данных в работу по выдаче пособий по безработице. При этом было выявлено, что пятая часть граждан данные пособия получает безосновательно.

Big Data не обошли стороной и игровую индустрию. Так, разработчики World of Tanks провели исследование информации обо всех игроках и сравнили имеющиеся показатели их активности. Это помогло спрогнозировать возможный будущий отток игроков – опираясь на сделанные предположения, представители организации смогли более эффективно взаимодействовать с пользователями.

К числу известных организаций, использующих большие данные, можно также отнести HSBC, Nasdaq, Coca-Cola, Starbucks и AT&T.

Самой большой проблемой больших данных являются затраты на их обработку. Сюда можно включить как дорогостоящее оборудование, так и расходы на заработную плату квалифицированным специалистам, способным обслуживать огромные массивы информации. Очевидно, что оборудование придется регулярно обновлять, чтобы оно не теряло минимальной работоспособности при увеличении объема данных.

Вторая проблема опять же связана с большим количеством информации, которую необходимо обрабатывать. Если, например, исследование дает не 2-3, а многочисленное количество результатов, очень сложно остаться объективным и выделить из общего потока данных только те, которые окажут реальное влияние на состояние какого-либо явления.

Проблема конфиденциальности Big Data. В связи с тем, что большинство сервисов по обслуживанию клиентов переходят на онлайн-использование данных, очень легко стать очередной мишенью для киберпреступников. Даже простое хранение личной информации без совершения каких-либо интернет-транзакций может быть чревато нежелательными для клиентов облачных хранилищ последствиями.

Проблема потери информации. Меры предосторожности требуют не ограничиваться простым однократным резервированием данных, а делать хотя бы 2-3 резервных копии хранилища. Однако с увеличением объема растут сложности с резервированием – и IT-специалисты пытаются найти оптимальное решение данной проблемы.

Рынок технологий больших данных в России и мире

По данным на 2014 год 40% объема рынка больших данных составляют сервисные услуги. Немного уступает (38%) данному показателю выручка от использования Big Data в компьютерном оборудовании. Оставшиеся 22% приходятся на долю программного обеспечения.

Наиболее полезные в мировом сегменте продукты для решения проблем Big Data, согласно статистическим данным, – аналитические платформы In-memory и NoSQL . 15 и 12 процентов рынка соответственно занимают аналитическое ПО Log-file и платформы Columnar. А вот Hadoop/MapReduce на практике справляются с проблемами больших данных не слишком эффективно.

Результаты внедрения технологий больших данных:

  • рост качества клиентского сервиса;
  • оптимизация интеграции в цепи поставок;
  • оптимизация планирования организации;
  • ускорение взаимодействия с клиентами;
  • повышение эффективности обработки запросов клиентов;
  • снижение затрат на сервис;
  • оптимизация обработки клиентских заявок.

Лучшие книги по Big Data



Подойдет для первоначального изучения технологий обработки больших данных – легко и понятно вводит в курс дела. Дает понять, как обилие информации повлияло на повседневную жизнь и все ее сферы: науку, бизнес, медицину и т. д. Содержит многочисленные иллюстрации, поэтому воспринимается без особых усилий.

«Introduction to Data Mining», Панг-Нинг Тан, Майкл Стейнбах и Випин Кумар

Также полезная для новичков книга по Big Data, объясняющая работу с большими данными по принципу «от простого к сложному». Освещает многие немаловажные на начальном этапе моменты: подготовку к обработке, визуализацию, OLAP, а также некоторые методы анализа и классификации данных.

Практическое руководство по использованию больших данных и работе с ними с применением языка программирования Python. Подходит как студентам инженерных специальностей, так и специалистам, которые хотят углубить свои знания.

«Hadoop for Dummies», Дирк Дерус, Пол С. Зикопулос, Роман Б. Мельник

Hadoop – это проект, созданный специально для работы с распределенными программами, организующими выполнение действий на тысячах узлов одновременно. Знакомство с ним поможет более детально разобраться в практическом применении больших данных.

Что такое Big Data (дословно — большие данные )? Обратимся сначала к оксфордскому словарю:

Данные — величины, знаки или символы, которыми оперирует компьютер и которые могут храниться и передаваться в форме электрических сигналов, записываться на магнитные, оптические или механические носители.

Термин Big Data используется для описания большого и растущего экспоненциально со временем набора данных. Для обработки такого количества данных не обойтись без .

Преимущества, которые предоставляет Big Data:

  1. Сбор данных из разных источников.
  2. Улучшение бизнес-процессов через аналитику в реальном времени.
  3. Хранение огромного объема данных.
  4. Инсайты. Big Data более проницательна к скрытой информации при помощи структурированных и полуструктурированных данных.
  5. Большие данные помогают уменьшать риск и принимать умные решения благодаря подходящей риск-аналитике

Примеры Big Data

Нью-Йоркская Фондовая Биржа ежедневно генерирует 1 терабайт данных о торгах за прошедшую сессию.

Социальные медиа : статистика показывает, что в базы данных Facebook ежедневно загружается 500 терабайт новых данных, генерируются в основном из-за загрузок фото и видео на серверы социальной сети, обмена сообщениями, комментариями под постами и так далее.

Реактивный двигатель генерирует 10 терабайт данных каждые 30 минут во время полета. Так как ежедневно совершаются тысячи перелетов, то объем данных достигает петабайты.

Классификация Big Data

Формы больших данных:

  • Структурированная
  • Неструктурированная
  • Полуструктурированная

Структурированная форма

Данные, которые могут храниться, быть доступными и обработанными в форме с фиксированным форматом называются структурированными. За продолжительное время компьютерные науки достигли больших успехов в совершенствовании техник для работы с этим типом данных (где формат известен заранее) и научились извлекать пользу. Однако уже сегодня наблюдаются проблемы, связанные с ростом объемов до размеров, измеряемых в диапазоне нескольких зеттабайтов.

1 зеттабайт соответствует миллиарду терабайт

Глядя на эти числа, нетрудно убедиться в правдивости термина Big Data и трудностях сопряженных с обработкой и хранением таких данных.

Данные, хранящиеся в реляционной базе — структурированы и имеют вид,например, таблицы сотрудников компании

Неструктурированная форма

Данные неизвестной структуры классифицируются как неструктурированные. В дополнении к большим размерам, такая форма характеризуется рядом сложностей для обработки и извлечении полезной информации. Типичный пример неструктурированных данных — гетерогенный источник, содержащий комбинацию простых текстовых файлов, картинок и видео. Сегодня организации имеют доступ к большому объему сырых или неструктурированных данных, но не знают как извлечь из них пользу.

Полуструктурированная форма

Эта категория содержит обе описанные выше, поэтому полуструктурированные данные обладают некоторой формой, но в действительности не определяются с помощью таблиц в реляционных базах. Пример этой категории — персональные данные, представленные в XML файле.

Prashant RaoMale35 Seema R.Female41 Satish ManeMale29 Subrato RoyMale26 Jeremiah J.Male35

Характеристики Big Data

Рост Big Data со временем:

Синим цветом представлены структурированные данные (Enterprise data), которые сохраняются в реляционных базах. Другими цветами — неструктурированные данные из разных источников (IP-телефония, девайсы и сенсоры, социальные сети и веб-приложения).

В соответствии с Gartner, большие данные различаются по объему, скорости генерации, разнообразию и изменчивости. Рассмотрим эти характеристики подробнее.

  1. Объем . Сам по себе термин Big Data связан с большим размером. Размер данных — важнейший показатель при определении возможной извлекаемой ценности. Ежедневно 6 миллионов людей используют цифровые медиа, что по предварительным оценкам генерирует 2.5 квинтиллиона байт данных. Поэтому объем — первая для рассмотрения характеристика.
  2. Разнообразие — следующий аспект. Он ссылается на гетерогенные источники и природу данных, которые могут быть как структурированными, так и неструктурированными. Раньше электронные таблицы и базы данных были единственными источниками информации, рассматриваемыми в большинстве приложений. Сегодня же данные в форме электронных писем, фото, видео, PDF файлов, аудио тоже рассматриваются в аналитических приложениях. Такое разнообразие неструктурированных данных приводит к проблемам в хранении, добыче и анализе: 27% компаний не уверены, что работают с подходящими данными.
  3. Скорость генерации . То, насколько быстро данные накапливаются и обрабатываются для удовлетворения требований, определяет потенциал. Скорость определяет быстроту притока информации из источников — бизнес процессов, логов приложений, сайтов социальных сетей и медиа, сенсоров, мобильных устройств. Поток данных огромен и непрерывен во времени.
  4. Изменчивость описывает непостоянство данных в некоторые моменты времени, которое усложняет обработку и управление. Так, например, большая часть данных неструктурирована по своей природе.

Big Data аналитика: в чем польза больших данных

Продвижение товаров и услуг : доступ к данным из поисковиков и сайтов, таких как Facebook и Twitter, позволяет предприятиям точнее разрабатывать маркетинговые стратегии.

Улучшение сервиса для покупателей : традиционные системы обратной связи с покупателями заменяются на новые, в которых Big Data и обработка естественного языка применяется для чтения и оценки отзыва покупателя.

Расчет риска , связанного с выпуском нового продукта или услуги.

Операционная эффективность : большие данные структурируют, чтобы быстрее извлекать нужную информацию и оперативно выдавать точный результат. Такое объединение технологий Big Data и хранилищ помогает организациям оптимизировать работу с редко используемой информацией.

Big data, или большие данные, - понятие, используемое в информационных технологиях и сфере маркетинга. Термин «большие данные» применяется для определения анализа и управления значительными массивами. Таким образом, big data - это та информация, которая за счет своих больших объемов не может быть обработана традиционными способами.

Современную жизнь невозможно представить без цифровых технологий. Мировые хранилища данных пополняются непрерывно, и поэтому также непрерывно приходится изменять как условия хранения информации, так и искать новые способы увеличения объема ее носителей. Исходя из экспертного мнения, увеличение big data и увеличение скорости роста - это нынешние реалии. Как уже говорилось, информация появляется безостановочно. Огромные ее объемы генерируются информационными сайтами, различными сервисами обмена файлами и социальными сетями, однако это лишь малая часть от всего производимого объема.

IDC Digital Universe после проведения исследования заявили, что в течение 5 лет объем данных в целом на всей Земле достигнет сорока зеттабайтов. Это значит, что на каждого человека на планете придется 5200 Гб информации.

Лучшая статья месяца

Заканчивается первое полугодие 2018 года — пора подводить промежуточные итоги. Даже если коммерческие показатели компании выросли по сравнению с прошлым периодом, убедитесь, нет ли скрытых сложностей в работе компании, которые могут принести неприятности.

Чтобы диагностировать проблемы, заполните чек-листы из нашей статьи и узнайте, на какую сторону бизнеса обратить внимание.

Общеизвестно, что люди не являются главным производителем информации. Основной источник, который приносит информационные данные, - это роботы, которые непрерывно взаимодействуют. В их число входят операционная система компьютеров, планшетов и мобильных телефонов, интеллектуальные системы, средства для мониторинга, системы наблюдения и прочее. В совокупности они задают стремительную скорость увеличения количества данных, а значит, потребность в создании как реальных, так и виртуальных серверов увеличивается. В совокупности это ведет к расширению и внедрению новых data-центров.

Чаще всего большие данные определяются как информация, которая объемом превышает жесткий диск ПК, а также не может быть обработана традиционными методами, которые используются при обработке и анализе информации с меньшим объемом.

Если обобщить, то технология обработки big data сводится в конечном итоге к 3 основным направлениям, которые, в свою очередь, решают 3 типа задач:

  1. Хранение и управление огромными объемами данных - их размеры доходят до сотен терабайтов и петабайтов, - которые реляционные базы данных не позволяют эффективно использовать.
  2. Организация неструктурированной информации - тексты, изображения, видео и другие типы данных.
  3. Анализ big data (big data analytics) - здесь рассматриваются и способы работы с неструктурированной информацией, и создание отчетов аналитических данных, и введение прогностических моделей.

Рынок проектов big data тесно взаимосвязан с рынком ВА - бизнес-аналитики, объем которого за 2012 год составил около 100 млрд долларов, и включающим в себя сетевые технологии, программное обеспечение, технические услуги и серверы.

Автоматизация деятельности компании, в частности решения класса гарантирования доходов (RA), также неразрывно связана с использованием технологий big data. На сегодняшний день системы в этой сфере содержат инструменты, которые используются для обнаружения несоответствий и для углубленного анализа данных, а также позволяют выявить возможные потери либо неточности в информации, которые могут привести к снижению результатов сектора.

Российские компании подтверждают, что спрос на технологии больших данных big data есть, отдельно отмечают то, что основные факторы, влияющие на развитие big data в России, - это увеличение объема данных, быстрое принятие управленческих решений и повышение их качества.

Какую роль играет big data в маркетинге

Не секрет, что информация - это одна из главных составляющих удачного прогнозирования и разработки маркетинговой стратегии, если уметь ей пользоваться.

Анализ больших данных является незаменимым при определении целевой аудитории, ее интересов и активности. Иными словами, умелое применение big data позволяет точно предсказывать развитие компании.

Используя, например, известную модель RTB-аукциона, с помощью анализа больших данных легко сделать так, что реклама будет выводиться только для тех потенциальных покупателей, которые заинтересованы в приобретении услуги или товара.

Применение big data в маркетинге:

  1. Позволяет узнать потенциальных покупателей и привлечь соответствующую аудиторию в интернете.
  2. Способствует оценке степени удовлетворенности.
  3. Помогает соотносить предлагаемый сервис с потребностями покупателя.
  4. Облегчает поиск и внедрение новых методов увеличения лояльности клиента.
  5. Упрощает создание проектов, которые впоследствии будут пользоваться спросом.

Частный пример - сервис Google.trends. С его помощью маркетолог сможет выявить прогноз на сезон касательно того или иного продукта, географию кликов и колебания. Таким образом, сравнив полученную информацию со статистикой собственного сайта, достаточно легко составить рекламный бюджет с указанием региона и месяца.

  • Распределение рекламного бюджета: на что стоит потратиться
  • l&g t;

    Как и где хранить большие данные big data

    Файловая система - именно здесь big data и организуются, и хранятся. Вся информация находится на большом количестве жестких дисков на ПК.

    «Карта» - map - отслеживает, где непосредственно хранится каждая часть информации.

    Для того чтобы застраховаться от непредвиденных обстоятельств, каждую из частей информации принято сохранять по несколько раз - рекомендуется делать это трижды .

    Например, после сбора индивидуальных транзакций в розничной сети вся информация о каждой отдельной транзакции будет храниться на нескольких серверах и жестких дисках, а «карта» будет индексировать местоположение файла по каждой конкретной сделке.

    Для того чтобы организовать хранение данных в больших объемах, можно использовать стандартное техническое оснащение и программное обеспечение, находящееся в открытом доступе (к примеру, Hadoop).

    Большие данные и бизнес-аналитика: разность понятий

    На сегодняшний день бизнес-анализ представляет собой описательный процесс результатов, которые были достигнуты за отдельный временной период. Действующая же скорость на обработку big data делает анализ предсказательным. На его рекомендации можно опираться в будущем. Технологии big data дают возможность анализа большего количества типов данных сравнительно со средствами и инструментами, используемыми в бизнес-аналитике. Это позволяет не только сосредоточиться на хранилищах, где данные структурированы, а использовать значительно более широкие ресурсы.

    Бизнес-аналитика и big data во многом схожи, однако имеются следующие отличия:

    • Big data используются для обработки объема информации, значительно большего, по сравнению с бизнес-аналитикой, что определяет само понятие big data.
    • При помощи big data можно обрабатывать быстро получаемые и меняющиеся данные, что обуславливает интерактивность, т. е. в большинстве случаев скорость загрузки веб-страницы меньше, чем скорость формирования результатов.
    • Big data могут использоваться при обработке не имеющих структуры данных, работу с которыми следует начинать, только обеспечив их хранение и сбор. Кроме того, необходимо применять алгоритмы, способные выявить основные закономерности в созданных массивах.

    Процесс бизнес-аналитики мало схож с работой big data. Как правило, бизнес-аналитике свойственно получать результат путем сложения конкретных значений: в качестве примера можно назвать годовой объем по продажам, рассчитанный как сумма всех оплаченных счетов. В процессе работы с big data расчет происходит путем поэтапного построения модели:

    • выдвижение гипотезы;
    • построение статической, визуальной и семантической модели;
    • проверка верности гипотезы на основании указанных моделей;
    • выдвижение следующей гипотезы.

    Для проведения полного цикла исследования необходимо интерпретировать визуальные значения (интерактивные запросы на основе знаний). Также можно разработать адаптивный алгоритм машинного обучения.

    Мнение эксперта

    Нельзя слепо полагаться только на мнения аналитиков

    Вячеслав Назаров,

    генеральный директор российского представительства компании Archos, Москва

    Около года назад, опираясь на мнение экспертов, мы выпустили на рынок абсолютно новый планшет, игровую консоль. Компактность и достаточная техническая мощность нашли свое признание в кругу поклонников компьютерных игр. Следует отметить, что эта группа, несмотря на свою «узкость», имела достаточно высокую покупательную способность. Сначала новинка собрала много положительных отзывов в СМИ и получила одобрительную оценку от наших партнеров. Тем не менее, вскоре выяснилось, что продажи планшета достаточно низки. Решение так и не нашло своей массовой популярности.

    Ошибка . Наша недоработка состояла в том, что интересы целевой аудитории не были изучены до конца. Пользователям, предпочитающим играть на планшете, не требуется суперграфика, поскольку они играют в основном в простые игры. Серьезные же геймеры уже привыкли к игре на компьютере на более совершенных платформах. Массированная реклама нашего продукта отсутствовала, маркетинговая кампания также была слабой, и в конечном итоге, планшет не нашел своего покупателя ни в одной из указанных групп.

    Последствия . Производство продукта пришлось сократить почти на 40 % по сравнению с первоначально запланированными объемами. Конечно, больших убытков не было, равно как и планируемой прибыли. Однако это заставило нас откорректировать некоторые стратегические задачи. Самое ценное, что было нами безвозвратно потеряно - это наше время.

    Советы . Мыслить нужно перспективно. Продуктовые линейки необходимо просчитывать вперед на два-три шага. Что это значит? При запуске некоторого модельного ряда сегодня желательно понимать его судьбу завтра и иметь хотя бы приблизительную картину того, что будет с ним через год-полтора. Конечно, полная детализация маловероятна, но базовый план все же должен быть составлен.

    И еще не стоит целиком и полностью доверяться аналитикам. Оценки экспертов надо соизмерять с собственными статистическими данными, а также с оперативной обстановкой на рынке. Если ваш продукт доработан не до конца, не следует его выпускать на рынок, поскольку для покупателя первое впечатление - самое важное, и потом переубедить его будет задачей нелегкой.

    Очень важный совет на случай неудачи - быстрота принятия решения. Категорически нельзя просто наблюдать и выжидать. Решить проблему по горячим следам всегда гораздо проще и дешевле, чем устранять запущенную.

    Какие проблемы создает система big data

    Существуют три основные группы проблем систем big data, которые в иностранной литературе объединены в 3V - Volume, Velocity и Variety, то есть:

  1. Объем.
  2. Скорость обработки.
  3. Неструктурированность.

Вопрос о хранении больших объемов информации сопряжен с необходимостью организации определенных условий, то есть с созданием пространства и возможностей. Что касается скорости, то она связана не столько с замедлениями и торможениями при использовании устаревших методов обработки, сколько с интерактивностью: результат тем продуктивнее, чем быстрее идет процесс обработки информации.

  1. Проблема неструктурированности исходит из раздельности источников, их формата и качества. Для успешного объединения и обработки big data требуется и работа по их подготовке, и аналитические инструменты или системы.
  2. Большое влияние оказывает и предел «величины» данных. Определить величину достаточно сложно, а исходя из этого - проблематично просчитать, какие потребуются финансовые вложения и какие будут необходимы технологии. Тем не менее, для определенных величин, например, терабайт, на сегодняшний день успешно применяются новые методы обработки, которые постоянно совершенствуются.
  3. Отсутствие общепринятых принципов работы с big data - еще одна проблема, которая осложняется вышеупомянутой неоднородностью потоков. Для решения этой проблемы создаются новые методы анализа big data. Исходя из утверждений представителей университетов Нью-Йорка, Вашингтона и Калифорнии, не за горами создание отдельной дисциплины и даже науки big data. Это и является главной причиной того, что в компаниях не спешат вводить проекты, связанные с большими данными. Еще один фактор - высокая стоимость.
  4. Трудности также вызывают подбор данных для анализа и алгоритм действий. На сегодняшний день отсутствует какое-либо понимание того, какие данные несут ценную информацию и требуют аналитики big data, а какие можно не принимать в расчет. В этой ситуации становится ясно и еще одно - на рынке недостаточно профессионалов отрасли, которые справятся с глубинным анализом, сделают отчет о решении задачи и, соответственно, тем самым принесут прибыль.
  5. Есть и моральная сторона вопроса: отличается ли сбор данных без ведома пользователя от грубого вторжения в частную жизнь? Стоит отметить, что сбор данных улучшает качество жизни: например, непрерывный сбор данных в системах Google и Яндекс помогает компаниям улучшать свои сервисы в зависимости от потребностей потребителей. Системы этих сервисов отмечают каждый клик пользователя, его местоположение и посещаемые сайты, все сообщения и покупки - и все это дает возможность демонстрации рекламы, исходя из поведения пользователя. Пользователь не давал своего согласия на сбор данных: такой выбор предоставлен не был. Из этого следует следующая проблема: насколько безопасно хранится информация? К примеру, сведения о потенциальных покупателях, история их покупок и переходов на различные сайты может помочь решить многие бизнес-задачи, но является ли платформа, которой пользуются покупатели, безопасной - это очень спорный вопрос. Многие апеллируют к тому, что на сегодняшний день ни одно хранилище данных - даже сервера военных служб - не защищено в достаточной степени от атак хакеров.
  • Коммерческая тайна: защита и меры наказания за разглашение

Поэтапное использование big data

Этап 1. Технологическое внедрение компании в стратегический проект.

В задачи технических специалистов входит предварительная проработка концепции развития: анализ путей развития направлений, которым это больше всего необходимо.

Для определения состава и задач проводится разговор с заказчиками, в результате чего анализируются требуемые ресурсы. Параллельно организация принимает решение об отдаче всех задач полностью на аутсорсинг или о создании гибридной команды, состоящей из специалистов этой и любых других организаций.

По статистике большое количество компаний пользуются именно такой схемой: наличие команды экспертов внутри, контролирующих качество выполнения работ и формирования движения, и снаружи, реализующей непосредственную проверку гипотез о развитии какого-либо направления.

Этап 2. Поиск инженера-исследователя данных.

Руководитель собирает штат рабочих коллегиально. Он же отвечает за развитие проекта. Сотрудники HR-службы играют непосредственную роль в создании внутренней команды.

В первую очередь такой команде необходим инженер-аналитик данных, он же data scientist , который будет заниматься задачей формирования гипотез и анализа массива информации. Обозначенные им корреляции будут в будущем использоваться для основания новой продукции и сервисов.

Особенно на начальных этапах важна задача HR-отдела . Его сотрудники решают, кто именно будет выполнять работу, направленную на развитие проекта, где его взять и каким образом придать мотивации. Инженера-аналитика данных найти не так просто, поэтому это «штучный продукт».

В каждой серьезной компании обязан находиться специалист такого профиля, в противном случае теряется фокус проекта. Инженер-аналитик в совокупности: разработчик, аналитик и бизнес-аналитик. Помимо этого, он должен обладать коммуникабельностью для показа результатов своей деятельности и багажом знаний и умений для детального разъяснения своих мыслей.

  • 24 мысли, с которых начинаются большие перемены в жизни

Примеры поиска

1. В Москве была организована такси-компания «Big Data». По ходу маршрута пассажиры отвечали на задачи из области профессиональной аналитики. В том случае, когда пассажир отвечал на большинство вопросов верно, компания предлагала ему место на работе. Основным недостатком такой техники подбора персонала является нежелание большинства участвовать в такого рода проектах. На собеседование согласилось лишь несколько человек.

2. Проведение специального конкурса по бизнес-аналитике с каким-то призом. Таким способом воспользовался крупный российский банк. В результате в конкурсе хакатона участвовало более чем 1000 людей. Добившимся наивысших успехов в конкурсе предлагалось место на работе. К сожалению, большинство победителей не изъявили желание получать должность, так как их мотивацией был только приз. Но все-таки несколько человек согласились на работу в команде.

3. Поиск в среде специалистов данных, разбирающихся в аналитике бизнеса и способных навести порядок, построив правильный алгоритм действий. К необходимым навыкам специалиста-аналитика относят: программирование, знание Python, R, Statistica, Rapidminer и другие не менее важные для бизнес-аналитика знания.

Этап 3. Создание команды для развития.

Необходима слаженная команда. При рассмотрении продвинутой аналитики, например, инновационного развития компании, потребуются менеджер для создания и развития бизнес-аналитики.

Инженер-исследователь занимается построением и проверкой гипотез для успешного развития взятого вектора.

Руководителю необходимо организовывать развитие взятого направления бизнеса, создавать новые продукты и согласовывать их с заказчиками. В его обязанности, помимо этого, входит расчет бизнес-кейсов.

Менеджер по развитию обязан тесно взаимодействовать со всеми. Инженер-аналитик и менеджер по бизнес-развитию выясняют потребности и возможности анализа big data посредством встреч с сотрудниками, отвечающими за разнообразные участки проекта. Проанализировав ситуацию, менеджер создает кейсы, благодаря которым компания будет принимать решения о дальнейшем развитии направления, сервиса или продукции.

  • Менеджер по развитию: требования и должностная инструкция

3 принципа работы с b ig d ata

Можно выделить основные методы работы с big data:

  1. Горизонтальная масштабируемость. В силу того, что данных должно быть огромное множество, любая система, обрабатывающая большое количество информации, будет расширяемой. Например, если объем данных вырос в несколько раз - соответственно во столько же раз увеличился и объем «железа» в кластере.
  2. Отказоустойчивость. Исходя из принципа горизонтальной масштабируемости, можно сделать вывод, что в кластере есть большое количество машин. Например, Hadoop-кластер от Yahoo насчитывает их больше 42000. Все методы работы с big data должны учитывать возможные неисправности и искать способы справиться с неполадками без последствий.
  3. Локальность данных. Данные, хранящиеся в больших системах, распределены в достаточно большом количестве машин. Поэтому в ситуации, когда данные хранятся на сервере №1, а обрабатываются на сервере №2, нельзя исключать возможность того, что их передача будет стоить дороже, чем обработка. Именно поэтому при проектировании большое внимание уделяется тому, чтобы данные хранились и проходили обработку на одном компьютере.

Все методы работы с большими данными, так или иначе, придерживаются этих трех принципов.

Как использовать систему big data

Эффективные решения в области работы с большими данными для самых разных направлений деятельности осуществляются благодаря множеству существующих на данный момент комбинаций программного и аппаратного обеспечения.

Важное достоинство big data - возможность применять новые инструменты с теми, которые уже используются в этой сфере. Это играет особенно важную роль в ситуации с кросс-дисциплинарными проектами. В качестве примера можно привести мультиканальные продажи и поддержку потребителей.

Для работы с big data важна определенная последовательность:

  • сначала происходит сбор данных;
  • затем информация структурируется. С этой целью используются дашборды (Dashboards) - инструменты для структурирования;
  • на следующем этапе создаются инсайты и контексты, на основании которых формируются рекомендации для принятия решений. В силу высоких затрат на сбор данных, основная задача - это определить цель использования полученных сведений.

Пример. Рекламные агентства могут использовать агрегированную у телекоммуникационных компаний информацию о местоположении. Такой подход обеспечит таргетированную рекламу. Эта же информация применима и в других сферах, связанных с оказанием и продажей услуг и товаров.

Полученная таким образом информация может оказаться ключевой в принятии решения об открытии магазина в конкретной местности.

Если рассмотреть случай использования outdoor-щитов в Лондоне, не стоит сомневаться, что на сегодняшний день такой опыт возможен только в случае, если возле каждого щита расположить специальный измерительные прибор. В то же время мобильные операторы всегда знают основную информацию о своих абонентах: их расположение, семейное положение и так далее.

Еще одна потенциальная область применения big data - сбор информации о количестве посетителей различных мероприятий.

Пример. Организаторы футбольных матчей не способны знать точное число пришедших на матч заранее. Тем не менее, они получили бы такие сведения, воспользуйся они информацией от операторов мобильной связи: где находятся потенциальные посетители за определенный период времени - месяц, неделю, день - до матча. Получается, у организаторов появилась бы возможность спланировать локацию мероприятия в зависимости от предпочтений целевой аудитории.

Big data дает также несравнимые преимущества для банковского сектора, который может воспользоваться обработанными данными для того, чтобы выявить недобросовестных картодержателей.

Пример. При заявлении держателя карты о ее утере или краже банк имеет возможность отследить местоположение карты, по которой производится расчет, и мобильного телефона держателя, чтобы удостовериться в правдивости информации. Таким образом, представитель банка имеет возможность увидеть, что платежная карта и мобильный телефон держателя находятся в одной зоне. А значит - карту использует владелец.

Благодаря преимуществам подобного рода использование информации дает компаниям много новых возможностей, а рынок big data продолжает развиваться.

Основная трудность внедрения big data состоит в сложности расчета кейса. Осложняется этот процесс наличием большого количества неизвестных.

Достаточно сложно делать какие-либо прогнозы на будущее, в то время как данные о прошлом не всегда находятся в зоне доступа. В этой ситуации самое главное - планирование своих первоначальных действий :

  1. Определение конкретного вопроса, в решении которого будет применена технология обработки big data, поможет определиться с концепцией и задаст вектор дальнейших действий. Сделав акцент на сборе информации именно по указанному вопросу, стоит также воспользоваться всеми доступными инструментами и методами для получения более ясной картины. Более того, такой подход значительно облегчит процесс принятия решения в будущем.
  2. Вероятность того, что проект big data будет реализован командой без определенных навыков и опыта - крайне мала. Знания, которые необходимо использовать в таком сложном исследовании, обычно приобретаются долгим трудом, поэтому предыдущий опыт так важен в этой сфере. Сложно переоценить влияние культуры использования информации, полученной путем подобных исследований. Они предоставляют различные возможности, в том числе и злоупотребления полученными материалами. Чтобы использовать информацию во благо, стоит придерживаться элементарных правил корректной обработки данных.
  3. Инсайты - основная ценность технологий. Рынок все еще испытывает острую нехватку сильных специалистов - имеющих понимание законов ведения бизнеса, важности информации и области ее применения. Нельзя не учитывать тот факт, что анализ данных - ключевой способ достижения поставленных целей и развития бизнеса, нужно стремиться к выработке конкретной модели поведения и восприятия. В таком случае большие данные принесут пользу и сыграют положительную роль в решении вопросов ведения дел.

Успешные кейсы внедрения big data

Некоторые из перечисленных ниже кейсов были более удачными в сборе данных, другие - в аналитике big data и путях применения данных, полученных в ходе исследования.

  1. «Тинькофф Кредитные Системы » воспользовался платформой EMC2 Greenplum для массивно-параллельных вычислений. В связи с непрерывным увеличением потока пользователей карт в банке возникла необходимость сделать обработку данных быстрее. Было принято решение о применении big data и работе с неструктурированной информацией, а также корпоративными сведениями, которые были получены из разрозненных источников. От внимания их специалистов не ушло и то, что на сайте в Российском ФНС внедряется аналитический слой федерального хранилища данных. Впоследствии на его основе планируется организовать пространство, предоставляющее доступ к данным налоговой системы для последующей обработки и получения статистических данных.
  2. Отдельно стоит рассмотреть российский стартап Synqera, занимающийся анализом big data online и разработавший платформу Simplate. Суть заключается в том, что производится обработка большого массива данных, анализируются данные о потребителях, их покупках, возрасте, настроении и душевном состоянии. Сеть магазинов косметики установила на кассах датчики, способные распознавать эмоции покупателя. После определения настроения, анализируется информация о покупателе, времени покупки. После этого покупателю целенаправленно поступает информация о скидках и акциях. Это решение увеличило лояльность потребителя и смогла повысить доход продавца.
  3. Отдельно стоит рассказать о кейсе по применению технологий big data в компании Dunkin`Donuts, которые, по аналогии с предыдущим примером, использовали проведение анализа online для увеличения прибыли. Итак, в торговых точках дисплеи отображали спецпредложения, содержимое которых менялось ежеминутно. Основанием замен в тексте служили как время суток, так и товар в наличии. Из кассовых чеков компания получила информацию, какие позиции пользовались наибольшим спросом. Такой способ позволил увеличить доход и оборот складских запасов.

Таким образом, обработка big data положительно сказывается на решении бизнес-задач. Важным фактором, конечно, является выбор стратегии и использование новейших разработок в области big data.

Информация о компании

Archos. Сфера деятельности: производство и продажа электронной техники. Территория: офисы продаж открыты в девяти странах (Испания, Китай, Россия, США, Франция и др.). Численность персонала филиала: 5 (в российском представительстве).

16.07.18. Mail.ru запустила Big Data as a Service

Облачная платформа Mail.ru пополнилась сервисом для анализа больших данных Cloud Big Data , который базируется на фреймворках Apache Hadoop и Spark. Сервис будет полезен ритейлерам, финансовым организациям, которым нужно анализировать большие данные, но которые не хотят тратить много денег на собственные сервера. Mail.ru берет деньги только за фактическое время работы оборудования. Так, кластер Hadoop из 10 узлов обойдется клиенту в 39 руб. за один час работы. Напомним, в прошлом году МТС запустил такой же BigData-сервис Cloud МТС . Стоимость использования сервиса составляла от 5 тыс. руб. в месяц. Также, услуги по обработке больших данных предоставляет .

2017. МТС запустила облачную платформу для обработки Big Data


Оператор МТС запустил услугу по облачной обработке больших данных для бизнеса в рамках своей облачной платформы #CloudМТС . Компании смогут работать с данными в программных средах Hadoop и Spark. Например, этот облачный сервис поможет бизнесу таргетировать рекламу, собирать и обрабатывать открытые данные, проводить финансовую и бизнес-аналитику. Интернет-магазины смогут анализировать поведение клиентов, а затем предлагать готовые таргетированные предложения к разным событиям и праздникам. Сервис работает при помощи предустановленных инструментов расчета, однако есть возможность создать собственные алгоритмы обработки данных. Стоимость использования сервиса составляет от 5 тысяч рублей в месяц, цена изменяется в зависимости от пространства, занятого в облаке. Напомним, платформа #CloudМТС была создана в 2016 году. Сначала она предоставляла только услуги облачного хранения данных, а позже появилась и услуга облачных вычислений.

2016. Big Data прогноз на Олимпиаду в Рио


Уже скоро Big Data сервисы будут подсказывать вам, какие решения принимать для роста и обеспечения безопасности вашего бизнеса. Пока же они, в основном, тренируются на спортивных мероприятиях. Помните, недавно интеллектуальная платформа Microsoft спрогнозировала результаты Чемпионата Европы по футболу? Так вот, нифига она не угадала. На этот раз американская компания Gracenote, которая специализируется на обработке больших данных, просчитала наиболее вероятный вариант медального зачета Олимпиады в Рио. На картинке - прогноз, который был составлен за месяц до Олимпиады. Он постоянно обновляется. Текущая версия - .

2016. Интеллектуальная платформа Microsoft спрогнозировала результаты Чемпионата Европы по футболу


У Microsoft (как у любого уважающего себя ИТ-гиганта) уже есть аналитическая платформа, основанная на обработке больших данных (Big Data) и искусственном интеллекте - Microsoft Cortana Intelligence Suite . На основании различных данных из ваших бизнес-систем, она может предсказать отток клиентов, поломки оборудования, изменение доходов и т.д. А сейчас, Microsoft дает нам возможность проверить, насколько точно работает эта платформа. Проанализировав футбольную историю, статистическую информацию о командах, результативности игроков, полученных травмах, а также комментарии фанатов в социальных сетях, она представила свой прогноз на Чемпионат Европы по футболу, который стартует сегодня. Итак, согласно прогнозу: в финале Германия победит Испанию с вероятностью 66%. А в стартовом матче Франция выиграет у Румынии с вероятностью 71%.

2016. SAP и Яндекс создают Big Data сервис для удержания клиентов


2 года назад Яндекс запустил сервис , который предоставляет услуги обработки больших данных для бизнесов. Этот сервис уже помог таким компаниям как Билайн и Wargaming (Word of Tanks) избегать оттока клиентов. Он предсказывает периоды оттока на основании исторических данных и дает бизнесу возможность подготовиться и вовремя предложить какую-нибудь новую акцию. Теперь, видимо, эта технология Яндекс заинтересовала крупнейшего в мире игрока на корпоративном ИТ рынке - компанию SAP. Компании объединили усилия, чтобы разработать сервис для предсказания поведения клиентов. По мнению SAP и YDF, сервис будут использовать в ритейле, e-commerce, банках и телекоммуникациях. Говорят, сервис будет предназначен для среднего бизнеса, в том числе, и по цене.

2016. PROMT Analyser - морфологический анализатор Big Data


Компания PROMT выпустила PROMT Analyser - решение в области искусственного интеллекта для работы с большими данными в информационно-аналитических системах. Инструмент предназначен для поиска, извлечения, обобщения и структуризации информации из практически любого текстового контента на разных языках как в корпоративных системах, так и во внешних источниках. Он анализирует любые тексты или документы, выделяет в них сущности (персоналии, организации, географические названия, геополитические сущности и др.), а также определяет соотносящиеся с этим сущностями действия, дату и место совершения действия, формирует целостный образ документа. PROMT Analyser позволяет решать самые разные задачи: анализ внутренних ресурсов компании (системы документооборота), анализ внешних ресурсов (медиа, блогосфера и пр.), анализ данных, получаемых из закрытых источников, для оценки критичности ситуаций, анализ деятельности объекта с привязкой к географии, а также оптимизация поисковых систем и служб поддержки.

2016. Mail.Ru поможет компаниям анализировать их данные


Mail.Ru стремится ни в чем не отставать от своего главного конкурента - Яндекса. Год назад Яндекс сервис анализа больших данных для бизнеса. А теперь Mail.ru открыла Big Data направление для корпоративных клиентов. Прежде всего, оно будет заниматься проектами, направленными на повышение эффективности процессов маркетинга и продаж, оптимизации производства, логистики, управления рисками, планирования, управления персоналом и другие рабочие процессы различных бизнесов. Например, Mail.ru сможет создать модель прогнозирования оттока клиентов, отклика на предложения, прогноз реакции на обращение через определенный канал коммуникации. Это позволит сделать взаимодействие с потенциальным клиентом более персонифицированным. В Mail.ru заявляют, что компания занимается анализом данных фактически с момента основания и имеет собственные технологии машинного обучения.

2015. IBM станет ведущим провайдером прогноза погоды для бизнеса


Важна ли погода для бизнеса? Конечно, особенно, если ваш бизнес - это сельхоз предприятие, турфирма, кафе или магазин одежды. Погода влияет на стабильность поставок, выбор ассортимента и активность продаж. В таком случае, каждая уважающая себя система бизнес-аналитики должна учитывать прогноз погоды. Так подумали в IBM и купили крупнейшую в мире метеослужбу The Weather Company. IBM планирует скормить данные из трех миллиардов прогнозных референсных точек своему суперкомпьютеру Watson и совершить переворот в прогнозировании погоды. Кроме того, они планируют создать платформу, которая позволит сторонним бизнес-приложениям использовать информацию о погоде за некоторую плату.

2015. Видео: как использовать Big Data для привлечения талантливых сотрудников


Вы все еще сомневаетесь, что Big Data - это полезно для бизнеса? Тогда посмотрите этот ролик о том, как Билайн привлекает новых талантливых работников с помощью Big Data. В начале сентября по Москве курсировало такое Big Data Taxi в виде автомобиля Tesla. По словам представителя Билайн, кроме помощи в привлечении новых талантов, технологии Big Data позволяют компании решать самые разные задачи. Начиная от таких простых и тривиальных, как «найди всех тех, кто пользуется SIM, купленной по чужому паспорту», и заканчивая - «определи возраст абонента по совокупности показателей».

2015. Microsoft представила говорящую Big Data платформу


Технологии Big Data обещают компаниям волшебную оптимизацию бизнес процессов, например: у вас всегда будет нужное количество товара в нужном месте, в нужное время. Но те компании, которые уже попробовали Big Data говорят: на практике это не работает. Существующие Big Data системы предназначены для аналитиков, а обычному сотруднику, который должен принять решение здесь и сейчас, они не помогают. Поэтому, в Microsoft решили выпустить Big Data платформу с человеческим лицом (точнее - голосом) - Cortana Analytics Suite . Она основана на облачной платформе Azure и использует голосового помощника Cortana в качестве интерфейса. Предполагается, что с помощью визуального конструктора любой начальник департамента сможет создавать мини-приложения, обрабатывающие большие объемы данных, а любой сотрудник - сможет спрашивать у Кортаны и получать нужную информацию в нужное время, в нужном месте.

2015. Видео: Что такое Big Data и кому это нужно?


Российский стартап CleverData позиционируется как Big Data-интегратор. Они реализуют проекты для решения конкретных бизнес-задач с использованием Big Data платформ и технологий. На видео генеральный директор CleverData Денис Афанасьев интересно рассказывает о том, что такое Big Data и откуда эти большие данные появились. Оказывается, технологии обработки больших данных существуют уже не один десяток лет, но причина появления маркетингового термина Big Data в том, что (благодаря облачным вычислениям) снизилась их стоимость, и они стали доступными малым-средним компаниям. По словам Дениса, чаще всего Big Data применяется для маркетинга (сегментация клиентской базой, онлайн реклама), ит безопасности (выявление мошенничества, прогнозирование поломок), риск менеджмента (оценка кредитоспособности клиентов).

2015. SAP представил Next Big Thing - ERP-систему S/4HANA


Первая ERP система SAP называлась R/2 и работала на мейнфреймах. Потом был R/3. В 2004 году появился SAP Business Suite. На днях SAP представил (как они говорят) самый главный продукт в своей истории - новую версию S4/HANA . При ее создании разработчики думали не о том, как утереть нос извечному конкуренту Oracle, а о том, как не дать себя обставить агрессивным SaaS-провайдерам Salesforce и Workday. Поэтому S4 сможет работать как локально, так и в облаке. Главная фишка системы - скорость. Как следует из названия, в основе S4 лежит ведущая Big-Data платформа SAP HANA, которая позволяет обрабатывать очень большие данные за секунды. Вторая главная фишка - интерфейс. Забудьте о сложных таблицах и меню, в которых без бутылки не разобраться. SAP хочет, чтобы новой мощной системой можно было управлять с помощью смартфона. Для работы с SAP можно будет использовать как минимум 25 простых приложений SAP Fiori. Вот их видеопрезентация:

2014. Яндекс открыл Big Data сервис для бизнеса


Яндекс запустил проект Yandex Data Factory , который будет предоставлять услуги обработки больших данных для бизнесов. Для этого он использует технологию машинного обучения Матрикснет, которую Яндекс разработал для ранжирования сайтов в своей поисковой системе. Заявляется, что Яндекс планирует стать конкурентом таким компаниям, как SAP AG и Microsoft. На данный момент специалисты Yandex Data Factory реализовали несколько пилотных проектов с европейскими компаниями. В частности искусственный интеллект Яндекса использовался компанией, обслуживающей линии электропередач, для прогнозирования поломок, банком - для таргетирования заемщиков, автодорожным агентством для прогнозирования пробок на дорогах. Кроме того, оказывается Яндекс обрабатывает данные, полученные из знаменитого адронного коллайдера в центре CERN.

2014. Microsoft поможет Мадридскому Реалу выигрывать с помощью Big Data


От добра добра не ищут. Мадридский Реал довольно хорошо играет в последнее время и добивается высоких результатов. Однако, лавры сборной Германии, выигравшей чемпионат мира с помощью не дают покоя президенту мадридского клуба Флорентино Пересу (крайний слева на фото). Поэтому он заключил контракт с Microsoft на сумму $30 млн, в рамках которого будет создана современная ИТ инфраструктура клуба. Тренерский состав и игроки Реала получат планшеты Surface Pro 3 с предустановленными приложениями Office 365 для более тесного взаимодействия персонала. А используя аналитические инструменты Power BI for Office 365, тренеры команды смогут изучать эффективность игры футболистов, определять долгосрочные тенденции и даже предсказывать травмы.

2014. 1С-Битрикс запустил сервис Big Data


Big Data - технологии для обработки очень больших объемов данных с целью получения простых и полезных для бизнеса результатов - это один из главных новых трендов ИТ рынка. А сервис 1С-Битрикс BigData - это пожалуй, первый отечественный сервис, основанный на этой технологии. Первым применением этого искусственного интеллекта станет оптимизация (персонализация) интернет-магазинов на движке Битрикс под каждого нового посетителя. На основе анализа большого количества данных о всех прошлых посетителях, сервис сможет предсказывать поведение нового посетителя на сайте, выделять похожих на него клиентов, и делать ему персонализированные предложения на основе истории покупок других клиентов. Вероятно, скоро можно будет ожидать Big Data функции и в системе управления бизнесом Битрикс24.

2014. SAP: Сборная Германии выиграла Чемпионат Мира благодаря Big Data


Недавно, в прошлом году, яхта Oracle выиграла Кубок Америки, и тогда в Oracle сказали , что эта победа произошла во многом благодаря системе анализа больших данных (Big Data) в облаке Oracle. Теперь настало время извечного конкурента Oracle - немецкой компании SAP ответить на этот PR-ход. Оказалось, что сборная Германии выиграла Чемпионат Мира по футболу тоже благодаря Big Data. В SAP разработали систему Match Insights , которая считывает футбольный матч в 3-х мерную цифровую модель и анализирует действия каждого игрока и команды в целом. Анализировались не только матчи собственной сборной (чтобы исправить ошибки и улучшить эффективность), но и матчи конкурентов. Искусственный интеллект находил слабые места соперников и помогал команде подготовиться к матчу. А мораль этой басни такова: Представьте, что Big Data может сделать для вашего бизнеса.

2014. КРОК запустил облачное решение класса Business Intelligence


Системный интегратор Крок запустил сервис бизнес-аналитики с говорящим названием "Business Intelligence as a Service" или BIaaS. Решение рассчитано на крупные организации, заинтересованные в снижении капитальных затрат и ускорении принятия управленческих решений. Система построена на продукте EMC Greenplum и представляет собой решение уровня Big Data. С помощью этого инструмента можно анализировать и сравнивать большие объемы информации, выстраивать ключевые показатели и принимать бизнес-решения, минуя стадию капитальных затрат на приобретение софта, лицензий и возможную модернизацию инфраструктуры. Решение позволяет реализовать три возможных сценария работы с данными - аналитика для ритейла, анализ показателей работы контакт-центра, а также оценка управленческой деятельности организации на соответствие KPI.

2013. SAP делает большие бизнесы эффективными с помощью Big Data. Конкуренты плачут


В последние годы SAP проявлял себя, как наименее инновационная ИТ компания (по сравнению с конкурентами Oracle, Microsoft, IBM). Все собственные инновационные проекты SAP в основном проваливались (вспомните ), и единственное, что получалось у SAP - это покупать другие компании (SuccessFactors, SyBase, Ariba). Но на этот раз SAP, похоже, решил утереть нос конкурентам. И сделает он это за счет новой модной технологии Big Data. Что это такое?

Колонка преподавателей НИУ ВШЭ о мифах и кейсах работы с большими данными

В закладки

Преподаватели Школы новых медиа НИУ ВШЭ Константин Романов и Александр Пятигорский, который также является директором по цифровой трансформации «Билайна», написали для сайт колонку о главных заблуждениях по поводу больших данных - примерах использования технологии и инструментах. Авторы предполагают, что публикация поможет руководителям компаний разобраться в этом понятии.

Мифы и заблуждения о Big Data

Big Data - это не маркетинг

Термин Big Data стал очень модным - его используют в миллионах ситуаций и в сотнях разных интерпретаций, зачастую не имеющих отношения к тому, чем он является. Часто в головах людей происходит подмена понятий, и Big Data путают с маркетинговым продуктом. Более того, в некоторых компаниях Big Data является частью маркетингового подразделения. Результат анализа больших данных действительно может быть источником для маркетинговой активности, но не более того. Посмотрим, как это работает.

Если мы определили список тех, кто покупал в нашем магазине товары на сумму более трех тысяч рублей два месяца назад, а затем послали этим пользователям какое-то предложение, то это типичный маркетинг. Мы выводим понятную закономерность из структурных данных, и используем ее для увеличения продаж.

Однако если мы соединим данные CRM с потоковой информацией, например, из Instagram, и проанализируем их, то найдем закономерность: человеку, который снизил свою активность в среду вечером и на чьей последней фотографии изображены котята, следует сделать определенное предложение. Это уже будет Big Data. Мы нашли триггер, передали его маркетологам, а они его использовали в своих целях.

Из этого следует, что технология обычно работает с неструктурированными данными, а если данные и структурированы, то система всё равно продолжает искать в них скрытые закономерности, чего не делает маркетинг.

Big Data - это не ИТ

Вторая крайность этой истории: Big Data часто путают с ИТ. Это связано с тем, что в российских компаниях, как правило, именно ИТ-специалисты являются драйверами всех технологий, в том числе и больших данных. Поэтому, если всё происходит именно в этом отделе, для компании в целом создается впечатление, что это какая-то деятельность ИТ.

На самом деле, здесь есть коренное различие: Big Data - это деятельность, направленная на получение определенного продукта, что совсем не относится к ИТ, хотя без них технология и не может существовать.

Big Data - не всегда сбор и анализ информации

Есть ещё одно заблуждение относительно Big Data. Все понимают, что эта технология связана с большими объемами данных, но какого рода данные имеются в виду, не всегда ясно. Собирать и использовать информацию может каждый, сейчас это возможно не только в фильмах про , но и в любой, даже совсем маленькой компании. Вопрос только в том, что именно собирать и как это использовать с пользой для себя.

Но следует понять, что технологией Big Data не будет являться сбор и анализ совершенно любой информации. Например, если вы соберете в социальных сетях данные о конкретном человеке, это не будет Big Data.

Что такое Big Data на самом деле

Big Data состоит из трех элементов:

  • данные;
  • аналитика;
  • технологии.

Big Data - не что-то одно из этих составляющих, а связка всех трех элементов. Часто люди подменяют понятия: кто-то считает, что Big Data - это только данные, кто-то - что технологии. Но по факту, сколько бы данных вы ни собрали, вы ничего с ними не сделаете без нужных технологий и аналитики. Если есть хорошая аналитика, но нет данных, - тем более плохо.

Если говорить о данных, то это не только тексты, но и все фотографии, размещаемые в Instagram, и вообще всё, что можно проанализировать и использовать для разных целей и задач. Другими словами, под Data понимаются огромные объемы внутренних и внешних данных различных структур.

Также нужна аналитика, потому что задача Big Data - построить какие-то закономерности. То есть аналитика - это выявление скрытых зависимостей и поиск новых вопросов и ответов на основе анализа всего объема разнородных данных. Причем Big Data ставит вопросы, которые напрямую из этих данных не выводим.

Если говорить об изображениях, то факт размещения вами своего фото в голубой футболке ни о чем не говорит. Но если использовать фотографию для Big Data-моделирования, то может выясниться, что именно сейчас вам следует предложить кредит, потому что в вашей социальной группе такое поведение говорит об определенном феномене в действиях. Поэтому «голые» данные без аналитики, без выявления скрытых и неочевидных зависимостей Big Data не являются.

Итак, у нас есть большие данные. Их массив огромен. Также у нас есть аналитик. Но как сделать так, чтобы из этих сырых данных у нас родилось конкретное решение? Для этого нам нужны технологии, которые позволяют их не просто складировать (а раньше и это было невозможно), но и анализировать.

Проще говоря, если у вас есть много данных, вам потребуются технологии, к примеру, Hadoop , которые дают возможность сохранить всю информацию в первозданном виде для последующего анализа. Такого рода технологии возникли в интернет-гигантах, поскольку именно они первыми столкнулись с проблемой хранения большого массива данных и его анализа для последующей монетизации.

Кроме инструментов для оптимизированного и дешевого хранения данных, нужны аналитические инструменты, а также надстройки к используемой платформе. К примеру, вокруг Hadoop уже образовалась целая экосистема из связанных проектов и технологий. Вот некоторые из них:

  • Pig - декларативный язык анализа данных.
  • Hive - анализ данных с использованием языка, близкого к SQL.
  • Oozie - поток работ в Hadoop.
  • Hbase - база данных (нереляционная), аналог Google Big Table.
  • Mahout - машинное обучение.
  • Sqoop - перенос данных из РСЦБД в Hadoop и наоборот.
  • Flume - перенос логов в HDFS.
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS и так далее.

Все эти инструменты доступны каждому бесплатно, но есть и набор платных надстроек.

Кроме того, нужны специалисты: это разработчик и аналитик (так называемый Data Scientist). Также необходим менеджер, способный понять, как эту аналитику применить для решения конкретной задачи, потому что сама по себе она совершенно бессмысленна, если ее не встраивать в бизнес-процессы.

Все три сотрудника должны работать в команде. Менеджер, который дает специалисту по Data Science задание найти определенную закономерность, должен понимать, что далеко не всегда найдется именно то, что ему нужно. В таком случае руководитель должен внимательно слушать, что же нашел Data Scientist, поскольку зачастую его находки оказываются более интересными и полезными для бизнеса. Ваша задача - применить это к бизнесу и сделать из этого продукт.

Несмотря на то, что сейчас есть множество разного рода машин и технологий, окончательное решение всегда остается за человеком. Для этого информацию нужно как-то визуализировать. Инструментов для этого довольно много.

Самый показательный пример - это геоаналитические отчеты. Компания «Билайн» много работает с правительствами разных городов и областей. Очень часто эти организации заказывают отчеты типа «Транспортная загруженность в определенном месте».

Понятно, что подобный отчет должен попасть к правительственным структурам в простой и понятной им форме. Если же мы предоставим им огромную и совершенно непонятную таблицу (то есть информацию в том виде, в каком ее получаем мы), они вряд ли купят такой отчет - он будет совершенно бесполезен, они не вынесут из него тех знаний, которые хотели получить.

Поэтому, какими бы хорошими ни были специалисты по Data Science и какие бы закономерности они ни находили, вы не сможете работать с этими данными без качественных инструментов визуализации.

Источники данных

Массив получаемых данных очень велик, поэтому его можно разделить на некоторые группы.

Внутренние данные компании

Хотя к этой группе относится 80% собираемых данных, этот источник не всегда используют. Часто это данные, которые, казалось бы, вообще никому не нужны, например, логи. Но если посмотреть на них под другим углом, иногда можно найти в них неожиданные закономерности.

Условно бесплатные источники

Сюда относятся данные социальных сетей, интернета и всего, куда можно бесплатно проникнуть. Почему условно бесплатно? С одной стороны, эти данные доступны каждому, но если вы являетесь крупной компанией, то получать их в размерах абонентской базы в десятки тысяч, сотни или миллионы клиентов - уже непростая задача. Поэтому на рынке существуют платные сервисы по предоставлению этих данных.

Платные источники

Сюда относятся компании, которые продают данные за деньги. Это могут быть телекомы, DMP, интернет-компании, бюро кредитных историй и агрегаторы. В России телекомы не продают данные. Во-первых, это экономически невыгодно, а во-вторых, запрещено законом. Поэтому они продают результаты их обработки, например, геоаналитические отчеты.

Открытые данные

Государство идет навстречу бизнесу и дает возможность пользоваться данными, которые они собирают. В большей степени это развито на Западе, но Россия в этом плане тоже идет в ногу со временем. Например, существует Портал открытых данных Правительства Москвы, где публикуется информация по различным объектам городской инфраструктуры.

Для жителей и гостей Москвы данные представлены в табличном и картографическом виде, а для разработчиков - в специальных машиночитаемых форматах. Пока проект работает в ограниченном режиме, но развивается, а значит, тоже является источником данных, который вы можете использовать для своих бизнес-задач.

Исследования

Как уже отмечалось, задача Big Data - найти закономерность. Часто исследования, проводимые по всему миру, могут стать точкой опоры для нахождения той или иной закономерности - вы можете получить конкретный результат и попытаться применить похожую логику в своих целях.

Big Data - это область, в которой работают не все законы математики. Например, «1»+«1» - это не «2», а значительно больше, потому что при смешении источников данных можно значительно усилить эффект.

Примеры продуктов

Многие знакомы с сервисом по подбору музыки Spotify. Он прекрасен тем, что не спрашивает у пользователей, какое у них сегодня настроение, а сам вычисляет это на основе доступных ему источников. Он всегда знает, что вам нужно сейчас - джаз или тяжелый рок. Это то ключевое отличие, которое обеспечивает ему поклонников и отличает от других сервисов.

Подобные продукты принято называть sense-продуктами - такими, которые чувствуют своего клиента.

Технологию Big Data применяют и в автомобилестроении. Например, это делает Tesla - в их последней модели есть автопилот. Компания стремится создать машину, которая сама будет везти пассажира туда, куда ему нужно. Без Big Data это невозможно, потому что если мы будем использовать только те данные, которые получаем напрямую, как это делает человек, то автомобиль не сможет усовершенствоваться.

Когда мы ведем автомобиль сами, то с помощью наших нейронов принимаем решения, исходя из множества факторов, которых мы даже не замечаем. Например, мы можем не осознать, почему решили не газовать сразу на зеленый свет, а потом окажется, что решение было верным - мимо вас пронеслась машина на бешеной скорости, и вы избежали аварии.

Также можно привести пример использования Big Data в спорте. В 2002 году генеральный менеджер бейсбольной команды Oakland Athletics Билли Бин решил разрушить парадигму того, как нужно искать себе спортсменов - он выбрал и обучил игроков «по цифрам».

Обычно менеджеры смотрят на успехи игроков, но в данном случае всё было иначе - чтобы получить результат, менеджер изучал, какие комбинации спортсменов ему нужны, обращая внимания на индивидуальные характеристики. Причем спортсменов он выбрал таких, которые сами по себе не представляли большого потенциала, зато команда в целом получилась настолько успешной, что выиграла двадцать матчей подряд.

Режиссер Беннетт Миллер в последствии снял фильм, посвященный этой истории, - «Человек, который изменил всё» в главной роли с Брэдом Питтом.

Технология Big Data полезна и в финансовом секторе. Ни один человек на свете не сможет самостоятельно и точно определить, стоит ли давать кому-то кредит. Для того, чтобы принять решение, производится скоринг , то есть строится вероятностная модель, по которой можно понять, вернет этот человек деньги или нет. Дальше скоринг применяется на всех этапах: можно, например, просчитать, что в определенный момент человек перестанет платить.

Большие данные позволяют не только заработать деньги, но и сэкономить их. В частности, эта технология помогла Министерству труда Германии сократить расходы на пособия по безработице на 10 млрд евро, так как после анализа информации стало понятно, что 20% пособий выплачивалось незаслуженно.

Также технологии применяются в медицине (особенно это характерно для Израиля). С помощью Big Data можно поставить значительно более точный анализ, чем это сделает врач с тридцатилетним стажем.

Любой доктор, когда ставит диагноз, опирается лишь на свой собственный опыт. Когда это делает машина, она исходит из опыта тысяч таких врачей и всех существующих историй болезни. Она учитывает то, из какого материала сделан дом пациента, в каком районе живет пострадавший, какая там задымленность и так далее. То есть она учитывает массу факторов, которые врачи не берут в расчет.

Примером использования Big Data в здравоохранении можно назвать проект Project Artemis, который внедрила Детская больница Торонто. Это информационная система, которая собирает и анализирует данные по младенцам в реальном времени. Машина позволяет анализировать 1260 показателей здоровья каждого ребенка ежесекундно. Этот проект направлен на прогноз нестабильного состояния ребенка и профилактику заболеваний у детей.

Большие данные начинают использовать и в России: например, подразделение больших данных есть у «Яндекса». Компания совместно с «АстраЗенекой» и Российским обществом клинической онкологии RUSSCO запустили платформу RAY, предназначенную для генетиков и молекулярных биологов. Проект позволяет улучшить методы диагностики рака и выявления предрасположенности к онкологическим заболеваниям. Платформа начнет работу в декабре 2016 года.