Найти то, не знаю что: большие данные в DLP

В рубрику "Оборудование и технологии" | К списку рубрик | К списку авторов | К списку публикаций

Найти то, не знаю что: большие данные в DLP

С развитием технологий, направленных на выявление и предотвращение инцидентов информационной безопасности, растет не только квалификация профильных служб, но и профессионализм злоумышленников. И к каждому новому замку со временем найдется метод вскрытия. Так и защита от внутренних угроз: современные нарушители часто знают о существовании специализированных средств защиты и используют те, которые сложнее контролируются.

Дмитрий Горлянский
Руководитель департамента внедрения систем
информационной безопасности, “МФИ Софт"

Проблемы классических DLP-систем. Новые задачи

Более того, даже для таких каналов, как печать бумажных документов, злоумышленники могут использовать различные способы обмана DLP-систем, в частности искажение текста или вставка текста в картинки. И простое построение периметра безопасности тогда работает плохо или не работает вообще. А подход к пониманию задач систем класса DLP, которые обычно использовались в данном случае для противодействия утечкам четко определенной информации, меняется. Иными словами, задачи начинают сдвигаться от простого выявления критической информации в том или ином информационном объекте к анализу групп объектов и объемов информации. Новый подход к использованию DLP-систем требует принятия и новых технических требований к ним.

Закупка высокопроизводительного оборудования, особенно с учетом современных реалий, – основной вопрос для многих компаний. Организация большого хранилища грозит серьезными затратами. Возможности для решения всех этих задач может предложить применение в DLP-системах методик хранения и анализа на основе Big Data.

Нереляционное хранилище
Ключевой особенностью современных DLP-систем становится возможность работать со всем объемом информации, а не с отдельными объектами, такими как электронное письмо или файл. Классическая DLP-система, как правило, имеет в своей основе реляционную базу данных, выдавая в клиентское приложение результаты запросов. Это накладывает определенные ограничения, т.к. объемы анализируемой информации растут, и мощностей системы не хватает для полноценного анализа данных даже за небольшой период времени. Соответственно, назревает необходимость реализации в DLP-системе собственного нереляционного хранилища.

Ограниченность информации
Поскольку работающая в автоматическом режиме DLP-система допускает достаточный процент "ложных" срабатываний, она требует постоянного внимания со стороны пользователя. Кроме того, классическая DLP-система работает по принципу охраняемого периметра и предлагает для расследования только сам перехваченный объект с критической информацией. Отсюда вытекают две проблемы, присущие всем обычным DLP-системам: невозможность работы с информацией, прошедшей мимо фильтров системы, и неполнота информации в одиночном объекте. Потому одним из основных условий использования DLP-системы на сегодняшний день является возможность записи и обработки больших объемов данных с целью предоставления максимально полной информации об инцидентах.

Хранение и обработка
Несмотря на то, что возможность настройки DLP-системы в режим тотальной записи существует, ее перегруженность в классическом случае сводит на нет удобство работы с системой. Это связано как с необходимостью самостоятельно обрабатывать огромное количество объектов, так и с производительностью самого "железа". Первая проблема предъявляет повышенные требования к удобству интерфейса системы, вторая же – к аппаратной части.

Следует также отметить, что закупка высокопроизводительного оборудования, особенно с учетом современных реалий, – основной вопрос для многих компаний. Организация большого хранилища (а для крупной компании – это сотни терабайт данных на месяц хранения) грозит серьезными затратами. Возможности же для решения всех этих задач может предложить применение в DLP-системах методик хранения и анализа на основе Big Data.

Коротко о Big Data
Термин Big Data (или большие данные) относится к наборам данных, размер которых превосходит возможности типичных баз данных по занесению, хранению, управлению и анализу информации. Таким образом, под Big Data сегодня подразумевается работа с информацией огромного объема и разнообразного состава, часто обновляемой и находящейся в разных источниках, в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности.

Консалтинговая компания Forrester дает следующую краткую формулировку: "большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности". Иными словами, термин Big Data предполагает нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что большая их часть представлена в формате, плохо соответствующем традиционному структурированному формату баз данных: обычно это Web-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Все это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между ними и сделать на их основе значимые выводы.

По данным опроса Tech Pro Research, наибольшее распространение Big Data получили в телекоммуникационной отрасли, а также в инжиниринге, ИТ, в финансовых и государственных предприятиях. Менее популярны технологии больших данных в образовании и здравоохранении.

Что дает Big Data для информационной безопасности

Использование больших данных в сфере информационной безопасности в первую очередь позволяет обрабатывать огромные объемы самых различных данных в реальном времени. Например, в SIEM-системах технология BigData позволяет хранить и анализировать большое количество логов разных систем: Web-серверов, серверов приложений, баз данных, СКУД и др. В результате мы имеем возможность в реальном времени выполнять сложные аналитические запросы, такие как:

количество сбросов паролей с одного IP-адреса за 30 мин.;
расхождение CSRF-токенов в единицу времени;
удачный/неудачный логин;
ошибки при вводе OTP-ключа при включенной двухфакторной авторизации и т.д.

Системы на основе Big Data используются для анализа прогнозирования в таких больших проектах, как "Безопасный город". Разработанный компанией "Ростелеком", этот комплекс решений позволяет полностью контролировать ситуацию в сфере безопасности в регионах: инфраструктуру ЖКХ и городские объекты, экологическую обстановку, наличие аварийных ситуаций, социальную стабильность, а также оперативно реагировать на чрезвычайные происшествия. DLP-системы также смогут внести свой вклад в развитие подобных проектов, предоставляя им различные аналитические данные.

Возможности DLP-системы на Big Data

Одна из крупнейших международных финансовых организаций HSBC использует технологии Big Data для противодействия мошенническим операциям с пластиковыми картами. С их помощью компания увеличила эффективность службы безопасности в три раза, распознавание мошеннических инцидентов – в десять. SIEM-системы также используют Big Data для обнаружения аномалий и создают отчетность для мгновенного обнаружения потенциальных угроз. Современные разработки в области DLP-систем также начинают обращаться к преимуществам данной технологии.

Проведение расследования, построение маршрутов утечки информации
Технологии анализа, основанные на Big Data, позволяют выстраивать простые и понятные схемы всех коммуникаций между сотрудниками. Такие схемы наглядно показывают, как и по каким каналам та или иная информация передавалась в компании. Утечка информации редко является делом рук одного сотрудника. То есть сам факт передачи за периметр, конечно, может быть действием одного человека, но оценка произошедшей утечки должна учитывать и то, каким образом он получил доступ к этой информации. Сотрудники, имеющие свободный доступ к критически важной информации, как правило, сильно ограничиваются в доступе к Интернету. Однако вступив между собой в сговор, сотрудники, обладающие разными правами доступа к информационным ресурсам, могут легко передавать данные друг другу. И классическая DLP-система, выполняющая обычно функцию охраны периметра, в данном случае отработает только в самом конце цепи. А если предположить, что злоумышленники могут пользоваться чужими учетными данными, то раскрыть всю цепочку с помощью технических средств бывает крайне затруднительно.

Построение карты связей
Не менее важным преимуществом DLP-систем на основе Big Data является анализ связей между различными сотрудниками. Построение графиков связей раньше занимало достаточно много времени, но в данном случае возможность построения карт связей в реальном времени – это хороший инструмент для аналитики.

Выявление аномалий
Некоторые инциденты безопасности могут быть обнаружены только в анализе за определенный промежуток времени – например, рассылка спама. Кроме того, злоумышленник, чтобы не обнаружить себя, часто организует утечку информацию небольшими порциями. В этом случае анализ графиков поступления той или иной информации может выявить аномальные всплески активности, в том числе за большие периоды времени.

Вывод

Использование технологий Big Data открывает широкие возможности для развития DLP-систем не только как средства защиты от утечек, но и как аналитического инструмента, а именно:

анализа поведения сотрудника, построения психологического портрета, выявления склонностей к инсайдерской деятельности на основе лексического анализа;
построения моделей инцидентов с корреляцией множества факторов моделирования рисков;
интеграции с другими системами.

Опубликовано: Журнал "Information Security/ Информационная безопасность" #5, 2015

Найти то, не знаю что: большие данные в DLP