Машинное обучение (ML) и кибербезопасность Как машинное обучение используется в кибербезопасности?
В этой статье представлен обзор основных концепций машинного обучения и объясняется растущее применение машинного обучения в индустрии кибербезопасности, а также основные преимущества, основные варианты использования, распространенные заблуждения и подход CrowdStrike к машинному обучению.
Что такое машинное обучение?
Машинное обучение (ML) — это разновидность искусственного интеллекта (ИИ), и относится к процессу обучения алгоритмов изучению закономерностей из существующих данных, чтобы предсказать ответы на новые данные..
Хотя термины AI и ML часто используются взаимозаменяемо, между этими двумя понятиями есть важные различия. ИИ относится к технологии, которая обучает машины имитировать или имитировать процессы человеческого интеллекта. в реальных условиях, в то время как ML относится к результирующим компьютерным системам («моделям»), которые учатся на данных. делать прогнозы.
По сути, «обучение» относится к процессу, в котором модели отображают математические функции для преобразования базовых данных, чтобы делать точные прогнозы. В то время как компьютеры можно запрограммировать на выполнение простых предсказуемых задач, следуя явно запрограммированным или связанным инструкциям, модели машинного обучения развивают обобщенный подход к решению проблем.
3 типа машинного обучения
В этой статье мы рассмотрим три распространенных класса машинного обучения:
1. Контролируемое обучение
контролируемое обучение происходит, когда модель обучается на помеченных входных данных и желаемых результатах, где цель состоит в том, чтобы научить ее выполнять задачу при представлении новых или незнакомых данных. В сфере кибербезопасности одним из распространенных приложений контролируемого обучения является обучающие модели на доброкачественных и вредоносных образцах, чтобы научить их предсказывать, являются ли новые образцы вредоносными.
2. Неконтролируемое обучение
Неконтролируемое обучение происходит, когда модель обучается на неразмеченных данных и остается для поиска структуры, взаимосвязей и закономерностей в данных, таких как кластеры или группировки. В кибербезопасности это может быть используется для выявления новых моделей атак или поведения злоумышленников (например, обнаружение аномалий) в больших массивах данных.
3. Обучение с подкреплением
Обучение с подкреплением происходит, когда модель не получает помеченных входных или выходных данных, а вместо этого учится методом проб и ошибок, стремясь максимизировать совокупное вознаграждение. Эта форма машинного обучения очень похожа на то, как происходит человеческое обучение, и особенно полезна для выявления творческих и инновационных способов решения проблем. Некоторые приложения обучения с подкреплением в кибербезопасности включают решения для киберфизических систем, автономное обнаружение вторжений и распределенные атаки типа «отказ в обслуживании» (DDOS).
Преимущества машинного обучения в кибербезопасности
Применение машинного обучения для решения проблем в области кибербезопасности имеет много преимуществ. Это включает:
1. Быстро синтезировать большие объемы данных: Одной из самых больших проблем, с которыми сталкиваются аналитики, является необходимость быстрого синтеза информации, генерируемой через их поверхность атаки, которая обычно генерируется намного быстрее, чем их команды могут обрабатывать вручную. Машинное обучение способно быстро анализировать большие объемы исторической и динамической информации, позволяя командам оперировать данными из различных источников практически в режиме реального времени.
2. Активируйте экспертный анализ в масштабе: Регулярные циклы обучения позволяют моделям постоянно учиться на меняющейся выборке, которая включает обнаружение, помеченное аналитиком, или оповещение, проверенное аналитиком. Это предотвращает повторяющиеся ложные срабатывания и позволяет моделям изучать и применять достоверность, созданную экспертами.
3. Автоматизируйте повторяющиеся ручные задачи: Применение машинного обучения к конкретным задачам может помочь отделам безопасности избавиться от рутинных, повторяющихся задач, действуя как множитель усилий, который позволяет им масштабировать свои реакции на входящие предупреждения и перенаправлять время и ресурсы на сложные стратегические проекты.
4. Повышение эффективности аналитиков: Машинное обучение может дополнить понимание аналитиков актуальной аналитикой в режиме реального времени, позволяя аналитикам при поиске угроз и операциях по обеспечению безопасности эффективно расставлять приоритеты ресурсов для устранения критических уязвимостей своей организации и расследования чувствительных ко времени обнаружений предупреждений машинного обучения.
Примеры использования машинного обучения в кибербезопасности
Машинное обучение имеет широкий и постоянно растущий спектр вариантов использования в сфере кибербезопасности. Мы можем рассматривать эти варианты использования как две основные группы:
- Автоматическое обнаружение угроз и реагирование на них
- Операции под руководством аналитиков с помощью машинного обучения
Автономное обнаружение угроз и реагирование на них
В первой категории машинное обучение позволяет организациям автоматизировать ручную работу, особенно в процессах, где критически важно поддерживать высокий уровень точности и реагировать с машинной скоростью, например, автоматическое обнаружение угроз и реагирование на них или классификация новых моделей злоумышленников.
Применение машинного обучения в этих сценариях дополняет основанные на сигнатурах методы обнаружения угроз с помощью обобщенного подхода, которыйполучает различия между доброкачественными и вредоносными образцами и может быстро обнаруживать новые угрозы в дикой природе.
Повышение эффективности аналитиков с помощью машинного обучения
Модели машинного обучения также могут помочь в исследованиях под руководством аналитиков. оповещение команд о расследовании обнаружений или предоставление приоритетных уязвимостей для исправления. Анализ аналитиков может быть особенно ценным в сценариях, где недостаточно данных для моделей, чтобы прогнозировать результаты с высокой степенью уверенности или исследовать безобидное поведение, которое может остаться незамеченным классификаторами вредоносного ПО.
Дополнительные варианты использования машинного обучения в области кибербезопасности
Ниже приведен список общих примеров (не исчерпывающий) способов использования машинного обучения в сфере кибербезопасности.
Вариант использования | Описание |
---|---|
Управление уязвимостями | Предоставляет рекомендуемую приоритизацию уязвимостей на основе критичности для ИТ-специалистов и специалистов по безопасности. |
Статический анализ файлов | Обеспечивает предотвращение угроз путем прогнозирования вредоносности файла на основе характеристик файла. |
Поведенческий анализ | Анализирует поведение злоумышленника во время выполнения для моделирования и прогнозирования моделей атак по всей цепочке киберугроз. |
Статический и поведенческий гибридный анализ | Сочетает статический анализ файлов и поведенческий анализ для обеспечения расширенного обнаружения угроз. |
Обнаружение аномалий | Выявляет аномалии в данных для информирования оценки рисков и направления расследований угроз. |
Судебно-медицинский анализ | Запускает контрразведку для анализа хода атаки и выявления уязвимостей системы. |
Анализ вредоносных программ в песочнице | Анализирует образцы кода в изолированных безопасных средах для выявления и классификации вредоносного поведения, а также сопоставления их с известными злоумышленниками. |
Оценка эффективности машинных моделей
Эффективность модели для классификаторов вредоносных программ:
Одним из наиболее распространенных применений машинного обучения в кибербезопасности является классификация вредоносных программ. Классификаторы вредоносных программ выводят оцененный прогноз того, является ли данный образец вредоносным; где «оцененный» относится к уровню достоверности, связанному с результирующей классификацией. Одним из способов оценки эффективности этих моделей является представление прогнозов по двум осям: точность (правильно ли был классифицирован результат; «верно» или «ложно») и результат (класс, который модель присваивает выборке; «положительный» или «отрицательный»).
Обратите внимание, что термины «положительный» и «отрицательный» в этой структуре не означают, что образец является соответственно «доброкачественным» или «вредоносным». Если классификатор вредоносного ПО выявляет «положительное» обнаружение, это указывает на то, что модель предсказывает, что данный образец является вредоносным, основываясь на наблюдении функций, которые он научился ассоциировать с известными вредоносными образцами.
Чтобы проиллюстрировать, что означают эти группировки, мы будем использовать пример моделей, обученных анализировать вредоносные файлы.
- Истинный позитив:Модель правильно предсказала, что файл был вредоносным
- Правда отрицательный:Модель правильно предсказала, что файл не был вредоносным
- Ложный положительный результат:Модель неправильно предсказала, что файл был вредоносным (и это не так)
- Ложноотрицательный результат:Модель неправильно предсказала, что файл не был вредоносным (и это было так)
Уравновешивание истинных и ложных срабатываний
Хотя истинные срабатывания необходимы для обнаружения угроз и реагирования на них, ложные срабатывания также являются важным показателем эффективности модели. Ложные срабатывания имеют альтернативные издержки, связанные со временем и ресурсами, которые группы безопасности тратят на расследование каждого обнаружения, и могут быть особенно дорогостоящими, если они запускают автоматические процессы исправления, которые блокируют или прерывают приложения, которые имеют решающее значение для операций организации.
При калибровке агрессивности или чувствительности модели специалисты по обработке и анализу данных должны оптимизировать показатели как истинно положительных, так и ложноположительных результатов, сталкиваясь с критическим компромиссом: снижением порога для истинно положительных результатов (то есть требований, которые должны быть выполнены, чтобы модель классифицировала образец как «положительный») сопряжен с риском снижения порога ложноположительных результатов (что может привести к снижению производительности труда аналитика и усугублению усталости от бдительности). Мы называем этот компромисс эффективностью обнаружения.
Конечная цель создания высокопроизводительных моделей машинного обучения — максимизировать эффективность обнаружения: максимизация истинно положительных обнаружений при минимизации ложных срабатываний. Чтобы проиллюстрировать сложность этого баланса, примите во внимание, что классификаторы вредоносных программ нередко имеют истинные положительные результаты на уровне или около 99%, сбалансированные с ложными положительными показателями значительно ниже 1%.
ПОВЕДЕНЧЕСКОЕ МАШИННОЕ ОБУЧЕНИЕ: СОЗДАНИЕ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ МОДЕЛЕЙ
Загрузите этот технический документ, чтобы узнать, почему модели машинного обучения являются важнейшим компонентом любого арсенала средств обнаружения в борьбе за защиту систем.
Проблемы и ограничения машинного обучения
Хотя модели машинного обучения могут быть мощными инструментами, каждая модель работает со своими уникальными ограничениями:
Достаточно качественных данных: Для обучения высоконадежных моделей часто требуется доступ к большим наборам данных как для обучения, так и для тестирования моделей машинного обучения. Для тестирования моделей подмножество данных обычно выделяется из обучающего набора для проверки производительности модели. Эти данные должны иметь минимальное перекрытие функций с обучающими данными; например, представление другого периода времени сбора данных или исходящих из другого источника данных. Если высококачественных данных недостаточно, данная проблемная область может не подходить для прикладного машинного обучения.
Компромиссы между истинными и ложными срабатываниями: Как обсуждалось ранее, чувствительность каждой модели необходимо откалибровать, чтобы сбалансировать порог обнаружения между истинными и ложными положительными результатами, чтобы максимизировать эффективность обнаружения.
Объяснимость: Объяснимость относится к способности объяснить, как и почему модель работает именно так, а не иначе. Это позволяет группам специалистов по данным понять, какие функции в выборке влияют на производительность модели и их относительные веса. Объяснимость имеет решающее значение для обеспечения подотчетности, укрепления доверия, обеспечения соблюдения политик данных и, в конечном счете, обеспечения непрерывного повышения производительности машинного обучения.
Повторяемость: Также известный как воспроизводимость, это относится к способности последовательно воспроизводить эксперименты по машинному обучению. Повторяемость обеспечивает прозрачность в отношении того, как используется машинное обучение, какие типы моделей используются, на каких данных они обучаются и в каких программных средах или версиях они работают. Повторяемость сводит к минимуму неоднозначность и потенциальные ошибки по мере перехода моделей от тестирования к развертыванию и будущих обновлений. циклы.
Оптимизация для целевой среды: Каждая модель должна быть оптимизирована для целевой производственной среды. Каждая среда будет различаться по доступности вычислительных ресурсов, памяти и возможности подключения.Впоследствии каждая модель должна быть разработана для работы в своей среде развертывания, не обременяя и не прерывая операции целевого хоста.
Защита от вражеских атак: Модели машинного обучения имеют свою собственную поверхность атаки, которая может быть уязвима для атак злоумышленников, где злоумышленники могут попытаться использовать или изменить поведение модели (например, заставить модель неправильно классифицировать образцы). Чтобы свести к минимуму уязвимую поверхность моделей для атак, специалисты по обработке и анализу данных «укрепляют» модели в процессе обучения, чтобы обеспечить надежную производительность и устойчивость к атакам.
2 заблуждения о машинном обучении
Заблуждение №1. Машинное обучение лучше, чем обычные аналитические или статистические методы.
Хотя машинное обучение может быть очень эффективным инструментом, оно может не подходить для использования во всех проблемных областях. Другие аналитические или статистические методы могут давать очень точные и эффективные результаты или могут быть менее ресурсоемкими, чем подход машинного обучения, и быть более подходящим подходом для данной проблемной области.
Заблуждение №2. Машинное обучение должно использоваться для автоматизации как можно большего количества задач.
Машинное обучение может быть очень ресурсоемким, часто требуя доступа к большим объемам данных, вычислительных ресурсов и специальных групп специалистов по данным для создания, обучения и обслуживания моделей. Чтобы максимизировать окупаемость инвестиций в поддержку моделей, его лучше всего применять, когда целевые проблемы имеют большое значение, часто повторяются, требуют скорости и точности и имеют достаточно высококачественных наборов данных для постоянного обучения и тестирования.
Подход CrowdStrike к машинному обучению
CrowdStrike применяет машинное обучение на платформе CrowdStrike Falcon® для обеспечения расширенной защиты от угроз.
Непревзойденный интеллект CrowdStrike Security Cloud:
Модели CrowdStrike обучаются на богатой телеметрии CrowdStrike Security Cloud, которая сопоставляет триллионы точек данных в графе активов CrowdStrike, графе данных и запатентованном графе угроз®, чтобы обеспечить непревзойденную видимость и постоянно уточнять информацию об угрозах по всей поверхности атаки организации.
Обогащение этих знаний представляет собой постоянно расширяющийся свод достоверной информации, генерируемый экспертными группами CrowdStrike, в том числе группами CrowdStrike по поиску угроз (Falcon OverWatch™), Центром исследования вредоносных программ и группами управляемого обнаружения и реагирования (Falcon Complete™).
Увеличение человеческого опыта:
Модели CrowdStrike обеспечивают автономное обнаружение угроз и реагирование на них, а также расширяют человеческий опыт в областях, возглавляемых экспертами, таких как поиск угроз и операции в области ИТ и безопасности. Модели машинного обучения на платформе Falcon обеспечивают инструментальные средства аналитика следующего поколения, которые автоматизируют обнаружение и реагирование, максимально повышают эффективность аналитиков благодаря высокоточным обнаружениям, основанным на предупреждениях с помощью машинного обучения, и предоставляют интеллектуальные рекомендации по управлению уязвимостями для проактивной защиты (с помощью ExPRT.AI). модель Falcon Spotlight™).
Многоуровневая защита:
CrowdStrike применяет машинное обучение на всей платформе Falcon, чтобы обеспечить надежную многоуровневую защиту на протяжении всего жизненного цикла процесса (до выполнения, во время выполнения и после выполнения). Модели машинного обучения до выполнения, на основе датчиков и на основе облака работают синхронно для автоматического обнаружения угроз и реагирования на них, обеспечивая легкий агент Falcon надежной первой линией защиты. Постоянная синхронизация между моделями машинного обучения в облаке и на датчиках позволяет глобально применять обнаружение, сделанное на датчике, по всей поверхности атаки и, аналогичным образом, позволяет мгновенно применять обнаружение, сделанное облачными моделями, на всех защищенных конечных точках.
Чтобы расширить этот подход, CrowdStrike также применяет расширенный поведенческий анализ во время выполнения, используя облачные модели для анализа событий конечной точки для классификации индикаторов атаки (IOA). IOA на основе ИИ заблаговременно обнаруживают возникающие угрозы независимо от используемых вредоносных программ или инструментов и работают асинхронно с моделями датчиков, чтобы инициировать локальный анализ подозрительного поведения на основе данных об угрозах в режиме реального времени.
После выполнения поведенческие индикаторы используются для оценки аномальной активности на поверхности атаки организации (на что указывает показатель CrowdStrike CrowdScore™, который в режиме реального времени показывает уровень угрозы организации), а также используются Falcon OverWatch для расследования расширенные угрозы, такие как действия с клавиатурой, преступления и скрытые атаки.
Учить больше
Узнайте, как CrowdStrike сочетает мощь облака с передовыми технологиями, такими как TensorFlow и Rust, для ускорения обучения моделей в сотни раз.Читать