7 просмотров

Как Informatica использует машинное обучение и искусственный интеллект для повышения производительности инженеров данных и пользователей больших данных

Сумит Агравал

вице-президент по управлению продуктами
Поделитесь этим на:

машинное обучение повышает производительность обработки данных

Поскольку ИТ-бюджеты растут медленно, если вообще растут, ИТ-руководители знают, что повышение производительности имеет важное значение. Есть три основных способа добиться этого, когда дело доходит до управления сложными корпоративными средами данных:

  • Развертывание озер данных для автоматизации решений цифровой трансформации и управления ими
  • Включить аналитику самообслуживания для нетехнических пользователей
  • Используйте машинное обучение для автоматизации интеграции и обнаружения данных

Все эти варианты использования выигрывают от применения ИИ к большим данным, добавления автоматизации и аналитики на основе данных, которые помогают ускорить процессы, повысить доступность и доступность данных, а также упростить подготовку данных.

Informatica является пионером в области управления данными и интеграции данных. В этом блоге вы узнаете, как мы используем искусственный интеллект и машинное обучение для повышения производительности инженеров данных и пользователей больших данных и, в частности, чтобы помочь вам создавать успешные решения для цифровой трансформации. Я подробно рассмотрю первый вариант использования и поделюсь конкретными методологиями и алгоритмами машинного обучения.

Данные и искусственный интеллект в управлении озером данных

Механизм искусственного интеллекта и машинного обучения Informatica — это CLAIRE, или облачный механизм реального времени на основе искусственного интеллекта, который использует методы искусственного интеллекта и машинного обучения на основе общекорпоративных данных и метаданных. CLAIRE значительно повысит производительность всех пользователей платформы (технические, операционные, деловые и особенно бизнес-самообслуживания), применяя возможности ИИ для решения задач с большими данными.

Статья в тему:  ВОЗ этика и управление искусственным интеллектом для здоровья

Давайте посмотрим, как Informatica CLAIRE используется для автоматизации важнейших этапов управления корпоративным озером данных.

1. Захват и трансляция (Используемая методология машинного обучения: генетический алгоритм A*)

Informatica использует Intelligent Structure Discovery для приема и потоковой передачи полуструктурированных данных. CLAIRE создает структуру из беспорядочных файлов устройств и журналов, что упрощает их понимание и работу с ними.Используя основанный на содержимом подход к анализу файлов, он также адаптируется к частым изменениям в этих файлах, не влияя на обработку файлов.

Intelligent Structure Discovery использует генетический алгоритм для автоматического распознавания шаблонов в файлах. В этом подходе CLAIRE использует концепцию «эволюции» для улучшения результатов. Каждое решение-кандидат имеет набор свойств, которые можно изменить и протестировать, чтобы определить, обеспечивают ли они решение, которое лучше подходит. CLAIRE не требует каких-либо действий пользователя для определения структуры файла, а также не зависит от набора отраслевых форматов файлов. Исходные структуры получаются на основе базового синтаксического анализа на основе разделителей. Затем эти структуры оцениваются по нескольким факторам, таким как входное покрытие и производные домены. Структуры с наивысшими баллами вступают в фазу «мутации», когда в структуры вносятся некоторые изменения, такие как объединение подструктур, чтобы увидеть, улучшаются ли оценки. Процесс завершается, когда достигается соответствующее соответствие структуры данным.

2. Интеграция

CLAIRE используется несколькими способами на этапе интеграции. Например, КЛЭР может:

  • Определите с помощью интеллектуального оптимизатора наилучший механизм для выполнения рабочей нагрузки с большими данными на основе характеристик производительности.
  • Предоставление рекомендации уровня сопоставления на основе прошлых действий пользователя
  • Используйте оптимизатор на основе затрат, который работает на основе эвристики.
  • Интеллектуальное изменение порядка соединения на основе стоимости и эвристики
Статья в тему:  Как я создал этих ботов с искусственным интеллектом

3. Обогатить

Качество данных Informatica полностью доступно для наших пользователей больших данных. Мы используем CLAIRE в различных сценариях, таких как:

  • Парсинг и извлечение сущностей(Используемая методология машинного обучения: NLP на основе Стэнфордского NER)

Обычно для извлечения объектов из строк (скажем, кода продукта или информации о размере) пользователям приходится писать правила синтаксического анализа с использованием справочных таблиц и регулярных выражений. Количество данных, сложность и закономерности постоянно растут; написание всех возможных правил для соответствия каждому входу нецелесообразно или масштабируемо.

Вместо этого мы используем предварительно обученные модели для идентификации и извлечения сущностей и токенов из входных данных. Используемый нами подход к обработке естественного языка (NLP) основан на Стэнфордском распознавателе именованных сущностей (NER) для идентификации и извлечения сущностей из строк.

  • Классификация текста (используемая методология машинного обучения: обучение с учителем с помощью Наивного Байеса и MaxEnt — мультиномиальная логистическая регрессия)

Обучение с учителем используется для обучения моделей и присвоения меток. Впоследствии обученная модель может быть развернута во время обработки данных для маркировки, маршрутизации и обработки различных классов входных данных, например. иметь дело с «проблемами двигателя» отдельно от проблем «конфигурации» с аналогичными значениями и различать использование слов с несколькими значениями». CLAIRE можно использовать для классификации входящего текста, такого как язык, тип продукта, проблема технической поддержки и т. д.

Статья в тему:  Видение Google что такое искусственный интеллект

4. Подготовьте

Informatica использует CLAIRE, чтобы предложить ключ соединения и предоставить пользователям интеллектуальные рекомендации, подобные Amazon, на основе других действий пользователей.

Помимо этих шагов, CLAIRE используется во всех других аспектах управления озером данных. Я напишу больше об искусственном интеллекте для больших данных в будущих сообщениях блога, но если вы хотите увидеть CLAIRE в действии, посмотрите это видео на тему «Управление большими данными Informatica и CLAIRE».

голоса
Рейтинг статьи
Ссылка на основную публикацию
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x