0 просмотров

Как Informatica использует машинное обучение и искусственный интеллект для повышения производительности инженеров данных и пользователей больших данных

Сумит Агравал

вице-президент по управлению продуктами
Поделитесь этим на:

машинное обучение повышает производительность обработки данных

Поскольку ИТ-бюджеты растут медленно, если вообще растут, ИТ-руководители знают, что повышение производительности имеет важное значение. Есть три основных способа добиться этого, когда дело доходит до управления сложными корпоративными средами данных:

  • Развертывание озер данных для автоматизации решений цифровой трансформации и управления ими
  • Включить аналитику самообслуживания для нетехнических пользователей
  • Используйте машинное обучение для автоматизации интеграции и обнаружения данных

Все эти варианты использования выигрывают от применения ИИ к большим данным, добавления автоматизации и аналитики на основе данных, которые помогают ускорить процессы, повысить доступность и доступность данных, а также упростить подготовку данных.

Informatica является пионером в области управления данными и интеграции данных. В этом блоге вы узнаете, как мы используем искусственный интеллект и машинное обучение для повышения производительности инженеров данных и пользователей больших данных и, в частности, чтобы помочь вам создавать успешные решения для цифровой трансформации. Я подробно рассмотрю первый вариант использования и поделюсь конкретными методологиями и алгоритмами машинного обучения.

Статья в тему:  Какой университет лучше всего подходит для искусственного интеллекта

Данные и искусственный интеллект в управлении озером данных

Механизм искусственного интеллекта и машинного обучения Informatica — это CLAIRE, или облачный механизм реального времени на основе искусственного интеллекта, который использует методы искусственного интеллекта и машинного обучения на основе общекорпоративных данных и метаданных. CLAIRE значительно повысит производительность всех пользователей платформы (технические, операционные, деловые и особенно бизнес-самообслуживания), применяя возможности ИИ для решения задач с большими данными.

Давайте посмотрим, как Informatica CLAIRE используется для автоматизации важнейших этапов управления корпоративным озером данных.

1. Захват и трансляция (Используемая методология машинного обучения: генетический алгоритм A*)

Informatica использует Intelligent Structure Discovery для приема и потоковой передачи полуструктурированных данных. CLAIRE создает структуру из беспорядочных файлов устройств и журналов, что упрощает их понимание и работу с ними.Используя основанный на содержимом подход к анализу файлов, он также адаптируется к частым изменениям в этих файлах, не влияя на обработку файлов.

Intelligent Structure Discovery использует генетический алгоритм для автоматического распознавания шаблонов в файлах. В этом подходе CLAIRE использует концепцию «эволюции» для улучшения результатов. Каждое решение-кандидат имеет набор свойств, которые можно изменить и протестировать, чтобы определить, обеспечивают ли они решение, которое лучше подходит. CLAIRE не требует каких-либо действий пользователя для определения структуры файла, а также не зависит от набора отраслевых форматов файлов. Исходные структуры получаются на основе базового синтаксического анализа на основе разделителей. Затем эти структуры оцениваются по нескольким факторам, таким как входное покрытие и производные домены. Структуры с наивысшими баллами вступают в фазу «мутации», когда в структуры вносятся некоторые изменения, такие как объединение подструктур, чтобы увидеть, улучшаются ли оценки. Процесс завершается, когда достигается соответствующее соответствие структуры данным.

Статья в тему:  Как запрограммировать искусственный интеллект на java

2. Интеграция

CLAIRE используется несколькими способами на этапе интеграции. Например, КЛЭР может:

  • Определите с помощью интеллектуального оптимизатора наилучший механизм для выполнения рабочей нагрузки с большими данными на основе характеристик производительности.
  • Предоставление рекомендации уровня сопоставления на основе прошлых действий пользователя
  • Используйте оптимизатор на основе затрат, который работает на основе эвристики.
  • Интеллектуальное изменение порядка соединения на основе стоимости и эвристики

3. Обогатить

Качество данных Informatica полностью доступно для наших пользователей больших данных. Мы используем CLAIRE в различных сценариях, таких как:

  • Парсинг и извлечение сущностей(Используемая методология машинного обучения: NLP на основе Стэнфордского NER)

Обычно для извлечения объектов из строк (скажем, кода продукта или информации о размере) пользователям приходится писать правила синтаксического анализа с использованием справочных таблиц и регулярных выражений. Количество данных, сложность и закономерности постоянно растут; написание всех возможных правил для соответствия каждому входу нецелесообразно или масштабируемо.

Вместо этого мы используем предварительно обученные модели для идентификации и извлечения сущностей и токенов из входных данных. Используемый нами подход к обработке естественного языка (NLP) основан на Стэнфордском распознавателе именованных сущностей (NER) для идентификации и извлечения сущностей из строк.

  • Классификация текста (используемая методология машинного обучения: обучение с учителем с помощью Наивного Байеса и MaxEnt — мультиномиальная логистическая регрессия)

Обучение с учителем используется для обучения моделей и присвоения меток. Впоследствии обученная модель может быть развернута во время обработки данных для маркировки, маршрутизации и обработки различных классов входных данных, например. иметь дело с «проблемами двигателя» отдельно от проблем «конфигурации» с аналогичными значениями и различать использование слов с несколькими значениями». CLAIRE можно использовать для классификации входящего текста, такого как язык, тип продукта, проблема технической поддержки и т. д.

Статья в тему:  Сколько процентов людей сильно зависят от искусственного интеллекта

4. Подготовьте

Informatica использует CLAIRE, чтобы предложить ключ соединения и предоставить пользователям интеллектуальные рекомендации, подобные Amazon, на основе других действий пользователей.

Помимо этих шагов, CLAIRE используется во всех других аспектах управления озером данных. Я напишу больше об искусственном интеллекте для больших данных в будущих сообщениях блога, но если вы хотите увидеть CLAIRE в действии, посмотрите это видео на тему «Управление большими данными Informatica и CLAIRE».

голоса
Рейтинг статьи
Ссылка на основную публикацию
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x
Adblock
detector