Что такое анализ текста, анализ текста и обработка естественного языка?
Интеллектуальный анализ текста (также называемый текстовая аналитика) — это технология искусственного интеллекта (ИИ), которая использует обработку естественного языка (NLP) для преобразования свободного (неструктурированного) текста в документах и базах данных в нормализованные структурированные данные, подходящие для анализа или управления алгоритмами машинного обучения (ML).
В этом разделе нашего веб-сайта представлено введение в эти технологии и освещены некоторые функции, способствующие эффективному решению. Краткое (90-секундное) видео об обработке естественного языка и анализе текста также представлено ниже.
Что такое анализ текста?
Интеллектуальный анализ текста широко используется в организациях, ориентированных на знания, — это процесс изучения больших коллекций документов для обнаружения новой информации или помощи в ответах на конкретные исследовательские вопросы.
Интеллектуальный анализ текста выявляет факты, отношения и утверждения, которые в противном случае остались бы скрытыми в массе текстовых больших данных. После извлечения эта информация преобразуется в структурированную форму, которая может быть подвергнута дальнейшему анализу или представлена непосредственно с использованием кластеризованных HTML-таблиц, карт памяти, диаграмм и т. д. Для обработки текста используется множество методологий, одна из наиболее важных это Обработка естественного языка (NLP).
Структурированные данные, созданные с помощью интеллектуального анализа текста, можно интегрировать в базы данных, хранилища данных или информационные панели бизнес-аналитики и использовать для описательной, предписывающей или прогнозной аналитики.
Что такое обработка естественного языка (NLP)?
Понимание естественного языка помогает машинам «читать» текст (или другие входные данные, такие как речь), имитируя человеческую способность понимать естественный язык, например английский, испанский или китайский. Обработка естественного языка включает в себя как понимание естественного языка, так и генерацию естественного языка, которые имитируют способность человека создавать текст на естественном языке, например. обобщить информацию или принять участие в диалоге.
Как технология обработка естественного языка достигла совершеннолетия за последние десять лет, когда такие продукты, как Siri, Alexa и голосовой поиск Google, используют НЛП для понимания и ответа на запросы пользователей. Сложные приложения для анализа текста также были разработаны в таких различных областях, как медицинские исследования, управление рисками, обслуживание клиентов, страхование (обнаружение мошенничества) и контекстная реклама.
Современные системы обработки естественного языка могут анализировать неограниченное количество текстовых данных без усталости и последовательным, непредвзятым образом. Они могут понимать концепции в сложных контекстах и расшифровывать двусмысленность языка, чтобы извлекать ключевые факты и отношения или предоставлять резюме.Учитывая огромное количество неструктурированных данных, которые создаются каждый день, от электронных медицинских карт (EHR) до сообщений в социальных сетях, эта форма автоматизации стала критически важной для эффективного анализа текстовых данных.
Машинное обучение и обработка естественного языка
Машинное обучение — это технология искусственного интеллекта (ИИ), которая предоставляет системам возможность автоматически учиться на основе опыта без необходимости явного программирования и может помочь решать сложные проблемы с точностью, которая может конкурировать, а иногда даже превосходить человека.
Однако для обучения машинному обучению требуются тщательно подобранные входные данные, которые обычно недоступны из таких источников, как электронные медицинские карты (EHR) или научная литература, где большая часть данных представляет собой неструктурированный текст.
Применительно к электронным медицинским картам, записям клинических испытаний или полнотекстовой литературе обработка естественного языка может извлекать чистые, структурированные данные, необходимые для управления передовыми прогностическими моделями, используемыми в машинном обучении, тем самым уменьшая потребность в дорогостоящем ручном аннотировании обучающих данных.
В этой 15-минутной презентации Дэвид Милворд, технический директор Linguamatics, обсуждает ИИ в целом, такие технологии ИИ, как обработка естественного языка и машинное обучение, а также то, как НЛП и машинное обучение могут быть объединены для создания различных систем обучения.
Большие данные и ограничения поиска по ключевым словам
В то время как традиционные поисковые системы, такие как Google, теперь предлагают уточнения, такие как синонимы, автозаполнение и семантический поиск (история и контекст), подавляющее большинство результатов поиска указывают только на местонахождение документов, оставляя искателям проблему, связанную с необходимостью часами вручную извлекать необходимые данные, читая отдельные документы.
Ограничения традиционного поиска усугубляются ростом больших данных за последнее десятилетие, что помогло увеличить количество результатов, возвращаемых по одному запросу поисковой системой, такой как Google, с десятков тысяч до сотен миллионов.
Здравоохранение и биомедицинские отрасли не являются исключением. Исследование, проведенное в декабре 2018 года Международной корпорацией данных (IDC), показало, что объем больших данных, по прогнозам, будет расти быстрее в здравоохранении, чем в производстве, финансовых услугах или СМИ в течение следующих семи лет: совокупный годовой темп роста (CAGR) составляет 36%.
С ростом текстовых больших данных использование технологий искусственного интеллекта, таких как обработка естественного языка и машинное обучение, становится еще более насущным.
Онтологии, словари и пользовательские словари
Онтологии, словари и пользовательские словари — это мощные инструменты, помогающие в поиске, извлечении и интеграции данных. Они являются ключевым компонентом многих инструментов анализа текста и предоставляют списки ключевых понятий с именами и синонимами, часто расположенными в иерархии.
Поисковые системы, инструменты текстовой аналитики и решения для обработки естественного языка становятся еще более мощными при развертывании с онтологиями, специфичными для предметной области. Онтологии позволяют понять реальное значение текста, даже если оно выражено по-разному (например, тайленол против ацетаминофена). Методы НЛП расширяют возможности онтологий, например, позволяя сопоставлять термины с разным написанием (эстроген или эстроген) и принимая во внимание контекст («SCT» может относиться к гену, «секретину» или к «тесту подъема по лестнице»). »).
Спецификация онтологии включает словарь терминов и формальные ограничения на ее использование. Для корпоративной обработки естественного языка требуется ряд словарей, онтологий и связанных стратегий для определения понятий в их правильном контексте:
- Тезаурусы, словари, таксономии и онтологии понятий с известными терминами;
- Подходы на основе шаблонов для таких категорий, как измерения, мутации и химические названия, которые могут включать новые (неизвестные) термины;
- Идентификация, аннотация и преобразование понятий, зависящих от предметной области, на основе правил;
- Интеграция клиентских словарей для создания индивидуальных аннотаций;
- Расширенный поиск, позволяющий идентифицировать диапазоны данных по датам, числовым значениям, площади, концентрации, проценту, продолжительности, длине и весу.
Linguamatics предоставляет ряд стандартных терминологий, онтологий и словарей как часть своей платформы обработки естественного языка. Более подробную информацию можно найти на нашей странице Онтологии.
Обработка естественного языка корпоративного уровня
Использование расширенной аналитики представляет собой реальную возможность в фармацевтической и медицинской отраслях, где проблема заключается в выборе подходящего решения, а затем его эффективном внедрении на предприятии.
Для эффективной обработки естественного языка требуется ряд функций, которые должны быть включены в любое решение НЛП корпоративного уровня, и некоторые из них описаны ниже.
Аналитические инструменты
Существует огромное разнообразие в составе документов и текстовом контексте, включая источники, формат, язык и грамматику. Борьба с этим разнообразием требует ряда методологий:
- Преобразование внутренних и внешних форматов документов (например, HTML, Word, PowerPoint, Excel, текст PDF, изображение PDF) в стандартизированный формат с возможностью поиска;
- Возможность идентификации, маркировки и поиска в определенных разделах (областях) документа, например: фокусировка поиска на удалении шума из справочного раздела документа;
- Лингвистическая обработка для определения значимых единиц в тексте, таких как предложения, группы существительных и глаголов, а также отношений между ними;
- Семантические инструменты, которые идентифицируют понятия в тексте, такие как лекарства и болезни, и нормализуют понятия из стандартных онтологий.В дополнение к основным онтологиям медико-биологической науки и здравоохранения, таким как MedDRA и MeSH, возможность добавления собственных словарей является обязательным требованием для многих организаций;
- Распознавание образов для обнаружения и идентификации категорий информации, которые нелегко определить с помощью словарного подхода. К ним относятся даты, числовая информация, биомедицинские термины (например, концентрация, объем, дозировка, энергия) и мутации генов/белков;
- Возможность обрабатывать встроенные таблицы в тексте, независимо от того, отформатированы ли они с использованием HTML или XML или как свободный текст.
Открытая архитектура
Открытая архитектура, позволяющая интегрировать различные компоненты, в настоящее время является ключевым аспектом разработки корпоративных систем, и в этой области существует ряд ключевых стандартов:
- А RESTful API веб-сервисов поддерживает интеграцию с рабочими процессами обработки документов;
- Декларативный язык запросов, удобочитаемый для человека и доступный для всех функций НЛП (например, запросы, условия поиска, настройки контекста и отображения);
- Возможность преобразовывать и интегрировать извлеченные данные в общую инфраструктуру для управления мастер-данными (MDM) или распределенной обработки, например. Хадуп.
Технологические партнеры
Партнерские отношения являются критически важным фактором, позволяющим отраслевым новаторам получить доступ к инструментам и технологиям, необходимым для преобразования данных в масштабах предприятия.
Linguamatics сотрудничает и сотрудничает с многочисленными компаниями, академическими и государственными организациями, чтобы предлагать клиентам технологии, соответствующие их потребностям, и разрабатывать решения следующего поколения. Посетите нашу страницу «Партнеры и филиалы», чтобы узнать больше о наших партнерских отношениях в области технологий и контента.
Пользовательский интерфейс
Эффективный пользовательский интерфейс расширяет доступ к инструментам обработки естественного языка, не требуя специальных навыков для их использования (например, опыта программирования, доступа к командной строке, написания сценариев).
Продуктивное решение NLP предоставляет ряд способов доступа к платформе для удовлетворения потребностей бизнеса и набора навыков в организации, например:
- Интуитивно понятный графический пользовательский интерфейс (GUI), который избавляет пользователей от необходимости писать сценарии;
- Веб-порталы которые обеспечивают доступ нетехническим пользователям;
- Интерфейс для поиска и просмотра онтологий;
- Административный интерфейс для управления доступом к данным и позволяет обрабатывать индексы от имени многих пользователей;
- Широкий спектр готовых модулей запросов, позволяющих экспертам в предметной области задавать вопросы без необходимости разбираться в базовой лингвистике.
Масштабируемость
Задачи интеллектуального анализа текста различаются по размеру: от случайного доступа к нескольким документам до федеративного поиска в нескольких хранилищах и миллионах документов. Таким образом, современное решение для обработки естественного языка должно:
- Предоставлять возможность выполнять сложные запросы к десяткам миллионов документов, каждый из которых может иметь длину в тысячи страниц;
- Обрабатывать словари и онтологии, содержащие миллионы терминов;
- Работайте на параллельных архитектурах, будь то стандартные многоядерные, кластерные или облачные;
- Предоставьте соединитель для запуска обработки естественного языка в сервисно-ориентированных средах, таких как ETL (извлечение, преобразование, загрузка), семантическое обогащение и обнаружение сигналов, например: мониторинг клинических рисков в здравоохранении.
Дополнительная информация
Для получения дополнительной информации о том, как правильно выбрать инструменты для нужд вашего бизнеса, ознакомьтесь с нашим руководством по Выбор правильного решения NLP для вашего бизнеса.
Чтобы узнать больше о платформе Linguamatics NLP, посетите наш раздел продуктов.