Источники данных, которые можно использовать в искусственном интеллекте
Нельзя думать об искусственном интеллекте, не думая о данных, поскольку данные являются неотъемлемой частью ИИ. Чтобы алгоритм ИИ выдавал какие-либо прогнозы, ему необходимо снабжать большими объемами данных. Помимо использования в прогнозной аналитике, данные стали ключевым фактором роста, позволяя компаниям извлекать ценную информацию и совершенствовать процесс принятия решений.
Данные как общее понятие относятся к тому факту, что некоторые существующие знания об информации представлены или закодированы в некоторой форме, подходящей для полезного использования или обработки. В этой статье мы объясняем, какие типы данных и источников данных компании могут использовать для внедрения искусственного интеллекта и улучшения процесса принятия решений.
Первичные и вторичные источники данных
Чтобы анализировать, представлять и интерпретировать информацию из данных, должен быть процесс сбора и сортировки данных. Существуют различные методы сбора данных, все они делятся на две категории: первичный источник данных и вторичный источник данных.
Термин первичные данные относится к данным, созданным самим исследователем, а вторичные данные — это уже существующие данные, собранные агентствами и организациями с целью проведения анализа. Первичные источники данных могут включать опросы, наблюдения, анкеты, эксперименты, личные интервью и многое другое. Данные из систем ERP (планирование ресурсов предприятия) и CRM (управление взаимоотношениями с клиентами) также могут использоваться в качестве основного источника данных. Напротив, вторичными источниками данных могут быть правительственные публикации, промежуточные веб-сайты, публикации независимых исследовательских лабораторий, журнальные статьи и т. д. Преобразованный «сырой» набор данных в другой формат в процессе обработки данных также может рассматриваться как вторичный источник данных. Вторичные данные могут быть ключевым понятием с точки зрения обогащения данных, когда первичные исходные данные недостаточно информативны, и они могут повысить точность анализа за счет добавления в выборку дополнительных атрибутов и переменных.
Количественные и качественные данные
Данные могут быть определены набором переменных качественного или количественного характера.
Качественные данные
Качественные данные относятся к данным, которые могут дать представление и понимание конкретной проблемы.
Количественные данные
Количественные данные, как следует из названия, имеют дело с количеством или числами. Эти числовые данные могут быть определены по категориям или так называемым классам.
Хотя оба типа данных можно рассматривать как отдельные объекты, обеспечивающие разные результаты и информацию о образце, важно понимать, что оба типа часто необходимы для проведения анализа качества.Не зная, почему мы наблюдаем определенный паттерн в поведенческих данных, мы можем попытаться решить не ту проблему или неправильно решить правильную проблему. Примером из реальной жизни может быть сбор качественных данных о предпочтениях клиентов и количественных данных о количестве и возрасте клиентов, чтобы проанализировать уровень удовлетворенности клиентов и найти закономерность или корреляцию меняющихся предпочтений с различными возрастными группами клиентов.
Типы источников данных
Данные могут быть записаны в самых разных формах, некоторые из них могут быть проще извлечены, чем другие. Наличие данных в разных формах требует разных решений для хранения, и поэтому к ним следует подходить по-разному. В Kantify мы различаем три формы данных: структурированные данные, неструктурированные данные, а также полуструктурированные данные.
Структурированные данные
Структурированные данные — это табличные данные, содержащие очень четко определенные столбцы и строки. Основное преимущество этого типа данных заключается в том, что их легко хранить, вводить, запрашивать, изменять и анализировать. Структурированные данные часто управляются с помощью языка структурированных запросов или SQL — языка программирования, созданного для управления и запроса данных в реляционных системах управления.
Неструктурированные данные
Неструктурированные данные — это самая необработанная форма любых данных, и они могут быть в любом типе или файле: изображения и графические изображения, веб-страницы, PDF-файлы, видео, электронные письма, текстовые документы и т. д. Эти данные часто хранятся в репозиториях файлов. Извлечение ценной информации из данных такого типа может быть довольно сложной задачей. Например, текст можно проанализировать, извлекая темы, которые он охватывает, и то, является ли текст положительным или отрицательным по отношению к ним.
Полуструктурированные данные
Как следует из названия, полуструктурированные данные представляют собой нечто среднее между структурированными и неструктурированными данными. Полуструктурированные данные могут иметь согласованный определенный формат, однако структура может быть не очень строгой.Структура может не обязательно быть табличной, а части данных могут быть неполными или содержать разные типы. Примером могут служить фотографии другой графики, помеченные ключевыми словами, что упрощает организацию и поиск графики.
Исторические данные и данные в реальном времени
Наборы исторических данных могут помочь ответить именно на те вопросы, которые лица, принимающие решения, хотели бы сопоставить с данными в реальном времени. Исторические источники данных могут лучше всего подходить для создания или изменения прогнозных или предписывающих моделей, а также для предоставления информации, которая может улучшить принятие долгосрочных и стратегических решений. Базовое определение или данные в реальном времени объясняют это как данные, которые передаются конечному пользователю так же быстро, как они собираются. Данные в режиме реального времени могут быть чрезвычайно ценными в таких вещах, как системы дорожного движения GPS, в сравнительном анализе различных видов аналитических проектов и для информирования людей посредством мгновенной доставки данных.
В прогнозной аналитике обоим типам источников данных следует уделять одинаковое внимание, поскольку оба могут помочь в прогнозировании и определении будущих тенденций.
Внутренние и внешние данные
Внутренние данные
Внутренние данные — это информация, собранная внутри организации, которая может охватывать такие области, как персонал, операции, финансы, техническое обслуживание, закупки и многое другое. Внутренние данные могут предоставить информацию о текучести кадров, успехах продаж, размерах прибыли, структуре и динамике организации и т. д.
Внешние данные
Внешние данные — это информация, собранная извне, включая клиентов, промежуточные веб-сайты, агентства и многое другое. Например, внешние данные, собранные из социальных сетей, могут дать представление о поведении, предпочтениях и мотивах клиентов. На этом этапе вы можете задаться вопросом, совпадают ли внутренние данные с первичными данными, а внешние данные — с вторичными данными. Это близко, но немного отличается.Классификация внутренних и внешних источников данных в основном зависит от того, откуда поступают данные — были ли они собраны в вашей организации или из источника за пределами вашей организации. Понятие первичных/вторичных данных скорее относится к цели и временным рамкам, для которых данные были собраны — были ли они собраны исследователем для конкретного проекта или в форме другого источника, даже в рамках той же организации.
Эти различные типы наборов данных можно найти внутри организации, но их также можно найти во внешних источниках данных, таких как Интернет. Мы помогаем компаниям принимать более разумные решения на основе данных с помощью искусственного интеллекта и машинного обучения. Если вам интересно узнать, как ваша организация может использовать данные для ускорения роста, не стесняйтесь обращаться к нам, и один из членов нашей команды скоро вернется к вам с дополнительной информацией!