0 просмотров

Распознавание голоса в ИИ: куда мы движемся и как туда добраться

распознавание голоса

Распознавание голоса относится к способности машины принимать, интерпретировать и выполнять речевые команды. Технология приобрела известность с появлением искусственного интеллекта и голосовых помощников. Alexa от Amazon, Siri от Apple и Google Assistant в наши дни стали обычным явлением.

Как правило, эти устройства облегчают жизнь — по крайней мере, такова идея.

Например, может быть, вы родитель и оказались в подобной ситуации. Ваш Google Nest установлен в комнате вашего ребенка и подключен к учетной записи Spotify. Вы говорите «Окей, Google, включи белый шум океана», чтобы поставить в очередь звуки природы, чтобы помочь им уснуть.Возможно, вы говорили недостаточно четко, или ИИ не был обучен слышать ваш уникальный голос. Вместо этого устройство начинает играть «Nights» Фрэнка Оушена. Это небольшая разница, но она определенно повлияет на время сна.

Умные колонки и интеллектуальные виртуальные помощники — это только начало. Ожидайте, что распознавание голоса в ИИ станет еще более популярным в ближайшие годы.

Статья в тему:  Как получить исследовательскую работу с искусственным интеллектом

Чем больше устройств используют распознавание голоса, тем более точными должны быть голосовые команды и желаемый ответ. Если вы стоите у банкомата или пытаетесь сделать правильный заказ на кофе, вероятность ошибки меньше. А поскольку распознавание голоса настолько хорошо, насколько хорошо его учат, вашему ИИ потребуется масса данных, чтобы достичь новых высот.

Давайте подробнее рассмотрим, куда движется распознавание голоса в ИИ в ближайшие несколько лет, и как мы к этому движемся.

Будущее распознавания голоса в ИИ

Ожидается, что мировой рынок распознавания голоса вырастет на 16,8% в период с 2021 по 2026 год. Как это выглядит в долларовом выражении? По данным StockApps, объем рынка в 2021 году составил 10,7 млрд долларов, и прогнозы показывают, что он может вырасти до 27,16 млрд долларов.

От помощников по распознаванию голоса до бытовой техники

«Технологии распознавания речи и голоса становятся все более популярными, и мы можем только ожидать, что эта тенденция продолжит расти», — сказала Эдит Ридс из StockApps. «В ближайшие годы мы ожидаем роста использования интеллектуальных устройств, выходящих за рамки телефонов и других устройств, к которым мы привыкли сегодня. Это, наряду с более широким использованием искусственного интеллекта, станет основным фактором роста рынка».

Поскольку Amazon, Apple и Google доминируют в сфере виртуальных помощников, разработчики придумывают инновационные способы оставаться конкурентоспособными и опережать конкурентов. Такие компании, как Nuance Technologies, например, даже пытаются внедрить распознавание голоса на различных устройствах и устройствах.Эта тенденция вполне может быть принята большим количеством компаний, предоставляя больше возможностей для роста рынка.

Статья в тему:  Что является ракетным топливом искусственного интеллекта

Технологию распознавания голоса можно установить практически на любую умную машину, включая миксеры, кофеварки и холодильники.

Умная технология распознавания голоса

Даже по мере того, как рынок распознавания голоса расширяется, важно продолжать развивать его текущие и общие возможности.

В телефонах, ноутбуках, мобильных устройствах, умных колонках и телевизорах, где это распространено сейчас, поддерживаются не все языки, не говоря уже о диалектах и ​​акцентах.

Помните, что ранние итерации широко используемых голосовых помощников поддерживали только конкретную и четкую версию английского языка США, чтобы начать и вырастить оттуда. Чтобы выйти на глобальный уровень, основные голосовые игроки с тех пор расширили свою языковую поддержку до самых популярных языков и диалектов в мире.

Однако это не обходится без болезней роста. Несмотря на их постоянные усилия по расширению своих языковых возможностей, основные голосовые помощники подверглись критике, например, за расовые, гендерные и возрастные предубеждения.

Это серьезная проблема, которую нужно решить. Только в Канаде восемь диалектов английского, два диалекта французского и уникальный язык мичиф. Кроме того, существуют языковые различия в зависимости от пола, уровня образования, экономического положения и множества других демографических факторов. Это даже не включает носителей языка с уникальным акцентом или развитие языка с течением времени (например, новые слова или сленг).

Чтобы создать голосовую технологию, которая понимает всех, алгоритмы распознавания голоса должны обучаться на речевых данных людей как можно большего происхождения.

Статья в тему:  Как большие данные связаны с искусственным интеллектом

Вывод распознавания голоса на новый уровень

В основе философии изучения языка Розетты Стоун лежат два ключевых принципа: 1) способ, которым мы изучаем язык в детстве — погружение в этот язык — лучший способ выучить новый язык в любом возрасте, и 2) интерактивные технологии мощный инструмент для воспроизведения и активации этого процесса.

Те же самые принципы применяются для улучшения распознавания голоса в ИИ. Чтобы устройство или приложение понимало ваш язык и говорило с ним, оно сначала должно его выучить. И это происходит посредством сбора речевых данных и обработки естественного языка.

Зачем нам нужны данные

Вернемся к сравнению с Розеттским камнем. Допустим, вы планируете поездку в Японию и хотите максимально эффективно общаться с местным населением. Вы хотите, чтобы они понимали вас и давали наилучшие возможные ответы на ваши вопросы. Может быть, вам нужна помощь с системой метро или, например, вы хотите заказать еду.

Ну так что ты делаешь? Вы подписываетесь на этот метод обучения и немного изучаете японский язык.

Это та же идея для распознавания голоса в ИИ. Вам нужны обучающие данные для всех целевых языков, которые вы надеетесь охватить своим продуктом, чтобы научить его взаимодействовать.

Если ваше устройство распознавания голоса разрабатывается в Северной Америке, но предназначено для использования в Японии, в него необходимо ввести эти данные, чтобы предоставить человеку, который хочет сделать заказ на ужин.

Статья в тему:  Как использовать существующие данные для искусственного интеллекта

Опять же, цель состоит в том, чтобы сделать возможности распознавания голоса как можно более инклюзивными, и это достигается путем захвата как можно большего количества комбинаций следующего:

  • Пол
  • Возраст
  • Языки
  • Диалекты
  • Акценты
  • Не носители языка

Хотя вы, возможно, точно знаете, как должны быть структурированы ваши голосовые данные, большинство из них обращаются к нам с неопределенным объемом, либо потому, что их требования гибкие, либо они еще не рассмотрели все возможные переменные.

Являясь поставщиком речевых данных, мы выделяем все способы настройки вашего набора речевых данных и помогаем выбрать наиболее эффективный и недорогой вариант сбора данных для вашего решения.

Как мы собираем данные распознавания голоса

Мы писали о том, как собирать высококачественные речевые данные в масштабе, но здесь мы сосредоточимся на этом процессе и позволим вам прочитать о трех других Ps.

Определение ваших потребностей

Процесс начинается с понимания ваших потребностей в данных. У вас могут быть кристально четкие требования, или вам может понадобиться руководство. Мы можем помочь вам определить, какой тип данных распознавания речи вам нужен.

Дизайн и планирование

Здесь мы намечаем людей, инструменты и рабочие процессы, необходимые для сбора и обработки ваших данных. Знание того, какие пути наиболее плодотворны, требует большого опыта (например, следует ли вам использовать сбор толпы или артистов за кадром?).

Статья в тему:  Как стартапы моделируют программное обеспечение искусственного интеллекта

Создание задачи

Мы превращаем требования к данным в задачу для фрилансера или участника толпы. Это включает в себя разбиение больших задач на более мелкие части, написание четких инструкций, размещение их на нашей крауд-платформе и разработку руководящих принципов для нашего процесса обеспечения качества.

Прием на работу

Когда задачи готовы и проверены на юзабилити, мы набираем людей для записи. Мы либо делаем это внутри нашей существующей команды ресурсов, либо приглашаем больше пользователей на нашу крауд-платформу.

Завершение задачи

Это то, что занимает большую часть времени проекта. Поскольку вы ожидаете выполнения задачи сотнями или тысячами участников, записи речи не приходят сразу. Они просачиваются по мере того, как пользователи берутся за задачу и работают над ней в соответствии со своим графиком.

Гарантия качества

Как только мы получаем звук, мы дополнительно проверяем его на качество. Если исполнитель не соответствует требуемым нами стандартам, мы отправляем его обратно на доработку или вообще отклоняем заявку.

Обработка и транскрипция

Проекты по распознаванию голоса часто требуют транскрипции записанного звука человеком, особенно для незаписанной речи. Это включает в себя аннотацию для обозначения звуков и фоновых шумов (например, смеха или лая собаки). Если много требуется транскрипция речевых данных, мы можем превратить фактический этап транскрипции в задачу для толпы.

Доставка

Только после тщательного контроля качества данные упаковываются и доставляются вам.Для более крупных проектов мы часто поставляем ежемесячные пакеты, чтобы вы могли начать использовать данные как можно скорее.

Статья в тему:  Qlikview что такое искусственный интеллект

Управление этим рабочим процессом и огромным количеством вовлеченных людей требует больших усилий. Вот почему отличная технологическая платформа является основой программы сбора данных. Чем эффективнее платформа, тем выше качество данных и тем больше экономия средств.

В Summa Linguae мы создали Robson в качестве платформы для удаленного сбора данных и управления толпой. Мы использовали подход с гибридной платформой, состоящий из мобильного приложения, настольного интерфейса и серверной платформы администрирования.

Мы сосредоточились на том, чтобы система была надежной, надежной и ориентированной на максимальное упрощение работы пользователей, QA и менеджеров проектов.

Улучшите свои возможности распознавания голоса

Работайте с поставщиком речевых данных, который при необходимости настраивает и масштабирует по требованию.

В Summa Linguae Technologies мы много лет работали над развитием и совершенствованием нашего процесса и платформы.

В результате наша команда по решениям для данных признана нашими клиентами чрезвычайно универсальной с нашим нестандартным мышлением, но по мере того, как мы развивали нашу аудиторию и нашу платформу, мы получили возможность предлагать индивидуальную речь. сбор данных в масштабе.

Чтобы узнать, как мы можем создать программу сбора речи для вашей организации, запишитесь на консультацию прямо сейчас.

голоса
Рейтинг статьи
Ссылка на основную публикацию
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x
Adblock
detector