0 просмотров

Чихуахуа или маффин? Мой поиск лучшего API компьютерного зрения

Чихуахуа или маффин? Мой поиск лучшего API компьютерного зрения

Чихуахуа или маффин? Мой поиск лучшего API компьютерного зрения

Этот популярный интернет-мем демонстрирует тревожное сходство между чихуахуа и маффинами.Этими изображениями обычно делятся в презентациях в индустрии искусственного интеллекта (ИИ) (включая меня).

Но один вопрос, на который я не видел ни одного ответа, Насколько хорош современный ИИ в устранении неопределенности изображения, которое может напоминать чихуахуа или маффин? Для вашего развлечения и образования, я буду исследовать этот вопрос сегодня.

C9OQH-2w3g-1Ayj08mjYLwlpI46QAbxgtyqa

Двоичная классификация стала возможной с тех пор, как в 1957 году был изобретен алгоритм персептрона. Газета "Нью-Йорк Таймс в 1958 году сообщалось, что это изобретение положило начало компьютеру, который «сможет ходить, говорить, видеть, писать, воспроизводить себя и осознавать свое существование». Хотя машины персептрона, такие как Mark 1, были разработаны для распознавания изображений, на самом деле они могут различать только линейно разделимые шаблоны. Это мешает им изучать сложные паттерны, встречающиеся в большинстве визуальных медиа.

Неудивительно, что мир был разочарован, и последовала зима ИИ. С тех пор многослойное восприятие (популярное в 1980-х годах) и сверточные нейронные сети (впервые разработанные Яном Лекуном в 1998 году) значительно превзошли однослойное восприятие в задачах распознавания изображений.

Благодаря большим наборам размеченных данных, таким как ImageNet, и мощным вычислениям на графическом процессоре, более продвинутые архитектуры нейронных сетей, такие как AlexNet, VGG, Inception и ResNet, достигли самой современной производительности в области компьютерного зрения.

Статья в тему:  Как создать приложение с искусственным интеллектом

API компьютерного зрения и распознавания изображений

Если вы инженер по машинному обучению, с этими моделями легко экспериментировать и настраивать их, используя предварительно обученные модели и веса либо в Keras/Tensorflow, либо в PyTorch. Если вам неудобно настраивать нейронные сети самостоятельно, вам повезло. Практически все ведущие технологические гиганты и многообещающие стартапы заявляют о «демократизации ИИ», предлагая простые в использовании API компьютерного зрения.

Какой из них лучше? Чтобы ответить на этот вопрос, вам нужно четко определить свои бизнес-цели, варианты использования продукта, наборы тестовых данных и показатели успеха, прежде чем вы сможете сравнивать решения друг с другом.

Вместо серьезного исследования мы можем, по крайней мере, получить общее представление о различном поведении каждой платформы, протестировав их с нашей игрушечной задачей отличить чихуахуа от булочки.

Проведение теста

Для этого я разделил канонический мем на 16 тестовых изображений. Затем я использую открытый исходный код, написанный инженером Гауравом Оберой, для объединения результатов различных API. Каждое изображение проталкивается через шесть перечисленных выше API, которые возвращают метки с высокой достоверностью в качестве своих прогнозов. Исключениями являются Microsoft, которая возвращает и метки, и подпись, и Cloudsight, которая использует гибридную технологию человека и ИИ для возврата только одной подписи. Вот почему Cloudsight может возвращать очень точные подписи к сложным изображениям, но обработка занимает в 10–20 раз больше времени.

Статья в тему:  Кто производит сенсоры для искусственного интеллекта

Ниже приведен пример вывода. Чтобы увидеть результаты всех 16 изображений чихуахуа и маффинов, нажмите здесь.

о-KK8nggi1ZmyE7EhqcGu2fqcdGkbSUBRRgW

Насколько хорошо работали API? Кроме Microsoft, которая перепутала этот маффин с плюшевой игрушкой, любой другой API распознал, что изображение было едой. Но не было соглашения о том, была ли еда хлебом, пирожными, печеньем или кексами. Google был единственным API, который успешно идентифицировал muffin как наиболее вероятный ярлык.

Давайте рассмотрим пример с чихуахуа.

tX48QszsaY1RK1WmvVDWHUHt4kFIrkR-8BaK

Опять же, API-интерфейсы показали себя довольно хорошо. Все они поняли, что на изображении изображена собака, хотя некоторые упустили точную породу.

Хотя были и явные провалы. Microsoft трижды возвращала явно неправильную подпись, описывая маффин либо как плюшевую игрушку, либо как плюшевого мишку.

6xtzbea81RgWkMAfu5lLoDKjj3jNY8HRZph1

Google был окончательным идентификатором маффинов, вернув «маффин» в качестве самой надежной метки для 6 из 7 изображений маффинов в тестовом наборе.Другие API не возвращали «маффин» в качестве первой метки для любого изображения маффин, а вместо этого возвращали менее релевантные метки, такие как «хлеб», «печенье» или «кекс».

Однако, несмотря на череду успехов, Google потерпел неудачу с этим конкретным изображением маффина, вернув в качестве прогнозов «морду» и «группу породы собак».

0ZsE4QYdBUOXYYKamg0ghO4bhncJgBL7L3WO

Даже самые передовые в мире платформы машинного обучения сбиты с толку нашим шутливым соревнованием чихуахуа против маффинов. Человеческий малыш опережает глубокое обучение, когда дело доходит до выяснения того, что такое еда и что такое Фидо.

Статья в тему:  Как авиакомпании используют искусственный интеллект

Итак, какой API компьютерного зрения лучше?

Чтобы узнать ответ на эту неуловимую загадку, вам придется зайти на TOPBOTS и прочитать оригинальную статью полностью!

голоса
Рейтинг статьи
Ссылка на основную публикацию
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x
Adblock
detector