Реальная проверка искусственного интеллекта: преувеличены ли заявления о здравоохранении?
Как и бывает, когда в дело вмешивается технологическая индустрия, ажиотаж вокруг заявлений о том, что искусственный интеллект поможет пациентам и даже заменит некоторых врачей.
(Линн Шеллкросс/KHN Illustration; Getty Images)
Эта история также была опубликована в журнале Scientific American. Эта история может быть переиздана бесплатно (подробности).
Продукты для здоровья, основанные на искусственном интеллекте, или ИИ, проникают в нашу жизнь, от виртуальных приложений для врачей до носимых датчиков и чат-ботов в аптеках.
IBM хвасталась, что ее ИИ может «перехитрить рак». Другие говорят, что компьютерные системы, которые считывают рентгеновские снимки, сделают радиологов устаревшими.
«За 30 с лишним лет изучения медицины я не видел ничего, что могло бы быть столь же эффективным и революционным», как ИИ, — сказал доктор Эрик Тополь, кардиолог и исполнительный вице-президент Scripps Research в Ла-Хойя, Калифорния. По словам Тополя, они могут помочь врачам интерпретировать МРТ сердца, компьютерную томографию головы и фотографии задней части глаза и потенциально могут взять на себя многие рутинные медицинские обязанности, освобождая врачей для проведения большего количества времени в общении с пациентами.
Даже Управление по санитарному надзору за качеством пищевых продуктов и медикаментов, которое за последние пять лет одобрило более 40 продуктов ИИ, говорит, что «потенциал цифрового здравоохранения не что иное, как революционный».
Тем не менее, многие эксперты в области здравоохранения опасаются, что продукты на основе ИИ не смогут соответствовать шумихе. Многие врачи и защитники прав потребителей опасаются, что технологическая индустрия, живущая по принципу «сбой быстро и исправление позже», подвергает пациентов риску, и что регулирующие органы делают недостаточно для обеспечения безопасности потребителей.
По словам Милдред Чо, профессора педиатрии Стэнфордского центра биомедицинской этики, ранние эксперименты с ИИ дают основания для осторожности.
По словам Чо, системы, разработанные в одной больнице, часто дают сбои при развертывании в другом учреждении. Доказано, что программное обеспечение, используемое для ухода за миллионами американцев, дискриминирует меньшинства. И системы ИИ иногда учатся делать прогнозы на основе факторов, которые имеют меньшее отношение к болезни, чем марка используемого аппарата МРТ, время взятия анализа крови или посещение пациента священником. В одном случае программное обеспечение ИИ ошибочно пришло к выводу, что у людей с пневмонией меньше шансов умереть, если у них астма — ошибка, из-за которой врачи могли лишить пациентов с астмой необходимой им дополнительной помощи.
«Это только вопрос времени, когда что-то подобное приведет к серьезной проблеме со здоровьем», — сказал доктор Стивен Ниссен, заведующий отделением кардиологии в Кливлендской клинике.
Медицинский ИИ, который только в третьем квартале привлек $1,6 млрд венчурного капитала, находится «почти на пике завышенных ожиданий», говорится в июльском отчете исследовательской компании Gartner. «Поскольку реальность будет проверена, вероятно, произойдет резкое сползание в пропасть разочарования».
Эта проверка реальностью может привести к разочаровывающим результатам, когда продукты ИИ появятся в реальном мире. Даже Тополь, автор книги «Глубокая медицина: как искусственный интеллект может снова сделать здравоохранение человеком», признает, что многие продукты ИИ — не более чем болтовня. «Это смешанная ситуация», — сказал он.
(Линн Шеллкросс/KHN Illustration; Getty Images)
Такие эксперты, как доктор Боб Кочер, партнер венчурной компании Venrock, высказываются более прямолинейно. «Большинство продуктов ИИ имеют мало доказательств в их поддержку», — сказал Кохер. Некоторые риски не станут очевидными до тех пор, пока система ИИ не будет использоваться большим количеством пациентов. «Мы продолжим обнаруживать целый ряд рисков и непредвиденных последствий использования ИИ для обработки медицинских данных», — сказал Кохер.
По словам Тополя, ни один из продуктов ИИ, продаваемых в США, не прошел рандомизированных клинических испытаний, что является самым убедительным источником медицинских доказательств.Первое и единственное рандомизированное исследование системы искусственного интеллекта, которое показало, что колоноскопия с компьютерной диагностикой обнаруживает больше мелких полипов, чем стандартная колоноскопия, было опубликовано в Интернете в октябре.
Согласно январской статье в Европейском журнале клинических исследований, немногие технологические стартапы публикуют свои исследования в рецензируемых журналах, что позволяет другим ученым тщательно изучить их работу. Такие «невидимые исследования», описанные только в пресс-релизах или на рекламных мероприятиях, часто преувеличивают достижения компании.
И хотя разработчики программного обеспечения могут похвастаться точностью своих ИИ-устройств, эксперты отмечают, что модели ИИ в основном тестируются на компьютерах, а не в больницах или других медицинских учреждениях. Использование непроверенного программного обеспечения «может превратить пациентов в невольных морских свинок», — сказал доктор Рон Ли, директор по медицинской информатике клинической интеграции ИИ в Stanford Health Care.
Системы ИИ, которые учатся распознавать закономерности в данных, часто называют «черными ящиками», потому что даже их разработчики не знают, как они пришли к таким выводам. Учитывая, что искусственный интеллект настолько нов, а многие его риски неизвестны, эта область нуждается в тщательном надзоре, считает Пилар Оссорио, профессор права и биоэтики в Университете Висконсин-Мэдисон.
Тем не менее, большинство устройств ИИ не требуют одобрения FDA.
«Ни одна из компаний, в которые я инвестировал, не подпадает под действие правил FDA», — сказал Кохер.
Законодательство, принятое Конгрессом в 2016 году и поддержанное технологической отраслью, освобождает многие виды медицинского программного обеспечения от федерального контроля, включая определенные фитнес-приложения, электронные медицинские карты и инструменты, которые помогают врачам принимать медицинские решения.
Согласно отчету об искусственном интеллекте, опубликованному 17 декабря Национальной медицинской академией, было проведено мало исследований о том, действительно ли 320 000 используемых медицинских приложений улучшают здоровье.
Если быстрая неудача означает, что погибнет целая куча людей, я не думаю, что мы хотим быстро потерпеть неудачу.Никто не будет счастлив, включая инвесторов, если люди погибнут или получат серьезные травмы.
Орен Эциони, главный исполнительный директор Allen Institute for AI в Сиэтле
«Почти ничего из того, что [ИИ] продается пациентам, на самом деле не работает», — сказал доктор Иезекииль Эмануэль, профессор медицинской этики и политики в области здравоохранения в Медицинской школе Перельмана при Пенсильванском университете.
FDA уже давно сосредоточило свое внимание на устройствах, представляющих наибольшую угрозу для пациентов. И защитники прав потребителей признают, что некоторые устройства — например, те, которые помогают людям подсчитывать их ежедневные шаги, — нуждаются в меньшем внимании, чем те, которые диагностируют или лечат болезни.
Согласно исследованию, проведенному в 2018 году в Annals of Internal Medicine, некоторые разработчики программного обеспечения не обращаются за разрешением или разрешением FDA, даже если это требуется по закону.
Отраслевые аналитики говорят, что разработчики ИИ мало заинтересованы в проведении дорогостоящих и трудоемких испытаний. «Главной заботой этих фирм является не то, чтобы подвергать себя строгой оценке, которая будет опубликована в рецензируемом журнале», — сказал Йоахим Роски, директор Booz Allen Hamilton, технологической консалтинговой фирмы, и соавтор Национального Отчет академии. «Экономика США работает не так».
Но Орен Этциони, главный исполнительный директор Института искусственного интеллекта Аллена в Сиэтле, сказал, что у разработчиков искусственного интеллекта есть финансовый стимул для обеспечения безопасности своих медицинских продуктов.
«Если быстрая неудача означает, что погибнет целая куча людей, я не думаю, что мы хотим быстро потерпеть неудачу», — сказал Этциони. «Никто не будет счастлив, включая инвесторов, если люди умрут или получат серьезные травмы».
Смягчающие стандарты в FDA
В последние годы FDA подверглось критике за разрешение продажи опасных медицинских устройств, которые, по данным Международного консорциума журналистов-расследователей, стали причиной 80 000 смертей и 1,7 миллиона травм за последнее десятилетие.
Многие из этих устройств были допущены к использованию в рамках спорного процесса, называемого путем 510 (k), который позволяет компаниям продавать продукты «умеренного риска» без клинических испытаний, если они считаются аналогичными существующим устройствам.
В 2011 году комитет Национальной медицинской академии пришел к выводу, что процесс 510(k) настолько фундаментально ошибочен, что FDA следует отказаться от него и начать все сначала.
Вместо этого FDA использует этот процесс, чтобы дать зеленый свет устройствам с искусственным интеллектом.
Управление по санитарному надзору за качеством пищевых продуктов и медикаментов со штаб-квартирой недалеко от Вашингтона, округ Колумбия, уже давно сосредоточило свое внимание на устройствах, представляющих наибольшую угрозу для пациентов. (Перекличка Аль Драго/CQ через AP Images)
Согласно ноябрьской статье в JAMA, из 14 продуктов искусственного интеллекта, разрешенных FDA в 2017 и 2018 годах, 11 прошли процедуру 510(k). Ни один из них, по-видимому, не прошел новые клинические испытания, говорится в исследовании. В 2018 году FDA одобрило устройство с искусственным интеллектом, предназначенное для диагностики рака печени и легких, на основании его сходства с программным обеспечением для визуализации, одобренным 20 лет назад. Само это программное обеспечение было одобрено, потому что оно считалось «по существу эквивалентным» продуктам, выпущенным на рынок до 1976 года.
Продукты искусственного интеллекта, одобренные FDA сегодня, в значительной степени «заблокированы», поэтому их расчеты и результаты не изменятся после выхода на рынок, сказал Бакул Патель, директор по цифровому здравоохранению в Центре устройств и радиологического здоровья FDA. FDA еще не разрешило «разблокированные» устройства ИИ, результаты которых могут меняться от месяца к месяцу таким образом, что разработчики не могут предсказать.
Чтобы справиться с потоком продуктов ИИ, FDA тестирует радикально иной подход к регулированию цифровых устройств, сосредоточив внимание на оценке компаний, а не продуктов.
Пилотная программа «предварительной сертификации» FDA, запущенная в 2017 году, предназначена для «сокращения времени и стоимости выхода на рынок для разработчиков программного обеспечения», предлагая «наименее обременительную» систему.Чиновники FDA говорят, что хотят идти в ногу с разработчиками программного обеспечения для ИИ, которые обновляют свои продукты гораздо чаще, чем производители традиционных устройств, таких как рентгеновские аппараты.
Скотт Готтлиб сказал в 2017 году, когда он был комиссаром FDA, что государственные регулирующие органы должны убедиться, что их подход к инновационным продуктам «эффективен и способствует, а не препятствует инновациям».
Согласно плану, FDA будет предварительно сертифицировать компании, которые «демонстрируют культуру качества и организационное превосходство», что позволит им предоставлять меньше предварительных данных об устройствах.
Компании, прошедшие предварительную сертификацию, могли затем выпускать устройства с «упрощенной» проверкой — или вообще без проверки FDA. Как только продукты появятся на рынке, компании будут нести ответственность за контроль безопасности своих продуктов и предоставление отчетов в FDA. Для пилота были отобраны девять компаний: Apple, FitBit, Samsung, Johnson and Johnson, Pear Therapeutics, Phosphorus, Roche, Tidepool и Verily Life Sciences.
Продукты с высоким уровнем риска, такие как программное обеспечение, используемое в кардиостимуляторах, по-прежнему будут проходить всестороннюю оценку FDA. «Мы определенно не хотим, чтобы пациенты пострадали», — сказал Патель, отметив, что устройства, прошедшие предварительную сертификацию, могут быть отозваны в случае необходимости. «Есть еще много ограждений».
Но исследования показывают, что даже устройства с низким и умеренным риском были отозваны из-за серьезного риска для пациентов, сказала Диана Цукерман, президент Национального центра исследований в области здравоохранения. «Люди могут пострадать, потому что не требовалось доказывать точность или безопасность чего-либо, прежде чем оно станет широко использоваться».
Джонсон и Джонсон, например, отозвали имплантаты бедра и хирургическую сетку.
В серии писем в FDA, Американская медицинская ассоциация и другие организации поставили под сомнение целесообразность предоставления компаниям возможности контролировать собственную эффективность и безопасность продукции.
«Система чести — это не режим регулирования», — сказал доктор Джесси Эренфельд, председатель попечительского совета группы врачей.
В октябрьском письме в FDA сенаторы Элизабет Уоррен (штат Массачусетс), Тина Смит (штат Миннесота) и Пэтти Мюррей (штат Вашингтон) поставили под сомнение способность агентства обеспечивать «точность и своевременность отчетов о безопасности компании». и на основе всей доступной информации».
Скотт Готтлиб сказал в 2017 году, когда он был комиссаром FDA, что государственные регулирующие органы должны убедиться, что их подход к инновационным продуктам «эффективен и способствует, а не препятствует инновациям». (Фрэнсис Ин/KHN)
Когда хорошие алгоритмы становятся плохими
Некоторые устройства ИИ тестируются более тщательно, чем другие.
Инструмент скрининга диабетического заболевания глаз на основе ИИ был изучен у 900 пациентов в 10 отделениях первичной медико-санитарной помощи, прежде чем был одобрен в 2018 году. Производитель, IDx Technologies, работал с FDA в течение восьми лет, чтобы получить правильный продукт, сказал д-р Майкл Абрамофф. , основатель компании и исполнительный председатель.
Тест, продаваемый как IDx-DR, позволяет выявить у пациентов диабетическую ретинопатию, основную причину слепоты, и направляет пациентов с высоким риском к окулистам, которые ставят окончательный диагноз.
IDx-DR — это первый «автономный» продукт искусственного интеллекта, который может принимать решение о скрининге без участия врача. В настоящее время компания устанавливает его в поликлиниках первичной медико-санитарной помощи и продуктовых магазинах, где с ним могут работать сотрудники со средним образованием. Компания Абрамофф пошла на необычный шаг, купив страховку ответственности для покрытия любых травм пациентов.
Тем не менее, некоторые инновации на основе ИИ, направленные на улучшение ухода, имели противоположный эффект.
Канадская компания, например, разработала программное обеспечение с искусственным интеллектом для прогнозирования риска развития болезни Альцгеймера у человека на основе его речи. Прогнозы были более точными для некоторых пациентов, чем для других. «Трудности с поиском подходящего слова могут быть связаны с незнанием английского языка, а не с когнитивными нарушениями», — сказал соавтор Фрэнк Рудзиц, доцент компьютерных наук в Университете Торонто.
Врачи нью-йоркской больницы Mount Sinai надеялись, что искусственный интеллект поможет им использовать рентген грудной клетки, чтобы предсказать, какие пациенты подвержены высокому риску пневмонии. Хотя система делала точные прогнозы на основе рентгеновских снимков, сделанных на горе Синай, технология провалилась при тестировании на изображениях, сделанных в других больницах. В конце концов исследователи поняли, что компьютер просто научился отличать портативные рентгеновские снимки грудной клетки в этой больнице, сделанные у постели больного, и снимки, сделанные в рентгенологическом отделении. Врачи, как правило, используют портативные рентгенограммы грудной клетки для пациентов, которые слишком больны, чтобы покинуть свою палату, поэтому неудивительно, что у этих пациентов был больший риск легочной инфекции.
В то время как работа предпринимателей — мыслить масштабно и идти на риск, работа врачей — защищать своих пациентов.
Доктор Викас Саини, кардиолог и президент некоммерческого Института Лауна, выступающего за более широкий доступ к медицинскому обслуживанию.
DeepMind, компания, принадлежащая Google, создала мобильное приложение на основе искусственного интеллекта, которое может прогнозировать, у каких госпитализированных пациентов разовьется острая почечная недостаточность, за 48 часов. В сообщении в блоге на веб-сайте DeepMind система, используемая в лондонской больнице, описывается как «изменившая правила игры». Но, согласно июльскому исследованию, опубликованному в журнале Nature, система искусственного интеллекта также выдавала два ложных срабатывания на каждый правильный результат. Это может объяснить, почему функция почек пациентов не улучшилась, сказал доктор Саурабх Джа, доцент радиологии в больнице Пенсильванского университета. По словам Джа, любая польза от раннего выявления серьезных проблем с почками могла быть ослаблена высоким уровнем «гипердиагностики», когда система ИИ помечала пограничные проблемы с почками, которые не требовали лечения. В Google не прокомментировали выводы Джа.
По словам Джа, ложноположительные результаты могут нанести вред пациентам, побуждая врачей назначать ненужные тесты или отказываться от рекомендуемого лечения.Например, врач, беспокоящийся о почках пациента, может прекратить прописывать ибупрофен — в целом безопасное обезболивающее, которое представляет небольшой риск для функции почек — в пользу опиоида, который сопряжен с серьезным риском привыкания.
Как показывают эти исследования, программное обеспечение с впечатляющими результатами в компьютерной лаборатории может дать сбой при тестировании в реальном времени, сказал Чо из Стэнфорда. Это связано с тем, что болезни более сложны, а система здравоохранения гораздо более нефункциональна, чем предполагают многие компьютерщики.
По словам Чо, многие разработчики ИИ отбраковывают электронные медицинские карты, потому что они содержат огромное количество подробных данных. Но эти разработчики часто не осознают, что строят на основе глубоко сломанной системы. Электронные медицинские карты были разработаны для выставления счетов, а не для ухода за пациентами, и заполнены ошибками или отсутствующими данными.
Расследование KHN, опубликованное в марте, выявило иногда опасные для жизни ошибки в списках лекарств пациентов, лабораторных анализах и аллергии.
Ввиду связанных с этим рисков врачи должны вмешаться, чтобы защитить интересы своих пациентов, сказал доктор Викас Шайни, кардиолог и президент некоммерческого Института Лауна, который выступает за более широкий доступ к медицинской помощи.
«Хотя работа предпринимателей — мыслить масштабно и идти на риск, — сказал Шайни, — работа врачей — защищать своих пациентов».