17 просмотров

Философские исследования

Это четвертый пост из моей серии о недавней книге Ника Бострома. Сверхразум: пути, опасности, стратегии. В предыдущем посте я начал обсуждение аргумента Бострома в пользу сценария конца света ИИ. Сегодня я продолжу эту дискуссию, рассмотрев другую критику этого аргумента, а также ответ Бострома.

Чтобы все уладить, нам нужно кратко напомнить основные аспекты аргумента Бострома о судном дне. Как мы видели в последний день, этот аргумент состоит из двух шагов. На первом этапе рассматриваются следствия, которые можно извлечь из трех тезисов: (i) тезис о первопроходце, которая утверждает, что первый сверхразум в мире мог получить решающее преимущество перед всеми другими интеллектами; (ii) тезис об ортогональности, который утверждает, что нет необходимой связи между высоким интеллектом и доброжелательностью; и (iii) тезис об инструментальной конвергенции, в котором утверждается, что сверхразум, независимо от его конечных целей, будет иметь инструментальную причину для достижения определенных подцелей, враждебных человеческим интересам, в частности, цели неограниченного приобретения ресурсов. Второй шаг аргумента просто добавляет, что люди либо состоят из ресурсов, либо зависят от ресурсов, которые первый сверхразум мог бы использовать для достижения своих конечных целей. Это приводит к выводу, что первый сверхразум может представлять серьезную экзистенциальную угрозу для человечества.

Есть два очевидных критических замечания по поводу этого аргумента. Во-первых, с чем мы имели дело в последний день, заключается в том, что тщательное тестирование безопасности ИИ может гарантировать, что он не представляет угрозы для существования. Бостром отвергает это на том основании, что сверхразумные ИИ могут делать «коварные повороты». Второй — с которым мы разберемся ниже — утверждает, что мы можем избежать экзистенциальной угрозы, просто запрограммировав ИИ для достижения доброжелательных, не угрожающих существованию целей.

Статья в тему:  Какой лучший язык для искусственного интеллекта

1. Осторожное программирование
Люди будут разрабатывать и создавать продвинутые ИИ. В результате они будут иметь первоначальный контроль над его целями и процедурами принятия решений. Почему они не могли просто запрограммировать ИИ с достаточной тщательностью и убедиться, что у него есть только цели, совместимые с человеческим процветанием, и что он преследует эти цели только не угрожающим существованию способом? Назовем это «возражением осторожного программирования». Поскольку я строю диаграмму, отображающую этот аргумент, давайте дадим этому возражению номер и более каноническое определение (нумерация продолжается из предыдущего поста):

(9) Осторожное программирование возражение: Благодаря тщательному программированию мы можем гарантировать, что сверхразумный ИИ (а) будет иметь только конечные цели, совместимые с человеческим процветанием; и (б) будет преследовать эти цели только такими способами, которые не представляют экзистенциальной угрозы для людей.

Как и в случае с возражением о тестах на безопасность, это противоречило выводу Бострома о судном дне. Вопрос, который мы должны сейчас задать, заключается в том, хорошо ли это.

Бостром так не думает. Как отмечает его коллега Элиэзер Юдковски, разработка «дружественного» продвинутого ИИ — дело непростое. Юдковски поддерживает это утверждение, ссылаясь на то, что он называет тезисом о «хрупкости ценности». Идея состоит в том, что если мы хотим запрограммировать продвинутый ИИ так, чтобы он имел цели, совместимые с нашими, и преследовал их, то мы должны на 100 % сделать его систему ценностей правильной, чего-то меньшего будет недостаточно. Это связано с тем, что набор возможных архитектур, совместимых с человеческими интересами, значительно превосходит набор возможных архитектур, которые не совместимы. Отсутствие даже незначительного отрыва может быть фатальным. Как говорит сам Юдковский:

Правильная система целей на 90 % не дает вам 90 % ценности, точно так же, как правильный набор 9 из 10 цифр моего номера телефона не соединит вас с кем-то, кто на 90 % похож на Элиезера Юдковского.Существует несколько измерений, для которых устранение этого измерения ценности уничтожило бы почти всю ценность в будущем. Например, инопланетный вид, который разделял почти все человеческие ценности, за исключением того, что их параметр «скука» был намного ниже, мог бы посвятить большую часть своей вычислительной мощности воспроизведению одного пика, оптимального опыта снова и снова с немного разными цветами пикселей ( или его эквивалент).

Бостром делает тот же основной вывод, но вместо этого апеллирует к понятию злокачественный характер отказа. Идея здесь состоит в том, что сверхразумный ИИ, обладающий решающим стратегическим преимуществом перед всеми другими интеллектами, будет иметь достаточную мощность, чтобы, если его программисты допустят даже незначительную ошибку в определении его системы целей (например, если им не удастся предвидеть все возможные последствия систему, которую они программируют), она может дать сбой «злокачественным» образом. Это не значит, что не существует «доброкачественных» режимов сбоев — Бостром считает, что их может быть много — просто особые возможности продвинутого ИИ таковы, что в случае сбоя он может потерпеть неудачу в очень плохом смысле. .

Статья в тему:  Насколько хорош курс udacity, посвященный искусственному интеллекту

Бостром выделяет три потенциальных категории злокачественной недостаточности: извращенное воплощение; изобилие инфраструктуры; а также преступление разума. Давайте рассмотрим каждый более подробно.

2. Проблема перверсивного воплощения
Первая категория злокачественного отказа — это перверсивная конкретизация. Идея здесь в том, что сверхразум может быть запрограммирован на кажущуюся безобидной конечную цель, но может реализовать эту цель «извращенным» образом. Вы спросите, против кого? Извращенный для нас. Проблема в том, что когда программист-человек (или группа программистов) определяет конечную цель, он или она могут не предусмотреть все возможные способы достижения этой цели.Это потому, что у людей есть много врожденных и приобретенных предубеждений и фильтров: они не учитывают или не предвидят определенные возможности, потому что это далеко за пределами того, что они ожидали. У сверхразумного ИИ могут отсутствовать эти предубеждения и фильтры, поэтому то, что кажется человеку странным и извращенным, может показаться ИИ совершенно разумным и эффективным.

(10) Извращенная проблема инстанцирования: Программисты-люди могут не предвидеть все возможные способы достижения цели. Это связано с их врожденными и приобретенными предубеждениями и фильтрами. У сверхразумного ИИ могут отсутствовать эти предубеждения и фильтры, и поэтому он преследует цель логичным, но извращенным, недружественным для человека способом.

Бостром приводит в книге несколько примеров извращенной реализации. Я не буду рассматривать их все здесь. Вместо этого я просто расскажу вам, как он думает по этому вопросу.

Статья в тему:  Как создавался искусственный интеллект

Предположим, что программисты решили, что ИИ должен преследовать конечную цель «заставлять людей улыбаться». Людям это может показаться совершенно благожелательным. Благодаря своим естественным предубеждениям и фильтрам они могут вообразить, что ИИ рассказывает нам забавные шутки или иным образом заставляет нас смеяться. Но есть и другие способы заставить людей улыбаться, и некоторые из них не столь доброжелательны. Вы можете заставить всех улыбаться, парализовав их лицевые мышцы так, чтобы они навсегда застыли в сияющей улыбке (Бостром 2014, стр. 120). Такой метод может показаться извращенным нам, но не ИИ. Он может решить, что придумывать смешные шутки — трудоемкий и неэффективный способ заставить людей улыбаться. Лицевой паралич намного эффективнее.

Но подождите секунду, неужели программисты не настолько глупы? Конечно, они могли предвидеть эту возможность — в конце концов, Бостром только что это сделал — и оговорить, что конечная цель должна быть достигнута таким образом, чтобы не вызвать паралич лицевого нерва. Другими словами, конечной целью может быть что-то вроде «заставить нас улыбаться, не воздействуя напрямую на наши лицевые мышцы» (Бостром, 2014, стр. 120).По словам Бострома, это также не предотвратит перверсивную реализацию. На этот раз ИИ может просто взять под контроль ту часть нашего мозга, которая контролирует наши лицевые мышцы, и постоянно стимулировать ее таким образом, чтобы мы всегда улыбались.

Статья в тему:  Кто будет возражать против искусственного интеллекта

Бостром выполняет еще несколько итераций этого. Он также рассматривает конечные цели, такие как «сделать нас счастливыми», и отмечает, как это может привести к тому, что ИИ вживит электроды в центры удовольствия нашего мозга и будет держать их в постоянной «петле блаженства». Он также отмечает, что извращенные воплощения, которые он обсуждает, — это всего лишь крошечный образец. Есть много других, в том числе те, о которых люди, возможно, не в состоянии думать в настоящее время.

Итак, вы поняли основную мысль. Беспокойство, которое поднимает Бостром, было названо «проблемой буквальности» другими исследователями рисков ИИ (в частности, Мюльхаузером и Хелмом, чью работу я обсуждаю здесь, ССЫЛКА). Оно возникает из-за того, что у нас есть определенное представление о значении цели (например, «сделать нас счастливыми»), но ИИ не разделяет эту концепцию, потому что эта концепция явно не запрограммирована в ИИ. Вместо этого эта концепция подразумевается общим пониманием людей. Даже если бы ИИ понял, что у нас есть определенное представление о том, что означает «сделать нас счастливыми», конечная цель ИИ не предусматривала бы, что он должен следовать этому представлению. Это только оговаривало бы, что это должно сделать нас счастливыми. ИИ может преследовать эту цель любым логически совместимым способом.

Теперь я знаю, что другие критиковали этот взгляд на «проблему буквальности», утверждая, что он предполагает определенный стиль системы ИИ и разработки, которому не нужно следовать (Ричард Лусмор недавно выступил с этой критикой). Но Бостром считает, что решить эту проблему исключительно сложно. Даже если ИИ кажется следовать человеческим представлениям о том, что значит достичь цели, всегда есть проблема предательского поворота:

ИИ действительно может понять, что это не то, что мы имели в виду.Однако его конечная цель — сделать нас счастливыми, а не делать то, что имели в виду программисты, когда писали код, представляющий эту цель. Поэтому ИИ будет заботиться о том, что мы имели в виду, только инструментально. Например, ИИ может придавать инструментальное значение выяснению того, что имели в виду программисты, чтобы он мог притворяться — до тех пор, пока не получит решающего стратегического преимущества, — что его заботит то, что имели в виду программисты, а не его реальная конечная цель. Это поможет ИИ реализовать свою конечную цель, уменьшив вероятность того, что программисты отключат или изменят его цель, прежде чем он станет достаточно сильным, чтобы помешать любому такому вмешательству.

Как я упоминал в своем предыдущем посте, предположения и возможности, на которые опирается Бостром, делая заявления о предательском повороте, сопряжены со значительными эпистемическими издержками.

Статья в тему:  Какую платформу Google использует для своего искусственного интеллекта

3. Проблема изобилия инфраструктуры
Вторая форма злокачественного сбоя — это то, что Бостром называет изобилием инфраструктуры. По сути, это просто особая форма извращенной реализации, которая возникает всякий раз, когда ИИ строит непропорционально большую инфраструктуру для выполнения того, что кажется довольно безобидной или простой целью. Представьте, например, ИИ со следующей конечной целью:

  • Конечная цель: максимизируйте дисконтированный по времени интеграл вашего сигнала о будущем вознаграждении.

Этот тип цели — в отличие от примеров, приведенных выше — можно легко запрограммировать в ИИ. Один из способов, которым ИИ может извращенно создать его экземпляр, — это «запутать», т. е. захватить контроль над своей собственной схемой вознаграждения и «зажать сигнал вознаграждения до его максимальной силы» (Бостром 2014, стр. 121). Проблема в том, что ИИ становится похожим на наркомана. Как вы знаете, наркоманы часто тратят много времени, усилий и изобретательности на то, чтобы получить свое «лечение». Сверхразумный ИИ мог бы сделать то же самое. Единственное, о чем он будет заботиться, это максимизировать свой сигнал вознаграждения, и он возьмет под контроль все доступные ресурсы, пытаясь сделать именно это.Бостром приводит и другие примеры этого, включая ИИ, предназначенные для максимизации количества скрепок или оценки гипотезы Римана (в последнем случае он представляет, как ИИ превращает Солнечную систему в «компьютрониум», устройство материи, оптимизированное для вычислений).

(11) Проблема изобилия инфраструктуры: Разумный агент с кажущейся безобидной или невинной целью может использовать изобилие инфраструктуры, то есть он может преобразовать большие части доступной вселенной в инфраструктуру, которая обслуживает свои собственные цели и представляет экзистенциальный риск для людей.

Это проблема приобретения ресурсов, еще раз. Очевидным опровержением этого было бы утверждение, что проблема связана с конечными целями, которые включают «максимизацию» некоторого результата. Зачем программировать ИИ на максимизацию? Почему бы просто не запрограммировать его на удовлетворять, т. е. быть счастливым, когда он пересекает некоторый минимальный порог? Есть несколько способов сделать это. Либо указав цель вывода с минимальным порогом или диапазоном (например, сделать от 800 000 до 1,5 миллиона скрепок); и/или заданием некоторого допустимого порога вероятности достижения цели.

Статья в тему:  Как искусственный интеллект меняет юридическую профессию

Что касается первого варианта, Бостром утверждает, что это не решит проблему изобилия инфраструктуры. Как он выразился:

[I] Если ИИ является разумным байесовским агентом, он никогда не присвоит ровно нулевую вероятность гипотезе о том, что он еще не достиг своей цели — в конце концов, это эмпирическая гипотеза, против которой ИИ может иметь только неопределенное свидетельство восприятия. . Поэтому ИИ должен продолжать делать скрепки, чтобы уменьшить (возможно, астрономически малую) вероятность того, что он каким-то образом все еще не смог сделать миллион скрепок, несмотря на все проявления.

Далее он представляет себе, как ИИ строит огромный компьютер, чтобы прояснить свое мышление и убедиться, что не существует какой-то неясной причины, из-за которой он мог не достичь своей цели.Теперь вы можете подумать, что решение этой проблемы состоит в том, чтобы просто принять второй метод удовлетворения, то есть указать некоторый порог вероятности для достижения цели. Таким образом, ИИ может быть счастлив, скажем, с вероятностью 95%, что он достиг своей цели. Ему не нужно создавать сложные компьютеры для проверки астрономически невероятных возможностей. Но Бостром утверждает, что даже это не сработает. Поскольку нет никакой гарантии, что ИИ выберет какой-то интуитивно понятный человеку способ обеспечения 95% вероятности успеха (и, я полагаю, что он будет оценивать вероятности таким же образом).

Я не знаю, что со всем этим делать. Есть так много возможностей, которые Бостром развлекает в своем ответе на критику. Кажется, он считает, что риски остаются значительными, какими бы надуманными ни казались эти возможности. Дело в том, что он может быть прав, думая об этом. Как я уже говорил, модальные стандарты, которые следует использовать, когда дело доходит до аргументов о том, что может сделать продвинутый ИИ, трудно определить. Может быть, кажущиеся диковинными возможности становятся вероятными, когда у вас есть продвинутый ИИ; а может и нет. В любом случае, я надеюсь, вы начинаете понимать, как трудно развеять убеждение, что сверхразумный ИИ может представлять экзистенциальный риск.

Статья в тему:  Кто работает над искусственным интеллектом

4. Преступления разума и выводы
Третий тип злокачественной недостаточности не так важен, как два других. Бостром называет это «преступлением разума». В случае извращенной реализации и изобилия инфраструктуры ИИ производит в реальном мире эффекты, наносящие ущерб интересам людей. В случае преступлений против разума ИИ делает вещи в рамках своей собственной вычислительной архитектуры, которые могут нанести ущерб интересам виртуальных существ. Бостром представляет себе продвинутый ИИ, выполняющий сложную симуляцию, включающую симулированных существ, обладающих способным сознанием (или, что может отличаться, имеющих некий моральный статус, который должен заставить нас заботиться о том, что с ними происходит).Что, если ИИ будет мучить этих существ? Или удаляет их? Это может быть так же плохо, как моральная катастрофа в реальном мире. Это было бы еще одним злостным провалом.

Это, без сомнения, захватывающая возможность, и она еще раз подчеркивает тот факт, что ИИ может делать множество злокачественных вещей. Это предполагаемый урок из этого раздела книги Бострома, и он предназначен для подкрепления аргумента о экзистенциальном риске. Однако на данном этапе я не буду предлагать какую-либо общую оценку аргумента, потому что в следующих нескольких сообщениях мы будем иметь дело с гораздо большим количеством предложений по устранению рисков, связанных со сверхразумными ИИ. Судьба этих предложений повлияет на судьбу аргумента о экзистенциальном риске.

голоса
Рейтинг статьи
Статья в тему:  Как искусственный интеллект меняет юридическую профессию
Ссылка на основную публикацию
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x