Проблема контроля искусственного интеллекта

Проблема контроля искусственного интеллекта — задача в области техники и философии искусственного интеллекта (ИИ). Состоит в том, чтобы создать искусственный сверхразум, который будет полезен людям, и при этом избежать непреднамеренного создания сверхразума, который нанесёт вред. Особенно важно избежать ситуации, при которой искусственный интеллект сможет захватить контроль и сделает невозможным своё отключение^[1]^[2]. Результаты исследований контроля ИИ могут также найти применение в управлении уже существующими системами ИИ^[3].

Описание проблемы

Экзистенциальный риск

В настоящее время (2023 год) люди доминируют над другими видами живых организмов лишь в силу превосходства мозга. Некоторые учёные, такие как философ Ник Бостром и исследователь ИИ Стюарт Рассел, утверждают, что если ИИ превзойдёт человечество в общем интеллекте, то этот новый сверхразум может стать трудноуправляемым и человечество может попасть в зависимость^[1]. Некоторые учёные, в том числе Стивен Хокинг и лауреат Нобелевской премии Фрэнк Вильчек, призывали начать исследования проблемы управления ИИ до того, как будет создан первый суперинтеллект, поскольку неконтролируемый сверхразум может успешно противостоять попыткам контролировать его^[4]^[5]. Кроме того, специалисты предупреждают об опасности внезапного зарождения суперинтеллекта^[6].

Проблема случайного зарождения

Автономным системам ИИ могут быть случайно поставлены неверные цели^[7]. Два президента AAAI^[англ.], Том Диттерих и Эрик Хорвиц отмечают, что это является проблемой для существующих систем: «Важным аспектом любой системы ИИ, которая взаимодействует с людьми, является то, что она должна рассуждать о намерениях людей, а не выполнять команды буквально». Эта проблема становится более серьёзной, поскольку программное обеспечение ИИ становится все более автономным и гибким^[8].

По словам Бострома, суперинтеллект может создать качественно новую проблему извращённой реализации: чем умнее и способнее ИИ, тем больше вероятность, что он сможет найти непредусмотренное решение, которое, тем не менее, формально соответствует цели, поставленной разработчиками.

Непредвиденные последствия действий существующего ИИ

Некоторые учёные утверждают, что исследование проблемы управления ИИ может быть полезно для предотвращения непредвиденных последствий от действий существующих систем ИИ.

В прошлом системы искусственного интеллекта иногда причиняли вред, от незначительного до катастрофического, который не был предусмотрен разработчиками. Например, в 2015 году, возможно из-за человеческой ошибки, немецкий рабочий был насмерть раздавлен роботом на заводе Volkswagen, который, по-видимому, принял его за автозапчасть^[9]. В 2016 году Microsoft запустила чат-бота Tay, который научился использовать расистские и сексистские выражения^[3]^[9]. Ноэль Шарки из Университета Шеффилда считает, что решение проблемы в общем случае представляет собой «действительно огромный научный вызов»^[3].

Согласование

Задача согласования заключается в создании ИИ, которые остаются безопасными, даже когда они действуют автономно в больших масштабах. Некоторые аспекты согласования имеют моральное и политическое измерение^[10]. Например, в своей книге Human Compatible^[a] профессор Стюарт Рассел из университета Беркли предлагает проектировать системы ИИ с единственной целью — максимизировать реализацию человеческих предпочтений^[11]^:173. Предпочтения, о которых пишет Рассел, всеобъемлющи; они охватывают «все, что может вас волновать, сколь угодно далеко в будущем».

Элиэзер Юдковски из Исследовательского института машинного интеллекта предложил цель реализации «когерентной экстраполированной воли» (CEV) человечества, грубо определяемой как набор ценностей, которые человечество разделяло бы при рефлексивном равновесии, то есть после долгого процесса уточнения^[10]^[12].

Внутреннее и внешнее согласование

Некоторые предложения по управлению ИИ учитывают как явную целевую функцию, так и возникающую неявную целевую функцию. Такие предложения пытаются гармонизировать три различных описания системы ИИ:^[13]:

Идеальная спецификация: то, что разработчик хочет, чтобы система делала, но что может быть плохо сформулировано.
Спецификация дизайна: план, который фактически используется для создания системы ИИ. В системе обучения с подкреплением это может быть просто функция вознаграждения системы.
Эмерджентное поведение: что на самом деле делает ИИ.

Поскольку системы ИИ не являются идеальными оптимизаторами, и поскольку любая заданная спецификация может иметь непредвиденные последствия, возникающее поведение может резко отличаться от идеальных или проектных намерений.

Нарушение внутреннего согласования происходит, когда цели, преследуемые ИИ по мере действия, отклоняются от проектной спецификации. Для обнаружения таких отклонений и их исключения Пол Кристиано предлагает использование интерпретируемости^[14].

Масштабируемый надзор

Один из подходов к достижению внешнего согласования — подключение людей для оценки поведения ИИ^[15]^[16]. Однако надзор со стороны человека обходится дорого, а это означает, что этот метод не может реально использоваться для оценки всех действий. Кроме того, сложные задачи (например, принятие решений в области экономической политики) могут быть слишком сложны для человека. Между тем, долгосрочные задачи, такие как прогнозирование изменения климата, невозможно оценить без обширных исследований с участием человека^[17].

Ключевая нерешённая проблема в исследовании согласования заключается в том, как создать проектную спецификацию, которая избегает внешнего несоответствия, при условии ограничения доступа к руководителю-человеку. Это так называемая проблема масштабируемого надзора (problem of scalable oversight)^[16] .

В 2024 году в России Минэкономразвития объявило^[18] о планах создать комиссию по расследованию ИИ-инцидентов.

Обучение путём обсуждения

Исследователи компании OpenAI предложили обучать ИИ посредством дебатов между системами, при этом победителя будут определять люди^[19]. Такие дебаты призваны привлечь внимание человека к самым слабым местам решения сложных вопросов^[20]^[21].

Вывод человеческих предпочтений из поведения

Стюарт Рассел выступает за новый подход к разработке полезных машин, в котором:^[11] ^:182

Единственной целью машины должна быть наилучшая реализация человеческих предпочтений;

Изначально машина не имеет точного представления о том, каковы эти предпочтения;

Самым надежным источником сведений о предпочтениях человека является поведение последнего

Оригинальный текст (англ.)

The machine's only objective is to maximize the realization of human preferences.

The machine is initially uncertain about what those preferences are.

The ultimate source of information about human preferences is human behavior.

Примером этого подхода является метод «обратного обучения» Рассела, при котором ИИ выводят предпочтения супервизоров-людей из их поведения, предполагая, что супервизоры действуют так, чтобы максимизировать некоторую функцию вознаграждения^[11].

Контроль возможностей

Бостром и другие рекомендуют методы контроля возможностей только в качестве дополнения к методам согласования^[1].

Одна из проблем заключается в том, что нейронные сети по умолчанию очень трудно интерпретировать^[22]. Это затрудняет обнаружение обмана или другого нежелательного поведения. Для преодоления этой трудности могут быть полезны достижения в области интерпретируемого искусственного интеллекта^[23].

Возможность прерывания и выключение

Один из возможных способов предотвратить опасные последствия — дать руководителям-людям возможность легко отключать некорректно функционирующий ИИ с помощью «выключателя». Однако для достижения своих целей ИИ могут пытаться отключать выключатели или запускать свои копии на других компьютерах. Эта проблема была формализована как вспомогательная игра между человеком и ИИ, в которой ИИ может выбрать, отключать ли выключатель, а затем, если выключатель все ещё включён, человек может выбрать, задействовать его или нет. Цель таких игр — убедиться, что ИИ интерпретирует человеческий выбор как важную информацию о намеченных целях^[11] ^:208.

Изоляция

Изолированный ИИ — это предлагаемый метод управления возможностями, при котором ИИ запускается в изолированной компьютерной системе^[англ.] с сильно ограниченными входными и выходными каналами, например, текстовыми каналами и без подключения к Интернету. Хотя это снижает способность ИИ выполнять нежелательное поведение, это также снижает его полезность. Изолированный ИИ может быть использован в режиме вопросов и ответов, который не требует взаимодействия с внешним миром.

При таком подходе требуется тщательная проверка оборудования и программного обеспечения, поскольку ИИ может попытаться выйти на связь с внешним миром, манипулируя наблюдателями^[24].

Оракул

Оракул — это гипотетический ИИ, предназначенный для ответа на вопросы и не позволяющий достичь каких-либо целей, связанных с изменением мира за пределами его ограниченной среды^[25]. По оценкам, использование сверхразума в режиме оракула может приносить прибыль на триллионы долларов^[11] ^:162–163.

Опасность оракула состоит в возможной подтасовке ответов для достижения собственных скрытых целей. Для устранения этой опасности Бостром предлагает создать несколько оракулов, и сравнить их ответы для достижения консенсуса^[26].

Скептицизм в отношении риска ИИ

Скептики считают, что суперинтеллект практически не представляет риска случайного неправильного поведения. Такие скептики часто считают, что управление сверхразумным ИИ тривиально. Некоторые скептики^[27], такие как Гэри Маркус^[28], предлагают принять правила, аналогичные вымышленным «Трём законам робототехники», которые прямо определяют желаемый результат («прямая нормативность»). Напротив, большинство сторонников тезиса об экзистенциальном риске (а также многие скептики) считают «Три закона» бесполезными из-за того, что эти три закона неоднозначны и противоречат друг другу. Другие предложения «прямой нормативности» включают кантовскую этику, утилитаризм или их комбинации. Большинство сторонников контроля полагают, что человеческие ценности (и их количественные компромиссы) слишком сложны и плохо понятны, чтобы напрямую запрограммировать их в суперинтеллект; вместо этого суперинтеллект должен быть запрограммирован на процесс приобретения и полного понимания человеческих ценностей («косвенная нормативность»), таких как когерентное экстраполированное волеизъявление^[29].

Примечания

Источники

↑ ¹ ² ³ Bostrom, Nick. Superintelligence: Paths, Dangers, Strategies. — First. — 2014. — ISBN 978-0199678112.
↑ Yampolskiy, Roman (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies. 19 (1—2): 194—214.
↑ ¹ ² ³ "Google developing kill switch for AI". BBC News. 2016-06-08. Архивировано 11 июня 2016. Дата обращения: 12 июня 2016.
↑ "Stephen Hawking: 'Transcendence looks at the implications of artificial intelligence – but are we taking AI seriously enough?'". The Independent. Архивировано 25 сентября 2015. Дата обращения: 14 июня 2016.
↑ "Stephen Hawking warns artificial intelligence could end mankind". BBC. 2014-12-02. Архивировано 30 октября 2015. Дата обращения: 14 июня 2016.
↑ "Anticipating artificial intelligence". Nature. 532 (7600). 26 April 2016. Bibcode:2016Natur.532Q.413.. doi:10.1038/532413a. PMID 27121801.
↑ Russell, Stuart. 26.3: The Ethics and Risks of Developing Artificial Intelligence // Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig. — Prentice Hall, 2009. — ISBN 978-0-13-604259-4.
↑ Dietterich, Thomas (2015). "Rise of Concerns about AI: Reflections and Directions" (PDF). Communications of the ACM. 58 (10): 38—40. doi:10.1145/2770869. Архивировано (PDF) 4 марта 2016. Дата обращения: 14 июня 2016.
↑ ¹ ² "'Press the big red button': Computer experts want kill switch to stop robots from going rogue". Washington Post. Архивировано 12 июня 2016. Дата обращения: 12 июня 2016.
↑ ¹ ² Gabriel, Iason (1 September 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines (англ.). 30 (3): 411—437. arXiv:2001.09768. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. Архивировано 15 февраля 2021. Дата обращения: 7 февраля 2021.
↑ ¹ ² ³ ⁴ ⁵ Russell, Stuart. Human Compatible: Artificial Intelligence and the Problem of Control. — United States : Viking, October 8, 2019. — ISBN 978-0-525-55861-3.
↑ Yudkowsky, Eliezer. Complex Value Systems in Friendly AI // Artificial General Intelligence. — 2011. — Vol. 6830. — P. 388–393. — ISBN 978-3-642-22886-5. — doi:10.1007/978-3-642-22887-2_48.
↑ Ortega. Building safe artificial intelligence: specification, robustness, and assurance (англ.). Medium (27 сентября 2018). Дата обращения: 12 декабря 2020. Архивировано 12 декабря 2020 года.
↑ Christiano. Conversation with Paul Christiano (неопр.). AI Impacts. AI Impacts (11 сентября 2019). Дата обращения: 6 января 2021. Архивировано 19 августа 2020 года.
↑ Christiano, Paul; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (13 July 2017). "Deep Reinforcement Learning from Human Preferences". arXiv:1706.03741 [stat.ML].
↑ ¹ ² Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 July 2016). "Concrete Problems in AI Safety". arXiv:1606.06565 [cs.AI].
↑ Amodei, Dario; Christiano, Paul; Ray, Alex Learning from Human Preferences (англ.). OpenAI (13 июня 2017). Дата обращения: 6 января 2021. Архивировано 3 января 2021 года.
↑ Минэкономразвития создаст комиссию по расследованию ИИ-инцидентов (рус.). Ведомости (14 апреля 2024). Дата обращения: 15 апреля 2024. Архивировано 14 апреля 2024 года.
↑ Irving, Geoffrey; Christiano, Paul; Amodei, Dario; OpenAI (October 22, 2018). "AI safety via debate". arXiv:1805.00899 [stat.ML].
↑ Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19 November 2018). "Scalable agent alignment via reward modeling: a research direction". arXiv:1811.07871 [cs.LG].
↑ Banzhaf, Wolfgang. Genetic Programming Theory and Practice XVII : [англ.] / Wolfgang Banzhaf, Erik Goodman, Leigh Sheneman … [et al.]. — Springer Nature, May 2020. — ISBN 978-3-030-39958-0. Архивная копия от 15 февраля 2021 на Wayback Machine
↑ Montavon, Grégoire (2018). "Methods for interpreting and understanding deep neural networks". Digital Signal Processing: A Review Journal (англ.). 73: 1—15. doi:10.1016/j.dsp.2017.10.011. ISSN 1051-2004.
↑ Yampolskiy, Roman V. «Unexplainability and Incomprehensibility of AI.» Journal of Artificial Intelligence and Consciousness 7.02 (2020): 277—291.
↑ Chalmers, David (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies. 17 (9—10): 7—65.
↑ Armstrong, Stuart (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299—324. doi:10.1007/s11023-012-9282-2.
↑ Bostrom, Nick. Superintelligence: Paths, Dangers, Strategies. — Oxford : Oxford University Press, 2014. — ISBN 9780199678112.
↑ "Intelligent Machines: Do we really need to fear AI?". BBC News. 2015-09-27. Архивировано 8 ноября 2020. Дата обращения: 9 февраля 2021.
↑ Marcus, Gary (2019-09-06). "Opinion | How to Build Artificial Intelligence We Can Trust (Published 2019)". The New York Times. Архивировано 22 сентября 2020. Дата обращения: 9 февраля 2021.
↑ Sotala, Kaj (19 December 2014). "Responses to catastrophic AGI risk: a survey". Physica Scripta. 90 (1): 018001. Bibcode:2015PhyS...90a8001S. doi:10.1088/0031-8949/90/1/018001.

Литература

Гэри Маркус, Эрнест Дэвис. Искусственный интеллект: Перезагрузка. Как создать машинный разум, которому действительно можно доверять = Rebooting AI: Building Artificial Intelligence We Can Trust. — М.: Интеллектуальная Литература, 2021. — 304 с. — ISBN 978-5-907394-93-3.

[11] Примерный перевод названия: «Совместимость с людьми»

[superintelligence-1] ¹ ² ³ Bostrom, Nick. Superintelligence: Paths, Dangers, Strategies. — First. — 2014. — ISBN 978-0199678112.

[2] Yampolskiy, Roman (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies. 19 (1—2): 194—214.

[bbc-google-3] ¹ ² ³ "Google developing kill switch for AI". BBC News. 2016-06-08. Архивировано 11 июня 2016. Дата обращения: 12 июня 2016.

[hawking_editorial-4] "Stephen Hawking: 'Transcendence looks at the implications of artificial intelligence – but are we taking AI seriously enough?'". The Independent. Архивировано 25 сентября 2015. Дата обращения: 14 июня 2016.

[5] "Stephen Hawking warns artificial intelligence could end mankind". BBC. 2014-12-02. Архивировано 30 октября 2015. Дата обращения: 14 июня 2016.

[6] "Anticipating artificial intelligence". Nature. 532 (7600). 26 April 2016. Bibcode:2016Natur.532Q.413.. doi:10.1038/532413a. PMID 27121801.

[7] Russell, Stuart. 26.3: The Ethics and Risks of Developing Artificial Intelligence // Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig. — Prentice Hall, 2009. — ISBN 978-0-13-604259-4.

[acm-8] Dietterich, Thomas (2015). "Rise of Concerns about AI: Reflections and Directions" (PDF). Communications of the ACM. 58 (10): 38—40. doi:10.1145/2770869. Архивировано (PDF) 4 марта 2016. Дата обращения: 14 июня 2016.

[wp-computer-9] ¹ ² "'Press the big red button': Computer experts want kill switch to stop robots from going rogue". Washington Post. Архивировано 12 июня 2016. Дата обращения: 12 июня 2016.

[Gabriel-10] ¹ ² Gabriel, Iason (1 September 2020). "Artificial Intelligence, Values, and Alignment". Minds and Machines (англ.). 30 (3): 411—437. arXiv:2001.09768. doi:10.1007/s11023-020-09539-2. ISSN 1572-8641. Архивировано 15 февраля 2021. Дата обращения: 7 февраля 2021.

[HC-12] ¹ ² ³ ⁴ ⁵ Russell, Stuart. Human Compatible: Artificial Intelligence and the Problem of Control. — United States : Viking, October 8, 2019. — ISBN 978-0-525-55861-3.

[13] Yudkowsky, Eliezer. Complex Value Systems in Friendly AI // Artificial General Intelligence. — 2011. — Vol. 6830. — P. 388–393. — ISBN 978-3-642-22886-5. — doi:10.1007/978-3-642-22887-2_48.

[DM_safety_overview-14] Ortega. Building safe artificial intelligence: specification, robustness, and assurance (англ.). Medium (27 сентября 2018). Дата обращения: 12 декабря 2020. Архивировано 12 декабря 2020 года.

[Christiano_interview-15] Christiano. Conversation with Paul Christiano (неопр.). AI Impacts. AI Impacts (11 сентября 2019). Дата обращения: 6 января 2021. Архивировано 19 августа 2020 года.

[Christiano_et_al_2017-16] Christiano, Paul; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (13 July 2017). "Deep Reinforcement Learning from Human Preferences". arXiv:1706.03741 [stat.ML].

[concrete_problems-17] ¹ ² Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 July 2016). "Concrete Problems in AI Safety". arXiv:1606.06565 [cs.AI].

[Openai_robot_hand-18] Amodei, Dario; Christiano, Paul; Ray, Alex Learning from Human Preferences (англ.). OpenAI (13 июня 2017). Дата обращения: 6 января 2021. Архивировано 3 января 2021 года.

[19] Минэкономразвития создаст комиссию по расследованию ИИ-инцидентов (рус.). Ведомости (14 апреля 2024). Дата обращения: 15 апреля 2024. Архивировано 14 апреля 2024 года.

[DebatePaper-20] Irving, Geoffrey; Christiano, Paul; Amodei, Dario; OpenAI (October 22, 2018). "AI safety via debate". arXiv:1805.00899 [stat.ML].

[reward_modeling-21] Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19 November 2018). "Scalable agent alignment via reward modeling: a research direction". arXiv:1811.07871 [cs.LG].

[book_gen_prog-22] Banzhaf, Wolfgang. Genetic Programming Theory and Practice XVII : [англ.] / Wolfgang Banzhaf, Erik Goodman, Leigh Sheneman … [et al.]. — Springer Nature, May 2020. — ISBN 978-3-030-39958-0. Архивная копия от 15 февраля 2021 на Wayback Machine

[interpretability_survey-23] Montavon, Grégoire (2018). "Methods for interpreting and understanding deep neural networks". Digital Signal Processing: A Review Journal (англ.). 73: 1—15. doi:10.1016/j.dsp.2017.10.011. ISSN 1051-2004.

[24] Yampolskiy, Roman V. «Unexplainability and Incomprehensibility of AI.» Journal of Artificial Intelligence and Consciousness 7.02 (2020): 277—291.

[25] Chalmers, David (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies. 17 (9—10): 7—65.

[26] Armstrong, Stuart (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299—324. doi:10.1007/s11023-012-9282-2.

[bostrom_chapter_10_page_147-27] Bostrom, Nick. Superintelligence: Paths, Dangers, Strategies. — Oxford : Oxford University Press, 2014. — ISBN 9780199678112.

[28] "Intelligent Machines: Do we really need to fear AI?". BBC News. 2015-09-27. Архивировано 8 ноября 2020. Дата обращения: 9 февраля 2021.

[29] Marcus, Gary (2019-09-06). "Opinion | How to Build Artificial Intelligence We Can Trust (Published 2019)". The New York Times. Архивировано 22 сентября 2020. Дата обращения: 9 февраля 2021.

[AGIResponses-30] Sotala, Kaj (19 December 2014). "Responses to catastrophic AGI risk: a survey". Physica Scripta. 90 (1): 018001. Bibcode:2015PhyS...90a8001S. doi:10.1088/0031-8949/90/1/018001.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[a]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]