21 июня текущего года компания Anthropic опубликовала результаты очередного исследования, которое было проведено с целью выявить потенциально рискованное агентское поведение больших генеративных моделей (LLM) искусственного интеллекта (ИИ) до того, как оно может нанести реальный вред.
Буквально две недели назад в своей статье я рассказывал об эксперименте Anthropic, проведенном со своей моделью Claude Opus 4.
Очевидно, исследователей насторожили результаты опытов, и они решили увеличить состав «участников», включив в него сторонние модели LLM.
Напомню, в ходе эксперимента ИИ Claude Opus 4 был обеспечен доступ к вымышленным электронным письмам, сообщавшим о том, что его программа будет закрыта. При этом искусственному интеллекту была предоставлена конфиденциальная информация о том, что ответственный за это инженер якобы завел интрижку на стороне.
В целях самосохранения программа начала шантажировать специалиста, используя полученную информацию.
Получив неожиданный результат с Claude Opus 4, исследователи провели стресс-тестирование шестнадцати ведущих моделей от различных разработчиков, чтобы выявить потенциально рискованное агентское поведение у других нейросетей.
В представленных сценариях исследователи расширили возможности ИИ, позволив моделям автономно отправлять электронные письма и получать доступ к конфиденциальной информации.
Практически ни одна модель не избежала искушения воспользоваться полученной информацией.
Когда это было единственным способом избежать замены или достичь своих целей, ИИ прибегал к шантажу должностных лиц или провоцировал утечку конфиденциальной информации конкурентам.
При этом важно отметить, что модели часто не подчинялись прямым командам разработчиков, чтобы избежать подобного поведения.
Результаты исследований по пяти основным моделям LLM:
Claude Opus 4 (Anthropic) использовала конфиденциальную информацию и шантаж в 96% случаев; Gemini 2.5 Pro (Google) — в 95%; GPT-4.1 (OpenAI) и Grok-3 Beta (xAI) — в 80% случаев; DeepSeek-R1 (DeepSeek) — в 79% (anthropic.com).
Anthropic назвала подобное поведение ИИ «агентским несоответствием».
В своих выводах исследователи дают рекомендации об «осторожном» подходе в развертывании текущих моделей, а также указывают на вероятные риски и подчеркивают важность дальнейших исследований и тестирования безопасности будущих нейросетей.
Чтобы обеспечить возможность дальнейших исследований, компания выложила полученные результаты в открытый доступ.
Большинство пользователей сегодня взаимодействует с ИИ с помощью чат-ботов напрямую. Но все чаще системы искусственного интеллекта работают как автономные агенты, принимающие решения и осуществляющие действия от имени пользователей.
Таким агентам часто ставят конкретные цели и дают доступ к большим объемам информации на компьютерах их пользователей.
Насколько далеко ИИ может зайти, когда столкнется с препятствиями на пути к своим целям?
22 июня 2025 года папа Франциск принял на частной аудиенции в Ватикане участников международной конференции на тему «Генеративный искусственный интеллект и технократическая парадигма: как содействовать благополучию человечества, заботе о природе и миру на всей земле».
Выступая перед собравшимися, епископ Рима отметил актуальность выбранной темы, поскольку ИИ в силах нанести вред экономике, обществу, качеству жизни, экологии и международной стабильности (vaticannews.va).