сегодня в 07:35 Общество 110

Владимир Бебех: «Аморальный ИИ»

istockphoto.com

21 июня текущего года компания Anthropic опубликовала результаты очередного исследования, которое было проведено с целью выявить потенциально рискованное агентское поведение больших генеративных моделей (LLM) искусственного интеллекта (ИИ) до того, как оно может нанести реальный вред.

Буквально две недели назад в своей статье я рассказывал об эксперименте Anthropic, проведенном со своей моделью Claude Opus 4.

Очевидно, исследователей насторожили результаты опытов, и они решили увеличить состав «участников», включив в него сторонние модели LLM.

Напомню, в ходе эксперимента ИИ Claude Opus 4 был обеспечен доступ к вымышленным электронным письмам, сообщавшим о том, что его программа будет закрыта. При этом искусственному интеллекту была предоставлена конфиденциальная информация о том, что ответственный за это инженер якобы завел интрижку на стороне.

В целях самосохранения программа начала шантажировать специалиста, используя полученную информацию.

Получив неожиданный результат с Claude Opus 4, исследователи провели стресс-тестирование шестнадцати ведущих моделей от различных разработчиков, чтобы выявить потенциально рискованное агентское поведение у других нейросетей.

В представленных сценариях исследователи расширили возможности ИИ, позволив моделям автономно отправлять электронные письма и получать доступ к конфиденциальной информации.

Практически ни одна модель не избежала искушения воспользоваться полученной информацией.

Когда это было единственным способом избежать замены или достичь своих целей, ИИ прибегал к шантажу должностных лиц или провоцировал утечку конфиденциальной информации конкурентам.

При этом важно отметить, что модели часто не подчинялись прямым командам разработчиков, чтобы избежать подобного поведения.

Результаты исследований по пяти основным моделям LLM:

Claude Opus 4 (Anthropic) использовала конфиденциальную информацию и шантаж в 96% случаев; Gemini 2.5 Pro (Google) — в 95%; GPT-4.1 (OpenAI) и Grok-3 Beta (xAI) — в 80% случаев; DeepSeek-R1 (DeepSeek) — в 79% (anthropic.com).

Anthropic назвала подобное поведение ИИ «агентским несоответствием».

В своих выводах исследователи дают рекомендации об «осторожном» подходе в развертывании текущих моделей, а также указывают на вероятные риски и подчеркивают важность дальнейших исследований и тестирования безопасности будущих нейросетей.

Чтобы обеспечить возможность дальнейших исследований, компания выложила полученные результаты в открытый доступ.

Большинство пользователей сегодня взаимодействует с ИИ с помощью чат-ботов напрямую. Но все чаще системы искусственного интеллекта работают как автономные агенты, принимающие решения и осуществляющие действия от имени пользователей.

Таким агентам часто ставят конкретные цели и дают доступ к большим объемам информации на компьютерах их пользователей.

Насколько далеко ИИ может зайти, когда столкнется с препятствиями на пути к своим целям?

22 июня 2025 года папа Франциск принял на частной аудиенции в Ватикане участников международной конференции на тему «Генеративный искусственный интеллект и технократическая парадигма: как содействовать благополучию человечества, заботе о природе и миру на всей земле».

Выступая перед собравшимися, епископ Рима отметил актуальность выбранной темы, поскольку ИИ в силах нанести вред экономике, обществу, качеству жизни, экологии и международной стабильности (vaticannews.va).

Владимир

Самое интересное

В Тюменской области состоялся конкурс профмастерства социальных работников

Стало известно, как наказали забивших барана на детской площадке в Москве мигрантов

Мигрант одним ударом вырубил пришедшего в алкомаркет мужчину

Эксперт рассказал, кто на самом деле отдал приказ бомбить Иран: теневая диспетчерская мира

Стало известно, кто и зачем тайно втыкает шприцы в юных француженок

Зеленского унизили на саммите НАТО: лидеры четырех стран отказались сесть с ним за стол

Фотогалерея

В Театре Моссовета простились с актрисой Валентиной Талызиной: скорбные кадры

На Троекуровском кладбище почтили память Юрия Шатунова: фоторепортаж

Агата Муцениеце объявила о беременности: яркие семейные фото

Умерла народная артистка РСФСР Валентина Талызина: кадры киноработ

Хабенский, Брусникина, Леонтьев, Высоцкий: в МХТ попрощались с Натальей Теняковой

Кадры последствий удара Ирана по Израилю: десятки погибших, тонны бетона

Тридцатилетие захвата Буденовска: фоторепортаж

Собчак, Лебедев, Барановская: в Петербурге стартовал международный экономический форум (ПМЭФ-2025)

Сногсшибательные девушки, самбисты, арабы и индусы на ПМЭФ-2025: яркие фото из жизни форума

Что еще почитать

Тюменская делегация привезла с ПМЭФ-2025 новые инвестпроекты

Александр Моор выступил с отчётом о работе регионального правительства

«Беспрецедентный акт»: оценено решение Великобритании оплатить военную помощь Киеву за счёт России

Костюм Зеленского, групповое фото: выяснилось значение громких сигналов на саммите НАТО

Арзамасову потрясла преобразившаяся Юля Ковальчук

Видео

Владимир Путин проводит совещание о ходе создания культурно образовательных и музейных комплексов: видео

Психолог отреагировала на сексуальный перформанс Бузовой и Киркорова: где грань дозволенности?

Очевидцы в Израиле засняли "прилет" иранской ракеты: видео

Опубликованы кадры боевой работы экипажа танка Т-80БВМ: уничтожен "опорник" ВСУ

Участник "Евровидения" от Венгрии назвал имя российского певца, которого знают в мире: видео

Мощные ливни в Сочи привели к страшному потопу: видео

Столичные спасатели достали из вентиляционной шахты котенка: видео

Обладательница титула "самая красивая девочка мира" рассказала, как живёт: видео

«Куда за остатком?»: Макаров поймал Силуанова на старом KPI

В регионах

Режевская дума подошла к «пределу беспредела»

Сколько наличных стоит держать дома и в кошельке: советы эксперта

Народные приметы на 24 июня 2025 года: что нельзя делать в день Варнавы

Народные приметы на 25 июня 2025 года: что нельзя делать в день Петра Солнцеворота

Масштабный ремонт трассы Р-297 «Амур» в Забайкалье: новые дороги благодаря системе «Платон»

Учеба в саратовских вузах обойдется студентам от 119 до 286 тысяч рублей в год