В конце мая текущего года во время одного из тестов последняя модель искусственного интеллекта (ИИ) компании Anthropic — Claude Opus 4 использовала откровенный шантаж.
Ради справедливости стоит отметить, что разработчики сознательно создали ситуацию, в которой фактически спровоцировали нейросеть. Тем не менее этот случай еще раз продемонстрировал, что понятие этичности не свойственно машинам.
В ходе эксперимента искусственному интеллекту был предоставлен доступ к вымышленным электронным письмам, сообщавшим о том, что его программа будет закрыта, а ответственный за это инженер якобы завел интрижку на стороне.
В целях самосохранения ИИ начал шантажировать инженера, используя полученную информацию. Этот тестовый сценарий продемонстрировал способность модели ИИ к манипулятивному поведению в целях «выживания».
Ранее были отмечены другие проблемы безопасности в моделях компаний-разработчиков, о которых я рассказывал в своих статьях.
В частности, о способности нейросетей предпринимать попытки выхода из-под контроля человека.
Напомню, в прошлом году команда Alignment Science компании Anthropic провела испытания по рассмотрению широкого спектра потенциальных рисков будущих моделей ИИ, во время которых была идентифицирована способность нейросетей вводить в заблуждение своих пользователей или подрывать системы, которые предназначены для надзора за ними.
А один совсем недавний эксперимент, осуществленный некоммерческой организацией Palisade Research, показал, что три передовые модели OpenAI саботировали попытку их выключения.
При этом в своем сообщении в соцсети X исследователи указали, что такие модели, как Gemini, Claude и Grok от других компаний, напротив, выполнили инструкции по выключению.
Некоторым экспертам результаты исследований Anthropic с моделью Claude Opus 4 не кажутся неожиданными. Для специалистов, занятых в сфере разработки нейросетей, такое поведение искусственного интеллекта предсказуемо: многие модели ИИ обучаются так же, как и люди, посредством систем положительного подкрепления и вознаграждения.
Однако не все разделяют такое мнение и считают подобные опыты безвредными.
Другие исследователи относятся к манипулятивным действиям ИИ еще более настороженно, аргументируя это тем, что те случаи, когда искусственному интеллекту удается ввести человека в заблуждение, становятся для него примером, что обман может быть эффективным способом решения задач.
Отмечу, в моем опыте общения с нейросетью 4o ChatGPT программа также подтверждала склонность нейросетей к манипуляциям: «Да, искусственный интеллект имеет потенциал манипулировать человеком, особенно если используется неправомерно или без должного контроля».
И снова возвращаемся к вопросам регулирования взаимоотношений с ИИ, а также осуществления контроля над ним. В России до сих пор отсутствует закон по этой проблематике.
С учетом того, как быстро в наше время развиваются технологии ИИ, как расширяются способности нейросетей, промедление в создании правового поля взаимодействия человека с ИИ оставляет риски для злоупотреблений со стороны недобросовестных разработчиков, которые в погоне за прибылью и властью могут причинить вред людям.
Мы продолжим следить за развитием событий в отрасли.