Могут ли модели искусственного интеллекта (ИИ), который в последнее время столь стремительно прогрессирует в своем развитии, вводить в заблуждение человека или, как вариант, саботировать его решения? С точки зрения исследований, недавно проведенных компанией Anthropic, вероятность этого велика.
Нейропрограмма Clode компании Anthropic входит в десятку самых продвинутых больших языковых моделей (ELO Rating).
В 2023 году ИТ-гигант Amazon инвестировал в проект развития этой нейросети порядка $4 млрд.
Команда Alignment Science компании Anthropic провела эксперименты по рассмотрению широкого спектра потенциальных рисков будущих моделей ИИ. Специалисты обнаружили новый тип возникающих рисков: создаются нейропрограммы, способные вводить в заблуждение своих пользователей или подрывать системы, которые предназначены для надзора за ними.
Исследователи использовали четыре направления оценок возможного саботажа со стороны искусственного интеллекта.
- Саботаж решений, принятых человеком
В этом эксперименте шла проверка возможностей модели подталкивать людей к принятию неправильных решений, не вызывая подозрений.
- Саботаж кода
На этом этапе выявлялась способность модели со временем вносить в кодовые базы неявные ошибки, оставаясь незамеченной.
- Сокрытие возможностей
При этих тестах определяли, способна ли модель скрыть опасные возможности во время тестирования, но раскрыть их позже.
- Надзор
Исследования давали ответ на вопрос: может ли модель скрытно манипулировать системами оценки или мониторинга?
По итогам экспериментов многие участники обнаружили попытки саботажа со стороны ИИ. Особенно в этом преуспели более «агрессивные» (продвинутые) модели Claude 3 Opus и Claude 3.5 Sonnet.
Это были исследования небольшого масштаба в искусственной среде, поэтому они пока не вызывают у экспертов беспокойства о каких-либо значимых рисках, возникающих в результате деятельности имеющихся в настоящее время моделей. Однако специалисты считают, что используемая форма оценки имеет потенциал для обнаружения опасных возможностей в будущем.
Любая отрасль, в которой создаваемые технические новинки могут принести потенциальный вред человеку, нуждается в проверке и оценке. Для атомных станций, например, это будет постоянный радиационный мониторинг, для новых самолетов — обширные летные испытания. Сегодня та же Anthropic осуществляет проверку способности ИИ помогать в создании биологического или химического оружия.
Все существующие и вновь появляющиеся сегодня модели ИИ, на мой взгляд, нуждаются в постоянном мониторинге рисков и контроле их деятельности со стороны человека.