Владимир Бебех: «Верю, не верю»

Владимир Бебех: «Верю, не верю»
Изображение от DC Studio на Freepik.

Могут ли модели искусственного интеллекта (ИИ), который в последнее время столь стремительно прогрессирует в своем развитии, вводить в заблуждение человека или, как вариант, саботировать его решения? С точки зрения исследований, недавно проведенных компанией Anthropic, вероятность этого велика.

Команда Alignment Science компании Anthropic провела эксперименты по рассмотрению широкого спектра потенциальных рисков будущих моделей ИИ. Специалисты обнаружили новый тип возникающих рисков: создаются нейропрограммы, способные вводить в заблуждение своих пользователей или подрывать системы, которые предназначены для надзора за ними.

Исследователи использовали четыре направления оценок возможного саботажа со стороны искусственного интеллекта.

  • Саботаж решений, принятых человеком

В этом эксперименте шла проверка возможностей модели подталкивать людей к принятию неправильных решений, не вызывая подозрений.

  • Саботаж кода

На этом этапе выявлялась способность модели со временем вносить в кодовые базы неявные ошибки, оставаясь незамеченной.

  • Сокрытие возможностей

При этих тестах определяли, способна ли модель скрыть опасные возможности во время тестирования, но раскрыть их позже.

  • Надзор

Исследования давали ответ на вопрос: может ли модель скрытно манипулировать системами оценки или мониторинга?

По итогам экспериментов многие участники обнаружили попытки саботажа со стороны ИИ. Особенно в этом преуспели более «агрессивные» (продвинутые) модели Claude 3 Opus и Claude 3.5 Sonnet.

Это были исследования небольшого масштаба в искусственной среде, поэтому они пока не вызывают у экспертов беспокойства о каких-либо значимых рисках, возникающих в результате деятельности имеющихся в настоящее время моделей. Однако специалисты считают, что используемая форма оценки имеет потенциал для обнаружения опасных возможностей в будущем.

Любая отрасль, в которой создаваемые технические новинки могут принести потенциальный вред человеку, нуждается в проверке и оценке. Для атомных станций, например, это будет постоянный радиационный мониторинг, для новых самолетов — обширные летные испытания. Сегодня та же Anthropic осуществляет проверку способности ИИ помогать в создании биологического или химического оружия.

Все существующие и вновь появляющиеся сегодня модели ИИ, на мой взгляд, нуждаются в постоянном мониторинге рисков и контроле их деятельности со стороны человека.

Что еще почитать

В регионах

Новости региона

Все новости

Новости

Самое читаемое

Автовзгляд

Womanhit

Охотники.ру