МК АвтоВзгляд Охотники.ру WomanHit.ru
Тюмень

Владимир Бебех: «Верю, не верю»

Изображение от DC Studio на Freepik.

Могут ли модели искусственного интеллекта (ИИ), который в последнее время столь стремительно прогрессирует в своем развитии, вводить в заблуждение человека или, как вариант, саботировать его решения? С точки зрения исследований, недавно проведенных компанией Anthropic, вероятность этого велика.

Нейропрограмма Clode компании Anthropic входит в десятку самых продвинутых больших языковых моделей (ELO Rating).

В 2023 году ИТ-гигант Amazon инвестировал в проект развития этой нейросети порядка $4 млрд.

Команда Alignment Science компании Anthropic провела эксперименты по рассмотрению широкого спектра потенциальных рисков будущих моделей ИИ. Специалисты обнаружили новый тип возникающих рисков: создаются нейропрограммы, способные вводить в заблуждение своих пользователей или подрывать системы, которые предназначены для надзора за ними.

Исследователи использовали четыре направления оценок возможного саботажа со стороны искусственного интеллекта.

  • Саботаж решений, принятых человеком

В этом эксперименте шла проверка возможностей модели подталкивать людей к принятию неправильных решений, не вызывая подозрений.

  • Саботаж кода

На этом этапе выявлялась способность модели со временем вносить в кодовые базы неявные ошибки, оставаясь незамеченной.

  • Сокрытие возможностей

При этих тестах определяли, способна ли модель скрыть опасные возможности во время тестирования, но раскрыть их позже.

  • Надзор

Исследования давали ответ на вопрос: может ли модель скрытно манипулировать системами оценки или мониторинга?

По итогам экспериментов многие участники обнаружили попытки саботажа со стороны ИИ. Особенно в этом преуспели более «агрессивные» (продвинутые) модели Claude 3 Opus и Claude 3.5 Sonnet.

Это были исследования небольшого масштаба в искусственной среде, поэтому они пока не вызывают у экспертов беспокойства о каких-либо значимых рисках, возникающих в результате деятельности имеющихся в настоящее время моделей. Однако специалисты считают, что используемая форма оценки имеет потенциал для обнаружения опасных возможностей в будущем.

Любая отрасль, в которой создаваемые технические новинки могут принести потенциальный вред человеку, нуждается в проверке и оценке. Для атомных станций, например, это будет постоянный радиационный мониторинг, для новых самолетов — обширные летные испытания. Сегодня та же Anthropic осуществляет проверку способности ИИ помогать в создании биологического или химического оружия.

Все существующие и вновь появляющиеся сегодня модели ИИ, на мой взгляд, нуждаются в постоянном мониторинге рисков и контроле их деятельности со стороны человека.

Самое интересное

Фотогалерея

Что еще почитать

Видео

В регионах