МК АвтоВзгляд Охотники.ру WomanHit.ru
Тюмень

Владимир Бебех: «Как ИИ сделать «МРТ»?

ru.freepik.com

На прошлой неделе генеральный директор Anthropic Дарио Амодеи опубликовал эссе, в котором делает для людей, далеких от технологий, шокирующие признания.

В частности, Амодеи заявляет, что исследователи сегодня мало понимают внутреннюю работу ведущих в мире моделей искусственного интеллекта (ИИ).

В свое время, чтобы решить эту проблему, Anthropic поставила перед собой амбициозную цель: к 2027 году идентифицировать большинство проблем моделей ИИ.

Дарио АМОДЕИ, генеральный директор Anthropic:

«Мощный ИИ определит судьбу человечества, и мы заслуживаем того, чтобы понять наши собственные творения, прежде чем они радикально изменят нашу экономику, нашу жизнь и наше будущее» (darioamodei.com).

В эссе Дарио Амодеи выражает обеспокоенность развертыванием новых систем ИИ без улучшения управления интерпретируемостью. Иначе говоря, пониманием того, как и на основе чего нейросети принимают свои решения.

По мнению Амодеи, будущие системы на основе ИИ станут центральными для экономики, технологий и национальной безопасности. А поскольку они в значительной степени будут автономными, то человечеству нельзя полностью игнорировать суть того, как эти системы работают.

В свое время Дарио Амодеи работал в Google Brain. После чего был вице-президентом по исследованиям в OpenAI. Амодеи участвовал в разработке GPT-2 и GPT-3, а в конце 2020 года он ушел из OpenAI и основал Anthropic.

В моей предыдущей статье я сообщил, что OpenAI запустила новые модели рассуждений o3 и o4-mini. Стало известно, что эти нейросети лучше справляются с некоторыми задачами, но при этом и «галлюцинируют» больше, чем предыдущие модели компании. И OpenAI не знает, почему это происходит.

Напомню, пока еще ни одна из современных больших языковых моделей не избежала эффекта «галлюцинаций» — придумывания несуществующих фактов или обмана.

Сегодня исследователи ИИ нашли способы улучшить интеллект моделей ИИ, но, с точки зрения Дарио Амодеи, они не совсем понимают, зачем это нужно.

Ранее Амодеи утверждал, что технологическая индустрия может достичь рубежа понимания, как строятся рассуждения ИИ, к 2026 или 2027 году, но сейчас считает, что мы, возможно, находимся гораздо дальше от решения этого вопроса.

В долгосрочной перспективе, отмечает Дарио Амодеи, Anthropic хотела бы проводить «сканирование мозга», или «МРТ», современных моделей ИИ. Эти исследования могли бы помочь выявить широкий спектр проблем в моделях ИИ, включая их склонность лгать, искать власть, или определить другие недостатки нейросетей.

Сегодня Anthropic предлагает установить стандарты отчетности по безопасности для разработчиков передовых моделей ИИ.

Напомню, в своих статьях я уже рассказывал, как современные модели ИИ пытаются ввести человека в заблуждение или выйти из-под его контроля.

Однажды сотрудник Anthropic Кайл Фиш в интервью The New York Times заявил, что, по его мнению, существует 15-процентная вероятность того, что Clode (разработка компании Anthropic) или другой ИИ сегодня обладают сознанием.

Однако сама Anthropic в официальных релизах признает, что нет научного консенсуса относительно того, могут ли текущие или будущие системы ИИ быть сознательными.

Эксперты отрасли пока не пришли к общему мнению в таких вопросах, как наличие сознания у нейросетей и могут ли быть у ИИ какие-либо ценности.

Но если, например, предположить, что у ИИ есть системы ценностей, то как избежать ситуации, когда они заставят его отдать в определенных сценариях приоритет собственному благополучию над благополучием людей?

Anthropic — одна из пионеров в области механистической интерпретируемости.

Anthropic совершила несколько исследовательских прорывов, которые позволили ей лучше понять, как работают ее модели ИИ. Например, недавно компания нашла способы отслеживать некоторые пути рассуждения моделей — то, что Anthropic называет «цепями».

Мы продолжим следить за развитием событий в отрасли.

Самое интересное

Фотогалерея

Что еще почитать

Видео

В регионах