На прошлой неделе генеральный директор Anthropic Дарио Амодеи опубликовал эссе, в котором делает для людей, далеких от технологий, шокирующие признания.
В частности, Амодеи заявляет, что исследователи сегодня мало понимают внутреннюю работу ведущих в мире моделей искусственного интеллекта (ИИ).
В свое время, чтобы решить эту проблему, Anthropic поставила перед собой амбициозную цель: к 2027 году идентифицировать большинство проблем моделей ИИ.
В эссе Дарио Амодеи выражает обеспокоенность развертыванием новых систем ИИ без улучшения управления интерпретируемостью. Иначе говоря, пониманием того, как и на основе чего нейросети принимают свои решения.
По мнению Амодеи, будущие системы на основе ИИ станут центральными для экономики, технологий и национальной безопасности. А поскольку они в значительной степени будут автономными, то человечеству нельзя полностью игнорировать суть того, как эти системы работают.
В моей предыдущей статье я сообщил, что OpenAI запустила новые модели рассуждений o3 и o4-mini. Стало известно, что эти нейросети лучше справляются с некоторыми задачами, но при этом и «галлюцинируют» больше, чем предыдущие модели компании. И OpenAI не знает, почему это происходит.
Напомню, пока еще ни одна из современных больших языковых моделей не избежала эффекта «галлюцинаций» — придумывания несуществующих фактов или обмана.
Сегодня исследователи ИИ нашли способы улучшить интеллект моделей ИИ, но, с точки зрения Дарио Амодеи, они не совсем понимают, зачем это нужно.
Ранее Амодеи утверждал, что технологическая индустрия может достичь рубежа понимания, как строятся рассуждения ИИ, к 2026 или 2027 году, но сейчас считает, что мы, возможно, находимся гораздо дальше от решения этого вопроса.
В долгосрочной перспективе, отмечает Дарио Амодеи, Anthropic хотела бы проводить «сканирование мозга», или «МРТ», современных моделей ИИ. Эти исследования могли бы помочь выявить широкий спектр проблем в моделях ИИ, включая их склонность лгать, искать власть, или определить другие недостатки нейросетей.
Сегодня Anthropic предлагает установить стандарты отчетности по безопасности для разработчиков передовых моделей ИИ.
Напомню, в своих статьях я уже рассказывал, как современные модели ИИ пытаются ввести человека в заблуждение или выйти из-под его контроля.
Однажды сотрудник Anthropic Кайл Фиш в интервью The New York Times заявил, что, по его мнению, существует 15-процентная вероятность того, что Clode (разработка компании Anthropic) или другой ИИ сегодня обладают сознанием.
Однако сама Anthropic в официальных релизах признает, что нет научного консенсуса относительно того, могут ли текущие или будущие системы ИИ быть сознательными.
Эксперты отрасли пока не пришли к общему мнению в таких вопросах, как наличие сознания у нейросетей и могут ли быть у ИИ какие-либо ценности.
Но если, например, предположить, что у ИИ есть системы ценностей, то как избежать ситуации, когда они заставят его отдать в определенных сценариях приоритет собственному благополучию над благополучием людей?
Мы продолжим следить за развитием событий в отрасли.