На выходных 25–26 января 2025 года запуск модели V3 китайского ИИ-стартапа DeepSeek вызвал распродажи на рынках акций и криптовалют.
Рынки отразили переполох в секторе больших языковых моделей, поскольку DeepSeek предложил аналогичную топовым моделям производительность за гораздо меньшие деньги.
В статье предыдущего номера еженедельника я рассказывал, что в США создан проект Stargate, в который компании OpenAI, Oracle и SoftBank намерены инвестировать до $500 млрд.
При этом сегодня средняя стоимость обучения новых моделей у известных американских компаний, присутствующих на рынке, обходится примерно в $100 млн.
А китайцы запустили нейросеть DeepSeek за $5,58 млн. (!) На разработку программы продвинутой модели им понадобилось два месяца и две тысячи графических процессоров.
Для сравнения: модель ChatGPT-o1 от OpenAI требует использования многократно превосходящих вычислительных мощностей — 100 тысяч процессоров NVIDIA.
По сообщению FT, компания NVIDIA на этой информации только за одни сутки потеряла порядка $620 млрд капитализации, установив таким образом новый антирекорд рынка ценных бумаг за всю историю США. При этом весь американский рынок за один день просел на $1 трлн.
Принципиальное отличие DeepSeek от конкурентов — это новый экспертный подход к решению задач, когда речь идет об использовании только части имеющихся у программы ресурсов: к поиску ответа подключаются не все 100% имеющихся параметров (как у традиционных больших языковых моделей), а одновременно только 37 млрд из 671 млрд, которые «разбираются» в вопросе.
Кроме того, нестандартный подход китайских разработчиков позволил использовать для обучения новой нейросети недорогие карты, что дало возможность обойти экспортные ограничения американцев.
DeepSeek — стартап в области искусственного интеллекта, созданный в 2023 году в городе Ханчжоу, Китай. Компания специализируется на разработке больших языковых моделей с открытым исходным кодом.
23 января текущего года Банк Китая заявил, что выделит 1 трлн юаней ($137,5 млрд) в течение пяти лет для финансовой поддержки ИИ-сектора. Это гораздо меньше, чем анонсировали американцы, но китайские модели показывают более высокую эффективность от вложений.
27 января DeepSeek запустил новую нейросеть для распознавания и генерации изображений Janus-Pro-7B, которая бросает вызов уже устоявшимся на рынке моделям, а по некоторым параметрам и вовсе превосходит их (habr.com).
Резкий рост популярности новых китайских нейросетей привел к тому, что приложение DeepSeek стало одним из самых скачиваемых в Google Play и заняло первое место в рейтинге лучших бесплатных приложений Apple App Store (Bloomberg).
Значительная разница в себестоимости созданных американских и китайских больших языковых моделей наталкивает экспертное сообщество и инвесторов на мысль о наличии пузыря в секторе искусственного интеллекта.
Впечатляющая ИИ-гонка продолжается. В нее включился конкурентный китайский игрок — DeepSeek. Доступный исходный код программы исключает сомнения в реальных способностях нейросети.
Мы продолжим следить за развитием событий в отрасли.