«Моментум DeepSeek»: как китайский прорыв меняет ландшафт мирового AI
DeepSeek R1, новая модель искусственного интеллекта, релиз которой состоялся в конце января 2025 г., показала себя как более эффективная и менее затратная альтернатива GPT-4. Затраты на обучение DeepSeek R1 составляют $5 млн, что в десятки, а то и сотни раз меньше расходов на GPT-4. API-вызовы DeepSeek R1 стоят $2 за 1 млн токенов, что, по оценкам, в 30 раз меньше, чем GPT-4.
Более низкие затраты и более эффективная архитектура делают DeepSeek R1 более доступной и конкурентоспособной моделью. Это может фундаментально поменять перспективы искусственного интеллекта, открывая новые возможности для разработчиков и компаний. О потенциале DeepSeek поговорили с экспертом в области GenAI Катериной ЯНЧЕНКО.
Технические инновации: эффективность встречает производительность
Модели DeepSeek V3 и R1 демонстрируют революционные архитектурные решения, которые превосходят западные аналоги.
Смесь экспертов (MoE). DeepSeek V3 использует разреженную MoE-архитектуру, активирующую только 37 млрд из 600 млрд параметров на каждом выводе. Это контрастирует с плотными моделями, такими как Llama 3 (405 млрд), которые используют все параметры, что приводит к снижению затрат на обучение и вывод DeepSeek на 70%.
Многоголовое внимание к latent (MLA). Новый механизм внимания снижает потребление памяти на 80-90%, позволяя быстрее обрабатывать задачи с длительным контекстом. Эта инновация имеет решающее значение для моделей рассуждений, таких как R1, которые генерируют сложные выводы.
Возможности рассуждений в DeepSeek R1. R1 представляет собой обучение с подкреплением, в котором модели интерактивно корректируют себя с помощью математических и кодовых оценок. В отличие от OpenAI GPT-4, который скрывает свое рассуждение, R1 раскрывает свою логику шаг за шагом, повышая прозрачность и доверие.
Эффективность затрат: Переопределение экономики искусственного интеллекта
Модели DeepSeek меняют кривую затрат. Известны оценки затрат на обучение: V3 была обучена на 2,000 H800 GPU (доля вычислительной мощности, использованной для GPT-4) - по оценкам, в $5 млн - что на несколько порядков меньше, чем западные модели. Эффективность достигнута оптимизированными меж-GPU-коммуникациями и низкоуровневым программированием CUDA.
Затраты на вывод: R1 API обходится в $2 за 1 млн токенов, по сравнению с $60 OpenAI для GPT-4.
Открытые веса DeepSeek позволяют третьим лицам развертывать модели в масштабе без лицензионных сборов, демократизируя доступ.
Преимущества открытого исходного кода: Вызов закрытым экосистемам
Сравнение моделей DeepSeek-R1-Zero и OpenAI o1 на тестах, связанных с рассуждениями.
Комитет DeepSeek к открытому исходному коду (через лицензию MIT) заметно контрастирует с ограничительными лицензиями Meta (запрещена в РФ - - IT+)(Llama) и OpenAI:
В DeepSeek нет коммерческих ограничений – разработчики могут свободно использовать, изменять и монетизировать модели DeepSeek, включая генерацию синтетических данных — и это решающее преимущество для стартапов и исследователей.
DeepSeek характеризуется необычной для данной сферы прозрачностью. Подробные технические отчеты раскрывают методы обучения, позволяя наблюдать воспроизводимость, – в отличие от непрозрачного «черного ящика» в подходах OpenAI, который подавляет инновации, ведущие сообщество.
Геополитические последствия
Успех DeepSeek приведет к закреплению Китая на лидирующих позициях в сфере искусственного интеллекта. Одновременно дебют DeepSeek резко усиливает технологическую конкуренцию между США и Китаем.
Обход экспортного контроля
Несмотря на ограничения США на поставки передовых GPU в КНР, в обучении DeepSeek использовались контрабандные H100 и, вероятно, H20 чипы (H20 — новая «санкционная» версия NVIDIA с пониженной FP8-производительностью, но увеличенной памятью). Её MoE-архитектура уникально устойчива к ограничениям, обеспечивая конкурентоспособную производительность на т.н. субоптимальном оборудовании.
Доминирование TSMC как проблема
Если говорить о технологических перспективах DeepSeek, то превосходство Тайваня в производстве наиболее современных полупроводников остается одной из уязвимостей микроэлектроники КНР. Тем не менее, прорыв DeepSeek подчеркивает прогресс Китая в области искусственного интеллекта вопреки зависимости от иностранных производителей. Производство 7-нм чипов на факториях SMIC (например, Ascend от Huawei) сокращает разрыв континентального Китая с Тайванем.
«Момент DeepSeek»
Выпуск R1 сигнализирует о способности Китая к динамичным инновациям на передовых рубежах искусственного интеллекта. Генеральный директор DeepSeek Liang Wenfeng выступает за «новую экосистему», бросающую вызов западной гегемонии, и в данном контексте DeepSeek стал катализатором все более широкого сдвига мирового лидерства в сфере ИИ на Восток.
Что дальше?
Модели рассуждений как новый рубеж ИИ. Подход R1 к цепочкам рассуждений задает прецедент для агентного искусственного интеллекта. Хотя текущие примеры использования R1 сосредоточены на кодировании и математике, будущие итерации могут включать автономные системы в здравоохранении, логистике и обороне.
Демократизация vs. контроль. Открытые веса DeepSeek оказывают давление на западные компании, чтобы они приняли более пермиссивные лицензии – иначе они рискуют стать нерелевантными. Однако регуляторные проблемы (например, злоупотребление, кража интеллектуальной собственности) могут привести к более строгому контролю в сфере ИИ.
Гонка полупроводников. Доминирование NVIDIA подвергается давлению со стороны Ascend от Huawei и TPU от Google. США должны ускорить внутреннее производство чипов, чтобы сохранить свое преимущество, так что перенос производственных мощностей на территорию Штатов — один из закономерных шагов.
DeepSeek и новая эра искусственного интеллекта
DeepSeek представляет собой не только технический прорыв, но и стратегический сдвиг в разработке ИИ. Соединив эффективность, прозрачность и открытый доступ, он бросает вызов западным парадигмам и подчеркивает решимость Китая возглавить эру искусственного интеллекта.
Успех DeepSeek отмечает не только уникальный прорыв в разработке LLM, но и то, что инновации способны процветать под ограничениями. Независимо от того, приведет ли это к сотрудничеству или усугубит конфликт технологий, одна истина очевидна: будущее ИИ больше не является западной монополией.
IT: Специфический язык R1: артефакт обучения или мистификация?
- Речь идет о любопытном наблюдении, что R1 способна генерировать цепочки токенов, напоминающие псевдоязык. Но это не сознательное создание языка, а побочный эффект обучения: Chain-of-Thought (CoT):
R1 обучена методом RLHF с акцентом на верифицируемые задачи (математика, код). В процессе модель генерирует промежуточные шаги, которые могут выглядеть как абстрактные рассуждения. Например:
[Think] Проверяю гипотезу о мета-эмоциях...Step 1] Если эмоции рекурсивны, тогда...
[Verification] Сверяю с определением из базы...
Такие структуры - результат оптимизации под задачи, а не «язык». Также есть артефакты токенизации. Модель может изобретать служебные токены (например, «Wait, wait. Wait. That’s an aha moment I can flag here», [STEP], [CHECK]) для организации вывода. Это похоже на то, как программисты используют псевдокод. Зафиксированы случаи, когда R1 «спорила сама с собой» о новизне идеи, генерируя внутренние диалоги. Это следствие RL-тренировки на множестве попыток достижения приемлемого результата.
IT: Какие основные элементы стратегии разработчиков DeepSeek позволили в итоге продемонстрировать столь выдающиеся результаты?
– Ключевой фактор – оптимизация под hardware, а не ориентация на чистую мощность.
В контексте Open-Source: R1 с ее открытыми весами и MIT-лицензией бросила вызов модели Llama/Meta, где коммерческое использование изначально ограничено. И это, как мы наблюдаем, имело оглушительный эффект.
Значение для науки и перспективных разработок: цепочки рассуждений R1 — это сильный шаг к интерпретируемому AI, хотя мы не должны испытывать иллюзий – до «сознательности» или «креативности» ИИ ещё далеко.
Кроме того, R1 задает прецедент для агентного искусственного интеллекта. Сегодня меняется подход – вместо объяснения, как думать на каждом шаге для LLM, можно объяснить модели, как верифицировать ответ, и далее она сама может реитерироваться на основе верификации.
DeepSeek - не «прорыв AGI», как часто можно слышать, но важный сигнал: будущее AI определяется не только параметрами моделей, но и способностью работать в условиях различных ограничений.
Беседовал Евгений АФАНАСЬЕВ