Стабильность вместо грубой силы: новый подход DeepSeek
Китайский стартап в области искусственного интеллекта DeepSeek начинает 2026 год с анонсом новой исследовательской работы, предлагающей инновационный метод для обучения крупномасштабных ИИ-моделей. Основная цель разработки — не просто наращивание производительности, а снижение нестабильности в процессе обучения, которая часто приводит к потере огромных вычислительных ресурсов и времени. Метод получил название «Гиперсвязь, ограниченная многообразием» (manifold-constrained hyperconnection, mHC).
Суть проблемы: сбои в процессе обучения
Обучение передовых нейронных сетей сопряжено с колоссальными затратами, включая энергию и часы работы дорогостоящих графических процессоров (GPU). Когда модель дает сбой на поздних этапах, все вложения сгорают, требуя перезапуска всего цикла. Подход mHC, предложенный командой исследователей DeepSeek, включая генерального директора Лян Вэньфэна, нацелен на повышение предсказуемости поведения модели при ее масштабировании.
mHC как эволюция гиперсвязей
Архитектура mHC базируется на более раннем методе «гиперсвязей» (Hyper-Connections, HC), предложенном ByteDance в 2024 году как усовершенствование парадигмы ResNet. В то время как HC расширял и усложнял связи для повышения производительности, это часто нарушало свойство тождественного отображения, вызывая сбои. DeepSeek решает эту проблему, проецируя пространство остаточного соединения HC на определенное многообразие, что позволяет восстановить ключевые свойства, необходимые для стабильности.
Эффективность и масштабируемость
Испытания mHC на моделях с 3, 9 и 27 миллиардами параметров показали, что новый метод обеспечивает стабильное обучение без значительного увеличения вычислительной нагрузки по сравнению с чистыми HC-сетями. Более того, стабилизация процесса позволяет разработчикам избежать так называемых методов «грубой силы» — чрезмерного увеличения числа GPU или продолжительности сессий. Таким образом, хотя mHC напрямую не снижает энергопотребление самих чипов, он минимизирует потери энергии за счет сокращения числа дорогостоящих перезапусков, повышая общую эффективность использования доступных ресурсов.
Ожидания рынка
Публикация работы на arXiv, где DeepSeek традиционно анонсирует свои ключевые технологические прорывы перед крупными релизами, подогрела интерес индустрии. Аналитики полагают, что технология mHC будет интегрирована в следующую генерацию моделей компании, релиз которой ожидается в ближайшие месяцы. В условиях, когда доступ к передовым GPU ограничен, такие программные инновации становятся критически важными для поддержания темпов развития ИИ в регионе.











Следите за новостями на других платформах: