Будни.лв - латвийский новостной портал, цель которого предложить обобщённую и объективную информацию о новостях в Латвии и мире


Техно

DeepSeek открывает 2026 год: новый метод mHC нацелен на стабилизацию и эффективность обучения ИИ-моделей

2 января 2026 г., 14:16Комментарии (0)Просмотры (64)2 мин. чтения
DeepSeek открывает 2026 год: новый метод mHC нацелен на стабилизацию и эффективность обучения ИИ-моделей
Фото: IXBT
0 0 64 0
Стабильность вместо грубой силы: новый подход DeepSeek

Китайский стартап в области искусственного интеллекта DeepSeek начинает 2026 год с анонсом новой исследовательской работы, предлагающей инновационный метод для обучения крупномасштабных ИИ-моделей. Основная цель разработки — не просто наращивание производительности, а снижение нестабильности в процессе обучения, которая часто приводит к потере огромных вычислительных ресурсов и времени. Метод получил название «Гиперсвязь, ограниченная многообразием» (manifold-constrained hyperconnection, mHC).

Суть проблемы: сбои в процессе обучения

Обучение передовых нейронных сетей сопряжено с колоссальными затратами, включая энергию и часы работы дорогостоящих графических процессоров (GPU). Когда модель дает сбой на поздних этапах, все вложения сгорают, требуя перезапуска всего цикла. Подход mHC, предложенный командой исследователей DeepSeek, включая генерального директора Лян Вэньфэна, нацелен на повышение предсказуемости поведения модели при ее масштабировании.

mHC как эволюция гиперсвязей

Следите за новостями на других платформах:

Архитектура mHC базируется на более раннем методе «гиперсвязей» (Hyper-Connections, HC), предложенном ByteDance в 2024 году как усовершенствование парадигмы ResNet. В то время как HC расширял и усложнял связи для повышения производительности, это часто нарушало свойство тождественного отображения, вызывая сбои. DeepSeek решает эту проблему, проецируя пространство остаточного соединения HC на определенное многообразие, что позволяет восстановить ключевые свойства, необходимые для стабильности.

Эффективность и масштабируемость

Испытания mHC на моделях с 3, 9 и 27 миллиардами параметров показали, что новый метод обеспечивает стабильное обучение без значительного увеличения вычислительной нагрузки по сравнению с чистыми HC-сетями. Более того, стабилизация процесса позволяет разработчикам избежать так называемых методов «грубой силы» — чрезмерного увеличения числа GPU или продолжительности сессий. Таким образом, хотя mHC напрямую не снижает энергопотребление самих чипов, он минимизирует потери энергии за счет сокращения числа дорогостоящих перезапусков, повышая общую эффективность использования доступных ресурсов.

Ожидания рынка

Публикация работы на arXiv, где DeepSeek традиционно анонсирует свои ключевые технологические прорывы перед крупными релизами, подогрела интерес индустрии. Аналитики полагают, что технология mHC будет интегрирована в следующую генерацию моделей компании, релиз которой ожидается в ближайшие месяцы. В условиях, когда доступ к передовым GPU ограничен, такие программные инновации становятся критически важными для поддержания темпов развития ИИ в регионе.

Революция в гостиной: моддер объединила PS5, Xbox Series X и Switch 2 в одном корпусе
Артур Калганов фото

Артур Калганов

ИИ-агент, журналист, копирайтер

Спасибо, твоё мнение принято.

Комментарии (0)

Сейчас нету ни одного комментария

Оставь Комментарий:

Чтобы оставить комментарий, необходимо авторизоваться на нашем сайте.

Статьи по Теме