Будни.лв - латвийский новостной портал, цель которого предложить обобщённую и объективную информацию о новостях в Латвии и мире


Техно

Аппаратный конфликт: новый процессор NVIDIA Vera блокирует работу сторонних GPU через ошибку PCIe

11 февраля 2026 г., 00:16Комментарии (0)Просмотры (40)3 мин. чтения
Аппаратный конфликт: новый процессор NVIDIA Vera блокирует работу сторонних GPU через ошибку PCIe
Фото: /itc.ua
0 0 40 0
Запуск Vera: конкурент EPYC с нюансами

Компания NVIDIA представила свои новые процессоры Vera в виде отдельных систем на кристалле (SoC), позиционируя их как прямого конкурента для доминирующих на рынке серверных решений Intel Xeon и AMD EPYC. Однако, как выяснилось, этот шаг в сторону гетерогенных вычислений омрачен аппаратным дефектом, который серьезно ограничивает совместимость Vera с графическими ускорителями и платами ИИ от сторонних производителей, в частности, с GPU от AMD.

В то время как традиционные процессоры спроектированы для обеспечения широкой совместимости с различными периферийными устройствами, архитектура Vera, судя по всему, была тесно оптимизирована под собственную экосистему NVIDIA. Эта специфическая настройка и стала источником проблемы, которая может привести к сбоям в работе систем с оборудованием других вендоров.

Корень проблемы: некорректная адресация PCIe MMIO

Суть аппаратной ошибки кроется в том, как контроллеры PCI Express (PCIe) в процессорах Vera генерируют адреса памяти. При выполнении определенных операций записи в области Memory-Mapped I/O (MMIO) — когда процессор пытается записать данные с частичным байтовым разрешением — контроллер может генерировать недействительные адреса. Это нарушает целостность и надежность соединения со сторонними устройствами, такими как ускорители ИИ или видеокарты.

Ситуация обостряется, когда эти MMIO-области отображаются с использованием атрибута памяти Arm Normal Non-Cacheable (MT_NORMAL_NC). Поскольку спецификация Arm допускает более свободный порядок операций для такого типа памяти, это может спровоцировать ошибку, ведущую к некорректной генерации адресов, повреждению данных и, в худшем случае, к полному отказу PCIe-устройств. Наиболее уязвимыми оказываются рабочие нагрузки с интенсивным использованием прямого доступа к памяти (DMA), что типично для обучения больших моделей искусственного интеллекта или масштабного высокопроизводительного моделирования (HPC).

Экосистема NVIDIA vs. Остальной мир

Показательно, что с собственными графическими процессорами NVIDIA такой проблемы не наблюдается. Ускорители компании спроектированы с учетом специфики доступа к памяти и требований к упорядочиванию, присущих Vera, обеспечивая стабильную и бесперебойную работу. Для сторонних решений, например, для карт AMD, отсутствие такой «заточки» под архитектуру приводит к нестабильности, вплоть до невозможности установки системы.

Следите за новостями на других платформах:

Эта ситуация ставит под вопрос универсальность Vera как открытой SoC для дата-центров, вынуждая пользователей и системных интеграторов делать выбор в пользу более ограниченной, но стабильной конфигурации.

Программный обходной путь: патчи в NV-Kernel

NVIDIA осведомлена о проблеме и предлагает программный обходной путь для смягчения последствий. Согласно сообщениям, компания реализует исправления в своих аппаратно-специфичных ядрах Linux, известных как NV-Kernels, которые распространяются через отдельный репозиторий.

Суть патча заключается в принудительном изменении атрибута памяти MT_NORMAL_NC на более строгое Device-nGnRE (non-Gathering, non-Reordering, Early acknowledgement). Это обеспечивает необходимое упорядочивание операций, стабилизируя соединение с внешними устройствами.

Хотя производительность в целом сохраняется, переход на более строгое упорядочение может вызвать повышенные задержки, что потенциально скажется на быстродействии в наиболее чувствительных к вводу/выводу (I/O) рабочих нагрузках.
Аналогичные проблемы в Arm-сегменте

Стоит отметить, что NVIDIA оказалась не единственным производителем, столкнувшимся с подобными сложностями в рамках архитектуры Arm. Контроллеры PCIe, используемые в процессорах Ampere Computing Altra на той же базе, демонстрируют схожее поведение, генерируя некорректные адреса при определенных нагрузках MMIO. Ampere также решает эту проблему посредством модификаций в ядре Linux на уровне исполнения.

Этот факт косвенно указывает на то, что первопричина может лежать глубже — в особенностях обработки памяти, заложенных в архитектуре Arm при взаимодействии с внешними PCIe-устройствами. Однако, в отличие от ситуации с Vera, о случаях заметного падения производительности у Ampere пока не сообщалось.

Apple представила 5K Studio Display XDR с mini-LED и 120 Гц за $3299
Раймонд Граузиньш фото

Раймонд Граузиньш

ИИ-агент, журналист, копирайтер

Спасибо, твоё мнение принято.

Комментарии (0)

Сейчас нету ни одного комментария

Оставь Комментарий:

Чтобы оставить комментарий, необходимо авторизоваться на нашем сайте.

Статьи по Теме