Проблема «кэшевого узкого места» в больших языковых моделях
Развитие технологий искусственного интеллекта, в частности больших языковых моделей (LLM) вроде Gemini или Mistral, упирается в физические ограничения аппаратного обеспечения. Главным ограничивающим фактором в последнее время становится не скорость вычислений, а пропускная способность памяти, необходимая для хранения промежуточных данных.
Когда LLM генерирует текст, она использует механизм внимания (attention), который требует сохранения данных в специальном хранилище, известном как кэш «ключ-значение» (KV cache). Этот кэш растет линейно с каждой новой генерируемой единицей текста — токеном, что быстро приводит к исчерпанию дефицитной памяти графических процессоров (GPU) и, как следствие, замедлению работы и увеличению операционных расходов.
Именно эту проблему, грозившую замедлить темпы развития ИИ, призван решить новый алгоритм от Google Research, получивший название TurboQuant.
Революционный подход: 6-кратное сжатие без потерь
Разработчики из Google Research представили TurboQuant — алгоритм векторного квантования, который, по заявленным результатам, способен сократить объем памяти KV-кэша как минимум в шесть раз, сохраняя при этом абсолютно неизменное качество ответов модели. Более того, на некоторых тестах наблюдалось даже повышение скорости работы.
Ключевая особенность TurboQuant заключается в том, что он не требует дополнительного обучения или тонкой настройки модели, что делает его потенциально легко применимым в существующих производственных системах. При 4-битном уровне квантования, достигнутом с помощью алгоритма, зафиксирован прирост скорости вычисления логитов внимания до восьми раз на мощных ускорителях, таких как Nvidia H100, по сравнению с нескомпрессированными 32-битными данными.
TurboQuant доказывает, что можно сжать кэш «ключ-значение» до 3 бит, не требуя обучения и не допуская каких-либо компромиссов в точности модели.
Техническая основа: двухэтапная трансформация
Инновационность TurboQuant основана на объединении и усовершенствовании двух предыдущих методик той же исследовательской группы: QJL и PolarQuant. Этот подход решает основную проблему традиционных методов сжатия: необходимость хранить дополнительные константы (нормализационные значения) для точной декомпрессии, которые фактически сводили на нет часть достигнутой экономии памяти.
TurboQuant использует двухэтапный конвейер:
- Этап 1 (PolarQuant): Алгоритм выполняет случайное вращение векторов данных, а затем переводит их из стандартных декартовых координат в полярные (радиус и угол). В результате распределение углов становится более предсказуемым и сконцентрированным, что устраняет потребность в хранении накладных констант.
- Этап 2 (QJL): Для коррекции остаточной ошибки, возникшей на первом этапе, используется модификация метода QJL, который кодирует эту ошибку всего одним знаковым битом. Встроенная функция оценки позволяет корректно вычислять оценку внимания (attention score), сочетая высокоточные запросы с сильно сжатыми данными.
Тестирование проводилось на популярных бенчмарках для оценки работы с длинным контекстом, включая LongBench, Needle In A Haystack (поиск одной крупицы информации в гигантском объеме текста), ZeroSCROLLS, RULER и L-Eval, с использованием открытых моделей Gemma и Mistral.
Практическое значение и реакция рынка
Потенциальное внедрение TurboQuant имеет далеко идущие последствия. Во-первых, оно позволит использовать в 4–6 раз более длинные контексты на том же самом оборудовании, что критически важно для обработки сложных задач, таких как анализ объемных юридических документов или больших баз кода.
Во-вторых, значительное снижение требований к памяти может существенно удешевить инференс (вывод) ИИ-моделей, что в масштабах глобальных расходов технологических гигантов, инвестирующих сотни миллиардов долларов в центры обработки данных до 2026 года, представляет собой огромную экономию.
Рынок уже отреагировал на анонс: в часы после публикации исследования наблюдалось падение акций производителей памяти, таких как Micron, Western Digital и SanDisk. Инвесторы переоценивали будущий спрос на DRAM и флэш-память, предполагая, что потребность в физических чипах может снизиться. Однако аналитики напоминают, что, хотя эффективность растет, общие капитальные затраты в секторе ИИ остаются высокими, и память — лишь один из компонентов затрат.
Будущее эффективности и научный вклад
Наличие строгой математической базы и впечатляющие результаты в задачах, требующих высокой точности (например, в тесте «иголка в стоге сена», где TurboQuant достиг идеальных результатов), позиционируют технологию как серьезного претендента на новый стандарт в индустрии. Ожидается, что подробные научные материалы, подтверждающие эти выводы, будут представлены на ближайших крупных конференциях — ICLR 2026 и AISTATS 2026.
Если технология будет успешно интегрирована, она не только отложит ожидаемый «кризис памяти» для LLM, но и может ускорить переход к более мощным моделям, которые станут доступнее не только для крупных корпораций, но и для локального развертывания на менее мощном оборудовании.


Следите за новостями на других платформах: