Эпохальный эксперимент: ИИ на винтажном «железе»
В мире, где доминируют многогигабайтные нейросети и облачные вычисления, независимый энтузиаст под псевдонимом HarryR представил проект, который бросает вызов современным представлениям о развитии искусственного интеллекта. Он создал так называемый «разговорный ИИ», получивший название Z80-μLM, который способен работать на 8-битном процессоре Zilog Z80, выпущенном еще в 1976 году.
Z80 — это знаковый чип, который вместе со своими многочисленными клонами стал одним из самых распространенных процессоров за всю историю, определяя развитие домашних компьютеров и игровых приставок своего времени. Запустить на таком архаичном «железе» что-либо, отдаленно напоминающее современный ИИ, казалось невыполнимой задачей.
Однако цель разработчика состояла в поиске ответа на вопрос: насколько минималистичным может быть ИИ, сохраняя при этом некую «индивидуальность» и возможность легкого дообучения или распространения. Результатом этого инженерного вызова стал бинарный файл формата .COM размером всего 40 килобайт. Этот скромный по объему файл содержит в себе всё необходимое: модель, веса и даже простейший пользовательский интерфейс, имитирующий чат.
Инженерная магия: Квантизация и ограничения Z80
Ключом к успеху Z80-μLM стала агрессивная оптимизация и компромиссы, продиктованные экстремальными аппаратными ограничениями. Проект функционирует на процессоре Z80, работающем на тактовой частоте около 4 МГц, и имеет доступ к 64 КБ оперативной памяти, что является стандартом для многих систем под управлением CP/M.
В основе модели лежит подход, использующий квантизацию с учетом обучения (QAT). Это позволило сжать веса нейронной сети до 2-битной точности, где значениям присваиваются всего четыре дискретных уровня (например, -2, -1, 0, +1). Процесс обучения был специально настроен так, чтобы модель адаптировалась к этим жестким ограничениям в процессе тренировки, минимизируя коллапс производительности после финального сжатия.
Кроме того, для обработки данных использовались специфические для эпохи методы. Среди них — хеширование на основе триграмм, которое обеспечивает некоторую устойчивость к опечаткам, но при этом теряет информацию о порядке слов. Также для вычислений применялась 16-битная целочисленная арифметика, соответствующая возможностям старого процессора.
Функциональность: Чат-бот и игра в «20 вопросов»
Не стоит ожидать от Z80-μLM ведения сложных, многоступенчатых диалогов, сравнимых с современными большими языковыми моделями (LLM). Автор проекта честно признает, что его творение не пройдет даже упрощенный тест Тьюринга. Однако, как подчеркивается, «зеленый экран, возможно, вызовет у вас улыбку» своей винтажной эстетикой.
Модель работает в двух основных режимах:
- Tinychat: Это собственно разговорный режим. Бот отвечает на приветствия и вопросы о себе, но его сообщения крайне лаконичны и короткие.
- Guess: Игра, основанная на формате «20 вопросов», где модель загадывает некий секрет, а пользователь пытается его угадать, задавая наводящие вопросы.
Вся эта минималистичная система упакована в один исполняемый файл, что облегчает ее запуск как на реальном оборудовании Z80, так и в распространенных эмуляторах, например, для операционной системы CP/M.
Контекст и Наследие: Возвращение к основам
Проект Z80-μLM, по сути, является увлекательным мысленным экспериментом, демонстрирующим, как фундаментальные принципы машинного обучения могут быть применены в условиях, которые сегодня кажутся абсурдно ограниченными. Это напоминает о ранних днях интерактивных программ, таких как ELIZA, которые создавали иллюзию общения с помощью простых правил, но теперь демонстрируют, что даже элементы, вдохновленные LLM, могут быть адаптированы под старые архитектуры.
По мнению некоторых наблюдателей, работа HarryR находится на пересечении ретрокомпьютинга и передовых ML-исследований, показывая, как архитектура модели, квантование и генерация кода инференса могут быть адаптированы под самые жесткие лимиты по памяти и вычислениям. Хотя этот чат-бот не заменит облачные сервисы, он служит важным образовательным примером того, как можно свести процесс инференса к операциям, совместимым с давно устаревшими средами выполнения.











Следите за новостями на других платформах: