Gemini, ChatGPT и Grok проверили на прочность: какой ИИ-чат-бот лучше всего справляется с простой математикой

Спорная точность: почему ИИ ошибаются в расчетах

Искусственный интеллект (ИИ) всё глубже проникает в нашу повседневную жизнь, включая рутинные вычисления. Однако насколько надежны эти системы, когда речь заходит о базовой математике? Недавнее исследование советует пользователям сохранять бдительность. Согласно отчету ORCA (Omni Research on Calculation in AI), при выполнении повседневных математических задач существует примерно 40-процентная вероятность того, что чат-бот ИИ даст неверный ответ. Точность значительно варьируется как между разными разработчиками ИИ, так и в зависимости от типа требуемых вычислений.

Исследование ORCA, как сообщает портал EuroNews.com, было основано на анализе 500 практических задач, требующих расчетов из реальной жизни. Каждая модель ИИ прошла тестирование на одном и том же наборе вопросов. Модели проверялись в октябре 2025 года. В испытании участвовали пять ведущих ИИ-систем: ChatGPT-5 (OpenAI), Gemini 2.5 Flash (Google), Claude 4.5 Sonnet (Anthropic), DeepSeek V3.2 (DeepSeek AI) и Grok-4 (xAI).

Результаты бенчмарка: кто лидирует, а кто отстает

Бенчмарк ORCA показал, что ни одна из протестированных моделей не смогла преодолеть порог в 63 процента точности в области повседневной математики. Лидер, Gemini, достиг показателя 63 процента, что означает, что он ошибается почти в двух из пяти примеров. Модель Grok расположилась почти рядом с ним с результатом 62,8 процента. Третье место занял DeepSeek с 52 процентами. Далее следуют ChatGPT с 49,4 процента, а замыкает рейтинг Claude с 45,2 процента. Общий средний показатель для пяти моделей составил 54,5 процента.

«Хотя точные рейтинги могут измениться, если мы повторим этот тест сегодня, общий вывод, вероятно, останется прежним: числовая надежность остается слабым местом для современных моделей ИИ», — заявил Давид Сюда, соавтор бенчмарка ORCA, в комментарии для Euronews Next.

Различия по категориям: физика против конвертации

Производительность ИИ-моделей заметно различается в зависимости от предметной области. Наибольшая точность была зафиксирована в категориях «математика и преобразования» (147 из 500 запросов), где Gemini показал наилучший результат — 83 процента. Grok в этой категории достиг 76,9 процента, а DeepSeek — 74,1 процента. ChatGPT в этом сегменте набрал 66,7 процента. Средняя точность по всем пяти моделям в этой области оказалась самой высокой среди семи протестированных категорий и составила 72,1 процента.

Напротив, физика (128 запросов) оказалась самой сложной областью, показав среднюю точность всего 35,8 процента. Здесь Grok немного опередил Gemini, показав 43,8 процента против 43 процентов у конкурента. Claude продемонстрировал наихудший результат в этом блоке, опустившись до 26,6 процента. Всего Gemini и Grok заняли первые места в трех категориях каждый, а еще в одной разделили лидерство.

Особенно низкие результаты были зафиксированы в биологии и химии: DeepSeek показал здесь наихудшую среди всех моделей точность — всего 10,6 процента. Это означает, что модель не смогла правильно ответить примерно на девять из десяти вопросов.

Самые большие разрывы в производительности наблюдались в секторах финансов и экономики. Grok и Gemini достигли уровня точности 76,7 процента, в то время как остальные три модели — ChatGPT, Claude и DeepSeek — не смогли преодолеть отметку в 50 процентов.

Типы ошибок, которые допускают чат-боты

Эксперты классифицировали ошибки, допущенные ИИ, по четырем основным категориям. Согласно отчету, основная трудность заключается в «переводе» реальной жизненной ситуации в корректную математическую формулу.

1. Ошибки «небрежного счета» (68% всех ошибок). В этих случаях ИИ правильно понимает задачу и выбирает нужную формулу, но терпит неудачу в самом вычислении. Эта категория включает проблемы с округлением и точностью (35%) и прямые вычислительные ошибки (33%). Например, в задаче о вероятности выигрыша в лотерее, где требовалось 1 к 520521, ChatGPT-5 выдал результат 1 к 401397.

2. Ошибки «неверной логики» (26% ошибок). Это более серьезные промахи, свидетельствующие о том, что ИИ испытывает трудности с пониманием лежащей в основе задачи логики. Сюда относятся ошибки в выборе метода или формулы (14%) и неверные исходные предположения (12%).

3. Ошибки «неправильной интерпретации инструкции» (5% ошибок). Они возникают, когда ИИ неверно считывает суть заданного вопроса. Примеры включают ошибки в параметрах или предоставление неполного ответа.

4. Ошибки «отказа» (непроцентная доля). В некоторых случаях ИИ просто отказывается отвечать на вопрос или уклоняется от него, вместо того чтобы попытаться решить задачу.

«Их слабое место — округление: если расчет многоэтапный и требует округления на каком-либо этапе, конечный результат часто оказывается далеко от истины», — заключил Сюда.

Предупреждение для пользователей

Исследование охватило самые продвинутые модели ИИ, доступные широкой публике бесплатно. Важно помнить, что каждый тестовый запрос имел только один верный ответ. На фоне зафиксированных результатов эксперты настоятельно рекомендуют пользователям проявлять осторожность при использовании ИИ для критически важных вычислений.

«Если задача имеет критическое значение, используйте калькуляторы или проверенные источники, или как минимум перепроверьте результат с помощью другого ИИ», — советует Сюда.