Grok Илона Маска признан лидером по точности: ChatGPT и Gemini показали высокий уровень «галлюцинаций» в свежем рейтинге Relum

Grok вырвался в лидеры по надежности: результаты декабрьского исследования Relum

Новое исследование, проведенное аналитическим агрегатором Relum в декабре 2025 года, выявило неожиданного лидера среди десяти протестированных моделей искусственного интеллекта: чат-бот Grok от xAI Илона Маска продемонстрировал самую низкую частоту фактических ошибок, или так называемых «галлюцинаций». Этот результат ставит под сомнение безусловное доминирование более известных конкурентов в задачах, где критически важна достоверность информации.

Согласно данным отчета, Grok показал уровень галлюцинаций всего в 8%. Для сравнения, флагманский продукт OpenAI, ChatGPT, зафиксировал показатель в 35% ложных срабатываний, а Gemini от Google оказался еще менее точным с результатом в 38%. Это означает, что модель Маска искажала факты почти в четыре раза реже, чем ее основные соперники.

Методология оценки: Риск-балл как ключевой показатель

Исследование Relum фокусировалось не только на частоте возникновения галлюцинаций. Эксперты оценивали десять ведущих ИИ-моделей по комплексному набору критериев, который включал в себя пользовательские рейтинги, стабильность ответов и частоту простоев системы. На основе этих данных каждому чат-боту присваивался «балл риска надежности» по шкале от 0 до 99. Чем выше балл, тем серьезнее потенциальные проблемы с надежностью при использовании инструмента.

Grok получил один из самых низких показателей риска — всего 6. Этот впечатляющий результат был достигнут благодаря сочетанию минимального процента ошибок (8%), высокого клиентского рейтинга (4,5), хорошей стабильности (3,5) и крайне низкого времени простоя — всего 0,07%.

Конкуренты в нижней части рейтинга и неожиданные лидеры

Результаты для гигантов рынка оказались неутешительными. ChatGPT, несмотря на широкое распространение, занял одну из самых последних позиций, получив максимальный риск-балл 99, что было обусловлено высоким уровнем галлюцинаций и частыми простоями.

Gemini от Google также оказался внизу списка с высоким показателем ошибок. Вслед за ChatGPT расположились Claude и Meta AI, получившие баллы риска 75 и 70 соответственно.

Примечательно, что второе место по надежности разделил китайский чат-бот DeepSeek. Он продемонстрировал всего 14% галлюцинаций и нулевое время простоя, что обеспечило ему превосходный итоговый балл риска — 4.

Экспертный взгляд: Важность надежности в корпоративном секторе

Разван-Лучиан Хайдук, директор по продуктам компании Relum, прокомментировал значимость полученных данных в контексте растущего внедрения ИИ в бизнес-процессы. По его словам, около 65% американских компаний уже используют чат-боты в повседневной работе, при этом почти 45% сотрудников признаются в передаче конфиденциальной корпоративной информации через эти инструменты.

«Эти цифры хорошо показывают, насколько важными стали чат-боты в повседневной работе. Зависимость от инструментов искусственного интеллекта, вероятно, будет только расти, поэтому компаниям следует выбирать чат-ботов, исходя из их надежности и соответствия конкретным потребностям бизнеса. Чат-бот, которым пользуются все, не обязательно является лучшим вариантом для вашей отрасли или дает точные ответы на ваши задачи».

Этот вывод подчеркивает тенденцию к переходу от выбора ИИ-инструмента на основе популярности к более прагматичному подходу, основанному на фактических показателях точности и стабильности. В условиях повышенного риска утечки данных и необходимости принятия решений на основе сгенерированной информации, такие метрики, как низкий процент «галлюцинаций», становятся решающими для корпоративного сектора.