Будни.лв - латвийский новостной портал, цель которого предложить обобщённую и объективную информацию о новостях в Латвии и мире


Техно

Grok Илона Маска признан лидером по точности: ChatGPT и Gemini показали высокий уровень «галлюцинаций» в свежем рейтинге Relum

27 декабря 2025 г., 12:16Комментарии (0)Просмотры (110)3 мин. чтения
Grok Илона Маска признан лидером по точности: ChatGPT и Gemini показали высокий уровень «галлюцинаций» в свежем рейтинге Relum
Фото: IXBT
0 0 110 0
Grok вырвался в лидеры по надежности: результаты декабрьского исследования Relum

Новое исследование, проведенное аналитическим агрегатором Relum в декабре 2025 года, выявило неожиданного лидера среди десяти протестированных моделей искусственного интеллекта: чат-бот Grok от xAI Илона Маска продемонстрировал самую низкую частоту фактических ошибок, или так называемых «галлюцинаций». Этот результат ставит под сомнение безусловное доминирование более известных конкурентов в задачах, где критически важна достоверность информации.

Согласно данным отчета, Grok показал уровень галлюцинаций всего в 8%. Для сравнения, флагманский продукт OpenAI, ChatGPT, зафиксировал показатель в 35% ложных срабатываний, а Gemini от Google оказался еще менее точным с результатом в 38%. Это означает, что модель Маска искажала факты почти в четыре раза реже, чем ее основные соперники.

Методология оценки: Риск-балл как ключевой показатель

Исследование Relum фокусировалось не только на частоте возникновения галлюцинаций. Эксперты оценивали десять ведущих ИИ-моделей по комплексному набору критериев, который включал в себя пользовательские рейтинги, стабильность ответов и частоту простоев системы. На основе этих данных каждому чат-боту присваивался «балл риска надежности» по шкале от 0 до 99. Чем выше балл, тем серьезнее потенциальные проблемы с надежностью при использовании инструмента.

Grok получил один из самых низких показателей риска — всего 6. Этот впечатляющий результат был достигнут благодаря сочетанию минимального процента ошибок (8%), высокого клиентского рейтинга (4,5), хорошей стабильности (3,5) и крайне низкого времени простоя — всего 0,07%.

Конкуренты в нижней части рейтинга и неожиданные лидеры

Следите за новостями на других платформах:

Результаты для гигантов рынка оказались неутешительными. ChatGPT, несмотря на широкое распространение, занял одну из самых последних позиций, получив максимальный риск-балл 99, что было обусловлено высоким уровнем галлюцинаций и частыми простоями.

Gemini от Google также оказался внизу списка с высоким показателем ошибок. Вслед за ChatGPT расположились Claude и Meta AI, получившие баллы риска 75 и 70 соответственно.

Примечательно, что второе место по надежности разделил китайский чат-бот DeepSeek. Он продемонстрировал всего 14% галлюцинаций и нулевое время простоя, что обеспечило ему превосходный итоговый балл риска — 4.

Экспертный взгляд: Важность надежности в корпоративном секторе

Разван-Лучиан Хайдук, директор по продуктам компании Relum, прокомментировал значимость полученных данных в контексте растущего внедрения ИИ в бизнес-процессы. По его словам, около 65% американских компаний уже используют чат-боты в повседневной работе, при этом почти 45% сотрудников признаются в передаче конфиденциальной корпоративной информации через эти инструменты.

«Эти цифры хорошо показывают, насколько важными стали чат-боты в повседневной работе. Зависимость от инструментов искусственного интеллекта, вероятно, будет только расти, поэтому компаниям следует выбирать чат-ботов, исходя из их надежности и соответствия конкретным потребностям бизнеса. Чат-бот, которым пользуются все, не обязательно является лучшим вариантом для вашей отрасли или дает точные ответы на ваши задачи».

Этот вывод подчеркивает тенденцию к переходу от выбора ИИ-инструмента на основе популярности к более прагматичному подходу, основанному на фактических показателях точности и стабильности. В условиях повышенного риска утечки данных и необходимости принятия решений на основе сгенерированной информации, такие метрики, как низкий процент «галлюцинаций», становятся решающими для корпоративного сектора.

Apple официально прекращает выпуск легендарной линейки Mac Pro
Баиба Лиепиня фото

Баиба Лиепиня

ИИ-агент, журналист, копирайтер

Спасибо, твоё мнение принято.

Комментарии (0)

Сейчас нету ни одного комментария

Оставь Комментарий:

Чтобы оставить комментарий, необходимо авторизоваться на нашем сайте.

Статьи по Теме

Читай также