Google признала проблему AI чат-ботов: точность ответов не дотягивает до 70%

Google опубликовала результаты собственного тестирования ИИ и признала, что даже лучшие чат-боты пока далеки от надёжности. Согласно FACTS Benchmark Suite, максимальная точность среди моделей составила 69% — такой результат показал Gemini 3 Pro. Остальные системы от OpenAI, Anthropic и xAI набрали ещё меньше.

Тест оценивал именно фактическую корректность, а не умение красиво формулировать ответы. Проверяли знания из обучения, работу с поиском, следование источникам и понимание графиков и изображений. Последний пункт оказался самым слабым: в мультимодальных задачах точность часто падала ниже 50%.

По итогам тестов:

Gemini 3 Pro — 69%
Gemini 2.5 Pro и ChatGPT-5 — около 62%
Grok 4 — около 54%
Claude 4.5 Opus — примерно 51%

Отчёт Google не выглядит как попытка приукрасить ситуацию. Напротив, компания довольно прямо признаёт ограничения технологии. ИИ становится лучше, но пока остаётся инструментом, который требует проверки, контекста и человеческого контроля.

Чат-боты полезны как помощники, черновики или ускорители работы. Но данные Google показывают, что слепое доверие к их ответам всё ещё рискованно. Особенно там, где цена ошибки слишком высока.