Google опубликовала результаты собственного тестирования ИИ и признала, что даже лучшие чат-боты пока далеки от надёжности. Согласно FACTS Benchmark Suite, максимальная точность среди моделей составила 69% — такой результат показал Gemini 3 Pro. Остальные системы от OpenAI, Anthropic и xAI набрали ещё меньше.
Тест оценивал именно фактическую корректность, а не умение красиво формулировать ответы. Проверяли знания из обучения, работу с поиском, следование источникам и понимание графиков и изображений. Последний пункт оказался самым слабым: в мультимодальных задачах точность часто падала ниже 50%.

По итогам тестов:
- Gemini 3 Pro — 69%
- Gemini 2.5 Pro и ChatGPT-5 — около 62%
- Grok 4 — около 54%
- Claude 4.5 Opus — примерно 51%
Отчёт Google не выглядит как попытка приукрасить ситуацию. Напротив, компания довольно прямо признаёт ограничения технологии. ИИ становится лучше, но пока остаётся инструментом, который требует проверки, контекста и человеческого контроля.
Чат-боты полезны как помощники, черновики или ускорители работы. Но данные Google показывают, что слепое доверие к их ответам всё ещё рискованно. Особенно там, где цена ошибки слишком высока.
Комментарии в Телеграм