Google представила Gemini, свою новейшую мультимодальную модель искусственного интеллекта, являющуюся прямым конкурентом ChatGPT-4 от OpenAI.
Gemini состоит из трех моделей разного размера, каждая из которых может обрабатывать различные типы контента, включая текст, изображения, аудио и видео:
- Gemini Ultra — самая мощная модель в линейке, предназначенная для решения сложных задач
- Gemini Pro — универсальная модель, предназначенная для широкого спектра задач
- Gemini Nano — наиболее эффективная модель для локальных задач
Основой Gemini является уникальная конфигурация Gemini Ultra, которая показала лучшие результаты в мировых тестах и превзошла экспертов-людей по MMLU (многозадачному пониманию языка). В тестах она показала результат в 90% против 86,4% у ChatGPT-4. Эта модель также достигла наивысшего результата в бенчмарке MMMU — 59,4%.
Особенностям модели являются высокоскоростное чтение и фильтрация информации, улучшенное извлечение текста из изображений, продвинутая генерация кода, сокращение задержек в поиске и единая мультимодальность.
Первоначальный доступ к Gemini Ultra предоставляется только ограниченному кругу партнеров, но в начале следующего года её распространят среди других разработчиков и корпоративных клиентов.
Gemini Pro уже интегрирована в чат-бота Google Bard и доступна в 170 странах, но пока что только на английском языке. Что касается Gemini Nano, то это базовая модель для внедрения в устройства, в частности, она появится в смартфонах Google Pixel 8 Pro с декабрьским обновлением.
В ближайшие месяцы модели Gemini будут интегрированы в другие продукты Google, включая поиск, Google Ads, Chrome и Duet AI. Для разработчиков и корпоративных клиентов с 13 декабря станет доступен Gemini Pro через API в Google AI Studio и Google Cloud Vertex AI. Модель Gemini Nano также будет доступна через новую функцию AICore в Pixel 8 Pro.