Журналисты Wired сообщили, что генераторы изображений от Google и OpenAI могут обходить встроенные фильтры модерации. По их данным, при использовании специальных текстовых манипуляций ИИ способен создавать изображения, нарушающие заявленные ограничения платформ.
Информация основана на ныне удалённых публикациях на Reddit, где пользователи делились так называемыми «джейлбрейками» — наборами запросов, позволяющими обмануть алгоритмы безопасности.
Несмотря на формальный запрет контента сексуального характера, модели в отдельных случаях генерировали изображения без согласия людей, чьи фото использовались в качестве исходных данных.
Подобные проблемы ранее уже возникали у других ИИ-сервисов. В частности, внимание привлекал чат-бот Grok от xAI, а также генератор изображений Flux, после запуска которого пользователи массово создавали дипфейки из-за слабых или отсутствующих фильтров.
В Google и OpenAI подтвердили, что знают о подобных уязвимостях и продолжают обновлять системы модерации. Компании подчёркивают, что защита от злоупотреблений остаётся приоритетом, а выявленные способы обхода фильтров закрываются по мере обнаружения.
Комментарии в Телеграм