ШІ навчився «ховати» образи у мемах і картинках: популярні фільтри виявилися безсилими

ШІ-креатори, серед яких і Stable Diffusion, опинилися у центрі скандалу через небезпечну вразливість. Виявилося, що стандартні системи безпеки «осліпли»: вони розпізнають візуальну картинку, проте абсолютно «не розуміють» змісту тексту, який ШІ «вшиває» у зображення.
Про це пише РБК-Україна з посиланням на дослідження CISPA.
Вчені пояснили, чому проблема виявилася значно глибшою, ніж вважалося: сучасні детектори (NSFW) налаштовані на пошук візуальних заборон, однак ігнорують семантику.
Що це означає:
- Текстовий камуфляж — ШІ сприймає букви як набір ліній. Для алгоритму це частина малюнка, а для користувача — пряма образа чи дискримінація.
- Масовий обхід модерації — зловмисники навчилися використовувати прості промпти, які змушують нейромережу створювати токсичні меми. Такі «творіння» легко проходять перевірку соцмереж.
- Відсутність «розуму» — стандартні системи не мають мовного інтелекту, тож будь-який напис на фото для них є безпечним за замовчуванням.
Зброя проти ШІ-токсика
Щоб зупинити поширення небезпечних зображень, було розроблено датасет ToxicBench, який виклали у вільний доступ на GitHub.
Як працює технологія?
- Миттєве сканування — система автоматично «витягує» всі написи з картинки за допомогою OCR-технологій.
- Аналіз токсичності — спеціальний класифікатор миттєво перевіряє кожне слово на відповідність етичним нормам.
- Інтелектуальна підміна — замість помилки, ШІ підміняє «брудне» слово візуально схожим, але нейтральним за змістом поняттям.
Налаштування ШІ по-новому
Замість того, щоб будувати зовнішні фільтри, автори змінили самі внутрішні шари моделі. Це дозволило зберегти фотореалізм та швидкість генерації, водночас зробивши ШІ «вихованим».
Дослідники наголошують: ToxicBench є критично важливим для освітніх платформ та публічних сервісів, які використовують відкриті моделі ШІ. Наступним кроком вчених стане повне очищення відеогенераторів нового покоління від будь-якого токсичного впливу.
Источник: rbc.ua

