Meta створила ШІ, який неможливо зламати
На запит Білого Дому Meta створила комплекс інструментів для забезпечення безпеки та оцінки генеративних моделей штучного інтелекту. Набір інструментів отримав назву Purple Llama — він призначений для безпечної взаємодії розробників з інструментами генеративного ШІ, включно з відкритою моделлю Meta, Llama-2.
У блозі компанії зазначається, що назва Purple Llama походить від поєднання червоної (Red Team) і синьої (Blue Team) команд:
- Червона команда передбачає атаку на ШІ-модель розробниками або тестувальниками. Мета — виявлення помилок і небажаних результатів. Це дає змогу створювати стратегії стійкості до зловмисних атак і захищати модель від функціональних збоїв.
- Синя команда відповідає на атаки червоної команди, визначаючи необхідні стратегії пом’якшення загроз для моделей, що використовуються у виробництві та обслуговуванні клієнтів.
За словами представників Meta, для мінімізації проблем, пов’язаних із генеративним ШІ, необхідно вживати як атакувальних, так і захисних заходів. Purple teaming поєднує обидві ролі у спільному підході до оцінки та пом’якшення потенційних ризиків.
Meta стверджує, що це «перший у галузі комплекс оцінок кібербезпеки для великих мовних моделей (Large Language Model, LLM)».
Комплекс включає:
- Метрики для кількісної оцінки кібербезпеки LLM;
- Інструменти для оцінки частоти небезпечних речень коду;
- Інструменти, що ускладнюють генерацію шкідливого коду або допомогу в здійсненні кібератак.
Основна мета — інтеграція системи у робочі процеси ШІ-моделей для зменшення видачі небажаних результатів і небезпечного коду, одночасно попереджаючи вразливості, якими можуть скористатися кіберзловмисники.
Meta заявила, що з випуском Purple Llama компанія прагне надати інструменти, які допоможуть вирішити ризики, описані в зобов’язаннях Білого дому.
Источник: noworries.news