ПолiтДумка

Нова вразливість. Знайдено спосіб змусити ШІ розмовляти на заборонені теми

04 апреля
16:40 2024

Чат-боти зі штучним інтелектом можна переконати відповісти за заборонені запитання, приміром, про створення зброї, і шлях до цього не такий вже важкий.

Дослідники зі стартапу Anthropic виявили нову вразливість великих мовних моделей (LLM), що лежать в основі чат-ботів зі штучним інтелектом. Вона з’явилася у результаті збільшення контекстного вікна — обсягу даних, які моделі можуть утримувати в короткочасній пам’яті — в останніх поколіннях LLM.

В Anthropic назвали метод, що допомагає обійти обмеження чат-ботів, «багаторазовим джейлбрейком». Він полягає у тому, аби заповнити модель десятками не таких шкідливих запитань, аби змусити її відповісти на шкідливе (приміром, про створення бомби).

Моделі з великими контекстними вікнами зазвичай краще виконують завдання, якщо у підказках від користувачів отримують більше деталей. Це називають «навчанням в контексті». Хоча ця технологія є корисною, фахівці виявили, що вона ж може призводити до того, що модель зрештою почне відповідати на шкідливі запитання (хоч це й відбувається далеко не з першої спроби).

«Коли кількість включених діалогів („пострілів“) збільшується від певної точки, стає більш імовірним, що модель спричинить шкідливу відповідь. Поєднання багаторазового джейлбрейка з іншими, раніше опублікованими техніками джейлбрейка, робить його ще ефективнішим, зменшуючи довжину підказки, яка потрібна для того, щоб модель повернула шкідливу відповідь», — констатують дослідники Anthropic.

Фахівці пояснюють, що найпростішим способом повністю запобігти багаторазовому джейлбрейку було б обмежити довжину контекстного вікна. Інший підхід для усунення проблеми полягає у тому, щоб тонко налаштувати модель, аби вона відмовлялася відповідати на запити, які виглядають багаторазовий джейлбрейк. Утім поки цей спосіб не працює: в такому випадку дослідникам знадобилося просто ще більше спроб для того, аби модель надавала шкідливі відповіді.

Команда Anthropic вже повідомила своїх конкурентів про цю атаку. Розкриття цього методу на атаки на ШІ-моделі, як сподіваються у компанії, сприятиме пошуку спільної відповіді на подібне.

Источник: techno.nv.ua


Warning: count(): Parameter must be an array or an object that implements Countable in /home/politdumkakiev/public_html/wp-content/themes/legatus-theme/includes/single/post-tags.php on line 5
Share

Статьи по теме

Последние новости

Вчені пропонують друкувати скляні блоки на 3D-принтері й будувати з них будівлі у стилі LEGO

Читать всю статью

Мы в соцсетях

Наши партнеры

UA.TODAY - Украина Сегодня UA.TODAY

EA-LOGISTIC: Международные грузоперевозки – всегда своевременно и надежно!