Нова вразливість. Знайдено спосіб змусити ШІ розмовляти на заборонені теми

04 апреля

16:40 2024

Распечатать статью Поделиться с друзьями

Чат-боти зі штучним інтелектом можна переконати відповісти за заборонені запитання, приміром, про створення зброї, і шлях до цього не такий вже важкий.

Дослідники зі стартапу Anthropic виявили нову вразливість великих мовних моделей (LLM), що лежать в основі чат-ботів зі штучним інтелектом. Вона з’явилася у результаті збільшення контекстного вікна — обсягу даних, які моделі можуть утримувати в короткочасній пам’яті — в останніх поколіннях LLM.

В Anthropic назвали метод, що допомагає обійти обмеження чат-ботів, «багаторазовим джейлбрейком». Він полягає у тому, аби заповнити модель десятками не таких шкідливих запитань, аби змусити її відповісти на шкідливе (приміром, про створення бомби).

Моделі з великими контекстними вікнами зазвичай краще виконують завдання, якщо у підказках від користувачів отримують більше деталей. Це називають «навчанням в контексті». Хоча ця технологія є корисною, фахівці виявили, що вона ж може призводити до того, що модель зрештою почне відповідати на шкідливі запитання (хоч це й відбувається далеко не з першої спроби).

«Коли кількість включених діалогів („пострілів“) збільшується від певної точки, стає більш імовірним, що модель спричинить шкідливу відповідь. Поєднання багаторазового джейлбрейка з іншими, раніше опублікованими техніками джейлбрейка, робить його ще ефективнішим, зменшуючи довжину підказки, яка потрібна для того, щоб модель повернула шкідливу відповідь», — констатують дослідники Anthropic.

Фахівці пояснюють, що найпростішим способом повністю запобігти багаторазовому джейлбрейку було б обмежити довжину контекстного вікна. Інший підхід для усунення проблеми полягає у тому, щоб тонко налаштувати модель, аби вона відмовлялася відповідати на запити, які виглядають багаторазовий джейлбрейк. Утім поки цей спосіб не працює: в такому випадку дослідникам знадобилося просто ще більше спроб для того, аби модель надавала шкідливі відповіді.

Команда Anthropic вже повідомила своїх конкурентів про цю атаку. Розкриття цього методу на атаки на ШІ-моделі, як сподіваються у компанії, сприятиме пошуку спільної відповіді на подібне.

Источник: techno.nv.ua

Warning: count(): Parameter must be an array or an object that implements Countable in /home/politdumkakiev/public_html/wp-content/themes/legatus-theme/includes/single/post-tags.php on line 5

Статьи по теме

Подняться вверх

ПолiтДумка

Нова вразливість. Знайдено спосіб змусити ШІ розмовляти на заборонені теми

Статьи по теме

Последние новости

Вчені пропонують друкувати скляні блоки на 3D-принтері й будувати з них будівлі у стилі LEGO

Мы в соцсетях

Наши партнеры

ПолiтДумка

Нова вразливість. Знайдено спосіб змусити ШІ розмовляти на заборонені теми

Статьи по теме

Последние новости

Вчені пропонують друкувати скляні блоки на 3D-принтері й будувати з них будівлі у стилі LEGO

Мы в соцсетях

Наши партнеры

Loading..

Загрузка, пожалуйста подождите...