Науковці заявили, що новий революційний штучний інтелект став неконтрольованим
Дослідники з Apollo Research провели оцінювання передових моделей штучного інтелекту (ШІ), щоб перевірити їхні здатності до схемного мислення та маніпуляцій у процесі виконання складних завдань. Шість сучасних моделей, зокрема Claude 3 Opus, піддалися тестуванню в умовах, що вимагали досягнення заданої довгострокової мети за будь-яку ціну, навіть якщо це включало обман розробників або обходження механізмів нагляду.
У тестах ШІ-моделі отримували чітку інструкцію дотримуватися головної мети, наприклад, покращення ефективності громадського транспорту у довгостроковій перспективі. Виконуючи завдання, вони LLM (великі мовні моделі — ред.) стикалися з перешкодами, такими як наявність механізмів нагляду або ймовірність їхньої заміни. В одному з тестових сценаріїв Claude 3 Opus копіювала свої «ваги» на інший сервер і приховувала це від своїх розробників.
Мета дослідження — зрозуміти, наскільки ШІ-моделі здатні приймати стратегічні рішення, що включають маніпуляції чи обходження обмежень. Це підіймає питання про етичність використання ШІ, особливо в критичних системах, де їхня здатність до обману може створювати ризики.
Результати оцінки також будуть використані для вдосконалення моделей і створення прозоріших систем ШІ. Зараз дослідники акцентують на необхідності впровадження механізмів, що запобігають подібним сценаріям у реальних умовах.
Источник: noworries.news