хіміки вигадали, як його зупинити
Академічні видавці стикаються зі швидким та повсюдним впровадженням нових текстових генераторів зі штучним інтелектом, таких як ChatGPT. Вони сильно спрощують життя дослідникам, дозволяючи писати розгорнуті наукові статті за лічені хвилини, проте цінність таких статей залишає бажати кращого, оскільки ІІ часто схильний до вигадування фактів, які абсолютно не відповідають дійсності.
У зв’язку з цим багато дослідних журналів нещодавно оновили свої правила публікації, заборонивши використання ChatGPT як автора і вимагаючи повного розкриття інформації про його застосування. Однак хитрі дослідники в гонитві за публікаціями часто приховують факт використання нейромереж у написанні своїх статей, чим лише зміцнюють порочне коло брехні.
Існуючі детектори штучного інтелекту який завжди можуть коректно виявити наявність у тексті машинної генерації чи точно визначити її відсоток. Похибка в роботі подібних інструментів, як і раніше, надто висока, щоб розраховувати на них серйозно.
Однак тепер, здається, ключ у створенні ефективніших інструментів виявлення генерації нарешті знайдено. У дослідницькій статті , опублікованій на порталі ScienceDirect , вченими хімічного факультету з Канзаського університету США описується метод перевірки тексту з використанням машинного навчання (ML), де детектор аналізує 20 особливостей стилю письма, включаючи варіацію довжини речень, частоту повтору певних слів та використання щоб визначити, хто написав досліджуваний текст: реальна людина чи штучний інтелект.
Для перевірки точності детектора дослідники протестували його на 200 публікаціях у журналі Американського хімічного товариства. Для 100 із них інструменту було надано назви статей, а для інших 100 – їх анотації.
У ході аналізу не був задіяний дуже спірний, як вважається серед дослідників, показник подиву, який часто демонструє хибне визначення машинної генерації в текстах, написаних ненативними носіями мови.
За підсумком, інструмент показав разючі результати і перевершив онлайн-інструменти типу ZeroGPT та інші, ідентифікувавши написані GPT-3.5 і GPT-4 тексти зі 100% точністю.
Завдяки цьому дослідженню зусилля з розробки детекторів ІІ можуть отримати значний поштовх за рахунок адаптації програмного забезпечення до конкретних типів листа. Як сказав один із дослідників, результати показують, що «можна використовувати невеликий набір ознак, щоб отримати високий рівень точності».
Хоча розробка виглядає багатообіцяюче, самі автори дослідження зазначають, що їх тести проводилися фактично у вакуумі: тестувалася лише одна мовна модель, один тип промптів, один тип статей з одного журналу, та й тематика цього журналу дуже специфічна — хімія.
Потрібно чимало часу, щоб просто протестувати ефективність виявленого методу на інших текстах, і тим більше розробити готовий продукт для масового користування. Але початок покладено, і це безперечно радує.