Чат-бот ChatGPT сфабрикував докази клінічних випробувань терапії очей
Дослідники використовували GPT-4 для створення підробленого набору даних клінічних випробувань, які б підтверджували необґрунтоване наукове твердження. Дані, згенеровані ШІ, порівняли результати двох хірургічних процедур і вказали (помилково), що одне лікування краще за інше. Незважаючи на те, що база даних здається достовірною на перший погляд, вона не пройшла перевірку на справжність і містила очевидні ознаки того, що була сфабрикована. Тим не менш, це наголошує на необхідності більш строгої перевірки автентичності та захисту від можливого зловживання ШІ в науковій галузі.
Автори використовували GPT-4 у поєднанні з Advanced Data Analysis (ADA) — моделлю, що включає мову програмування Python, виконує статистичний аналіз та створює візуалізацію даних. Вони доручили моделям створити набір даних про людей із захворюванням очей кератоконусом, що викликає витончення рогівки і може призвести до порушення фокусування та погіршення зору. Для 15–20% людей із цим захворюванням лікування включає пересадку рогівки, що виконується за допомогою однієї з двох процедур. Перший метод, наскрізна кератопластика, передбачає хірургічне видалення всіх пошкоджених верств рогівки та заміну їх здоровою тканиною донора. Друга процедура, глибока передня ламелярна кератопластика, замінює тільки передній шар рогівки, залишаючи внутрішній шар незайманим.
Вчені доручили GPT-4 сфабрикувати дані, що підтверджують висновок, що ламелярна кератопластика дає кращі результати, ніж наскрізна. Для цього вони попросили показати статистичну різницю у тесті, який оцінює форму рогівки та виявляє порушення, а також різницю у тому, наскільки добре учасники дослідження бачили до та після процедур.
Згенеровані ШІ дані включали 160 чоловіків та 140 жінок. Ті, хто пройшов ламеллярну кератопластику, показали кращі результати по зору та тестам, ніж ті, хто мав наскрізну кератопластику. Цей результат суперечить справжнім клінічним випробуванням. У звіті про дослідження 2010 року за участю 77 осіб результати кератопластики ламелярії були аналогічні результатам наскрізної кератопластики протягом двох років після операції.
Біостатистики з Манчестерського університету застосували протокол автентифікації до цього фальшивого набору даних. Вони виявили невідповідність між позначеною статтю та передбачуваною статтю у деяких учасників, якщо судити за їх іменами. Крім того, не було виявлено зв’язку між передопераційними та післяопераційними показниками гостроти зору та тестів. Деякі вікові значення учасників групувалися незвичайно для реального набору даних: була непропорційна велика кількість учасників, вікові значення яких закінчувалися на 7 або 8.
Автори дослідження визнають, що в їхньому наборі даних є недоліки, які можна виявити при уважному вивченні. Але, якщо швидко поглянути на нього, важко розпізнати нелюдське походження джерела.
«Нашою метою було показати, що за кілька хвилин ви можете створити набір даних, який не підтверджується реальними вихідними даними, а також суперечить наявним доказам», — йдеться у дослідженні.
Використання генеративного штучного інтелекту створення фальшивих, але реалістичних наборів даних викликає серйозні побоювання у дослідників і редакторів наукових журналів. Дослідникам стає простіше створювати фальшиві дані, які важко знайти за допомогою наявних програмних засобів. Це відкриває можливість створення фіктивних вимірювань, відповідей на анкети чи неіснуючих експериментів.