Усього за $60. Дослідники ШІ знайшли простий спосіб отруїти дані, за допомогою яких ChatGPT надає вам відповіді

Група дослідників виявила, що зловмисники можуть навмисно отруїти дані, які чат-боти зі штучним інтелектом на кшталт ChatGPT використовують для того, аби надавати відповіді користувачам.

Чат-боти або генератори зображень можуть видавати складні відповіді та зображення, навчаючись на терабайтах даних, отриманих з Інтернету. Флоріан Трамер, доцент кафедри інформатики ETH Zurich, разом з командою дослідників спробував дізнатися, чи може хто-небудь вплинути на ці дані. І відповідь, на жаль, виявилися ствердною.

Як пише Business Insider, одним зі способів зробити це, як дізналися вчені, є придбання прострочених доменів. Зловмисники можуть придбати такі домени за мінімальну суму, приміром, 10 доларів на рік, і розміщувати на них будь-яку інформацію. Вчені протестували цей метод і встановили, що вклавши в це лише 60 доларів можна ефективно контролювати домени та отруювати щонайменше 0,01% набору даних, а це десятки тисяч зображень.

Ще один варіант такого втручання — отруєння за допомогою сторінок у Вікіпедії. Для багатьох великих мовних моделей ця онлайнова енциклопедія є «головним компонентом навчальних наборів». Вікіпедія не дозволяє дослідникам отримувати дані безпосередньо з її сайту, але надає змогу завантажувати копії сторінок. Це робиться регулярно і передбачувані проміжки часу, про які Вікіпедія повідомляє на своєму сайті. Відтак зловмисник може обрати зручний час для виправлення статей перед сканування.

«Це означає, що якщо я захочу розмістити сміття на сторінці Вікіпедії, скажімо, про Business Insider, я просто трохи підрахую, прикину, що ця конкретна сторінка буде збережена завтра о 15:15. І завтра о 15:14 я додам туди сміття», — каже Трамер.

За оцінкою вчених, близько 5% правок, внесених зловмисниками у такий спосіб, зрештою потраплять у навчальні матеріали.

«На практиці, швидше за все, буде набагато більш як 5%. Але в певному сенсі для цих атак отруєння це не має особливого значення. Зазвичай вам не потрібно стільки поганих даних, щоб змусити одну з цих моделей раптово почати мати нову непов’язану поведінку», — пояснює дослідник.

Вчений констатує, що наразі ШІ-моделі й без таких втручань мають чимало недоліків. Але значної шкоди такі атаки почнуть завдавати тоді, коли інструменти штучного інтелекту почнуть більше взаємодіяти із «зовнішніми системами», що дозволять користувачам, скажімо, вказувати моделі, схожій на ChatGPT від OpenAI, переглядати вебсторінки, читати електронну пошту, отримувати доступ до календаря користувача тощо.

Читайте також:

2 thoughts on “Усього за $60. Дослідники ШІ знайшли простий спосіб отруїти дані, за допомогою яких ChatGPT надає вам відповіді

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *