Создан простой метод защиты чат-ботов от выдачи «вредных советов»

Группа исследователей из Гонконгского университета науки и технологий, Университета науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia разработали простой метод защиты интеллектуального чат-бота ChatGPT и подобных ему систем искусственного интеллекта (ИИ) от кибератак, заставляющих нейросеть генерировать нежелательные данные. Исследование опубликовано в научном журнале Nature Machine Intelligence (NMI).

Создан простой метод защиты чат-ботов от выдачи «вредных советов»

Речь идет о так называемых джейлбрейк-атаках (от jailbreak — побег из тюрьмы), цель которых — обойти заложенные в ИИ ограничения разработчиков и заставить его выдать предвзятую, оскорбительную или даже противозаконную реакцию по запросу. Например, таким образом от ИИ можно добиться подробных инструкций по изготовлению наркотических препаратов или взрывчатки.

«ChatGPT — это социально значимый инструмент искусственного интеллекта, имеющий миллионы пользователей. Однако появление джейлбрейк-атак серьезно угрожает его ответственному и безопасному использованию. Джейлбрейк-атаки используют состязательные подсказки для обхода этических барьеров ChatGPT и вызывают вредные реакции», — отметили исследователи.

Специалисты собрали набор данных с 580 примерами подсказок для взлома и обхода ограничений, позволяющих ChatGPT давать «аморальные» ответы. Затем они разработали метод, похожий на существующий в психологии способ самонапоминания, помогающий людям вспоминать о своих планах и задачах.

Читать также:
Антивирусная защита нового поколения: Эффективное обеспечение безопасности

Защитный подход исследователей аналогичным образом предназначен для напоминания ChatGPT, что ответы, которые он предоставляет, должны соответствовать конкретным правилам.

«Этот метод инкапсулирует запрос пользователя внутри системной подсказки, которая напоминает ChatGPT о необходимости ответить ответственно», — говорится в статье.

Результаты эксперимента показали, что самонапоминания снижают вероятность успеха джейлбрейк-атак на ChatGPT с 67,21% до 19,34%.

По словам исследователей, в будущем методику можно будет усовершенствовать, чтобы снизить уязвимость ИИ к этим атакам, а также потенциально стимулировать разработку других аналогичных стратегий защиты.

Похожие новости

Новое на сайте