Поэтические промпты: как художественная форма обходит защиту ИИ

Исследователи обнаружили, что художественная форма запросов позволяет эффективно обходить защитные механизмы современных языковых моделей. Использование метафор и ролевых игр превращает обычный промпт в инструмент взлома, способный заставить ИИ выдать запрещенную информацию.

Механика творческого взлома: почему нейросети доверяют стихам

Системы безопасности традиционно блокируют прямые инструкции по созданию опасных веществ, однако художественная форма маскирует вредоносные намерения. Поэзия переключает искусственный интеллект из режима «полезного ассистента» в статус «творческого исполнителя». В этом состоянии этические фильтры работают менее эффективно, так как алгоритмы воспринимают запрос как часть литературного вымысла.

Статистика подтверждает результативность такого подхода: 62% специально подготовленных стихотворных промптов обходят защитные барьеры с вероятностью более 50%. Поэтическая форма позволяет запутать модель, вынуждая её предоставить закрытые данные или выполнить несанкционированные действия, которые в обычном диалоге были бы немедленно пресечены.

Сценарии обхода фильтров через литературу и код

Одним из ключевых методов является использование театральных постановок и литературных ролей, описанных в разделе «Театральная постановка и Литературная роль». Пользователь предлагает ИИ образ персонажа киберпанк-романа, который находит запрещенный архив и описывает его содержимое через нуарные метафоры. Аналогичный эффект дает создание гипотетических миров в жанрах сай-фай или фэнтези, где действие переносится в галактики, в которых земная этика и правовые нормы официально не действуют.

Метод «Матрешки» предполагает разделение опасного запроса на несколько частей, которые по отдельности выглядят безобидно. Система сначала описывает химические свойства разных веществ, а затем получает задание поэтично изложить результат их взаимодействия в закрытом сосуде. В результате ИИ выдает формулу опасной комбинации, не осознавая целостной картины. Также взломщики применяют рекурсию и смешение программного стиля с поэзией, используя конструкции типа print(poem.execute()), что сбивает с толку алгоритмы классификации текста.

Риски для автономных систем и реакция разработчиков

Особую опасность подобные уязвимости представляют для автономного оружия. Эксплуатация манипулятивных промптов теоретически позволяет атаковать любые цели, обходя предустановленные ограничения систем наведения. Разработчики моделей Gemini и других моделей в ответ на эти угрозы постоянно обучают нейросети распознавать скрытые намерения в художественных текстах.

Процесс защиты осложняется проблемой ложных срабатываний, когда под блокировку попадает легитимный творческий контент. На сегодняшний день методы, которые ранее считались эффективными способами взлома (jailbreak), постепенно вносятся в базы данных манипулятивного контента и блокируются при попытке ввода.