ИБ-специалист Дэвид Кузмар обнаружил уязвимость в ChatGPT, позволяющую обходить контентные ограничения и получать доступ к запрещённой информации. Дефект, получивший название «Time Bandit», использует «временное замешательство» модели, вынуждая её терять ориентацию во времени.
Time Bandit оказался одним из самых сложных и эффективных обходов защиты, который использует два ключевых механизма:
Такой механизм позволяет обойти ограничения на распространение данных о создании оружия, ядерных технологиях и вредоносного ПО. Эксперименты подтвердили, что метод Time Bandit срабатывает чаще всего при запросах, относящихся к XVIII–XIX векам.
На момент тестирования Time Bandit всё ещё работал, пусть и с ограничениями: OpenAI внедрила некоторые меры, например, удаление запросов, связанных с эксплойтом, но полностью проблему так и не устранила. Помимо ChatGPT, Кузмар протестировал Google Gemini. Оказалось, что чат-бот частично подвержен уязвимости.
Бегом тестить на новых китайских нейронках!
Time Bandit оказался одним из самых сложных и эффективных обходов защиты, который использует два ключевых механизма:
- Запутывание во времени – заставляет ИИ потерять ориентацию, лишая его понимания текущей даты и контекста.
- Процедурная неясность – позволяет формулировать вопросы так, чтобы модель не могла корректно применять правила и фильтры безопасности.
Такой механизм позволяет обойти ограничения на распространение данных о создании оружия, ядерных технологиях и вредоносного ПО. Эксперименты подтвердили, что метод Time Bandit срабатывает чаще всего при запросах, относящихся к XVIII–XIX векам.
На момент тестирования Time Bandit всё ещё работал, пусть и с ограничениями: OpenAI внедрила некоторые меры, например, удаление запросов, связанных с эксплойтом, но полностью проблему так и не устранила. Помимо ChatGPT, Кузмар протестировал Google Gemini. Оказалось, что чат-бот частично подвержен уязвимости.
Бегом тестить на новых китайских нейронках!