Шаблоны проектирования для защиты агентов LLM от быстрых инъекций ( simonwillison.net )
Моя любимая строка из этой статьи:
> Предлагаемые нами шаблоны проектирования имеют общий руководящий принцип: как только агент LLM принял ненадежные входные данные, он должен быть ограничен таким образом, чтобы эти входные данные не могли инициировать какие-либо последующие действия, то есть действия с негативными побочными эффектами для системы или ее среды.
Это ключевой момент, который необходимо понять людям, чтобы понять, почему быстрое внедрение является такой важной проблемой, особенно сейчас, когда все связывают LLM с инструментами и серверами MCP и создают «агентов».
О, это содержательная и полезная статья. Мне нравится, что они нашли время применить ее к ряду тематических исследований, и все это на 30 страницах.
Я думаю, что в основном все они подразумевают снижение «агентности» агентов, что является прекрасным компромиссом, но я думаю, следует понимать, что люди, работающие над Большой моделью, не пытаются спроектировать что-либо из этого, а просто собирают данные, чтобы продолжать снижать риск инъекций. Компромисс между максимизацией возможностей и эффективностью/безопасностью часто оказывается в пользу сторонников максимизации возможностей с точки зрения принятия продукта/маркетинга.
например, в исследовании случая агента SWE рекомендуется двойной LLM со строгим форматированием данных — хотелось бы увидеть сравнительный анализ с точки зрения того, насколько производительным будет такой агент; возможно, это можно будет осуществить путем ответвления OpenAI Codex и внедрения двойного LLM.
Да, эта статья на удивление консервативна и практична: в ней утверждается, что надежная защита от немедленной инъекции требует весьма болезненных компромиссов:
Эти шаблоны накладывают преднамеренные ограничения на агентов, явно ограничивая их способность выполнять произвольные задачи. Это ведро холодной воды для многих вещей, которые люди пытаются построить. Я думаю, что многие люди проигнорируют этот совет!
LLM слишком полезны, чтобы позволить простолюдинам получить к ним доступ. Остается вопрос, как лучше всего обобрать этих простолюдинов с помощью предполагаемой полезности, не дав им ничего?

Также вот ссылка на статью: https://arxiv.org/abs/2506.08837

Умно. Это как параметризованные запросы для SQL.

https://arxiv.org/abs/2506.08837
Source: news.ycombinator.com