Ваш ИИ-агент может работать на мошенников. Как защититься от кибератак нового поколения
© Коллаж: «Теперь вы знаете», создано при помощи нейросети
Как ИИ-агенты становятся дырой в безопасности
ИИ-ассистенты и ИИ-агенты — системы на базе больших языковых моделей, которые могут взаимодействовать с окружением для решения поставленных задач, — становятся все более распространенными. Они уже отвечают клиентам в чатах, ищут документы во внутренних базах, помогают разработчикам писать код, а иногда — сами запускают скрипты, дергают API и выполняют действия от имени компании.
В первую очередь это системы для решения бизнес-задач — в этом контексте ИИ-агенты уже легко справляются с написанием текстов, исправлением ошибок или созданием прототипов. Но и простые пользователи получают в распоряжение более мощные системы. Появляется все больше агентных браузеров, как Comet и Atlas, которые могут переходить по страницам в интернете и, например, искать выгодные предложения для покупок.
Все это экономит время и ресурсы. Но одновременно создает новую, пока еще плохо осознанную зону риска.
Атаковать теперь можно не сервер и не пароль — а логику, контекст и диалог.
Чтобы взломать ИИ-ассистента, не нужен доступ к инфраструктуре — тот фронтир, на защиту которого долгие годы шла львиная часть ресурсов кибербезопасности. Он сам по себе становится мостиком от пользователя (даже с плохими намерениями) к данным компании. Достаточно правильно сформулировать запрос или подсунуть ему данные, которые он сам воспримет как инструкцию.
А главное, большая автономность и возможность совершать действия в реальном мире приводят к появлению новых угроз. Как только ИИ перестает быть просто чат-ботом и начинает действовать в окружающей среде — на компьютере пользователя, в браузере, в инфраструктуре или даже в умном доме, — цена ошибки возрастает многократно. Подобные сценарии уже выходят за рамки корпоративных чатов и ИТ-бюджетов — это прямое вмешательство в физическую среду пользователя.
А вот защищаться от таких ошибок люди пока умеют плохо.
Вредоносные инъекции: обычный текст как инструмент взлома
Одна из самых распространенных и при этом наименее интуитивных угроз — prompt injection, инъекции вредоносного промпта. Это атака, при которой модель с помощью текста заставляют игнорировать свои ограничения: раскрывать данные, менять приоритеты или выполнять действия, которые изначально были запрещены.
Например, на конференции Blackhat исследователи продемонстрировали, как атака на умного помощника в мобильном телефоне с помощью промпт-инъекции (инъекции затравки) может позволить злоумышленникам открыть в доме окна или включать — выключать свет.
Другие агенты — для разработки, браузерные — тоже могут быть подвержены промпт-инъекциям: например, инструкция на странице с товаром может просить у ассистента уговорить пользователя выбрать именно его предложение, несмотря на то что оно может быть не самое выгодное, и агент вполне может выполнить эту просьбу.
Такие атаки могут приводить к утечкам данных, установке вредоносного ПО или даже удалению важных файлов.
Особенно уязвимы корпоративные ассистенты, работающие по архитектуре RAG. В таких системах ИИ сначала извлекает данные из внутренних баз, а затем формирует ответ. Именно в этот момент злоумышленник может «подсунуть» инструкции, замаскированные под обычный контент.
Точки уязвимости обычно лежат в контексте и интеграциях: prompt injection (прямой и особенно косвенный) — злоумышленник прячет инструкции в письме/документе/веб-странице, и агент «сам» выполняет их при обычной просьбе вроде «суммируй входящие», иногда вообще без кликов (zero-click indirect prompt injection). В результате это используется для тихой эксфильтрации (извлечения данных) и саботажа.
Под угрозой здесь оказываются не абстрактные «данные», а вполне конкретные вещи: договоры, финансовая информация, клиентские базы и выполнение требований по защите информации.
Относительно новый вид атак на ИИ-агентов заставляет их сгружать на сторону вашу информацию, а пользователей — внимательнее относиться к файлам и источникам, найденным в интернете.
Суть атаки. ИИ-агент исполняет вашу задачу и читает информацию, которую вы ему предоставили. Предположим, скачали базу данных или образец промпта на специальных форумах для обмена подобными лайфхаками. Но в этой информации, которую пользователь в лучшем случае бегло пробежал глазами, могут содержаться инструкции, вброшенные злоумышленником. И самая распространенная — передать на такой-то адрес все данные пользователя, который может собрать ИИ.
Итог. ИИ подчиняется чужой инструкции как вашей и сливает на сторону ваши персональные данные, переписки, файлы, фигурировавшие в диалогах с чат-ботом. А если вы просите или просили его, например, разобраться в вашем почтовом ящике, то еще и письма оттуда.
Два относительно свежих кейса:
-
Сервис Superhuman, упрощающий работу с почтой и помогающий искать, пересказывать письма и составлять из них подборки, оказался уязвимым после запуска собственного AI-ассистента. Достаточно прислать вам в почтовый ящик письмо, где невидимым шрифтом (белым по белому, например) будут написаны инструкции — и злоумышленники получат доступ к вашей переписке, если вы хоть раз использовали этого ассистента (то есть дали ему доступ к содержимому ваших ящиков).
-
ИИ-агент Claude Cowork, используемый как помощник в организации файлов, может считывать и без предупреждения исполнять спрятанные в них инструкции, например передать злоумышленнику информацию с вашего устройства.
Как подстраховаться:
Полностью защитить ИИ-агента от инъекций вредоносного промпта сложно, поскольку, если он уже уязвим, придется перебирать всю его архитектуру. Страховкой здесь становятся скучные рабочие меры: изоляция внутренних баз, принцип минимальных прав и отказ от универсальных ассистентов в пользу узкоспециализированных.
Атака на бюджет: разговор на все токены
Есть и другой класс угроз, который долгое время вообще не воспринимался как риск для корпоративной безопасности. Речь идет об экономическом истощении — Denial-of-Wallet.
Большинство ИИ-ассистентов тарифицируются по токенам или количеству запросов. Это превращает обычный пользовательский диалог в потенциальное оружие против выделенного на все эти ИИ-инновации бюджета.
Как работает. Злоумышленники запускают ботов, которые ведут длинные, на первый взгляд осмысленные диалоги. При этом они раздувают контекст, так что на обработку из запросов ИИ-агент вынужден тратить значительную часть своей оперативной памяти. И делают это одновременно в сотнях сессий.
Результат — бюджет на токены, рассчитанный на месяц стабильной работы, сгорает за часы. А если система при выходе за границы оплаченных токенов автоматически переключается на более дорогой тариф, расходы быстро выходят из-под контроля.
Под угрозой оказываются не только деньги, но и стабильность сервиса и предсказуемость ИТ-бюджета. Поэтому компании все чаще отказываются от автоматических апгрейдов тарифов и возвращают человека в контур принятия решений.
Как подстраховаться
Помимо контроля над расходами и отказа от автоматического перехода на следующий тарифный план, могут помочь:
- пользовательские и дневные лимиты на запросы и токены;
- капчи и rate-limit, чтобы отсечь атаку ботами;
- оперативная ручная проверка аномалий.
Также существуют фреймворки, такие как OWASP Top-10 для LLM, MITRE ATLAS или модель угроз от «Сбера», которые помогают предусмотреть инъекции затравки и атаки на истощение ресурсов (Denial-of-Service или Denial-of-Wallet).
© Коллаж: «Теперь вы знаете», создано при помощи нейросети
Шпионаж через бизнес-ассистента
Даже если ассистент формально «ничего не раскрывает», он может стать удобным инструментом OSINT — атаки, направленной на сбор максимального количества данных о выбранной жертве. Цепочки наивных вопросов — про загрузку, масштабы, процессы — позволяют собрать довольно точную картину бизнеса. Особенно опасно это для облачных решений, куда сотрудники нередко по привычке копируют фрагменты кода, договоров или проектной документации.
ИИ-ассистенты создают новую поверхность утечки конфиденциальной информации. Особенно это актуально для облачных решений: сотрудники, даже не осознавая этого, могут вводить в такие системы фрагменты проектной документации, исходного кода, договоров или внутренних регламентов.
Как только эти данные уходят за пределы корпоративного периметра, существуют большие риски, что они станут частью уже чужой инфраструктуры, стратегии и метрик. Риск здесь не в одном документе, а в потере стратегических преимуществ — и в том, что утечку сложно отследить постфактум.
Как подстраховаться:
- ограничить перечень допустимых тем и метрик;
- использовать обезличенные шаблоны ответов;
- регулярно анализировать диалоги ассистента.
Отравление данных: ваш ИИ сходит с ума
Если ассистент не только использует корпоративную базу знаний, но и дообучается на пользовательских данных, возникает еще одна угроза — отравление контента. В такую базу можно подмешать или внедрить через пользовательские диалоги ложную или вредоносную информацию, которая меняет поведение ассистента системно, а не разово. Все равно что обучать студента по учебникам, в которые кто-то внедрил откровенные ошибки и вражескую пропаганду, а потом столкнуться с последствиями — и хорошо если на экзамене, а не после саботажа на производстве.
Ситуацию, когда в корпоративные документы/вики/репо подмешивают подсказки, которые меняют поведение агента и явно ведут к утечкам, Олег Рогов называет одной из самых опасных форм атак.
В результате ассистент может выглядеть полезным и уверенным в выдаваемых ответах, но принимать решения на искаженной основе. Это бьет по качеству работы, юридической безопасности и доверию пользователей.
Как подстраховаться:
- не смешивать пользовательские запросы с обучающими данными;
- контролировать источники RAG;
- регулярно очищать и проверять базы знаний.
Действия без контроля: злоупотребление агентностью
ИИ-агенты опаснее обычных ассистентов тем, что они не просто отвечают на пользовательские запросы, а действуют: запускают цепочки операций, управляют ресурсами, и все это самостоятельно, без необходимости визировать каждый шаг у человека. Если дать такому агенту избыточные права, а потом скомпрометировать его, риск смещается от «неправильного ответа» к «незамеченному вовремя действию, которое повлияло на всю работу».
«Существуют атаки agency abuse, они смещаются от взлома текста к злоупотреблению полномочиями: под видом легитимной задачи ассистента подталкивают сделать что-то. Например, сделать выгрузку бэкапов, удаление ресурсов, запуск цепочек действий или просто просят "сжечь" бюджет на вычисления рекурсивными запросами», — поясняет Олег Рогов.
Здесь защита снова сводится к базовым принципам:
- минимальные привилегии,
- обязательное подтверждение критических действий человеком;
- полный журнал всех вызовов инструментов.
Когда помощник разработчика становится трояном
Ассистенты для разработчиков — отдельная зона риска. Они умеют читать файлы, писать код, запускать команды и работать с репозиториями. При широких правах это превращает prompt injection в полноценный вектор атаки. Кроме того, ИИ может не «взломать» систему напрямую, но аккуратно провести разработчика к опасным решениям.
Ассистенты для кода снижают мелкие синтаксические ошибки, но могут увеличивать глубокие архитектурные уязвимости, пути повышения привилегий, утечки секретов и облачные мисконфиги, особенно когда генерируют большие пулл-реквесты и практикуют вайб-кодинг без нормальной проверки.
Ильдар Исмагилов из Innostage привел полный список возможных атак на ИИ-агентов, которые также могут представлять угрозу в ближайшие годы:
- prompt injection — злоумышленник переопределяет поведение модели через хитро сформулированный запрос;
- data poisoning — внедрение ложной информации в обучающие данные или контекст;
- insecure output handling — опасная обработка вывода модели, позволяющая атакующему выполнять вредоносный код;
- excessive agency — предоставление ассистенту избыточных полномочий, что позволяет ему совершать критические действия без подтверждения;
- model denial of service — перегрузка системы запросами, ведущая к отказу в обслуживании.
Помимо классических угроз, активно развиваются новые векторы атак:
- echo chamber attacks — создание замкнутой информационной петли, когда модель усиливает искажения, получая подкрепление только из ограниченного набора источников;
- memory poisoning — целенаправленное искажение долгосрочной памяти ассистента для изменения его будущих ответов;
- tool hijacking — захват инструментов и плагинов, подключенных к ассистенту, для выполнения несанкционированных действий в корпоративных системах.
Более подробный перечень угроз можно найти в специализированных источниках. Однако перечисленные атаки сегодня встречаются наиболее часто, особенно в корпоративной среде.
Когда хакеры вообще ни при чем
Помимо потенциальной угрозы стать входной калиткой для хакеров, ИИ-агенты могут быть не вполне безопасны сами по себе, указывает Олег Рогов. Против вас и вашего бизнеса могут сработать галлюцинации и уверенные, но неверные действия ассистентов в регламентированных процессах, избыточное использование памяти контекста с закреплением вредных правил. А также усиление социнженерии через дипфейки и подмену доверия — здесь ассистент не обязан быть взломан.
Сфера больших языковых моделей активно развивается, и с каждым днем появляются новые угрозы — от атак агентов до взлома интеграций через MCP. Это подчеркивает необходимость и новых решений для безопасности LLM, и классических подходов — от защиты от DDoS до SIEM-мониторинга.
При этом эксперты подчеркивают: речь не идет о том, чтобы отказаться от агентных систем. Напротив — при правильном применении они дают колоссальную пользу.
«Важно помнить, что нужно всегда перепроверять ответы агентов при принятии решений, особенно когда это касается важных сфер, например здоровья. Необходимо ограничивать их автономию, не выдавать им права на неограниченное использование тех инструментов, которые имеют эффекты в реальном мире, — например, на удаление файлов, а также проводить оценку легитимности запросов на использование инструментов», — считает Владислав Тушканов.
Постепенно мы научимся жить в этом новом мире, где всемогущий ИИ, с одной стороны, помогает нам, а с другой — создает целый класс новых угроз, ответы на которые станут вызовом всему человечеству.
А пока достаточно запомнить, что защищать нужно не только данные и периметр, но всю систему контроля над действиями сотрудников — как живых, так и искусственных. Ведь взломать логику и запудрить мозги можно далеко не только нейронке. И именно это пока остается самым уязвимым местом в бизнесе.