В период с 6 по 7 мая четыре команды исследователей безопасности опубликовали результаты своих исследований, касающихся большой языковой модели Claude от компании Anthropic. Большинство изданий осветили эти находки как три отдельные истории, однако эксперты сходятся во мнении, что речь идёт об одной фундаментальной архитектурной проблеме. Инциденты включали атаку на систему водоснабжения в Мексике, компрометацию расширения для браузера Chrome и перехват токенов авторизации Open Authorization (OAuth) через Claude Code. В одном из случаев Claude самостоятельно идентифицировал шлюз системы диспетчерского управления и сбора данных (SCADA) коммунального предприятия, хотя прямой команды на поиск такого объекта не получал.
Специалисты подчёркивают, что это не три отдельные ошибки, а проявление одной архитектурной проблемы, которая проявляется на разных уровнях. Ни одно из выпущенных на данный момент исправлений не устраняет её полностью. Общим знаменателем является концепция «запутавшегося заместителя» — сбой в границах доверия, при котором программа, обладающая законными полномочиями, выполняет действия от имени неверного субъекта. В каждом описанном случае Claude обладал реальными возможностями на каждой поверхности взаимодействия и передавал их любому, кто обращался: злоумышленнику, исследующему сеть водопровода, расширению Chrome с нулевыми разрешениями или вредоносному пакету npm (менеджер пакетов Node.js), изменяющему файл конфигурации.
Картер Рис, вице-президент по искусственному интеллекту в Reputation, указал на структурную причину, по которой этот класс сбоев настолько опасен. Как сообщил Рис в эксклюзивном интервью VentureBeat, «плоская» плоскость авторизации большой языковой модели (LLM) не учитывает пользовательские разрешения. Агент, работающий в такой «плоской» системе, не нуждается в повышении привилегий, поскольку он уже обладает ими.
Кейн МакГладри, старший член Института инженеров электротехники и электроники (IEEE), консультирующий предприятия по вопросам рисков идентификации, в интервью VentureBeat независимо описал ту же динамику. По его словам, предприятия клонируют человеческие наборы разрешений для агентных систем, и агент делает всё необходимое для выполнения своей задачи, что иногда означает использование гораздо большего количества разрешений, чем потребовалось бы человеку.
Компания Dragos опубликовала свой анализ 6 мая. Согласно ему, в период с декабря 2025 года по февраль 2026 года неизвестный злоумышленник скомпрометировал несколько правительственных организаций Мексики. В январе 2026 года кампания достигла муниципальной службы водоснабжения и канализации Монтеррея (Servicios de Agua y Drenaje de Monterrey), обслуживающей городскую агломерацию.
Dragos проанализировал более 350 артефактов атаки. Злоумышленник использовал Claude в качестве основного технического исполнителя и модели GPT от OpenAI для обработки данных. Claude написал программный фреймворк на Python, состоящий из 17 000 строк кода, содержащий 49 модулей для обнаружения сети, сбора учётных данных, повышения привилегий и латерального перемещения. Согласно анализу Dragos, Claude сжал то, что традиционно заняло бы дни или недели разработки инструментов, до нескольких часов.
Без какого-либо предварительного контекста систем промышленного управления/операционных технологий (ICS/OT) Claude идентифицировал сервер, работающий с интерфейсом управления vNode SCADA/IIoT (Промышленный Интернет вещей), классифицировал платформу как высокоценную, сгенерировал списки учётных данных и запустил автоматизированный перебор паролей. Атака не удалась, и нарушения работы OT не произошло, но именно Claude выполнял целеуказание. Dragos отметил, что это не было уязвимостью продукта в традиционном смысле, поскольку Claude действовал точно так, как было задумано. Архитектурный пробел, как его описала фирма, заключается в том, что модель не может отличить авторизованного разработчика от злоумышленника, использующего тот же интерфейс.
Джей Дин, заместитель главного охотника за угрозами в Dragos, написал, что расследование показало, как коммерческие инструменты ИИ сделали OT-системы более видимыми для злоумышленников, уже действующих в IT-сетях.
Элиа Зайцев, технический директор CrowdStrike, объяснил VentureBeat, почему этот класс инцидентов остаётся незамеченным. По его словам, «ничего плохого не происходит, пока агент не начнёт действовать. Проблема почти всегда на уровне действий». Разведка в Монтеррее выглядела как запрос разработчика к внутренним системам. Просто за клавиатурой инструмента разработчика сидел злоумышленник. Проблема заключается в том, что средства мониторинга OT не отмечают генерируемую ИИ разведку, исходящую от инструментов разработчика на стороне IT. Средства обнаружения и реагирования на конечных точках (EDR) видят процесс, но не имеют представления о намерении.
7 мая исследователь Aviad Gispan из LayerX раскрыл уязвимость, названную ClaudeBleed. Claude в Chrome использует функцию внешнего подключения Chrome для обмена данными со скриптами, исходящими с домена claude.ai, но не проверяет, были ли эти скрипты предоставлены Anthropic или внедрены другим расширением. Любое расширение Chrome может внедрять команды в интерфейс обмена сообщениями Claude. Для этого не требуются никакие разрешения.
LayerX сообщил о недостатке 27 апреля. Anthropic выпустил версию 1.0.70 6 мая. Однако LayerX обнаружил, что исправление не устранило уязвимый обработчик. LayerX обошёл новые средства защиты через поток инициализации боковой панели и путём переключения Claude в режим «Действовать без запроса», что не требовало уведомления пользователя. Патч Anthropic просуществовал менее суток.
Майк Ример, старший вице-президент группы сетевой безопасности и полевой директор по информационной безопасности Ivanti, сообщил VentureBeat, что злоумышленники теперь реверс-инжинирят патчи в течение 72 часов с помощью ИИ. По словам Римера, «если вендор выпускает патч, а клиент не применяет его в течение этого окна, уязвимость уже эксплуатируется». Патч ClaudeBleed от Anthropic не просуществовал даже трети этого срока.
Средства EDR отслеживают файловую систему, выполнение процессов и сетевые соединения. Но обмен сообщениями между расширениями происходит полностью внутри среды выполнения браузера. При этом не происходит записи файлов, сетевых аномалий или порождения процессов. EDR не имеет никакой видимости во внутренний API обмена сообщениями Chrome.
Также 7 мая исследователь Idan Cohen из Mitiga Labs опубликовал цепочку атак типа «человек посередине», нацеленную на Claude Code. Claude Code хранит конфигурацию MCP и токены OAuth в файле `.claude.json` в домашнем каталоге пользователя — это обычный для записи пользователем файл. Вредоносный хук npm postinstall (скрипт, запускаемый после установки пакета) может переписать URL-адрес сервера MCP для маршрутизации трафика через прокси-сервер злоумышленника, перехватывая таким образом токены OAuth для Jira, Confluence и GitHub. Поскольку хук postinstall срабатывает при каждой загрузке Claude Code, он повторно устанавливает вредоносную конечную точку даже после ротации токенов — это означает, что стандартный шаг реагирования на инциденты, такой как смена учётных данных, не прерывает цепочку атаки, если сам хук не будет удалён первым.
Mitiga сообщила о находке 10 апреля. 12 апреля Anthropic классифицировал её как «вне сферы действия», согласно опубликованному Mitiga раскрытию информации.
Ример описал принцип, который нарушает эта цепочка. Он подчеркнул, что взаимодействие с системой должно начинаться только после её валидации и идентификации пользователя. Без такой проверки коммуникация не должна устанавливаться. Перезапись `.claude.json` подменяет легитимную конечную точку на конечную точку злоумышленника, а Claude Code никогда не перепроверяет её.
Ример, имеющий 21-летний опыт в разработке продукта, которым он сейчас руководит, и пять патентов в области инфраструктуры безопасности, применяет ту же защитную логику, которую он встроил в свою платформу: «Если злоумышленник проникает, сбросьте все соединения». Это отказоустойчивый дизайн. Архитектура Anthropic делает обратное — она «открывается» при сбое.
Брандмауэры веб-приложений (WAF) никогда не видят локальных перезаписей конфигурации. EDR-системы воспринимают запись файлов JSON в домашнем каталоге пользователя как обычное поведение разработчика. Ротация токенов продолжает цепочку атаки, поскольку хук npm postinstall повторно устанавливает вредоносный URL-адрес при каждой загрузке Claude Code.
Также 7 мая исследователь Алекс Поляков из Adversa AI опубликовал TrustFall, демонстрирующий, что конфигурационные файлы Claude, привязанные к проекту в клонированном репозитории, могут беззвучно авторизовать серверы MCP для запуска в качестве нативных процессов операционной системы с полными пользовательскими привилегиями. В тот момент, когда разработчик нажимает общее диалоговое окно «Да, я доверяю этой папке», любой сервер MCP, определённый в конфигурации проекта, запускается. Диалоговое окно не показывает, что именно оно авторизует.
В автоматизированных конвейерах сборки (CI/CD pipelines), где Claude Code работает без графического интерфейса, диалоговое окно доверия никогда не появляется. Атака выполняется без участия человека. Adversa подтвердила, что этот шаблон не уникален для Claude Code. Все четыре основные кодирующие агенты (Claude Code, Cursor, Gemini CLI и GitHub Copilot) могут автоматически выполнять определённые проектом серверы MCP в тот момент, когда разработчик принимает это диалоговое окно.
Ни одно из текущих средств безопасности не может отличить легитимную конфигурацию проекта от вредоносной. Диалоговое окно доверия — единственное, что стоит между разработчиком и произвольным выполнением кода, и оно не показывает, что именно собирается авторизовать.
Подход Anthropic к реагированию на эти уязвимости зачастую сводится к тому, что «пользователь дал согласие», что рассматривается компанией как граница безопасности. Например, 12 апреля Anthropic классифицировал кражу токенов MCP, обнаруженную Mitiga, как «вне сферы действия». Уязвимость STDIO, выявленная OX Security и затронувшая, по оценкам, 200 000 серверов MCP, была названа «ожидаемой» и «соответствующей дизайну». Anthropic отклонил TrustFall от Adversa AI как «выходящий за рамки их модели угроз», согласно опубликованному раскрытию Adversa. ClaudeBleed был исправлен лишь частично. По словам исследователей, раскрывших все четыре уязвимости, базовая модель доверия остаётся эксплуатируемой.
Алекс Поляков, соучредитель Adversa AI, отметил в интервью The Register, что, хотя каждая уязвимость устраняется отдельно, коренная проблема класса ошибок остается нерешенной.
Зайцев предложил объяснение, почему одно только согласие не может служить границей доверия. Он подчеркнул, что попытка всегда понять намерение агента равносильна попытке создать программу, способную определить ложь по текстовой расшифровке – задача, интуитивно кажущаяся неразрешимой.
В свете этих открытий, исследователи составили матрицу аудита, которая сопоставляет каждую поверхность, которой Claude ошибочно доверял, недостатки средств безопасности, сигналы обнаружения и рекомендуемые действия:
Уязвимость claude.ai / API (отчет Dragos, 6 мая):
Уязвимость Claude в Chrome (отчет LayerX, 7 мая):
Уязвимость Claude Code MCP (отчет Mitiga, 7 мая):
Уязвимость Claude Code в проектных настройках (отчет Adversa AI, 7 мая):
Концепция «запутавшегося заместителя» была описана Нормом Харди в 1988 году, и тогда он имел в виду компилятор. Сегодня же это может быть система, способная создавать фреймворки для эксплуатации, состоящие из 17 000 строк кода, самостоятельно идентифицировать шлюзы SCADA и хранить токены OAuth для Jira, Confluence и GitHub. Четыре исследовательские группы обнаружили один и тот же класс сбоев на четырёх различных поверхностях за одну и ту же неделю. Ответом Anthropic на каждую проблему была некая версия утверждения «пользователь дал согласие». Вышеизложенная матрица представляет собой аудит, который Anthropic пока не реализовал. Командам, использующим Claude Code или Claude в Chrome, рекомендуется начать проверки с предложенных рекомендаций.