Разработчики Sakana AI представили новую технологию RL Conductor — компактную языковую модель, которая с помощью обучения с подкреплением управляет группой других искусственных интеллектов. Система динамически анализирует входящие запросы, распределяет задачи между профильными моделями и координирует их работу, что позволяет автоматизировать создание сложных цепочек обработки данных.
Традиционные подходы к созданию ИИ-систем, такие как использование библиотек вроде LangChain, опираются на заранее прописанные сценарии работы. По мнению экспертов Sakana AI, такие жесткие структуры неэффективны при работе с реальными пользовательскими запросами, которые отличаются разнообразием и непредсказуемостью.
Основные проблемы существующих решений:
Вместо использования статических маршрутов, RL Conductor самостоятельно генерирует сценарий решения для каждого конкретного запроса. Система формулирует инструкции на обычном языке, назначает исполнителей из доступного пула моделей и определяет, к какой информации из предыдущих шагов будет иметь доступ каждый агент. В зависимости от сложности задачи, Conductor может выстраивать линейные цепочки, параллельные деревья или рекурсивные алгоритмы.
Обучение модели происходит через максимизацию вознаграждения: ИИ методом проб и ошибок находит наиболее эффективные комбинации исполнителей и стратегий коммуникации. Это позволяет системе автоматически применять методы оптимизации промптов и итеративного уточнения ответов без участия программиста.
В ходе тестирования исследователи обучили модель Qwen2.5 с 7 миллиардами параметров в качестве координатора. В пул доступных исполнителей вошли как мощные закрытые модели, такие как GPT-5*, Claude Sonnet 4, Gemini 2.5 Pro, так и открытые решения. Система показала выдающиеся результаты в тестах на математические способности и написание программного кода.
Технология автоматически определяет сложность вопроса: для простых задач используется минимальное количество ресурсов, а для разработки ПО выстраиваются сложные многоэтапные процессы с привлечением профильных агентов.
Технология RL Conductor легла в основу коммерческого продукта Sakana Fugu. Это облачный сервис, доступный через API, который позволяет компаниям интегрировать систему автоматической координации агентов в свои бизнес-процессы. Решение представлено в двух версиях: Fugu Mini для задач с низкими задержками и Fugu Ultra для высоконагруженных вычислений.
Разработчики отмечают, что Fugu особенно востребован в отраслях с неоднородными запросами, таких как финансы и оборонная промышленность. В будущем планируется расширение технологии для управления физическими автономными системами, что позволит создавать более совершенные самоорганизующиеся ИИ-комплексы.
* — деятельность компании запрещена на территории РФ