Sakana AI представила систему автоматической координации агентов RL Conductor
Блог
// Наши последние проекты

Sakana AI представила систему автоматической координации агентов RL Conductor

0


Разработчики Sakana AI представили новую технологию RL Conductor — компактную языковую модель, которая с помощью обучения с подкреплением управляет группой других искусственных интеллектов. Система динамически анализирует входящие запросы, распределяет задачи между профильными моделями и координирует их работу, что позволяет автоматизировать создание сложных цепочек обработки данных.

Преодоление ограничений жестких алгоритмов

Традиционные подходы к созданию ИИ-систем, такие как использование библиотек вроде LangChain, опираются на заранее прописанные сценарии работы. По мнению экспертов Sakana AI, такие жесткие структуры неэффективны при работе с реальными пользовательскими запросами, которые отличаются разнообразием и непредсказуемостью.

Основные проблемы существующих решений:

  • Невозможность создания универсального кода для всех типов задач.
  • Сложность ручного подбора оптимальной модели для каждого конкретного этапа.
  • Негибкость: ручное проектирование цепочек взаимодействия моделей требует огромных затрат времени и не адаптируется под динамические изменения.

Принципы работы RL Conductor

Вместо использования статических маршрутов, RL Conductor самостоятельно генерирует сценарий решения для каждого конкретного запроса. Система формулирует инструкции на обычном языке, назначает исполнителей из доступного пула моделей и определяет, к какой информации из предыдущих шагов будет иметь доступ каждый агент. В зависимости от сложности задачи, Conductor может выстраивать линейные цепочки, параллельные деревья или рекурсивные алгоритмы.

Обучение модели происходит через максимизацию вознаграждения: ИИ методом проб и ошибок находит наиболее эффективные комбинации исполнителей и стратегий коммуникации. Это позволяет системе автоматически применять методы оптимизации промптов и итеративного уточнения ответов без участия программиста.

Эффективность на практике

В ходе тестирования исследователи обучили модель Qwen2.5 с 7 миллиардами параметров в качестве координатора. В пул доступных исполнителей вошли как мощные закрытые модели, такие как GPT-5*, Claude Sonnet 4, Gemini 2.5 Pro, так и открытые решения. Система показала выдающиеся результаты в тестах на математические способности и написание программного кода.

  • Средний балл по задачам составил 77,27%.
  • На бенчмарке AIME25 (математика) результат достиг 93,3%.
  • Экономичность: система расходовала в среднем 1820 токенов на запрос, что значительно меньше показателей аналогичных фреймворков.

Технология автоматически определяет сложность вопроса: для простых задач используется минимальное количество ресурсов, а для разработки ПО выстраиваются сложные многоэтапные процессы с привлечением профильных агентов.

Коммерческое внедрение: Sakana Fugu

Технология RL Conductor легла в основу коммерческого продукта Sakana Fugu. Это облачный сервис, доступный через API, который позволяет компаниям интегрировать систему автоматической координации агентов в свои бизнес-процессы. Решение представлено в двух версиях: Fugu Mini для задач с низкими задержками и Fugu Ultra для высоконагруженных вычислений.

Разработчики отмечают, что Fugu особенно востребован в отраслях с неоднородными запросами, таких как финансы и оборонная промышленность. В будущем планируется расширение технологии для управления физическими автономными системами, что позволит создавать более совершенные самоорганизующиеся ИИ-комплексы.

* — деятельность компании запрещена на территории РФ

// |

Обсуждение закрыто.




Яндекс.Метрика