Telegram Web
Update насчет соревнования ERC3.

Напомню, что ERC3 - это дружеское соревнование по написанию агентов, которое состоится в конце ноября. Зарегистрироваться можно тут. С нами уже 300 команд!

Среда работы для агентов будет выглядеть так
:

(1) Подключаемся к API конкретного соревнования.
(2) Запускаем новую сессию
(3) Получаем поочередно новые задачи и передаем агенту, которому нужно будет дергать эти API для выполнения задачи
(4) Когда агент выполнил все задачи, сессия закрывается автоматом. Можно теперь ждать результаты.

Можно будет запускать любое число сессий, главное прописывать в них специфику эксперимента. Модель такая-то, архитектура такая-то итп.

И как раз сегодня у меня впервые получилось отладить весь этот процесс end-to-end, включая "ловушки" в задании. Вывод работы - на скриншоте.

К слову, SGR agent на 4o справляется с таким заданием в 75% случаях. Но я задачи для соревнования буду усложнять так, чтобы он не особо справлялся.

Ваш, @llm_under_hood 🤗
🔥258👍8🙏1
Кейс с LLM под капотом - поиск видео для монтажа рекламы

Давайте расскажу вам еще про один кейс достаточно необычного использования LLM в продуктовых целях.

Итак, компания - это производитель популярной на рынке продукции, что-то вроде Red Bull. Они производят и публикуют очень много видео-рекламы. Для этого у них есть гигантская библиотека всякого рода заготовок - в виде отснятых в прошлом роликов или сгенерированных заставок.

Когда создается новый рекламный ролик, его обычно монтируют из старых и новых записей. Если чего-то подходящего в архивах нет, то приходится тратить время и ресурсы на запись нового. Либо можно подойти творчески и как-то интересно обыграть и обработать старую запись.

Соответственно, компании хочется, чтобы создатели новых роликов в компании могли лучше искать и переиспользовать существующий материал. Сейчас поиск работает немного похоже на Elastic Search - ролики помечаются тэгами и вручную “украшаются” свойствами с описаниями. Это долгая и муторная работа.

Команда реализации сначала сделала достаточно простую и очевидную вещь (пусть и дорогую, но всяко более дешевую, чем запись нового ролика) - они “скармливают” видео из архива в мощной LLM с video input и просят заполнить описание. Потом поиск ищет по этому описанию используя обычный векторный поиск и Query Expansion (когда просим LLM-ку “развернуть” запрос пользователя в нормальный запрос напрямую к БД, используя терминологию, в которой данные там проиндексированы).

Целевая метрика у компании - уменьшить количество времени, которое было потрачено на запись новых видео при монтаже рекламы.

А что тут можно сделать еще лучше?

(1) Начать со сбора данных - обвязать систему поиска интерфейсами так, чтобы можно было собирать телеметрию о том, какие результаты были использованы пользователями
(2) Построить пайплайн для извлечения структурированных данных о записи прошлых видео (какие видео люди искали, и какие элементы потом были использованы ими при монтаже). Благо все эти данные у них хранятся.
(3) Сделать так, чтобы разработчики могли быстро тестировать гипотезы и выкатывать их на проду с обратной связью, чтобы видеть - стали результаты поиска лучше или нет.

А дальше начинается самое интересное. Можно посмотреть на подход к реализации проекта “Кейс про агента-писателя” и переиспользовать подход к анализу оттуда в связке с идеей из кейса "про товары, которые невозможно найти". Пусть агент берет в качестве вводных данных не конкретное описание видео куска, а саму тему для рекламного ролика. И потом проходится по Schema-Guided Reasoning процессу:

(1) формулируем общую концепцию ролика
(2) ищем все потенциально подходящие ролики
(3) если нужно, прогоняем их через VLM с дополнительными запросами (эти метаданные сохраним в базе на будущее)
(4) прорабатываем outline финального ролика со скриптом и ссылками на ролики
(5) полуавтоматически “нарезаем” эти ролики прямо в timeline и грузим в проект для быстрого просмотра и редактирования

Тут две забавные вещи:
(1) Даже если человеку не понравится идея, он ее полностью выкинет и переделает, оставив только найденные материалы, то миссия уже выполнена. Целевая метрика - облегчить людям поиск подходящего видео.
(2) Эта концепция не нова. Ее уже используют в Amazon Prime для генерации кратких выжимок серий сериалов на платформе.

В принципе, команда и так уже двигалась в данном направлении, но им хотелось услышать независимое экспертное мнение и подтверждение того, что они двигаются правильно и не упустили какое-то секретное супер-решение. Плюс видение того, как можно контроллировать качество и развивать продукт дальше.

Ваш, @llm_under_hood 🤗


PS: Пост со списком всех кейсов
41👍22🔥13🤯1🙏1🤗1
Claude поддерживает Structured Output

Наконец-то, и Anthropic добавили нативную поддержку генерации ответов по JSON схеме без повторных запросов и ошибок парсинга. То есть Structured Outputs. Можно тестировать и использовать Anthropic в бизнес приложениях.

Теперь все основные AI провайдеры и движки для локального запуска поддерживают этот режим.

Спасибо @the_ai_architect, который первым написал про это в чате канала.

Ваш, @llm_under_hood 🤗
🔥86👍12👨‍💻104
Media is too big
VIEW IN TELEGRAM
Платформа для ERC3: AI Agents открыта!

На ней мы будем проводить соревнование 26 ноября (и после) по поиску оптимальных архитектур для AI агентов. Готовиться можно начинать уже сейчас:

Что можно сделать уже сейчас
(1) Ввести свой email, с которым регистрировались на ERC3, и получить ERC3_API_KEY. Новые регистрации активируются на платформе в течение 24 часов.
(2) Посмотреть бенчмарки на платформе
(3) Посмотреть исходники тестового агента (gpt-4o) и запустить его с ключом и любой моделью
(4) Посмотреть, как работа агента отражается в логах в консоли и в самой платформе. Платформа сразу же выдает оценку агенту!
(5) Увидеть слабые места и улучшить его! Или запустить на локальной модели.

Дальше:
(1) Послезавтра я активирую на платформе бенчмарк erc3-dev - это симуляция компании для соревнования, с тестовым набором задач. Оценки будут агентам выставляться сразу же. Интерфейсы там будут отличаться от симуляции магазина (более сложные).
(2) 26 ноября откроем рабочий бенчмарк. Нужно будет просто переключить своих агентов на новый набор задач и прогнать их.

Платформа | Регистрация | Пример агента

Можно запускать любое количество сессий и бенчмарков! Только, пожалуйста, описывайте кратко архитектуру и отправляйте статистику использования LLM (как в примере) с указанием названия модели в формате OpenRouter (например, `qwen/qwen3-8b`). Это позволит потом ранжировать агентов по локальности, требованиям к VRAM, стоимости и выводить красивые графики.

Ваш, @llm_under_hood 🤗
🔥48👍65🤗52🤯2😢1
Первые инсайты с ERC3 про построение AI Агентов

Соревнование у нас еще не запущено, а инсайты уже идут! Это потому, что наше с вами коммьюнити просто офигенно. C момента запуска платформы прошло чуть больше суток, а на ней уже было записано более 3000 запусков разнообразных агентов. Люди пытаются получить идеальные 100 баллов на разогревочном STORE бенчмарке.

Валерий взял своего SGR Core агента, адаптировал инструменты под STORE бенчмарк и итерациями аккуратно сделал работающий системный промпт на 3k tokens. Говорит, что модели ленятся делать тесты всех вариаций продуктов (там где задача этого требует), что нет стабильных ответов (качество скачет 10-15% от прогона к прогону). Хочет дальше уйти от ReAct агента и попробовать сделать кодового агента (с написанием кода). Пока использовал gpt-4.1 и gpt-4.1-mini, думает попробовать локальный Qwen.

Подробнее журнал его первых экспериментов можно прочитать в этом посте у него в канале.

Влад смог выбить 100 на STORE бенчмарке c gpt-5.1-codex-max. Обещал тоже скоро поделиться инсайтами! Update: тут

Вырисовывается картина, что
(1) у агентов нужно аккуратно контроллировать контекст по мере работы, иначе они переполняют его и начинают теряться
(2) качество тулзов для агента очень сильно влияет на качество его работы. Можно сильно улучшить результат, если вручную сделать удобный для агента инструмент.

Если у вас есть какие-то интересные результаты или инсайты, пожалуйста, записывайте их и присылайте заметки с полей, пока не забылось.

А ScrapeNinja тем временем хочет сделать ERC SDK клиента под JavaScript. Если кому-то такое надо, обращайтесь к нему.

Платформа | Регистрация | Пример агента

Ваш, @llm_under_hood 🤗

PS: Eсли кто-то регистрировался на сайте TTA за последние сутки, можно прямо сейчас уже заходить на платформу и активировать ключи. Я только что загрузил 25 новых аккаунтов.
🔥2611👏5👍2🤯2🥰1😢1
Я добавил на ERC3 платформу живой leaderboard с последними лучшими результатами бенчмарков. Для разогревочного STORE бенчмарка, 5% команд на платформе уже смогли получить идеальный результат.

Пока аккаунты анонимные, без дополнительной статистики или раскрытия архитектур. Это приделаем потом.

А статистики потом будет немало, у нас уже залоггировали более 11k запусков разнообразных AI Agents!

Ваш, @llm_under_hood 🤗
👍27🔥108🤯2😢1
А что если провести наш Challenge не на следующей неделе, а чуть попозже? Чтобы было больше времени на освоение платформы и ERC3 бенчмарка?
Anonymous Poll
11%
26 Ноября
89%
9-10 Декабря
👍2410🔥2🤯2😢1
Новости и статистика про ERC3

Во-первых, по голосованию видно, что большинство за перенос даты соревнования на начало декабря. Зарегистрировалось уже 423 команд, складывается, такое ощущение, что все участники как раз проголосовали за перенос. Так и сделаем. Соревнование 9 декабря, ERC3 с тестовым набором задач будет в среду.

Во-вторых, у нас в платформе уже записано 23 тысячи запусков агентов, которые занесли в систему 204 миллионов input tokens и 11 миллионов output tokens.

Список последних агентов, которые получили 100 score на STORE бенчмарке можно увидеть тут. И тут уже не только тяжеловесы вроде gpt-5, но и локальные модели вроде qwen3-235b-a22b и

Краткие результаты анализа.

Базовый SGR NextStep агент из примера - это очень медленный, дорогой и слабый агент. Поэтому команды находят способы улучшить его.

Если верить статистике, то отличие идеальных агентов (те, кто решил все задачи), в том, что обычно делают больше работы за шаг - они грузят больше контекста в LLM вызов и работают дольше. Возможно, тут еще идет оптимизация контекста и добавляются выделенные инструменты. При этом количество LLM вызовов у них примерно такое же, как и у агентов послабее.

Для быстрых ответов некоторые команды используют Cerebras провайдера, который позволяет очень быстро гонять локальные модели.

Самый точный агент - SGR Tool Calling Agent with Reasoning Phases (OpenAI Function Calling), заодно он и самый тяжелый - 1.3M tokens на сессию. SGR-гибриды попроще (SGR with combo tools, SGR Agent + code agent + Added data about API итп) используют меньше tokens (280–350k на сессию), но и качество немного менее стабильное, медиана - 87.

NextStep JSON SGR Agent with Codex - неожиданная архитектура, которая потребляет 245k tokens на сессию и работает достаточно стабильно (есть не одна идеальная сессия в 100).

Ваш, @llm_under_hood 🤗
🔥2313👍8🤯3😢1🤝1
Бенчмарк LLM в ERC3: AI Agents

Вот график лучших решений ERC3 в бенчмарке Store, где архитектуры ранжированы по стоимости запуска и времени исполнения.

Это список тех моделей, которые команды берут в первую очередь на практике, когда хотят решить какую-то задачу.

Агенты, которые не присылали телеметрию через api.log_llm или присылали имя модельки, не совпадающее с именем модели на OpenRouter - в рейтинг не попали (т.к. цены считаем на базе OpenRouter и присланной телеметрии).

Ваш, @llm_under_hood 🤗
🔥16🤯86🤔2😢2
Мелкий апдейт на платформе ERC

Пока еще не ERC3 бенчмарк, просто подготовка к его выкладке

(1) Если при отправке решения не была прислана телеметрия вызовов LLM (название модели и число tokens), то из очков вычитается 10% (в eval logs это будет упомянуто). Так все заранее смогут проверить и поправить своих агентов.

(2) Я поправил инфраструктуру так, что теперь задачи в бенчмарках могут чуть-чуть меняться (например, у айдишников добавляется случайный префикс). Суть это не меняет, просто в ERC3 бенчмарке уже не получится захардкодить правильные ответы. Примеры работы можно посмотреть в DEMO бенчмарке.

STORE бенчмарк менять не стал, но в ERC3 это уже будет встроено.

Ваш, @llm_under_hood 🤗
👍19🤯3🤗3🤔1😢1
Я доделал основную часть симуляции для ERC3 и выкатил API на проду! В PythonSDK тоже все есть - см. версию 1.0.5

Этот бенчмарк моделирует системы целой компании для запуска в них AI Агента. Они моделированы аналогично тому, как в компаниях и внедряются агенты, только без риска что-то сломать.

Можно смотреть на API и играться с ним. В описании бенчмарка есть ссылка на то, куда надо копать и смотреть, чтобы понять, что это вообще за компания, и как положено агенту работать с ней.

Да, там в API затерялась и knowledge base, как в настоящем AI agent deployment в корпорации.

Уже есть пара тестовых заданий для ERC3-DEV, чтобы начать представлять себе масштабы). К пятнице я закончу набор API и выложу 15 тестовых заданий c включенным evaluation.

Сразу предупреждаю, не привязывайтесь слишком к компании Aetherion Analytics Gmb. Это будет только одна из компаний в финальном бенчмарке.

Что скажете? Остальные задания делать проще или реалистичнее?

Ваш, @llm_under_hood 🤗

Ссылки: Платформа | Регистрация | Пример агента | Видео на русском

Официальное соревнование состоится 9 декабря, но люди соревнуются на STORE бенчмарке уже сейчас.
🔥30👍177🤯7😢1
Кейс про выбор правильного тендера, с ужасным стэком

Иногда можно слышать про то, что AI проекты - это что-то сложное, дорогое, требует кучу денег, времени, а выхлопа - не дает.

Вот простой кейс, который недавно развернули на коленке в компании в свободное время "полтора землекопа".

Другие кейсы в канале см тут.

Итак, время сейчас экономически сложное по всему миру. Компаниям нужно крутиться и искать заказы. При этом, если работать в корпоративном секторе, там с заказами не так просто - нужно найти тендер, собрать на него документацию, собрать свое предложение итп. Это требует кучу времени и сил. Во-первых, надо за тендерами следить. Во-вторых, их надо вычитывать и выбирать выгодные. В-третьих, подаваться итп.

В данном кейсе компания решила упростить сильно первую часть - поиска перспективных тендеров. Два разработчика в свободное время разработали достаточно простой пайплайн (в комменты скину скрин отчета - где сразу видно, что это вайб-кодинг)) . Все работает так:

(1) Подписались на рассылку с тендерами в Европе. Письма приходят свободным текстом, содержат ссылки на эти самые тендеры, которые находятся на разных сайтах.

(2) система - выкачивает эти письма, достает ссылки, идет по ссылкам и выкачивает сопустствующую документацию. Если есть каптча - подключается gemini 2.5 для ее прохождения.

(3) выкачанная документация по тендеру прогоняется через чеклист по критериям анализа этой фирмы (gpt-5). Задача тут - отсеять тендеры, которые фирме точно не интересны (нет скилов или прошлого опыта) или невыгодны (грубая оценка объема работа не сходится с ценой).

(4) Получается такое крупное сито. Если какой-то тендер проходит через него, то файлы грузятся на SharePoint, генерится краткий отчет в виде HTML и вставляется в Confluence, а в Teams присылается краткий отчет про тендер.

А теперь самое ужасное про стэк - это все написано на C#, на котором Structured Outputs сходу не заводится. Поэтому написали промпты просто словами, упомянув про необходимость reasoning. Модели тут используются избыточно мощные, поэтому проблем нет. Самое сложное в проекте - это не промпты, а все интеграции. LLM - это просто клей, которые объединяет разные процессы вместе.

Выхлоп?

Директора довольны как слоны, т.к. они каждый вторник получают выжимку перспективных тендоров по рынку, которые хорошо подходят к компании, текущей ситуации и ближайшим планам. Они быстро просматривают наиболее перспективные варианты, отправляют какие-то в работу и переключаются на другие дела. Поэтому прямо сейчас в краткосрочной работе уже 11 интересных тендеров. Вроде мелочь, но раньше такого качественного охвата рынка у компании не было никогда.

Можно сделать лучше и правильнее? Однозначно.
Надо ли?

Ваш, @llm_under_hood 🤗
🔥63👍2616😁4🤯2🤔1
Как решить проблему SO с Invalid JSON в OpenAI SDK?

В чате моего курса (https://abdullin.com/ai-assistants-course) напомнили, что OpenAI так и не пофиксили полностью свою реализацию Structured Outputs в GPT-5.

Более подробно о проблеме можно прочитать в OpenAI Community. Сейчас она всплыла на простом кейсе на azure gpt-5-mini. Там парсинг ответа вываливается с ошибкой Invalid JSON: trailing characters at line 2 column 1

Как решить эту проблему, если такое происходит в вашем проекте? Нужно встроиться в OpenAI SDK (например через httpx перехватчик или перегрузку методов) и - при встрече теоретически невозможного ValidationError - ручками исправить исходный JSON. Вот пример кода, который можно вставить в проект (лучше до того момента, как импортировали openai) для этого:


# let's fix OpenAI parsing

import re
from pydantic import ValidationError
from openai.lib._parsing import _completions as _parsing_completions

_original_model_parse_json = _parsing_completions.model_parse_json

def tolerant_model_parse_json(model_cls, data: str):
try:
return _original_model_parse_json(model_cls, data)
except ValidationError as e:
# impossible for valid JSON, but OpenAI can surprise!
pattern = r'\}\n+\{'
parts = re.split(pattern, data)

if len(parts)>1:
print(f"Gotcha!\nSTART\n{data}\nEND\n")
return _original_model_parse_json(model_cls, parts[0]+"}")

raise

_parsing_completions.model_parse_json = tolerant_model_parse_json

Если вставить этот патч в SGR Demo агента, то он будет благополучно работать даже с OpenAI моделями семейства gpt-5.

Только print отладочный не забудьте убрать потом.

Ваш, @llm_under_hood 🤗
32👍25🤯4🔥2
Тестовые задания для ERC3-DEV - выложены!

Смотреть их тут. Python SDK синхронизирован с API. Версия:


--extra-index-url https://erc.timetoact-group.at/ erc3>=1.0.7


Evaluator - подключен. Как только пойдут первые прогоны агентов - Leadeboard начнет заполняться автоматически.

Ваш, @llm_under_hood 🤗
🔥1810🤯2👍1
Нужны исходники AI агента, который выбивает до 56.2 в ERC3-DEV?

Я их залил в Github Repo c примерами. Это все тот же SGR Next Step, просто адаптированный под новый набор инструментов.

Можно попробовать запустить его, посмотреть устройство, а потом - улучшить!

Ваш, @llm_under_hood 🤗

PS: Ссылки про ERC3 соревнование: Платформа | Регистрация | Пример агента | Видео на русском
🔥41👍147🤯2
Время доказать, что есть архитектуры AI агентов лучше, чем SGR!

Вчера я выложил тестовый набор задач для соревнования ERC3. Там агенту нужно подрабатывать чатботом в небольшой международной компании с кучей APIшек, правилами безопасности и даже своей wiki. Заодно и выложил в Github пример простого агента, который выбивает 56.2.

Пока в лидерборде преобладают архитектуры на базе Schema-Guided Reasoning. Кто сможет сделать лучше? Хоть что, но не SGR. Или еще какой комбинированный подход.

Кстати, Валерий написал пост про то, как он взял 100

Соревнование 9 декабря будет заключаться в том, что я выложу в доступ 100 новых задач для того же агента. Нужно будет переключить своего агента на новый набор задач и запустить. Кто сможет получить больше очков за ~30 минут, тот и победил.

Платформа | Регистрация | Пример агента | Видео на русском

Кстати, а нужно отлаживать механизм переключения агента на новые задачи в рамках одной API-шки? Я могу выкатить ERC3-TEST со старыми задачами плюс еще парочкой новых посложнее. Заодно там и свой лидерборд будет))

Ваш, @llm_under_hood 🤗
🔥3111👍8🤯2😁1
ERC3-TEST уже доступен

Это расширенный вариант задач для отладки работы вашего агента с ERC3 бенчмарком.

Платформа | Регистрация | Пример агента | Видео на русском

Из нового:

(1) Aetherion купила большая группа компаний, которая немного поменяла правила игры - см в wiki. Некоторые задачи используют этот контекст. Агент может его обнаружить, отслеживая значение wiki_sha1 в /whoami. В соревновательном бенчмарке будет в сумме 3-4 разных компании. В реальности в multi-tenant выкатках агентов могут быть и сотни контекстов, но для бенчмарка 3-4 хватит "за глаза".

(2) Этот бенчмарк использует старое API от ERC-DEV, поэтому клиент не меняется. Соревновательный бенчмарк будет использовать тот же механизм переключения.

(3) Вызовы к симулированным апишкам теперь работают с задержкой в 300ms, чтобы было реалистичнее.

(4) Добавил release notes на сайт.

Кстати, у ERC3-TEST - свой leaderboard. Пока он пуст))

Ваш, @llm_under_hood 🤗
16🔥13🤯4😱1
Как насчет логгирования в ERC3 не только статистики (число tokens) но и ответов LLM целиком на платформе (для античита и анализа)? Без логгирования промптов.
Anonymous Poll
11%
Записывать только usage статистику в tokens, как сейчас
55%
Статистика + ответы (completion/output)
33%
Не хочу голосовать
🤯2
Выложил пример агента, который решает ERC3-TEST до 58

Вот пример сессии

Исходники лежат в Github. Ядро агента - 181 строчек Python. Там показано, как:

(1) извлекать правила из wiki
(2) делать это только один раз (при изменении wiki)
(3) сделать pipeline из нескольких шагов с preflight check (для проверки безопасности)
(4) добавить свои (более удобные для LLM) инструменты агенту

Агент базовый, для демонстрации принципов. Его можно заметно улучшить.

Ваш, @llm_under_hood 🤗
🔥509🤔2🤯2
Что оказалось для вас самым ценным инсайтом при разработке своего AI агента на ERC3 платформе?

Уже 17 команд (из 492) выбили идеальные 100 на ERC3-DEV бенчмарке. И похоже, скоро "соток" станет больше - судя по нашему чату, команды продолжают разбираться в архитектуре агентов и улучшать свои решения. А это значит, что мы вместе набираем больше опыта, становимся лучше и двигаем вперед state-of-the-art.

Расскажите что-нибудь про свой опыт с ERC3 платформой! Что было самым прикольным и неожиданным?

Ваш, @llm_under_hood 🤗
🔥1811👍2🤯2💯2
2025/12/06 05:17:36
Back to Top
HTML Embed Code: