NEURALDEEP Telegram 1620
SGR Deep Research бенчмарк?

В предыдущем посте я рассказал, как мы выкатили наконец стабильную версию sgr deep research системы, что бы начать прогонять разных SGR/non SGR агентов по бенчам и задачам

Времени конечно у команды open-source на это не очень много, но то, что я успеваю руками делать, то делается через "Курсор" 😈

Что я себе навайбокдил

1) Логи, очень и очень подробные логи
2) Интерфейс, что бы эти логи не читать в терминале или в IDE
3) Разные виды промптов (для gpt-4o-mini/qwen)

Нашел топ SealQA бенчмарк как я считаю, для Deep Research.
Почему? Я дал вопросы от туда паре человек, так они искали ответ 30 минут (считаю что бенч, отличный)

Далее нашел топ агента ROMA, который выбивает SOTA под этот бенчмарк, и о ужас, что я увидел в промптах, примерно 15к токенов разных оверфитов и трюков для прохождения бенча, бям

Я же решил таким не заниматся и прогнал на 111 вопросов, и глазками просмотрел(больно) что имеем gpt-4o-mini выбила 0.25 точности (не густо?)

Зайдите в бенч сами, увидите, сколько модели выбивают на нем, а выбивают они 0

SealQA is a new challenge benchmark for evaluating SEarch- Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results

За сим я откланяюсь дальше творить добро и знания в мире LLM, где все покрыто тайной и мистификацией

Кстати поглядеть кусочек логов и трейса можно тут


Репо: https://github.com/vakovalskii/sgr-deep-research
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥27👍87



tgoop.com/neuraldeep/1620
Create:
Last Update:

SGR Deep Research бенчмарк?

В предыдущем посте я рассказал, как мы выкатили наконец стабильную версию sgr deep research системы, что бы начать прогонять разных SGR/non SGR агентов по бенчам и задачам

Времени конечно у команды open-source на это не очень много, но то, что я успеваю руками делать, то делается через "Курсор" 😈

Что я себе навайбокдил

1) Логи, очень и очень подробные логи
2) Интерфейс, что бы эти логи не читать в терминале или в IDE
3) Разные виды промптов (для gpt-4o-mini/qwen)

Нашел топ SealQA бенчмарк как я считаю, для Deep Research.
Почему? Я дал вопросы от туда паре человек, так они искали ответ 30 минут (считаю что бенч, отличный)

Далее нашел топ агента ROMA, который выбивает SOTA под этот бенчмарк, и о ужас, что я увидел в промптах, примерно 15к токенов разных оверфитов и трюков для прохождения бенча, бям

Я же решил таким не заниматся и прогнал на 111 вопросов, и глазками просмотрел(больно) что имеем gpt-4o-mini выбила 0.25 точности (не густо?)

Зайдите в бенч сами, увидите, сколько модели выбивают на нем, а выбивают они 0

SealQA is a new challenge benchmark for evaluating SEarch- Augmented Language models on fact-seeking questions where web search yields conflicting, noisy, or unhelpful results

За сим я откланяюсь дальше творить добро и знания в мире LLM, где все покрыто тайной и мистификацией

Кстати поглядеть кусочек логов и трейса можно тут


Репо: https://github.com/vakovalskii/sgr-deep-research

BY Neural Kovalskii






Share with your friend now:
tgoop.com/neuraldeep/1620

View MORE
Open in Telegram


Telegram News

Date: |

Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. Telegram channels fall into two types: Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously.
from us


Telegram Neural Kovalskii
FROM American