Теперь, если вы умеете запускаться на swe-bench задачах, то можете это делать и на любых инстансах из swe-rebench, данные которого будут пополняться каждый месяц!
huggingface.co
nebius/SWE-rebench-leaderboard · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥8❤2👍2
Forwarded from commit history
Привет! 🥗 🇨🇦 🤖 🇬🇧
сегодня у нас в качестве блюда винегрет с новостями! я сейчас напишу все разом, если будет интересно, пишите в комментариях про что рассказать подробнее.
во-первых, у нас приняли статью на ICML про то, как мы обучали агентов для кода, поэтому сейчас сижу жду вылет в Ванкувер. Будем там с Сашей @AIexTime и Кариной (она сейчас в DeepMind) если тоже будете там, давайте увидимся!
во-вторых, мы решили сделать еще доступнее наш лидерборд SWE-rebench. Выложили все задачи включая свежие за июнь + докер образы для них + инструкцию как все запускать. Датасет со всеми данными, про который писал в прошлый раз, кстати, только за прошлый месяц скачали 128 264 раз!
в-третьих, в начале года я получил апрув на визу UK Global Talent, а в марте мы перебрались в Лондон. Поэтому, если вы в Лондоне или будете проездом, пишите, давайте увидимся! Кейс для визы собирал сам, если будут вопросы, спрашивайте, на что смогу - отвечу.
сегодня у нас в качестве блюда винегрет с новостями! я сейчас напишу все разом, если будет интересно, пишите в комментариях про что рассказать подробнее.
во-первых, у нас приняли статью на ICML про то, как мы обучали агентов для кода, поэтому сейчас сижу жду вылет в Ванкувер. Будем там с Сашей @AIexTime и Кариной (она сейчас в DeepMind) если тоже будете там, давайте увидимся!
во-вторых, мы решили сделать еще доступнее наш лидерборд SWE-rebench. Выложили все задачи включая свежие за июнь + докер образы для них + инструкцию как все запускать. Датасет со всеми данными, про который писал в прошлый раз, кстати, только за прошлый месяц скачали 128 264 раз!
в-третьих, в начале года я получил апрув на визу UK Global Talent, а в марте мы перебрались в Лондон. Поэтому, если вы в Лондоне или будете проездом, пишите, давайте увидимся! Кейс для визы собирал сам, если будут вопросы, спрашивайте, на что смогу - отвечу.
arXiv.org
Guided Search Strategies in Non-Serializable Environments with...
Large language models (LLMs) have recently achieved remarkable results in complex multi-step tasks, such as mathematical reasoning and agentic software engineering. However, they often struggle to...
👍8🔥1