Агенты ИИ | AGI_and_RL 919

Агенты ИИ | AGI_and_RL

промт темплейтик

🔥7😱1

1.99K views19:57

Агенты ИИ | AGI_and_RL

1.68K views15:24

Агенты ИИ | AGI_and_RL

1.63K views15:24

Агенты ИИ | AGI_and_RL

Прикручивая ризонинг к RAGу (retrieval-augmented generation - генерации по внешним источникам информации/ответы по документам)

Попробовали просто раг поверх QwQ (на ней весь ризонинговый ресерч стоит) + еще сделали так назвываемый o1-search (тоже работает поверх QwQ), который состоит из двух модулей:

"Агентный RAG-механизм":
* Модель сама решает, когда искать внешние данные.
* Запросы для поиска формируются автоматически в процессе рассуждения
* Многократное использование поиска в одной задаче.

Моделька рассуждает, когда она считает что ей нехватает знаний, то сама вызывает поиск, получает документы, дальше рассуждает уже с новой информацией.

Модуль Reason-in-Documents (ризонит по релевантным документам):

*анализирует полученные документы (по текущему запросу, полученным релевантным документам и по предыдущей цепочке рассуждений)
*выделяет только полезную информацию

Как это все в целом работает на инференсе:

На вход получаем вопросы пользователя + инструкция по задаче;
*генерим по каждому (вопросу + инструкция) цепочку рассуждений которую нужно будет завершить.
*Начинаем генерить цепочку. Модель может захотеть поискать инфу - и сгенерит запрос в <|begin_search_query|> запрос <|end_search_query|> - идем ищем в документе, получаем релевантные чанки;
* (вопрос + инструкция) + найденные релевантные части документов + текущая цепочка рассуждений -> в Reason-in-Documents модуль, из которого нам уже возвращается хорошо подготовленная информация (формируется результат поиска) в <|begin_search_result|> результаты <|end_search_result|> тегах, вставляем это в текущую цепочку рассуждений;
* продолжаем рассуждать

И так пока все сформированные изначально цепочки не сгенерим.

Так понял, результы на скринах (RAgent и o1-search).

Search-o1: Agentic Search-Enhanced
Large Reasoning Models
https://arxiv.org/abs/2501.05366

https://github.com/sunnynexus/Search-o1

Ризонинговый дождь ☔️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥2

2.29K viewsedited 15:24

Агенты ИИ | AGI_and_RL

Forwarded from Pavel Zloi

Пару часов назад завершилось долгожданное дообучение o1 модели на GigaChat 20B-A3B, выполнялось оно на одной RTX 4090 с 24Гб VRAM при помощи проекта impruver и конфигурации GigaChat/20B-A3B_lora_o1 на датасете Egor-AI/Russian_thinking_dataset.

Залил полученный LoRA-адаптер на HuggingFace: evilfreelancer/o1_gigachat-20b-a3b_lora

Он оказался на удивление толстеньким, аж цельных 639 мегабайт весит, вероятно это как-то связанно с особенностями MoE архитектуры модели.

На всё про всё потребовалось примерно 117 часов (почти 5 дней), на данный момент понятно, что если бы я выставил eval_steps не 100, а хотя бы 500 или даже 1000 цель бы удалось достигнуть гораздо быстрее, так как 1 eval прогон выполняется на моей 4090 примерно 46 минут, а за 10 с небольшим тысяч шагов тестов eval было всего 102 (то есть примерно 77 часов выполнялась валидация, тут я конечно переборщил, но зато красивый график получился).

Отчёт W&B тут: evilfreelancer/nlec8bt8

Прикладываю предварительные тесты обученной модели в формате gist, из того что видно на первый взгляд модель отвечает строгим и профессиональным языком, однако, из-за особенностей датасета не всегда отвечает корректно, хотя цепочка "рассуждений" каждый раз крайне любопытная.

Для работы модели в режиме инференса необходимо внести правки в файл generate.py, там надо на этапе вызова токенизатора будет добавить return_token_type_ids=False, позже проверю не нарушит ли это работу остальных моделей, обученных через impruver, и если потребуется добавлю операцию ветвления специально для моделей семейства DeepSeek MoE (к коему относится GigaChat).

PS. Чекпоинты GGUF выложу на HF и ollama позже.

PPS. Картинку eval/train loss добавил первым сообщением под постом.

huggingface.co

evilfreelancer/o1_gigachat-20b-a3b_lora · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍15🔥5❤1👏1

1.77K views09:50

Агенты ИИ | AGI_and_RL

smolagents - новые агенты от HF

Будет заменой для transformers.agents (да, есть такие)
Давят на простоту в первую очередь и это правильно

Есть кодовый агент который пишет действия и вызовы тулов кодом (на картинке пример с кодовым агентом), а не просто jsonы с параметрами как обычно принято делать
можно импортить тулы из langchain
+ можно делать мультиагентные систему

Сейчас сделали 3 примера: text-2-SQL, RAG агента, мультиагент

Реп https://github.com/huggingface/smolagents

Пост https://huggingface.co/blog/smolagents

дока + туторы https://huggingface.co/docs/smolagents/index

Думаю, что как и многие smol проекты от хф - это в первую очередь чтобы взять, поковырять и поизучать. Пока что проекту месяц) Но мб со временем мощь получится

❤8👍4🤔2❤‍🔥1

2.57K viewsedited 19:45

Агенты ИИ | AGI_and_RL

Есть вот такая эксплорилка архива.

https://www.alphaxiv.org/explore

Что-то типа https://huggingface.co/papers
Показывает тренды папир на архиве
К статьям можно оставлять комменты, ставить 👍 (если зарегаться)

Еще есть сообщества по темам, где статьи собираются по тематике
https://www.alphaxiv.org/communities

Короче прикольно, я точно буду пользоваться

PS А в телеге есть https://www.tgoop.com/researchim

👍16🔥3❤1

3.16K views19:36

Агенты ИИ | AGI_and_RL

Интересная книжечка вышла вчера на архиве на 200 страниц по LLMам.
От BERTов до ревард моделей, DPO, алайнментов и тюнингу моделек думать step-by-step.
На английском. Читаем 🥳

Foundations of Large Language Models
https://arxiv.org/abs/2501.09223

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20🔥10❤5🥱1

3.7K views20:55

Агенты ИИ | AGI_and_RL

Проект Stargate — это новая компания, по инвестированию $500 миллиардов в течение следующих четырех лет в создание новой инфраструктуры для искусственного интеллекта (ИИ) в OpenAI на территории США. Мы начнем с немедленного выделения $100 миллиардов. Эта инфраструктура обеспечит лидерство Америки в области ИИ, создаст сотни тысяч рабочих мест в США и принесет огромные экономические выгоды всему миру. Проект не только поддержит реиндустриализацию США, но и предоставит стратегические возможности для защиты национальной безопасности Америки и ее союзников.

Изначальными инвесторами капитала в Stargate являются SoftBank, OpenAI, Oracle и MGX. SoftBank и OpenAI выступают ведущими партнерами: SoftBank отвечает за финансовую составляющую, а OpenAI — за операционную деятельность. Масайоси Сон будет председателем совета директоров.

Ключевыми технологическими партнерами на начальном этапе являются Arm, Microsoft, NVIDIA, Oracle и OpenAI. Реализация проекта уже началась с Техаса, и мы рассматриваем потенциальные площадки по всей стране для создания дополнительных кампусов по мере завершения окончательных соглашений.

В рамках проекта Stargate компании Oracle, NVIDIA и OpenAI будут тесно сотрудничать для создания и эксплуатации этой вычислительной системы. Этот проект основывается на давнем сотрудничестве между OpenAI и NVIDIA, начавшемся еще в 2016 году, а также на новом партнерстве между OpenAI и Oracle.

Кроме того, проект базируется на существующем партнерстве OpenAI с Microsoft. OpenAI продолжит увеличивать использование платформы Azure для проведения исследований и тренировки передовых моделей, а также предоставления качественных продуктов и услуг.

Мы все с нетерпением ждем возможности продолжать развивать ИИ — и в особенности искусственный общий интеллект (AGI) — на благо всего человечества. Мы верим, что этот новый шаг является критически важным и поможет творческим людям находить способы использовать ИИ для улучшения жизни человечества.

🕺 перевод чатгпт

https://openai.com/index/announcing-the-stargate-project/

Please open Telegram to view this post

VIEW IN TELEGRAM

Openai

Announcing The Stargate Project

🤯6🔥2🤔1

2K views22:56

Агенты ИИ | AGI_and_RL

This media is not supported in your browser

VIEW IN TELEGRAM

АГИ через 500 лярдов:

💯18😁3🤔1😢1

2.15K views23:01

Агенты ИИ | AGI_and_RL

Forwarded from Love. Death. Transformers.

TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training - Этот простой трюк ускорит претрен вашего DIT в 25 раз!

Идея такая: не все токены одинаково полезны на всех слоях, не все слои одинаково полезны для всех токенов. Давайте дадим модели самой выбирать на какие слои передавать токены, а на какие слои нет.

авторы получают х25 ускорение претрена и модель лучшую по метрикам чем классический DIT.

paper

🤔6

1.29K views08:46

Агенты ИИ | AGI_and_RL

Forwarded from Vikhr models

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

Salt

Мы начали собирать эту модель в августе, в конце августа получили первый прототип, а потом стало выходить миллион вариантов вида: а давайте whisper для речи+GAN для генерации аудио, а потом вышел FishAudio который лучше работает, да и в целом хорошая модель.

Мы шли с другого конца, собрали решение поверх lm с расширенным токенайзером, использовали WavTokenizer для токенизации аудио.

Учили около 150 а100 часов для финального экспа, но количество экспов и денег сожженых в этот проект переваливает за то сколько я потратил на оригинальные Вихри.

По итогу получился не трансформер который понимает речь и генерирует речь, а Dalle1 like tts на основе llama3 3b.

Сейчас идут работы по дообучению на музыку/аудио, вероятно проект получит папир и обновление.
Сейчас модель неплохо работает на английском, на русский мы доучиваем модель.

huggingface
collab
А еще мы учимся на ошибках и в этот раз выкладываем весь код для обучения и aulate для подсчета аудио метрик

В релизе участвовали: Ksenya (основной контрибьютор), Костя писал метрики и сапортил инфру, а я ходил пинал чтобы оно все не развалилось и доехало до какого то состояния.

👍7🔥6🏆2

1.31K views12:56

Агенты ИИ | AGI_and_RL

Агенты OpenAI

Нам показывают Operator: https://openai.com/index/introducing-operator/
агент для работы в вебе на базе новой модельки Computer-Using Agent - это типа GPT-4o + ризонинг 🎹 (учился с помощью reinforcement learning),
работает с внутренним браузером смотрит на скриншоты и выполняет действия с GUI как делал бы человек используя клаву + мышку, а когда надо - рассуждает (если что-то не выходит сделать например), а если совсем никак - отдает управлению юзеру.

Ну т.е. эту штуку можно просить делать что угодно что в интернетике через браузер можно делать. (и кстати это самая развитая область сегодня - вебагенты)
При этом он научен просить пользователя самого работать с задачами типа логина и ввода капчи. (security)

Пишут, что sota на WebArena и WebVoyager

Ссылочки

https://openai.com/index/operator-system-card/

https://openai.com/index/computer-using-agent/

Please open Telegram to view this post

VIEW IN TELEGRAM

Openai

Introducing Operator

A research preview of an agent that can use its own browser to perform tasks for you. Available to Pro users in the U.S.

✍10❤4👍1👏1

2K viewsedited 19:27

Агенты ИИ | AGI_and_RL

This media is not supported in your browser

VIEW IN TELEGRAM

😁8❤2👍2🥰2

1.9K views19:45

Агенты ИИ | AGI_and_RL

Куда ни глянь везде RL, реварды, агенты... шьто за время)

🤣10👍7😁4💯2

1.81K views19:45

2025/07/12 00:18:32
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>