Агенты ИИ | AGI_and_RL 1096

Агенты ИИ | AGI_and_RL

Unsloth отгружает 4бита кванты и GGUFы (для llama.cpp)
Оперативно конечно

https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95

❤17👍6👏1

2.22K views21:19

Агенты ИИ | AGI_and_RL

Forwarded from Vikhr models

Doom - Первый ризонинг бенчмарк для русского

Открылись для сообщества, статья на хабр и arxiv скоро, мелкие детали доезжают.

Обратите внимание что бенчмарк основан на публичных данных, вероятно все модели в бенчмарке в том или ином виде видели

hf leaderboard

github

🔥11❤4👍2

1.77K views04:35

Агенты ИИ | AGI_and_RL

Они вылупляются https://huggingface.co/Qwen/Qwen3-4B-FP8 https://huggingface.co/Qwen/Qwen3-1.7B https://huggingface.co/Qwen/Qwen3-8B https://huggingface.co/Qwen/Qwen3-30B-A3B https://huggingface.co/Qwen/Qwen3-32B-FP8 https://huggingface.co/Qwen/Qwen3-32B…

Квены залили 4бит awq квантизации квен 3!

https://huggingface.co/Qwen/Qwen3-32B-AWQ
https://huggingface.co/Qwen/Qwen3-14B-AWQ

ггуфы тоже

https://huggingface.co/Qwen/Qwen3-32B-GGUF
https://huggingface.co/Qwen/Qwen3-14B-GGUF

Можно и дома гонять большие модельки

huggingface.co

Qwen/Qwen3-32B-AWQ · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍14🔥5❤4

1.9K viewsedited 08:47

Агенты ИИ | AGI_and_RL

F https://www.skype.com/ru/

Пользуйтесь теперь тимс (пожалуй не буду)

💯16😁4👏3

1.95K views04:51

Агенты ИИ | AGI_and_RL

Вышла небольшая но полезная обзорка по интерактивным видеогенерилкам.
Тут ворлд моделс, симуляторы (в том числе вождения), игры, и вот это все

Я давно не следил за темой и понравилась вот эта карта что на скрине

A Survey of Interactive Generative Video
https://arxiv.org/abs/2504.21853

PS все по ИИ собираем в https://www.tgoop.com/researchim

🔥13❤4👍2

2.12K views07:32

Агенты ИИ | AGI_and_RL

сложил в репчик несколько o3 ресерчей на разные темы

AI в медицине
https://github.com/researchim-ai/state-of-ai/blob/main/Med_AI_research.md

ИИ киберсек
https://github.com/researchim-ai/state-of-ai/blob/main/AI_cybersecurity_research.md

По рагу
https://github.com/researchim-ai/state-of-ai/blob/main/RAG_research.md

и заходите в https://www.tgoop.com/researchim там собираем ИИнфу и проектики делаем

GitHub

state-of-ai/Med_AI_research.md at main · researchim-ai/state-of-ai

По возможности актуальная информация по ИИ + ресерчи от ChatGPT - researchim-ai/state-of-ai

🔥18👍6❤4

2.12K viewsedited 16:12

Агенты ИИ | AGI_and_RL

HF 🤗 выложили nanoVLM учебный проект по трену и тюну небольших VLMок

https://github.com/huggingface/nanoVLM

🔥27👍7❤4

2.5K views04:42

Агенты ИИ | AGI_and_RL

Forwarded from Love. Death. Transformers.

AI модерацию очень сложно мерить — нужно учитывать разные виды контента, быстро отвечать, не false positiвить. Челы из https://whitecircle.ai озаботились и сделали первый бенчмарк для гардрейлов, а еще измерили на нем все самые популярные LLM, в том числе давая моделям поррасуждать над ответом.

Твиттер
Полистать подробнее в блоге

🔥15👍6❤2

1.43K views12:43

Агенты ИИ | AGI_and_RL

Ученые из Японии выложили 2 датасета для трена по которым изначально прошлись ллмками Llama-3.3-70B-Instruct

SwallowCode ~ 16 Billion tokens
https://huggingface.co/datasets/tokyotech-llm/swallow-code
(питон из The-Stack-v2 обработанный в 4 стадии - 2 фильтрации и 2 переписывания ллмкой)

SwallowMath ~ 2.3 Billion tokens
https://huggingface.co/datasets/tokyotech-llm/swallow-math
(математика из FineMath-4+)

Потом дотюнили на них Llama-3.1-8B ну и сравнили с другими способами обработки. Все на скринах, переписывание ллмкой докидывает

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code
https://arxiv.org/abs/2505.02881
https://www.alphaxiv.org/ru/overview/2505.02881

PS собираемся и собираем инфу по ии в https://www.tgoop.com/researchim

🔥12👍7❤5

2.2K views16:04

Агенты ИИ | AGI_and_RL

Хм, там Хуавей выложили статью как тренили свою PanguUltraMoE с 718 миллиардов параметров

Модельку саму не выкладывают

Интересного тут
1. моделька от хуавея
2. тренили они модельку на 6 тысячах хуавеевских чипах Ascend NPU
Много про оптимизации под эти чипы

Моделька по бенчам перформит ~ DeepSeek R1

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs
https://arxiv.org/abs/2505.04519
https://www.alphaxiv.org/ru/overview/2505.04519

Есть вот такой пост про архитектуру Ascend NPU чипов еще 2021 года
https://forum.huawei.com/enterprise/intl/en/thread/what-is-ascend-chips/667245530885013505

👍8❤6👏2

1.9K viewsedited 15:32

Агенты ИИ | AGI_and_RL

Полный ноль в ризонинге

В смысле, что для обучению ризонингу не надо заготовленных данных. Моделька сама формулирует задачи, сама пытается их решать.

Агент работает с кодом. Одна и та же моделька работает в двух ролях - кто ставит задачи и кто решает. И получается такой селфплей

Обе эти роли действуют на программах, входам для них и на их выходах (триплеты). И для каждой из ролей назначаются свои реварды.

И выполняют 3 вида внутренних задач в процессе решения:

Deduction - для программы и входных данных предиктит выход
Abduction - по программе и выходу предиктит параметры для программы
Induction - синтезирует программу по входам и выходам

У каждого вида задач свои буферы триплетов. Базовой моделькой генерируется первоначальный набор задач, затем в процессе обучения роль ставящая задачи создает их вариации, а решатель решает. Успешные триплеты добавляются в буфер

Генерируемые программы выполняются по своим входам и выходам (ну в зависимости от типа задачи) и по результатам получают реварды.
Ну и учатся рлем лучше решать задачи.

В целом по бенчам на математике сопоставимы или обходят другие хорошие подходы с данными.

Так понял. Довольно интересно

Подробнее читаем тут

Absolute Zero: Reinforced Self-play Reasoning with Zero Data
https://www.arxiv.org/abs/2505.03335
https://www.alphaxiv.org/ru/overview/2505.03335

https://andrewzh112.github.io/absolute-zero-reasoner/

https://github.com/LeapLabTHU/Absolute-Zero-Reasoner

PS собираем ИИнфу и проекты делаем в https://www.tgoop.com/researchim

🔥15❤2👍2

1.99K viewsedited 13:06

Агенты ИИ | AGI_and_RL

This media is not supported in your browser

VIEW IN TELEGRAM

просто double DQN проходит простой уровень из марио

https://www.reddit.com/r/reinforcementlearning/comments/1kidoi3/mario/

🏆26🔥4👏2

1.71K viewsedited 08:03

Агенты ИИ | AGI_and_RL

хм интересная штука
двое ребят kalomaze (хз кто он, в иксе часто про всякое рльное пишет) и Will Brown (он одним из первых выложил пример с кодом по grpo для тюна 1б лламы в домашних условиях, который быстро разошелся и многие взяли этот пример за базу и вообще разбирались во всей этой грпо штуке)

вот только что пошли работать в https://www.primeintellect.ai/
https://github.com/PrimeIntellect-ai
Как понял они делают всякое по распределенному трену моделек и агентские штуки

Я к чему - прикольно что кто-то пылесосит популярных рльных/ллмных челов

И еще вот вышел видосик по открытым вопросам агентик рля с Виллом Брауном как раз
https://www.youtube.com/watch?v=Xkwok_XXQgw

👍18❤9🔥4

2.05K viewsedited 10:18

Агенты ИИ | AGI_and_RL

Optimal Brain Damage - это когда ежедневно читаешь статьи по RL LLM агентам

😁28

2.41K views14:27

Агенты ИИ | AGI_and_RL

Forwarded from Denis Sexy IT 🤖

1:26

This media is not supported in your browser

VIEW IN TELEGRAM

NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом дообучении после переключения из симуляции на реальный мир

Если коротко, десять лет обучения сжали в две часа симуляции-тренировки

А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:

«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»

👍22❤6

1.68K views16:14

Агенты ИИ | AGI_and_RL

Еще порция чатгпт ресечей по ии

Ии в промышленности
https://github.com/researchim-ai/state-of-ai/blob/main/AI_industry.md

квантизация ллмок
https://github.com/researchim-ai/state-of-ai/blob/main/LLM_quantization_research.md

Рекомендашки
https://github.com/researchim-ai/state-of-ai/blob/main/Recommender_systems_research.md

и заходите в https://www.tgoop.com/researchim там собираем ИИнфу и проектики делаем

GitHub

state-of-ai/AI_industry.md at main · researchim-ai/state-of-ai

По возможности актуальная информация по ИИ + ресерчи от ChatGPT - researchim-ai/state-of-ai

🔥10👍5❤4

2.3K views11:10

2025/07/13 20:25:54
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>