AI_MACHINELEARNING_BIG_DATA Telegram 8740
This media is not supported in your browser
VIEW IN TELEGRAM
💡 RND1 - новая экспериментальная модель с 30 миллиардами параметров, построенная по архитектуре Sparse Mixture-of-Experts, где активно 3 миллиарда параметров.

Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.

Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.

Это - Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.

🔄 Как её сделали

Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.

Они просто поменяли тип внимания и дообучили модель на новой задаче.

Этот метод называется AR-to-Diffusion Conversion (A2D) - то есть конверсия из автогрессионной модели в диффузионную.

Как это происходит:
1. Берут сильную GPT-подобную модель.
2. Меняют механизм внимания — теперь модель видит весь контекст сразу.
3. Продолжают обучение по диффузионной задаче.
4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.

⚙️ Что под капотом

Mixture-of-Experts (MoE) - у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.

Непрерывное дообучение - старые знания не стираются, а “встраиваются” в новый режим.

Огромные батчи - модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.

✔️ Чем RND1 интересна:

- Параллельная генерация - текст создаётся быстрее, без пошаговой задержки.
- Меньше затрат - активных параметров всего 3 млрд, при этом качество как у больших GPT.
- Новая архитектура - открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.
- Полностью открытый код и веса - можно исследовать, изменять, запускать самому.
- Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.

Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать - менять его саму логику мышления без начала “с нуля”.

Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.

🟠Blog: https://radicalnumerics.ai/blog/rnd1

🟠Code: https://github.com/RadicalNumerics/RND1

🟠Report: https://radicalnumerics.ai/assets/rnd1_report.pdf

🟠Веса: https://huggingface.co/radicalnumerics/RND1-Base-0910

🟠Видео: https://www.youtube.com/watch?v=M8XdNsecroo

@ai_machinelearning_big_data


#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59🔥2722



tgoop.com/ai_machinelearning_big_data/8740
Create:
Last Update:

💡 RND1 - новая экспериментальная модель с 30 миллиардами параметров, построенная по архитектуре Sparse Mixture-of-Experts, где активно 3 миллиарда параметров.

Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.

Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.

Это - Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.

🔄 Как её сделали

Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.

Они просто поменяли тип внимания и дообучили модель на новой задаче.

Этот метод называется AR-to-Diffusion Conversion (A2D) - то есть конверсия из автогрессионной модели в диффузионную.

Как это происходит:
1. Берут сильную GPT-подобную модель.
2. Меняют механизм внимания — теперь модель видит весь контекст сразу.
3. Продолжают обучение по диффузионной задаче.
4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.

⚙️ Что под капотом

Mixture-of-Experts (MoE) - у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.

Непрерывное дообучение - старые знания не стираются, а “встраиваются” в новый режим.

Огромные батчи - модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.

✔️ Чем RND1 интересна:

- Параллельная генерация - текст создаётся быстрее, без пошаговой задержки.
- Меньше затрат - активных параметров всего 3 млрд, при этом качество как у больших GPT.
- Новая архитектура - открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.
- Полностью открытый код и веса - можно исследовать, изменять, запускать самому.
- Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.

Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать - менять его саму логику мышления без начала “с нуля”.

Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.

🟠Blog: https://radicalnumerics.ai/blog/rnd1

🟠Code: https://github.com/RadicalNumerics/RND1

🟠Report: https://radicalnumerics.ai/assets/rnd1_report.pdf

🟠Веса: https://huggingface.co/radicalnumerics/RND1-Base-0910

🟠Видео: https://www.youtube.com/watch?v=M8XdNsecroo

@ai_machinelearning_big_data


#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource

BY Machinelearning


Share with your friend now:
tgoop.com/ai_machinelearning_big_data/8740

View MORE
Open in Telegram


Telegram News

Date: |

With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police.
from us


Telegram Machinelearning
FROM American