Что там у моделек с физикой
PHYBench
Какой же мощный Gemini 2.5 Pro у Гугла получился
(шарит за шар в чаше?)
https://phybench-official.github.io/phybench-demo/
PS в https://www.tgoop.com/researchim собираем АИ инфу и проектики делаем
PHYBench
С набором из 500 тщательно отобранных задач по физике, охватывающих механику, электромагнетизм, термодинамику, оптику, современную и продвинутую физику, он проверяет способность моделей демонстрировать:
Связь с реальностью: задачи основаны на реальных физических сценариях (например, шар в чаше, динамика маятника).
Многошаговые рассуждения: средняя длина решения составляет 3000 символов и требует более 10 промежуточных шагов.
Символьную точность: строгая оценка выражений, записанных в формате LaTeX, с помощью новой метрики «Expression Edit Distance (EED)».
Какой же мощный Gemini 2.5 Pro у Гугла получился
(шарит за шар в чаше?)
https://phybench-official.github.io/phybench-demo/
PS в https://www.tgoop.com/researchim собираем АИ инфу и проектики делаем
🔥9👍4🤗2
Forwarded from gonzo-обзоры ML статей
Muon Optimizer Accelerates Grokking
Amund Tveit, Bjørn Remseth, Arve Skogvold
Статья: https://arxiv.org/abs/2504.16041
Любопытная история про гроккинг, здесь про влияние оптимизатора и конкретно про то, что переключение оптимизатора с AdamW на Muon существенно ускоряет наступление гроккинга.
Напомним, что гроккинг -- это весьма интересный феномен генерализации, когда модель сначала как бы переобучается (высокое качество на обучающем сете, но низкое на уровне рандома на валидационном), но если продолжать обучение дальше, то в какой-то момент перформанс на валидационном быстро датасете вырастает до высоких значений. Модель “врубается”.
Текущая работа определяет гроккинг следующим образом: это первая эпоха, на которой точность на валидации достигает или превосходит 95%, после того как точность на трейне стабилизировалась около 100%.
Если не читали разбор оригинальной статьи про гроккинг (https://www.tgoop.com/gonzo_ML/831), очень рекомендую.
Вот ведь, было время, когда OpenAI публиковал интересные статьи, и эту, и про double descent, и много всего другого…
Muon (MomentUm Orthogonalized by Newton-Schulz) -- это свежий оптимизатор (https://github.com/KellerJordan/Muon), предназначенный для обучения внутренних слоёв моделей, работает с 2D+ матрицами параметров. Разные векторы и скаляры надо обучать чем-то другим, например, AdamW. Эмпирически нашли также, что и эмбеддинги с классификационными головами лучше обучать не Muon’ом, у них другая динамика оптимизации (по крайней мере у первых).
Алгоритм берёт градиенты из SGD-Nesterov-momentum (можно и без Нестерова, но с ним лучше) и делает их постпроцессинг через итерацию Newton-Schulz, которая приближённо ортогонализует матрицу апдейтов. Больше подробностей есть в описании алгоритма тут: https://kellerjordan.github.io/posts/muon/.
Muon родился осенью прошлого года (https://x.com/kellerjordan0/status/1842300916864844014) и уже показал себя хорошо на скейлинге MoE LLM c 3B/16B параметров (вариант deepseek-v3-small) в обучении на 5.7T токенов, будучи примерно в два раза эффективнее AdamW (https://arxiv.org/abs/2502.16982).
В текущей работе проверили несколько датасетов. Датасет как в оригинальной работе про гроккинг и арифметику по модулю 97, а также датасет про чётность 10-битных бинарных строк. Задачи выбраны потому что на них феномен хорошо демонстрируется.
Поскольку одна из свежих работ про гроккинг (https://arxiv.org/abs/2501.04697) показывала влияние нестабильности софтмакса (Softmax Collapse) на проявление феномена, попробовали несколько альтернатив: стандартный Softmax, кусочнолинейный Stablemax с лучшей стабильностью, и приводящий к разреженным результатам Sparsemax.
Проверяли на классическом трансформере, с identity эмбеддингами (токен “42” маппится в вектор 42), RoPE, RMSNorm, SiLU активации, с дропаутом.
Сравнивали AdamW (β1 = 0.9, β2 = 0.98) и Muon. Делали множественные запуски с разными случайными сидами.
Как результат, у Muon статистически значимо преимущество, он существенно раньше приводит к гроккингу, примерно на 100-й эпохе вместо 150-й. Ещё и распределение grokking times более узкое.
Так что хотите быстрого гроккинга, юзайте мюон!
Авторы немного рассуждают на тему, что именно в мюоне помогает гроккингу. Ограничения спектральных норм и сигналы второго порядка уводят модель в сторону от тупого запоминания и помогают обнаружить настоящий паттерн.
В целом требуется более широкое исследование на более крупных моделях и разнообразных задачах.
Amund Tveit, Bjørn Remseth, Arve Skogvold
Статья: https://arxiv.org/abs/2504.16041
Любопытная история про гроккинг, здесь про влияние оптимизатора и конкретно про то, что переключение оптимизатора с AdamW на Muon существенно ускоряет наступление гроккинга.
Напомним, что гроккинг -- это весьма интересный феномен генерализации, когда модель сначала как бы переобучается (высокое качество на обучающем сете, но низкое на уровне рандома на валидационном), но если продолжать обучение дальше, то в какой-то момент перформанс на валидационном быстро датасете вырастает до высоких значений. Модель “врубается”.
Текущая работа определяет гроккинг следующим образом: это первая эпоха, на которой точность на валидации достигает или превосходит 95%, после того как точность на трейне стабилизировалась около 100%.
Если не читали разбор оригинальной статьи про гроккинг (https://www.tgoop.com/gonzo_ML/831), очень рекомендую.
Вот ведь, было время, когда OpenAI публиковал интересные статьи, и эту, и про double descent, и много всего другого…
Muon (MomentUm Orthogonalized by Newton-Schulz) -- это свежий оптимизатор (https://github.com/KellerJordan/Muon), предназначенный для обучения внутренних слоёв моделей, работает с 2D+ матрицами параметров. Разные векторы и скаляры надо обучать чем-то другим, например, AdamW. Эмпирически нашли также, что и эмбеддинги с классификационными головами лучше обучать не Muon’ом, у них другая динамика оптимизации (по крайней мере у первых).
Алгоритм берёт градиенты из SGD-Nesterov-momentum (можно и без Нестерова, но с ним лучше) и делает их постпроцессинг через итерацию Newton-Schulz, которая приближённо ортогонализует матрицу апдейтов. Больше подробностей есть в описании алгоритма тут: https://kellerjordan.github.io/posts/muon/.
Muon родился осенью прошлого года (https://x.com/kellerjordan0/status/1842300916864844014) и уже показал себя хорошо на скейлинге MoE LLM c 3B/16B параметров (вариант deepseek-v3-small) в обучении на 5.7T токенов, будучи примерно в два раза эффективнее AdamW (https://arxiv.org/abs/2502.16982).
В текущей работе проверили несколько датасетов. Датасет как в оригинальной работе про гроккинг и арифметику по модулю 97, а также датасет про чётность 10-битных бинарных строк. Задачи выбраны потому что на них феномен хорошо демонстрируется.
Поскольку одна из свежих работ про гроккинг (https://arxiv.org/abs/2501.04697) показывала влияние нестабильности софтмакса (Softmax Collapse) на проявление феномена, попробовали несколько альтернатив: стандартный Softmax, кусочнолинейный Stablemax с лучшей стабильностью, и приводящий к разреженным результатам Sparsemax.
Проверяли на классическом трансформере, с identity эмбеддингами (токен “42” маппится в вектор 42), RoPE, RMSNorm, SiLU активации, с дропаутом.
Сравнивали AdamW (β1 = 0.9, β2 = 0.98) и Muon. Делали множественные запуски с разными случайными сидами.
Как результат, у Muon статистически значимо преимущество, он существенно раньше приводит к гроккингу, примерно на 100-й эпохе вместо 150-й. Ещё и распределение grokking times более узкое.
Так что хотите быстрого гроккинга, юзайте мюон!
Авторы немного рассуждают на тему, что именно в мюоне помогает гроккингу. Ограничения спектральных норм и сигналы второго порядка уводят модель в сторону от тупого запоминания и помогают обнаружить настоящий паттерн.
В целом требуется более широкое исследование на более крупных моделях и разнообразных задачах.
👍12❤4🔥4
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡23😁5👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот-вот выпустят Qwen 3 😑
Please open Telegram to view this post
VIEW IN TELEGRAM
🤨7🤷6👍5🤔3🔥2
Они вылупляются
https://huggingface.co/Qwen/Qwen3-4B-FP8
https://huggingface.co/Qwen/Qwen3-1.7B
https://huggingface.co/Qwen/Qwen3-8B
https://huggingface.co/Qwen/Qwen3-30B-A3B
https://huggingface.co/Qwen/Qwen3-32B-FP8
https://huggingface.co/Qwen/Qwen3-32B
https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
https://qwenlm.github.io/blog/qwen3/
https://huggingface.co/Qwen/Qwen3-4B-FP8
https://huggingface.co/Qwen/Qwen3-1.7B
https://huggingface.co/Qwen/Qwen3-8B
https://huggingface.co/Qwen/Qwen3-30B-A3B
https://huggingface.co/Qwen/Qwen3-32B-FP8
https://huggingface.co/Qwen/Qwen3-32B
https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
https://qwenlm.github.io/blog/qwen3/
🤯19👍7❤2
Unsloth отгружает 4бита кванты и GGUFы (для llama.cpp)
Оперативно конечно
https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95
Оперативно конечно
https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95
❤17👍6👏1
Forwarded from Vikhr models
Doom - Первый ризонинг бенчмарк для русского
Открылись для сообщества, статья на хабр и arxiv скоро, мелкие детали доезжают.
Обратите внимание что бенчмарк основан на публичных данных, вероятно все модели в бенчмарке в том или ином виде видели
hf leaderboard
github
Открылись для сообщества, статья на хабр и arxiv скоро, мелкие детали доезжают.
Обратите внимание что бенчмарк основан на публичных данных, вероятно все модели в бенчмарке в том или ином виде видели
hf leaderboard
github
🔥11❤4👍2
Агенты ИИ | AGI_and_RL
Они вылупляются https://huggingface.co/Qwen/Qwen3-4B-FP8 https://huggingface.co/Qwen/Qwen3-1.7B https://huggingface.co/Qwen/Qwen3-8B https://huggingface.co/Qwen/Qwen3-30B-A3B https://huggingface.co/Qwen/Qwen3-32B-FP8 https://huggingface.co/Qwen/Qwen3-32B…
Квены залили 4бит awq квантизации квен 3!
https://huggingface.co/Qwen/Qwen3-32B-AWQ
https://huggingface.co/Qwen/Qwen3-14B-AWQ
ггуфы тоже
https://huggingface.co/Qwen/Qwen3-32B-GGUF
https://huggingface.co/Qwen/Qwen3-14B-GGUF
Можно и дома гонять большие модельки
https://huggingface.co/Qwen/Qwen3-32B-AWQ
https://huggingface.co/Qwen/Qwen3-14B-AWQ
ггуфы тоже
https://huggingface.co/Qwen/Qwen3-32B-GGUF
https://huggingface.co/Qwen/Qwen3-14B-GGUF
Можно и дома гонять большие модельки
huggingface.co
Qwen/Qwen3-32B-AWQ · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍14🔥5❤4
Вышла небольшая но полезная обзорка по интерактивным видеогенерилкам.
Тут ворлд моделс, симуляторы (в том числе вождения), игры, и вот это все
Я давно не следил за темой и понравилась вот эта карта что на скрине
A Survey of Interactive Generative Video
https://arxiv.org/abs/2504.21853
PS все по ИИ собираем в https://www.tgoop.com/researchim
Тут ворлд моделс, симуляторы (в том числе вождения), игры, и вот это все
Я давно не следил за темой и понравилась вот эта карта что на скрине
A Survey of Interactive Generative Video
https://arxiv.org/abs/2504.21853
PS все по ИИ собираем в https://www.tgoop.com/researchim
🔥13❤4👍2
сложил в репчик несколько o3 ресерчей на разные темы
AI в медицине
https://github.com/researchim-ai/state-of-ai/blob/main/Med_AI_research.md
ИИ киберсек
https://github.com/researchim-ai/state-of-ai/blob/main/AI_cybersecurity_research.md
По рагу
https://github.com/researchim-ai/state-of-ai/blob/main/RAG_research.md
и заходите в https://www.tgoop.com/researchim там собираем ИИнфу и проектики делаем
AI в медицине
https://github.com/researchim-ai/state-of-ai/blob/main/Med_AI_research.md
ИИ киберсек
https://github.com/researchim-ai/state-of-ai/blob/main/AI_cybersecurity_research.md
По рагу
https://github.com/researchim-ai/state-of-ai/blob/main/RAG_research.md
и заходите в https://www.tgoop.com/researchim там собираем ИИнфу и проектики делаем
GitHub
state-of-ai/Med_AI_research.md at main · researchim-ai/state-of-ai
По возможности актуальная информация по ИИ + ресерчи от ChatGPT - researchim-ai/state-of-ai
🔥18👍6❤4
HF 🤗 выложили nanoVLM учебный проект по трену и тюну небольших VLMок
https://github.com/huggingface/nanoVLM
https://github.com/huggingface/nanoVLM
🔥27👍7❤4
Forwarded from Love. Death. Transformers.
AI модерацию очень сложно мерить — нужно учитывать разные виды контента, быстро отвечать, не false positiвить. Челы из https://whitecircle.ai озаботились и сделали первый бенчмарк для гардрейлов, а еще измерили на нем все самые популярные LLM, в том числе давая моделям поррасуждать над ответом.
Твиттер
Полистать подробнее в блоге
Твиттер
Полистать подробнее в блоге
🔥15👍6❤2
Ученые из Японии выложили 2 датасета для трена по которым изначально прошлись ллмками Llama-3.3-70B-Instruct
SwallowCode ~ 16 Billion tokens
https://huggingface.co/datasets/tokyotech-llm/swallow-code
(питон из The-Stack-v2 обработанный в 4 стадии - 2 фильтрации и 2 переписывания ллмкой)
SwallowMath ~ 2.3 Billion tokens
https://huggingface.co/datasets/tokyotech-llm/swallow-math
(математика из FineMath-4+)
Потом дотюнили на них Llama-3.1-8B ну и сравнили с другими способами обработки. Все на скринах, переписывание ллмкой докидывает
Rewriting Pre-Training Data Boosts LLM Performance in Math and Code
https://arxiv.org/abs/2505.02881
https://www.alphaxiv.org/ru/overview/2505.02881
PS собираемся и собираем инфу по ии в https://www.tgoop.com/researchim
SwallowCode ~ 16 Billion tokens
https://huggingface.co/datasets/tokyotech-llm/swallow-code
(питон из The-Stack-v2 обработанный в 4 стадии - 2 фильтрации и 2 переписывания ллмкой)
SwallowMath ~ 2.3 Billion tokens
https://huggingface.co/datasets/tokyotech-llm/swallow-math
(математика из FineMath-4+)
Потом дотюнили на них Llama-3.1-8B ну и сравнили с другими способами обработки. Все на скринах, переписывание ллмкой докидывает
Rewriting Pre-Training Data Boosts LLM Performance in Math and Code
https://arxiv.org/abs/2505.02881
https://www.alphaxiv.org/ru/overview/2505.02881
PS собираемся и собираем инфу по ии в https://www.tgoop.com/researchim
🔥12👍7❤5
Хм, там Хуавей выложили статью как тренили свою PanguUltraMoE с 718 миллиардов параметров
Модельку саму не выкладывают
Интересного тут
1. моделька от хуавея
2. тренили они модельку на 6 тысячах хуавеевских чипах Ascend NPU
Много про оптимизации под эти чипы
Моделька по бенчам перформит ~ DeepSeek R1
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs
https://arxiv.org/abs/2505.04519
https://www.alphaxiv.org/ru/overview/2505.04519
Есть вот такой пост про архитектуру Ascend NPU чипов еще 2021 года
https://forum.huawei.com/enterprise/intl/en/thread/what-is-ascend-chips/667245530885013505
Модельку саму не выкладывают
Интересного тут
1. моделька от хуавея
2. тренили они модельку на 6 тысячах хуавеевских чипах Ascend NPU
Много про оптимизации под эти чипы
Моделька по бенчам перформит ~ DeepSeek R1
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs
https://arxiv.org/abs/2505.04519
https://www.alphaxiv.org/ru/overview/2505.04519
Есть вот такой пост про архитектуру Ascend NPU чипов еще 2021 года
https://forum.huawei.com/enterprise/intl/en/thread/what-is-ascend-chips/667245530885013505
👍8❤6👏2