Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on null in /var/www/tgoop/function.php on line 65
58 - Telegram Web
Telegram Web
19 ноября в 18:30 у нас выступит команда Vikhr models c докладом:

“Как мы русифицировали языковые модели и пришли к лучшей в классе открытой модели на русском”

Ссылка на видеовстречу: https://telemost.yandex.ru/j/89085873905223
👍21🤡7👎3🤮3
К сожалению произошла техническая накладка и не все смогли зайти. Выкладываем слайды и запись лекции.

Комментарии к посту отключены, старые удалились

YouTube
Slides
👍30💩85🔥4
По arena bench

- хф слегка в очередной раз обновился и лб криво обновился(слетели Гиги, вихри, ruadapt)
- мы откатили на 17d ago версию, последние сабмиты(сайга новая, ruadapt qwen и ещё что то - пересчитываются)
🔥8
Forwarded from MWS AI
🔓 Открываем код: Cotype Nano

Представляем Cotype Nano – открытую большую языковую модель, которая создана для решения бизнес-задач на русском языке. Модель работает локально на персональных устройствах и отлично подходит для разработки чат-ботов и виртуальных помощников.

Что умеет:
🔴Обрабатывать большие объемы данных — до 32,000 токенов (около 45 страниц текста) за раз
🔴Создавать контент и выполнять быстрый и точный перевод между русским и английским языками
🔴Анализировать и классифицировать данные для улучшения клиентского сервиса

Как устроена:
Модель основана на архитектуре трансформера Qwen 2.5, содержит 1,5 млрд параметров и совместима с популярными фреймворками: VLLM, OpenVINO и Hugging Face.

По бенчмаркам Ru Arena Hard Cotype Nano лидирует в своем классе (30.2). Доступна бесплатно, в том числе для коммерческого использования.

Узнать больше и скачать модель можно тут.

💻 Подробные технические характеристики на Хабре.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥10❤‍🔥5🤡31
Мы в Вихрях часто делаем модели в стол или оставляем их на время полежать. Собственно в этот раз ребята из MTSa опередили нас с релизом на несколько дней.

Выложили vikhr-qwen2.5-1.5b.

Для обучения использовали GrandMaster.

По арене чуть чуть хуже чем Cotype.

model
GGUF
👍25❤‍🔥8🔥2💩2🤡2👀1
благодаря автору @plotquot теперь вихри стали ОЧЕНЬ быстрыми для мака

забрать для M серии мака тут
🔥18😁113😱1💔1
Ура, мы преодолели отметку в 1000 подписчиков!
👍5431🎉13🍾7🤡6🔥2🤮2👏1😁1💩1👀1
Два года назад я думал о том как русифицировать модели и что нужно делать LLM на русском с фокусом на английском. Потому что код это английский, да и на английском интернет качественнее. Потом произошел chatgpt moment, saiga(изначально задумывалась как претрен, но мы не вывезли)

А в декабре прошлого года я начал Вихри. Спустя год мы поддерживаем основные модальности, пишем статьи на А* воркшопы(хоть и не без косяков), и строим комьюнити вокруг своих моделей.

Горжусь всеми контрибьюторами кто присоединлся за год, без этого бы не было, вы лучшие!

Рад всем участникам сообщества, безумно благодарен всем кто донатил, писал в личку с благодарностями и рассказывал о наших моделях на лекциях и конференциях.
👍7138🔥20🎄10🥰5🎅2🖕1
Так как нашу статью приняли к публикации мы подготовили препринт версию статьи и выложили ее на arxiv 🎉
https://arxiv.org/abs/2412.21140
https://huggingface.co/papers/2412.21140

Что вы найдете в статье:

1. Полное описание применяемого метода
2. Информацию о проведенных экспериментах над моделями llama-3-8B и mistral-7B-v0.1 и их инструктивными версиями
3. Информацию об исследованных вариантах токенизации (BPE, Unigram, Extended), однако, которые не включают в себя наш последний вариант с токенизацией, который мы применяем для Qwen2.5 моделей.
4. Мат описание LEP и его вариантов, которые мы пробовали, а также эксперименты для выбора наилучшего

Чего в статье нет:
1. Экспериментов с Qwen2.5 моделями

Некоторые краткие хайлайты:
1. Расширение токенизации работает лучше, чем полная замена для модели llama-3 (а значит, скорее всего, и для всех моделей на основе cl100k_base токенайзера, либо же для всех современных мультиязычных моделей), но при этом для модели mistral-7B все не так однозначно, там unigram токенизация сработала отлично.

2. Для того чтобы найти рабочий рецепт требуется огромное количество экспериментов (в статье по сути мы описали только некоторую часть), а значит и быстрая оценка промежуточных моделей. Поэтому для этих целей мы использовали наш некоторый внутренний бенчмарк, который может быть относительно шустро посчитан на месте, без отправки сабмитов куда-либо.

3. По сути, для адаптации хватает и 20GB, а возможно и меньше данных, но это если верить метрикам. Loss же на самом деле падает очень стремительно вначале, а затем уже не так активно.

4. learning rate (а также total batch size) оказались крайне важными для адаптации LLaMa-3-8B (с низким lr модель просто не адаптировалась, метрики росли очень медленно), но не слишком важными для Mistral-7B-v0.1. Единого рецепта тут нет, для каждой модели видимо необходимо подбирать индивидуально.

5. Обычно при адаптации наблюдается небольшая просадка по mmlu_en относительно исходной модели, но ее можно минимизировать, на остальных же задачах в основном наблюдается рост, из-за чего среднее качество либо не падает, либо растет.

6. Таким образом, методология опробована на 1) Mistral-7B-v0.1, 2) LLaMa-3-8B и 3) Моделях Qwen2.5 и во всех случаях поставленная задача по смене токенизации решается без особых потерь знаний относительно исходной модели, а как приятный бонус, растет качество на некоторых русскоязычных бенчмарках и датасетах. Смена же токенизации дает де-факто ускорение генерации русскоязычного текста в символах/словах, по отношению к исходной модели, доводя вычислительную и экономическую эффективность использования на целевом языке до уровня английского.
30👍6🔥5🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Salt

Мы начали собирать эту модель в августе, в конце августа получили первый прототип, а потом стало выходить миллион вариантов вида: а давайте whisper для речи+GAN для генерации аудио, а потом вышел FishAudio который лучше работает, да и в целом хорошая модель.

Мы шли с другого конца, собрали решение поверх lm с расширенным токенайзером, использовали WavTokenizer для токенизации аудио.

Учили около 150 а100 часов для финального экспа, но количество экспов и денег сожженых в этот проект переваливает за то сколько я потратил на оригинальные Вихри.

По итогу получился не трансформер который понимает речь и генерирует речь, а Dalle1 like tts на основе llama3 3b.

Сейчас идут работы по дообучению на музыку/аудио, вероятно проект получит папир и обновление.
Сейчас модель неплохо работает на английском, на русский мы доучиваем модель.


huggingface
collab
А еще мы учимся на ошибках и в этот раз выкладываем весь код для обучения и aulate для подсчета аудио метрик. So, truly open science!!


В релизе участвовали: Ksenya (основной контрибьютор), Костя писал метрики и сапортил инфру, а я ходил пинал чтобы оно все не развалилось и доехало до какого то состояния.
👍41🔥2912❤‍🔥2🦄1
⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer
🔥5814👍8
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .


🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
🔥58😎11👍9👏83
Qwen2.5-7B-Instruct-Tool-Planning-v0.1

Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!

🔗модель
🔗датасет
🔥27🤗13👍8
Спасибо НикитаШ за донат в 2000р!
🫡46😁14👍11🤡1
Yandex gpt5 8b вышла в opensource, в отличие от гигачата это llamalike, те она будет запускаться на любом ведре.

По метрикам сопоставима/бьёт llama3, qwen2.5 7b

Hf
🔥44😁13👍94🤮4👏1🥴1
Forwarded from LLM Arena
This media is not supported in your browser
VIEW IN TELEGRAM
🤯 На Арене появилась YandexGPT Experimental Quattro

Ищем на сайте llmarena.ru или прямо здесь в Telegram и не забываем отдать свой голос — это важно для развития платформы.

UPD: модель оказалась YandexGPT 5 Pro
Please open Telegram to view this post
VIEW IN TELEGRAM
👍132
Vikhr-YandexGPT-5-Lite-8B-it – мощная и универсальная модель, основанная на YandexGPT-5-Lite-8B-pretrain. Отличается высокой качеством генерации и подходит для широкого спектра задач.

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it_GGUF
⚖️ Лицензия: yandexgpt-5-lite-8b-pretrain

👥 Авторы: @LakoMoorDev @nlpwanderer
52👍18🔥4🥰2🤨2💔1🫡1
Что хочется видеть во второй версии arena hard Rus?
Forwarded from ML Underhood
YandexGPT 5 Lite Instruct теперь в опенсорсе 🎉

В феврале в открытый доступ вышла Pretrain-версия, а сейчас очередь дошла и до YandexGPT 5 Lite Instruct. Это модель на 8 миллиардов параметров с размером контекстного окна в 32К токенов.

О претрейне мы уже писали вот тут, а алайнмент аналогичен тому, через который проходит YandexGPT 5 Pro. На этапе SFT концентрировались на сложных запросах, а также методах фильтрации и ранжирования данных. В рамках RLHF комбинировали RL-подходы, которые дают лучшие результаты: DPO, LogDPO и PPO. Подробнее об этом читайте на Хабре.

По результатам внутреннего слепого попарного сравнения (side-by-side) новая модель YandexGPT 5 Lite превосходит Qwen-2.5-7B-instruct в 62% случаев и не уступает GPT-4o mini в решении стандартных задач сервисов Яндекса. Показатели бенчмарков можно посмотреть в таблице.

А ещё обновили лицензию: теперь можно использовать модель не только в некоммерческих целях, но и в коммерческих до 10 миллионов выходных токенов в месяц. Если ваши объёмы выше, напишите на почту, указанную в тексте лицензии.

Модель доступна на Hugging Face. Там же есть и квантизованная версия с поддержкой GGUF. YandexGPT 5 Lite Instruct совместима с llama.cpp и Ollama.

ML Underhood
👍26🔥83👏2
2025/12/07 00:57:03
Back to Top
HTML Embed Code: