AGI_AND_RL Telegram 926
Forwarded from Pavel Zloi
Пару часов назад завершилось долгожданное дообучение o1 модели на GigaChat 20B-A3B, выполнялось оно на одной RTX 4090 с 24Гб VRAM при помощи проекта impruver и конфигурации GigaChat/20B-A3B_lora_o1 на датасете Egor-AI/Russian_thinking_dataset.

Залил полученный LoRA-адаптер на HuggingFace: evilfreelancer/o1_gigachat-20b-a3b_lora

Он оказался на удивление толстеньким, аж цельных 639 мегабайт весит, вероятно это как-то связанно с особенностями MoE архитектуры модели.

На всё про всё потребовалось примерно 117 часов (почти 5 дней), на данный момент понятно, что если бы я выставил eval_steps не 100, а хотя бы 500 или даже 1000 цель бы удалось достигнуть гораздо быстрее, так как 1 eval прогон выполняется на моей 4090 примерно 46 минут, а за 10 с небольшим тысяч шагов тестов eval было всего 102 (то есть примерно 77 часов выполнялась валидация, тут я конечно переборщил, но зато красивый график получился).

Отчёт W&B тут: evilfreelancer/nlec8bt8

Прикладываю предварительные тесты обученной модели в формате gist, из того что видно на первый взгляд модель отвечает строгим и профессиональным языком, однако, из-за особенностей датасета не всегда отвечает корректно, хотя цепочка "рассуждений" каждый раз крайне любопытная.

Для работы модели в режиме инференса необходимо внести правки в файл generate.py, там надо на этапе вызова токенизатора будет добавить return_token_type_ids=False, позже проверю не нарушит ли это работу остальных моделей, обученных через impruver, и если потребуется добавлю операцию ветвления специально для моделей семейства DeepSeek MoE (к коему относится GigaChat).

PS. Чекпоинты GGUF выложу на HF и ollama позже.

PPS. Картинку eval/train loss добавил первым сообщением под постом.



tgoop.com/AGI_and_RL/926
Create:
Last Update:

Пару часов назад завершилось долгожданное дообучение o1 модели на GigaChat 20B-A3B, выполнялось оно на одной RTX 4090 с 24Гб VRAM при помощи проекта impruver и конфигурации GigaChat/20B-A3B_lora_o1 на датасете Egor-AI/Russian_thinking_dataset.

Залил полученный LoRA-адаптер на HuggingFace: evilfreelancer/o1_gigachat-20b-a3b_lora

Он оказался на удивление толстеньким, аж цельных 639 мегабайт весит, вероятно это как-то связанно с особенностями MoE архитектуры модели.

На всё про всё потребовалось примерно 117 часов (почти 5 дней), на данный момент понятно, что если бы я выставил eval_steps не 100, а хотя бы 500 или даже 1000 цель бы удалось достигнуть гораздо быстрее, так как 1 eval прогон выполняется на моей 4090 примерно 46 минут, а за 10 с небольшим тысяч шагов тестов eval было всего 102 (то есть примерно 77 часов выполнялась валидация, тут я конечно переборщил, но зато красивый график получился).

Отчёт W&B тут: evilfreelancer/nlec8bt8

Прикладываю предварительные тесты обученной модели в формате gist, из того что видно на первый взгляд модель отвечает строгим и профессиональным языком, однако, из-за особенностей датасета не всегда отвечает корректно, хотя цепочка "рассуждений" каждый раз крайне любопытная.

Для работы модели в режиме инференса необходимо внести правки в файл generate.py, там надо на этапе вызова токенизатора будет добавить return_token_type_ids=False, позже проверю не нарушит ли это работу остальных моделей, обученных через impruver, и если потребуется добавлю операцию ветвления специально для моделей семейства DeepSeek MoE (к коему относится GigaChat).

PS. Чекпоинты GGUF выложу на HF и ollama позже.

PPS. Картинку eval/train loss добавил первым сообщением под постом.

BY Агенты ИИ | AGI_and_RL




Share with your friend now:
tgoop.com/AGI_and_RL/926

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations.
from us


Telegram Агенты ИИ | AGI_and_RL
FROM American