я обучала одну модель@def_model

я обучала одну модель

Another day another model, на этот раз от Mosaic

Почему может быть интересно:
- Выпустили модель MPT-7B-StoryWriter-65k+, с контекстным окном 65k токенов для написания длинных историй (учили на книжках). Кажется самый большой контекст, который есть в опенсорсе сейчас
- Выпустили MPT-7B-Instruct, которая следуюет инструкциям и отвечает в краткой форме. Учили на датасетах Dolly и HH-RLHF от Anthropic
- Last but not least выпустили MPT-7B-Chat, который учили на ShareGPT-Vicuna (это пошернные переписки пользователей с ChatGPT), Alpaca и снова HH-RLHF

Еще из приятного:
- Foundation model MPT-7B (от которой тюнили все остальное) учили на 1T токенов, как и LLaMA
- У всего этого снова божеская лицензия, позволяющая коммерческое использование
- Выложили код для тренировки с FlashAttention
- Поддерживают сервинг из коробки через FasterTransformer (вау!)

hf: https://huggingface.co/mosaicml/mpt-7b
демо для чата: https://huggingface.co/spaces/mosaicml/mpt-7b-chat

👍17🔥3

www.tgoop.com/def_model_train/939

3.13K viewsedited May 5, 2023 at 16:34

tgoop.com/def_model_train/939

Create: 2023-05-05
Last Update: 2025-12-10 13:31:09

BY я обучала одну модель

Share with your friend now:
tgoop.com/def_model_train/939

Telegram News

Another day another model