tgoop.com/def_model_train/939
Last Update:
Another day another model, на этот раз от Mosaic
Почему может быть интересно:
- Выпустили модель MPT-7B-StoryWriter-65k+, с контекстным окном 65k токенов для написания длинных историй (учили на книжках). Кажется самый большой контекст, который есть в опенсорсе сейчас
- Выпустили MPT-7B-Instruct, которая следуюет инструкциям и отвечает в краткой форме. Учили на датасетах Dolly и HH-RLHF от Anthropic
- Last but not least выпустили MPT-7B-Chat, который учили на ShareGPT-Vicuna (это пошернные переписки пользователей с ChatGPT), Alpaca и снова HH-RLHF
Еще из приятного:
- Foundation model MPT-7B (от которой тюнили все остальное) учили на 1T токенов, как и LLaMA
- У всего этого снова божеская лицензия, позволяющая коммерческое использование
- Выложили код для тренировки с FlashAttention
- Поддерживают сервинг из коробки через FasterTransformer (вау!)
hf: https://huggingface.co/mosaicml/mpt-7b
демо для чата: https://huggingface.co/spaces/mosaicml/mpt-7b-chat
BY я обучала одну модель

Share with your friend now:
tgoop.com/def_model_train/939
