🔥Сегодня вышла моя первая статья на Хабр, как мы в Tochka AI сделали новые, улучшенные русскоязычные трансформеры с длинным контекстом.
Если кратко: в основе метода внедрение Rotary Embeddings в архитектуру и дистиляция (клонирование оригинальных моделей). Всего мы выпустили 4 разных модели для разных задач (sentence и word embeddings) и размеров контекста (до 2к токенов).
В итоге мы добились топ 1 по скору S+W на бенчмарке encodechka. И кроме того, мы внедрили FlashAttention из Pytorch и ускороили инференс и тренировку в несколько раз!
Веса всех моделей, их код и инструкции по запуску доступны в нашем аккаунте на HuggingFace 🤗
🔥Сегодня вышла моя первая статья на Хабр, как мы в Tochka AI сделали новые, улучшенные русскоязычные трансформеры с длинным контекстом.
Если кратко: в основе метода внедрение Rotary Embeddings в архитектуру и дистиляция (клонирование оригинальных моделей). Всего мы выпустили 4 разных модели для разных задач (sentence и word embeddings) и размеров контекста (до 2к токенов).
В итоге мы добились топ 1 по скору S+W на бенчмарке encodechka. И кроме того, мы внедрили FlashAttention из Pytorch и ускороили инференс и тренировку в несколько раз!
Веса всех моделей, их код и инструкции по запуску доступны в нашем аккаунте на HuggingFace 🤗
How to Create a Private or Public Channel on Telegram? The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. 6How to manage your Telegram channel? Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree."
from us