Плюшевый Питон

Perplexity через SFT "расцензурили" DeepSeek-R1 🤡

Рецепт:

1) Классификатор проблемных промптов (мультиязычный!)
2) Создание рассуждений в стиле R1 (неужели вручную писали)
3) Оценка человеками расцензуренности и сравнение с другими LLM
4) Также убедились, что нет сильной просадки на бенчах (но небольшая всё равно есть)

Столько сил, чтобы про ту самую площадь поспрашивать... 🤦‍♂️ Заняться людям нечем

817 views19:17

Плюшевый Питон

Наша команда выпустила хорошую небольшую модельку для русского языка в опенсорс, да ещё и с коммерческой лицензией. Модель можно и локально гонять на консьюмерском железе (есть GGUF). Попробуйте!

655 views09:24

Плюшевый Питон

Forwarded from ML Underhood

YandexGPT 5 Lite Instruct теперь в опенсорсе 🎉

В феврале в открытый доступ вышла Pretrain-версия, а сейчас очередь дошла и до YandexGPT 5 Lite Instruct. Это модель на 8 миллиардов параметров с размером контекстного окна в 32К токенов.

О претрейне мы уже писали вот тут, а алайнмент аналогичен тому, через который проходит YandexGPT 5 Pro. На этапе SFT концентрировались на сложных запросах, а также методах фильтрации и ранжирования данных. В рамках RLHF комбинировали RL-подходы, которые дают лучшие результаты: DPO, LogDPO и PPO. Подробнее об этом читайте на Хабре.

По результатам внутреннего слепого попарного сравнения (side-by-side) новая модель YandexGPT 5 Lite превосходит Qwen-2.5-7B-instruct в 62% случаев и не уступает GPT-4o mini в решении стандартных задач сервисов Яндекса. Показатели бенчмарков можно посмотреть в таблице.

А ещё обновили лицензию: теперь можно использовать модель не только в некоммерческих целях, но и в коммерческих до 10 миллионов выходных токенов в месяц. Если ваши объёмы выше, напишите на почту, указанную в тексте лицензии.

Модель доступна на Hugging Face. Там же есть и квантизованная версия с поддержкой GGUF . YandexGPT 5 Lite Instruct совместима с llama.cpp и Ollama.

ML Underhood

865 views09:24

Плюшевый Питон

Недавно вышел обновлённый DeepSeek-R1. Умельцы с реддита сделали кластеризацию ответов разных моделей (в том числе старого и нового R1) на одни и те промпты. Обнаружилось, что новый дипсик стал гораздо ближе к моделям от Google, чем к моделям от OpenAI, как раньше (картинка). Речь не про качество ответов, а про лексико-стилистические характеристики. Это вычислительный, а не ручной анализ - результат основан на отклонениях частот слов и n-граммов от человеческого бейслайна. 👨‍💻 Чуть подробнее тут.

Что это означает/ Раньше разработчики дипсика больше ориентировались на модели от OpenAI, а сейчас дистиллируют Gemini. Возможно, гугловские модели просто легче/дешевле прокачивать в больших объёмах. А может, их генерации больше соответствуют представлениям о прекрасном китайских инженеров. В любом случае, интересный поворот. 😵

На дендрограмме видно, что и клоды, и мистрали, и лламы образуют довольно устойчивые кластеры. Хотя есть и пара неожиданных сближений (грок и гпт-4.5, гемма3 12б и гпт-3.5). Не знаю, насколько стоит доверять этим результатам, но выглядит красиво. 👍

Please open Telegram to view this post

VIEW IN TELEGRAM

770 views09:52

Плюшевый Питон

Поскольку про работу не могу писать из-за NDA, то пожалуй, буду больше рассказывать о своих пет-проектах, старых и новых 👨‍💻

Начну с самого большого из них – KFW (сокращение от Kung-Fu World), пошаговая текстовая ролевая игра с режимом hot seat. Разрабатывал её несколько лет начиная с 2013 года. Вдохновлялся преимущественно старыми фильмами категории "Б" о китайском кунг-фу, но не мог не добавить кучу отсылок на современную поп-культуру и немного кринжового юмора.

Действие происходит в мифологизированном китайском Фошане. Вы играете за начинающего адепта кунг-фу. Усердно тренируясь и принимая непростые решения на суровых улицах города, который ещё предстоит очистить от преступности, вы улучшаете свои боевые навыки, чтобы защищать слабых от угнетателей, соревноваться с другими адептами и однажды основать собственную школу боевых искусств. 😡

Особенности проекта:

* Можно играть одному или с друзьями (за одним экраном, по очереди, – это и есть hot seat)
* Можно также добавить нескольких ИИ-игроков для пущего веселья. Это не просто NPC, которые есть в игре в любом случае, а именно конкурирующие с вами полноценные игроки
* Много случайно генерируемого контента: десятки тысяч уникальных стилей, приёмов и т.д.
* Упоротая ASCII-”графика” для боевого режима, сам рисовал ❤️
* Стек – чистый Питон, никаких внешних зависимостей для собственно игры (хотя в процессе разработки использовал пару классических ML-библиотек)
* 12 тысяч строк кода (что конечно не много). Вот бы это когда-нибудь отрефакторить…
* ИИ для боёв обучен с помощью собственной реализации генетического алгоритма
* Прогнозирование исхода боя классическим машинным обучением (логистическая регрессия)

Выложил KFW несколько лет назад в репозитории на гитхабе, никогда особо не рекламировал и не продвигал (не люблю и не умею это делать), но вот сегодня решил поделиться, вдруг вам будет интересно🥰

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - AlexeyMalafeev/kfw-the-game: Kung-Fu World - a fun turn-based hot-seat role-playing game

Kung-Fu World - a fun turn-based hot-seat role-playing game - GitHub - AlexeyMalafeev/kfw-the-game: Kung-Fu World - a fun turn-based hot-seat role-playing game

1.4K views15:29

Плюшевый Питон

Поделюсь одной полезной практикой, к которой часто прибегаю. Если вам, как и мне, приходится много читать, то вы наверное замечали, что прочтённое имеет свойство быстро забываться. 😭 Поэтому полезно делать заметки (т.н. "внешняя память"). Но писать заметки руками - долго и лениво. И вот тут здорово помогают LLM-ки - ими можно извлекать ключевые тезисы из текстов и куда-то сохранять для дальнейшего использования. Процесс у меня обычно такой:

1. Читаю текст с Android-девайса
2. Копирую текст и добавляю к нему один из промптов, сохранённых в паттерны автозамены в клавиатуре SwiftKey*
3. Отдаю текст + промпт LLM-ке
4. Отправляю заметку вместе со ссылкой на исходный текст в нужный топик в группу в Телеграме, специально созданную для сохранёнок

* - Т.е. вместо того, чтобы писать весь промпт заново или откуда-то его копировать, набираем короткую последовательность символов, например “sum”, и в подсказках клавиатурного приложения появляется вариант “распаковки” этой последовательности в целый промпт

Отдельные инструменты тут легко заменить на другие, более подходящие лично для вас. Например, кому-то удобнее читать с макбука, тогда вместо SwiftKey для быстрой вставки промптов можно взять, например, Punto Switcher, там есть “Автозамена”. Также и с моделями: для суммаризации на русском и английском лично я предпочитаю Sonnet 3.7, но вы можете использовать свою любимую модель. ❤️

Ещё у меня есть большой набор промптов, которые различаются, например, степенью желаемой детализации. Ниже несколько примеров вместе с шорткатами, забирайте, если понравятся:

“сум” = Выдели ключевые мысли из данного текста в виде буллет-поинтов
“сум3” = Вырази главные мысли (не более трёх) из этого текста в максимально краткой и лаконичной форме
“сум1” = Вырази самую суть этого текста в максимально краткой и лаконичной форме, одним предложением

А вы делаете что-то подобное? Может, как-то ещё применяете LLM-ки в повседневной жизни? Делитесь своими лучшими практиками в комментариях! 👍

Please open Telegram to view this post

VIEW IN TELEGRAM

875 views10:02

Плюшевый Питон

Попросил одну модель поправить мне взгляд на фото (я там смотрел вниз, а надо, чтобы в камеру). Загрузил фотку, дал инструкцию. Вот что она мне выдала

486 views08:56

2025/10/19 18:55:18
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>