Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Власти КНДР объявили о реформе системы образования, в рамках которой в ведущих университетах страны создаются новые специальности, связанные с искусственным интеллектом. Согласно официальной партийной газете «Нодон синмун», это нужно для подготовки талантов, необходимых для «требований времени».
Этот шаг подтверждает давний интерес страны к передовым технологиям. Исследовательский институт ИИ при Университете имени Ким Ир Сена уже заявил о цели «использовать технологию GPT для замены умственного труда человека». Ранее сообщалось об использовании в институте американского ChatGPT, а научные издания страны посвящали спецвыпуски этой технологии. Аналитики полагают, что Пхеньян намерен применять ИИ не только для технологического развития, но и для укрепления государственного контроля и в разведывательной деятельности.
Lianhe Zaobao
OpenAI готовится в течение нескольких недель запустить собственный веб-браузер с глубокой интеграцией искусственного интеллекта. Новый продукт будет построен на Chromium, но предложит уникальные функции: встроенное окно для общения в стиле ChatGPT и поддержку ИИ-агентов. Эти агенты смогут автономно выполнять задачи пользователей, от бронирования отелей до заполнения онлайн-форм.
Ключевая идея состоит в удержании пользователя внутри интерфейса браузера, а не перенаправлять на внешние сайты. как это происходит сейчаc в ChatGPT. Если OpenAI удастся привлечь хотя бы часть из 500 миллионов еженедельных пользователей ChatGPT, это может серьезно пошатнуть рекламную бизнес-модель Google, которая во многом опирается на данные, собираемые через Chrome.
reuters.com
Модель генерации изображений в стиле аниме основана на Stable Diffusion 1.5, генерирует в разрешении до 1024x1024 пикселей и использует предпоследний слой энкодера CLIP.
Diffusion Anime V2 распространяется под двойной лицензией, которая допускает только некоммерческое использование с обязательным указанием авторства. NovelAI напоминает, что V2 является устаревшей версией, а все новые модели остаются проприетарными и эксклюзивными для их веб-сервиса. Веса Diffusion Anime V2 доступны на Hugging Face.
blog.novelai.net
С 15 июля YouTube вводит более строгие правила для своей партнерской программы, нацеленные на борьбу с массово создаваемыми и повторяющимися видео. Это ответ сервиса на рост генеративных ИИ-инструментов, которые значительно упрощают производство подобного контента.
Хотя представители платформы называют это «незначительным обновлением» и утверждают, что такой контент и раньше не подлежал монетизации, новые правила вносят больше ясности. Ужесточение рассматривается как превентивная мера для защиты YouTube от наплыва низкокачественных видео, способных нанести ущерб репутации и ценности платформы.
techcrunch.com
Google начала развертывание своего ИИ-ассистента Gemini на умных часах, заменяя Google Assistant на носимых устройствах. Обновление уже доступно для Pixel Watch и в ближайшие недели появится на моделях от Samsung, OPPO, OnePlus, Xiaomi и других производителей под управлением Wear OS 4 или новее.
Новый ассистент на часах поддерживает текстовые, голосовые и графические запросы. Активировать Gemini можно привычной командой «Hey Google» или долгим нажатием боковой кнопки. Благодаря глубокой интеграции с сервисами Google, пользователи смогут выполнять многошаговые команды прямо с запястья: просить создать плейлист в YouTube Music или кратко изложить содержание последних писем в Gmail.
Вместе с этим, компания улучшила функцию визуального поиска Circle to Search, добавив в нее специальный "AI Mode" для получения контекстной информации. Улучшение доступно пока только для США и Индии на Android и iOS.
9to5google.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥2🥰2
Модель Phi-4-mini-flash-reasoning — это часть семейства Phi‑4 от Microsoft. Она специально создана для глубокого математического мышления, при этом остаётся лёгкой, быстрой и экономной по ресурсам.
🔍 Что делает её особенной
- Модель на 3.8B параметров, но приближается по качеству к 7B–8B аналогам.
- Контекст до 64K токенов — идеально для задач с длинной цепочкой логики.
- Оптимизирована под математику: подходит для доказательств, символьных вычислений, задач с несколькими шагами и сложных текстовых задач.
🚀 Достижения:
| Модель | AIME24 | AIME25 | Math500 | GPQA |
|----------------------------------|--------|--------|---------|------|
| Phi-4-mini-**Flash**-Reasoning | **52.29** | **33.59** | **92.45** | **45.08** |
| Phi-4-mini-Reasoning | 48.13 | 31.77 | 91.20 | 44.51 |
| DeepSeek-R1-Qwen-1.5B | 29.58 | 20.78 | 84.50 | 37.69 |
| DeepSeek-R1-LLaMA-8B | 43.96 | 27.34 | 87.48 | 45.83 |
| Bespoke-Stratos-7B | 21.51 | 18.28 | 80.73 | 38.51 |
📈 *Модель превосходит другие по точности, несмотря на компактный размер.*
⚙️ Производительность
- Модель построена на гибридной архитектуре decoder + SSM, что даёт:
- модель способна генерировать длинные ответы примерно в 10 раз быстрее, чем её базовая версия
- почти линейный рост задержки (в отличие от квадратичного у обычных моделей)
- Тестировалась на A100-80GB, без tensor parallelism.
📌 *Идеальна для мобильных устройств и приложений с ограниченными ресурсами.*
⚠️ На что стоит обратить внимание
- Оптимизирована только под математическое мышление, не предназначена для общего NLP.
- Из-за размера ограничена в фактических знаниях — желательно использовать с поиском или RAG.
Phi-4-mini-flash-reasoning — это пример того, как небольшая модель может быть очень умной, если её правильно обучить и оптимизировать под конкретные задачи.
📌 Модель: https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning
Подпишись: @machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍5🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Эндрю Ын (Andrew Ng) считает, что шумиха вокруг AGI (искусственного общего интеллекта) сильно преувеличена — люди ещё долго будут играть важную роль.
💡 Главное — не создавать ИИ с нуля, а уметь заставить компьютер делать то, что нужно именно вам с его помощью.
🧰 Не обязательно самому разрабатывать инструменты — достаточно научиться ими пользоваться.
📈 В будущем те, кто умеет работать с ИИ, будут гораздо сильнее и эффективнее тех, кто не умеет.
💡 Главное — не создавать ИИ с нуля, а уметь заставить компьютер делать то, что нужно именно вам с его помощью.
🧰 Не обязательно самому разрабатывать инструменты — достаточно научиться ими пользоваться.
📈 В будущем те, кто умеет работать с ИИ, будут гораздо сильнее и эффективнее тех, кто не умеет.
❤24👍7🔥2
E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы
Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥
🗓 Регистрация: https://cnrlink.com/ecup25mlinterview
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.
Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.
Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде.
1️⃣ Рекомендации: предсказание следующей покупки пользователя
2️⃣ Логистика: автопланирование курьеров
3️⃣ Контроль качества: автоматическое выявление поддельных товаров
Регистрация на платформе Codenrock: https://cnrlink.com/ecup25mlinterview
Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥
Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.
Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде.
Регистрация на платформе Codenrock: https://cnrlink.com/ecup25mlinterview
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1
📄 Хотите, чтобы резюме работало на вас? Teal — нейросеть, которая поможет выделиться даже на фоне кандидатов уровня FAANG
Что делает Teal:
• Подгоняет резюме под вакансии — анализирует описание должностей и ключевые слова, чтобы предложить точные и релевантные формулировки.
• Готовит к интервью — на основе анализа вакансии предлагает вопросы и советы, как подать себя максимально убедительно.
• Удобный интерфейс — онлайн-конструктор с шаблонами + возможность импортировать профиль из LinkedIn.
Если вы хотите, чтобы ваше резюме действительно заметили — начните с правильного инструмента.
http://tealhq.com/
@machinelearning_interview
Что делает Teal:
• Подгоняет резюме под вакансии — анализирует описание должностей и ключевые слова, чтобы предложить точные и релевантные формулировки.
• Готовит к интервью — на основе анализа вакансии предлагает вопросы и советы, как подать себя максимально убедительно.
• Удобный интерфейс — онлайн-конструктор с шаблонами + возможность импортировать профиль из LinkedIn.
Если вы хотите, чтобы ваше резюме действительно заметили — начните с правильного инструмента.
http://tealhq.com/
@machinelearning_interview
👍9🔥4❤3
Кто создает будущее: исследователи или бизнес?
Дискуссия с экспертами в области искусственного интеллекта:
🔶 Иван Оселедец, генеральный директор института AIRI
🔶 Андрей Рыбинцев, старший директор по ИИ в Авито
Модератор: Анастасия Мануйлова, обозреватель «Коммерсантъ» — эксперт в сфере социально-экономических трансформаций общества.
📅 17 июля, 19:00
📍 офис Авито в Москве и онлайн
➡️ заявка на участие по ссылке
Авито приглашает студентов и исследователей на дискуссию о развитии карьеры и выборе пути в сфере ИИ. А после паблик-тока — на неформальный вечер с экспертами, где участники смогут задать вопросы и наладить полезные контакты.
Эксперты обсудят:
- Что дает наука бизнесу и может ли современный технологический сектор развиваться без фундаментальных исследований?
- Как происходит трансфер технологий в области ИИ из науки в коммерческий сектор и обратно?
- Как начинающему специалисту выбрать между академической карьерой и работой в бизнесе?
- Какие возможности открываются для молодых специалистов от сотрудничества науки и бизнеса?
Приглашаем для полезного нетворкинга, новых знакомств и возможности получить ответы на ваши вопросы напрямую от экспертов рынка!
Подать заявку на участие можно по ссылке – места ограничены, участники будут подтверждены исходя из темы дискуссии. Для подтверждения придет приглашение на почту. А все желающие смогут следить за трансляцией онлайн.
Дискуссия с экспертами в области искусственного интеллекта:
🔶 Иван Оселедец, генеральный директор института AIRI
🔶 Андрей Рыбинцев, старший директор по ИИ в Авито
Модератор: Анастасия Мануйлова, обозреватель «Коммерсантъ» — эксперт в сфере социально-экономических трансформаций общества.
📅 17 июля, 19:00
📍 офис Авито в Москве и онлайн
➡️ заявка на участие по ссылке
Авито приглашает студентов и исследователей на дискуссию о развитии карьеры и выборе пути в сфере ИИ. А после паблик-тока — на неформальный вечер с экспертами, где участники смогут задать вопросы и наладить полезные контакты.
Эксперты обсудят:
- Что дает наука бизнесу и может ли современный технологический сектор развиваться без фундаментальных исследований?
- Как происходит трансфер технологий в области ИИ из науки в коммерческий сектор и обратно?
- Как начинающему специалисту выбрать между академической карьерой и работой в бизнесе?
- Какие возможности открываются для молодых специалистов от сотрудничества науки и бизнеса?
Приглашаем для полезного нетворкинга, новых знакомств и возможности получить ответы на ваши вопросы напрямую от экспертов рынка!
Подать заявку на участие можно по ссылке – места ограничены, участники будут подтверждены исходя из темы дискуссии. Для подтверждения придет приглашение на почту. А все желающие смогут следить за трансляцией онлайн.
🔥6❤3🥰2
🔥 Awesome Tensor Compilers — энциклопедия компиляторов для тензорных вычислений. Этот репозиторий представляет собой сборник различных проектов для разработчиков, работающих с оптимизацией ML-моделей. Здесь собраны ключевые инструменты вроде TVM, MLIR и Triton, а также сотни исследований по автоматической оптимизации тензорных операций на CPU, GPU и специализированных ускорителях.
Помимо готовых компиляторов, в репозитории есть разделы с научными работами по cost-моделям, автоматическому планированию вычислений и методам верификации. Каждый проект или статья сопровождается ссылками.
🤖 GitHub
@machinelearning_interview
Помимо готовых компиляторов, в репозитории есть разделы с научными работами по cost-моделям, автоматическому планированию вычислений и методам верификации. Каждый проект или статья сопровождается ссылками.
🤖 GitHub
@machinelearning_interview
❤13
🍏 Apple всерьёз задумалась о покупке Mistral — Bloomberg / Марк Гурман
По информации Bloomberg, Apple серьёзно рассматривает покупку французского стартапа Mistral AI, чтобы наконец войти в ИИ-гонку.
Это очень поздний шаг — но он показывает, насколько сильно Apple отстала от OpenAI, Google и даже xAI.
Пока другие выкатывают публичные LLM, мультимодальные ассистенты и интеграции в поиске, Apple остаётся в роли наблюдателя.
📌 Почему это важно:
- Mistral — один из главных open-source игроков на рынке ИИ (выпускают мощные LLM и Mixture of Experts-модели)
- У Apple пока нет ни собственной модели, ни сильной стратегии в области ИИ
- Приобретение Mistral может стать экстренной попыткой догнать конкурентов
Если сделка состоится — это будет крупнейший AI-манёвр Apple за всё время.
#Apple #Mistral #AI #LLM #ГонкаИИ
@machinelearning_interview
По информации Bloomberg, Apple серьёзно рассматривает покупку французского стартапа Mistral AI, чтобы наконец войти в ИИ-гонку.
Это очень поздний шаг — но он показывает, насколько сильно Apple отстала от OpenAI, Google и даже xAI.
Пока другие выкатывают публичные LLM, мультимодальные ассистенты и интеграции в поиске, Apple остаётся в роли наблюдателя.
📌 Почему это важно:
- Mistral — один из главных open-source игроков на рынке ИИ (выпускают мощные LLM и Mixture of Experts-модели)
- У Apple пока нет ни собственной модели, ни сильной стратегии в области ИИ
- Приобретение Mistral может стать экстренной попыткой догнать конкурентов
Если сделка состоится — это будет крупнейший AI-манёвр Apple за всё время.
#Apple #Mistral #AI #LLM #ГонкаИИ
@machinelearning_interview
❤6👍3🔥2
🚀 15 AI‑инструментов, которые стоит взять на вооружение
Подборка популярных инструментов, которые уже сегодня помогают создавать, автоматизировать и масштабировать работу быстрее в разы:
🎬 Работа с видео
1. Runway.ml — генерация видео по тексту
2. Veed.io — монтаж, субтитры, озвучка онлайн
3. Invideo.io — создание роликов за минуты
🧠 Помощь в мышлении и генерации
4. ChatGPT.com — ассистент для ресёрча, генерации и правок
5. Grok.com — AI-помощник с быстрым доступом к знаниям
6. Deepseek.ai — генерация и анализ текста
7. Claude.ai — диалоговый ассистент от Anthropic
8. Perplexity.ai — умный поисковик с цитируемыми источниками
💻 Код, задачи и коммуникации
9. Cursor.com — AI-помощник для программиста
10. Notion.com — организация, заметки, задачи с AI-поддержкой
11. HubSpot.com — маркетинг, автоматизация и CRM
12. Canva.com — графика, презентации, визуал для соцсетей
13. Figma.com — интерфейсы, прототипы, совместная работа
🎨 Творчество
14. Midjourney.com — генерация изображений по промптам
15. RecCloud.com — быстрые AI-клипы и нарезки видео
#AI #FutureOfWork #Productivity #AItools #Automation
@machinelearning_interview
Подборка популярных инструментов, которые уже сегодня помогают создавать, автоматизировать и масштабировать работу быстрее в разы:
🎬 Работа с видео
1. Runway.ml — генерация видео по тексту
2. Veed.io — монтаж, субтитры, озвучка онлайн
3. Invideo.io — создание роликов за минуты
🧠 Помощь в мышлении и генерации
4. ChatGPT.com — ассистент для ресёрча, генерации и правок
5. Grok.com — AI-помощник с быстрым доступом к знаниям
6. Deepseek.ai — генерация и анализ текста
7. Claude.ai — диалоговый ассистент от Anthropic
8. Perplexity.ai — умный поисковик с цитируемыми источниками
💻 Код, задачи и коммуникации
9. Cursor.com — AI-помощник для программиста
10. Notion.com — организация, заметки, задачи с AI-поддержкой
11. HubSpot.com — маркетинг, автоматизация и CRM
12. Canva.com — графика, презентации, визуал для соцсетей
13. Figma.com — интерфейсы, прототипы, совместная работа
🎨 Творчество
14. Midjourney.com — генерация изображений по промптам
15. RecCloud.com — быстрые AI-клипы и нарезки видео
#AI #FutureOfWork #Productivity #AItools #Automation
@machinelearning_interview
🥱8👍4❤3🔥2
🔧 Дифференцируемое программирование для оптимизации рабочих процессов LLM — эффективно
В работе рассматривается, как встроить обучаемые маршрутизаторы (router'ы) прямо в цепочки вызовов LLM-агента. Вместо ручной маршрутизации по инструментам — пусть агент сам решает, какой инструмент и когда использовать — благодаря дифференцируемому программированию.
Особенности:
▪ Используются локальные learnable-router’ы, реализованные через PyTorch и DSPy
▪ Работают как дифференцируемые майнеры — выбирают наиболее подходящий инструмент
▪ Экономят токены и снижают затраты благодаря оптимальной маршрутизации
▪ Структурируют agent’ские workflow так, чтобы не перегружать LLM лишними данными
Почему это важно:
– Меньше токенов → короче запросы → ниже стоимость и быстрее ответы
– Меньше статики — маршруты адаптивные и обучаемые
– Больше контроля — можно быстро донастраивать выбор инструментов
Кому это нужно:
– Разработчикам LLM-агентов, которые хотят сделать авто-подбор инструментов
– Интеграторам, стремящимся оптимизировать цепочки вызовов для экономии ресурсов
– Исследователям DSP и PyTorch, работающим над LLM-архитектурами
💡 Итог:
Добавление дифференцируемых роутеров — простой шаг, который даёт эффективную автоматическую маршрутизацию инструментов. Это ускоряет, оптимизирует и делает work‑flow умнее.
📌 Читать полностью
В работе рассматривается, как встроить обучаемые маршрутизаторы (router'ы) прямо в цепочки вызовов LLM-агента. Вместо ручной маршрутизации по инструментам — пусть агент сам решает, какой инструмент и когда использовать — благодаря дифференцируемому программированию.
Особенности:
▪ Используются локальные learnable-router’ы, реализованные через PyTorch и DSPy
▪ Работают как дифференцируемые майнеры — выбирают наиболее подходящий инструмент
▪ Экономят токены и снижают затраты благодаря оптимальной маршрутизации
▪ Структурируют agent’ские workflow так, чтобы не перегружать LLM лишними данными
Почему это важно:
– Меньше токенов → короче запросы → ниже стоимость и быстрее ответы
– Меньше статики — маршруты адаптивные и обучаемые
– Больше контроля — можно быстро донастраивать выбор инструментов
Кому это нужно:
– Разработчикам LLM-агентов, которые хотят сделать авто-подбор инструментов
– Интеграторам, стремящимся оптимизировать цепочки вызовов для экономии ресурсов
– Исследователям DSP и PyTorch, работающим над LLM-архитектурами
💡 Итог:
Добавление дифференцируемых роутеров — простой шаг, который даёт эффективную автоматическую маршрутизацию инструментов. Это ускоряет, оптимизирует и делает work‑flow умнее.
📌 Читать полностью
👍8❤3🔥2
В эпоху бума нейросетей неудивительно, что Data Science и ML — среди самых высокооплачиваемых профессий в ИТ (по данным «Хабр»).
Освоить перспективное направление можно в онлайн-магистратуре «Прикладной анализ данных и машинное обучение» от МИФИ и Skillfactory. Это привычная магистратура, но учиться вы будете онлайн в удобное время.
За два года получите фундаментальные знания с фокусом на практику от преподавателей вуза и экспертов из крупных компаний. Освоите Data Science и Machine Learning с нуля до продвинутого уровня. Выберете направление — ML или MLOps. В финале получите диплом гособразца МИФИ.
При этом сохраняются все студенческие льготы, включая отсрочку от армии. А с господдержкой обучение может стоит от 198 р/месяц. Чтобы поступить, нужен диплом о высшем образовании или студенческий билет последних курсов вуза.
Подавайте заявку до 25 июля и получите бесплатно доступ к курсу на выбор стоимостью до 300 000 рублей, а также к курсу по математике для подготовки к вступительным испытаниям.
Реклама. ООО "СКИЛФЭКТОРИ". ИНН 9702009530. erid: 2W5zFG8ALYQ
Освоить перспективное направление можно в онлайн-магистратуре «Прикладной анализ данных и машинное обучение» от МИФИ и Skillfactory. Это привычная магистратура, но учиться вы будете онлайн в удобное время.
За два года получите фундаментальные знания с фокусом на практику от преподавателей вуза и экспертов из крупных компаний. Освоите Data Science и Machine Learning с нуля до продвинутого уровня. Выберете направление — ML или MLOps. В финале получите диплом гособразца МИФИ.
При этом сохраняются все студенческие льготы, включая отсрочку от армии. А с господдержкой обучение может стоит от 198 р/месяц. Чтобы поступить, нужен диплом о высшем образовании или студенческий билет последних курсов вуза.
Подавайте заявку до 25 июля и получите бесплатно доступ к курсу на выбор стоимостью до 300 000 рублей, а также к курсу по математике для подготовки к вступительным испытаниям.
Реклама. ООО "СКИЛФЭКТОРИ". ИНН 9702009530. erid: 2W5zFG8ALYQ
❤2
🔮 Awesome Quantum Machine Learning — исчерпывающая коллекция ресурсов по квантовому машинному обучению, собранная энтузиастами со всего мира. Этот проект объединяет всё: от базовых принципов квантовой механики до сложных алгоритмов вроде квантового метода опорных векторов и квантовых нейросетей.
В репозитории также представлены разделы с практическими реализациями — исходные коды алгоритмов, инструменты вроде Qiskit и Cirq, а также свежие исследования в области квантового компьютерного зрения. Для новичков есть объяснения на пальцах: чем кубит отличается от бита и как работает квантовая запутанность.
🤖 GitHub
@machinelearning_interview
В репозитории также представлены разделы с практическими реализациями — исходные коды алгоритмов, инструменты вроде Qiskit и Cirq, а также свежие исследования в области квантового компьютерного зрения. Для новичков есть объяснения на пальцах: чем кубит отличается от бита и как работает квантовая запутанность.
🤖 GitHub
@machinelearning_interview
👍12❤5🔥4👀3🐳1👨💻1
🧠 Андрей Карпаты выпустил интересный пост о масштабировании RL.
Все говорят о масштабировании RL — и не зря. Но ощущение, что это только часть большой картины.
Вчера обсуждали с другом: Reinforcement Learning даёт более масштабируемую обратную связь, чем SFT, и это действительно мощный рычаг. Вместо явных меток — просто: "получилось хорошо → усилим действия", "плохо → ослабим". Но...
🔸 Проблема №1 — асимптотика
Как только задача выходит за пределы секунд и становится минутами/часами взаимодействий, RL сводится к тому, что ты делаешь тонну действий, чтобы в конце получить одну скалярную метку — и по ней обновить весь градиент? Это кажется неэффективным.
🔸 Проблема №2 — не по-человечески
Мы (люди) улучшаемся не только по результату "успех/провал". Мы рефлексируем:
- Что сработало?
- Что нет?
- Что стоит попробовать в следующий раз?
Этот "урок" мы потом либо держим в голове, либо записываем. Он становится частью интуиции или инструкции. В языке это называют *second nature*.
И таких механизмов в обучении ИИ пока нет.
🔍 Пример алгоритма:
1. Несколько rollout'ов
2. Все примеры + награды → в один контекст
3. Промпт на рефлексию: *"Что сработало? Что улучшить?"*
4. Сгенерированная строка → системный промпт или база "уроков"
Это и есть lesson-инъекция. Например, в Claude было явно прописано:
> "Если тебя просят посчитать буквы — раздели по запятым и считай по одному"
Это патч-урок, не выученный, а вручную внедрённый. Вопрос: как заставить агента учить такие уроки сам? И — как потом их дистиллировать, чтобы не раздувать контекст?
🧭 TLDR:
- RL будет давать приросты — оно более “горькое”, но и более leverage‑friendly, чем SFT
- Но это не вся история
- Реальные "S-кривые" могут скрываться в новых парадигмах обучения, которые специфичны для LLM и не похожи на Atari или роботов
- Возможно, "рефлексия → урок → встроенная привычка" — это один из недостающих слоёв в современных системах
#AI #RL #LLM #agenticlearning #meta #reinforcementlearning
@machinelearning_interview
Все говорят о масштабировании RL — и не зря. Но ощущение, что это только часть большой картины.
Вчера обсуждали с другом: Reinforcement Learning даёт более масштабируемую обратную связь, чем SFT, и это действительно мощный рычаг. Вместо явных меток — просто: "получилось хорошо → усилим действия", "плохо → ослабим". Но...
🔸 Проблема №1 — асимптотика
Как только задача выходит за пределы секунд и становится минутами/часами взаимодействий, RL сводится к тому, что ты делаешь тонну действий, чтобы в конце получить одну скалярную метку — и по ней обновить весь градиент? Это кажется неэффективным.
🔸 Проблема №2 — не по-человечески
Мы (люди) улучшаемся не только по результату "успех/провал". Мы рефлексируем:
- Что сработало?
- Что нет?
- Что стоит попробовать в следующий раз?
Этот "урок" мы потом либо держим в голове, либо записываем. Он становится частью интуиции или инструкции. В языке это называют *second nature*.
И таких механизмов в обучении ИИ пока нет.
🔍 Пример алгоритма:
1. Несколько rollout'ов
2. Все примеры + награды → в один контекст
3. Промпт на рефлексию: *"Что сработало? Что улучшить?"*
4. Сгенерированная строка → системный промпт или база "уроков"
Это и есть lesson-инъекция. Например, в Claude было явно прописано:
> "Если тебя просят посчитать буквы — раздели по запятым и считай по одному"
Это патч-урок, не выученный, а вручную внедрённый. Вопрос: как заставить агента учить такие уроки сам? И — как потом их дистиллировать, чтобы не раздувать контекст?
🧭 TLDR:
- RL будет давать приросты — оно более “горькое”, но и более leverage‑friendly, чем SFT
- Но это не вся история
- Реальные "S-кривые" могут скрываться в новых парадигмах обучения, которые специфичны для LLM и не похожи на Atari или роботов
- Возможно, "рефлексия → урок → встроенная привычка" — это один из недостающих слоёв в современных системах
#AI #RL #LLM #agenticlearning #meta #reinforcementlearning
@machinelearning_interview
👍12❤6🔥4🍓1🤪1
🎁 РАЗЫГРЫВАЕМ MacBook Air!
Разыгрываем шикарный 13-дюймовый MacBook Air! Отличная рабочая машинка!
Условия участия максимально простые:
🔸Подписаться на телеграм-канал: @machinelearning_interview
🔸Подписаться на телеграм-канал: @ai_machinelearning_big_data
🔸Нажать кнопку "Участвовать" ниже.
ВСЁ! Вы участник! Бот выберет одного человека, которому мы подарим этот MacBook. Доставка по зоне СДЭК.
Итоги подведём 14 августа.
Всем удачи! Пусть победит самый приятный человек!
⚠️ Если бот подвис — не беспокойтесь, вас все равно зарегистрирует, просто выполните условия и нажмите «Участвую».
Разыгрываем шикарный 13-дюймовый MacBook Air! Отличная рабочая машинка!
Условия участия максимально простые:
🔸Подписаться на телеграм-канал: @machinelearning_interview
🔸Подписаться на телеграм-канал: @ai_machinelearning_big_data
🔸Нажать кнопку "Участвовать" ниже.
ВСЁ! Вы участник! Бот выберет одного человека, которому мы подарим этот MacBook. Доставка по зоне СДЭК.
Итоги подведём 14 августа.
Всем удачи! Пусть победит самый приятный человек!
⚠️ Если бот подвис — не беспокойтесь, вас все равно зарегистрирует, просто выполните условия и нажмите «Участвую».
❤75👍48🔥29🍓5
🎓 Новые лекции от UCLA: *Reinforcement Learning of Large Language Models* (весна 2025)
Свежий курс, полностью посвящённый обучению LLM с помощью RL. Отличный ресурс для тех, кто хочет разобраться не только в RLHF, но и в новых направлениях, которые появляются на стыке обучения с подкреплением и больших языковых моделей.
📚 Что в курсе:
– Базовые принципы RL применительно к LLM
– RLHF (reinforcement learning from human feedback)
– RL с верифицируемыми наградами (RLVR)
– RL на этапе inference: оптимизация в момент выполнения
– Архитектуры, policy shaping, reward modeling и др.
Это не просто обзор — это системная попытка осмыслить будущее RL для LLM, где важно не только fine-tuning, но и работа с обратной связью в режиме реального времени, доверие к награде и оптимизация вычислений.
🧠 Полезно всем, кто:
– интересуется агентами и автономными системами
– работает над LLM‑продуктами
– хочет выйти за пределы SFT и попробовать более «горькие» методы обучения
#LLM #RLHF #RLVR #AIeducation #ReinforcementLearning #UCLA
🔜 Youtube: https://youtube.com/playlist?list=PLir0BWtR5vRp5dqaouyMU-oTSzaU5LK9r
🔜 Курс: https://ernestryu.com/courses/RL-LLM.html
Свежий курс, полностью посвящённый обучению LLM с помощью RL. Отличный ресурс для тех, кто хочет разобраться не только в RLHF, но и в новых направлениях, которые появляются на стыке обучения с подкреплением и больших языковых моделей.
📚 Что в курсе:
– Базовые принципы RL применительно к LLM
– RLHF (reinforcement learning from human feedback)
– RL с верифицируемыми наградами (RLVR)
– RL на этапе inference: оптимизация в момент выполнения
– Архитектуры, policy shaping, reward modeling и др.
Это не просто обзор — это системная попытка осмыслить будущее RL для LLM, где важно не только fine-tuning, но и работа с обратной связью в режиме реального времени, доверие к награде и оптимизация вычислений.
🧠 Полезно всем, кто:
– интересуется агентами и автономными системами
– работает над LLM‑продуктами
– хочет выйти за пределы SFT и попробовать более «горькие» методы обучения
#LLM #RLHF #RLVR #AIeducation #ReinforcementLearning #UCLA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥8❤6💯3