Telegram Web
Ещё один шаг к гиперперсонализации

Яндекс внедрил генеративную модель в свои рекомендательные системы — это уже не эксперимент, а полноценная интеграция в «Музыку» и «Маркет».

CEO red_mad_robot AI Илья Филиппов и руководитель направления AI Валера Ковальский прокомментировали новость и рассказали Forbes, почему это действительно важный для индустрии шаг, и как такие решения приближают нас к той самой гиперперсонализации.

#AI_moment

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
955
Reinforcement_Pre_Training_red_mad_robot.pdf
1.4 MB
Обучение 2.0: когда модель сама выбирает, как учиться

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 16 по 20 июня.

🟥 MIT предложил Self-Adapting LLMs (SEAL): метод, который даёт модели возможность учиться и совершенствоваться самостоятельно. Она генерирует собственные обучающие данные и настраивает параметры обучения для адаптации к новым задачам без файнтюна. 

Но есть ограничения: риск «катастрофического забывания» и высокие вычислительные затраты из-за многократных итераций.

Почему это важно: самосовершенствующийся AI часто называют шагом к сверхинтеллекту. Хотя SEAL и проекты вроде DGM от Sakana AI пока далеки от этого, способность моделей создавать тренировочные наборы станет особенно ценной, когда доступных будет меньше. В таких условиях модели, генерирующие синтетические данные, могут являться ключом к дальнейшему прогрессу.

🟥 Microsoft представил Reinforcement Pre-Training (RPT): это попытка переосмыслить этап предобучения на текстах. Вместо предсказания токенов модель учат рассуждать и обосновывать выводы с самого начала.

Почему это важно: если метод RPT окажется масштабируемым, то он может заложить фундамент reasoning ещё на этапе базового обучения. Это снизит зависимость от дорогих специалистов и размеченных датасетов и сделает дообучение проще. 

🟥 Anthropic разработал Internal Coherence Maximization (ICM): метод самообучения модели, в котором она улучшает ответы и выполнение задач. Основа — два принципа внутренней логики: согласованность (ответ должен вытекать из предыдущих) и предсказуемость (ответы не должны противоречить друг другу).

На ряде задач ICM превзошёл классический файнтюн с разметкой от человека. Однако метод эффективен только для работы со знакомыми концептами и хуже работает с длинными текстами и задачами, требующими новых знаний.

Почему это важно: ICM открывает перспективу самообучающихся систем без постоянного участия человека. Это может помочь уйти от предвзятости и непоследовательности внешнего контроля — особенно в задачах, где невозможна экспертная разметка.

Также на неделе:
• MiniMax выпустил открытую и дешёвую reasoning-модель, которая обгоняет DeepSeek‑R1 и Qwen3‑235B на бенчмарках по математике и кодингу и почти догоняет o3, Claude 4 Opus и Gemini 2.5 Pro
• Google представил самую доступную и быструю модель в семействе Gemini 2.5
• Mistral анонсировала платформу полного цикла для разработки и запуска AI 
•  Meta (запрещена в РФ) показала новую world model, предназначенную для лучшего понимания физической среды
• Anthropic предложила бенчмарк для проверки способности AI-агентов к скрытому саботажу
•  Sakana AI представила бенчмарк и агента для задач со сложной оптимизацией
•  Oppo доказал эффективность Test-time Compute в агентных системах


#AI_moment #трендвотчинг

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
663
Технологическое партнёрство с билайн: рассказываем подробнее

На ПМЭФ мы представили совместную линейку AI-агентов для бизнеса, а в марте объявили о старте сотрудничества в сфере AI. Но что такое технологическое партнёрство? Это гораздо больше, чем продукт или даже линейка продуктов: мы предлагаем бизнесу системную AI-трансформацию. 

В этой связке red_mad_robot — технологическое ядро: мы отвечаем за проектирование, разработку и запуск решений. билайн — за масштабирование, вывод продуктов на рынок и интеграцию с инфраструктурой.

В фокусе сразу несколько направлений:

1️⃣ B2C: запуск новых AI-продуктов для телеком-рынка и смежных индустрий. В работе витрины с доступом к LLM, визуальными и аудио-инструментами. 

2️⃣ B2B / B2G: платформа AI-outstaff с агентами под роли и реальные задачи.

3️⃣ Офис AI-трансформации: центр координации всех AI-инициатив для расстановки приоритетов, связи проектов с метриками и управления внедрением на всех этапах.

4️⃣ Обучение: программы для руководителей и команд для единого понимания технологий, проработки кейсов и запуска первых гипотез.

Дальше — больше. Постепенно будем рассказывать и показывать, как всё работает на практике в реальных сценариях.  

#AI_moment

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
141210
Customer_ Support_red_mad_robot.pdf
216 KB
Служба поддержки будущего: как GenAI меняет клиентский сервис

Служба поддержки — один из первых каналов во взаимодействии клиента с бизнесом. Несмотря на развитие технологий, именно он становится источником фрустрации из-за долгого ожидания, недостаточно компетентных консультаций и сложных сценариев.

Мы регулярно исследуем трансформацию точек взаимодействия бизнеса и клиента. В этот раз вместе с Анастасией Панфёровой, стратегическим аналитиком red_mad_robot, разбираем архитектуру службы поддержки будущего — на основе гипотез, которые мы тестировали в рамках проекта для одного из крупных игроков финтех-рынка.

🟥Клиентский запрос
Запрос может прийти через чат, звонок или мессенджер. AI-агент обрабатывает его и анализирует эмоциональный тон. Если клиент напряжён или расстроен — оператор заранее получает сигнал и подстраивает общение.

🟥AI-диспетчеризация
Языковая модель переводит обращение в векторную форму и самостоятельно определяет маршрут: техподдержка, продажи, логистика. Вместо длинного маршрута с ручной переадресацией — одна точка входа и максимальная релевантность.

🟥Real-time аналитика
Каждое взаимодействие автоматически обогащается метаинформацией — что запрашивал клиент, как реагировал, был ли удовлетворён результатом. Информация стекается в единую систему и позволяет алгоритмам выявлять проблемные места в сервисе.

🟥AI как copilot
AI-агенты не вытесняют оператора, а усиливают его работу. Помогают быстрее ориентироваться в запросе, подсказывают готовые сценарии, берут на себя рутину. Человек остаётся там, где важны гибкость, эмпатия, решение нестандартных кейсов. Такой подход позволяет повышать качество сервиса и снижать издержки.

Какой итог?
AI-агенты в таком сценарии не просто помогают «снизить косты». Они меняют сам подход к клиентскому сервису, делая его проактивным, персонализированным и по-настоящему умным.

#AI_moment

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
1595
This media is not supported in your browser
VIEW IN TELEGRAM
16138
This media is not supported in your browser
VIEW IN TELEGRAM
16159
Валера Ковальский, руководитель направления AI red_mad_robot, выступает на Conversations 2025.

Рассказывает, как устроены продвинутые LLM-системы: зачем усложнять архитектуру, как выстраивается пайплайн с роутерами и валидацией и почему трёхуровневое хранение знаний (Domain → Collection → Document) помогает сократить ошибки и повысить точность.
191310
This media is not supported in your browser
VIEW IN TELEGRAM
532
This media is not supported in your browser
VIEW IN TELEGRAM
753
This media is not supported in your browser
VIEW IN TELEGRAM
866
А Илья Филиппов, CEO red_mad_robot AI, вместе с Натальей Каменских, CPO AI билайн, поделились кейсом AI-поиска в сервисе книги билайн.

Показали, как работает система, которая понимает запросы вроде «такой же юмор, как у Терри Пратчетта», «хочу что-то про дружбу» или «книга, чтобы справиться с выгоранием».

В основе — архитектура из нескольких LLM, реранкинг, векторный и параметрический поиск. Уже сейчас сервис отвечает за 7–10 секунд и обрабатывает до 100 запросов в секунду. Следующий шаг — переход к персональным стратегиям поиска и диалогу с AI-агентом.
1899
Новая методичка для моделей: как учить, что помнить и кто отвечает за логику

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 23 по 27 июня.

🟥 Sakana AI представила Reinforcement-Learned Teachers (RLT): метод обучения reasoning, в котором компактная модель-учитель получает вопрос и правильный ответ. Её задача — сформулировать объяснение, помогающее модели-студенту самостоятельно прийти к решению. На тестах 7B RLT модель-учитель обучалась эффективнее, чем при дистилляции или классическом RL, и превзошла более крупные модели — например, DeepSeek R1 (671B).

Однако для обучения требуются эталонные решения в обучающем датасет, а эффективность метода за пределами задач по математике и естественным наукам пока не подтверждена.

Почему это важно: метод может упростить дистилляцию (возможно даже заменить её?), устранить дорогую постобработку и сделать продвинутый reasoning доступнее.  Это открывает путь к созданию мощных моделей без необходимости в огромных ресурсах.

🟥 MIT и NUS показали MEM1: подход, в котором агент или модель вместо хранения всего контекста обучается через RL поддерживать внутреннее состояние. Он объединяет прошлую информацию с новыми наблюдениями, фильтрует лишнее и работает с постоянным объёмом памяти — вне зависимости от длины задачи. В тесте на multi-hop QA MEM1‑7B оказался в 3,5 раза точнее и потреблял в 3,7 раза меньше памяти, чем Qwen2.5‑14B‑Instruct.

Почему это важно: в подходе MEM1 решается одна из главных проблем reasoning-агентов — стремление накапливать весь контекст. Обычно это приводит к росту требований к памяти, высоким вычислительным затратам и ухудшению качества на длинных цепочках рассуждений. MIT и NUS же предлагают путь к более экономичному и точному мышлению. 

🟥 EPFL рассказал про Mixture of Cognitive Reasoners (MiCRo): архитектуру, вдохновлённую устройством человеческого мозга. Она разделяет модель на несколько «экспертов» с разной специализацией: Language (язык), Logic (логика), Social (социальное взаимодействие) и World (знания и память). MiCRo превосходит стандартные плотные и обычные модульные модели в reasoning-задачах. 

Почему это важно: MiCRo предлагает подход к LLM как к управляемой системе, а не чёрному ящику. Благодаря модульной структуре можно отслеживать, какой эксперт активен при решении задачи, и влиять на этот процесс. Это шаг к более объяснимому и прозрачному AI.

Также на неделе:
• Google представил новое поколение RNN-архитектур для работы с длинными последовательностями без роста затрат
•  Huawei разработал новый вариант RAG, который добавляет этап осознанного применения знаний
•  Tsinghua University предложил подход  разработала RL-подход для генерации очень длинных текстов без синтетических данных и разметки
•  Microsoft выпустила модель для NPU-компьютеров Copilot+, которая лежит в основе AI-агента Windows
•   Stanford и ряд университетов показали улучшенный вариант MoE-архитектуры
•   Google открыл open-source AI-агента для работы в терминале разработчика
•   Anthropic добавила в Claude возможность создавать, хостить и делиться AI-приложениями


#AI_moment #трендвотчинг

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
1166
red_mad_robot
Валера Ковальский, руководитель направления AI red_mad_robot, выступает на Conversations 2025. Рассказывает, как устроены продвинутые LLM-системы: зачем усложнять архитектуру, как выстраивается пайплайн с роутерами и валидацией и почему трёхуровневое хранение…
LLM_Agent Workflows_red_mad_robot.pdf
66.4 MB
Делимся презентацией Валеры Ковальского с Conversations — о переходе от простых LLM-интеграций к масштабируемым workflow-системам.

Разбираем, как устроен DCD-дизайн, что влияет на точность и безопасность в сложных сценариях, как строится архитектура с Guardrails и что нужно, чтобы такая система действительно заработала в бизнесе.

#AI_moment #роботайм

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
231110
Фильтруем с умом, или Как построить систему, которая блокирует риски и не мешает пользователю

Миша Мартьянов, инженер по исследованиям и разработке в red_mad_robot, рассказал, как мы собрали собственный фильтр на базе LLM — от первых экспериментов на LLaMA до продакшен-системы с гибкими настройками и понятной логикой.

Что помогло сократить ложные срабатывания, зачем мы подключили BERT и как оптимизировали инфраструктуру — читайте в новой статье на Habr.

#AI_moment #роботайм

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
15108
Что меняется, когда AI-агенты становятся операционной нормой: дискуссия South HUB

В июне СЕО red_mad_robot Илья Самофеев выступил на @sthhb вместе с экспертами из Яндекса, Финансиста, Альфа-Банка и ДИТ Москвы. Говорили о том, как компании внедряют AI-агентов: где работает промпт-инжиниринг, с какими ограничениями сталкиваются при работе с унаследованными системами, как устроены централизованные стеки и когда можно переходить от human-in-the-loop к автономным сценариям.

Обсуждение получилось по делу — без витринных кейсов и с акцентом на практику.

Запись дискуссии оставляем 📎

#AI_moment #роботайм

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
16129
AI + AI: модели учатся работать в команде

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 30 июня по 4 июля.

🟥Sakana AI представила AB‑MCTS (Adaptive Branching Monte Carlo Tree Search): алгоритм на основе дерева поиска, в котором несколько передовых моделей (o4‑mini, Gemini‑2.5‑Pro, R1‑0528) координируют действия и решают задачи через пробно-ошибочные итерации.

Вместо одиночной генерации каждая модель предлагает решение, «советуется» с другими и адаптирует стратегию. На тесте ARC‑AGI‑2 такой подход показал результаты заметно лучше, чем у моделей по отдельности.

Почему это важно: AB‑MCTS создаёт основу для динамичного совмещения генерации и доработки — с гибким переключением между «шириной» и «глубиной» поиска. Такой подход помогает координировать сильнейшие модели на каждом этапе и повышать качество решений без роста вычислительных затрат.

🟥Baidu разработал AI Search Paradigm: мультиагентную архитектуру, в которой четыре специализированных агента совместно работают над улучшением поиска и генерации ответов:

Master анализирует сложность запроса и инициирует процесс;
Planner разбивает его на подзадачи и выстраивает зависимости;
Executor выполняет подзадачи, вызывая различные инструменты и динамически корректируя выполнение;
Writer собирает ответы в финальный связный текст.

Почему это важно: Baidu пытается переосмыслить классические RAG-пайплайны. Вместо линейного извлечения и генерации — система агентов с чётким распределением ролей и этапов. Подход обеспечивает гибкое декомпозирование, планирование, адаптацию и синтез для более точных ответов на сложные запросы. 

Также на неделе:
• Apple рассказала про диффузионную модель для кодинга
•  Meta (Запрещена в РФ) выпустила бенчмарк для оценки способностей моделей улучшать код
•  Zhejiang University разработал метод, позволяющий моделям работать с табличными данными
•  ByteDance предложил RL-фреймворк, с помощью которого модель может самостоятельно искать информацию в интернете по ходу работы 
•   Baidu опубликовал серию моделей ERNIE 4.5
•   Alibaba показала компактную мультимодальную LLM с результатами на уровне больших моделей
•   Amazon AGI представил бенчмарк для оценки AI-агентов в длинных и сложных задачах


#AI_moment #трендвотчинг

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
1166
GenAI_paradox_red_mad_robot.pdf
4.6 MB
Что не так с агентными архитектурами: разбор отчёта McKinsey 

В свежем отчёте Seizing the Agentic AI Advantage McKinsey рисует будущее, в котором сотни автономных агентов бесшовно управляют бизнесом — масштабируются, обмениваются контекстом и принимают согласованные решения.

Аналитический центр red_mad_robot разобрал документ и выделил, что именно стоит за концепцией Agentic Mesh, какие барьеры мешают масштабированию GenAI и почему предложенная McKinsey архитектура пока не подтверждается на практике.

#AI_moment #трендвотчинг #рынки

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
13108
Запустили программу подготовки бизнеса к AI-трансформации вместе с К2 НейроТех

Теперь в формате очных сессий с командами компаний помогаем бизнесу перейти от режима эксперимента к продуманной работе с GenAI.

Совместно с экспертами мы исследуем, как меняется IT-ландшафт под влиянием AI и работаем над ключевыми аспектами внедрения GenAI: готовим инфраструктуру, разбираем архитектурные решения, формируем стратегию и помогаем встроить инструменты в текущие бизнес-процессы.

В фокусе — практическое применение, а на выходе — первые рабочие прототипы, индивидуальная дорожная карта и понимание технологий при интеграции и масштабировании решений.
 
Ключевое отличие нашей инициативы — гибкость. Мы не предлагаем шаблонов. Вместе с К2 НейроТех мы создаём «конструктор» решений: компании сами выбирают модули, которые соответствуют их зрелости и задачам. Уже на первых этапах они получают рабочие прототипы, которые можно масштабировать.

Сергей Тоболин, директор по работе с ключевыми партнёрами red_mad_robot.


#AI_moment #роботайм

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
13127
Новая инженерия: что думают о мышлении те, кто учит машины думать

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 7 июля по 11 июля.

🟥Amazon GenAI, Stanford и Harvard предложили Energy-Based Transformers (EBT): новый класс моделей, в котором генерация токенов формулируется как задача минимизации энергии. LLM учится не предсказывать токены, а задаёт энергию (условную оценку качества) для пары «контекст и кандидат-предсказание» и итеративно дорабатывает ответ, пока не найдёт минимально энергетически выгодный.

На выходе — гибкость мышления, System 2 Thinking на любых типах данных, отсутствие необходимости в наградах и учителях, а также прирост скорости обучения (+35%) и качества результата (+29%) по сравнению с Transformer++. Однако всё это достигается ценой значительного роста вычислительных затрат.

Почему это важно: EBT демонстрирует улучшение качества и обучаемости без использования внешних сигналов награды или учителя. Но высокая вычислительная стоимость ставит под сомнение её масштабируемость. Несмотря на это, благодаря универсальности подхода и способности к обобщению, такие модели могут занять свою нишу в задачах, где критична глубина рассуждений и качество вывода.

🟥Meta (запрещена в РФ) рассказала про ASTRO: фреймворк, обучающий модели рассуждать как поисковые алгоритмы. Для этого используется синтетический датасет, сформированный на основе траекторий решений математических задач, полученных с помощью MCTS (Monte Carlo Tree Search). Эти траектории переводятся в цепочки рассуждений (Chain-of-Thought), где отражены как удачные шаги, так и исправления ошибок. После этого модель дообучается на полученных данных и проходит этап RLVR (Reinforcement Learning from Verifier Rewards), в котором поведение корректируется с опорой на сигналы от проверяющей модели.

Использование ASTRO на семействе Llama 3 дало прирост точности: +16% на MATH-500, +27% на AMC 2023 и +20% на AIME 2024.  

Почему это важно: исследователи показывают, что способность к сложному рассуждению — навык, которому можно обучить. Фреймворком Meta (запрещена в РФ) даёт  сообществу базу для создания интерпретируемых reasoning-моделей в будущем. 

🟥xAI выпустил «рассуждающую» Grok 4 и «продвинутую» Grok Heavy: новая модель решила AIME 2025 без единой ошибки, а на ARC-AGI-2 показала результат 15,9% — почти вдвое выше, чем у предыдущих лидеров. Главное достижение LLM — высокие показатели на бенчмарке HLE. С инструментами и максимальными ресурсами набирает 44,4%, но даже без них остаётся SOTA (state-of-the-art) — 25,4% против 21,6% у Gemini 2.5 Pro. 

Слабое место модели — мультимодальность. По этому параметру она пока уступает конкурентам. При этом затраты на обучение reasoning выросли в десять раз, достигнув уровня предобучения. 

Почему это важно: компания Маска остаётся относительно новым игроком на рынке, но уже бросает вызов лидерам вроде OpenAI и Anthropic. Последняя версия демонстрирует мощь инфраструктурных инвестиций (суперкомпьютер Colossus) и расширяет границы масштабирования. Однако заявления о «самом умном AI в истории человечества» вряд ли останутся без критики сообщества.
Также на неделе:
•  Anthropic опубликовал набор требований к разработчикам мощных AI-моделей
•  Google DeepMind выложил семейство энкодер-декодер моделей
•  Alibaba показала метод постобучения, подтягивающий открытых агентов до проприетарных на сложных веб-задачах
•   Salesforce AI анонсировал GUI-агента, опережающего CUA от OpenAI за счёт test-time scaling и GRPO (Group Relative Policy Optimization)
•   Microsoft представил компактную модель с гибридной декодер-архитектурой
•  Kunlun Wanwei обновил линейку reward-моделей для оценки качества ответов
•   Perplexity открыла ранний доступ к агентному браузеру Comet 

#AI_moment #трендвотчинг

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
753
Как превратить AI в часть операционной среды: опыт red_mad_robot в статье для Журнала Хантфлоу

Интеграция AI не работает без среды, где технология становится частью повседневной логики — от командного взаимодействия до рабочих инструментов.

Руководитель корпоративной культуры и внутренних коммуникаций red_mad_robot Аня Любимова поделилась с Хантфлоу, как мы выстраиваем такую систему у себя. Цель — не просто познакомить команду с технологиями, а встроить их в операционную практику.

В статье рассказали всё подробно и даже составили пошаговое руководство — читайте!

#AI_moment #роботайм

↗️red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
1497
2025/07/14 18:30:02
Back to Top
HTML Embed Code: