Forwarded from AI VK Hub
Рассказываем, что из себя представляет shoppable-разметка, и как инженеры AI VK её внедряют. Ссылка на подробный материал — тут.
#aivk #шопсы #shoppable
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤮4❤3💩2🔥1😁1
Forwarded from Machinelearning
🔥 Hugging Face снова выкатили полезные материалы
Вышла бесплатная плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный playbook для тех, кто хочет понимать, как утсрены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
@ai_machinelearning_big_data
#AI #LLM #MachineLearning #HuggingFace
Вышла бесплатная плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный playbook для тех, кто хочет понимать, как утсрены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
@ai_machinelearning_big_data
#AI #LLM #MachineLearning #HuggingFace
🔥4❤3🥰1
⚙️ ByteDance бросает вызов трендам AI-железа
Новый ресёрч «INT vs FP» показывает: в тонкой квантовке низкой разрядности формат MXINT8 превосходит MXFP8 - и по точности, и по эффективности.
Ключевая мысль
AI-ускорители будущего могут сместиться от плавающей запятой к integer-форматам - не только ради скорости, но и ради энергоэффективности и стабильности вычислений.
Почему это важно
- FP8 сейчас в центре внимания индустрии
- Но тонкая INT-квантовка даёт лучший баланс качества, мощности и эффективности
- Это ставит под вопрос, стоит ли робко идти в FP8-будущее, когда INT-форматы могут быть эффективнее
Если такие результаты подтвердятся на индустриальных масштабах - нас ждёт переосмысление форматов вычислений для AI-железа.
📝 Paper: huggingface.co/papers/2510.25602
Новый ресёрч «INT vs FP» показывает: в тонкой квантовке низкой разрядности формат MXINT8 превосходит MXFP8 - и по точности, и по эффективности.
Ключевая мысль
AI-ускорители будущего могут сместиться от плавающей запятой к integer-форматам - не только ради скорости, но и ради энергоэффективности и стабильности вычислений.
Почему это важно
- FP8 сейчас в центре внимания индустрии
- Но тонкая INT-квантовка даёт лучший баланс качества, мощности и эффективности
- Это ставит под вопрос, стоит ли робко идти в FP8-будущее, когда INT-форматы могут быть эффективнее
Если такие результаты подтвердятся на индустриальных масштабах - нас ждёт переосмысление форматов вычислений для AI-железа.
📝 Paper: huggingface.co/papers/2510.25602
👍7❤4🆒1
⁉️Машинное обучение кажется чем-то сложным и недосягаемым? Всё проще, чем вы думаете!
Первый шаг — разобраться, как устроен ML-процесс и научиться работать в Jupyter Notebook — инструменте, с которого начинают все специалисты в Data Science.
На открытом уроке вы шаг за шагом поймёте, как строится путь от данных до модели. Научитесь запускать эксперименты в Jupyter Notebook и Google Colab, работать с виртуальными окружениями и не бояться “сломать” систему. Всё — в формате простых и наглядных примеров.
После урока вы сможете уверенно начать свой первый ML-проект и поймёте, какие инструменты нужны, чтобы перейти от теории к практике.
➡️ 13 ноября в 20:00 МСК. Открытый вебинар проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь и сделайте первый шаг в машинное обучение без страха и путаницы:т https://otus.pw/8VU2/?erid=2W5zFGufUH6
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Первый шаг — разобраться, как устроен ML-процесс и научиться работать в Jupyter Notebook — инструменте, с которого начинают все специалисты в Data Science.
На открытом уроке вы шаг за шагом поймёте, как строится путь от данных до модели. Научитесь запускать эксперименты в Jupyter Notebook и Google Colab, работать с виртуальными окружениями и не бояться “сломать” систему. Всё — в формате простых и наглядных примеров.
После урока вы сможете уверенно начать свой первый ML-проект и поймёте, какие инструменты нужны, чтобы перейти от теории к практике.
➡️ 13 ноября в 20:00 МСК. Открытый вебинар проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь и сделайте первый шаг в машинное обучение без страха и путаницы:т https://otus.pw/8VU2/?erid=2W5zFGufUH6
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
😁3❤1
⚖️ Amazon подала в суд на Perplexity: почему Comet стал проблемой
Amazon обвиняет Perplexity в том, что их Comet-браузер действует как скрытый AI-шопинг-агент: логинится под учёткой пользователя, оформляет заказы и кликает по сайту так, будто это живой человек. Для Amazon это - запрещённый скрытый автоматизированный доступ.
Главная претензия: Comet маскирует бот-трафик под обычные клики, мешая Amazon применять свои правила против автоматизации, защитные проверки и аудит. Агент заходит в личные разделы аккаунта, трогает корзину и оформление покупки. Любая ошибка скрипта или неверный промпт может привести к покупке не того товара, отправке не по тому адресу или утечке приватных данных.
Amazon считает, что Perplexity обходит официальные интерфейсы и условия использования, не идентифицируясь как бот. Это, по их словам, нарушает правила и создаёт риски безопасности, а также портит персонализацию — ведь рекомендации и ценообразование настроены под человеческое поведение, а не быстрые скриптовые запросы.
Компания также утверждает, что требовала остановить работу агента, но тот продолжал работать, что усиливает аргумент «несанкционированного доступа».
Позиция Perplexity: это всего лишь удобный помощник для пользователей, который сравнивает цены и оформляет покупку от их имени, а хранение логина — локальное. Пользователь вправе выбирать своего ассистента, даже если Amazonу это не нравится.
В итоге спор о том, кто контролирует сессию: пользователь или AI-браузер. И должен ли такой агент открыто объявлять себя ботом вместо маскировки под человека.
theguardian.com/technology/2025/nov/05/amazon-perplexity-ai-lawsuit
Amazon обвиняет Perplexity в том, что их Comet-браузер действует как скрытый AI-шопинг-агент: логинится под учёткой пользователя, оформляет заказы и кликает по сайту так, будто это живой человек. Для Amazon это - запрещённый скрытый автоматизированный доступ.
Главная претензия: Comet маскирует бот-трафик под обычные клики, мешая Amazon применять свои правила против автоматизации, защитные проверки и аудит. Агент заходит в личные разделы аккаунта, трогает корзину и оформление покупки. Любая ошибка скрипта или неверный промпт может привести к покупке не того товара, отправке не по тому адресу или утечке приватных данных.
Amazon считает, что Perplexity обходит официальные интерфейсы и условия использования, не идентифицируясь как бот. Это, по их словам, нарушает правила и создаёт риски безопасности, а также портит персонализацию — ведь рекомендации и ценообразование настроены под человеческое поведение, а не быстрые скриптовые запросы.
Компания также утверждает, что требовала остановить работу агента, но тот продолжал работать, что усиливает аргумент «несанкционированного доступа».
Позиция Perplexity: это всего лишь удобный помощник для пользователей, который сравнивает цены и оформляет покупку от их имени, а хранение логина — локальное. Пользователь вправе выбирать своего ассистента, даже если Amazonу это не нравится.
В итоге спор о том, кто контролирует сессию: пользователь или AI-браузер. И должен ли такой агент открыто объявлять себя ботом вместо маскировки под человека.
theguardian.com/technology/2025/nov/05/amazon-perplexity-ai-lawsuit
❤4👍2🔥2
Media is too big
VIEW IN TELEGRAM
Научись проектировать ИИ-агентов, управлять роботами и развертывать RAG-системы 21 ноября на True Tech Champ
На бесплатном фестивале технологий от МТС тебя ждет конференция с российскими и иностранными экспертами и новый формат лектория — ИТ-качалка.
Уже известны первые спикеры и темы:
🔴 «Физический агент: на пути к когнитивным роботам общего назначения с моделями мира», Артем Лыков — ведущий R&D-разработчик MWS, аспирант ISR Lab и Skoltech.
🔴 «RAG как помощник на каждый день», Валентин Малых — руководитель фундаментальных исследований MWS AI
🔴 An introduction tutorial to AI Agent Workflows, Майкл Ланэм — канадский разработчик с 20-летним и автор книги AI Agents in Action.
Между докладами и воркшопами можно смотреть гонки и битвы роботов, устроить поединки робопауков, пройти лазерный лабиринт, собрать сервер на скорость, сделать аксессуары из плат и протестировать другие айтивности.
Выбирай формат — смотри прямой эфир или приходи в МТС Live Холл.
Регистрируйся, чтобы провести 21 ноября с пользой и драйвом.
На бесплатном фестивале технологий от МТС тебя ждет конференция с российскими и иностранными экспертами и новый формат лектория — ИТ-качалка.
Уже известны первые спикеры и темы:
Между докладами и воркшопами можно смотреть гонки и битвы роботов, устроить поединки робопауков, пройти лазерный лабиринт, собрать сервер на скорость, сделать аксессуары из плат и протестировать другие айтивности.
Выбирай формат — смотри прямой эфир или приходи в МТС Live Холл.
Регистрируйся, чтобы провести 21 ноября с пользой и драйвом.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Японские медиагиганты вышли против OpenAI из-за Sora 2.
Через ассоциацию CODA (в неё входят Studio Ghibli, Bandai Namco, Square Enix) они требуют прекратить использование их контента для обучения модели без разрешения. Аргумент: в Японии само копирование данных на этапе обучения уже может считаться нарушением авторских прав — и никакой «opt-out» это не исправляет задним числом.
После релиза Sora 2 в сентябре начали массово появляться ролики «в японском стиле», и регуляторы потребовали от OpenAI объяснений — особенно касательно того, были ли защищённые произведения в тренировочном наборе.
Сэм Альтман заявил, что OpenAI добавит opt-in и может рассмотреть ревеню-шэринг. Но CODA настаивает: использование контента должно начинаться только после разрешения, а не наоборот.
Ключевой вопрос:
являются ли промежуточные копии при обучении «воспроизведением» по японскому закону — и означает ли схожесть выходов, что защищённые материалы были в датасете? Если да, рынок в Японии может перейти к модели «разрешение-сначала» и обязательным аудитам источников данных.
Тема только набирает обороты — и может стать прецедентом для глобального рынка генеративных моделей.
theverge.com/news/812545/coda-studio-ghibli-sora-2-copyright-infringement
Через ассоциацию CODA (в неё входят Studio Ghibli, Bandai Namco, Square Enix) они требуют прекратить использование их контента для обучения модели без разрешения. Аргумент: в Японии само копирование данных на этапе обучения уже может считаться нарушением авторских прав — и никакой «opt-out» это не исправляет задним числом.
После релиза Sora 2 в сентябре начали массово появляться ролики «в японском стиле», и регуляторы потребовали от OpenAI объяснений — особенно касательно того, были ли защищённые произведения в тренировочном наборе.
Сэм Альтман заявил, что OpenAI добавит opt-in и может рассмотреть ревеню-шэринг. Но CODA настаивает: использование контента должно начинаться только после разрешения, а не наоборот.
Ключевой вопрос:
являются ли промежуточные копии при обучении «воспроизведением» по японскому закону — и означает ли схожесть выходов, что защищённые материалы были в датасете? Если да, рынок в Японии может перейти к модели «разрешение-сначала» и обязательным аудитам источников данных.
Тема только набирает обороты — и может стать прецедентом для глобального рынка генеративных моделей.
theverge.com/news/812545/coda-studio-ghibli-sora-2-copyright-infringement
❤3🤡2
Carnegie Mellon представила один из самых важных агентных AI-пейперов года
Исследователи CMU выпустили работу “Training Proactive and Personalized LLM Agents” - и она предлагает совершенно другой взгляд на обучение агентов.
Фокус не на том, чтобы просто выполнять задачи.
Фокус на том, чтобы лучше общаться с пользователем.
Обычные агенты - «машины выполнения»: делают задачу, но почти не взаимодействуют.
Новые же модели делают три вещи одновременно:
→ выполняют задачу (Productive)
→ задают умные уточняющие вопросы (Proactive)
→ подстраиваются под стиль, тон и предпочтения пользователя (Personalized)
Для обучения они создали целый интерактивный мир — UserVille, населённый симулированными пользователями с разными характерами и странностями (например, кто-то отвечает только JSON, кто-то — только A/B/C 🤯).
Модели обучали через новый RL-фреймворк PPP — Productive, Proactive, Personalized.
Результаты:
- +21.6% выше результативность по сравнению с GPT-5
- агенты стали задавать меньше, но гораздо более точных вопросов
- автоматически копируют стиль общения пользователя
Это направление будущего:
не просто агенты, которые «делают задачи»,
а агенты, которые понимают для кого они это делают.
Paper: arxiv.org/abs/2511.02208v1
Исследователи CMU выпустили работу “Training Proactive and Personalized LLM Agents” - и она предлагает совершенно другой взгляд на обучение агентов.
Фокус не на том, чтобы просто выполнять задачи.
Фокус на том, чтобы лучше общаться с пользователем.
Обычные агенты - «машины выполнения»: делают задачу, но почти не взаимодействуют.
Новые же модели делают три вещи одновременно:
→ выполняют задачу (Productive)
→ задают умные уточняющие вопросы (Proactive)
→ подстраиваются под стиль, тон и предпочтения пользователя (Personalized)
Для обучения они создали целый интерактивный мир — UserVille, населённый симулированными пользователями с разными характерами и странностями (например, кто-то отвечает только JSON, кто-то — только A/B/C 🤯).
Модели обучали через новый RL-фреймворк PPP — Productive, Proactive, Personalized.
Результаты:
- +21.6% выше результативность по сравнению с GPT-5
- агенты стали задавать меньше, но гораздо более точных вопросов
- автоматически копируют стиль общения пользователя
Это направление будущего:
не просто агенты, которые «делают задачи»,
а агенты, которые понимают для кого они это делают.
Paper: arxiv.org/abs/2511.02208v1
❤9👍3🥰1💩1
📘 CocoIndex: Knowledge Graph for Documents
Отличный пример того, как можно создавать граф знаний в реальном времени на основе документов с помощью CocoIndex.
🔍 Основные идеи:
- Используется LLM для извлечения связей между сущностями и построения графа знаний.
- Поддерживается экспорт узлов и отношений в графовые базы данных, такие как Neo4j или Kuzu.
- Пример пайплайна на Python: добавление источников, извлечение сущностей, формирование связей и экспорт.
- После построения можно выполнять графовые запросы вроде
📎 Подробнее:
https://cocoindex.io/docs/examples/knowledge-graph-for-docs
#AI #KnowledgeGraph #RAG #CocoIndex
Отличный пример того, как можно создавать граф знаний в реальном времени на основе документов с помощью CocoIndex.
🔍 Основные идеи:
- Используется LLM для извлечения связей между сущностями и построения графа знаний.
- Поддерживается экспорт узлов и отношений в графовые базы данных, такие как Neo4j или Kuzu.
- Пример пайплайна на Python: добавление источников, извлечение сущностей, формирование связей и экспорт.
- После построения можно выполнять графовые запросы вроде
MATCH p=()-->() RETURN p.📎 Подробнее:
https://cocoindex.io/docs/examples/knowledge-graph-for-docs
#AI #KnowledgeGraph #RAG #CocoIndex
👍5❤1
