- Telegram Web

Машиннное обучение | Наука о данных Библиотека

Forwarded from AI VK Hub

🔹У ВКонтакте появился новый формат — шопсы. Это публикации авторов с товарами, по которым можно быстро совершить покупку. Подобный контент появлялся в ленте и раньше, но с помощью LLM, VLM и правильной разметки теперь можно определить нативные обзоры или распаковки от авторов.

Рассказываем, что из себя представляет shoppable-разметка, и как инженеры AI VK её внедряют. Ссылка на подробный материал — тут.

#aivk #шопсы #shoppable

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤮4❤3💩2🔥1😁1

1.45K views16:26

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

🔥 Hugging Face снова выкатили полезные материалы

Вышла бесплатная плейбук о том, как изнутри строят SOTA-модели.

Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.

Это полноценный playbook для тех, кто хочет понимать, как утсрены современные LLM.

Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей

По первым страницам - уровень деталей как в Ultra-scale playbook.

Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture

@ai_machinelearning_big_data

#AI #LLM #MachineLearning #HuggingFace

🔥4❤3🥰1

1.45K views09:42

Машиннное обучение | Наука о данных Библиотека

⚙️ ByteDance бросает вызов трендам AI-железа

Новый ресёрч «INT vs FP» показывает: в тонкой квантовке низкой разрядности формат MXINT8 превосходит MXFP8 - и по точности, и по эффективности.

Ключевая мысль
AI-ускорители будущего могут сместиться от плавающей запятой к integer-форматам - не только ради скорости, но и ради энергоэффективности и стабильности вычислений.

Почему это важно
- FP8 сейчас в центре внимания индустрии
- Но тонкая INT-квантовка даёт лучший баланс качества, мощности и эффективности
- Это ставит под вопрос, стоит ли робко идти в FP8-будущее, когда INT-форматы могут быть эффективнее

Если такие результаты подтвердятся на индустриальных масштабах - нас ждёт переосмысление форматов вычислений для AI-железа.

📝 Paper: huggingface.co/papers/2510.25602

👍7❤4🆒1

1.13K views07:37

Машиннное обучение | Наука о данных Библиотека

⁉️Машинное обучение кажется чем-то сложным и недосягаемым? Всё проще, чем вы думаете!

Первый шаг — разобраться, как устроен ML-процесс и научиться работать в Jupyter Notebook — инструменте, с которого начинают все специалисты в Data Science.

На открытом уроке вы шаг за шагом поймёте, как строится путь от данных до модели. Научитесь запускать эксперименты в Jupyter Notebook и Google Colab, работать с виртуальными окружениями и не бояться “сломать” систему. Всё — в формате простых и наглядных примеров.

После урока вы сможете уверенно начать свой первый ML-проект и поймёте, какие инструменты нужны, чтобы перейти от теории к практике.

➡️ 13 ноября в 20:00 МСК. Открытый вебинар проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь и сделайте первый шаг в машинное обучение без страха и путаницы:т https://otus.pw/8VU2/?erid=2W5zFGufUH6

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

😁3❤1

946 views06:44

Машиннное обучение | Наука о данных Библиотека

⚖️ Amazon подала в суд на Perplexity: почему Comet стал проблемой

Amazon обвиняет Perplexity в том, что их Comet-браузер действует как скрытый AI-шопинг-агент: логинится под учёткой пользователя, оформляет заказы и кликает по сайту так, будто это живой человек. Для Amazon это - запрещённый скрытый автоматизированный доступ.

Главная претензия: Comet маскирует бот-трафик под обычные клики, мешая Amazon применять свои правила против автоматизации, защитные проверки и аудит. Агент заходит в личные разделы аккаунта, трогает корзину и оформление покупки. Любая ошибка скрипта или неверный промпт может привести к покупке не того товара, отправке не по тому адресу или утечке приватных данных.

Amazon считает, что Perplexity обходит официальные интерфейсы и условия использования, не идентифицируясь как бот. Это, по их словам, нарушает правила и создаёт риски безопасности, а также портит персонализацию — ведь рекомендации и ценообразование настроены под человеческое поведение, а не быстрые скриптовые запросы.

Компания также утверждает, что требовала остановить работу агента, но тот продолжал работать, что усиливает аргумент «несанкционированного доступа».

Позиция Perplexity: это всего лишь удобный помощник для пользователей, который сравнивает цены и оформляет покупку от их имени, а хранение логина — локальное. Пользователь вправе выбирать своего ассистента, даже если Amazonу это не нравится.

В итоге спор о том, кто контролирует сессию: пользователь или AI-браузер. И должен ли такой агент открыто объявлять себя ботом вместо маскировки под человека.

theguardian.com/technology/2025/nov/05/amazon-perplexity-ai-lawsuit

❤4👍2🔥2

964 views07:56

Машиннное обучение | Наука о данных Библиотека

0:12

Media is too big

VIEW IN TELEGRAM

Научись проектировать ИИ-агентов, управлять роботами и развертывать RAG-системы 21 ноября на True Tech Champ

На бесплатном фестивале технологий от МТС тебя ждет конференция с российскими и иностранными экспертами и новый формат лектория — ИТ-качалка.

Уже известны первые спикеры и темы:

🔴

«Физический агент: на пути к когнитивным роботам общего назначения с моделями мира», Артем Лыков — ведущий R&D-разработчик MWS, аспирант ISR Lab и Skoltech.

🔴

«RAG как помощник на каждый день», Валентин Малых — руководитель фундаментальных исследований MWS AI

🔴

An introduction tutorial to AI Agent Workflows, Майкл Ланэм — канадский разработчик с 20-летним и автор книги AI Agents in Action.

Между докладами и воркшопами можно смотреть гонки и битвы роботов, устроить поединки робопауков, пройти лазерный лабиринт, собрать сервер на скорость, сделать аксессуары из плат и протестировать другие айтивности.

Выбирай формат — смотри прямой эфир или приходи в МТС Live Холл.
Регистрируйся, чтобы провести 21 ноября с пользой и драйвом.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.01K views12:46

Машиннное обучение | Наука о данных Библиотека

Японские медиагиганты вышли против OpenAI из-за Sora 2.

Через ассоциацию CODA (в неё входят Studio Ghibli, Bandai Namco, Square Enix) они требуют прекратить использование их контента для обучения модели без разрешения. Аргумент: в Японии само копирование данных на этапе обучения уже может считаться нарушением авторских прав — и никакой «opt-out» это не исправляет задним числом.

После релиза Sora 2 в сентябре начали массово появляться ролики «в японском стиле», и регуляторы потребовали от OpenAI объяснений — особенно касательно того, были ли защищённые произведения в тренировочном наборе.

Сэм Альтман заявил, что OpenAI добавит opt-in и может рассмотреть ревеню-шэринг. Но CODA настаивает: использование контента должно начинаться только после разрешения, а не наоборот.

Ключевой вопрос:
являются ли промежуточные копии при обучении «воспроизведением» по японскому закону — и означает ли схожесть выходов, что защищённые материалы были в датасете? Если да, рынок в Японии может перейти к модели «разрешение-сначала» и обязательным аудитам источников данных.

Тема только набирает обороты — и может стать прецедентом для глобального рынка генеративных моделей.

theverge.com/news/812545/coda-studio-ghibli-sora-2-copyright-infringement

❤3🤡2

1.26K views14:46

Машиннное обучение | Наука о данных Библиотека

Carnegie Mellon представила один из самых важных агентных AI-пейперов года

Исследователи CMU выпустили работу “Training Proactive and Personalized LLM Agents” - и она предлагает совершенно другой взгляд на обучение агентов.

Фокус не на том, чтобы просто выполнять задачи.
Фокус на том, чтобы лучше общаться с пользователем.

Обычные агенты - «машины выполнения»: делают задачу, но почти не взаимодействуют.
Новые же модели делают три вещи одновременно:

→ выполняют задачу (Productive)
→ задают умные уточняющие вопросы (Proactive)
→ подстраиваются под стиль, тон и предпочтения пользователя (Personalized)

Для обучения они создали целый интерактивный мир — UserVille, населённый симулированными пользователями с разными характерами и странностями (например, кто-то отвечает только JSON, кто-то — только A/B/C 🤯).

Модели обучали через новый RL-фреймворк PPP — Productive, Proactive, Personalized.

Результаты:
- +21.6% выше результативность по сравнению с GPT-5
- агенты стали задавать меньше, но гораздо более точных вопросов
- автоматически копируют стиль общения пользователя

Это направление будущего:
не просто агенты, которые «делают задачи»,
а агенты, которые понимают для кого они это делают.

Paper: arxiv.org/abs/2511.02208v1

❤9👍3🥰1💩1

1.48K views16:57

Машиннное обучение | Наука о данных Библиотека

📘 CocoIndex: Knowledge Graph for Documents

Отличный пример того, как можно создавать граф знаний в реальном времени на основе документов с помощью CocoIndex.

🔍 Основные идеи:
- Используется LLM для извлечения связей между сущностями и построения графа знаний.
- Поддерживается экспорт узлов и отношений в графовые базы данных, такие как Neo4j или Kuzu.
- Пример пайплайна на Python: добавление источников, извлечение сущностей, формирование связей и экспорт.
- После построения можно выполнять графовые запросы вроде MATCH p=()-->() RETURN p.

📎 Подробнее:
https://cocoindex.io/docs/examples/knowledge-graph-for-docs

#AI #KnowledgeGraph #RAG #CocoIndex

👍5❤1

719 views12:35

2025/11/14 03:43:24
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>