Telegram Web
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Визуализация работы трансформеров позволяет наглядно представить, как модели вроде ChatGPT формируют ответы, подбирая слова и фразы.

Это помогает лучше понять процессы, происходящие внутри языковых моделей.

Простыми словами: такие визуализации дают возможность увидеть, как ChatGPT выбирает слова для формирования своих ответов.

https://moebio.com/mind/

@machinelearning_interview
🔥27👍85🥰2
✔️ ReasonGraph: инструмент для анализа ризонинга LLM.

ReasonGraph - опенсорсная веб-платформа, разработанная Кембриджским университетом, для визуализации и анализа процессов рассуждений LLM. Она поддерживает как последовательные, так и древовидные методы рассуждений, легко интегрируясь с основными провайдерами LLM и более чем 50 языковыми моделями.
Платформа построена на модульном каркасе и имеет выбор метода мета-рассуждения и настраиваемые параметры визуализации.

ReasonGraph улучшает обнаружение ошибок в логических процессах и способствует более эффективной разработке приложений на основе LLM. Оценка платформы показала практически 100% точность rule-based XML-парсинга при извлечении и визуализации путей рассуждений.

Репозиторий проекта на Github. Демо на HuggingFace.
arxiv.org


@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥2
Forwarded from Machinelearning
⭐️ «Open-Source Handwritten Signature Detection Model» - отличная статья, в которой подробно показно решение прикладной ML задачи.

Это подробный гайд, где описан процесс разработки приложения для автоматического обнаружения рукописных подписей в документах.

Автор протестировал все доступные модели YOLO для данной задачи и опубликовал результаты. В итоге получился очень годный гайд, со множеством технических деталей.

🟡Подготовка данных: использование двух публичных датасетов (Tobacco800 и Signatures-XC8UP) с последующей предобработкой и аугментацией изображений.

🟡Архитектурное сравнение: в статье приводится детальный анализ современных алгоритмов обнаружения объектов – от семейства YOLO до трансформерных моделей (DETR, RT-DETR, YOLOS).

🟡Оптимизация гиперпараметров:
Сравнительный анализ архитектур показал, что YOLOv8 - обеспечивает идеальный баланс между скоростью и точностью для данной задачи, достигая 94,74 % точности и 89,72 % после оптимизации гиперпараметров с помощью Optuna.

🟡Развёртывание: модель оптимизирована для работы с Triton Inference Server и OpenVINO, что обеспечивает быстрый инференс на CPU и GPU (до 7.657 мс на T4)

🟡 Результаты экспериментов:
Достигнута высокая точность распознавания: mAP@50 – 94.50%, mAP@50-95 – 67.35%.

Итоговая модель демонстрирует сбалансированное соотношение между точностью, скоростью инференса и экономичностью ресурсов.

Статья демонстрирует, как грамотное сочетание современных архитектур обнаружения объектов, тщательная подготовка данных и оптимизация гиперпараметров позволяет создать эффективное и готовое к развёртыванию решение, очень рекомендуем прочесть ее полностью.
А здесь можно почитать описание семейства моделей Yolo.

🟡 Читать: https://huggingface.co/blog/samuellimabraz/signature-detection-model

#yolo #guide #detection #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍146🔥2😁1
Forwarded from Machinelearning
🌟 KBLaM: новая архитектура интеграции знаний для языковых моделей от Microsoft Research.

Microsoft Research представила KBLaM - архитектуру, которая решает ключевую проблему LLM — добавление новых внешних знаний. В отличие от традиционных методов файнтюна и RAG, KBLaM кодирует новые для LLM структурированные данные в виде векторных пар «ключ-значение», встраивая их напрямую в слои внимания модели. Это позволяет избежать дорогостоящего дообучения и построение дополнительных модулей, сохраняя линейную масштабируемость даже для баз знаний в 10 000 триплетов.

В KBLaM триплет — это структурированный элемент знания, состоящий из трех компонентов: сущности, свойства и значения. Например, в утверждении «Москва — столица России» сущностью выступает «Москва», свойством — «столица», а значением — «Россия».


В основе KBLaM - «прямоугольный механизм внимания»: языковые токены взаимодействуют с токенами знаний, но не наоборот. Такая структура сокращает вычислительные затраты до линейных, позволяя обрабатывать эквивалент 200 тыс. токенов на одном GPU. При этом модель динамически обновляет знания без пересчёта всей базы — достаточно изменить один триплет.

Эксперименты с KBLaM показали, что он не только эффективен, но и прозрачен: веса внимания визуализируют, какие факты использует модель. Например, при запросе о медицинском диагнозе высокие оценки внимания к соответствующим триплетам снижают риск «галлюцинаций», при этом, если ответ на запрос лежит вне базы знаний, модель отказывается на него отвечать.

Как заявляют авторы, KBLaM — не просто шаг к умным LLM, а мост между обученными на базовых знаниях моделями и реальным миром, где знания постоянно обновляются.

В опубликованном на Github коде для применения KBLaM поддерживаются модели с HF:

🟢Llama-3-8B-Instruct;
🟢Llama-3.2-1B-Instruct;
🟢Phi-3-mini-4k-instruct.

и эмбединги для генерации базы знаний:

🟠text-embedding-ada-002;
🟠all-MiniLM-L6-v2.

⚠️ Чтобы добавить поддержку других моделей, необходимо отредактировать скрипты обработки моделей и включить в них адаптер, подобный llama_model.py в src/kblam/models.


📌Лицензирование: MIT License.


🟡Статья
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MicrosoftResearch #KBLaM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍4❤‍🔥21🥰1
⚡️ SpatialLM-Llama-1B от Manycore Research – это 3D модель, предназначенная для обработки 3D облаков точек и генерации структурированных представлений 3D сцен.

📌 Обработка 3D данных:
Модель способна интерпретировать неструктурированные 3D данные, полученные из различных источников (например, монохромных видеопоследовательностей, RGBD изображений, LiDAR-сенсоров), и преобразовывать их в понятные архитектурные элементы (стены, двери, окна) и ориентированные ограничивающие рамки объектов с семантической категоризацией. Это позволяет создавать высокоуровневые семантические описания сложных сцен.

📌 Мультимодальный подход:
Проект объединяет различные типы входных данных, что значительно расширяет возможности анализа и интерпретации пространственных данных. Это делает модель полезной для приложений в робототехнике, автономной навигации и других задачах, связанных с 3D анализом.

📌 Технические детали:
Основана на модели Llama3.2-1B-Instruct, что обеспечивает высокий уровень генерации текста и семантического понимания.
Модель имеет 1.25 млрд параметров и использует современные библиотеки, такие как TorchSparse, для эффективной работы с разреженными данными.
Проект включает инструменты для визуализации результатов и оценки качества работы модели с использованием специального тестового набора SpatialLM-Testset.
Практическая применимость:
SpatialLM-Llama-1B может быть использована для автоматизации анализа 3D сцен, что особенно актуально в областях, требующих точного пространственного понимания, например, при создании цифровых двойников зданий, в архитектуре, а также в системах автономного управления.

https://huggingface.co/manycore-research/SpatialLM-Llama-1B

#SpatialLM #ml #ai
6👍3🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 SpatialLM – это новый инструмент, представляющий собой 3D крупномасштабную языковую модель, разработанную для обработки точечных облаков и генерации структурированных 3D представлений.

Он сочетает в себе возможности обработки неструктурированных 3D геометрических данных с высокоуровневым семантическим пониманием, что открывает новые возможности для разработки в различных областях.

Обработка 3D данных: SpatialLM способен анализировать точечные облака, полученные из монокулярных видео, RGBD изображений и LiDAR-датчиков, что делает его универсальным инструментом для работы с данными из разных источников.
Структурированное представление сцен: Модель генерирует подробные 3D описания, включая распознавание архитектурных элементов (стены, двери, окна) и создание ориентированных ограничивающих рамок для объектов.
Преимущества перед аналогами: В отличие от других методов, требующих специализированного оборудования для сбора данных, SpatialLM работает с широким спектром входных данных, что значительно снижает порог входа для разработчиков.
Полезность для разработчиков: Интеграция SpatialLM позволяет ускорить разработку приложений в таких сферах, как робототехника, автономное вождение и анализ 3D сцен, благодаря возможности быстро и точно интерпретировать сложные пространственные данные.
Современные технологии: Основанный на передовых языковых моделях (например, Llama и Qwen) и использующий SceneScript и TorchSparse, SpatialLM обеспечивает высокую производительность и точность, что делает его конкурентоспособным решением на рынке.
Открытый исходный код: Благодаря открытости проекта, разработчики могут свободно адаптировать и улучшать SpatialLM под специфические задачи, что стимулирует инновации и развитие новых стартапов.

SpatialLM демонстрирует, как современные подходы к обработке 3D данных и глубокое обучение могут быть объединены для создания мощных инструментов, способных значительно расширить возможности современных приложений. Этот инструмент уже сегодня помогает разработчикам реализовывать сложные проекты, требующие точного пространственного понимания, и имеет все шансы стать важной частью экосистемы разработки в ближайшем будущем.

Project manycore-research.github.io/SpatialLM/
Code github.com/manycore-research/SpatialLM
Models https://huggingface.co/manycore-research
7👍1🔥1
🖥 Что под капотом у PyTorch

Подробный блог-пост о том, как на самом деле работает внутренняя часть PyTorch.

📌 Читать
📌Видео объяснения базы по тензорам

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
24👍7🔥5👎1
2025/07/09 18:46:49
Back to Top
HTML Embed Code: