Telegram Web
Forwarded from Machinelearning
🌟 Embedding Atlas: визуализация структуры эмбедингов прямо в браузере.

Embedding Atlas — опенсорсный инструмент от Apple для интерактивной визуализации больших наборов векторных представлений, который позволяет не просто смотреть на облако точек, а полноценно с ним работать. И что самое приятное, он способен отрисовывать до нескольких миллионов точек благодаря реализации на WebGPU.

🟡Автоматическая кластеризация и разметка данных.

Embedding Atlas сам находит скопления в данных и подписывает их, позволяя мгновенно сориентироваться в общей структуре датасета. Чтобы отделить реальные кластеры от случайных выбросов, используется оценка плотности ядра с отрисовкой контуров плотности.

Решена и вечная проблема визуализаций - "каша" из перекрывающихся точек. Embedding Atlas использует технологию order-independent transparency, так что даже при большом наложении точек картинка остаётся четкой и информативной.

🟡Интерактивность.

В инструменте есть поиск в реальном времени и нахождение ближайших соседей. Можно ввести текстовый запрос или просто кликнуть на любую точку в облаке, и Embedding Atlas мгновенно подсветит наиболее похожие на нее данные.

Еще есть интерактивный фильтр по метаданным. Например, можно выбрать на гистограмме определенный класс объектов, и визуализация тут же отфильтрует эмбединги, оставив только соответствующие ему точки.

🟡Embedding Atlas поставляется в виде 2 пакетов:

🟢Python-пакет

Дает три варианта интеграции: утилиту командной строки для быстрой визуализации датафреймов, виджет для Jupyter, позволяющий встраивать атлас прямо в ноутбуки, и компонент для Streamlit, если вы создаете полноценные веб-приложения.

🟢Npm-пакет

Этот пакет для тех, кто хочет встроить визуализацию в собственные веб-приложения. Он предоставляет готовые UI-компоненты в виде API: Table, EmbeddingView, EmbeddingViewMosaic и EmbeddingAtlas.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Документация
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Embedding #Visualisation #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩73👍3
🔍 open-deep-research — лучший полностью открытый deep research-агент по версии DeepResearchBench (100 исследовательских задач уровня PhD в 22 разных областях).

📊 Лидирует в рейтинге среди open-source решений, демонстрируя выдающуюся способность к анализу и поиску информации.

🟢leaderboard: https://huggingface.co/spaces/Ayanami0730/DeepResearch-Leaderboard

🟢code: https://github.com/langchain-ai/open_deep_research
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4🔥3👎1
🍥 Coze Loop — платформа для разработки AI-агентов с открытым исходным кодом. Проект предлагает полный цикл управления AI-агентами: от разработки промптов до мониторинга работы.

Инструмент имеет визуальный Playground для тестирования промптов с возможностью сравнения результатов разных языковых моделей. Для быстрого старта достаточно Docker — проект поддерживает интеграцию с OpenAI и другими LLM. Включает инструменты для оценки точности агентов и отслеживания выполнения запросов.

🤖 GitHub

@golang_google
3👍2🔥2
🔍 DVC — Git для данных и ML-моделей. Этот инструмент делает для данных то же, что Git для кода — позволяет отслеживать изменения, переключаться между версиями и работать в команде без хаоса.

DVC не загружает тяжелые файлы в Git-репозиторий, а хранит их в облаке или локально, записывая только метаданные. Особенно удобна интеграция с ML-пайплайнами: можно настраивать зависимости между этапами обработки данных и обучения, а он будет перезапускать только изменившиеся части. При этом инструмент отлично дополняет MLflow: первый управляет версиями данных, второй — трекит эксперименты.

🤖 GitHub

@machinelearning_ru
5
Все еще смешно )
👍12😁62
🌐 Илон Маск заявил о превосходстве Grok-4 в программировании, но есть нюансы

В своём твиттере Маск опубликовал результаты IOI Benchmark, где Grok-4 показал лучшую точность (26.2%) среди ИИ-моделей, включая GPT-5 и Gemini 2.5 Pro.

Однако проблем у новой модели Илона тоже хватает. Помимо увеличения точности на 31% по сравнению с прошлой моделью, стоимость новой модели Grok для пользователей увеличилась на целых 60%. Людям будет гораздо выгоднее пользоваться чуть менее слабым GPT-5, но гораздо более дешевым.

🔗 Ссылка - *клик*
2👍1
Forwarded from Machinelearning
📌g-AMIE: мультиагентная система от Google Reserch.

Google представила g-AMIE (guardrailed-AMIE) — расширенную версию своей исследовательской системы AMIE, которая работает в паре с врачом по принципу асинхронного надзора.

Идея проста: ИИ собирает анамнез, а врач принимает решения. Для этого была разработана многоагентная система на базе Gemini 2.0 Flash и специальный веб-интерфейс "кабинет врача"

🟡Обновленная система состоит из 3 агентов.

Агент-диалог ведёт беседу с пациентом, собирая информацию. Его работа делится на 3 фазы: общий сбор анамнеза, целенаправленная проверка первоначального дифференциального диагноза и заключительная фаза с ответами на вопросы пациента.

Агент-ограничитель следит за тем, чтобы агент-диалог не давал никаких индивидуальных медицинских советов, диагнозов или планов лечения, при необходимости перефразируя его ответы.

Агент SOAP-записи генерирует подробную медицинскую карту в популярном формате SOAP, разделяя задачи предварительных итогов (жалобы пациента, объективные данные) и вывода (оценка и план лечения).

После сбора анамнеза сгенерированная SOAP-запись и черновик заключения отправляются на проверку врачу через «кабинет врача». Врач может редактировать документы и либо одобрить отправку сообщения, либо принять решение о необходимости очной консультации.

Чтобы оценить эффективность такого подхода, было проведено рандомизированное слепое исследование в формате виртуального объективного структурированного клинического экзамена (ОСКЭ) на 60 клинических сценариях.

В исследовании участвовали пациенты, g-AMIE и 2 контрольные группы: врачи общей практики и медсестры-практики/ассистенты врачей. Обеим человеческим группам было предписано работать в тех же ограничениях, что и g-AMIE, то есть только собирать анамнез без предоставления советов. Затем их SOAP-записи и проекты сообщений оценивались группой опытных врачей-наблюдателей.

🟡Результаты эксперимента.

Во-первых, g-AMIE успешно справился с задачей и ни разу не был уличён в предоставлении индивидуальных медицинских советов.

Во-вторых, его способность извлекать ключевую информацию из беседы с пациентом была оценена выше, чем у обеих контрольных групп. SOAP-записи, сгенерированные g-AMIE, были признаны более полными, точными и читаемыми.

Врачи-наблюдатели чаще предпочитали работать с записями от ИИ и с большей вероятностью одобряли составленные им сообщения для пациентов.

Более того, дифференциальные диагнозы и планы лечения, основанные на данных от g-AMIE, были оценены как более адекватные.

🟡Нюансы.

g-AMIE оказался более "многословным", что, с одной стороны, способствовало лучшему установлению контакта с пациентом (тестовые пациенты отметили его эмпатию), но с другой — приводило к более длительному времени проверки записей врачами.

Во-вторых, хотя в записях g-AMIE и встречались галлюцинации, их частота была сопоставима с ошибками памяти у людей.

Интересно, что медсестры и ассистенты врачей показали себя лучше, чем врачи общей практики, как в сборе анамнеза, так и в соблюдении ограничений.

Авторы объясняют это тем, что врачи не привыкли воздерживаться от советов во время консультации и их стандартный рабочий процесс был нарушен. Поэтому результаты не следует интерпретировать как прямое превосходство ИИ над клиницистами в реальном мире, так как люди не были обучены работать в этой новой парадигме.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2🥰1
🧠 Как снизить самоуверенность LLM-«судей»

Проблема:
Модели, которые сравнивают ответы и выбирают лучший, часто завышают уверенность — 90–100%, при том что реальная точность ниже.

Что проверили:
- 14 моделей, задача — сравнить два ответа и выбрать лучший.
- Метрики уверенности:
1. Самооценка (0–100)
2. Доля голосов «за» в 10 прогонах
3. Внутренняя вероятность выбора A или B

Выяснили, что популярная метрика *Expected Calibration Error* плохо ловит проблемы на крайних значениях уверенности.

Новое решение:
- TH-Score — отдельно считает точность в зоне высокой и низкой уверенности, плюс учитывает, как часто такие случаи встречаются.
- LLM-as-a-Fuser — модель, которая читает решения нескольких «судей» и их короткие комментарии, а потом выдает единый вердикт с уверенностью. Работает лучше, чем простое большинство или взвешенное голосование, потому что учитывает причины выбора.

Результаты:
- Qwen3-235B-A22B как fuser: 86,29% точности, ошибка калибровки — 6,42%
- Mistral-Nemo: точность выросла с 20,29% → 67,43%, ошибка упала с 74,22% → 20,49%

Вывод:
- Высокоуверенные решения можно брать автоматически
- Низкоуверенные — отправлять на пересмотр
- Для стабильных итогов — использовать fuser

📌 Подробнее
5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь нас можно заменили на роботов 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
😁87👍4🔥1
Начинаем неделю продуктивно
👍144😁3🔥2
Forwarded from Machinelearning
🎙️ NVIDIA выпустили Canary-1B v2 — открытую модель для распознавания и перевода речи, которая работает с 25 европейскими языками.

Что она умеет:
- 📝 Точное ASR (распознавание речи) и AST (перевод речи) между английским и 24 другими языками.
- Автоматическая пунктуация, капитализация и точные таймстампы до слова.
- Поддержка русского, французского, немецкого, испанского и многих других языков.

Чем интересна
- До 10× быстрее инференс, чем у моделей в 3 раза больше.
- Уже показывает state-of-the-art точность среди открытых моделей на Hugging Face.
- Лицензия CC-BY-4.0 — можно свободно использовать в проектах.

Под капотом:
- Архитектура: FastConformer-энкодер + Transformer-декодер (~978M параметров).
- Форматы: .wav и .flac, моно 16 кГц.
- Легко интегрируется через NVIDIA NeMo или прямо с Hugging Face.

Где пригодится:
🟢 голосовые ассистенты
🟢 субтитры и перевод видео
🟢 чат-боты с речевым вводом
🟢 real-time анализ речи

Всего ~978M параметров → легче, быстрее и дешевле в использовании, чем большие модели конкурентов.

🟠 Попробовать можно здесь: https://huggingface.co/nvidia/canary-1b-v2
🟠SET: https://huggingface.co/datasets/nvidia/Granary
🟠PARAKEET: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3

@ai_machinelearning_big_data


#AI #NVIDIA #SpeechRecognition #ASR #AST #Multilingual #MachineLearning #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🥰1
♟️ UC Berkeley: RL чуть улучшает шахматную тактику LLM, но не учит стратегии

В работе обучали Qwen2.5 3B и 7B, а также Llama3.1 8B с Group Relative Policy Optimization. Каждое действие оценивалось с помощью заранее обученного «шахматного критика» — трансформера на 270M параметров, натренированного на 15 млрд позиций со Stockfish-оценками. Такой критик даёт плотную (dense) и градуированную награду — не просто «верно/неверно», а вероятность победы.

📈 Результаты
- Dense-награда ускоряет обучение и даёт лучшие результаты, чем чистый supervised fine tuning.
- Но точность на шахматных задачах упирается в 25–30% (против 66.5% у 1800 ELO), вне зависимости от модели.
- Добавление reasoning-трейсов от более сильной модели при SFT потолок не пробивает, а иногда даже ухудшает результат.

🔍 Почему потолок
- Модели не могут надёжно «держать в голове» позицию и применять базовую тактику.
- В тестах: на задаче обновления доски — 0.0% у всех, на задаче «мат в 1» (2 варианта ответа) — Instruct-модели ~52%, базовые — 12.7–42.7%.

⚙️ Анализ
- Моделям нужно «ведение за руку» — без списка легальных ходов обучение рушится.
- SAN (Standard Algebraic Notation) лучше UCI, формат FEN vs PGN не влияет.

💡 Вывод
RL в основном усиливает то, что уже есть после предобучения. Без глубоких шахматных знаний на этапе пре-трейна LLM не способны строить стабильные долгосрочные планы.

https://arxiv.org/abs/2507.00726
4👍3🥰1
2025/09/21 12:49:16
Back to Top
HTML Embed Code: