Telegram Web
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔎 Depth Anything — это передовая технология оценки глубины, использующая монокуляр (одну камера).

Однако у этой технологии есть проблема с временной несогласованности в видео, что значительно ограничивает её практическое применение.

😩Существующие методы могут улучшить согласованность видео, но они применимы к коротким видео (менее 10 секунд) и требуют компромисса между качеством и эффективностью съёмки.

🤗 Video Depth Anything — модель, которая обеспечивает высококачественную и последовательную оценку глубины видео без ущерба для их эффективности.

Она построена на основе Depth Anything V2 и обладает мощным пространственно-временным управлением.

🍪 Разработанная на основе совместного набора данных о глубине видео и дешевых немаркированных изображений, эта модель представляет эффективную стратегию оценки длинного видео на основе ключевых кадров. Ограничения на градиенты глубины устраняют необходимость в дополнительных предварительных данных.

🖥 Эксперименты показали, что Video Depth Anything обрабатывает видео любой длины без потери качества, последовательности, что устанавливает новый уровень в оценке глубины видео с нулевой съемкой.

Доступны модели различных масштабов, при этом самая маленькая из них обеспечивает производительность в реальном времени со скоростью 30 кадров в секунду 🔥👍

Начало работы:

git clone https://github.com/DepthAnything/Video-Depth-Anything
cd Video-Depth-Anything
pip install -r requirements.txt


Лицензирование: Apache 2.0

GitHub
Paper
Model Small
Model Large
Demo

@ai_machinelearning_big_data


#DepthAnything #opensource #ml #depthestimation #videodepth
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🔸 Gated DeltaNet: гибридная архитектура нейронных сетей с управлением памятью.

Gated DeltaNet - экспериментальная архитектура, разработанная NVIDIA для управления памятью в контексте линейных трансформеров, которая может решить проблемы с забыванием в моделях, обрабатывающих длинные последовательности данных.

Gated DeltaNet предлагает использовать одновременно дельта-правило и гейтинг. Дельта-правило обновляет память модели, заменяя устаревшую информацию на новую, а механизм гейтинга удаляет ненужную информацию из памяти, чтобы она не мешала модели работать эффективно.

Архитектура Gated DeltaNet была разработана на основе алгоритма, который параллелит вычисления дельта-правила с использованием представления WY и оптимизирует работу с GPU на уровне тензорных ядер.

Перфоманс-тестирование Gated DeltaNet проводилось на бенчмарках языкового моделирования, ризонинга, контекстного извлечения, экстраполяции длины и понимания объемного контекста.

Модель Gated DeltaNet превзошла Mamba2 и DeltaNet на всех этих тестах. Например - улучшенная точность на задачах S-NIAH-2 и S-NIAH-3, где Gated DeltaNet показала более эффективное управление памятью по сравнению с DeltaNet и Mamba2 и превосходство в задачах ризонинга.

Гибридные архитектуры, сочетающие слои Gated DeltaNet с вниманием скользящего окна или слоями Mamba2 повысили эффективность обучения и производительность моделей.

Тестовые GatedDeltaNet-H1 и GatedDeltaNet-H2 дали еще более высокие результаты, используя комбинации Gated DeltaNet + SWA и Mamba2 + Gated DeltaNet + SWA соответственно.

Gated DeltaNet показала самые низкие показатели перплексии при экстраполяции на длинные последовательности до 20 тыс. токенов и продемонстрировала превосходные способности в извлечении информации, обучении в контексте и отслеживании состояния в задачах LongBench.

🔸Практическая реализация обучения Gated DeltaNet на Pytorch доступна в репозитории на Github

📌Лицензирование:

🟢Некоммерческое использование: Nvidia Source Code License-NC

🟠Коммерческое использование: по запросу через форму NVIDIA Research Licensing

🟡Arxiv

🟡GitHub

@ai_machinelearning_big_data


#AI #ML #LLM #NVIDIA #GatedDeltaNet
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вот все, что произошло в AI Agents на этой неделе 🧵

@bigdatai
🔥 Jan — это открытая альтернатива ChatGPT, работающая полностью оффлайн на вашем устройстве!

🌟 Его цель — предоставить пользователям простой способ установки и использования больших языковых моделей (LLM) с полным контролем и конфиденциальностью. Jan поддерживает универсальные архитектуры, включая NVIDIA GPU, Apple M-серию, Apple Intel, Linux Debian и Windows x64.

💡 Основой Jan является Cortex, встраиваемый локальный AI-движок, способный работать на любом оборудовании. Jan предлагает библиотеку моделей с популярными LLM, такими как Llama, Gemma, Mistral и Qwen, а также возможность подключения к удаленным AI API, таким как Groq и OpenRouter. Кроме того, Jan предоставляет локальный API-сервер с интерфейсом, совместимым с OpenAI, и поддерживает расширения для кастомизации функционала.

🔐 Лицензия: AGPL-3.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
💥Релиз Qwen2.5-1M!

Теперь модель поддерживает контекст длиной 1 МИЛЛИОН ТОКЕН 🔥

⭐️ Доступны 2 модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M.

Доступен подробный технический отчет о серии Qwen2.5-1M! 📊

📖 Технический отчет: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
📄 Блог: https://qwenlm.github.io/blog/qwen2.5-1m/
🚀 Потестировать можно здесь: https://chat.qwenlm.ai
🤗 Huggingface: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
Modelscope: https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40

@bigdatai
🔥 ReaderLM-v2 — это языковая модель с 1.5 миллиарда параметров, специально разработанная для преобразования HTML в Markdown или JSON с высокой точностью!

🌟 Модель поддерживает до 29 языков и оптимизирована для работы с длинными контекстами (до 512 тыс. токенов, включая вход и выход). Она создана для задач, связанных с парсингом HTML, извлечением текстов и их преобразованием в структурированные форматы.

🔗 Ссылка: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🐋 DeepSeek только что выпустила еще одну модель ИИ с открытым исходным кодом, Janus-Pro-7B.

Она мультимодальная и выигрывает у OpenAI DALL-E 3 и Stable Diffusion на бенчмарках GenEval и DPG-Bench.

https://huggingface.co/deepseek-ai/Janus-Pro-7B

@ai_machinelearning_big_data


#ai #deepseek #opensource #Janus
Microsoft представляет: Chain-of-Retrieval Augmented Generation

- Наблюдается улучшение более чем на 10 баллов в оценке EM - Устанавливает новый уровень производительности SotA в широком спектре наукоемких задач

https://arxiv.org/abs/2501.14342
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Inference Providers on the Hub!

С сегодняшнего дня вы можете получить доступ к тысячам моделей, таким как DeepSeek R1, Llama, Flux, Whisper и прямо из Hugging Face!

https://huggingface.co/blog/inference-providers

#huggingface #ml #providers
MM-IQ: крупнейший бенчмарк для абстрактного визуального мышления

- 2710 образцов
- три формата ввода, шесть конфигураций задач и восемь моделей рассуждений
- таблица лидеров для оценки мультимодальных моделей

https://huggingface.co/datasets/huanqia/MM-IQ

@bigdatai
🔥 WILDCHAT-50M: крупнейший открытый набор данных c чатов

- 125 млн+ стенограмм чатов
- 1 млн+ разговоров
- Создано на основе WildChat
- Используется для создания RE-WILD SFT

Один из лучших открытых бенчмарков данной категории.

https://huggingface.co/collections/nyu-dice-lab/wildchat-50m-679a5df2c5967db8ab341ab7

@bigdatai
🔥 awesome-cursorrules — коллекция файлов .cursorrules, которые позволяют настраивать поведение искусственного интеллекта в редакторе кода Cursor AI!

🌟 Эти файлы определяют специфические правила для различных проектов, помогая адаптировать AI к стилю и потребностям разработки. Ресурс включает множество примеров для разных технологий и фреймворков, таких как React, Python, Go, а также для мобильной разработки и тестирования.

🔐 Лицензия: CC0-1.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 ppt2desc — это утилита командной строки, которая преобразует презентации PowerPoint (.pptx) в детализированные текстовые описания с использованием VLM!

🌟 Она не только извлекает текст со слайдов, но и анализирует визуальные элементы (графики, изображения, диаграммы), создавая их семантически точные описания. Это особенно полезно для создания альтернативных текстов, анализа контента и автоматизации обработки презентаций.

🔐 Лицензия: MIT

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 Rowfill — это платформа с открытым исходным кодом для извлечения и обработки данных из документов, PDF-файлов и изображений!

🌟 Она использует OCR, машинное обучение и искусственный интеллект для точного распознавания текста, таблиц и рукописного ввода. Rowfill позволяет автоматизировать рабочие процессы, создавая пользовательские сценарии обработки данных.

🔐 Лицензия: AGPL-3.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Первый Open Source аналог Deep Research от OpenAI.

Реализация ИИ-ресерчера, который непрерывно ищет информацию по запросу пользователя, пока система не убедится, что собрала все необходимые данные.

Для этого он использует несколько сервисов:

- SERPAPI: Для выполнения поиска в Google.
- Jina: Для получения и извлечения содержимого веб-страниц.
- OpenRouter (модель по умолчанию: anthropic/claude-3.5-haiku): Взаимодействует с LLM для генерации поисковых запросов, оценки релевантности страниц и понимания контекста.

🟢 Функции
- Итеративный цикл исследования: Система итеративно уточняет свои поисковые запросы.
- Асинхронная обработка: Поиск, парсинг веб-страниц и оценка контекста - выполняются параллельно для повышения скорости.
- Фильтрация дубликатов: Агрегирует и дедуплицирует ссылки в каждом цикле, проверяя, что одна и та же информация не будет обработана дважды.

Github
Google Colab

@ai_machinelearning_big_data


#opensource #llm #ai #ml #DeepResearcher
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Oumi — это открытая платформа для работы с фундаментальными моделями (LLM и мультимодальными), охватывающая полный цикл разработки: от подготовки данных и обучения до развертывания и оценки!

🌟 Она поддерживает современные техники, такие как LoRA, QLoRA, DPO и другие, позволяя обучать, тестировать и оптимизировать модели как локально, так и в облачных средах (AWS, GCP, Azure).

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/08 05:42:43
Back to Top
HTML Embed Code: