CycleGuardian: A Framework for Automatic RespiratorySound classification Based on Improved Deep clustering and Contrastive Learning
🖥 Github: https://github.com/chumingqian/CycleGuardian
📕 Paper: https://arxiv.org/abs/2502.00734v1
🌟 Dataset: https://paperswithcode.com/dataset/icbhi-respiratory-sound-database
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/icbhi-respiratory-sound-database
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥1
🌟 Dataset: https://paperswithcode.com/task/image-relighting
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2
FinRL-DeepSeek: LLM-Infused Risk-Sensitive Reinforcement Learning for Trading Agents
🖥 Github: https://github.com/benstaf/finrl_deepseek
📕 Paper: https://arxiv.org/abs/2502.08590v1
🌟 Colab: https://colab.research.google.com/github/benstaf/FinRL_DeepSeek/blob/main/FinRL_DeepSeek_backtest.ipynb
@ArtificialIntelligencedl
🌟 Colab: https://colab.research.google.com/github/benstaf/FinRL_DeepSeek/blob/main/FinRL_DeepSeek_backtest.ipynb
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥1😁1
Bayesian Sample Inference
🖥 Github: https://github.com/martenlienen/bsi
📕 Paper: https://arxiv.org/abs/2502.07580
🌟 Dataset: https://paperswithcode.com/dataset/cifar-10
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/cifar-10
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4🔥1
Forwarded from Machinelearning
GitHub Copilot для Xcode Chat стал доступен для публичного превью. Для начала работы достаточно учетной записи GitHub.
GitHub Copilot – это ИИ-ассистент, который помогает разработчикам писать код быстрее и точнее. Теперь, помимо дописывания кода, GitHub Copilot для Xcode предлагает интеллектуальные предложения для конкретных задач через интерактивный чат.
Для доступа к GitHub Copilot для Xcode потребуется лицензия Copilot. Есть бесплатный доступ, включающий 2000 итераций автозавершения кода и 50 чат-запросов в месяц.
devblogs.microsoft.com
SWE-Lancer позиционируется как инструмент оценки производительности языковых моделей в задачах программирования для фрилансеров. Он основан на 1400 фриланс-задачах, собранных из Upwork и репозитория Expensify. Задания варьируются от исправления незначительных ошибок до внедрения крупных функций.
SWE-Lancer предназначен для оценки как отдельных исправлений кода, так и управленческих решений, где модели должны выбирать лучшее предложение из нескольких вариантов. Одной из сильных сторон SWE-Lancer является использование сквозных тестов вместо изолированных модульных операций. Репозиторий бенчмарка ожидается в ближайшее время.
arxiv.org
X (ех-Twitter) значительно повысила цену на план подписки Premium+, дающий доступ к Grok 3 от xAI. Она подорожала почти до 50 долларов в месяц.
Теперь, чтобы пользоваться "deep search" и "reasoning", надо оформить отдельный план SuperGrok через приложение Grok.
Согласно сайту поддержки X, месячная подписка на Premium+ в США теперь стоит 50 долларов, а годовая – 350 долларов. Это уже второе повышение цен на план Premium+ за последние пару месяцев. В декабре компания подняла цену с 16 до 22 долларов в месяц. Таким образом, новая цена более чем вдвое превышает текущую стоимость подписки.
techcrunch.com
NSA (Natively Sparse Attention) — новый механизм внимания, предложенный на заменуFull Attention, который значительно ускоряет обработку длинных последовательностей текста без потери качества модели.
NSA использует динамическую иерархическую стратегию, которая сочетает сжатие токенов на грубом уровне с точным отбором ключевых токенов. Это позволяет сохранить глобальное понимание контекста и локальную точность. NSA поддерживает сквозное обучение, совместим с GQA и MQA, что делает его пригодным не только для инференса, но и для обучения.
Модели, обученные с использованием NSA показали 9х ускорение при прямом распространении и 6х при обратном для последовательностей длиной 64к токенов относительно Full Attention. В декодировании - 11х.
arxiv.org
Мира Мурати, ex-CTO OpenAI, покинула свой пост в сентябре 2024, заявив о желании "создать время и пространство для собственных исследований". И вот стало известно, что она – CEO компании Thinking Machines Lab. Ее миссия – разработка первоклассного AI, полезного и доступного для всех.
В команду Thinking Machines Lab вошли известные исследователи и ученые, в основном из OpenAI. Среди них – экс-вице-президент по исследованиям Баррет Зоф, руководитель по мультимодальным исследованиям Александр Кириллов, руководитель специальных проектов Джон Лакман и ведущий исследователь Люк Мец. Главным научным сотрудником станет Джон Шульман, один из ключевых создателей ChatGPT, ранее работавший в OpenAI и Anthropic. Есть специалисты из Google и Mistral AI.
Команда уже работает над рядом проектов в офисе в Сан-Франциско. Хотя конкретные продукты пока неясны, Thinking Machines Lab не планирует создавать копии ChatGPT или Claude. Цель – AI-модели, оптимизирующие сотрудничество между человеком и AI, что Мурати считает главным препятствием в развитии отрасли.
wired.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
Bridging Text and Vision: A Multi-View Text-Vision Registration Approach for Cross-Modal Place Recognition
🖥 Github: https://github.com/nuozimiaowu/Text4VPR
📕 Paper: https://arxiv.org/abs/2502.14195v1
🌟 Dataset: https://paperswithcode.com/task/cross-modal-place-recognition
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/task/cross-modal-place-recognition
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🔥1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Мощная архитектура yf 14 млрд параметров
Модель способна детально прорабатывать сцены и динамику, генерируя высококачественные видео, где каждая деталь выглядит реалистично.
Модель поддерживает:
- Text-to-Video: генерация видео по текстовым запросам.
Image-to-Video: преобразование статических изображений в анимированные видеоролики.
- Видео-редактирование: внесение изменений в уже существующие видео.
- Text-to-Image: создание изображений на основе текста.
- Video-to-Audio: синтез аудио, соответствующих содержанию видео.
Такая универсальность делает модель полезной для широкого спектра приложений.
Использование видео VAE (вариационного автоэнкодера)
В основе модели лежит мощный видео VAE, который эффективно кодирует и декодирует видеоконтент. Это позволяет:
- Обрабатывать видео высокого разрешения (до 1080p).
- Сохранять временную динамику и последовательность кадров.
- Обеспечивать плавное и согласованное воспроизведение движения.
- Оптимизация для потребительских видеокарт
Несмотря на свои масштабы, модель оптимизирована для работы на современных GPU.
Например, версия T2V-1.3B требует всего 8,19 ГБпамяти и способна генерировать 5-секундное видео с разрешением 480p примерно за 4 минуты на RTX 4090 без применения дополнительных оптимизаций.
Как работает:
▪Ввод данных: Пользователь может задать текстовое описание, предоставить изображение или даже видео, в зависимости от задачи.
▪Кодирование: Виде VAE преобразует входные данные в компактное представление, сохраняя при этом критически важную информацию о сцене и динамике.
▪Генерация: На основе этого представления и с использованием огромного количества параметров модель генерирует новый видеоряд, который соответствует заданному описанию или образцу.
▪Декодирование: Затем VAE декодирует это представление обратно в полноценное видео, где соблюдаются все временные и визуальные детали.
Таким образом, Wan2.1-T2V-14B выделяется своей способностью не только создавать качественные видео по текстовому описанию, но и решать множество сопутствующих задач (от редактирования до генерации аудио), оставаясь при этом оптимизированной для работы на доступном оборудовании.
Это делает её одной из самых перспективных разработок в области генеративного видео на сегодняшний день.
@ai_machinelearning_big_data
#TexttoVideo #ai #ml #video #wanai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1👎1
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement
🖥 Github: https://github.com/thu-coai/AISafetyLab
📕 Paper: https://arxiv.org/abs/2502.16776v1
🌟 Dataset: https://paperswithcode.com/dataset/gptfuzzer
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/gptfuzzer
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥1
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation
🖥 Github: https://github.com/EnVision-Research/Kiss3DGen
📕 Paper: https://arxiv.org/abs/2503.01370v1
🌟 Dataset: https://paperswithcode.com/dataset/nerf
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/nerf
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4👎1🔥1
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement
🖥 Github: https://github.com/dvlab-research/Seg-Zero
📕 Paper: https://arxiv.org/abs/2503.06520v1
🌟 Dataset: https://paperswithcode.com/dataset/refcoco
📌 Model: https://huggingface.co/Ricky06662/Seg-Zero-7B
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/refcoco
📌 Model: https://huggingface.co/Ricky06662/Seg-Zero-7B
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥1
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement
🖥 Github: https://github.com/yunncheng/MMRL
📕 Paper: https://arxiv.org/abs/2503.08497v1
🌟 Dataset: https://paperswithcode.com/dataset/imagenet-s
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/imagenet-s
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
⚡️ TxAgent: An AI agent for therapeutic reasoning across a universe of tools
🖥 Github: https://github.com/mims-harvard/TxAgent
📕 Paper: https://arxiv.org/abs/2503.10970v1
🌟 Methods: https://paperswithcode.com/method/align
@ArtificialIntelligencedl
🌟 Methods: https://paperswithcode.com/method/align
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2
⚡️ MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling
🖥 Github: https://github.com/hustvl/MaTVLM
📕 Paper: https://arxiv.org/abs/2503.13440v1
🌟 Methods: https://paperswithcode.com/method/speed
@ArtificialIntelligencedl
🌟 Methods: https://paperswithcode.com/method/speed
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥1
Forwarded from Machinelearning
Anthropic объявила о запуске новой функции веб-поиска для Claude. Теперь ИИ способен анализировать актуальные данные из интернета, предоставляя ответы с прямыми ссылками на источники. Это позволяет не только повысить достоверность информации, но и упростить проверку фактов.
Поиск доступен в режиме Preview для платных подписчиков в США, но в ближайшие месяцы ожидается глобальное расширение. Для активации ye;yj включить опцию в настройках профиля и начать диалог с Claude 3.7 Sonnet — система сама определит, когда требуется обращение к веб-источникам
anthropic.com
Hugging Face представила приложение HuggingSnap для iOS, использующее локальную Smolvlm2 для анализа изображений в реальном времени без подключения к сервису. В отличие от облачных аналогов, HuggingSnap обрабатывает данные исключительно на устройстве, экономя заряд устройства и гарантируя конфиденциальность. Пользователи могут получать описания объектов, сцен, текстов и сложных визуальных контекстов.
Для работы требуется iOS 18, но приложение также совместимо с macOS и Apple Vision Pro. По словам разработчиков, HuggingSnap-это пример, как локальный ИИ может стать повседневным инструментом.
techcrunch.com
Google активно тестирует интеграцию ИИ-ассистента Gemini в браузер Chrome, стремясь вывести его за рамки веб-сайта. Как выяснили исследователи, функционал разместят в верхней части окна — рядом с кнопками управления. В настройках появится возможность назначить горячие клавиши или активировать ассистент через меню. При запуске Gemini будет открываться в отдельном плавающем окне. Кроме того, Google планирует вынести иконку ассистента в системный трей — запускать его можно будет прямо с панели задач, хотя для работы потребуется активный Chrome.
Пока функция доступна лишь в экспериментальных сборках, а ее стабильность оставляет желать лучшего. Ясно одно - Google намерен конкурировать с Microsoft, предлагая свой подход к интеграции ИИ в повседневные инструменты.
windowslatest
Moonshot AI совместно с Гонконгским университетом анонсировали AudioX — универсальную модель на базе Diffusion Transformer, способную генерировать высококачественное аудио и музыку из текста, видео, изображений или их комбинаций. Главная инновация — стратегия маскирования входных данных, которая усиливает обучение кросс-модальных представлений.
Возможности AudioX: генерация любых звуков на основе текста, видео и их комбинаций (текстовый промпт к видео), восстановление "потерянной" части аудио, генерация музыки на основе текста, видео и их комбинации и "аутпейнт" существующего аудио.
Тесты AudioX: лучшая в 15+ задачах, включая генерацию звука по видео (VGGSound) и создание музыки по тексту (MusicCaps). На FAD и KL-дивергенции модель показала улучшение на 12–35% против Tango 2 и AudioLDM.
Веса и код - coming soon.
zeyuet.github
Microsoft Research представил Claimify — систему, которая решает проблему недостоверных ответов ИИ, извлекая из текстов только верифицируемые утверждения. Метод основан принципах: исключение субъективных суждений, сохранение критического контекста, устранение двусмысленностей, самостоятельность утверждений и др. Результаты тестов показывают, что 99% утверждений, извлечённых Claimify, полностью соответствуют исходному контексту.
microsoft
Это первая модель, работающая а реальном времени: 60+ mAP на COCO. SOTA на бенчмарке RF100-VLRF-DETR.
Github
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3
PiEEG kit - bioscience Lab in home for your Brain and Body
🖥 Github: https://github.com/pieeg-club/PiEEG_Kit
📕 Paper: https://arxiv.org/abs/2503.13482
🌟 Methods: https://paperswithcode.com/task/eeg-1
@ArtificialIntelligencedl
🌟 Methods: https://paperswithcode.com/task/eeg-1
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥1
FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models
🖥 Github: https://github.com/nick7nlp/FastCuRL
📕 Paper: https://arxiv.org/abs/2503.17287v1
🌟 Tasks: https://paperswithcode.com/task/language-modeling
@ArtificialIntelligencedl
🌟 Tasks: https://paperswithcode.com/task/language-modeling
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Optimal Stepsize for Diffusion Sampling(OSS)
🖥 Github: https://github.com/bebebe666/optimalsteps
📕 Paper: https://arxiv.org/abs/2503.21774v1
🌟 Tasks: https://paperswithcode.com/task/denoising
@ArtificialIntelligencedl
🌟 Tasks: https://paperswithcode.com/task/denoising
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤3🔥1