Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
DeepSeek представили Fife-Flyer File System (3FS) – параллельную файловую систему, способную использовать всю пропускную способность современных SSD и RDMA-сетей.
• 6.6 TiB/s – суммарная скорость чтения в 180-узловом кластере
• 3.66 TiB/min – пропускная способность на GraySort в 25-узловом кластере
• 40+ GiB/s – пик производительности KVCache lookup на одном клиентском узле
Архитектура 3FS дезагрегирована и обеспечивает строгую согласованность, что делает её незаменимой для задач предварительной обработки данных, загрузки датасетов, сохранения контрольных точек и быстрого поиска эмбеддингов во время инференса (V3/R1).
Показатели 3FS демонстрируют, что будущее обработки данных лежит в использовании распределенных и дезагрегированных архитектур, где каждая компонента системы работает на максимуме своих возможностей.
В дополнение к Fife-Flyer File System, представлен Smallpond – фреймворк для обработки данных на базе этой системы, который помогает ещё больше упростить рабочие процессы с большими объёмами информации.
▪3FS → github.com/deepseek-ai/3FS
▪Smallpond → github.com/deepseek-ai/smallpond
@ai_machinelearning_big_data
#OpenSourceWee #DeepSeek #Smallpond #3FS #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Наши друзья из ecom.tech запустили видео-подкаст “AI в действии”. В нем они говорят о свежих новостях в мире DS, о трендах и о том, как наука может найти свое применение в бизнесе.
Ведущий подкаста — Петр Лукьянченко, руководитель ML-департамента в eсom.teсh.
Уже опубликовали два эпизода: в первом гостем был Алексей Масютин, руководитель Центра Искусственного интеллекта НИУ ВШЭ. Порассуждали о том, как сегодня начинать свой путь в data science, что представляет из себя DS в крупных IT-компаниях и даже успели немного погрузиться в специфику разработки и развития мультимодальных архитектур.
Гостем второго выпуска стал Юрий Дорн, руководитель программы AI Masters в Институте ИИ МГУ.
В этой части говорили о том, где заканчивается теория и начинается практика в DS. Когда нужно перестать читать книги и начать писать код? Что нужно знать, чтобы быть классным специалистом? А может быть, теория переоценена и нужно сразу идти соревноваться на kaggle? Постарались сформулировать набор советов для тех, кто думает, с какой стороны подступиться к изучению Data Science и как правильно найти учебный материал, подходящий под конкретную ситуацию.
Первый эпизод:
🙂 Смотреть
🙂 Слушать
Второй эпизод:
🙂 Смотреть
🙂 Слушать
Реклама. ООО «Умное пространство», ИНН: 7811554010. Ерид: 2W5zFJ36FGU
Ведущий подкаста — Петр Лукьянченко, руководитель ML-департамента в eсom.teсh.
Уже опубликовали два эпизода: в первом гостем был Алексей Масютин, руководитель Центра Искусственного интеллекта НИУ ВШЭ. Порассуждали о том, как сегодня начинать свой путь в data science, что представляет из себя DS в крупных IT-компаниях и даже успели немного погрузиться в специфику разработки и развития мультимодальных архитектур.
Гостем второго выпуска стал Юрий Дорн, руководитель программы AI Masters в Институте ИИ МГУ.
В этой части говорили о том, где заканчивается теория и начинается практика в DS. Когда нужно перестать читать книги и начать писать код? Что нужно знать, чтобы быть классным специалистом? А может быть, теория переоценена и нужно сразу идти соревноваться на kaggle? Постарались сформулировать набор советов для тех, кто думает, с какой стороны подступиться к изучению Data Science и как правильно найти учебный материал, подходящий под конкретную ситуацию.
Первый эпизод:
Второй эпизод:
Реклама. ООО «Умное пространство», ИНН: 7811554010. Ерид: 2W5zFJ36FGU
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
IT_ONE Cup. ML Challenge от IT_ONE и Sk FinTech Hub — создай AI-ассистента, который будет помогать в работе дизайнерам, системным и бизнес-аналитикам. Участвуй онлайн с 12 по 29 апреля и поборись за 1 500 000 рублей.
Регистрация открыта до 11 апреля
Твоя формула победы:
✅ Разбираешься в машинном обучении.
✅ На ты с NLP и LLM.
✅ Концептуально понимаешь принципы работы веб-приложений.
Также приглашаем Backend и Frontend-разработчиков, системных и бизнес-аналитиков, UI/UX-дизайнеров. Участвуй онлайн соло или командой до 5 человек.
Задачи IT_ONE Cup. ML Challenge:
🔤 Динамические контекстные подсказки для системного аналитика.
🔤 AI-генератор дизайн-макетов по описанию требований.
🔤 Система визуализации BPMN-диаграмм.
4 апреля приходи на митап с экспертами соревнования — задай вопросы и узнай больше о задачах.
Создай AI-ассистента, который облегчит выполнение рабочих задач — регистрируйся на IT_ONE Cup. ML Challenge
Регистрация открыта до 11 апреля
Твоя формула победы:
Также приглашаем Backend и Frontend-разработчиков, системных и бизнес-аналитиков, UI/UX-дизайнеров. Участвуй онлайн соло или командой до 5 человек.
Задачи IT_ONE Cup. ML Challenge:
4 апреля приходи на митап с экспертами соревнования — задай вопросы и узнай больше о задачах.
Создай AI-ассистента, который облегчит выполнение рабочих задач — регистрируйся на IT_ONE Cup. ML Challenge
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
MatAnyOne - memory-based модель для видео-маттинга, разработанная для получения стабильных и точных результатов в сценариях реального постпродакшена. В отличие от методов, требующих дополнительного аннотирования, MatAnyOne использует только кадры видео и маску сегментации целевого объекта, определенную на первом кадре.
MatAnyOne оперирует регионально-адаптивным слиянием памяти, где области с небольшими изменениями сохраняют данные из предыдущего кадра, а области с большими изменениями больше полагаются на информацию из текущего кадра. Такая техника позволяет MatAnyOne эффективно отслеживать целевой объект, даже в сложных и неоднозначных сценах, сохраняя при этом четкие границы и целые части переднего плана.
При создании модели применялась уникальная стратегия обучения, которая опирается на данные сегментации для улучшения стабильности выделения объекта. В отличие от распространенных практик, MatAnyOne использует эти данные непосредственно в той же ветви, что и данные маски. Это достигается путем применения регионально-специфичных потерь: пиксельная потеря для основных областей и улучшенная DDC-потеря для граничных областей.
Для обучения был специально создан кастомный набор данных VM800, который вдвое больше, разнообразнее и качественнее, чем VideoMatte240K, что по итогу значительно улучшило надежность обучения объектному выделению на видео.
В тестах MatAnyOne показал высокие результаты по сравнению с существующими методами как на синтетических, так и на реальных видео:
⚠️ Согласно обсуждению в
issues
репозитория, MatAnyOne способен работать локально от 4 GB VRAM и выше с видео небольшой длительности. Реальных технических критериев разработчик не опубликовал.# Clone Repo
git clone https://github.com/pq-yang/MatAnyone
cd MatAnyone
# Create Conda env and install dependencies
conda create -n matanyone python=3.8 -y
conda activate matanyone
pip install -e .
# Install python dependencies for gradio
pip3 install -r hugging_face/requirements.txt
# Launch the demo
python app.py
@ai_machinelearning_big_data
#AI #ML #VideoMatte #MatAnyone
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👨🎓 Новый конкурс по анализу данных от Stanford RNA 3D Folding на Kaggle
На Kaggle вышло новое соревнование — Stanford RNA 3D Folding, которое с задачей: предсказать трёхмерную конфигурацию РНК-молекул.
Почему это важно?
РНК играет ключевую роль в регуляции генетической информации, а точное знание её пространственной структуры имеет огромное значение для понимания биологических процессов, разработки новых лекарств и даже борьбы с инфекционными заболеваниями.
Несмотря на успехи в предсказании белковых структур (например, благодаря AlphaFold), предсказание 3D-конформации РНК остаётся одной из самых сложных задач в современной молекулярной биологии.
Суть соревнования:
Участникам предлагается разработать алгоритмы, способные эффективно моделировать и предсказывать трёхмерную структуру РНК, используя предоставленные наборы данных и экспериментальные результаты. В основе задачи лежит необходимость учитывать как вторичную структуру (базовое парование нуклеотидов), так и сложные третичные взаимодействия, которые определяют окончательную форму молекулы.
💰 Призовой фонд: $75,000
Что получает участник?
Предсказания 3D-конформаций РНК может значительно ускорить разработку новых терапевтических средств и методов лечения. Успешные модели могут стать фундаментом для дальнейших исследований в генетике, синтезе лекарственных препаратов и изучении сложных биологических процессов. Кроме того, участие в таком соревновании предоставляет уникальную возможность обмена знаниями и сотрудничества с ведущими экспертами в данной области.
https://kaggle.com/competitions/stanford-rna-3d-folding
На Kaggle вышло новое соревнование — Stanford RNA 3D Folding, которое с задачей: предсказать трёхмерную конфигурацию РНК-молекул.
Почему это важно?
РНК играет ключевую роль в регуляции генетической информации, а точное знание её пространственной структуры имеет огромное значение для понимания биологических процессов, разработки новых лекарств и даже борьбы с инфекционными заболеваниями.
Несмотря на успехи в предсказании белковых структур (например, благодаря AlphaFold), предсказание 3D-конформации РНК остаётся одной из самых сложных задач в современной молекулярной биологии.
Суть соревнования:
Участникам предлагается разработать алгоритмы, способные эффективно моделировать и предсказывать трёхмерную структуру РНК, используя предоставленные наборы данных и экспериментальные результаты. В основе задачи лежит необходимость учитывать как вторичную структуру (базовое парование нуклеотидов), так и сложные третичные взаимодействия, которые определяют окончательную форму молекулы.
💰 Призовой фонд: $75,000
Что получает участник?
Предсказания 3D-конформаций РНК может значительно ускорить разработку новых терапевтических средств и методов лечения. Успешные модели могут стать фундаментом для дальнейших исследований в генетике, синтезе лекарственных препаратов и изучении сложных биологических процессов. Кроме того, участие в таком соревновании предоставляет уникальную возможность обмена знаниями и сотрудничества с ведущими экспертами в данной области.
https://kaggle.com/competitions/stanford-rna-3d-folding
Forwarded from Machinelearning
MASi3R-SLAM - проект, который умеет строить детальные 3D-карты окружающей среды и отслеживать движение камеры в реальном времени без предварительной калибровки. Система работает даже с изменяющимися во аремени параметрами, например, при зумировании или оптических искажениях.
Основа MASi3R-SLAM - алгоритм, использующий модели DUSi3R и MASi3R для восстановления геометрии сцены по 2 изображениям. DUSi3R анализирует пары изображений, предсказывая детальные карты 3D-точек в общей системе координат, а MASi3R дополнительно генерирует дескрипторы для каждого пикселя, повышая точность сопоставления даже при большом смещении кадров.
Полученные данные от моделей обрабатывает уникальный алгоритм, который анализирует «карты точек», прогнозируемые нейросетью, и находит соответствия между кадрами за 2 миллисекунды, что в 40 раз быстрее аналогов.
В тестировании на наборах TUM RGB-D и EuRoC, показали: MASi3R-SLAM превосходит DROID-SLAM и другие системы по точности траектории (средняя ошибка — 3 см) и детальности 3D-моделей.
На сегодняшний день основное ограничение MASi3R-SLAM — скорость декодера из-за его вычислительной нагрузки: полный цикл обработки одного ключевого кадра занимает в среднем 26–27 миллисекунд, что примерно 64% общего времени работы паплайна.
Например, при разрешении 512 пикселей по длинной стороне декодер MASi3R тратит до 2 секунд на глобальный поиск соответствий, тогда как алгоритм сопоставления сокращает это время до 2 мс. На выходе создается «бутылочное горлышко», которое ограничивает частоту кадров до 15 FPS.
⚠️ Перед установкой необходимо загрузить модели и установить версию Pytorch, соответствующую установленной версии CUDA.
# Create Conda env
conda create -n mast3r-slam python=3.11
conda activate mast3r-slam
# Clone Repo
git clone https://github.com/rmurai0610/MASt3R-SLAM.git --recursive
cd MASt3R-SLAM/
# Install dependencies
pip install -e thirdparty/mast3r
pip install -e thirdparty/in3d
pip install --no-build-isolation -e .
# Launch Live demo with camera
python main.py --dataset realsense --config config/base.yaml
# Or running on a MP4 video
python main.py --dataset <path/to/video>.mp4 --config config/base.yaml
python main.py --dataset <path/to/folder> --config config/base.yaml
@ai_machinelearning_big_data
#AI #ML #CV #3D #SLAM #Robotics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📍Геоданные и временные ряды в Spark: хаос или порядок?
GPS-координаты, карты, временные метки — данные есть, но как с ними работать? Стандартные методы тормозят, запросы громоздкие, аналитика требует вечности.
💡Есть решение. На открытом вебинаре «Обработка геопространственных и временных данных на Spark» 11 марта в 20:00 (мск):
- Разберём пространственные данные: координаты, маршруты, карты
- Научимся анализировать временные ряды с трендами и предсказаниями
- Проанализируем реальные кейсы: GPS-данные, сенсоры IoT, анализ движения
📢 Спикер Вадим Заигрин — опытный разработчик, Data Engineer и Data Scientist. Team Lead команд инженеров данных на разных проектах.
Все участники получат скидку на большое обучение «Spark Developer».
➡️ Регистрируйтесь, чтобы не пропустить: https://otus.pw/0511/?erid=2W5zFJ2oTBv
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
GPS-координаты, карты, временные метки — данные есть, но как с ними работать? Стандартные методы тормозят, запросы громоздкие, аналитика требует вечности.
💡Есть решение. На открытом вебинаре «Обработка геопространственных и временных данных на Spark» 11 марта в 20:00 (мск):
- Разберём пространственные данные: координаты, маршруты, карты
- Научимся анализировать временные ряды с трендами и предсказаниями
- Проанализируем реальные кейсы: GPS-данные, сенсоры IoT, анализ движения
📢 Спикер Вадим Заигрин — опытный разработчик, Data Engineer и Data Scientist. Team Lead команд инженеров данных на разных проектах.
Все участники получат скидку на большое обучение «Spark Developer».
➡️ Регистрируйтесь, чтобы не пропустить: https://otus.pw/0511/?erid=2W5zFJ2oTBv
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.