DL in NLP - Telegram Web

Forwarded from эйай ньюз

Не прошло и недели, а у Mistral новый релиз!

Новую "малую" модель NeMo тренировали совместно с Nvidia. У неё 12 миллиардов параметров, 128k контекста, инференс в fp8 без потери в качестве, сделана так, чтобы влезала в 4090.

NeMo - нативно мультиязычная модель, тренировали в том числе на русском, немецком, японском, китайском. И тут она конкурентов и в хвост, и в гриву. Обновили и токенизатор - он теперь на 36% эффективнее для русского, на 11% для английского, а на некоторых языках прирост по эффективности в 3-4 раза. Интересно, в токенах найдутся пасхалки?

С бенчами опять шалят: сравнивают только базовые модели, а бенчи для Instruct версий публикуют только специализированные, не общие.

Заметьте, как "малые" модельки растут в размере: 7B превратилось в 8, потом в 9, а сейчас уже 12

Веса
Блог

@ai_newz

11.4K viewsVlad Lialin, 16:17

Forwarded from эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Внимание! Hugging Face представляет конструктор «Собери сам роборуку и обучи ее»

Вкомплект входит:
- Конструктор «Собери сам» — роборука с ссылками для заказа запчастей ~ $300 (опционально есть еще вторая за $250) + файлы для принтера.
Гайды по:
- Cборке и калибровке.
- Записи собственного датасета на камеру телефона.
- Тренировке нейросетей для управления рукой.

Прикольная инициатива, ребята надеются максимально помочь начинающим в надежде привлечь больше рук (кожаных, а не робо-) в опен-сорс, что, в общем-то, шикарно!

Расходники вышли дороговатыми, но это уже не $108K за домашнего робогуманоида + скоро обещают выпустить новую версию, говорят уложились в $150 за обе руки.

Чел научил две роборуки складывать футболки на 100 примерах за одну ночь тренировки. Здесь для обучения используется способ, похожий на тот, что я описывал в посте про живую сталь. Там можно почитать подробнее.

Хотел бы я подарить такую штуку себе 15 лет назад.

Туториал на гитхабе
Тред с гайдом получше (есть и видео и ноутбуки с тренировкой нейронок)

@ai_newz

7.9K viewsVlad Lialin, 17:02

Антропик опубликовали систем промты Claude

https://docs.anthropic.com/en/release-notes/system-prompts

Я до сих пор не перестаю удивляться насколько сильно длина систем промта выросла и что в отличие от LLM предыдущего поколения (GPT3, OPT, BLOOM) промты стали выглядеть совсем как обычный текст который ты описываешь как будто общаешься с человеком.

Немного поорал с багфиксов «If Claude cannot or will not perform a task, it tells the user this without apologizing to them» и «Claude responds directly to all human messages without unnecessary affirmations or filler phrases like “Certainly!”, “Of course!”, “Absolutely!”, “Great!”, “Sure!”, etc»

System Prompts - Anthropic

See updates to the core system prompts on [Claude.ai](https://www.claude.ai) and the Claude [iOS](http://anthropic.com/ios) and [Android](http://anthropic.com/android) apps.

11.7K viewsVlad Lialin, edited 15:34

LeRobotDataset
huggingface.co/blog/video-encoding

HuggingFace потихоньку погружается в робототехнику и вчера они представили свой формат данных и даталоадер для рободанных.

В чём проблема? Большая часть рободанных это видео + syncronized time series. Видео это наибольшая проблема. Если хранить их в том же сжатом формате что мы обычно используем для просмотра, то чтение рандомных кадров будет очень медленным. Если хранить их в разжатом формате, то 1) занимает много места 2) очень нагружает ваш диск / сеть во врема чтения и легко упереться в лимиты железа

HF поглядели на ffmpeg, подкрутили настройки, и нашли отличный баланс между сжатием и скоростью чтения рандомных кадров. Обернули это в LeRobot и описали в блогпосте. Оч советую

12.1K viewsVlad Lialin, 18:48

Introducing NEO Beta
youtube.com/watch?v=bUrLuUxv9gE

Мы (1X Technologies) наконец-то показали нашего нового робота публично! Neo это наше второе (и на данный момент уже основное) поколение роботов. В отличие от Eve у Neo пять пальцев и две ноги, что позволяет решать гораздо больше задач. В отличие от других гуманоидных роботов Neo может безопасно находиться радом с людьми из-за compliant моторов, при этом он всё ещё обладает довольно большой силой, сопостовимой с другими гуманоидами (и может быть даже превосходящей некоторых). Надеюсь в ближайшее время мы пошерим больше деталей о том что уже сейчас может Neo.

(Продолжаю орать с комментариев о том что это человек в костюме, разработчики железа воспринимают это как комплемент пхпх)

Introducing NEO Beta | A Humanoid Robot for the Home

#1X #humanoid #neo

We are excited to introduce NEO Beta–the pre-production build of our home humanoid.

About 1X:
1X is an AI robotics company that develops safe, intelligent humanoid robots designed to work alongside humans. Founded in 2014, 1X is headquartered…

37.4K viewsVlad Lialin, edited 17:41

Media is too big

VIEW IN TELEGRAM

И ещё немного новостей о NEO. Собрал всё в батч чтобы не получилось так что канал всё время пишет о 1Х

1. Эпизод S3 где мы больше показываем что мы уже умеем и куда движемся: тык
1. Follow-up эпизод где мы деплоим Neo домой к Джейсону: тык
1. Часовое интервью с Бернтом. Больше технических деталей и больше о нашей стратегии. Кстати Бернт реально неплохо разбирается во всём техническом стаке компании. Он сам сделал наши моторы, периодически помогает с сервисом роботов когда нужны дополнительные руки. Оч советую: тык

1. Заметка Scott Walter об устройстве рук Neo и Оптимуса: тык
1. Подаст First Principles с Эриком, нашим VP of AI: тык

Мы работали над тем чтобы наконец-то показать Neo очень много, включая итерации над железом, controls, RL, остальным AI, и в конце-концов съемками чтобы получить perfect shot. Иногда по 15+ часов в день и без выходных (добро пожаловать в work-life balance кремниевой долины пхпх). Это очень круто осознавать что некоторые вещи которые тебе раньше казались фантастикой это всего лишь очень много работы а не невозможность.

Я всё ещё хочу держать баланс в канале между постами о моей работе и обзорами статей и новостей в NLP и робототехнике. Каждый пост не про NLP пинает меня чтобы сделать обзор новой статьи.

11.6K viewsVlad Lialin, edited 21:50

🍓
openai.com/index/learning-to-reason-with-llms

1. GPT-o1 это затюненая с помощью RL модель на улучшение reasoning (деталей как это сделано, конечно же нет)
1. Scaling c train-time compute (как долго делать RL) и test-time compute (как долго генерировать ответ) -- на текущих графиках никакого намёка на то чтобы модель выходила на плато 🔥
1. По сравнению с 4o на codeforces o1 получает 89 перцентиль вместо 11
1. В PhD-level GPTQA Diamond по физике pass@1 улучшили с 60% до 93%
1. По human preferences люди предпочитают o1 в 60% случаев в проге, и 70% в математике

Ждём когда будет доступно в chatgpt и API публично

9.8K viewsVlad Lialin, edited 17:29

Forwarded from эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Наткнулся в Твиттере на шикарную визуализацию LLM. Как выяснилось, ей уже целый год, но для новичков это все ещё полезная штука.

Кроме красивой 3D-модельки, здесь еще подробный гайд по работе каждого элемента, как говорит автор, до каждого "сложить и умножить".

По архитектурам там есть GPT-2, nanoGPT, GPT-2 XL, ну и GPT-3.

Ссылочка на визуализацию

@ai_newz

9.0K viewsVlad Lialin, 18:21

OpenDuck - очень классный проект по опенсорсной (хард+софт) реимплементации диснеевского робота

https://github.com/apirrone/Open_Duck_Mini

Очень мило. Буду следить за ними. А вот тут они уже умеют стоять: https://x.com/antoinepirrone/status/1835679313506562502

GitHub - apirrone/Open_Duck_Mini: Making a mini version of the BDX droid. https://discord.gg/UtJZsgfQGe

Making a mini version of the BDX droid. https://discord.gg/UtJZsgfQGe - apirrone/Open_Duck_Mini

13.2K viewsVlad Lialin, edited 03:42

https://x.com/hughbzhang/status/1838288923656941860?s=12&t=QgBLS4SmhE8cqdYBmhrqJA

11.2K viewsVlad Lialin, 08:09

O1 mini inference scaling experiments

Прикольное саммари экспериментов одного чела. Коротко: если убедить модель дольше думать (что пока что непросто) pass@1 реально будет расти лог-линейно. При этом это скорее всего не majority voting или self consistency тк эти методы упираются в потолок

12.6K viewsVlad Lialin, 08:09

Soumith Chintala (создатель pytorch) выдаёт базу о том как тренироваться на 10К GPU
x.com/soumithchintala/status/1841498799652708712

Оч короткий TL;DR (всем рекомендую прочитать оригинал, он не длинный)

1. Maximize batch size and GPU utilization: 3D parallelism + gradient checkpointing
1. Overlap communication, e.g. while N-1th layer is computing backward, all GPUs with an Nth layer can all-reduce
1. Optimize for your GPU cluster network topology

1. Failure recovery, at 10k GPU scale, things fail all the time -- GPUs, NICs, cables, etc
1. At 10K scale bit flips actually become a problem and can cause loss explosions. Save your model state as frequently and as quickly as you can. To speed it up save it in shards and to CPU memory first and then in a seaprate thread write to disk

12.8K viewsVlad Lialin, edited 16:46

Почему не стоит верить nvidia-smi “GPU utilization”
arthurchiao.github.io/blog/understanding-gpu-performance/

Nvidia использует очень особый способ определения утилизации GPU. 100% означают не что девайс загружен на 100%, а что хотя бы одно ядро было использовано хотя бы чуть-чуть 100% времени за последние N (мили)секунд

Очень яркий пример это примитивы синхронизации: когда вы вызываете torch.barrier GPU Utilization становится 100% при том что на самом деле железо просто «активно ждет».

Для реальной оценки загруженности GPU лучше использовать SM Occupancy которая показывает средний процент загрузки ядер GPU (то что я бы изначально ожидал увидеть от utilization честно говоря).

Для этого рекомендуют использовать dcgm-exporter

ml-engineering/compute/accelerator/nvidia/debug.md at master · stas00/ml-engineering

Machine Learning Engineering Open Book. Contribute to stas00/ml-engineering development by creating an account on GitHub.

18.9K viewsVlad Lialin, 16:08

Но дадут ли нобелевку по литературе за Deep Learning Book

15.5K viewsVlad Lialin, 18:51

Programming Massively Parallel Processors
https://a.co/d/6QEiuCq

Наткнулся на книгу которая кажется весьма известна в мире GPU-программирования. Она довольно детально погружается в Nvidia GPU и CUDA. В четвертом издании (2022 года) ещё и добавили современные архитектуры: Ampere (A100) и Hopper (H100). Это важно тк архитектуры довольно сильно изменились с 2016 года.

Очень надеюсь просмотреть хотя бы по-диагонали и найти что-то полезное для себя, но вообще выглядит что если хотите низкоуровнево прогать на GPU это must read.

Если погуглить четвертое издание то можно найти и более бесплатные альтернативы амазону

12.3K viewsVlad Lialin, 23:16

Всем приветики. Давно не было постов, тк становится всё сложнее вести канал. Не буду обещать что исправлюсь, но буду постить когда есть что-то о чём другие каналы не говорят достаточно.

И сегодня будут не новости (о ChatGPT Operator можете прочитать где угодно), а открытая позиция на PhD студента в моей старой лабе в UMass Lowell - Text Machine Lab.

Это NLPшная позиция с довольно широким спектром того чем можно заниматься: от interpretability и prompting до alignment, мультимодальных моделей, low-rank training, PEFT итд. Глава лабы - Prof. Anna Rumshisky исследователь в UMass Lowell, MIT и в Amazon Alexa AI/Amazon AGI. Например, она один из авторов Amazon Nova

Требования: релевантный бакалавриат+магристратура/специалитет, хорошее понимание линейной алгебры, анализа, вероятности, базовые знания Deep Learning и NLP. Большим плюсом будут опубликованные статьи (включая воркшопы), но строгого требования на них нет.

Позиция fully funded - ваше обучение будет покрыто полностью и вам будут платить стипендию которой достаточно для проживания в Массачусеттсе.

Для подачи высылайте ваше CV и короткое cover letter на [email protected]. Для попадания в поток 2025 надо сделать это до 15 февраля

Если хотите прочитать про мою историю поступления и первые дни в США, я в 2019 писал об этом серию постов и вот первый: telegra.ph/CHast-1-Postuplenie-08-24

14.7K viewsVlad Lialin, edited 21:40

Forwarded from gonzo-обзоры ML статей

В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1

newsletter.languagemodels.co

The Illustrated DeepSeek-R1

A recipe for reasoning LLMs

9.2K viewsVlad Lialin, 21:38

https://www.youtube.com/watch?v=uVcBa6NXAbk

https://www.1x.tech/discover/introducing-neo-gamma

Introducing NEO Gamma | Another Step Closer to Home

NEO Gamma is the next generation of home humanoids designed and engineered by 1X Technologies. The Gamma series includes improvements across NEO’s hardware and AI, featuring a new design that is deeply considerate of life at home. The future of Home Humanoids…

7.5K viewsVlad Lialin, edited 19:52

2025/06/19 04:55:11
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>