DL in NLP 1638 - Telegram Web

Prompts is the new “stack more layers”. Change my mind 🤡

👏31😁14💯5😢2🥱1

4.3K viewsVlad Lialin, 18:13

Очень странная новость от The Information о том что OpenAI планирует выпустить open-source LLM. К сожалению оригинальная новость за пейволом и тк я не готов платить $500 за чтение новостей будем читать перепечатки и гадать.

Зачем им может это быть нужно?
<натягиваем сову на глобус>
OpenAI всё-таки часть community и одна из их задач, в соответствии с OpenAI Charter это "create a global community working together to address AGI’s global challenges". Несмотря на мемы про ClosedAI часть проектов OpenAI всё-таки были заопенсоршены: PPO, gym, GPT2, Jukebox, CLIP, Tiktoken, Whisper, Shap-E, Point-E, пара датасетов для RLHF, Triton.

Кроме этого, LLaMA и другие сильные модели зарелижены без alignment и их можно использовать для генерации чего угодно. Я бы предположил что они будут релизить уже aligned модель, тк это больше согласуется с их подходом. Возможно хайп который поднимает вокруг себя OpenAI позволит сфокусировать внимание на этой модели и сделать так что больше людей будут использовать их модельку.
</натягиваем сову на глобус>

Новость звучит очень сас и я не готов ей прямо верить на 100%, но было бы интересно посмотреть на что-нибудь такое. Всё-таки конкуренция полезна не только для коммерческих компаний, но и для opensource решений.

UPD: саммари статьи

The Information

Open-Source AI Is Gaining on Google and ChatGPT

In February, Meta Platforms set off an explosion of artificial intelligence development when it gave academics access to sophisticated machine-learning models that can understand conversational language. Within weeks, the academics turned those models into…

👍15❤2

4.63K viewsVlad Lialin, edited 19:04

Neeva.com — платный поисковик без рекламы c фокусом на приватность — закрывается 😥
neeva.com/blog/may-announcement

Neeva появилась несколько лет назад, ещё до you.com и задолго до нового AI-поколения поисковиков. Я пользовался ими около полугода и был готов платить, но не был удовлетворён качеством поиска.

После начала ChatGPT-хайпа они были одними из первых кто внедрил LLM в поиск, после чего они заслуженно тролили гугл. Однако на фоне текущей рецессии neeva.com решил закрыться over the next few weeks.

Причины объясняют следующим образом:
We’ve discovered that it is one thing to build a search engine, and an entirely different thing to convince regular users of the need to switch to a better choice. ... Contrary to popular belief, convincing users to pay for a better experience was actually a less difficult problem compared to getting them to try a new search engine in the first place.

Все кто оплатили подписку получат рефанд, все пользовательские данные будут удалены.

Но в этой новости есть и немного позитива. Команда не распущена, она будет сконцентрирована на новых (неанонсированных) продуктах и направлениях развития на основе поиска + LLM + эффективного инференса.

RIP

P.S. Я после neeva год назад перешел на you.com и очень им доволен. Сейчас ещё активно посматриваю на perplexity.ai

😭22👍4😁2❤1🤔1

4.51K viewsVlad Lialin, edited 20:19

Intel 64-bit only architecture
intel.com/content/www/us/en/developer/articles/technical/envisioning-future-simplified-architecture.html

Кажется гигант задергался и после откровенно неудачных последних поколений процессоров, ухода Apple на свои ARM процессоры и слухов что другие сделают так же они решили убрать 40-летнее легаси из X86.

Новая архитектура называется X86S (Simplified) и в ней отказываются от поддержки 16-битных процессоров, промежуточных уровней доступа (ring1 и ring2), которые не используются современным hardware от слова совсем, 8259-прерывания и some unused operating system mode bits.

Честно я мало чего ожидаю от интела и мне кажется их эпоха уже на закате и через 10 лет мы про них даже не будем вспоминать. На данный момент например я пользуюсь их процессорами только в серверах, да и то там давит AMD. Но будем надеяться что та встряска которая идет последние несколько лет позволит гиганту опомниться и начинать делать что-то интересное.

Envisioning a Simplified Intel® Architecture

Intel investigated architectural enhancements and modifications for a 64-bit mode-only architecture.

👍11🫡6❤1

4.56K viewsVlad Lialin, edited 12:23

LIMA: Less Is More for Alignment
arxiv.org/abs/2305.11206

Внезапно в "давайте покажем что мы момжем так же как и GPT4 на 10 тестовых примерах" включились и серьёзные люди из META.
Показали что если зафайнтюнить LLaMA 65B на 1000 хорошо отобранных примеров, даже без RLHF, валидируясь на отложенных 50, можно получить модель сопоставимую с GPT4 на их 300 тестовых примерах.

Честно ну такое. Где нормальные сравнения моделей вы спросите? Их скорее всего ещё долго не будет, тк не думаю что результаты бенчмарка будут такие же если тестовую выборку сделать побольше и по-разнообразнее.

Из интересного, посмотрите на графики выше — GPT4 вроде бы весьма может выполнять функцию автоматической оценки качества моделей заметно хуже себя. А вот когда качество становится ближе (Claude) уже появляется сильный bias к предпочтению своих ответов.

👀13❤4

12.3K viewsVlad Lialin, 15:11

Восстание AI начинается (или нет?)

😁82👍6❤5🖕1

4.5K viewsVlad Lialin, 15:22

🤔30🥱4😁1🥴1

4.42K viewsVlad Lialin, 15:41

Просто 7b модель которую вы можете запустить локально на айфоне со скоростью 6 токенов/секунду. Ничего особенно, проходим дальше.

https://github.com/mlc-ai/mlc-llm/blob/main/ios/README.md

mlc-llm/ios/README.md at main · mlc-ai/mlc-llm

Universal LLM Deployment Engine with ML Compilation - mlc-ai/mlc-llm

🤯46👍5❤3

4.93K viewsVlad Lialin, edited 00:01

Forwarded from gonzo-обзоры ML статей

Sounds good

MMS: Massively Multilingual Speech.
- Can do speech2text and text2speech in 1100 languages.
- Can recognize 4000 spoken languages.
- Code and models available under the CC-BY-NC 4.0 license.
- half the word error rate of Whisper.

Code+Models: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
Paper:
https://scontent-lga3-2.xx.fbcdn.net/v/t39.8562-6/348836647_265923086001014_6878005808275791319_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=ae5e01&_nc_ohc=5exJiCqt0Y4AX9NNLzC&_nc_ht=scontent-lga3-2.xx&oh=00_AfDZGkLV3haLgAXkFFhYmxMG8D9J2WV1hKDqYAQNPW4-4g&oe=6471ACCF
Blog: https://ai.facebook.com/blog/multilingual-model-speech-recognition/

fairseq/examples/mms at main · facebookresearch/fairseq

Facebook AI Research Sequence-to-Sequence Toolkit written in Python. - facebookresearch/fairseq

👍20🔥5❤1🤯1

4.55K viewsVlad Lialin, 00:14

Forwarded from эйай ньюз

Наконец-то нормальный доклад про тренировку ChatGPT. Карпатый сделал вчера презу в Microsoft и хорошо раскидал.

От токенизации, до претрейна, supervised файнтюнинга и RLHF. И все это за 40 минут.

Доклад

@ai_newz

🔥48❤8👍6

4.61K viewsVlad Lialin, 09:59

Current Best Practices for Training LLMs from Scratch

Забавный документ от Wandb в котором описывают важные вещи для тренировки LLM:
1. Scaling laws, compute-optimal training
1. Data Parallelism, Tensor Parallelism, Pipeline parallelism
1. Data clearning, deduplication, and upsampling
1. Hyperparameters (high-level)
1. Evaluation
1. Instruction tuning, RLHF

Гайд оч классный, местами немного устаревший, например не обсуждает zero-redundancy opitmizers (DeepSpeed) или Chinchilla trap — если вам надо деплоить, модели выгодно тренировать на большем числе токенов чем оптимально. В общем даёт неплохой high-level overview.

❤10👍5

5.86K viewsVlad Lialin, 18:14

🤔1

5.66K viewsVlad Lialin, 18:14

6435aabdc0a041194b243eef_Current_Best_Practices_for_Training_LLMs.pdf

👍8🔥6⚡2👏1

6.53K viewsVlad Lialin, 18:14

Forwarded from Сиолошная

Подъехал свежий видео-мем про очередную ML-конференцию. Ссылка: https://fxtwitter.com/postrat_dril/status/1663177876605206528
Имхо в этот раз не так смешно, но с выпуска прошлого года я умирал со смеху (ознакомиться можно тут).
Пишите, сколько мемов и отсылок поняли!

Спасибо автору @j_links за наводку.

FixTweet / FixupX

postrat wint (@postrat_dril)

🔥4🥴2💋2

4.14K viewsVlad Lialin, 00:15

А теперь коротко о последних двух днях

😁21🔥3

5.32K viewsVlad Lialin, 00:16

Forwarded from DeepSchool

Как LLMs могут принимать сразу 100К токенов на вход?

Недавно несколько компаний объявили о возможности своих LLMs брать на вход аж до 100K токенов. Это промпт размером с книгу!
Для примера, OpenAI GPT-4 может брать 8-32K, а опен-сорсные модели всего 2K.

В новой статье Галя, выпускница нашего курса, разобрала техническую сторону вопроса и постаралась включить все основыне трюки, используемые MosaicML, Anthropic и Google.

В статье описаны:
- подробный вывод вычислительной сложности трансформера и ее влияние на стоимость обучения
- хитрые вычисления на GPU и Flash Attention, который недавно стал частью PyTorch
- нестандартный позиционный эмбеддинг ALiBi и почему нельзя было использовать оригинальный
- Multi-Query Attention, Sparse Attention и Условные вычисления

Читайте статью по ссылке и поддерживайте Галю 👏🏻 на Medium:
https://medium.com/gopenai/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

Задавайте вопросы Гале в комментариях к этому посту 👇

The Secret Sauce behind 100K context window in LLMs: all tricks in one place

tldr; techniques to speed up training and inference of LLMs to use large context window up to 100K input tokens during training and…

👍28🔥12❤4⚡2🤯1

5.64K viewsVlad Lialin, 17:36

Rack-mount MacPro и M2 Ultra с 198Gb unified RAM...

Кажется кто-то вспомнил что они умеют делать железо и Mac Server is back. Вангую на то что Apple уже эспериментирует с датацентрами на M2 Ultra вместо NVIDIA. Про примерение M2 Ultra к тренировке LLM сказали прямо на конференции. Интересно как они будут впихивать несколько M2 в один сервер и коммуникацию между серверами.

Unified RAM == GPU, CPU и Neural Engine используют одну и ту же память

👍33🤡10🔥7🥴2❤1

5.08K viewsVlad Lialin, 17:25

The Falcon has landed in the Hugging Face ecosystem
huggingface.co/blog/falcon

Хороший блогпост от 🤗 в который рассказывает про Falcon-40B — полностью опенсорсную модель (теперь веса тоже распространяются под Apache 2.0) от, внезапно, Technology Innovation Institute in Abu Dhabi.

Что классно, в посте не только говорят про то что модель есть, сколько её тренировали и какие метрики, но и рассказывает про:

1. Multi-Query Attention — разные головы используют одни и те же K и V, что сильно сокращает потребление памяти на длинных последовательностях (см картинку)
1. 8-bit и 4-bit inference — поддержка 4-bit уже есть в Transformers на main branch на гитхабе и наверное скоро зарелизится
1. 🤗 Text Generation Inference — готовый и обернутый в Docker сервер для инференса больших моделей
1. Файнтюнинг через PEFT и конкретно через QLoRA

Очень рекомедую почитать и поиграться всем кому интересна работа с большими моделями. Тут прямо всё самое свежее.

❤46🔥7👍6❤‍🔥3⚡2👌1

5.72K viewsVlad Lialin, 16:07

2025/07/11 23:41:45
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>