Prompts is the new “stack more layers”. Change my mind 🤡
👏31😁14💯5😢2🥱1
Очень странная новость от The Information о том что OpenAI планирует выпустить open-source LLM. К сожалению оригинальная новость за пейволом и тк я не готов платить $500 за чтение новостей будем читать перепечатки и гадать.
Зачем им может это быть нужно?
OpenAI всё-таки часть community и одна из их задач, в соответствии с OpenAI Charter это "create a global community working together to address AGI’s global challenges". Несмотря на мемы про ClosedAI часть проектов OpenAI всё-таки были заопенсоршены: PPO, gym, GPT2, Jukebox, CLIP, Tiktoken, Whisper, Shap-E, Point-E, пара датасетов для RLHF, Triton.
Кроме этого, LLaMA и другие сильные модели зарелижены без alignment и их можно использовать для генерации чего угодно. Я бы предположил что они будут релизить уже aligned модель, тк это больше согласуется с их подходом. Возможно хайп который поднимает вокруг себя OpenAI позволит сфокусировать внимание на этой модели и сделать так что больше людей будут использовать их модельку.
Новость звучит очень сас и я не готов ей прямо верить на 100%, но было бы интересно посмотреть на что-нибудь такое. Всё-таки конкуренция полезна не только для коммерческих компаний, но и для opensource решений.
UPD: саммари статьи
Зачем им может это быть нужно?
<натягиваем сову на глобус>
OpenAI всё-таки часть community и одна из их задач, в соответствии с OpenAI Charter это "create a global community working together to address AGI’s global challenges". Несмотря на мемы про ClosedAI часть проектов OpenAI всё-таки были заопенсоршены: PPO, gym, GPT2, Jukebox, CLIP, Tiktoken, Whisper, Shap-E, Point-E, пара датасетов для RLHF, Triton.
Кроме этого, LLaMA и другие сильные модели зарелижены без alignment и их можно использовать для генерации чего угодно. Я бы предположил что они будут релизить уже aligned модель, тк это больше согласуется с их подходом. Возможно хайп который поднимает вокруг себя OpenAI позволит сфокусировать внимание на этой модели и сделать так что больше людей будут использовать их модельку.
</натягиваем сову на глобус>
Новость звучит очень сас и я не готов ей прямо верить на 100%, но было бы интересно посмотреть на что-нибудь такое. Всё-таки конкуренция полезна не только для коммерческих компаний, но и для opensource решений.
UPD: саммари статьи
The Information
Open-Source AI Is Gaining on Google and ChatGPT
In February, Meta Platforms set off an explosion of artificial intelligence development when it gave academics access to sophisticated machine-learning models that can understand conversational language. Within weeks, the academics turned those models into…
👍15❤2
Neeva.com — платный поисковик без рекламы c фокусом на приватность — закрывается 😥
neeva.com/blog/may-announcement
Neeva появилась несколько лет назад, ещё до you.com и задолго до нового AI-поколения поисковиков. Я пользовался ими около полугода и был готов платить, но не был удовлетворён качеством поиска.
После начала ChatGPT-хайпа они были одними из первых кто внедрил LLM в поиск, после чего они заслуженно тролили гугл. Однако на фоне текущей рецессии neeva.com решил закрыться over the next few weeks.
Причины объясняют следующим образом:
We’ve discovered that it is one thing to build a search engine, and an entirely different thing to convince regular users of the need to switch to a better choice. ... Contrary to popular belief, convincing users to pay for a better experience was actually a less difficult problem compared to getting them to try a new search engine in the first place.
Все кто оплатили подписку получат рефанд, все пользовательские данные будут удалены.
Но в этой новости есть и немного позитива. Команда не распущена, она будет сконцентрирована на новых (неанонсированных) продуктах и направлениях развития на основе поиска + LLM + эффективного инференса.
RIP
P.S. Я после neeva год назад перешел на you.com и очень им доволен. Сейчас ещё активно посматриваю на perplexity.ai
neeva.com/blog/may-announcement
Neeva появилась несколько лет назад, ещё до you.com и задолго до нового AI-поколения поисковиков. Я пользовался ими около полугода и был готов платить, но не был удовлетворён качеством поиска.
После начала ChatGPT-хайпа они были одними из первых кто внедрил LLM в поиск, после чего они заслуженно тролили гугл. Однако на фоне текущей рецессии neeva.com решил закрыться over the next few weeks.
Причины объясняют следующим образом:
We’ve discovered that it is one thing to build a search engine, and an entirely different thing to convince regular users of the need to switch to a better choice. ... Contrary to popular belief, convincing users to pay for a better experience was actually a less difficult problem compared to getting them to try a new search engine in the first place.
Все кто оплатили подписку получат рефанд, все пользовательские данные будут удалены.
Но в этой новости есть и немного позитива. Команда не распущена, она будет сконцентрирована на новых (неанонсированных) продуктах и направлениях развития на основе поиска + LLM + эффективного инференса.
RIP
P.S. Я после neeva год назад перешел на you.com и очень им доволен. Сейчас ещё активно посматриваю на perplexity.ai
😭22👍4😁2❤1🤔1
Intel 64-bit only architecture
intel.com/content/www/us/en/developer/articles/technical/envisioning-future-simplified-architecture.html
Кажется гигант задергался и после откровенно неудачных последних поколений процессоров, ухода Apple на свои ARM процессоры и слухов что другие сделают так же они решили убрать 40-летнее легаси из X86.
Новая архитектура называется X86S (Simplified) и в ней отказываются от поддержки 16-битных процессоров, промежуточных уровней доступа (ring1 и ring2), которые не используются современным hardware от слова совсем, 8259-прерывания и some unused operating system mode bits.
Честно я мало чего ожидаю от интела и мне кажется их эпоха уже на закате и через 10 лет мы про них даже не будем вспоминать. На данный момент например я пользуюсь их процессорами только в серверах, да и то там давит AMD. Но будем надеяться что та встряска которая идет последние несколько лет позволит гиганту опомниться и начинать делать что-то интересное.
intel.com/content/www/us/en/developer/articles/technical/envisioning-future-simplified-architecture.html
Кажется гигант задергался и после откровенно неудачных последних поколений процессоров, ухода Apple на свои ARM процессоры и слухов что другие сделают так же они решили убрать 40-летнее легаси из X86.
Новая архитектура называется X86S (Simplified) и в ней отказываются от поддержки 16-битных процессоров, промежуточных уровней доступа (ring1 и ring2), которые не используются современным hardware от слова совсем, 8259-прерывания и some unused operating system mode bits.
Честно я мало чего ожидаю от интела и мне кажется их эпоха уже на закате и через 10 лет мы про них даже не будем вспоминать. На данный момент например я пользуюсь их процессорами только в серверах, да и то там давит AMD. Но будем надеяться что та встряска которая идет последние несколько лет позволит гиганту опомниться и начинать делать что-то интересное.
Intel
Envisioning a Simplified Intel® Architecture
Intel investigated architectural enhancements and modifications for a 64-bit mode-only architecture.
👍11🫡6❤1
LIMA: Less Is More for Alignment
arxiv.org/abs/2305.11206
Внезапно в "давайте покажем что мы момжем так же как и GPT4 на 10 тестовых примерах" включились и серьёзные люди из META.
Показали что если зафайнтюнить LLaMA 65B на 1000 хорошо отобранных примеров, даже без RLHF, валидируясь на отложенных 50, можно получить модель сопоставимую с GPT4 на их 300 тестовых примерах.
Честно ну такое. Где нормальные сравнения моделей вы спросите? Их скорее всего ещё долго не будет, тк не думаю что результаты бенчмарка будут такие же если тестовую выборку сделать побольше и по-разнообразнее.
Из интересного, посмотрите на графики выше — GPT4 вроде бы весьма может выполнять функцию автоматической оценки качества моделей заметно хуже себя. А вот когда качество становится ближе (Claude) уже появляется сильный bias к предпочтению своих ответов.
arxiv.org/abs/2305.11206
Внезапно в "давайте покажем что мы момжем так же как и GPT4 на 10 тестовых примерах" включились и серьёзные люди из META.
Показали что если зафайнтюнить LLaMA 65B на 1000 хорошо отобранных примеров, даже без RLHF, валидируясь на отложенных 50, можно получить модель сопоставимую с GPT4 на их 300 тестовых примерах.
Честно ну такое. Где нормальные сравнения моделей вы спросите? Их скорее всего ещё долго не будет, тк не думаю что результаты бенчмарка будут такие же если тестовую выборку сделать побольше и по-разнообразнее.
Из интересного, посмотрите на графики выше — GPT4 вроде бы весьма может выполнять функцию автоматической оценки качества моделей заметно хуже себя. А вот когда качество становится ближе (Claude) уже появляется сильный bias к предпочтению своих ответов.
👀13❤4
Просто 7b модель которую вы можете запустить локально на айфоне со скоростью 6 токенов/секунду. Ничего особенно, проходим дальше.
https://github.com/mlc-ai/mlc-llm/blob/main/ios/README.md
https://github.com/mlc-ai/mlc-llm/blob/main/ios/README.md
GitHub
mlc-llm/ios/README.md at main · mlc-ai/mlc-llm
Universal LLM Deployment Engine with ML Compilation - mlc-ai/mlc-llm
🤯46👍5❤3
Forwarded from gonzo-обзоры ML статей
Sounds good
MMS: Massively Multilingual Speech.
- Can do speech2text and text2speech in 1100 languages.
- Can recognize 4000 spoken languages.
- Code and models available under the CC-BY-NC 4.0 license.
- half the word error rate of Whisper.
Code+Models: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
Paper:
https://scontent-lga3-2.xx.fbcdn.net/v/t39.8562-6/348836647_265923086001014_6878005808275791319_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=ae5e01&_nc_ohc=5exJiCqt0Y4AX9NNLzC&_nc_ht=scontent-lga3-2.xx&oh=00_AfDZGkLV3haLgAXkFFhYmxMG8D9J2WV1hKDqYAQNPW4-4g&oe=6471ACCF
Blog: https://ai.facebook.com/blog/multilingual-model-speech-recognition/
MMS: Massively Multilingual Speech.
- Can do speech2text and text2speech in 1100 languages.
- Can recognize 4000 spoken languages.
- Code and models available under the CC-BY-NC 4.0 license.
- half the word error rate of Whisper.
Code+Models: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
Paper:
https://scontent-lga3-2.xx.fbcdn.net/v/t39.8562-6/348836647_265923086001014_6878005808275791319_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=ae5e01&_nc_ohc=5exJiCqt0Y4AX9NNLzC&_nc_ht=scontent-lga3-2.xx&oh=00_AfDZGkLV3haLgAXkFFhYmxMG8D9J2WV1hKDqYAQNPW4-4g&oe=6471ACCF
Blog: https://ai.facebook.com/blog/multilingual-model-speech-recognition/
GitHub
fairseq/examples/mms at main · facebookresearch/fairseq
Facebook AI Research Sequence-to-Sequence Toolkit written in Python. - facebookresearch/fairseq
👍20🔥5❤1🤯1
Current Best Practices for Training LLMs from Scratch
Забавный документ от Wandb в котором описывают важные вещи для тренировки LLM:
1. Scaling laws, compute-optimal training
1. Data Parallelism, Tensor Parallelism, Pipeline parallelism
1. Data clearning, deduplication, and upsampling
1. Hyperparameters (high-level)
1. Evaluation
1. Instruction tuning, RLHF
Гайд оч классный, местами немного устаревший, например не обсуждает zero-redundancy opitmizers (DeepSpeed) или Chinchilla trap — если вам надо деплоить, модели выгодно тренировать на большем числе токенов чем оптимально. В общем даёт неплохой high-level overview.
Забавный документ от Wandb в котором описывают важные вещи для тренировки LLM:
1. Scaling laws, compute-optimal training
1. Data Parallelism, Tensor Parallelism, Pipeline parallelism
1. Data clearning, deduplication, and upsampling
1. Hyperparameters (high-level)
1. Evaluation
1. Instruction tuning, RLHF
Гайд оч классный, местами немного устаревший, например не обсуждает zero-redundancy opitmizers (DeepSpeed) или Chinchilla trap — если вам надо деплоить, модели выгодно тренировать на большем числе токенов чем оптимально. В общем даёт неплохой high-level overview.
❤10👍5
Forwarded from Сиолошная
Подъехал свежий видео-мем про очередную ML-конференцию. Ссылка: https://fxtwitter.com/postrat_dril/status/1663177876605206528
Имхо в этот раз не так смешно, но с выпуска прошлого года я умирал со смеху (ознакомиться можно тут).
Пишите, сколько мемов и отсылок поняли!
Спасибо автору @j_links за наводку.
Имхо в этот раз не так смешно, но с выпуска прошлого года я умирал со смеху (ознакомиться можно тут).
Пишите, сколько мемов и отсылок поняли!
Спасибо автору @j_links за наводку.
FixTweet / FixupX
postrat wint (@postrat_dril)
🔥4🥴2💋2
Forwarded from DeepSchool
Как LLMs могут принимать сразу 100К токенов на вход?
Недавно несколько компаний объявили о возможности своих LLMs брать на вход аж до 100K токенов. Это промпт размером с книгу!
Для примера, OpenAI GPT-4 может брать 8-32K, а опен-сорсные модели всего 2K.
В новой статье Галя, выпускница нашего курса, разобрала техническую сторону вопроса и постаралась включить все основыне трюки, используемые MosaicML, Anthropic и Google.
В статье описаны:
- подробный вывод вычислительной сложности трансформера и ее влияние на стоимость обучения
- хитрые вычисления на GPU и Flash Attention, который недавно стал частью PyTorch
- нестандартный позиционный эмбеддинг ALiBi и почему нельзя было использовать оригинальный
- Multi-Query Attention, Sparse Attention и Условные вычисления
Читайте статью по ссылке и поддерживайте Галю 👏🏻 на Medium:
https://medium.com/gopenai/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c
Задавайте вопросы Гале в комментариях к этому посту 👇
Недавно несколько компаний объявили о возможности своих LLMs брать на вход аж до 100K токенов. Это промпт размером с книгу!
Для примера, OpenAI GPT-4 может брать 8-32K, а опен-сорсные модели всего 2K.
В новой статье Галя, выпускница нашего курса, разобрала техническую сторону вопроса и постаралась включить все основыне трюки, используемые MosaicML, Anthropic и Google.
В статье описаны:
- подробный вывод вычислительной сложности трансформера и ее влияние на стоимость обучения
- хитрые вычисления на GPU и Flash Attention, который недавно стал частью PyTorch
- нестандартный позиционный эмбеддинг ALiBi и почему нельзя было использовать оригинальный
- Multi-Query Attention, Sparse Attention и Условные вычисления
Читайте статью по ссылке и поддерживайте Галю 👏🏻 на Medium:
https://medium.com/gopenai/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c
Задавайте вопросы Гале в комментариях к этому посту 👇
Medium
The Secret Sauce behind 100K context window in LLMs: all tricks in one place
tldr; techniques to speed up training and inference of LLMs to use large context window up to 100K input tokens during training and…
👍28🔥12❤4⚡2🤯1
Rack-mount MacPro и M2 Ultra с 198Gb unified RAM...
Кажется кто-то вспомнил что они умеют делать железо и Mac Server is back. Вангую на то что Apple уже эспериментирует с датацентрами на M2 Ultra вместо NVIDIA. Про примерение M2 Ultra к тренировке LLM сказали прямо на конференции. Интересно как они будут впихивать несколько M2 в один сервер и коммуникацию между серверами.
Unified RAM == GPU, CPU и Neural Engine используют одну и ту же память
Кажется кто-то вспомнил что они умеют делать железо и Mac Server is back. Вангую на то что Apple уже эспериментирует с датацентрами на M2 Ultra вместо NVIDIA. Про примерение M2 Ultra к тренировке LLM сказали прямо на конференции. Интересно как они будут впихивать несколько M2 в один сервер и коммуникацию между серверами.
Unified RAM == GPU, CPU и Neural Engine используют одну и ту же память
👍33🤡10🔥7🥴2❤1
The Falcon has landed in the Hugging Face ecosystem
huggingface.co/blog/falcon
Хороший блогпост от 🤗 в который рассказывает про Falcon-40B — полностью опенсорсную модель (теперь веса тоже распространяются под Apache 2.0) от, внезапно, Technology Innovation Institute in Abu Dhabi.
Что классно, в посте не только говорят про то что модель есть, сколько её тренировали и какие метрики, но и рассказывает про:
1. Multi-Query Attention — разные головы используют одни и те же K и V, что сильно сокращает потребление памяти на длинных последовательностях (см картинку)
1. 8-bit и 4-bit inference — поддержка 4-bit уже есть в Transformers на main branch на гитхабе и наверное скоро зарелизится
1. 🤗 Text Generation Inference — готовый и обернутый в Docker сервер для инференса больших моделей
1. Файнтюнинг через PEFT и конкретно через QLoRA
Очень рекомедую почитать и поиграться всем кому интересна работа с большими моделями. Тут прямо всё самое свежее.
huggingface.co/blog/falcon
Хороший блогпост от 🤗 в который рассказывает про Falcon-40B — полностью опенсорсную модель (теперь веса тоже распространяются под Apache 2.0) от, внезапно, Technology Innovation Institute in Abu Dhabi.
Что классно, в посте не только говорят про то что модель есть, сколько её тренировали и какие метрики, но и рассказывает про:
1. Multi-Query Attention — разные головы используют одни и те же K и V, что сильно сокращает потребление памяти на длинных последовательностях (см картинку)
1. 8-bit и 4-bit inference — поддержка 4-bit уже есть в Transformers на main branch на гитхабе и наверное скоро зарелизится
1. 🤗 Text Generation Inference — готовый и обернутый в Docker сервер для инференса больших моделей
1. Файнтюнинг через PEFT и конкретно через QLoRA
Очень рекомедую почитать и поиграться всем кому интересна работа с большими моделями. Тут прямо всё самое свежее.
❤46🔥7👍6❤🔥3⚡2👌1