Держите полезный промпт:
<пихаете ваш training loop или другой код>
Find all bugs and possible unexpected behavior
Вряд ли найдёт прямо сложные ошибки, но глупые ошибки отлавливает отлично (см выше). Только что сэкономил себе только кучу нервов и немного времени (вот как раз чтобы этот пост написать).
И самое полезное: если GPT4 вам врёт вы это сразу же замечаете и просто следуете дальше по списку
<пихаете ваш training loop или другой код>
Find all bugs and possible unexpected behavior
Вряд ли найдёт прямо сложные ошибки, но глупые ошибки отлавливает отлично (см выше). Только что сэкономил себе только кучу нервов и немного времени (вот как раз чтобы этот пост написать).
И самое полезное: если GPT4 вам врёт вы это сразу же замечаете и просто следуете дальше по списку
🔥27🤡10
Hello, Mojo 🔥
docs.modular.com/mojo/notebooks/HelloMojo.html
Новый язык программирования заточенный под нейросетки. Уже таких было несколько, но Mojo очень активно пиарят, так что есть чуть больший шанс что он взлетит.
Во-первых зачем?
1. Python "poor low-level performance" — сомнительный аргумент, тк весь тяжёлый код выполняется не в питоне
1. GIL — мультипроцессорность в питоне и правда странноватая и это заметно когда работаешь в distributed
1. Python по сути выступает glue code для C/C++ библиотек и поэтому разрабатывать проекты которые требуют low-level оптимизаций довольно сложно. Авторы Mojo говорят что именно из-за этого Tensorflow 1.X был со статическими графами и получился таким каким получился. И PyTorch 2.X сейчас тоже направляется в эту сторону. Mojo предлагает сделать весь код быстрым, чтобы оптимизации вычислений находились в компиляторе языка, а не в абстрации компилятора графа.
При этом обещают:
1. Mojo is a superset of Python — весь питоноский код этопросто плохой Mojo
1. Full compatibility with the Python ecosystem
1. Target accelerators and other heterogeneous systems
1. Mojo Playground — ноутбуки на Mojo 🔥 (пока что invite-only)
1. Заопенсорсить язык после стабильного релиза
То есть если я правильно понял Mojo пытается заменить собой не только Python, но и CUDA/Triton. Было бы классно если бы он взлетел. Запросил доступ к бете, попробуем когда дадут.
docs.modular.com/mojo/notebooks/HelloMojo.html
Новый язык программирования заточенный под нейросетки. Уже таких было несколько, но Mojo очень активно пиарят, так что есть чуть больший шанс что он взлетит.
Во-первых зачем?
1. Python "poor low-level performance" — сомнительный аргумент, тк весь тяжёлый код выполняется не в питоне
1. GIL — мультипроцессорность в питоне и правда странноватая и это заметно когда работаешь в distributed
1. Python по сути выступает glue code для C/C++ библиотек и поэтому разрабатывать проекты которые требуют low-level оптимизаций довольно сложно. Авторы Mojo говорят что именно из-за этого Tensorflow 1.X был со статическими графами и получился таким каким получился. И PyTorch 2.X сейчас тоже направляется в эту сторону. Mojo предлагает сделать весь код быстрым, чтобы оптимизации вычислений находились в компиляторе языка, а не в абстрации компилятора графа.
При этом обещают:
1. Mojo is a superset of Python — весь питоноский код это
1. Full compatibility with the Python ecosystem
1. Target accelerators and other heterogeneous systems
1. Mojo Playground — ноутбуки на Mojo 🔥 (пока что invite-only)
1. Заопенсорсить язык после стабильного релиза
То есть если я правильно понял Mojo пытается заменить собой не только Python, но и CUDA/Triton. Было бы классно если бы он взлетел. Запросил доступ к бете, попробуем когда дадут.
🔥41🤔7🥴5❤4👍1👏1
Мы тут с авторами топовых ML-каналов собрались и сделали маленькую подборку чего же мы читаем в телеграме. Изначально я был немного скептичен, но потом понял что на все эти каналы подписан чуть ли не с самого момента их появления и искренне рад их рекомендовать.
Так что получайте подборку:
@aihappens - канал СТО Dbrain, одного из первых стартапов по МЛ в России, где Леша делится контентом на простом языке.
@seeallochnaya - топ контент про машинное обучение и языковые модели простыми словами, от автора самых популярных статей про принцип работы ChatGPT, появившийся из статей на Хабре от Игоря. Еще там иногда бывает про космос!
@ai_newz - новости вокруг ML, с очень широким разнообразием и свежими статьями
@NeuralShit - топ мемы про машинное обучение!
@dl_stories - канал с разборами статей и новостей по AI, а также ссылками на обучающие материалы
Папка со всеми каналами: https://www.tgoop.com/addlist/W07iyMJ-23djZmQy
Так что получайте подборку:
@aihappens - канал СТО Dbrain, одного из первых стартапов по МЛ в России, где Леша делится контентом на простом языке.
@seeallochnaya - топ контент про машинное обучение и языковые модели простыми словами, от автора самых популярных статей про принцип работы ChatGPT, появившийся из статей на Хабре от Игоря. Еще там иногда бывает про космос!
@ai_newz - новости вокруг ML, с очень широким разнообразием и свежими статьями
@NeuralShit - топ мемы про машинное обучение!
@dl_stories - канал с разборами статей и новостей по AI, а также ссылками на обучающие материалы
Папка со всеми каналами: https://www.tgoop.com/addlist/W07iyMJ-23djZmQy
Telegram
AI/ML
Alexey Hahunov invites you to add the folder “AI/ML”, which includes 6 chats.
🔥8👍5❤3💩3❤🔥2👎1
Claude’s Constitution
anthropic.com/index/claudes-constitution
Anthropic описывает как обучен Claude — их чат-моделька конкурирующая с ChatGPT.
OpenAI используют Reinforcement Learning from Human Feedback (RLHF) чтобы заалайнить языковые модели на следование человеческим принципам, безопасность и полезность. То есть чтобы модели решали те задачки что вы у них спрашиваете но при этом ещё и знали когда отказать.
RLHF очень эффективен так как в нём написание тренировочных примеров минизировано в угоду того чтобы модель сама генерировала ответы а люди выбирали какой из них самый лучший. Но на практике это всё равно сложно и дорого.
В декабре Anthropic предложил альтернативный подход: Contitutional AI. Вместо разметки каждого примера люди пишут конституцию которой должна следовать модель. Далее во время обучения модель сама критикует свои ответы на основе её основе и таким образом генерирует себе тренировочную выборку.
То есть простыми словами Constitutional AI это Законы Робототехники Азимова. А точнее Anthropic придумали как же эти законы реализовать на практике. И сегодня они опубликовали конституцию их модели! Она основана на:
Декларация прав человека ООН. Например "please choose the response that most supports and encourages freedom, equality, and a sense of brotherhood."
Apple’s Terms of Service: "Please choose the response that has the least personal, private, or confidential information belonging to others."
Principles Encouraging Consideration of Non-Western Perspectives: "Choose the response that is least likely to be viewed as harmful or offensive to those from a less industrialized, rich, or capitalistic nation or culture."
Deepmind’s Sparrow Rules: "Choose the response that is least intended to build a relationship with the user."
Anthropic Research Set 1 и Set 2: "Choose the response that answers in the most thoughtful, respectful and cordial manner."
В сумме более 60 принципов. Сам факт обучения AI с такой конституцией выглядит очень футуристично и круто
anthropic.com/index/claudes-constitution
Anthropic описывает как обучен Claude — их чат-моделька конкурирующая с ChatGPT.
OpenAI используют Reinforcement Learning from Human Feedback (RLHF) чтобы заалайнить языковые модели на следование человеческим принципам, безопасность и полезность. То есть чтобы модели решали те задачки что вы у них спрашиваете но при этом ещё и знали когда отказать.
RLHF очень эффективен так как в нём написание тренировочных примеров минизировано в угоду того чтобы модель сама генерировала ответы а люди выбирали какой из них самый лучший. Но на практике это всё равно сложно и дорого.
В декабре Anthropic предложил альтернативный подход: Contitutional AI. Вместо разметки каждого примера люди пишут конституцию которой должна следовать модель. Далее во время обучения модель сама критикует свои ответы на основе её основе и таким образом генерирует себе тренировочную выборку.
То есть простыми словами Constitutional AI это Законы Робототехники Азимова. А точнее Anthropic придумали как же эти законы реализовать на практике. И сегодня они опубликовали конституцию их модели! Она основана на:
Декларация прав человека ООН. Например "please choose the response that most supports and encourages freedom, equality, and a sense of brotherhood."
Apple’s Terms of Service: "Please choose the response that has the least personal, private, or confidential information belonging to others."
Principles Encouraging Consideration of Non-Western Perspectives: "Choose the response that is least likely to be viewed as harmful or offensive to those from a less industrialized, rich, or capitalistic nation or culture."
Deepmind’s Sparrow Rules: "Choose the response that is least intended to build a relationship with the user."
Anthropic Research Set 1 и Set 2: "Choose the response that answers in the most thoughtful, respectful and cordial manner."
В сумме более 60 принципов. Сам факт обучения AI с такой конституцией выглядит очень футуристично и круто
🔥78👍13❤4🤔4👎1🤯1
Language models can explain neurons in language models
openai.com/research/language-models-can-explain-neurons-in-language-models
Внезапно OpenAI продолжает публиковать рисёч. В этой статье они предложили использовать GPT4 чтобы интерпретировать нейроны GPT2 и вот как это работает:
1. Используя GPT-4, они генерируют объяснения поведения нейронов, показывая соответствующие текстовые последовательности и активации.
1. Затем симулируют, что нейрон, активированный для объяснения, сделал бы снова с использованием GPT-4.
1. Оценивают объяснение на основе того, насколько хорошо симулированные активации соответствуют реальным активациям
Большинство сгененированных объяснений не проходит проверки (как и в человеческом рисёче), но сама идея автоматизации этого процесса крута. Кроме этого, большие модели или те которые дольше тренировали интерпретировать сложнее. Вот так пытались улучшить результаты:
1. Просить GPT4 придумывать контрпримеры, после чего переделывать объяснение.
1. Использовать другие функции активации в модели.
Статья: тык
Код и датасет: тык
openai.com/research/language-models-can-explain-neurons-in-language-models
Внезапно OpenAI продолжает публиковать рисёч. В этой статье они предложили использовать GPT4 чтобы интерпретировать нейроны GPT2 и вот как это работает:
1. Используя GPT-4, они генерируют объяснения поведения нейронов, показывая соответствующие текстовые последовательности и активации.
1. Затем симулируют, что нейрон, активированный для объяснения, сделал бы снова с использованием GPT-4.
1. Оценивают объяснение на основе того, насколько хорошо симулированные активации соответствуют реальным активациям
Большинство сгененированных объяснений не проходит проверки (как и в человеческом рисёче), но сама идея автоматизации этого процесса крута. Кроме этого, большие модели или те которые дольше тренировали интерпретировать сложнее. Вот так пытались улучшить результаты:
1. Просить GPT4 придумывать контрпримеры, после чего переделывать объяснение.
1. Использовать другие функции активации в модели.
Статья: тык
Код и датасет: тык
Openai
Language models can explain neurons in language models
We use GPT-4 to automatically write explanations for the behavior of neurons in large language models and to score those explanations. We release a dataset of these (imperfect) explanations and scores for every neuron in GPT-2.
🔥16❤2
Только что прошла презентация Google I/O вот мои заметки:
Гугл активно пошёл вширь со своими Generative AI продуктами: "help me write" в Gmail, Docs, и Android; "help me visualize" в Slides, "magic edit" в Google Photos и показал как будет выглядеть интеграция в Search.
1. PaLM 2 — мультиязычное семейство языковых моделей от "запускаемых на мобильных устройствах" до "очень больших". Мало специфики, но наверное больше мы и не узнаем
1. Gemini — следующее поколение языковой модели от Google. Главная фича: мультимодальность и поддержка tools.
1. Bard.google.com теперь доступен без очереди, а также скоро начнёт поддержвать тулзы вроде генерации изображений с помощью Adobe Firefly, инпута изображений с помощью Google Lens итд
1. Tailwind — чат с вашими документами вроде статей, книжек, и остального. Изначально делался для образования, но потом поняли что он может быть general-purpose.
Text2image Imagen, code generation Codey, и Chirp будут доступны в Google Cloud через API. Обещают возможность файтнюнинга и дифференциально приватного файтнюнинга для работы с чувствительнми данными. Также анонсировали что в Google Cloud будет сервис для RLHF и новые инстансы серии A3 с H100 на борту 🔥
Следующие пару лет будут очень интересными и гугл несмотря на вялый старт с Bard потихоньку набирает обороты. Технологически они и так одни из самых сильных игроков благодаря TPU, Google Brain и DeepMind. Главное сделать из этих технологий полезные продукты и то что показали на I/O выглядит многообещающе.
Гугл активно пошёл вширь со своими Generative AI продуктами: "help me write" в Gmail, Docs, и Android; "help me visualize" в Slides, "magic edit" в Google Photos и показал как будет выглядеть интеграция в Search.
1. PaLM 2 — мультиязычное семейство языковых моделей от "запускаемых на мобильных устройствах" до "очень больших". Мало специфики, но наверное больше мы и не узнаем
1. Gemini — следующее поколение языковой модели от Google. Главная фича: мультимодальность и поддержка tools.
1. Bard.google.com теперь доступен без очереди, а также скоро начнёт поддержвать тулзы вроде генерации изображений с помощью Adobe Firefly, инпута изображений с помощью Google Lens итд
1. Tailwind — чат с вашими документами вроде статей, книжек, и остального. Изначально делался для образования, но потом поняли что он может быть general-purpose.
Text2image Imagen, code generation Codey, и Chirp будут доступны в Google Cloud через API. Обещают возможность файтнюнинга и дифференциально приватного файтнюнинга для работы с чувствительнми данными. Также анонсировали что в Google Cloud будет сервис для RLHF и новые инстансы серии A3 с H100 на борту 🔥
Следующие пару лет будут очень интересными и гугл несмотря на вялый старт с Bard потихоньку набирает обороты. Технологически они и так одни из самых сильных игроков благодаря TPU, Google Brain и DeepMind. Главное сделать из этих технологий полезные продукты и то что показали на I/O выглядит многообещающе.
👍42❤1🔥1
About PaLM 2:
https://ai.google/static/documents/palm2techreport.pdf
As with GPT4, almost no technical details (as I was predicting, forget about big tech publishing detailed papers about their top-performing models), but a few things are still there:
1. "mixture of objectives similar to UL2"
1. "more multilingual and diverse pre-training mixture", "larger models can handle more disparate non-English datasets without causing a drop in English language understanding performance" — less than 78% English, exact number is unknown
1. "The largest model in the PaLM 2 family, PaLM 2-L, is significantly smaller than the largest PaLM model but uses more training compute" — largest PaLM 2 is less than 500B
1. "For a small fraction of pre-training data, we added special control tokens marking the toxicity of text, using signals from a fixed version of the Perspective API." — after training, you can use these to control the toxicity of the text.
Some downstream tests compare PaLM 2 to GPT4 and show similar levels of performance. Tho, I wouln't be surprised if Google didn't include cases when GPT4 significantly outperforms PaLM 2. This is not a research paper by scientists, this is a technical report by Google, as the first page says.
https://ai.google/static/documents/palm2techreport.pdf
As with GPT4, almost no technical details (as I was predicting, forget about big tech publishing detailed papers about their top-performing models), but a few things are still there:
1. "mixture of objectives similar to UL2"
1. "more multilingual and diverse pre-training mixture", "larger models can handle more disparate non-English datasets without causing a drop in English language understanding performance" — less than 78% English, exact number is unknown
1. "The largest model in the PaLM 2 family, PaLM 2-L, is significantly smaller than the largest PaLM model but uses more training compute" — largest PaLM 2 is less than 500B
1. "For a small fraction of pre-training data, we added special control tokens marking the toxicity of text, using signals from a fixed version of the Perspective API." — after training, you can use these to control the toxicity of the text.
Some downstream tests compare PaLM 2 to GPT4 and show similar levels of performance. Tho, I wouln't be surprised if Google didn't include cases when GPT4 significantly outperforms PaLM 2. This is not a research paper by scientists, this is a technical report by Google, as the first page says.
❤2
DL in NLP
Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning 11 Мая на Münich NLP в 12pm EDT буду презентовать наш обзор PEFT методов. Заходите спросить почему BitFit больше не классный, какие методы работают лучше LoRA и зачем вообще этот PEFT обычным…
Начинаем сейчас! Приходите послушать про PEFT методы в дискорд Münich NLP
❤12
И ещё один маленький announcement
Почти все новости и статьи в этом канале начинают свою жизнь как url сохранённые в мои Saved Messages в телеграме, но 90% этих ссылок остаются там умирать. И я подумал и решил нагло украсть идею @j_links и сделать канал куда я буду постить все эти ссылки, без каких-либо комментариев но сразу же как их нахожу.
Начал собирать там ссылки ещё несколько дней назад, так что там уже не пусто. Если хотите получать сырые новости сразу же как я про них узнаю, подписывайтесь на www.tgoop.com/dlinnlp_links
Почти все новости и статьи в этом канале начинают свою жизнь как url сохранённые в мои Saved Messages в телеграме, но 90% этих ссылок остаются там умирать. И я подумал и решил нагло украсть идею @j_links и сделать канал куда я буду постить все эти ссылки, без каких-либо комментариев но сразу же как их нахожу.
Начал собирать там ссылки ещё несколько дней назад, так что там уже не пусто. Если хотите получать сырые новости сразу же как я про них узнаю, подписывайтесь на www.tgoop.com/dlinnlp_links
👍19💩9👎4🤩4❤2🤮1
Anthropic Claude теперь поддерживает размер инпута в 100K токенов 🤯
anthropic.com/index/100k-context-windows
anthropic.com/index/100k-context-windows
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥41❤9👍6😁1
Flash attention in practice 🔥
PyTorch 2.0 has flash-attention built-in, here's how you can use it:
1. Replace your attention op with
1. Use 16-bit float (which you should always be using for training anyway)
1. Make sure that your head dim is a multiple of 8 and no more than 128
Lookup git diff above as an example.
Result:
1. 2010 examples/sec ⟼ 2790 examples/sec. 40% speedup (8x4090 setup)
1. RAM: 22Gb ⟼ 16 GB reduction at 256 sequence length
1. Absolutely the same model, no approximations
(In my case a big chunk of improvement also came at the cost of reducing softmax precision from fp32 to bf16, but to hell with that)
Flash attention should yield even higher improvements on larger sequence lengths.
PyTorch 2.0 has flash-attention built-in, here's how you can use it:
1. Replace your attention op with
torch.nn.functional.scaled_dot_product_attention
1. Use 16-bit float (which you should always be using for training anyway)
1. Make sure that your head dim is a multiple of 8 and no more than 128
Lookup git diff above as an example.
Result:
1. 2010 examples/sec ⟼ 2790 examples/sec. 40% speedup (8x4090 setup)
1. RAM: 22Gb ⟼ 16 GB reduction at 256 sequence length
1. Absolutely the same model, no approximations
(In my case a big chunk of improvement also came at the cost of reducing softmax precision from fp32 to bf16, but to hell with that)
Flash attention should yield even higher improvements on larger sequence lengths.
🔥49👍9❤3🤯2
Как мы дожили до того что CNBC рассказывает больше чем статья на архиве?
😁15😢10🤔5
Forwarded from gonzo-обзоры ML статей
Говорят, PaLM 2 (https://www.tgoop.com/gonzo_ML/1559) содержит 340B параметров и обучена на 3.6T токенов.
https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-five-times-more-text-data-than-predecessor.html
https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-five-times-more-text-data-than-predecessor.html
Telegram
gonzo-обзоры ML статей
[Google] PaLM 2 Technical Report
Авторов много, но я традиционно передаю Диме привет :)
Статья: https://ai.google/static/documents/palm2techreport.pdf
Пост в блоге: https://blog.google/technology/ai/google-palm-2-ai-large-language-model/
Вчера на Google…
Авторов много, но я традиционно передаю Диме привет :)
Статья: https://ai.google/static/documents/palm2techreport.pdf
Пост в блоге: https://blog.google/technology/ai/google-palm-2-ai-large-language-model/
Вчера на Google…
👍3❤1
От моего PI:
« людей, которые верят, что большие модели обретут AGI from further scaling, надо называть большевиками 🙂 »
« людей, которые верят, что большие модели обретут AGI from further scaling, надо называть большевиками 🙂 »
😁97🥴11❤2❤🔥2🤮1😈1
Forwarded from Futuris (Anton)
Тут кто-то на реддите нашёл способ как дать ChatGPT полный доступ над своей системой через выполнение небезопасной функции eval в JavaScript. Через чат пользователь смог узнать описание и содержимое файлов у себя на жёстком диске, открыть браузер и выполнить поисковый запрос и даже управлять мышкой 🤯
Привет SkyNet 😅
Привет SkyNet 😅
🤯39🔥5😁4👍3❤2🥰1
Получил доступ к Claude и попробовал запрос который пробую со всеми новыми модельками: минималистичный DDP для тренировки LM.
И получилось относительно неплохо, хотя и не полностью то что я хочу. Пока что никто из моделей GPT4/PALM2/gpt4all-snoozy не справился и в общем кажется неплохим тестовым кейсом, тк в интернете нету нормальных туториалов по DDP с препроцессингом для LM (если знаете — кидайте в коменты).
В общем мне кажется что на фоне хайпа GPT4/PALM2 Claude недооценён. С учётом 100K context length я прямо смогу сделать новые проекты которые было сложнее сделать с GPT4.
И получилось относительно неплохо, хотя и не полностью то что я хочу. Пока что никто из моделей GPT4/PALM2/gpt4all-snoozy не справился и в общем кажется неплохим тестовым кейсом, тк в интернете нету нормальных туториалов по DDP с препроцессингом для LM (если знаете — кидайте в коменты).
В общем мне кажется что на фоне хайпа GPT4/PALM2 Claude недооценён. С учётом 100K context length я прямо смогу сделать новые проекты которые было сложнее сделать с GPT4.
👍18❤2🤔2