Telegram Web
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models

EasyEdit, demonstrating that knowledge editing surpasses traditional fine-tuning in terms of reliability and generalization.

Новый фреймворк для настройки и редактирования ответов больших языковых моделей. EasyEdit работает с LlaMA-2, GPT-J, Llama, GPT-NEO, GPT2, T5 и другими популярными моделями(поддерживаются модели от 1B до 65B).

🖥 Github: https://github.com/zjunlp/easyedit

📕 Paper: https://arxiv.org/abs/2308.07269v1

⭐️ Demo: http://knowlm.zjukg.cn/demo_edit

🎓Online Tutorial: https://colab.research.google.com/drive/1zcj8YgeqttwkpfoHXz9O9_rWxFFufXSO?usp=sharing

☑️ Docs: https://zjunlp.gitbook.io/easyedit

🤓 Dataset: https://drive.google.com/file/d/1IVcf5ikpfKuuuYeedUGomH01i1zaWuI6/view?usp=sharing

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1
Присоединяйтесь к TechTrain 2023 Autumn — онлайн-фестивалю, посвященному машинному обучению и искусственному интеллекту.

В программе — классическое ML, Computer Vision, NLP, ASR, RecSys, LLMs и MLOps. Обязательно будут обсуждения прикладного использования ML на примере конкретных проектов. Обзор таких тем, как графовые модели, генеративные нейросети, AI в разработке и другое.

Участников ждут как актуальные практики применения ML&AI, так и дискуссии со спикерами и экспертами. 

Проводит фестиваль JUG Ru Group — организатор крупных технических IT-конференций и митапов для разработчиков. Дата проведения: 30 августа.

Читайте подробности и регистрируйтесь бесплатно — на сайте.
👍3👎3
Forwarded from ТЕПЛИЦА
После взлета популярности ChatGPT медиа не рад озвучивали риски, связанные с ИИ. Но то, что быстрое развитие технологий предоставляет новые возможности для активизма, часто остается в тени.

О том, как активисты могут использовать AI и поговорим на Неконференции «Теплицы» 30 августа.

Эксперты по ИИ расскажут о последних достижениях в области генеративных моделей и их потенциале для гражданских инициатив. Обсудим, как ИИ может помочь разбираться в новостях, проверять информацию и структурировать знания для быстрого обмена.

Регистрируйтесь и присоединяйтесь к разговору
https://tinyurl.com/te-st-org/events/unconference-ai/

Будем рады, если вы поделитесь с нами вашим опытом использования AI, этот опрос можно пройти анонимно или открыто.
👎3🤮3
Forwarded from Machinelearning
🧑 FaceChain

Deep-learning toolchain for generating your Digital-Twin.

FaceChain — это набор инструментов машинного обучения для создания собственного цифрового двойника.


Всего из одной портретной фотографию, вы можете создать своего собственного цифрового двойника и начать генерировать персональные портреты с различными настройками.

🖥 Github: https://github.com/modelscope/facechain

📕 Paper: https://arxiv.org/abs/2308.14256v1

🖥 Colab: https://colab.research.google.com/drive/1cUhnVXseqD2EJiotZk3k7GsfQK9_yJu_?usp=sharing

⭐️ Dataset: https://paperswithcode.com/dataset/fairface

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3
Forwarded from эйай ньюз
Эндрю Ын вчера выкатил новый мини-курс: How Business Thinkers Can Start Building AI Plugins With Semantic Kernel

Курс длиной всего в 1 час и рассчитан на новичков - технического мяса там не ожидается. Нужно только знать Python.

Но обещают научить строить пайплайны с LLM, пользоваться памятью и писать плагины для решения бизнес-задач. Работа будет идти на базе Semantic Kernel — это SDK для языковых моделей от Microsoft, что-то похожее на уже известный нам LangChain.

Курс ведёт не хер с горы, а VP of Design and Artificial Intelligence из Microsoft.

Ссылка на курс (временно бесплатно)

@ai_newz
👍3
Forwarded from ТЕПЛИЦА
Уникальная возможность углубить свои познания и навыки в области AI и генеративного искусства! 27 и 28 сентября руководитель «Теплицы» Алексей Сидоренко проведет два вебинара по использованию искусственного интеллекта для повседневных задач.

На первом вебинаре поговорим про MidJourney, на втором — про ChatGPT. Разберем самые интересные параметры промтов и как они могут существенно облегчить выполнение рабочих задач. Присоединяйтесь!

Регистрация ➔ https://tinyurl.com/te-st-org/events/generative-ai/

Участие без верификации. Вебинары пройдут в формате Zoom Webinars — участни*цы не могут видеть друг друга.
🤮1
Forwarded from Machinelearning
🔥 Introducing Würstchen: Fast Diffusion for Image Generation

Diffusion model, whose text-conditional component works in a highly compressed latent space of images

Würstchen - это диффузионная модель, которой работает в сильно сжатом латентном пространстве изображений.

Почему это важно? Сжатие данных позволяет на порядки снизить вычислительные затраты как на обучение, так и на вывод модели.

Обучение на 1024×1024 изображениях гораздо затратное, чем на 32×32. Обычно в других моделях используется сравнительно небольшое сжатие, в пределах 4x - 8x пространственного сжатия.

Благодаря новой архитектуре достигается 42-кратное пространственное сжатие!

🤗 HF: https://huggingface.co/blog/wuertschen

📝 Paper: https://arxiv.org/abs/2306.00637

📕 Docs: hhttps://huggingface.co/docs/diffusers/main/en/api/pipelines/wuerstchen

🚀 Demo: https://huggingface.co/spaces/warp-ai/Wuerstchen

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Another library for fast inference of llama models.

ExLlamaV2 supports the same 4-bit GPTQ models as V1, but also a new "EXL2" format. EXL2 is based on the same optimization method as GPTQ and supports 2, 3, 4, 5, 6 and 8-bit quantization. The format allows for mixing quantization levels within a model to achieve any average bitrate between 2 and 8 bits per weight.

Moreover, it's possible to apply multiple quantization levels to each linear layer, producing something akin to sparse quantization wherein more important weights (columns) are quantized with more bits. The same remapping trick that lets ExLlama work efficiently with act-order models allows this mixing of formats to happen with little to no impact on performance.

Parameter selection is done automatically by quantizing each matrix multiple times, measuring the quantization error (with respect to the chosen calibration data) for each of a number of possible settings, per layer. Finally, a combination is chosen that minimizes the maximum quantization error over the entire model while meeting a target average bitrate.

https://github.com/turboderp/exllamav2
👍2
Chain-of-Thought → Tree-of-Thought

Техника для повышения качества ответа LLM’ок под названием Chain-of-Thought (CoT), пришедшая, кажется, из работы “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (https://arxiv.org/abs/2201.11903), давно вошла в арсенал промпт инженеров (патентованная технология, между прочим, https://patents.google.com/patent/US20230244938A1/en). В двух словах она заключается в том, чтобы попросить модель не сразу выдать результат, а сначала сгенерировать последовательность промежуточных шагов и лишь затем выдать финальный результат. Можно сочетать с few-shot learning, давая демонстрационные примеры.

Неожиданным образом, качество ответа повышается, особенно это заметно на математических задачах, commonsense и symbolic reasoning. Кроме того, дополнительными бонусами являются большая прозрачность принятия решения и интерпретируемость. В оригинальной работе показали, что CoT это эмерджентное свойство, начинающее проявляться с размера модели в районе 100B.

Дополнительная техника декодирования под названием Self-Consistency из работы “Self-Consistency Improves Chain of Thought Reasoning in Language Models” (https://arxiv.org/abs/2203.11171) заменяет жадное декодирование на создание нескольких цепочек CoT и в конце выбор наиболее консистентного ответа, который определяется мажоритарным голосованием. Этот подход CoT-SC иногда также называется Multiple CoTs, причём чем больше этих цепочек, тем лучше, в работе доходили до 40 штук.

Популярное изложение CoT и немного CoT-SC тут https://blog.research.google/2022/05/language-models-perform-reasoning-via.html.

Но это было в начале 2022-го. С тех пор появились более продвинутые подходы. Один из них, это Tree-of-Thoughts (ToT), появившийся с разницей в два дня в двух работах: “Large Language Model Guided Tree-of-Thought” (https://arxiv.org/abs/2305.08291) и “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (https://arxiv.org/abs/2305.10601).

Теперь процесс вывода представлен деревом, а не цепочкой. И модель может делать backtracking, если вывод ушёл не туда.

Идея этих работ в том, что мыслительный процесс не линеен, это скорее похоже на хождение по дереву -- пробуем одну ветвь, обнаруживаем что не работает, отка(т/з)ываемся и пробуем другую. Это подразумевает множество раундов взаимодействия между LLM и агентом, дающим промпты.

Эти подходы уже не чистый промпт инжиниринг, одним текстом тут не обойдёшься, надо писать какие-то программы, управляющие процессом. В этом смысле это уже в парадигме LLM Programs (https://www.tgoop.com/gonzo_ML/1584).

I) Начнём с первой работы от Jieyi Long из Theta Labs.

В данной постановке есть LLM, получающая промпты и выдающая ответы. Есть prompter agent, в который прилетает исходная задача от пользователя. Он выдаёт промпты в LLM и пытается получить от неё не финальное решение, а какое-то промежуточное. Специальный проверочный модуль (checker module) проверяет валидность промежуточного решения, полученного от LLM. Если проверка корректности проходит, это промежуточное решение парсится и сохраняется в памяти. Затем в зависимости от содержимого памяти prompter agent генерирует следующий промпт с целью получить от LLM следующий шаг. Если же от LLM приходит невалидный ответ, то ToT controller попросит prompter дать модели нужные подсказки и запросить решение снова. Также ToT controller отслеживает прогресс и решает, не нужно ли откатиться к родительскому узлу дерева или к более далёкому предку.

То есть стратегию ToT можно представить как алгоритм поиска по дереву, использующий LLM как эвристику для выбора шагов поиска. LLM используется для задач “short-range reasoning”, получения следующего промежуточного решения. Задачи такого типа в целом решаются LLM неплохо. Возможность откатываться к предыдущим промежуточным решениям улучшает способности к “long-range reasoning”, потому что система может исследовать большее пространство решений. А возможность выполнять многошаговые взаимодействия увеличивает число вычислительных шагов, которые может сделать система.
Forwarded from эйай ньюз
Релизнулась SOTA библиотека для генерации аудио AudioCraft v1.0.0

Я писал раньше о выходе начальной версии AudioCraft, когда Meta AI опубликовали статью MusicGen для генерации музыки по тексту.

Почему новый релиз интересен?
Это стабильный релиз и в него добавили код для трениновки моделей, в том числе несколько новых:

- EnCodec - по сути квантизованый автоэнкодер (VQGAN), который сжимает аудио в серию дискретных токенов.

- AudioGen - генерит по тексту повседневные звуки, типа лая собаки и прочих звуковых эффектов (кроме музыки).

- MusicGen - text2music и midi2musiс синтез. Есть модели от 300M до 3.3B параметров. На 16Gb влезут.

- MultiBandDiffusion - новый декодер, основанный на диффузии, который декодирует токены MusicGen в аудио дорожку. Лучше чем EnCodec.

(Ждите серию постов про каждую из этих моделей)

Еще добавлены веса AudioGen и MultiBandDiffusion.

🔥А теперь представьте, использование этих моделей при монтировании роликов для ютуба.

Блог
Код и веса
Демо в колабе
MusicGen ноутбук

@ai_newz
Forwarded from DL in NLP (Vlad Lialin)
Flash Attention 2 завезли прямо в 🤗 трансформеры 🔥🔥

Коротко, это мегаэффективный cuda kernel для рассчета attention, который делает ваше потребление памяти линейным вместо квадратичного, да и в принципе работает в несколько раз быстрее наивной имплементации к которой мы все привыкли.

Flash Attention 1 был в 🤗 Optimum и мой опыт с ним... такой себе. Теперь же Flash 2 встроен в основную библиотеку и чтобы его использовать надо просто указать use flash attention 2 в from pretrained.

https://x.com/younesbelkada/status/1705258148045750343
Forwarded from Dealer.AI
Тут нас немножк рассекретили. Мы с коллегами из ai-forever выпустили препринт статьи про семейства nlp моделей для ru домена. Мы участвовали в создании семейства ru-ELECTRA.

Впереди вас ждёт более подробный рассказ о том, как мы это делали на хабр. А пока го го в arxiv.
😱3
Forwarded from эйай ньюз
Mistral.ai, стартап, основанный автором LLaMa, разразился новой открытой моделью Mistral 7B

Про новый парижский стартап я писал длиннопост несколько месяцев назад (часть 1, часть 2)

О модели Mistral 7B:
- Обходит Llama-2 13B и Llama-1 34B на всех бенчмарках
- Подбирается к CodeLlama 7B на генерации кода, не забывая как выполнять задачи на Английском языке
- Apache 2.0 лицензия

Скорость достигается за счёт:
- Grouped-query attention (GQA) for faster inference
- Sliding Window Attention (SWA) для более дешёвого инференса на длинных последовательностях токенов

Больше деталей
Модель на Hugging Face

@ai_newz
🔥2
Forwarded from AI для Всех (Artemii)
Краткий обзор анонсированных на конференции MetaConnect2023 новых продуктов и исследований в области AI от компании Meta:

На MetaConnect2023 был представлен ряд новых продуктов, опирающихся на последние достижения в области искусственного интеллекта.

В частности, были анонсированы следующие AI-модели и исследования:

- Llama 2 - открытая модель для диалоговых систем

- Emu - генеративная нейросеть для картинок

- Масштабируемые контекстные модели для диалоговых систем

- Code Llama - генерация и обсуждение кода

- Segment Anything - сегментация изображений для Instagram

Эти разработки лягут в основу таких продуктов Meta, как виртуальные персонажи, стикеры и фильтры в Instagram, умный помощник и др.

Более подробно ознакомиться с этими исследованиями можно по ссылкам в посте. Интересно то, что после всех лет и инвестиций в исследования, Meta наконец то заходит в продакшен, и то ли еще будет!
Forwarded from Machinelearning
🤖 AutoAgents: A Framework for Automatic Agent Generation

Generate different roles for GPTs to form a collaborative entity for complex tasks.

AutoAgents, инновационный фреймворк, который адаптивно генерирует и координирует множество специализированных агентов для создания ИИ-команды в соответствии с различными задачами.

🖥 Github: https://github.com/LinkSoul-AI/AutoAgents

📕 Paper: https://arxiv.org/abs/2309.17288v1

⭐️ Demo: https://huggingface.co/spaces/LinkSoul/AutoAgents

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
2025/07/13 01:45:28
Back to Top
HTML Embed Code: