Погружаемся в мир AI-творчества! 🌍🤖
Смотрите, как ИИ представляет путешествия. Несколько уникальных фото для вашего вдохновения!
https://telegra.ph/Pogruzhaemsya-v-mir-AI-tvorchestva-07-11
#AIарт #путешествия
Смотрите, как ИИ представляет путешествия. Несколько уникальных фото для вашего вдохновения!
https://telegra.ph/Pogruzhaemsya-v-mir-AI-tvorchestva-07-11
#AIарт #путешествия
Telegraph
Погружаемся в мир AI-творчества! 🌍🤖
Смотрите, как ИИ представляет путешествия. Несколько уникальных фото для вашего вдохновения!
This media is not supported in your browser
VIEW IN TELEGRAM
[Трансформер] на пальцах (буквально) ✍️📺
5-минутный видеоурок
Короткое видео, чтобы объяснить устройство "Трансформеров".
За 5 минут демонстрируется основная математика Трансформеров, с помощью ручки и бумаги!
@machinelearning_ru
5-минутный видеоурок
Короткое видео, чтобы объяснить устройство "Трансформеров".
За 5 минут демонстрируется основная математика Трансформеров, с помощью ручки и бумаги!
@machinelearning_ru
🔬⚡️ Test-Time Training RNN (ТТТ) - новый прорыв в машинном обучении! 🚀
Self-attention справляется с длинным контекстом, но имеет квадратичную сложность. Существующие слои RNN линейно сложны, но ограничены способностью скрытых состояний. Мы предлагаем новый класс слоев моделирования последовательностей с линейной сложностью и выразительными скрытыми состояниями.
💡 Главная идея: сделать скрытое состояние моделью машинного обучения и обновлять его путем самообучения даже на тестовых последовательностях. Наши слои называются Test-Time Training (TTT), и мы предлагаем две реализации: TTT-Linear и TTT-MLP.
👥 Исследования показывают, что TTT-Linear и TTT-MLP превосходят существующие модели. Они эффективно используют длинный контекст и показывают значительную производительность по сравнению с Transformer и Mamba.
📊 TTT-Linear уже быстрее Transformer при контексте 8k и сопоставим с Mamba по времени выполнения. TTT-MLP ориентирован на дальнейшие исследования и решает проблемы с памятью ввода-вывода, открывая новые горизонты для будущих исследований.
Для подробностей и доступа к статье посетите arXiv:
🟡Arxiv
🔗 Код доступен в JAX и PyTorch.
🖥 GitHub for Pytorch Stars: 277 | Issues: 3 | Forks: 12
🖥 GitHub for Jax [ Stars: 129 | Issues: 1 | Forks: 6 ]
Не пропустите этот инновационный шаг в машинном обучении! 🚀
#MachineLearning #RNN #AI #Research #Innovation
Self-attention справляется с длинным контекстом, но имеет квадратичную сложность. Существующие слои RNN линейно сложны, но ограничены способностью скрытых состояний. Мы предлагаем новый класс слоев моделирования последовательностей с линейной сложностью и выразительными скрытыми состояниями.
💡 Главная идея: сделать скрытое состояние моделью машинного обучения и обновлять его путем самообучения даже на тестовых последовательностях. Наши слои называются Test-Time Training (TTT), и мы предлагаем две реализации: TTT-Linear и TTT-MLP.
👥 Исследования показывают, что TTT-Linear и TTT-MLP превосходят существующие модели. Они эффективно используют длинный контекст и показывают значительную производительность по сравнению с Transformer и Mamba.
📊 TTT-Linear уже быстрее Transformer при контексте 8k и сопоставим с Mamba по времени выполнения. TTT-MLP ориентирован на дальнейшие исследования и решает проблемы с памятью ввода-вывода, открывая новые горизонты для будущих исследований.
Для подробностей и доступа к статье посетите arXiv:
🟡Arxiv
🔗 Код доступен в JAX и PyTorch.
🖥 GitHub for Pytorch Stars: 277 | Issues: 3 | Forks: 12
🖥 GitHub for Jax [ Stars: 129 | Issues: 1 | Forks: 6 ]
Не пропустите этот инновационный шаг в машинном обучении! 🚀
#MachineLearning #RNN #AI #Research #Innovation
🚀 Векторные базы данных: простым языком про устройство и принцип работы
⚙️ Проблема
Нужно находить объекты, похожие по характеристикам. Простой подход через поиск совпадений слишком примитивен и не учитывает контексты и синонимы.
👾 Решение в лоб
Сравнение текстов или данных по количеству совпадений недостаточно. Требуется более умный метод для глубокого понимания объектов.
💡 Машинное обучение и векторизация
Машинное обучение решает задачу путем представления объектов (слова, текста, изображения) в виде числовых векторов. Эти вектора помогают компьютерам "понимать" данные. Разные методы, такие как Bag of Words, TF-IDF или Word2Vec, помогают векторизировать объект.
🔥 Векторные базы данных (ВБД)
Векторные базы данных (ВБД) — это NoSQL решения для хранения, индексирования и поиска похожих векторов, обеспечивая:
- Рекомендательные системы (например, рекомендации товаров)
- Поисковые системы (поиск по смысловому содержанию текста)
- Анализ изображений и видео (поиск похожих картинок)
🔍 Как это работает:
1. Преобразование объекта в вектор с помощью векторизатора.
2. Сохранение вектора и метаданных на диск.
📥 Чтение данных
Когда приложение отправляет новый объект для рекомендации:
1. Векторизуем объект той же моделью, получая вектор той же размерности.
2. Ищем наиболее близкий вектор. Возможна предварительная фильтрация по метаданным (например, длина текста > n).
3. Для ускорения поиска используется индексация, замедляющая запись, но делающая чтение быстрее. Разные базы данных могут предлагать различные сортиры и алгоритмы индексации.
Некоторые ВБД поддерживают только хранение, индексацию и чтение, а другие предлагают готовые векторизаторы, избавляя от необходимости писать и обучать свои модели.
#ВБД #МашинноеОбучение #РекомендательныеСистемы #Векторизация #IT #БазыДанных
⚙️ Проблема
Нужно находить объекты, похожие по характеристикам. Простой подход через поиск совпадений слишком примитивен и не учитывает контексты и синонимы.
👾 Решение в лоб
Сравнение текстов или данных по количеству совпадений недостаточно. Требуется более умный метод для глубокого понимания объектов.
💡 Машинное обучение и векторизация
Машинное обучение решает задачу путем представления объектов (слова, текста, изображения) в виде числовых векторов. Эти вектора помогают компьютерам "понимать" данные. Разные методы, такие как Bag of Words, TF-IDF или Word2Vec, помогают векторизировать объект.
🔥 Векторные базы данных (ВБД)
Векторные базы данных (ВБД) — это NoSQL решения для хранения, индексирования и поиска похожих векторов, обеспечивая:
- Рекомендательные системы (например, рекомендации товаров)
- Поисковые системы (поиск по смысловому содержанию текста)
- Анализ изображений и видео (поиск похожих картинок)
🔍 Как это работает:
1. Преобразование объекта в вектор с помощью векторизатора.
2. Сохранение вектора и метаданных на диск.
📥 Чтение данных
Когда приложение отправляет новый объект для рекомендации:
1. Векторизуем объект той же моделью, получая вектор той же размерности.
2. Ищем наиболее близкий вектор. Возможна предварительная фильтрация по метаданным (например, длина текста > n).
3. Для ускорения поиска используется индексация, замедляющая запись, но делающая чтение быстрее. Разные базы данных могут предлагать различные сортиры и алгоритмы индексации.
Некоторые ВБД поддерживают только хранение, индексацию и чтение, а другие предлагают готовые векторизаторы, избавляя от необходимости писать и обучать свои модели.
#ВБД #МашинноеОбучение #РекомендательныеСистемы #Векторизация #IT #БазыДанных
🚀 Векторные базы данных: простым языком про устройство и принцип работы
https://habr.com/ru/companies/tochka/articles/809493/
⚙️ Проблема
Нужно находить объекты, похожие по характеристикам. Простой подход через поиск совпадений слишком примитивен и не учитывает контексты и синонимы.
👾 Решение в лоб
Сравнение текстов или данных по количеству совпадений недостаточно. Требуется более умный метод для глубокого понимания объектов.
💡 Машинное обучение и векторизация
Машинное обучение решает задачу путем представления объектов (слова, текста, изображения) в виде числовых векторов. Эти вектора помогают компьютерам "понимать" данные. Разные методы, такие как Bag of Words, TF-IDF или Word2Vec, помогают векторизировать объект.
🔥 Векторные базы данных (ВБД)
Векторные базы данных (ВБД) — это NoSQL решения для хранения, индексирования и поиска похожих векторов, обеспечивая:
- Рекомендательные системы (например, рекомендации товаров)
- Поисковые системы (поиск по смысловому содержанию текста)
- Анализ изображений и видео (поиск похожих картинок)
🔍 Как это работает:
1. Преобразование объекта в вектор с помощью векторизатора.
2. Сохранение вектора и метаданных на диск.
📥 Чтение данных
Когда приложение отправляет новый объект для рекомендации:
1. Векторизуем объект той же моделью, получая вектор той же размерности.
2. Ищем наиболее близкий вектор. Возможна предварительная фильтрация по метаданным (например, длина текста > n).
3. Для ускорения поиска используется индексация, замедляющая запись, но делающая чтение быстрее. Разные базы данных могут предлагать различные сортиры и алгоритмы индексации.
Некоторые ВБД поддерживают только хранение, индексацию и чтение, а другие предлагают готовые векторизаторы, избавляя от необходимости писать и обучать свои модели.
#ВБД #МашинноеОбучение #РекомендательныеСистемы #Векторизация #IT #БазыДанных
https://habr.com/ru/companies/tochka/articles/809493/
⚙️ Проблема
Нужно находить объекты, похожие по характеристикам. Простой подход через поиск совпадений слишком примитивен и не учитывает контексты и синонимы.
👾 Решение в лоб
Сравнение текстов или данных по количеству совпадений недостаточно. Требуется более умный метод для глубокого понимания объектов.
💡 Машинное обучение и векторизация
Машинное обучение решает задачу путем представления объектов (слова, текста, изображения) в виде числовых векторов. Эти вектора помогают компьютерам "понимать" данные. Разные методы, такие как Bag of Words, TF-IDF или Word2Vec, помогают векторизировать объект.
🔥 Векторные базы данных (ВБД)
Векторные базы данных (ВБД) — это NoSQL решения для хранения, индексирования и поиска похожих векторов, обеспечивая:
- Рекомендательные системы (например, рекомендации товаров)
- Поисковые системы (поиск по смысловому содержанию текста)
- Анализ изображений и видео (поиск похожих картинок)
🔍 Как это работает:
1. Преобразование объекта в вектор с помощью векторизатора.
2. Сохранение вектора и метаданных на диск.
📥 Чтение данных
Когда приложение отправляет новый объект для рекомендации:
1. Векторизуем объект той же моделью, получая вектор той же размерности.
2. Ищем наиболее близкий вектор. Возможна предварительная фильтрация по метаданным (например, длина текста > n).
3. Для ускорения поиска используется индексация, замедляющая запись, но делающая чтение быстрее. Разные базы данных могут предлагать различные сортиры и алгоритмы индексации.
Некоторые ВБД поддерживают только хранение, индексацию и чтение, а другие предлагают готовые векторизаторы, избавляя от необходимости писать и обучать свои модели.
#ВБД #МашинноеОбучение #РекомендательныеСистемы #Векторизация #IT #БазыДанных
Forwarded from Культурный Кавер (Дмитрий)
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Дубляж умер: завирусились видео с нейропереводом актёров на русский — голоса не отличить от настоящих, а губы пугающе точно попадают в речь.
Возможно, скоро мы увидим новую жизнь старых музыкальных клипов на всех языках мира.
#нейрозвук #нейровидео
Возможно, скоро мы увидим новую жизнь старых музыкальных клипов на всех языках мира.
#нейрозвук #нейровидео
🎬 Магия видео генерации теперь для всех: знакомьтесь с Klingai.com! 🚀
Раньше искусственный интеллект, который создавал потрясающие видеоролики, был доступен лишь избранным в Китае. Но времена меняются, и теперь каждый из нас может прикоснуться к этой магии благодаря Klingai.com! 🌐✨
Klingai.com — это суперсовременный генератор видео от топовых китайских разработчиков. 📹 Он позволяет создавать видео выдающегося качества, и всё это с помощью ИИ! 🤖 Да, у сервиса есть свои нюансы, но главное — теперь он открыт для всех желающих! 👐
Так что не упустите шанс проявить своё творчество! Начинать творить прямо сейчас проще простого! 🎨🔥
Заходите на Klingai.com и создавайте свои уникальные видеошедевры! 💡💥
Раньше искусственный интеллект, который создавал потрясающие видеоролики, был доступен лишь избранным в Китае. Но времена меняются, и теперь каждый из нас может прикоснуться к этой магии благодаря Klingai.com! 🌐✨
Klingai.com — это суперсовременный генератор видео от топовых китайских разработчиков. 📹 Он позволяет создавать видео выдающегося качества, и всё это с помощью ИИ! 🤖 Да, у сервиса есть свои нюансы, но главное — теперь он открыт для всех желающих! 👐
Так что не упустите шанс проявить своё творчество! Начинать творить прямо сейчас проще простого! 🎨🔥
Заходите на Klingai.com и создавайте свои уникальные видеошедевры! 💡💥
Forwarded from Machinelearning
OpenCoder - это открытое и воспроизводимое семейство LLM для программирования, включающее 1,5B и 8B базовые и instruct версии, поддерживающее английский и китайский языки.
Семейство моделей OpenCoder обучалось с нуля на 2,5 трлн. лексем, состоящих на 90 % из сырого кода и на 10 % из веб-данных, связанных с кодом, и прошло отладку на более чем 4,5 млн. высококачественных примеров SFT, в итоге достигнув производительности топовых LLM с похожей специализацией.
В открытый доступ опубликованы не только веса моделей и код для инференса, но и датасеты, полный цикл обработки данных, результаты экспериментальной абляции и подробные протоколы обучения.
OpenCoder тщательно протестирован с помощью исследований абляции на различных стратегиях очистки данных и процессах обучения, включая эксперименты по дедупликации на уровне файлов и репозиториев, что обеспечило семейству тщательную проверку производительности моделей.
OpenCoder достигает высокой производительности в различных бенчмарках, что ставит их в ряд SOTA-моделей с открытым исходным кодом для задач программирования.
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "infly/OpenCoder-8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(model_name,
torch_dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
messages=[
{ 'role': 'user', 'content': "write a quick sort algorithm in python."}
]
inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(inputs, max_new_tokens=512, do_sample=False)
result = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)
@ai_machinelearning_big_data
#AI #ML #LLM #OpenCoder #Datasets
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла крутая нейронка для кодинга — Qwen2.5-Coder-32B-Instruct. Модель выложили в открытый доступ, её можно скачать и пользоваться бесплатно.
По многим параметрам она круче ChatGPT-4. Причина этому — масштабное обучение модели на 5,2 триллионах токенов, в то время как GPT-4o — лишь на сотнях миллиардов.
Забираем имбу — тут.
@techmedia
По многим параметрам она круче ChatGPT-4. Причина этому — масштабное обучение модели на 5,2 триллионах токенов, в то время как GPT-4o — лишь на сотнях миллиардов.
Забираем имбу — тут.
@techmedia
Новое открытие в сфере ИИ - это адаптивные модели Lora для проекта FLUX, доступные на платформе Hugging Face: ссылка на модели 🌐.
За полгода существования FLUX, сообществом было обучено и загружено более 7500 моделей. Несмотря на то, что часть из них может не оправдать ожиданий и содержать ненадлежащий контент, впечатляет сам объём работы и вклада сообщества 🤖.
Оцените разнообразие и примите участие в развитии этой области!
За полгода существования FLUX, сообществом было обучено и загружено более 7500 моделей. Несмотря на то, что часть из них может не оправдать ожиданий и содержать ненадлежащий контент, впечатляет сам объём работы и вклада сообщества 🤖.
Оцените разнообразие и примите участие в развитии этой области!
huggingface.co
Models - Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🚀 Недавно вышло более мощное семейство моделей YandexGPT 4 🌟: улучшенное качество ответов, работа с длинным контекстом и пошаговое рассуждение. Подробнее читайте здесь: Habr.
🔍 Что нового?
- 📜 Длинный контекст: YandexGPT 4 Pro теперь обрабатывает до 32 тысяч токенов вместо прежних 8 тысяч. Это значит, что модель лучше разбирается в сложных запросах и может анализировать до 60 страниц текста!
- 🌐 Работа с внешними источниками: Снижение галлюцинаций в RAG-сценариях и повышение надежности ответов. В 67% случаев YandexGPT 4 Pro превосходит предыдущее поколение в RAG-задачах.
- 🎓 Эффективность обучения: Использование библиотеки YaFSDP от Яндекса помогает проводить эксперименты быстрее и качественнее, улучшая все стадии машинного обучения.
- 🧠 Скрытые рассуждения: Модели обучены пошагово анализировать задачи и выводить ключевые этапы решения. Это особенно полезно для математики и научных исследований, где требуется глубокий анализ.
- 🛠 Режим вызова функций: В ближайшее время планируем добавить возможность вызова функций для создания умных ассистентов с применением внешних инструментов и API. Разработчики смогут задавать параметры, а клиенты использователи сгенерированные функции. Полноценный запуск будет чуть позже, после тестирования.
Можно попробовать улучшенную функциональность в облаке! 🌥️✨
🔍 Что нового?
- 📜 Длинный контекст: YandexGPT 4 Pro теперь обрабатывает до 32 тысяч токенов вместо прежних 8 тысяч. Это значит, что модель лучше разбирается в сложных запросах и может анализировать до 60 страниц текста!
- 🌐 Работа с внешними источниками: Снижение галлюцинаций в RAG-сценариях и повышение надежности ответов. В 67% случаев YandexGPT 4 Pro превосходит предыдущее поколение в RAG-задачах.
- 🎓 Эффективность обучения: Использование библиотеки YaFSDP от Яндекса помогает проводить эксперименты быстрее и качественнее, улучшая все стадии машинного обучения.
- 🧠 Скрытые рассуждения: Модели обучены пошагово анализировать задачи и выводить ключевые этапы решения. Это особенно полезно для математики и научных исследований, где требуется глубокий анализ.
- 🛠 Режим вызова функций: В ближайшее время планируем добавить возможность вызова функций для создания умных ассистентов с применением внешних инструментов и API. Разработчики смогут задавать параметры, а клиенты использователи сгенерированные функции. Полноценный запуск будет чуть позже, после тестирования.
Можно попробовать улучшенную функциональность в облаке! 🌥️✨
Хабр
Более мощное семейство моделей YandexGPT 4: рост качества ответов, длинный контекст, пошаговые рассуждения
Сегодня мы открываем доступ к четвёртому поколению наших больших языковых моделей: более мощная YandexGPT 4 Pro и облегчённая YandexGPT 4 Lite уже доступны через API в Yandex...