Telegram Web
📖 Руководство: Как установить NVIDIA CUDA Toolkit в Ubuntu!

💡 Набор инструментов NVIDIA Compute Unified Device Architecture (CUDA) — это программная платформа, которая позволяет разработчикам использовать вычислительную мощность обработки NVIDIA и приложений с ускорением на GPU.

🌟 Используя CUDA Toolkit, вы можете улучшить производительность, масштабируемость и эффективность в ряде приложений. К ним относятся вычисления, глубокое обучение, компьютерное зрение, игры и многое другое.

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥2😁2🥰1
🔍 Qwen-Agent — инструмент для построения retrieval-augmented generation (RAG) систем и работы с большими языковыми моделями (LLM)!

🌟 Он разработан для выполнения сложных задач, таких как извлечение релевантной информации из больших объемов текста, многозадачное рассуждение и пошаговая дедукция.

🌟 Qwen-Agent применяется в системах, где важно объединить модель с механизмами поиска, чтобы обрабатывать длинные контексты и решать задачи, требующие комбинированного анализа данных. Среди особенностей: обработка запросов с использованием методов BM25, векторного поиска, и распределение задач на несколько уровней агентов, каждый из которых специализируется на своих задачах. Это делает Qwen-Agent полезным для обработки длинных текстов, таких как документы, требующих понимания контекста и взаимосвязей между частями текста.

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🔥2
💡 Интересный тред том, как компании на самом деле внедряют LLM в продакшен (более 300 технических примеров, включая локальные

https://www.reddit.com/r/LocalLLaMA/comments/1h4u7au/a_nobs_database_of_how_companies_actually_deploy/

@machinelearning_ru
🔥9👍42👎1🤬1
Forwarded from Machinelearning
✔️ Эксперта Стэнфорда по дезинформации обвиняют в использовании ИИ для фальсификации заявления в суде.

В ноябре Джефф Хэнкок, основатель Лаборатории социальных сетей Стэнфорда и эксперт по технологиям и дезинформации, представил заявление по делу в суде Миннесоты, оспаривающему закон штата 2023 года, криминализирующий использование дипфейков для влияния на выборы. В 12-страничном документе профессора в защиту закона содержалось 15 ссылок, 2 из которых не удалось найти: «Дипфейки и иллюзия подлинности: когнитивные процессы, лежащие в основе восприятия дезинформации» и «Влияние дипфейковых видео на политические взгляды и поведение» – ни по указанному цифровому идентификатору объекта, ни в архивах указанных журналов. Адвокат истцов назвал ссылки "галлюцинацией искусственного интеллекта" и потребовал исключить заявление Хэнкока из материалов дела.
stanforddaily.com

✔️ World Labs анонсировал ИИ, способный генерировать интерактивные 3D-сцены по одной фотографии.

Стартап World Labs, основанный профессором в области ИИ Фэй-Фэй Ли, представил свою первую разработку: систему ИИ, которая может создавать интерактивные 3D-сцены на основе одной фотографии. В отличие от многих других систем, преобразующих фото в 3D, сцены World Labs интерактивны и модифицируемы и позволяют «войти в любое изображение и исследовать его в 3D».

Система визуализирует сцены в режиме реального времени и поддерживает управление камерой и настройку глубины резкости. Она также позволяет применять к сценам интерактивные эффекты и анимацию, например, изменять цвет объектов и динамически освещать фон. World Labs планирует выпустить свой первый продукт в 2025 году и ориентируется на разработчиков видеоигр и киностудии.
techcrunch.com

✔️ The Browser Company анонсировала Dia - браузер с ИИ.

Компания The Browser Company, разработчик браузера Arc, представила Dia - новый веб-браузер, основанный на искусственном интеллекте. Dia будет запущен в начале 2025 года и предложит пользователям ИИ-функции: "напиши следующую строку", "дай мне идею" и "резюмируй вкладку".

Dia понимает контекст всего окна браузера, может копировать ссылки из открытых вкладок и вставлять их в электронное письмо по команде пользователя. В промо-видеоролике разработчики показали, как Dia находит документ по описанию и отправляет его по электронной почте. Разработчики уверяют, что Arc продолжит свое существование, несмотря на запуск нового продукта.
theverge.com

✔️ Гибридная модель рекомендаций для интернет-пользователей на основе DL.

Гибридная модель рекомендаций HRS-IU-DL сочетает в себе методы коллаборативной фильтрации, контентной фильтрации и нейроколлаборативной фильтрации. Модель использует RNN для выявления последовательных паттернов в поведении пользователей и TF-IDF для анализа атрибутов товаров.

HRS-IU-DL справляется с проблемами традиционных рекомендательных систем - разреженность данных и холодный старт, предоставляя точные и релевантные рекомендации. Для обучения и тестирования модели использовался датасет Movielens 100k. Результаты тестов показали, что HRS-IU-DL превосходит базовые модели по метрикам RMSE, MAE, точности и полноте.
nature.com

✔️ Hugging Face опубликовал руководство для разработчиков по соблюдению Закона ЕС об ИИ.

Закон ЕС об ИИ, вступивший в силу 2 декабря 2024 года, классифицирует системы ИИ по уровням риска: неприемлемый, высокий, ограниченный и минимальный.

В большинстве случаев разработчикам систем ИИ ограниченного риска (например, чат-ботов) потребуется обеспечить прозрачность взаимодействия с пользователем и маркировать контент, созданный ИИ. Разработчикам моделей ИИ общего назначения (GPAI) необходимо предоставить подробное описание данных, использованных для обучения модели, и соблюдать законы ЕС об авторском праве, включая механизмы отказа от использования защищенных авторским правом материалов.

Hugging Face предлагает инструменты, помогающие подготовиться к соблюдению требований: Model Cards, Dataset Cards, Gradio watermarking и поддержку механизмов отказа.
huggingface.co

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Universal Soccer Understanding

👉Универсальное понимание футбольных видео : SoccerReplay-1988 - крупнейший мультимодальный датасетов.

Статья https://arxiv.org/pdf/2412.01820
Проект https://jyrao.github.io/UniSoccer/
Репо https://github.com/jyrao/UniSoccer

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
🔦 IC-Light V2-Разные варианты

Модели IC-Light версии 2 для тех, кому нужны более яркие варианты освещения и модификации.

Демо: https://huggingface.co/spaces/lllyasviel/iclight-v2-vary

@machinelearning_ru
👍5🔥32👎1
🔥 headshots-starter — шаблон для настройки веб-приложения, которое позволяет пользователям создавать профессиональные портретные фотографии с использованием искусственного интеллекта!

🌟 Оно работает на базе Astria AI, используя модели генеративного ИИ, и включает интеграцию с такими сервисами, как Vercel и Supabase, для развертывания и управления процессами.

🌟 Проект нацелен на генерацию изображений по загруженным фотографиям пользователей, а также имеет функционал настройки вебхуков для обработки событий, связанных с обучением модели и генерацией результатов.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥2
🌤 Революционный инструмент в области прогнозирования погоды от Google!

Команда Google DeepMind презентовала GenCast – новую модель искусственного интеллекта, способную с высокой точностью предсказывать погоду на целых 15 дней вперёд! 🎯

GenCast – ансамблевая диффузионная модель для прогнозирования погоды и рисков экстремальных погодных условий, обеспечивающая более быстрые и точные прогнозы на срок до 15 дней. GenCast была обученная на 40-летнем архиве исторических метеорологических данных ERA5 от ECMWF.

Модель, работающая на Google Cloud TPU v5, превосходит лидирующую систему прогнозирования ECMWF ENS по точности прогнозов на 97,2% в 1320 различных комбинациях тестируемых параметров. GenCast демонстрирует способность прогнозировать экстремальные погодные явления: периоды сильной жары и холода, сильные ветры и траектории тропических циклонов. Google DeepMind планирует выпустить код, веса и прогнозы модели в открытый доступ, чтобы поддержать метеорологическое сообщество.

Почему это так важно?
- В условиях изменения климата погода становится всё менее предсказуемой.
- Точные прогнозы помогают спасти жизни и сохранить имущество.
- Это способствует эффективному планированию использования возобновляемых источников энергии.

Что может GenCast?

- Генерирует более 50 различных сценариев развития погоды и объединяет их в единый вероятностный прогноз.
- Обеспечивает разрешение до 0.25° для всего земного шара.
- Превышает точность лучших существующих систем прогнозирования в 97.2% случаев!

Как быстро он работает?

- Всего за 8 минут создаёт 15-дневный прогноз при помощи Google Cloud TPU v5. Для традиционных систем это занимает часы работы на суперкомпьютерах!

Особенно точен в прогнозах экстремальной погоды:
- Тайфунов и ураганов
- Аномально высоких и низких температур
- Сильнейших ветров

Открытый доступ:
Google DeepMind предоставляет исходный код модели и её весовые коэффициенты всем желающим, чтобы способствовать развитию метеорологии.

Статья: https://deepmind.google/discover/blog/gencast-predicts-weather-and-the-risks-of-extreme-conditions-with-sota-accuracy/
Github: https://github.com/google-deepmind/graphcast

@machinelearning_ru
8👍5🔥4👎2
🔍 Podcastfy — инструмент с открытым исходным кодом для генерации подкастов с использованием возможностей ИИ!

🌟 Он позволяет автоматически создавать диалоги на основе текстов, добавлять персонализированные элементы, а также настраивать стиль беседы, структуру диалогов и даже текстовые параметры для подкаста.

🌟 Программа поддерживает интеграцию с текстовыми и голосовыми сервисами, такими как ElevenLabs, OpenAI и Edge TTS, для преобразования текста в речь и создания аудиофайлов. Включены настройки для работы с голосами, стилем речи и другими параметрами. Это делает инструмент полезным для разработчиков, желающих автоматизировать производство подкастов или эксперименты с генеративным контентом.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2🥰1
Forwarded from Machinelearning
🌟 PydanticAI: фреймворк для создания AI-агентов на основе Pydantic.

PydanticAI - фреймворк для Python, созданный командой разработчиков Pydantic, который упрощает создание приложений с использованием LLM. Фреймворк имеет простой и интуитивно понятный интерфейс для взаимодействия с LLMs, поддерживающими Async OpenAI (Ollama) и openAI API (ChatGPT, Gemini и Groq), с поддержкой Anthropic в ближайшем будущем.

Основная особенность PydanticAI - система внедрения зависимостей, которая передает данные, соединения и логику в целевую модель. Она упрощает тестирование и оценку агентов и позволяет динамически формировать системные промпты и определять инструменты, доступные LLM.

PydanticAI имеет возможность потоковой обработки ответов с валидацией структурированных данных, позволяя контролировать корректность соответствие данных ожидаемому ответу, тем самым повышая эффективность и интерактивность приложений.

Для отладки и мониторинга работы агентов предусмотрена интеграция с Pydantic Logfire, с которым можно отслеживать запросы к базам данных, анализировать поведение модели и оценивать производительность.

▶️ В документации к проекту доступны примеры применения PydanticAI в сценариях:

🟢Построение Pydantic-модели на основе текстового ввода;
🟢Погодный агент;
🟢Агент поддержки клиентов банка;
🟢Генерация SQL-запросов на основе пользовательского ввода;
🟢RAG-поиск по массиву markdown-документам;
🟢Вывод результатов работы агента в терминале;
🟢Пример проверки потокового структурированного ответа на примере информации о видах китов;
🟢Простой чат-приложение.

⚠️ PydanticAI находится на ранней стадии бета-тестирования.

▶️Установка и простой пример "Hello Word" с Gemini-1.5-flash:

# Install via  PyPI
pip install pydantic-ai

# Set Gemini API key
export GEMINI_API_KEY=your-api-key

# Run example
from pydantic_ai import Agent
agent = Agent(
'gemini-1.5-flash',
system_prompt='Be concise, reply with one sentence.',
)
result = agent.run_sync('Where does "hello world" come from?')
print(result.data)
"""
The first known use of "hello, world" was in a 1974 textbook about the C programming language.
"""


📌Лицензирование: MIT License.


🟡Документация
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Agents #Framework #PydanticAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍21
👩‍💻 pypyr — это инструмент для автоматизации задач и выполнения пайплайнов, который сочетает команды, скрипты на разных языках программирования и приложения в единый процесс! Pypyr позволяет определять пайплайны в формате YAML, что делает его удобным для управления сложными задачами.

💡 Инструмент предоставляет интерфейс командной строки (CLI) и API для выполнения пайплайнов. Он может быть расширен за счёт плагинов, таких как поддержка AWS или Slack. Это делает pypyr подходящим для самых разных сценариев автоматизации, включая управление ресурсами, отправку уведомлений и интеграцию с внешними сервисами. Для использования достаточно установить библиотеку через pip и задать конфигурацию пайплайнов!

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2
Media is too big
VIEW IN TELEGRAM
⚡️ Новый искусственный интеллект DeepMind для игр Делает Невозможное!

Google DeepMind совершила значительный прорыв, представив Genie 2 – модель, которая способна создавать бесконечное множество интерактивных 3D-миров.

Genie 2 представляет собой мировую модель с автогрессивной латентной диффузией, обученную на большом объеме видеоданных. Модель умеет строить играбельные миры всего лишь на основе одного изображения, а также реагировать на действия пользователя с помощью клавиатуры и мыши.

Основные возможности системы включают:

🔹Создание последовательных миров продолжительностью до одной минуты
🔹Запоминание и точное воспроизведение частей мира, которые временно выходят за пределы видимости
🔹Моделирование сложных физических процессов, таких как гравитация, дым, вода и освещение
🔹Анимация персонажей и их взаимодействия с окружающей средой
🔹Генерация NPC с продвинутыми поведенческими моделями
🔹Поддержка различных перспектив, начиная от вида от первого лица и заканчивая изометрическим видом

Особо стоит отметить возможность быстрого прототипирования. Дизайнерам теперь легко преобразовывать концептуальные рисунки в полноценные интерактивные среды, что значительно ускоряет процесс создания игр. Кроме того, Genie 2 способна работать с реальными фотографиями, воссоздавая мелкие детали вроде колеблющейся травы или текущей воды.

Мы собрали для вас целую коллекцию примеров – это просто невероятно!

Несмотря на то, что технология пока находится на начальной стадии развития, мы уверены, что через несколько лет она произведет настоящую революцию в индустрии компьютерных игр.

🎯 Источник
🎯Статья

@machinelearning_ru
🔥52👍2
🌟 Fish Speech V1.5: модель преобразования текста в речь и клонирования голоса.

Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").

Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.

▶️Языковая структура обучающего корпуса версии 1.5:

🟢Английский (en) >300 тыс. часов
🟢Китайский (zh) >300 тыс. часов
🟢Японский (ja) >100 тыс. часов
🟢Немецкий (de) ~20 тыс. часов
🟢Французский (fr) ~20 тыс. часов
🟢Испанский (es) ~20 тыс. часов
🟢Корейский (ko) ~20 тыс. часов
🟢Арабский (ar) ~20 тыс. часов
🟠Русский (ru) ~20 тыс. часов
🟢Голландский (nl) <10 тыс. часов
🟢Итальянский (it) <10 тыс. часов
🟢Польский (pl) <10 тыс. часов
🟢Португальский (pt) <10 тыс. часов

Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.

Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.

⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.


📌Лицензирование: CC-BY-NC-SA-4.0 License.


🟡Модель
🟡Demo
🟡Документация
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #TTS #FIshSpeech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥2
🔥 Эта статья посвящена тонкой настройке больших языковых моделей (LLM)!

🌟 Здесь рассмотрены ключевые этапы настройки, от подготовки данных до развертывания модели, описаны подходы (например, LoRA и DPO) и обсуждаются проблемы, включая оптимизацию производительности, управление данными и использование мультимодальных моделей. Автор подчеркивает перспективы применения LLM и предлагает рекомендации для исследователей и практиков.

📖 Читать: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥21
📖 Эта статья представляет SC-MCTS*: новый алгоритм Монте-Карло Tree Search (MCTS) для больших языковых моделей (LLM), который значительно улучшает точность и скорость рассуждений!

🌟 Авторы отмечают, что предыдущие работы по применению MCTS в LLM часто упускали из виду его главный недостаток — медленную скорость по сравнению с Chain of Thought (CoT). Кроме того, ранее MCTS использовался как инструмент для различных задач LLM без глубокого количественного анализа или исследований его компонентов с точки зрения интерпретируемости рассуждений. Наконец, модель вознаграждения, являющаяся ключевым компонентом MCTS, редко подвергалась глубокому изучению или улучшению.

💡 В ответ на эти вызовы авторы провели обширные исследования и количественный анализ компонентов MCTS, выявив их влияние на производительность рассуждений LLM. На основе этих исследований они разработали интерпретируемую модель вознаграждения, основанную на принципе контрастивного декодирования, и достигли среднего улучшения скорости на 51,9% на узел с использованием спекулятивного декодирования. Дополнительно были улучшены стратегии выбора узлов UCT и обратного распространения, что привело к значительному повышению производительности. Используя SC-MCTS* с моделью Llama-3.1-70B, они превзошли o1-mini в среднем на 17,4% на наборе данных Blocksworld для многошаговых рассуждений.

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42👏2
💡 AQLM․rs — сервис для запуска ИИ на пользовательских девайсах, позволяющий сэкономить на вычислительных мощностях. Опенсорс-проект разработал исследователь из научного отдела Яндекса.

С помощью сервиса можно запустить большую языковую модель с 8 млрд параметров на обычном компьютере или смартфоне через интерфейс любого браузера. Скорость ответов нейросети будет зависеть от производительности устройства.

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍3🔥3👎1🤬1
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI представила Sora: новую модель для создания видеороликов по текстовому описанию.

Компания OpenAI на онлайн-стриме анонсировала запуск Sora – инструмента для создания видео по текстовому запросу. Sora доступна подписчикам ChatGPT Plus и Pro, с ограничениями по региону (недоступна на территории ЕС и Великобритании), количеству генераций и качеству видео. Plus-пользователи смогут создавать до 5 видео в месяц длиной до 5 секунд в разрешении до 720p.

Pro-подписка позволяет сгенерировать до 500 коротких видео длиной до 20 секунд в разрешении до 1080p. Sora предлагает различные инструменты для редактирования и управления процессом создания видео: Storyboard для покадровой режиссуры и функции для добавления начала, концовки и объединения нескольких видео.
openai.com

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥2
2025/07/12 05:19:45
Back to Top
HTML Embed Code: