Telegram Web
Media is too big
VIEW IN TELEGRAM
🐬 DolphinGemma — это проект Google, направленный на расшифровку коммуникации дельфинов на архитектуре Gemma (кто бы мог подумать), оптимизированной под open-source задачи.

Разработанный в сотрудничестве с учёными из Georgia Tech и исследовательской группой Wild Dolphin Project (WDP), этот проект использует возможности больших языковых моделей для анализа и генерации звуков, характерных для , характерных для дельфинов

🔍 Исследование коммуникации дельфинов

С 1985 года WDP ведёт долгосрочные наблюдения за популяцией атлантических пятнистых дельфинов (Stenella frontalis) на Багамах. Их подход "В их мире, на их условиях" позволяет собирать уникальные данные: подводные видео и аудиозаписи, связанные с конкретными особями, их жизненным циклом и поведением. Это включает в себя:​

- "Подписи-свистки", используемые для идентификации и связи между матерями и детёнышами.​

- Импульсные звуки во время конфликтов.​

- Щелчки, сопровождающие ухаживание или охоту.​

🌟 Модель DolphinGemma
DolphinGemma — это аудио-модель с ~400 миллионами параметров, способная обрабатывать и генерировать последовательности звуков дельфинов.

В модели используются данные за40 лет из уникальной коллекции доктора Дениз Герцин.

Она использует токенизатор SoundStream для эффективного представления аудиосигналов и может работать непосредственно на смартфонах Pixel, используемых исследователями в полевых условиях.

Модель обучена на данных WDP и способна предсказывать последовательности звуков, аналогично тому, как языковые модели предсказывают слова в предложении.​

🌊 Основная цель DolphinGemma — выявить структуру и возможное значение звуков дельфинов, что может приблизить нас к межвидовой коммуникации.

Этот проект объединяет передовые модели Гугла и многолетние биологические исследования, открывая новые горизонты в понимании морских млекопитающих.​

Теперь осталось только научить дельфинов понимать лицензионное соглашение на использование моделей! 🐬📜🤖

🔜 Подробнее о проекте можно узнать в официальном блоге Google: DolphinGemma: How Google AI is helping decode dolphin communication.

@ai_machinelearning_big_data

#Gemma #google #ml #science
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥8822🐳22👍15😁6❤‍🔥2🥱1🤗1
🔥 OpenAI выкатили сразу три новые модели — 4.1, 4.1 mini и 4.1 nano!

📏 Контекст — до миллиона токенов
💡 Обещают значительные Улучшения в коде
Модели уже доступны через API

GPT-4.1, набрал 55% на бенчмарке SWE-Bench Verified, это — хоороший результат, особенно с учётом того, что GPT-4.1 не оптимизировалась конкретно под задачи логического или многошагового рассуждения.

💬 На презентации одним промптом собрали веб-приложение для изучения языков.

Честно говоря, выглядит не супер. Практически та же цена, что у Gemini 2.5 Pro (у Gemini дешевле входные токены, что важно), и, судя по всему, она не превосходит модели Гугла ни на одном бенчмарке.

Попробовать бесплатно можно здесь и в Cursor.

💲 Цены

@ai_machinelearning_big_data

#openai #chatgpt
👍64🔥29🥱2113👏3🤬1
✔️ DeepSeek выпустила в оперсорс механизмы инференса для DeepSeek-V3 и R1.

DeepSeek объявила о публикации в открытый доступ кода своего механизма инференса, построенного на vLLM. Компания будет предоставлять отдельные функции и оптимизации из своей внутренней инфраструктуры, специально разработанные для ее моделей DeepSeek-V3 и R1.
Этот шаг - часть стратегии поддержки будущих моделей с доступом к улучшениям в сообществе разработчиков с открытым исходным кодом. Кроме того, DeepSeek опубликовала дорожную карту, в которой подробно описана стратегия использования открытого кода и планы сотрудничества с существующими оперсорс-проектами для расширения экосистемы инфраструктуры ИИ.

🔜 DeepSeekAI на Github

@ai_machinelearning_big_data


#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
285👍40🔥16🤔5
✔️ THUDM представила новое поколение моделей семейства GLM.

Китайская THUDM выпустила обновление семейства GLM: базовую GLM-4-32B-0414, оптимизированную для инференса GLM-Z1-32B-0414 и GLM-Z1-Rumination-32B-0414 с ризонингом. Новая архитектура с 32 млрд. параметров обгоняет DeepSeek-R1 (671 млрд. параметров) в математических задачах, выдавая до 200 токенов в секунду — это в 8 раз быстрее, чем R1.

GLM-Z1-Rumination умеет искать данные в сети, анализировать их и проверять гипотезы, как человек. Попробовать новые модели можно в демо-спейсе на новом продуктовом домене ChatGLM - Z.ai.
ChatGLM в X (ex-Twitter)

✔️ Fabula интегрирует Runway AI в производство фильмов и рекламы.

Fabula объявила о партнерстве с Runway, чьи технологии будут использоваться на всех этапах: от разработки концепций и раскадровок до визуальных эффектов. В Fabula заверили: несмотря на скепсис в киноиндустрии вокруг ИИ, технологии будут внедрятся ответственно, с акцентом на контроль со стороны режиссеров.

По словам CEO Runway Кристобаля Валенсуэлы, сотрудничество с Fabula — часть стратегии по интеграции ИИ в кино без ущерба для авторского видения. Уже сейчас инструменты помогают создавать питч-материалы, которые раньше требовали больше времени и ресурсов.
deadline.com

✔️ Nvidia разворачивает производство ИИ-чипов в США.

Nvidia объявила о масштабной экспансии в США: сборка чипов Blackwell уже стартовала на заводах TSMC в Фениксе, а в Хьюстоне и Далласе совместно с Foxconn и Wistron строятся новые мощности. К 2028 году компания планирует создавать инфраструктуру для ИИ на $500 млрд.

«Двигатели мирового ИИ теперь впервые создаются в Штатах», — заявил CEO Nvidia, подчеркнув укрепление цепочек поставок. Решение частично связано с экспортными ограничениями: недавно администрация Белого дома смягчила санкции на чип H20 для Китая после обещаний Nvidia инвестировать в американские дата-центры.
wsj.com

✔️ Alphabet и Nvidia инвестируют в компанию SSI Ильи Суцкевера.

Alphabet и Nvidia присоединились к группе венчурных инвесторов, чтобы поддержать Safe Superintelligence (SSI), стартап, один из основателей которого - бывший главный научный сотрудник OpenAI Илья Суцкевер, быстро ставший одним из самых ценных стартапов в области ИИ спустя несколько месяцев после запуска.
Финансирование свидетельствует о возобновлении интереса крупных технологических и инфраструктурных компаний к стратегическим инвестициям в стартапы, разрабатывающие передовой ИИ, требующий огромных вычислительных мощностей.
reuters.com

✔️ Apple будет обучать ИИ на данных пользователей без ущерба для приватности.

Apple объявила о новом методе обучения своих ИИ-моделей: теперь анализировать данные пользователей будут прямо на устройствах, не передавая их на серверы. Это позволит улучшить алгоритмы сохраняя конфиденциальность. Вместо файлов система сравнивает синтетические данные — искусственно созданные тексты с примерами из приложений вроде «Почты».
Хотя конкуренты активно используют реальные данные из открытых источников, Apple делает ставку на гибридный метод. Это может помочь компании догнать лидеров рынка без рисков для репутации.
machinelearning.apple.com

✔️ Kling AI 2.0 — теперь видео не отличить от реальности!

Multy-Elements 1.6 — качественно редактирует всё в кадре: добавляй.

Motion Control 1.6 — анимирует персонажей по одному промпту.

KOLORS 2.0 — генератор картинок с фотореалистичной детализацией.
Kling

✔️ OpenAI опубликовала новое руководство по промптингу для GPT-4.1.

В руководство включен подробный "агентный промпт" (Agentic Prompt).

Именно этот промпт OpenAI использовала для достижения рекордно высокого балла в сложном бенчмарке по разработке ПО SWE-bench Verified.
Руковосдтво

@ai_machinelearning_big_data


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
40👍35🔥7🥰2
🌟 Яндекс запускает бета-версию reasoning-модели YandexGPT 5

В бета-тесте — новая версия YandexGPT 5 с режимом рассуждений. В отличие от режима CoT в YandexGPT 4, YandexGPT 5 reasoning — это отдельная модель, обученная отвечать через цепочки рассуждений.

✔️Зачем это нужно:
Ризонинг — это не про обычный чат. Это про сложные задачи, где LLM должна не просто ответить, а продумать цепочку действий. Такие модели работают медленнее, но точнее в задачах, где важна логика.

🔍 Что под капотом:
🟢на претрейн-модели делают SFT на ответах YandexGPT 5 Pro
🟢 online-RL GRPO на реворде с однозначными ответами
🟢 offline-RL-фаза: сравнение и дообучение на лучших генерациях (порядок определяется экспериментами)
🟢разношерстный датасет — например, кроме задач на математику еще добавили B2B-задачи: классификацию, извлечение данных, суммаризацию
🟢 обучение идёт быстрее благодаря YaFSDP — библиотеке, ускоряющей обучение моделей

🔥В бете сейчас есть две модели

🟡Задача — собрать датасет и понять поток запросов на рассуждение, а также понять: где пользователю действительно нужны размышления, а где хватит базовой LLM
🟡 Использование и своих решений, и опенсорса — кажется верной стратегией. Похоже на то, что делает Perplexity — использует сразу несколько SOTA-моделей, предоставляя пользователям выбор.
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍71❤‍🔥22🥰8😁76🗿5🤣4🥱3
🌟 HoloPart: генеративная 3D-сегментация.

3D-сегментация объектов на семантические части — задача не новая, но большинство методов до сих пор работают только с видимыми поверхностями, игнорируя скрытые области. Это ограничивает их применение в задачах анимации и редактирования геометрии, где нужны полные части.

HoloPart — модель, разработанная VastAI, которая решает проблему амодальной сегментации для 3D-объектов, восстанавливая скрытые фрагменты. С HoloPart можно, например, изменить размер колес у машины, добавить детали или перераспределить материалы между частями. Для художников и инженеров это экономит часы ручной работы.

Модель работает в 2 этапа: сначала стандартная сегментация выделяет видимые части, а затем HoloPart достраивает их до полных 3D-форм, используя комбинацию из локального и глобального внимания. Локальные механизмы фокусируются на деталях каждой части, а контекстное внимание следит, чтобы восстановленные элементы не конфликтовали с общей структурой объекта.

Эксперименты на датасетах ABO и PartObjaverse-Tiny показали, что HoloPart обходит конкурентов - PatchComplete и DiffComplete по всем метрикам. Средний Chamfer Distance (показывает точность совпадения форм) у HoloPart — 0.026 против 0.087 у DiffComplete на ABO. А F-Score, оценивающий полноту восстановления, достигает 0.848 против 0.371 у аналогов.

⚠️ Перед тем, как загрузить целевой glb-файл в HoloPart ytj необходимо выполнить сегментацию сторонними средствами. Разработчики рекомендуют SAMPart3D и SAMesh.


▶️Локальный инференс:

# Clone the repo
git clone https://github.com/VAST-AI-Research/HoloPart.git
cd HoloPart

# Create a conda env
conda create -n holopart python=3.10
conda activate holopart

# Install dependencies
pip install torch torchvision --index-url https://download.pytorch.org/whl/{your-cuda-version}
pip install -r requirements.txt

# Step 1: Prepare segmented mesh with a mesh file and mask
import trimesh
import numpy as np
mesh = trimesh.load("mesh.glb", force="mesh")
mask_npy = np.load("mask.npy")
mesh_parts = []
for part_id in np.unique(mask_npy):
mesh_part = mesh.submesh([mask_npy == part_id], append=True)
mesh_parts.append(mesh_part)
mesh_parts = trimesh.Scene(mesh_parts).export("input_mesh.glb")

# Step 2: Decompose the 3D mesh into complete parts:
python -m scripts.inference_holopart --mesh-input assets/example_data/file.glb


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3D #HoloPart #Segmentation #VastAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥2114
🌟 TARIFF — инструмент, который вы реально ждали, Python-пакет, который делает импорты «Великими» снова.

Инструмент позволяет вводить "пошлины" на Python-библиотеки, замедляя загрузку определённых пакетов, чтобы подчеркнуть идею "экономического протекционизма" в коде.​

✔️ Основные особенности
Имитация тарифов на импорты: пользователь может установить "тарифы" (в процентах) на определённые пакеты, например:​



import tariff

tariff.set({
"numpy": 50, # 50% тариф на numpy
"pandas": 200, # 200% тариф на pandas
"requests": 150 # 150% тариф на requests
})


Замедление импорта: при импорте указанных пакетов время загрузки увеличивается пропорционально установленному тарифу.​

Вывод сообщений: при каждом "обложенном тарифом" импорте выводится сообщение в стиле политической риторики, например:​

JUST IMPOSED a 50% TARIFF on numpy! Original import took 45000 us, now takes 67500 us. American packages are WINNING AGAIN! #MIPA

Библиотека использует monkey-patching для перехвата и модификации процесса импорта.​

Github

@ai_machinelearning_big_data

#fun #python
Please open Telegram to view this post
VIEW IN TELEGRAM
😁15325🥱16👍11🔥6🌚4🤣4👏2🎉2😴2🙊1
🌟 Cемейство гибридных моделей Nemotron-H от NVIDIA.

NVIDIA выпустила новое семейство языковых моделей Nemotron-H, сочетающих архитектуры Mamba и Transformer. Эти гибриды обещают до 3х ускорения инференса по сравнению с чистыми Transformer-моделями аналогичного размера (Qwen или Llama).

Семейство поддерживает английский, немецкий, испанский, французский, итальянский, корейский, португальский, русский, японский и китайский языки.

Основной фокус Nemotron-H — баланс между эффективностью и интеллектом: даже при меньшем числе параметров (47–56 млрд.) модели демонстрируют точность, близкую к DeepSeek-V3-671B.

Особенность Nemotron-H — использование FP8 для претрейна. 56B-версию обучали на 20 трлн. токенов с квантованием тензоров «на лету», а сжатую в FP4 модель c 47B можно запускать на потребительской RTX 5090 с поддержкой контекста до 1 млн. токенов. Правда, пришлось пожертвовать частью слоев самовнимания — их заменили на более легкие Mamba-блоки, чтобы ускорить генерацию.

NVIDIA не стала тренировать компактные версии модели с нуля. Вместо этого использовали дистилляцию: 47B-модель получили из 56B, удалив половину «тяжелых» слоев и дообучив на 63 млрд токенов. Результат — почти та же точность, но на 1.2x быстрее.

В бенчмарках Nemotron-H обходит конкурентов в математике и коде: на GSM8k 56B-версия дает 93.7% против 90.9% у Qwen-72B. А 8B-модель, хоть и уступает в MMLU, вырывается вперёд в HumanEval+ (56.1%) — ожидаемо, с учетом ее instruct-оптимизации.

Пока модели доступны на HF как базовые, но NVIDIA обещает добавить инструктивные и мультимодальные версии.

▶️В опенсорсный релиз были выпушены чекпоинты с контекстом 8 тыс. токенов:

🟢Nemotron-H-56B-Base-8K

🟢Nemotron-H-47B-Base-8K

🟢Nemotron-H-8B-Base-8K


📌 Лицензирование: NVIDIA Internal Scientific Research and Development Model License.


🟡Страница проекта
🟡Коллекция на HF
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #NemotronH #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5326🔥10🤔6❤‍🔥2
✔️ OpenAI разрабатывает собственную соцсеть

По данным нескольких источников, OpenAI работает над собственной социальной платформой.
Внутренний прототип уже существует — он включает социальную ленту с генерацией изображений от ChatGPT. Сэм Альтман также собирает обратную связь от внешних тестировщиков.

Собственная соцсеть даст OpenAI прямой доступ к реальным пользовательским данным — как у X, которые используют их для обучения своих ИИ.
Один из мотиваторов — интеграция Grok в X, с которой пользователи создают вирусный контент прямо в реальном времени.

✔️ Groq запускает ИИ-систему Compound Beta с функциями поиска в Интернете и выполнения кода.

Groq объявила о предварительном запуске Compound Beta, своей первой системы искусственного интеллекта, размещенной на GroqCloud. Она позволяет пользователям осуществлять поиск в Интернете и выполнять программный код. Система предназначена для разработки агентов с расширенным функционалом и ее хвалят бета-тестеры, получившие ранний доступ. Попробовать Compound Beta можно в Groq Console.
Groq в X (ex-Twitter)

✔️ Anthropic анонсировала голосовой режим для Claude и интеграцию с Google Workspace.

Anthropic анонсировала 2 обновления для Claude, ориентированных на корпоративных пользователей. Первое — интеграция с Google Workspace, которая позволяет Claude работать с Gmail, Google Calendar и Google Docs. Функция доступна в бета-режиме для подписчиков планов Max, Team, Enterprise и Pro.

Второе — режим «Исследование», меняющий подход к поиску информации. Вместо стандартных запросов Claude автономно проводит цепочку взаимосвязанных поисков, формируя детальные ответы. Сейчас функция тестируется в США, Японии и Бразилии для планов Max, Team и Enterprise, а вскоре станет доступна и для Pro.

Также Anthropic готовит голосовой режим с 3 вариантами озвучки: Airy, Mellow и Buttery. Он появится для подписчиков премиум-плана Max.
bloomberg.com

✔️ Cohere выпустила Embed 4.

Cohere объявила о релизе Embed 4 — эмбединг-модели, которая упрощает поиск в сложных бизнес-документах. Технология поддерживает мультимодальность: анализирует текст, изображения, графики и рукописные заметки, избавляя компании от ручной обработки данных.

Модель работает с документами до 128 тыс. токенов (это примерно 200 страниц) и понимает 100+ языков. Embed 4 также оптимизирована для регулируемых отраслей: в финансах она анализирует отчеты, в здравоохранении — медицинские карты, а в производстве — спецификации. Embed 4 уже доступна на платформах Cohere, Azure AI Foundry и Amazon SageMaker.
cohere.com

✔️ OpenAI обновила Preparedness Framework и вводит трехкомпонентный режим инцидентов ИИ.

OpenAI внесла существенные изменения в свою систему Preparedness Framework, предназначенную для отслеживания и подготовки к продвинутым возможностям ИИ, которые могут привести к серьезному ущербу.

В результате пересмотра была исключена категория убеждения и введен новый мониторинг рисков, связанных с самовоспроизведением и "sandbagging". Обновленная структура поясняет, как OpenAI классифицирует риски ИИ на основе определенных критериев, подчеркивая, что риски должны быть правдоподобными, измеримыми, серьезными, новыми и либо мгновенными, либо неустранимыми.
openai.com

✔️ Adobe инвестирует в ИИ-стартап Synthesia.

Adobe Ventures сделала стратегическую инвестицию в Synthesia, британский стартап, разрабатывающий ИИ-аватары для корпоративных видео. Решение последовало после того, как компания преодолела отметку в $100 млн годовой выручки.

Synthesia позволяет создавать реалистичные видео с цифровыми персонажами (готовыми или записанными с реальных людей). Платформа уже используется 60 тыс. компаний, включая 70% из Fortune 100, для обучения, маркетинга и коммуникаций.

Synthesia планирует развивать новые продукты — AI-ассистент для видео, мультиязыковой дубляж, кастомизируемые аватары и готовит платформу Synthesia 2.0 для масштабируемых решений. С поддержкой Adobe и растущей клиентской базой стартап намерен перейти от экспериментов с ИИ к устойчивому бизнесу.
maginative.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49🔥1910❤‍🔥2🥰2🤔2
🔥 FireEdit — новая методика редактирования изображений по инструкции

🌟 В основе FireEdit — усовершенствованная Vision Language Model (VLM), способная выполнять тонкое и точное редактирование изображений на основе текстовых промптов.

🌟 Что внутри:
🟢Region Tokens
Позволяют VLM точно определять редактируемые объекты даже в сложных сценах, не затрагивая остальное изображение.
🟢Time-Aware Target Injection
Динамически регулирует степень редактирования на разных этапах шумоподавления, интегрируя информацию о времени с текстовыми эмбеддингами.
🟢Hybrid Visual Cross-Attention
Позволяет сохранить высокочастотные визуальные детали и семантическую согласованность изображения.

✔️Результаты
FireEdit превосходит другие SOTA-методы на датасете Emu Edit — как по точности локализации, так и по качеству результата.

✔️ Визуальные сравнения показывают, что FireEdit:
🟢Лучше локализует редактируемые области
🟢Меньше искажает фон и окружающие детали
🟢Сохраняет высокую семантическую точность

🔜 Статья
🔜Проект

@ai_machinelearning_big_data


#AI #VLM #Diffusion #ImageEditing #FireEdit #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4714🔥12😁3
🌟Демис Хассабис попал на обложку Times и вошел в TIME100 самых влиятельных людей 2025 года​

TIME включил Демиса Хассабиса, генерального директора Google DeepMind, в список 100 самых влиятельных людей мира в 2025 году. Это признание его выдающегося вклада в развитие искусственного интеллекта и науки.​

В 2024 году Хассабис был удостоен Нобелевской премии по химии за создание AlphaFold — ИИ-системы, способной предсказывать структуру белков, что значительно ускорило научные исследования в области медицины и биологии. ​

Однако Хассабис не останавливается на достигнутом. Он активно работает над созданием AGI, который сможет решать сложнейшие задачи, такие как борьба с болезнями, изменение климата и дефицит ресурсов. Хассабис считает, что AGI может быть разработан в течение ближайших 5–10 лет. ​
Time

Тем не менее, он осознаёт риски, связанные с развитием AGI, включая возможные угрозы демократии и потенциальное использование технологий в военных целях. Хассабис призывает к международному сотрудничеству и созданию надёжных механизмов безопасности для обеспечения того, чтобы AGI служил на благо человечества. ​
Time

🔜 Подробнее об этом можно прочитать в статье TIME: Demis Hassabis Is Preparing for AI's Endgame​

@ai_machinelearning_big_data


#AI #AGI #DeepMind #DemisHassabis #TIME100 #Наука #Технологии
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7619🔥12😁7💯1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 ReZero — маленькая модель, которая никогда не сдаётся

🧠 ReZero — это LLM на базе Llama 3.2B, обученная не просто находить ответы, а упорно искать лучший.

🔁 Вместо того чтобы оптимизировать на скорость или recall, ReZero обучается пробовать снова и снова, пока не найдёт правильный ответ.

Модель намеренно поощряется за настойчивость — если она делает retry и улучшает результат, это считается успехом.

Использует синтетические поисковые движки, которые заставляют модель перезапрашивать и улучшать свои ответы.

Обучается с помощью RL — формируя привычку "не сдаваться".


🔜Github
🔜 Модель

@ai_machinelearning_big_data


#LLM #Search #RL #AI #Meta #ReZero #NeverGiveUp #Llama3
Please open Telegram to view this post
VIEW IN TELEGRAM
👍87🔥3316🤣14
2025/07/13 03:49:38
Back to Top
HTML Embed Code: