Sakana AI впервые провела реальный эксперимент: три научные статьи, полностью сгенерированные ИИ (The AI Scientist-v2), были отправлены на слепое рецензирование на ICLR Workshop 2025.
Одна из них получила баллы выше среднего уровня принятия — лучше многих статей, написанных людьми. Это исторический момент в научной публикационной практике.
Статьи были на 100% созданы AI — от идеи до финального форматирования и списка литературы.
Человек не правил ни одного слова: только выбрал тему и три лучшие статьи из набора, сгенерированного AI.
В ICLR Workshop было отправлено 3 статьи из 43 (≈7%) — рецензенты знали, что среди них есть AI-работы, но не знали, какие именно.
- 2 статьи были отклонены.
- 1 статья прошла, получив баллы:
Средняя оценка статьи: 6.33 — это выше, чем у многих человеческих работ, принятых на воркшоп.
— Придумывает научные идеи
— Пишет и запускает код для экспериментов
— Анализирует результаты, строит графики
— Сама пишет статью в научном формате
— И… сама себя рецензирует
@ai_machinelearning_big_data
#ai #ml #Sakana
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍55🔥36❤20😁6🌚5😨5🤔1
Программирование с помощью ИИ-агентов — главный тех-тренд последних месяцев.
Одни говорят: «Это лучший опыт в моей жизни».
Другие: «Я только и делаю, что дебажу то, чего сам не писал».
Хочешь по-настоящему разобраться, как использовать ИИ ?
14 апреля в 17:00 — онлайн-лекция от Школы Высшей Математики.
Расскажут и покажут:
➖ Как внедрять Copilot, ChatGPT, Cursor и других агентов в работу уже сейчас
➖ Что агенты реально умеют (и где они сыпятся)
➖ Как ускорить разработку в 10 раз, не потеряв контроль над кодом
Не пропусти. Это будет 🔥
🗓 14 апреля, 17:00
📍 Онлайн
Реклама: ООО
«Школа высшей математики»
ИНН: 9728100991
Erid: 2VtzqvcUpMX
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣104😁30😐14👍10❤8🔥6🥱6🤬4😭3🗿3🌭1
Свежее обновление AI Mode в Google Поиске добавило мультимодальные функции — система анализирует изображения, понимая контекст и связи между объектами. Загрузите фото или сделайте снимок через Lens, задайте вопрос — нейросеть на основе Gemini выдаст развёрнутый ответ с рекомендациями и ссылками.
Раньше эта функция была доступна подписчикам Google One AI Premium, но теперь она доступна через Google Labs.
blog.google
С 7 апреля владельцы Galaxy S25 получат бесплатное обновление Gemini Live. Теперь можно обсуждать увиденное через камеру или экран, удерживая боковую кнопку. Например, ИИ подскажет, как организовать шкаф или выбрать одежду, анализируя изображение в реальном времени. Функция доступна бесплатно, но требует подключения к интернету и активации в поддерживаемых странах.
news.samsung.com
Cloudflare представила серию обновлений, ускоряющих разработку AI-агентов. Теперь в Agents SDK добавлена поддержка MCP, позволяющая агентам подключаться к внешним сервисам с автоматической аутентификацией и управлением соединениями. Для безопасного доступа интегрированы провайдеры Stytch, Auth0 и WorkOS — это упрощает настройку прав доступа через OAuth 2.1 и гибкие сценарии разрешений.
Новинка в SDK — гибернация для MСРAgent: серверы автоматически «засыпают» при простое, экономя ресурсы, и мгновенно активируются при новых запросах. Для хранения состояния агентов теперь доступны Durable Objects даже на бесплатном тарифе — с поддержкой SQLite и 5 ГБ памяти.
Обновления дополнены примерами готовых MCP-серверов — от управления задачами до анализа кода. Разработчики могут развернуть их через кнопку Deploy и настроить под свои нужды.
blog.cloudflare.com
Google анонсировал экспериментальную модель Sec-Gemini v1, которая создана для помощи специалистам по кибербезопасности через интеграцию ИИ и актуальных данных об угрозах.
Система объединяет OSV, Mandiant Threat Intelligence и Google Threat Intelligence, обеспечивая анализ в реальном времени. По внутренним тестам Google, модель на 11% эффективнее аналогов в CTI-MCQ (оценка знаний об угрозах) и на 10,5% — в CTI-RCM (поиск первопричин инцидентов). Она ускоряет обнаружение атак, оценку уязвимостей и даже идентификацию хакерских групп.
Sec-Gemini v1 уже доступна бесплатно для НКО, исследователей и компаний — это часть стратегии Google по совместной борьбе с угрозами. Модель не только предупреждает о рисках, но и объясняет контекст уязвимостей, помогая командам быстрее реагировать.
cybermagazine.com
Исследование, опубликованное в Nature, показало, что LLM дают неоднозначные результаты в биомедицинских задачах. Закрытые модели (GPT-4) превзошли конкурентов в задачх, требующих логики — например, отвечая на медицинские тесты с точностью до 75%. Однако в извлечении данных (распознавание болезней, связей между белками) лидируют традиционные подходы с файнтюном BERT-моделей, опережая LLM на 30–40%.
Открытые решения без дообучения справляются хуже: в 22% случаев генерируют недостоверную информацию. Эксперты отмечают, что даже добавление одного примера в промпт снижает число ошибок. Все данные и выводы исследования доступны в репозитории для независимой проверки.
nature.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56❤19🥰10🔥9
DeepSeek-AI и Университет Цинхуа опубликовали исследование о методе Self-Principled Critique Tuning (SPCT), который значительно повышает эффективность генеративных моделей вознаграждения (GRM) для больших языковых моделей. SPCT решает ключевую проблему RL-обучения — получение точных сигналов вознаграждения в условиях разных и неоднозначных задач, где нет четких правил или эталонов.
SPCT — это комбинация rejective fine-tuning и обучения с подкреплением на основе правил. Rejective fine-tuning учит модель генерировать принципы и критические оценки, адаптируясь к разным типам входных данных, а rule-based RL — оптимизирует процесс через систему поощрений, которая штрафует за ошибки в ранжировании ответов.
Это позволяет GRM самостоятельно создавать критерии оценки и точнее определять лучшие ответы в сложных сценариях, например, при работе с математическими задачами или этическими дилеммами.
Главное преимущество SPCT — масштабируемость инференса. Вместо увеличения размера модели авторы предлагают параллельно генерировать множество вариантов принципов и оценок, а затем агрегировать их через голосование. Чтобы фильтровать «шумные» варианты используется мета-модель вознаграждения, которая отбирает только качественные сэмплы.
По результатам тестов, DeepSeek-GRM с 27 млрд. параметров при 32 параллельных сэмплах превзошла 671B модель, демонстрируя, что вычислительные ресурсы можно эффективно распределять во время инференса, а не обучения.
Эксперименты на бенчмарках Reward Bench, PPE и RMB показали, что SPCT снижает предвзятость моделей. Например, в задачах на рассуждение точность выросла на 12%, а в оценке безопасности — на 9%. При этом метод сохраняет гибкость: одна и та же модель может оценивать одиночные ответы, пары или целые наборы, что критично для реальных приложений вроде чат-ботов или автономных систем.
К сожалению, идеальных решений не бывает и у метода есть существенное ограничение - GRM требуют больше вычислительных ресурсов, чем классические скалярные модели, а в узкоспециализированных областях (например, верификация кода) их точность пока уступает конкурентам.
@ai_machinelearning_big_data
#AI #ML #LLM #GRM #DeepSeekAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48❤21🔥13
🧠 Как студенты используют Claude: новый отчёт от Anthropic
Anthropic только что опубликовала исследование об использовании их ИИ-ассистента Claude студентами университетов.
📊 Основные инсайты:
▪ Доминируют студенты STEM-направлений (естественные и точные науки)
Студенты технических и естественнонаучных специальностей — самые активные пользователи Claude. Особенно — компьютерные науки: они составляют 36,8% пользователей, при том что таких студентов всего 5,4%.
▪ Выделено 4 стиля взаимодействия с ИИ:
▪ Прямое решение задач
▪ Прямое создание контента
▪ Совместное решение задач
▪ Совместное создание контента
▪ Фокус на задачах высокого уровня мышления
Студенты используют Claude не просто как справочник, а для глубокого анализа и генерации — от написания кода до разбора сложных понятий. Это вызывает вопросы: не перекладывают ли они развитие критического мышления на ИИ?
💻 Где Claude помогает чаще всего:
▪ Создание и улучшение учебных материалов (39,3%)
(эссе, резюме лекций, тесты, шпаргалки)
▪ Решение и объяснение технических заданий (33,5%)
(код, алгоритмы, математика)
▪ Анализ и визуализация данных (11%)
▪ Исследовательский дизайн и разработка инструментов (6,5%)
▪ Создание технических диаграмм (3,2%)
▪ Перевод и вычитка текстов (2,4%)
📌 Читать полностью
@ai_machinelearning_big_data
#Claude #Anthropic
Anthropic только что опубликовала исследование об использовании их ИИ-ассистента Claude студентами университетов.
📊 Основные инсайты:
▪ Доминируют студенты STEM-направлений (естественные и точные науки)
Студенты технических и естественнонаучных специальностей — самые активные пользователи Claude. Особенно — компьютерные науки: они составляют 36,8% пользователей, при том что таких студентов всего 5,4%.
▪ Выделено 4 стиля взаимодействия с ИИ:
▪ Прямое решение задач
▪ Прямое создание контента
▪ Совместное решение задач
▪ Совместное создание контента
▪ Фокус на задачах высокого уровня мышления
Студенты используют Claude не просто как справочник, а для глубокого анализа и генерации — от написания кода до разбора сложных понятий. Это вызывает вопросы: не перекладывают ли они развитие критического мышления на ИИ?
💻 Где Claude помогает чаще всего:
▪ Создание и улучшение учебных материалов (39,3%)
(эссе, резюме лекций, тесты, шпаргалки)
▪ Решение и объяснение технических заданий (33,5%)
(код, алгоритмы, математика)
▪ Анализ и визуализация данных (11%)
▪ Исследовательский дизайн и разработка инструментов (6,5%)
▪ Создание технических диаграмм (3,2%)
▪ Перевод и вычитка текстов (2,4%)
📌 Читать полностью
@ai_machinelearning_big_data
#Claude #Anthropic
👍84❤30😁15🔥12🤔7🤣1
HiDream-I1 - генеративная модель text-to-imаge, разработанная китайской компанией HiDream, которая работает под брендом vivagoAI.
Модель получила 17 млрд. параметров и показывает высочайшее качество генерации изображений в фотореализме, анимационном и художественном стилях. Представлено 3 версии модели: Dev, Full и Fast.
Модель выпущена под лицензией MIT и уже заняла 1 место в GenAI-бенчмарках, обогнав предыдущего лидера, GPT-4o.
@ai_machinelearning_big_data
#news #ai #ml #HiDream #AImodel
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49🔥21❤14
Amazon запустил Nova Sonic — голосовую модель, которая уже работает в обновлённом ассистенте Alexa+. Модель на 80% дешевле GPT-4o от OpenAI, при этом точнее распознаёт речь: уровень ошибок — 4,2%, что на 46,7% лучше GPT-4o-transcribe.
Модель доступна через платформу, Bedrock с помощью нового двунаправленного потокового API. По словам вице-президента Amazon Рохита Прасада, модель отлично справляется с маршрутизацией пользовательских запросов к различным API, что позволяет ей получать информацию в режиме реального времени, анализировать собственные данные или выполнять действия во внешних приложениях.
aboutamazon.com
Anthropic объявила о планах по расширению своей деятельности в Европе, создав более 100 новых рабочих мест. Компания назначила Гийома Принсена, бывшего руководителя Stripe и генерального директора Mooncard, главой подразделения в Европе, на Ближнем Востоке и в Африке (EMEA). Вакансии будут открыты в Дублине и Лондоне по направлениям: продажи, проектирование, исследования и бизнес-операции.
tech.eu
Тоби Лютке, глава Shopify, заявил сотрудникам: перед запросом новых кадров или ресурсов команды должны обосновать, почему задачу нельзя решить с помощью ИИ. В меморандуме, опубликованном в X, Лютке призвал переосмыслить рабочие процессы через призму автономных ИИ-агентов: «Это открывает интересные возможности для оптимизации».
По его словам, активное использование ИИ стало «базовым требованием» для всех в компании. Эффективная работа с алгоритмами — навык, который сотрудники обязаны развивать, экспериментируя и анализируя результаты. Вопросы об интеграции ИИ теперь включат в систему оценки эффективности.
cnbc.com
IBM официально представила новое поколение мейнфреймов z17, оснащённых процессорами Telum II. Восьмиядерные чипы с частотой 5.5 ГГц получили виртуальный кэш L3 на 360 МБ и L4 на 2.88 ГБ, а также новый блок обработки данных для ускорения ИИ-задач. По заявлениям IBM, система справляется с 24 трлн операций в секунду и на 50% быстрее предшественника z16, выпущенного три года назад.
z17 оптимизирован под задачи искусственного интеллекта: обновленные I/O-модули и кэширование должны сократить задержки в сложных вычислениях. Мейнфрейм поддерживает z/OS, а из Linux-дистрибутивов — RHEL, Ubuntu и SUSE. Ожидается, что z17 поступят в продажу летом.
ibm.com
Создан на базе — DeepSeek R1 Distill 14B + RL на 24k задач, что сильно прокачало навыки кодинга и неожиданно улучшило математику.
Главное: опубликованы веса, код и датасет. Можно запускать локально!
Github
В инструмент добавили Deep Research — ИИ, который за минуту делает обзор по любой научной теме:
- находит ключевые статьи
- показывает тренды
- кратко объясняет каждую работу
Можно вести диалог, уточнять детали и копать глубже. И всё это — бесплатно.
alphaxiv.org
Google прокачали Deep Research в:
- Поиске и синтезе информации
- Генерации глубоких и наглядных отчётов
- Аналитическом мышлении и рассуждении
Попробовать
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍62🔥14❤12😁7
Deep Cogito выпустила семейство языковых моделей размером 3B, 8B, 14B, 32B и 70B параметров, которые уже доступны для загрузки.
По заявлению разработчиков, их модели превосходят аналогичные открытые решения от LLaMA, DeepSeek и Qwen в большинстве стандартных бенчмарков. Например, 70B-версия обходит новую 109B MoE-модель Llama 4, несмотря на меньший размер.
Все модели обучены с помощью метода Iterated Distillation and Amplification (IDA) — стратегии, которая сочетает итеративное самоулучшение и «сжатие» интеллекта для преодоления ограничений, накладываемых человеческим контролем.
Суть IDA проста: сначала модель «усиливает» свои способности, тратя больше вычислительных ресурсов на поиск решений через CoT, а затем «дистиллирует» эти улучшения в свои параметры. Такой цикл повторяется, создавая петлю обратной связи — каждая итерация делает модель умнее, а её мышление эффективнее. По словам команды, этот подход не только масштабируем, но и быстрее, чем RLHF.
Семейство поддерживает 2 режима работы: стандартный (прямой ответ) и «рефлексивный», где система сначала обдумывает запрос, как это реализовано в Claude 3.7. Они оптимизированы для программирования, вызова функций и агентских сценариев, но без акцента на CoT — разработчики считают, что короткие шаги эффективнее в реальных задачах.
Уже в ближайшие месяцы ожидаются версии на 109B, 400B и 671B параметров и вариации с MoE-архитектурой.
Модели доступны на Hugging Face, Ollama и через API Fireworks AI/Together AI.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👍33❤14🦄6😁1