Telegram Web
🧠 DiffMem: Git-Based Memory for AI Agents

DiffMem предлагает легковесную память для ИИ, использующую Git для отслеживания изменений и Markdown для хранения данных. Этот проект демонстрирует, как системы контроля версий могут стать основой для эффективной и масштабируемой памяти в приложениях ИИ, позволяя агентам быстро получать актуальную информацию и исследовать её эволюцию.

🚀 Основные моменты:
- Хранит "текущие" состояния знаний в Markdown.
- Использует Git для управления историей изменений.
- Обеспечивает быстрый и объяснимый поиск с помощью BM25.
- Поддерживает гибкость и портативность данных.
- Легко интегрируется и не требует серверов.

📌 GitHub: https://github.com/Growth-Kinetics/DiffMem

#python
🔥94👍4
ScaleAI и AI Risks выпустили Remote Labor Index (RLI) – и результаты очень любопытные

RLI проверяет, как хорошо современные AI-агенты справляются с реальной удалённой работой. Спойлер – пока слабо.

Лучшая система Manus смогла автоматизировать только 2.5% задач. То есть почти всё всё ещё делают люди.

При этом видно постепенный прогресс: Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro и другие модели медленно, но стабильно поднимают планку.

Вывод: полной автоматизации ещё далеко, но эволюция идёт шаг за шагом. Не скачками, а аккуратными улучшениями. Настоящая работа всё ещё за людьми - пока что.

📊Leaderboard: https://scale.com/leaderboard/rli
📰Paper: https://scale.com/research/rli
📽️Watch the full video: https://youtu.be/2RW10HWYo5M
🔥163👍3🥰1
🚀 А вы используете сплит-тесты?

Как проверить гипотезу, если классический A/B не подходит? Дизайн эксперимента можно адаптировать. В Авито используют альтернативу стандартному A/B — сплит-тесты.

Решили поделиться опытом и записали видео со Стешей Чупрыгиной, тимлидом в команде Monetization Efficiency.

Стеша рассказывает:
➡️ как устроено монетизационное ранжирование на Авито,
➡️ что такое автобиддинг,
➡️ как сплит-тесты помогают улучшать алгоритмы.

Видео — новый выпуск «Диванной аналитики», серии докладов, в которых эксперты рассказывают о своём опыте и делятся интересными кейсами.

Посмотрите, чтобы узнать, как и зачем в Авито внедряли сплит-тесты.

📌 Ссылка на YouTube
📌 Ссылка на VK Видео
📌 Ссылка на Rutube
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥3
📈 Новое исследование: LLM-оценка новостей усиливает стратегию momentum

Идея простая: классический momentum покупает недавних «победителей» — но не смотрит, что пишут в новостях.
В работе добавили слой смысловой фильтрации: модель читает свежие заголовки и даёт каждой компании скор между 0 и 1.

Дальше портфель перетасовывается: выше скор — больше вес.

Результат:
— Sharpe растёт с 0.79 до 1.06
— ниже волатильность и просадки
— доходность на единицу риска выше

Конфигурация:
— S&P 500
— новости за 1 день
— ежемесяч ребаланс
— простая подсказка модели
— устойчиво даже после даты обучения
— <2 б.п. торговых издержек

Что важно: модель не «угадывает рынок».
Она просто *читает новости* и уточняет классический фактор, добавляя фильтр реального инфо-фона.

Итог: momentum + актуальные заголовки → умнее, стабильнее, безопаснее.

🧾 arxiv.org/abs/2510.26228
13🔥2🥰2😢1
🧠 Google предлагает новый подход к обучению моделей - “Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning”.

Суть: модель учится не угадывать готовый ответ, а планировать и проверять каждый шаг рассуждений.

- Вместо финальной оценки SRL даёт награду за каждый шаг цепочки
- Модель учится думать поэтапно, а не просто копировать решение
- Маленькие модели получают реальный сигнал обучения и тоже начинают планировать

Результаты впечатляют:
- AIME24: +3.4% (13.3% → 16.7%) на модели 7B
- SRL→RLVR: 57.5% на AMC23 (greedy)
- Код-агенты: 14.8% oracle resolve rate
- В инженерных задачах из 5K траекторий сделали 134K пошаговых примеров, SRL дал 8.6% фиксов кода с greedy - выше, чем SFT-coder

Как это работает
- Экспертное решение режут на маленькие шаги
- Модель делает шаг → получает оценку близости к эксперту
- Используют текст-matcher + небольшой формат-штраф
- Обновления в стиле GRPO с динамическим выбором батчей, чтобы избегать пустых сигналов

Что получает модель
- Раннее планирование
- Коррекция по ходу
- Самопроверка результата
- При этом ответы не становятся длиннее - качество растёт за счёт мышления, а не болтовни

SRL выглядит как естественный мост между supervised обучением и классическим RL: контролируемая стабильность + глубина рассуждений.

📄 arxiv.org/abs/2510.25992

@data_analysis_ml
14🔥9👍2
6 ноября в 15:00 (МСК) — вебинар «Загрузка в 1С любых данных без программирования. Инжектор 1С» от Денвик и партнёра Инфостарт.

💬 Спикер — Степан Пыстин, технический директор и BI-внедренец. Он покажет, как работает инструмент Инжектор 1С — визуальный коннектор для загрузки данных из внешних БД в 1С без кода. Подробнее про функции: bi.denvic.ru/products/inzhektor-1s-instrument-zagruzki-dannykh-v-1s
На вебинаре обсудят методы загрузки данных, сценарии миграции и интеграции без программирования, визуальный конструктор и автодозагрузку данных.

🔧 Полезно архитекторам и разработчикам 1С, архитекторам данных и менеджерам проектов, где используется 1С.
➡️ Регистрация открыта: https://webinar-denvic.ru/?utm_source=tg_post_denvik3
1🙏1
Media is too big
VIEW IN TELEGRAM
🧠 IBM объясняет, как математика симметрий помогает создавать новые квантовые алгоритмы

Математика групп — это про симметрии: как объекты можно менять местами, вращать или переставлять, и что при этом остаётся неизменным.

IBM показывает, что те же самые идеи лежат в основе квантовых вычислений — и помогают искать задачи, где квантовые алгоритмы могут быть быстрее классических.

Ключевые идеи:
- Симметрии в природе описываются теорией групп
- Квантовые системы тоже подчиняются симметриям
- Если правильно описать задачу через симметрии, можно найти квантовый алгоритм с ускорением
- IBM работает с более сложными (не-абелевыми) симметриями — это следующий уровень, сложнее и мощнее

Зачем это всё
Мы ещё не нашли много «убойных» квантовых алгоритмов.
Подход через симметрии — это способ открывать новые, а не только улучшать старые.

Если коротко:
Математика симметрий может стать картой для поиска новых квантовых алгоритмов.

Подробнее: https://www.ibm.com/quantum/blog/group-theory
Видео: https://www.youtube.com/watch?v=eSy-pwkLiIQ

#quantum #math #grouptheory #IBMQuantum #algorithms
🔥145
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Google разместит ИИ-вычисления на околоземной орбите.

Google анонсировала проект Suncatcher, который будет строить ML-инфраструктуру в космическом пространстве. Концепция состоит из развертывания группировок спутников, оснащенных TPU и связанных оптическими каналами. Идея проекта в том, что на правильной орбите солнечная панель может быть до 8 раз продуктивнее, чем на Земле, а значит космос - это лучшее место для масштабирования вычислений.

Для реализации еще предстоит решить как поддерживать высокоскоростную межспутниковую связь, которая требует полета аппаратов в очень плотном строю (километр или менее). К началу 2027 года планируют запуск двух прототипов спутников для проверки работы оборудования на орбите.
research.google

✔️ Microsoft Azure преодолела барьер инференса в 1 млн. т/с.

Новый рекорд производительности был получен на виртуальных машинах Azure ND GB300 v6, запущенных на стоечной системе NVIDIA GB300 NVL72. В ходе тестов была достигнута совокупная скорость инференса модели Llama 2 70B в 1.1 млн токенов в секунду. Это на 27% больше предыдущего рекорда, установленного на GB200.

Новая конфигурация дала почти пятикратный прирост пропускной способности на один GPU по сравнению с поколением H100. Ключевыми факторами стали возможности архитектуры Blackwell, использование FP4 и оптимизация библиотеки NVIDIA TensorRT-LLM. Результаты были подтверждены независимой аналитической компанией Signal 65. Логи запуска тестового инстанса можно посмотреть на Github.
techcommunity.microsoft.com

✔️ ArXiv ужесточает модерацию CS-статей.

Платформа вводит новые, более строгие правила для раздела Computer Science. Причиной стал резкий рост числа обзорных и концептуальных статей низкого качества, многие из которых созданы с помощью нейросетей.

Теперь работы будут приниматься к публикации только после того, как их одобрят в рецензируемом научном журнале или на конференции. Авторам потребуется предоставить соответствующее подтверждение при загрузке работы, в противном случае статья будет отклонена. Новая политика не затрагивает обычные исследовательские статьи, однако в будущем может быть распространена и на другие научные области, если там возникнет схожая проблема.
blog.arxiv.org

✔️ AgiBot запустила роботов, обучающихся с подкреплением в реальном мире.

AgiBot в партнерстве с Longcheer Technology развернула систему обучения с подкреплением в реальном мире (RW-RL) на пилотной производственной линии. Это первый подтвержденный случай промышленного применения технологии, которая позволяет роботам обучаться непосредственно в процессе работы, а не следовать жестким инструкциям.

С RW-RL роботы AgiBot осваивают новые навыки за минуты, автономно адаптируясь к изменениям в деталях или производственных допусках. Система поддерживает стабильность промышленного уровня и не требует сложной аппаратной модификации при смене продукта. После успешного пилотного проекта компании планируют расширить применение RW-RL на сборку потребительской электроники и автомобильных компонентов.
gizmochina.com

✔️ Remote Labor Index: топовые ИИ-модели проваливают 97% реальных фриланс-задач.

Scale AI и Center for AI Safety опубликовали результаты бенчмарка Remote Labor Index, который оценивает способность ИИ выполнять реальную работу фрилансеров. В рамках теста исследователи взяли 240 завершенных проектов с биржи Upwork и поставили идентичные задачи 6 топовым ИИ-системам.

Результаты показали, что даже лучшие модели справились с заданиями на человеческом уровне лишь в 2.5% случаев. Почти 97% работ были признаны неудовлетворительными из-за низкого качества, неполных данных или поврежденных файлов. ИИ справился только с узкими задачами: создание логотипов или сведение аудио.

Тест наглядно подсветил огромный разрыв между показателями ИИ на синтетических бенчмарках и его реальной готовностью к автоматизации сложных проектов.
scale.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥8👍7😢1
Google DeepMind представили IMO-Bench - набор тестов, который проверяет математические способности ИИ на уровне Международной математической олимпиады (IMO).

Что внутри:
IMO-AnswerBench - 400 задач с короткими ответами
IMO-ProofBench - 60 задач, где нужно написать доказательство
IMO-GradingBench - 1000 готовых доказательств для автоматической проверки

Главная идея проста: перестать измерять только правильные ответы и начать оценивать глубину рассуждений, умение строить логические цепочки и строгие доказательства, как у олимпийских математиков.

Результаты:
Модель Gemini Deep Think показала:
80.0% на AnswerBench
65.7% на ProofBench

Это уровень золотой медали IMO - и заметно выше, чем у GPT-5 и Grok-4.

https://x.com/lmthang/status/1985760224612057092
8🔥3👍2
Microsoft показала, как облако может выжать максимум из ИИ-железа

Azure ND GB300 v6 - новые VM на NVIDIA Blackwell пробили барьер: 1 100 000 токенов в секунду при работе с Llama-2-70B.

Что сделали:
— использовали новые Blackwell-GPU с большей памятью
— оптимизировали под TensorRT-LLM и FP4
— объединили 18 машин в один кластер
— выжали рекордный throughput без качества-в-ноль


2025 - год, когда облако и железо реально начинают тянуть модели на миллион+ токенов/с.
AI-инфраструктура становится конкурентным преимуществом.

https://techcommunity.microsoft.com/blog/azurehighperformancecomputingblog/breaking-the-million-token-barrier-the-technical-achievement-of-azure-nd-gb300-v/4466080
🔥14👍2🥰2😱1
🍏 Apple готовит сделку на 1 млрд долларов в год с Google, чтобы встроить 1.2-триллионную модель Gemini в новое поколение Siri.

Обновленная Siri под кодовым именем Linwood выйдет следующей весной. Gemini будет отвечать за функции суммаризации и планирования, а собственные модели Apple сохранят ограниченные роли.

Параллельно Apple в ускоренном режиме разрабатывает свою модель на 1 триллион параметров, чтобы уже в следующем году заменить технологию Google, если догонит по качеству.

https://www.bloomberg.com/news/articles/2025-11-05/apple-plans-to-use-1-2-trillion-parameter-google-gemini-model-to-power-new-siri
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥145👍4🤨2
🧠 Perplexity выпустила свой первый исследовательский paper - и он про то, как заставить сверхкрупные модели работать на десятках AWS-GPU одновременно.

Обычно это невозможно: сеть AWS (EFA) не поддерживает GPUDirect Async, поэтому GPU на разных машинах не могут обмениваться данными достаточно быстро.

Инженеры нашли обходной путь: они построили новый софт, который передаёт координацию CPU, позволяя GPU всё равно синхронизироваться почти напрямую.
Это делает эффективным инференс моделей на *1 триллион параметров* на обычных AWS-кластерах, а не только на специализированных суперкомпьютерах.

Они подготовили expert-parallel ядра для быстрого MoE-инференса на AWS EFA:
1T MoE работает практически без деградации, а многонодовый режим сопоставим или быстрее однонодового на 671B DeepSeek V3 при средних батчах — и открывает путь к сервингу Kimi K2.

Проблема: EFA не поддерживает GPUDirect Async, а стандартный NVSHMEM-proxy даёт маршрутизацию MoE c задержками выше 1 мс.

Решение: ядра упаковывают токены в единичные RDMA-записи прямо с GPU, а специальный CPU-поток запускает передачу и перекрывает её с вычислениями GEMM.
Итог — EFA внезапно становится рабочим вариантом для массивного MoE-инференса.

Это крепкая инженерия и адекватный баланс точности и памяти для команд, которым нужна переносимость между облаками.

https://research.perplexity.ai/articles/enabling-trillion-parameter-models-on-aws-efa
16🔥10👍6👏3
Microsoft запускает MAI Superintelligence Team — ставка на медицину

Microsoft создает новую команду MAI Superintelligence Team, начав с задач медицинской диагностики. Мустафа Сулейман заявляет, что у них есть «прямая траектория» к медицинскому суперинтеллекту за 2–3 года.

Цели команды: решать конкретные задачи — раннее выявление болезней, разработка батарей и материалов, проектирование молекул. Компания обещает массовые инвестиции в это направление.

Толчком стал недавний результат системы MAI-DxO — их оркестратор диагностики показал качество анализа сложных клинических случаев выше, чем у групп врачей. Сторонники считают это возможным шагом к сверхчеловеческому клиническому рассуждению — если удержать надежность, калибровку и прозрачность на масштабе.

Источник: reuters.com/technology/microsoft-launches-superintelligence-team-targeting-medical-diagnosis-start-2025-11-06/
10👍4🔥1
💥 DS-STAR - новый state-of-the-art агент от Google, который сам решает комплексные задачи Data Science: от анализа и преобразования данных до работы с разными типами датасетов.

Он автоматизирует полный цикл работы и показывает топовые результаты на сложных бенчмарках.

🟠 Подробнее: https://research.google/blog/ds-star-a-state-of-the-art-versatile-data-science-agent
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥5🥰2
2025/11/07 20:09:59
Back to Top
HTML Embed Code: