Telegram Web
Forwarded from Russian OSINT
🦆xAI обвиняет OpenAI в 💣диверсии и 📖краже исходного кода

В самом сердце Кремниевой долины разворачивается драма, достойная шпионского романа. Компания 😎Илона Маска xAI обвиняет своего главного конкурента, OpenAI, не просто в переманивании сотрудников, а в организации целенаправленной стратегической кампании по хищению коммерческих тайн.

xAI заявляет о краже двух главных активов: 🖥всего исходного кода и уникальной стратегии развертывания дата-центров, которую назвали 📄 "секретным соусом".

Как утверждает xAI в иске, в этой истории замешаны 🥷❗️три ключевые фигуры. Один из инженеров (Сюэчэнь Ли) признался в хищении всей кодовой базы xAI, второй (Джимми Фрейтюр) использовал технологию AirDrop для копирования исходного кода на личные устройства, а один из финансовых руководителей передал OpenAI конфиденциальные данные об операционной эффективности компании. OpenAI наняла его с целью получения конфиденциальных данных об операционной эффективности компании.

👍В иске представлены конкретные даты, имена, технологии и цифровые артефакты. У xAI есть вырисовывается весьма серьезная обвинительная доказательная база, вероятно, полученная в результате внутреннего 🕵️форензик-расследования.

Cогласно материалам дела, охота велась целенаправленно, ведь, вербовкой обоих инженеров, находящихся по разные стороны Атлантики, занимался один и тот же рекрутер из OpenAI по имени Тифа Чен, а это указывает на скоординированный характер действий.

👆Представитель OpenAI называет иск xAI "попыткой преследования со стороны господина Маска", пытаясь свести технический и юридический спор к личной неприязни.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔31
🔥 Новая SOTA среди моделей на 1.5B параметров

QuestA 🤖 показывает двузначный прирост Pass@1 и даже обгоняет ранние 32B-модели:
- AIME24: 72.50% (+10.73%)
- AIME25: 62.29% (+12.79%)
- HMMT25: 41.67% (+10.11%)

🚀 Секрет в обучении: QuestA использует RL с scaffolded-problems — это снимает конфликт между лёгкими и сложными задачами и даёт более масштабируемое рассуждение.

🔓 Всё в открытом доступе:
- Модель: https://huggingface.co/foreverlasting1202/QuestA-Nemotron-1.5B
- Тренировочный пайплайн: https://github.com/foreverlasting1202/QuestA
- Статья: https://arxiv.org/abs/2507.13266
- Блог: https://mercurial-kidney-02d.notion.site/QuestA-Expanding-Reasoning-Capacity-in-LLMs-via-Question-Augmentation-216b21d08abb81a1bcecfe79e7d1e88a?pvs=73

#LLM #Reasoning #AI #SOTA

@data_analysis_ml
👍32🔥1
Forwarded from Russian OSINT
🤔Экспериментальная модель 🖥Extract-0 за $196 превзошла 👩‍💻 GPT-4 и 👩‍💻 o3 в извлечении данных?

Исследователь Энрике Годой из 🇧🇷Бразилии представил ИИ-модель Extract-0, специализированную LLM с 7 миллиардами параметров, которая демонстрирует новый уровень эффективности в извлечении структурированной информации из документов. Согласно исследованию, данная языковая модель превосходит по производительности популярные универсальные модели, включая GPT-4.1, o3 и GPT-4.1-2025. Ресёрчер ставит под сомнение устоявшуюся парадигму, где доминирующим фактором эффективности считается исключительно масштаб модели.

Ключ к успеху Extract-0 кроется в новаторской трехэтапной методологии обучения, которая позволила достичь высокой точности при минимальных затратах. Процесс включает генерацию 280 128 синтетических примеров данных с сохранением контекстной памяти, параметроэффективную тонкую настройку (LoRA), затрагивающую всего 0.53% весов модели, и обучение с подкреплением (GRPO) с использованием семантической функции вознаграждения. Такой подход позволяет ИИ-агенту понимать смысловую эквивалентность данных, а не простое текстуальное совпадение.

В ходе тестирования на эталонном наборе из 1000 задач по извлечению информации Extract-0 достиг среднего показателя вознаграждения 0.573, значительно опередив GPT-4.1 (0.457) и o3 (0.464).

◀️Для адаптации ❗️ DeepSeek-R1-Distill-Qwen-7B применялся метод Low-Rank Adaptation (LoRA), который изменил всего 0.53% от общего числа параметров модели (40.4 млн из 7.66 млрд).

◀️Изначально базовая модель без дообучения имела средний результат 0.232 и валидность JSON на уровне 42.7%.

◀️После этапа контролируемой тонкой настройки (Supervised Fine-Tuning) производительность модели выросла до 0.507, а валидность JSON достигла 79.9%.

◀️Финальный этап обучения с подкреплением (GRPO) позволил достичь итогового результата в 0.573 со средней валидностью JSON в 89.0%, что представляет собой кумулятивное улучшение на 147.0% по сравнению с базовой моделью.


🖥 Примечательно, что общая стоимость всего цикла обучения модели на одном графическом процессоре NVIDIA H100 составила всего $196.

Цифры наглядно демонстрируют экономическую и техническую состоятельность целенаправленной оптимизации под конкретную задачу. Исследование убедительно пытается доказать, что узкоспециализированные ИИ-решения могут быть не только конкурентоспособными, но и более эффективными по сравнению с масштабируемыми моделями общего назначения.

👆Ограничение исследования коренится в его валидационной парадигме, которая оценивает производительность модели исключительно на in-distribution данных. Обучающий и тестовый наборы сэмплированы из одного и того же синтетического распределения, поэтому продемонстрованная высокая производительность не позволяет сделать надежных выводов о способности модели работать также эффективно в реальных условиях на практических задачах. Таким образом, полученные метрики обладают высокой внутренней валидностью (в рамках созданного синтетического мира), но их внешняя валидность (применимость к реальным задачам) остается под вопросом.

👀 В любом случае ознакомиться с исследованием не помешает.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤔2🤡21
Forwarded from Kali Linux
🚨 Уязвимости в Google Gemini: утечка данных и геолокации

В AI-ассистенте Google Gemini нашли три критические дыры. Из-за них злоумышленники могли похищать личные данные и отслеживать местоположение.

Схема атаки простая: хакер внедрял вредоносный промпт, а Gemini выполнял его как обычную команду.

🔹 Gemini Cloud Assist — через prompt-injection можно было атаковать облачные ресурсы и запускать фишинг.
🔹 Gemini Search Personalization Model — баг в персонализации поиска позволял управлять Gemini через историю Chrome.
🔹 Gemini Browsing Tool — давал возможность напрямую выкачивать сохранённые данные.

Подробнее: cybersecuritynews.com/google-gemini-vulnerabilities

#cybersecuritynews
👍2
всем привет, сегодня-завтра последние дни, когда можно податься с докладом на сибирский ДатаФест 18 октября!

если у вас есть задумка доклада, не стесняйтесь, мы поможем ее довести до продашен-реди состояния, будем рады всех видеть

еще раз ссылка на подачу: https://ods.ai/tasks/speakers_siberia6
1
Forwarded from Код Дурова
🫡 Лавочку прикроют

Набирающая популярность модель для генерации видео Sora будет урезана из-за многочисленных жалоб на нарушение авторских прав со стороны правообладателей.

Что изменится:

https://kod.ru/openai-zacensurit-sora
Please open Telegram to view this post
VIEW IN TELEGRAM
😁9
Forwarded from ODS Events
Привет!

Встречайте четырнадцатый выпуск подкаста "Капитанский мостик", обсуждение новостей из мира ИИ за прошедшую неделю и не только. Выпуск традиционно ведут Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
3
Forwarded from Код Дурова
🚀 Острые пузырьки

Партнёрства OpenAI с производителями чипов Nvidia и AMD вызвали критику из-за риска формирования замкнутого цикла финансирования и финансовой нестабильности.

Почему эксперты говорят об «ИИ-пузыре»:

↖️ https://kod.ru/artificial-intelligence-bubble
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Новости Linux
Google не будет исправлять проблему ASCII smuggling в ИИ-помощнике Gemini

Разработчики Google сообщили, что проблема «контрабанды ASCII-символов» (ASCII smuggling) в Gemini не получит исправлений. Такая атака может использоваться для обмана ИИ-ассистента с целью предоставления пользователям фальшивой информации, изменения поведения модели и скрытого отравления данных.

Читать полностью

#xakep
@linux_potok
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
💡 RND1 - новая экспериментальная модель с 30 миллиардами параметров, построенная по архитектуре Sparse Mixture-of-Experts, где активно 3 миллиарда параметров.

Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.

Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.

Это - Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.

🔄 Как её сделали

Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.

Они просто поменяли тип внимания и дообучили модель на новой задаче.

Этот метод называется AR-to-Diffusion Conversion (A2D) - то есть конверсия из автогрессионной модели в диффузионную.

Как это происходит:
1. Берут сильную GPT-подобную модель.
2. Меняют механизм внимания — теперь модель видит весь контекст сразу.
3. Продолжают обучение по диффузионной задаче.
4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.

⚙️ Что под капотом

Mixture-of-Experts (MoE) - у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.

Непрерывное дообучение - старые знания не стираются, а “встраиваются” в новый режим.

Огромные батчи - модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.

✔️ Почему это интересно

- Параллельная генерация - текст создаётся быстрее, без пошаговой задержки.
- Меньше затрат - активных параметров всего 3 млрд, при этом качество как у больших GPT.
- Новая архитектура - открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.
- Полностью открытый код и веса - можно исследовать, изменять, запускать самому.
- Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.

Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать - менять его саму логику мышления без начала “с нуля”.

Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.

🟠Blog: https://radicalnumerics.ai/blog/rnd1

🟠Code: https://github.com/RadicalNumerics/RND1

🟠Report: https://radicalnumerics.ai/assets/rnd1_report.pdf

🟠Веса: https://huggingface.co/radicalnumerics/RND1-Base-0910

@ai_machinelearning_big_data


#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥7👍3
Forwarded from Spark in me
Мы решили задачу омографов и ударений в русском языке

Мы опубликовали библиотеку silero-stress для расстановки ударений в обычных словах и омографах:

1️⃣ Расставляет ударения, решает омографы, ставит букву ё;

2️⃣ "Знает" порядка 4М русских слов и словоформ и порядка 2K омографов;

3️⃣ Простановка ударения в обычном 1 слове занимает где-то 0.5 ms, а в предложении на 400 символов с 2 омографами - порядка 30 ms;

4️⃣ Общий размер библиотеки составляет порядка 50 мегабайт (архив весит порядка 30 мегабайт), что является сжатием словарей и всех датасетов примерно в 400 раз;

5️⃣ Опубликована под популярной и простой лицензией (MIT);

6️⃣ Не содержит раздутого кода, лишних библиотек, гигабайтов академических артефактов;

7️⃣ Зависит только от стандартной библиотеки питона и работает на всех последних версиях PyTorch.

Ставим ⬆️ habr.com/ru/articles/955130/
Ставим ⭐️ https://github.com/snakers4/silero-stress
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍5🔥1
Forwarded from ODS Events
Всем привет!

Представляем вашему вниманию пятнадцатый выпуск подкаста "Капитанский мостик", он посвящен важным новостям прошедшей недели. Ведущие выпуска - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
2
Forwarded from Data Science. SQL hub
🖥 Гайд по PostgreSQL для продвинутых разработчиков

PostgreSQL – одна из самых мощных СУБД с открытым исходным кодом. Этот гайд подробно охватывает ключевые аспекты PostgreSQL: от внутренней архитектуры до приёмов оптимизации. Мы рассмотрим администрирование, производительность, расширения, инструменты, а также сравним популярные ORM для Python и Go. В конце приведён список продвинутых вопросов, часто встречающихся на собеседованиях.

🟠Гайд

@sqlhub
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4🔥3
Forwarded from Machinelearning
⚡️ Mamba-3 тихо и без объявления вышла на ICLR - и это может стать началом конца эпохи Transformers.

Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами.

Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени.

📘 Краткие эускурс:
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention.
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU.
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию.

Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.

🧠 Что изменилось под капотом:

- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки).

- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU.

⚙️ Что это даёт на практике:
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды.

- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи.

- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака.

Mamba-3 - это не просто ускоренная альтернатива Transformers.

Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств.

🟢 Подробности: https://openreview.net/pdf?id=HwCvaJOiCj

@ai_machinelearning_big_data


#ssm #mamba3 #llm,#architecture #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥65😱1
Forwarded from Китай.AI
🤯 Ring-1T: открыта первая в мире триллионная модель с размышлениями!

Всего за пару недель компания Ant Group выпустила три мощнейшие модели. Апофеозом стал Ring-1T — первая в мире открытая языковая модель с триллионом параметров, которая обладает продвинутыми способностями к рассуждению.

🚀 Результаты тестирования:
Математика: Решила 4 из 6 задач на уровне Международной математической олимпиады (IMO), что соответствует серебряной медали.
Программирование: На уровне ICPC World Finals 2025 решила 5 задач, обогнав Gemini 2.5 Pro.
Логика: Блестяще справляется с запутанными головоломками на определение правды и лжи.
Креатив: Пишет увлекательные исторические подкасты и генерирует рабочий код для игр.

📊 Технические детали для экспертов
Архитектура: MoE (Mixture of Experts) с увеличенным количеством активных параметров
Обучение: Полный цикл RLHF + RLVR (Reinforcement Learning from Verifiable Rewards)
Инновация: Алгоритм IcePop решает проблему расхождения обучения/инференса в MoE через "маскирование градиентов"
Инфраструктура: ASystem обеспечивает стабильное обучение через P2P синхронизацию GPU и Serverless Sandbox

Hugging Face | ModelScope

#КитайскийИИ #КитайAI #Ring1T #OpenSource
🤯3👍1👌1
🤣19❤‍🔥7🔥6
Yandex Cup 2025: final call for registrations

The registration for Yandex Cup 2025 global programming championship will soon close.

The championship features six specialized tracks: Algorithm, Machine Learning, Backend, Frontend, Mobile, and Analytics. This year, the Algorithm and Machine Learning tracks are available in English for international participants. 🌍

Key highlights:
💰 A total prize pool of $145,000 USD.
✈️ An exclusive in-person final round in Istanbul, Türkiye, offering finalists a unique opportunity for networking and competition.
🏆 A platform to enhance your skills and gain recognition within the global technology community.
🚀 Solve Real-World Challenges

The registration deadlines for international participants are as follows:
📍Algorithm track: October 29, 2025
📍Machine Learning track: November 5, 2025

The finals are scheduled for December 5–7, 2025, in Istanbul.

For more details and to register, please follow the link below:
https://yandex.com/cup/international

Secure your participation before the deadlines!
🔥21👍1
2025/10/16 16:32:13
Back to Top
HTML Embed Code: