Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on null in /var/www/tgoop/function.php on line 65
1310 - Telegram Web
Telegram Web
📌Почему языковые модели галлюцинируют.

OpenAI опубликовали исследование о причинах галлюцинации LLM.

Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.

Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.

🟡Все начинается еще на претрейне.

Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.

В работе вводится понятие singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле.

Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.

🟡Эксперименты это подтверждают.

Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты: 03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью).

В другом тесте, где нужно было сосчитать количество букв D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7.

При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний. Кто бы сомневался.

🟡Почему галлюцинации не исчезают после пост-тренинга и RLHF?

Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.

Эту гипотезу подтвердили анализом популярных оценочных наборов.

В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.

🟡Что делать инженерам.

OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.

Еще рекомендуют включают мониторинг singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически.

🔜 Читать статью полностью


@ai_machinelearning_big_data

#AI #ML #LLM #Research #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
📌Почему языковые модели галлюцинируют.

OpenAI опубликовали исследование о причинах галлюцинации LLM.

Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.

Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.

🟡Все начинается еще на претрейне.

Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.

В работе вводится понятие singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле.

Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.

🟡Эксперименты это подтверждают.

Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты: 03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью).

В другом тесте, где нужно было сосчитать количество букв D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7.

При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний. Кто бы сомневался.

🟡Почему галлюцинации не исчезают после пост-тренинга и RLHF?

Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.

Эту гипотезу подтвердили анализом популярных оценочных наборов.

В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.

🟡Что делать инженерам.

OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.

Еще рекомендуют включают мониторинг singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически.

🔜 Читать статью полностью
🔜 Смотреть видео разбор

#AI #ML #LLM #Research #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ REFRAG: новое поколение RAG

REFRAG ускоряет работу Retrieval-Augmented Generation, сжимая контекст в chunk embeddings, сохраняя качество ответов.

📌 Результаты:

- До 30.85× быстрее первый токен

- До 16× длиннее эффективный контекст без потери точности

🔍 В чём идея:

Обычные RAG-промпты вставляют кучу текстов, половина из которых не нужна → модель тратит вычисления впустую.

REFRAG заменяет токены этих текстов кэшированными эмбеддингами, подгоняет их под размер декодера и подаёт вместе с вопросом.

Последовательность короче → внимание масштабируется по чанкам, а не по токенам → меньше памяти уходит на KV-кэш.

🎯 Как работает:

- Большинство чанков остаются сжатыми.

- Специальная политика выбирает, какие именно разжать обратно в токены, если важна точная формулировка.

- Обучение идёт в 2 шага: сначала модель учится восстанавливать токены из эмбеддингов, потом продолжается предобучение с задачей прогнозирования следующего абзаца (постепенно увеличивая размер чанков).

- Политика сжатия/разжатия тренируется через reinforcement learning, используя лосс предсказания слова как сигнал.

📄 Paper: arxiv.org/abs/2509.01092
🔥 OpenAI объявила о перестройке команд

➡️ Команда Model Behavior (14 человек), которая занималась настройкой “личности” ChatGPT, снижением угодничества и проработкой политической предвзятости, теперь войдёт в состав более широкой Post-Training org.

👩‍💻 Её основатель, Джоанн Джанг, запускает новый экспериментальный проект OAI Labs, где будут тестировать свежие форматы взаимодействия человека и ИИ.

Перемены показывают: управление личностью модели становится ключевым направлением разработки. Это ответ OpenAI на жалобы пользователей на “холодные” ответы GPT-5 и продолжающиеся дискуссии о безопасности чатботов.
Media is too big
VIEW IN TELEGRAM
✔️ Архитектурный сдвиг в больших языковых моделях: линейное внимание выходит на промышленные рельсы.

Эксперт Tiezhen WANG в своем годовом прогнозе отмечает, что RL и системы памяти получают широкое распространение, но главное — нас ждет фундаментальное изменение архитектуры ИИ. Ключевой инсайд: следующее поколение моделей, такое как Qwen3-next, активно экспериментирует с линейным вниманием (linear attention). Объем исследований в этой области достиг критической массы, и теперь эти наработки находятся на пороге внедрения в mainstream-модели промышленного масштаба. Это прорыв в эффективности: линейное внимание потенциально позволяет радикально снизить вычислительную сложность и потребление памяти при работе с длинными контекстами, что открывает дорогу для более дешевых и мощных моделей. X.com

✔️ ElevenLabs анонсировала фреймворк для автоматического тестирования ИИ-агентов.

Компания представила комплексное решение для автоматизации тестирования голосовых и текстовых агентов. Фреймворк позволяет уйти от ручных проверок через звонки к быстрому и повторяемому процессу, что значительно ускоряет итерации разработки. Система включает два ключевых подхода:
· LLM-оценка — проверяет качество и уместность ответов агента по заданным критериям (эмпатия, точность, tone of voice).
· Тестирование вызова инструментов — валидирует, что агент корректно использует API, передает правильные параметры и следует критически важной логике (например, трансфер в экстренные службы).

Главная фича — возможность одним кликом создавать тест-кейсы из реальных диалогов, моментально превращая провалы агента в production в тесты для предотвращения регрессий. Фреймворк интегрирован в CI/CD через CLI. elevenlabs.io

✔️Microsoft делает беспрецедентный шаг для снижения зависимости от OpenAI

Несмотря на инвестиции более $13 млрд в OpenAI, компания теперь диверсифицируется — подключая технологии Anthropic в Office 365.Microsoft начнёт использовать модели Anthropic (например, Claude Sonnet 4) в таких приложениях, как Word, Excel, Outlook и PowerPoint, наряду с OpenAI и собственными AI-моделями.
Причина — внутренние тесты показали, что Claude превосходит OpenAI в задачах вроде автоматизации финансов в Excel и генерации более эстетичных презентаций в PowerPoint. Это явная стратегия снижения риска единого поставщика и шаг к многосторонней AI-экосистеме.
Reuters

✔️ Sakana AI открыла найм в финансовый сектор.

Японский ИИ-стартап, основанный экс-инженерами Google, ищет Technical Program Manager для работы с крупными предприятиями и финтехом. Кандидат будет отвечать за доставку комплексных проектов — от планирования до внедрения — и совместную разработку ИИ-решений с клиентами из финансовой индустрии. Это сигнал о стратегии Sakana: вместо массового продукта они фокусируются на глубокой B2B-интеграции в высокомаржинальных вертикалях. Новость указывает на растущий спрос со стороны крупных корпораций на кастомные ИИ-решения под, а не на использование готовых API. Sakana.ai

✔️Apple расширяет функции AirPods

Синхронный перевод теперь работает не только на новых моделях — поддержку получили и AirPods Pro 2, и AirPods 4.
Условие: нужны iPhone 15 Pro или новее с iOS 26.
На старте доступны 5 языков: английский, французский, немецкий, португальский и испанский.

✔️ Claude научился создавать и редактировать файлы: Excel, PowerPoint, Docs и PDF.

Anthropic представила бета-доступ к функции создания файлов прямо в чате. ИИ теперь может генерировать полноценные, готовые к использованию документы: финансовые модели с формулами, дашборды в таблицах, презентации на основе отчетов и многое другое. Для этого Claude получает доступ к изолированной компьютерной среде («Claude’s computer»), где выполняет код и запускает программы для обработки данных и сборки финальных файлов. Это не просто текстовый вывод, а работа в полноценных приложениях. Функция доступна для корпоративных планов, для Pro — появится в ближайшие недели. Anthropic прямо предупреждает о рисках конфиденциальности, так как процесс требует доступа в интернет. anthropic.com

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Прорыв в разработке наноботов

Учёные из Penn State сделали важный шаг к созданию настоящих наноботов.

🔬 С помощью нового микро-флюидного устройства они создали крошечные частицы, которые могут обмениваться сигналами и действовать вместе - как муравьи, оставляющие следы для других.
- Одна группа частиц двигалась по химическому градиенту и оставляла «след».
- Другая группа улавливала этот след и шла за ним.

👉 Это выглядит просто, но именно так закладывается основа программируемых роёв наноботов.

💡 Возможные применения:
- наночастицы находят опухоль и зовут другие с лекарством,
- мини-системы доставляют груз в нужную клетку,
- наноботы очищают организм от токсинов или восстанавливают повреждённые ткани.

Раньше учёные могли наблюдать за таким процессом всего несколько секунд. Теперь, с новым инструментом Penn State, поведение можно изучать минутами, что позволяет проводить более сложные эксперименты.

🌱 Вдохновение пришло из природы - у пчёл и муравьёв есть распределение ролей и совместная работа. Если частицы смогут делать то же самое, это приблизит нас к самоорганизующимся автономным наносистемам, которые могут изменить медицину и материалы.

Это пока ранняя стадия, но именно такие шаги строят фундамент для будущих роёв наноботов.

https://www.psu.edu/news/eberly-college-science/story/can-nanobots-play-follow-leader
💰 OpenAI заключила гигантский контракт с Oracle на $300 млрд на облачные вычисления сроком примерно на 5 лет - сообщает Wall Street Journal.

Это один из крупнейших договоров на облачные вычисления в истории.

Расходы на инфраструктуру для ИИ продолжают расти рекордными темпами, несмотря на опасения «перегрева» рынка.

Масштаб сделки:
- OpenAI потребуется 4,5 гигаватта мощности - это больше, чем две плотины Гувера, или электричество для 4 миллионов домов.
- Oracle уже демонстрирует рост: акции компании подскочили, а Ларри Эллисон (глава Oracle) за сутки заработал $101 млрд и стал самым богатым человеком на планете, обогнав Илона Маска.

Рынок ИИ-вычислений превращается в арену сделок планетарного масштаба — где стоимость инфраструктуры измеряется сотнями миллиардов долларов и требует энергопотребления на уровне целых стран.

🟢 Подробнее: wsj .com/business/openai-oracle-sign-300-billion-computing-deal-among-biggest-in-history-ff27c8fe

@ai_machinelearning_big_data

#AI #Cloud #OpenAI #Oracle #DataCenters
Please open Telegram to view this post
VIEW IN TELEGRAM
В Албании назначили первого ИИ-министра — нейросеть Diella будет курировать все госзакупки.

Раньше Diella работала ассистентом в местных «Госуслугах», но теперь получила повышение до уровня министерства. Идея проста — убрать коррупцию, ведь нейросеть не берёт откаты.

Любопытно, что бывший техдиректор OpenAI Мира Мурати тоже родом из Албании.
📌xAI уволила 500 универсальных аннотаторов и вместо них в 10 раз увеличивает число специализированных AI-туторов.

xAI меняет стратегию обучения Grok. Вместо сотен универсальных аннотаторов компания делает ставку на специалистов-экспертов и увеличивает их команду в 10 раз.

Это означает переход от широкой разметки «на все темы» к глубокой проработке сложных областей — математики, кода, финансов и безопасности.

👉 Grok постепенно перестаёт быть универсальным чат-ботом и превращается в экспертного ассистента, ориентированного на критические задачи, где особенно важна точность и надёжность.

Плюс — рост качества там, где ошибки недопустимы.
Минус — возможное снижение качества в бытовых и повседневных темах.

🟠Источник: Business Insider
businessinsider.com/elon-musk-xai-layoffs-data-annotators-2025-9
🟠Вакансия в Х: https://x.com/i/jobs/1845336351098667008

@ai_machinelearning_big_data

#xAI #Grok #AI #DataAnnotation #AITutors #ElonMusk
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Александр Мордвинцев, исследователь из Google, создал цифровые системы на основе клеточных автоматов, где каждая клетка взаимодействует только со своими соседями.

Эти нейронные клеточные автоматы (Neural Cellular Automata) способны самособираться в заданные формы и даже восстанавливаться после повреждений.

В *Quanta Magazine* рассказали о том, как учёные научились обучать искусственные "клетки" собираться в заданные формы. Это похоже на игру «Жизнь» (*Game of Life*), но наоборот.

🧩 Что такое Game of Life?
Это простая компьютерная модель: есть сетка из клеток, у каждой клетки всего два состояния — «жива» или «мертва». Жизнь клетки зависит от соседей (например, если вокруг слишком много соседей, клетка умирает).
Обычно мы задаём правила и просто смотрим, что получится.
А теперь учёные сделали наоборот: сначала задаём цель (например, фигуру), а потом подбираем правила так, чтобы клетки сами в неё собрались.

⚙️ Что изменили учёные?
1. Непрерывные состояния - клетка не просто «вкл/выкл», а может быть наполовину активна. Это как лампочка с плавным регулятором яркости.
2. Скрытые переменные - у каждой клетки есть «внутренние параметры», которые влияют на её поведение. Представь, что у клетки есть «настроение» или «память», которое не видно исследователю напрямую.
3. Асинхронное обновление — клетки меняются в случайное время, а не все сразу. Это ближе к реальной жизни, где всё развивается не идеально синхронно.

💡 Зачем это нужно?
- Восстановление после повреждений: если часть фигуры «сломать», клетки могут достроить её заново.
- Децентрализация: нет главного управляющего - каждая клетка действует локально, но вместе они формируют систему.
- Устойчивость к шуму: клетки учатся справляться с хаосом и случайностями, а не просто повторяют выученный рисунок.

🟠Какие есть ограничения?
- Пока это работает для картинок и форм, но не для сложных живых организмов.
- Чтобы система умела «регенерировать», её нужно специально тренировать.
- Перенести эту идею в настоящие биологические клетки или роботов сложно — там много физических ограничений.

🟠 Где это можно применить?
- Медицина - модели самовосстановления тканей.
- Робототехника - рой роботов, которые без команды сверху сами собираются в нужную конструкцию.
- Материалы будущего — «умные» кирпичики или детали, которые сами подстраиваются под окружение.
- Новые вычислительные системы - компьютеры без центрального процессора, где решения рождаются распределённо.

Учёные показали, что нейронные клеточные автоматы можно рассматривать как модель эволюции: геном не задаёт форму напрямую, а запускает процесс её построения, что делает системы гибкими и адаптивными.

Главное отличие от природы в том, что эволюция не имеет цели, а автоматы обучают под задачу.

Эти модели предлагают новый тип вычислений: каждая клетка взаимодействует только с соседями, что делает архитектуру распределённой и потенциально энергоэффективной.

Уже есть впечатляющие результаты — от распознавания цифр и умножения матриц до решения задач вроде IQ-тестов и управления роями роботов, которые начинают вести себя как единый организм.

В итоге работы Мордвинцева соединяют биологию, компьютеры и робототехнику, возвращая к идее, что жизнь и вычисления — две стороны одного процесса.

🟢 Полная статья: https://www.quantamagazine.org/self-assembly-gets-automated-in-reverse-of-game-of-life-20250910/

@ai_machinelearning_big_data

#evolution #machinelearning #neuralnetworks #biology
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Совет, который спас OpenAI: “Всегда делай API”

В первые годы OpenAI балансировала на грани: фундаментальные модели становились всё дороже, а продукта, который мог бы оплачивать эти расходы, так и не появлялось.

GPT-3 выглядел впечатляюще, но в реальности был слишком «сырой», чтобы построить вокруг него работающий сервис.

Сэм Альтман вспоминает: «Я поднимал градус срочности - нам нужен был продукт, а идей не было».

И тогда в памяти всплыл совет Пола Грэма, основателя Y Combinator:
👉 «Всегда делай API. Что бы ни происходило - сделай API. Хорошие вещи придут сами».

OpenAI без особых ожиданий открыла доступ к GPT-3 через API. «Может, кто-то найдёт применение», - подумали в компании.

И действительно: первыми успехами стали сервисы для копирайтинга - Jasper, Copy.ai. Но самое любопытное оказалось в другом: часть пользователей начинала просто разговаривать с моделью часами напролёт. Это не было мейнстримом, но сигнал оказался настолько сильным, что команда поняла — вот он, настоящий продукт.

📅 30 ноября 2022 года OpenAI запустила ChatGPT как «исследовательский превью» на базе GPT-3.5. Всего за 5 дней им воспользовались более миллиона человек.

🔥 Из скучного API родился продукт, который изменил представление об искусственном интеллекте. И всё началось с одного простого совета.

@ai_machinelearning_big_data


#OpenAI #СэмАльтман #ChatGPT #стартапы
🎓 ChatGPT для студентов

В одном месте собрано всё самое нужное в разделе “for Students”.

Это готовые промпты и чаты в ChatGPT, которые помогают учиться, готовиться к экзаменам и даже строить карьеру.

Что внутри:
- Более 100 готовых шаблонов для колледжа и университета.
- Категории: Учёба, Карьера, Жизнь.
- Практика: редактировать курсовые, делать конспекты, готовить планы к экзаменам.
- Карьера: советы по резюме, подготовка к собеседованиям.
- Организация: составление расписания и чек-листов.

🟠Попробовать можно здесь
https://chatgpt.com/use-cases/students

@ai_machinelearning_big_data


#ChatGPT #Students #Учёба
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/10/26 03:37:43
Back to Top
HTML Embed Code: