Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on null in /var/www/tgoop/function.php on line 65
1183 - Telegram Web
Telegram Web
Forwarded from Machinelearning
📌Почему языковые модели галлюцинируют.

OpenAI опубликовали исследование о причинах галлюцинации LLM.

Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.

Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.

🟡Все начинается еще на претрейне.

Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.

В работе вводится понятие singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле.

Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.

🟡Эксперименты это подтверждают.

Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты: 03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью).

В другом тесте, где нужно было сосчитать количество букв D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7.

При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний. Кто бы сомневался.

🟡Почему галлюцинации не исчезают после пост-тренинга и RLHF?

Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.

Эту гипотезу подтвердили анализом популярных оценочных наборов.

В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.

🟡Что делать инженерам.

OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.

Еще рекомендуют включают мониторинг singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически.

🔜 Читать статью полностью


@ai_machinelearning_big_data

#AI #ML #LLM #Research #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🤔1
📊 Новое поколение баз данных для ИИ-агентов

Когда LLM-агенты работают с БД, они не делают один большой запрос. Вместо этого они засыпают систему тысячами мелких пробных запросов: проверяют структуру, ищут связи, тестируют планы. Это явление получило название agentic speculation. Итог — колоссальный перерасход ресурсов.

🆕 Исследователи предлагают «agent-first database» — базу, спроектированную с учётом поведения агентов.

🔑 Как это работает:
- Агент отправляет не просто SQL-запрос, а пробу с брифом: какая цель, на каком этапе он сейчас, какая нужна точность и что в приоритете.
- База может дать приближённый ответ, если данных уже достаточно, вместо того чтобы тратить ресурсы на полный расчёт.
- Запросы поддерживают семантический поиск по таблицам и строкам, что в SQL выразить сложно.

⚙️ Внутренние механизмы:
- Sleeper agents подсказывают лучшие join’ы, объясняют пустые результаты и оценивают стоимость запросов.
- Оптимизатор проб объединяет похожие запросы, кэширует частичные результаты и выдаёт быстрые ответы, когда «достаточно сигнала».
- Agentic memory хранит знания, которые можно переиспользовать в будущем.
- Общий менеджер транзакций позволяет быстро пробовать разные сценарии («what-if») без лишних затрат.

📌 Вывод: традиционный SQL не подходит для эпохи LLM. Нужны базы, которые понимают стратегию агента, сокращают лишние шаги и экономят ресурсы.

🔗 Paper: arxiv.org/abs/2509.00997

#AI #Databases #LLM #Agents
👍5🤔3
Forwarded from Machinelearning
💰 Google TPUs - главный конкурент NVIDIA?

Аналитики считают: если бы Google выделила бизнес по TPU-чипам вместе с лабораторией DeepMind, то объединённая компания могла бы стоить около $900 млрд.

Пока этого не произойдёт, но сама цифра показывает масштаб.

📌 Что такое TPU и почему они важны
🟢Чипы, созданные специально для машинного обучения
🟢Их производительность — до 42,5 экзафлопс
🟢Сами чипы сопоставимы с NVIDIA по скорости и энергоэффективности
🟢 За полгода активность разработчиков в Google Cloud выросла на 96% , благодаря собственному железу

🔥 Новые поколения чипов
- 6-е поколение Trillium уже пользуется высоким спросом
- 7-е поколение Ironwood станет первым TPU, ориентированным на крупномасштабный inference — этап, когда модели реально используются после обучения

Anthropic и xAI активно рассматривают переход на TPU, так как улучшенная поддержка через JAX делает их использование на больших масштабах заметно проще.

Google уже заключила сделку с Fluidstack (Нью-Йорк) и ведёт переговоры с другими облачными провайдерами, которые раньше работали в основном с NVIDIA (например, Crusoe и **CoreWeave**).

В итоге Google выходит в прямую конкуренцию с NVIDIA — и впервые за долгое время у «зелёного гиганта» появился серьёзный соперник.

🟢Новость: marketwatch. com/story/google-may-be-sitting-on-a-900-billion-gem-that-could-disrupt-nvidias-dominance-20662ec6

@ai_machinelearning_big_data

#google #nvidia #tpu #deeplearning
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥2
📚 Новая работа исследователей сравнивает два способа подключения LLM к учебным материалам, чтобы их ответы были точнее и полезнее.

Обычные LLM часто дают неверные или устаревшие факты. Решение - Retrieval Augmented Generation (RAG), где модель ищет ответы в курсах и книгах вместо «догадок».

🔹 Метод 1: vector search
- Ищет текстовые фрагменты, похожие по смыслу на вопрос.
- Быстрый, дешёвый, отлично подходит для фактов и коротких запросов.

🔹 Метод 2: graph search
- Строит сеть связанных идей из текста.
- Помогает отвечать на вопросы про широкие темы и делать подробные объяснения.
- Но работает медленнее и требует в 10–20 раз больше ресурсов.

Для эксперимента авторы создали датасет EduScopeQA (3 176 вопросов по истории, литературе, науке и компьютерным наукам). Тестировали даже на изменённых учебниках, чтобы проверить, смогут ли модели избежать устаревших знаний.

📊 Результаты:
- Vector search - лучше для коротких, фактологических вопросов.
- GraphRAG Global - лучший для общих тем и широких вопросов.
- GraphRAG Local - сильнее всего, когда учебники длинные и подробные.

Итог: исследователи собрали routing system, которая отправляет каждый вопрос к оптимальному методу. Это позволяет сохранять точность и не тратить лишние ресурсы на графовый поиск.

📝 Paper: https://arxiv.org/abs/2509.07846v1

#LLM #RAG #Education #VectorSearch #GraphSearch #AIResearch
👍73🔥1
Forwarded from Machinelearning
Speculative Cascades — как ускорить работу LLM

Google Research придумали новый способ сделать большие языковые модели быстрее и дешевле.

Что это такое:
🔹 Каскады
Сначала отвечает маленькая модель. Если задача слишком сложная - подключается большая. Так экономятся ресурсы, но качество может прыгать.

🔹 Спекулятивная декодировка
Маленькая модель угадывает сразу несколько слов вперёд. Большая быстро проверяет данные и подтверждает. Скорость выше, но большая модель всё равно тратит много ресурсов.

🟢 Speculative Cascades
Это комбинация: маленькая модель иногда отвечает полностью сама, а иногда используется как ускоритель для большой. В итоге получаем меньше затрат, больше скорости и то же качество.

🔥Что показали тесты (тестили на Gemma, T5):
- быстрее, чем обычная спекулятивная декодировка
- дешевле и качественнее, чем каскады
- удобнее настраивать баланс «скорость качество»

При том же уровне качества, что и у спекулятивной декодировки, новый метод работает быстрее (генерирует больше токенов за один вызов большой модели).

А в задачах математических рассуждений получен явный апгрейд по скорости при сохранении или даже улучшении качества.

LLM всё чаще используются в поиске, чатах, ассистентах. Чтобы они реально были полезными, их нужно ускорять и удешевлять. *Speculative cascades* помогают это сделать без потери качества.

🔗 Подробнее: https://research.google/blog/speculative-cascades-a-hybrid-approach-for-smarter-faster-llm-inference/

@ai_machinelearning_big_data


#AI #LLM #Inference #SpeculativeDecoding #Cascades #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1
Forwarded from Machinelearning
📕 Свежий гайд от Anthropic: Writing effective tools for agents — with agents

Anthropic описывает, как правильно создавать инструменты (tools) для AI-агентов: так, чтобы они были максимально полезными, эффективными и надёжными. Особый акцент сделан на том, как использовать самих агентов для прототипирования, тестирования и оптимизации инструментов.

Как писать эффективные инструменты для агентов
- Делай быстрые прототипы и сразу проверяй, как агент с ними работает.
- Тестируй на реальных сценариях, а не на абстрактных примерах.
- Анализируй логи и поведение агента, чтобы находить ошибки и непонятные места.
- Избегай дублирования: один инструмент должен выполнять одну чёткую задачу.
- Используй понятные имена и структуры (`machinelearning_create_task`, `mla_list_users`).
- Возвращай только нужные данные, не перегружай ответ лишним. Добавляй фильтрацию и пагинацию.
- Пиши описания так, чтобы их понял даже человек, который не в теме: чётко, без двусмысленностей, с примерами входа и выхода.

Что это дает:

- Улучшает способность AI-агентов решать реальные задачи.
- Минимизирует ошибки: неверное использование инструментов, лишние токены, избыточные вызовы.
- Повышает надёжность и предсказуемость поведения агентов.
- Упрощает масштабирование — добавление новых инструментов и задач.

🟠 Полный гайд: https://www.anthropic.com/engineering/writing-tools-for-agents

@ai_machinelearning_big_data

#Anthropic #claude #aiagents #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2
📈 Гайд по продвинутым вопросам для разработчика LLM

Собеседования на позицию разработчика больших языковых моделей (LLM) в топовых AI-компаниях предъявляют высокие требования к знаниям.

Кандидату необходимо понимать устройство архитектуры трансформеров, владеть методами эффективного обучения и инференса, разбираться в оптимизациях памяти и скорости (таких как LoRA, FlashAttention, vLLM, ZeRO), знать тонкости распределённого тренинга, принципов LLMOps (MLOps для больших моделей) и нюансов продакшн-развертывания LLM.

Также часто проверяют умение решать реальные задачи: от проектирования пайплайна для Sparse MoE до анализа проблем с памятью на GPU, понимания различий между методами обучения с подкреплением (RLHF vs DPO) и способов масштабирования моделей.

Этот гайд структурирован по ключевым темам, соответствующим областям знаний, которые обычно проверяются на собеседованиях. Для каждой темы мы рассмотрим, что пытаются проверить интервьюеры, приведём пример формулировки вопроса и дадим подробный разбор ответа с обсуждением трэйд-оффов, примеров кода или схем, где это уместно. Вы можете изучать материал по разделам, чтобы сфокусироваться на интересующей области.

👉 Гайд
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍1🔥1
🖥 Полный гайд по реальным SQL-вопросам с собеседований

Введение. Собеседования на позиции, связанные с данными (аналитики, инженеры, ученые данных), всё чаще включают нестандартные и продвинутые вопросы по SQL.

Большие технологические компании (Google, Amazon и др.) предъявляют высокие требования: важна не только правильность запроса, но и умение оптимизировать его и разбираться в реальных бизнес-данных.

В этом гайде мы разберем категории наиболее распространенных сложных SQL-задач с реальных собеседований – от платформ вроде DataLemur, LeetCode, StrataScratch – и подробно поясним решения.

Каждая задача сопровождена анализом: условие, оптимальный подход, используемые SQL-конструкции, возможные ошибки и финальное решение (для PostgreSQL и MySQL, с указанием различий где необходимо).

В конце добавлен отдельный раздел о современных базах данных, включая векторные БД (Pinecone, Weaviate, Milvus и др.), с примерами того, что могут спросить про них на собеседовании и как выглядят SQL-подобные запросы для работы с векторами.

📌 Читать гайд
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥2👍1
2025/10/24 12:43:45
Back to Top
HTML Embed Code: