Forwarded from Не Скорсезе
Кион сделал ИИ-модель оценки («скоринга», как они говорят) сценариев, которые приходят в компанию. Говорят, раньше приходило 500 сценариев в год, каждый надо было читать 10 часов, в итоге, выходило 16 сериалов и 5 фильмов.
В картинках: как они к этому подошли + какие рекомендации выдала их модель по реально вышедшим популярным проектам разных платформ (красным – отказать, зеленым – дать добро).
#новыйсезон2025
В картинках: как они к этому подошли + какие рекомендации выдала их модель по реально вышедшим популярным проектам разных платформ (красным – отказать, зеленым – дать добро).
#новыйсезон2025
👎1👀1
Forwarded from Data Secrets | Карьера
Представьте: вы на собеседовании в Perplexity на роль ML-инженера, и интервьюер задаёт вопрос:
Многие кандидаты наверное скажут: «проверить точность» или «запустить больше тестов». Возможно, так и получится найти проблему, но можно пойти чуть иначе.
RAG-системы дают сбой на разных этапах, и для каждого нужны свои метрики. Общая «точность» часто не отвечает на самый важный вопрос — "А где же именно кроется ошибка?"
Ключевая идея:
Качество RAG = Производительность Retriever'а × Производительность Generator'а
Метрики Retrieval (Достали ли мы правильный контекст?)
- Contextual Relevancy: Какой процент полученных чанков действительно релевантен?
- Contextual Recall: Достали ли мы всю необходимую информацию?
- Contextual Precision: Ранжируются ли релевантные чанки выше нерелевантных?
Метрики Generation (Правильно ли LLM использовала контекст?)
- Faithfulness: Насколько вывод соответствует предоставленным фактам?
- Answer Relevancy: Отвечает ли ответ на заданный вопрос?
- Кастомные метрики: Следует ли ответ нужному формату или стилю?
Диагностическая структура:
1️⃣ Высокий Faithfulness + Низкий Relevancy → Проблема в Retrieval
2️⃣ Низкий Faithfulness + Высокий Relevancy → Проблема в Generation
3️⃣ Обе метрики низкие → Сломан весь пайплайн
4️⃣ Обе метрики высокие → Ищите edge-кейсы
Метрика, которая ловит большинство продакшен-проблем: Contextual Recall.
Ваш retriever может находить «релевантный» контент, но упускать критически важные детали. Идеальная точность при нулевой полноте = уверенные, но неправильные ответы. Именно поэтому RAG-системы так уверенно «галлюцинируют».
Но интервьюер может продолжить вас спрашивать:
Если ваши метрики расплывчаты, интервьюер скорее всего решит, что вы не понимаете, как работают RAG-системы в продакшене.
Подход к оценке, который отличает джунов от сеньоров:
Джун: Тестирует всё end-to-end и надеется, что сработает.
Сеньор: Внедряет метрики на уровне компонентов, автоматизированную оценку в CI/CD и мониторинг в продакшене.
Суровая реальность продакшена:
➖ Идеальный retrieval + слабые промты = галлюцинации
➖ Идеальная LLM + плохие чанки = нерелевантные ответы
➖ Хороший retrieval + хорошая генерация + отсутствие мониторинга = неминуемый провал
❗ Совет:
Упомяните оценку по методу LLM-as-a-judge.
Это покажет, что вы в курсе современных методов оценки.
Вопрос, который завершает интервью:
Возможный ответ:
- Автоматизированные оценки компонентов в CI/CD
- Мониторинг в реальном времени с оповещениями
- Асинхронная батч-оценка продакшен-трафика
Понимание причин сбоев RAG > заучивание архитектур трансформеров.
«Ваша RAG-система начала "галлюцинировать" в продакшене. Как вы проверите, что сломалось — retriever или generator?»
Многие кандидаты наверное скажут: «проверить точность» или «запустить больше тестов». Возможно, так и получится найти проблему, но можно пойти чуть иначе.
RAG-системы дают сбой на разных этапах, и для каждого нужны свои метрики. Общая «точность» часто не отвечает на самый важный вопрос — "А где же именно кроется ошибка?"
Ключевая идея:
Качество RAG = Производительность Retriever'а × Производительность Generator'а
Метрики Retrieval (Достали ли мы правильный контекст?)
- Contextual Relevancy: Какой процент полученных чанков действительно релевантен?
- Contextual Recall: Достали ли мы всю необходимую информацию?
- Contextual Precision: Ранжируются ли релевантные чанки выше нерелевантных?
Метрики Generation (Правильно ли LLM использовала контекст?)
- Faithfulness: Насколько вывод соответствует предоставленным фактам?
- Answer Relevancy: Отвечает ли ответ на заданный вопрос?
- Кастомные метрики: Следует ли ответ нужному формату или стилю?
Диагностическая структура:
Метрика, которая ловит большинство продакшен-проблем: Contextual Recall.
Ваш retriever может находить «релевантный» контент, но упускать критически важные детали. Идеальная точность при нулевой полноте = уверенные, но неправильные ответы. Именно поэтому RAG-системы так уверенно «галлюцинируют».
Но интервьюер может продолжить вас спрашивать:
«У вашего RAG'а точность 85%. А какой accuracy у контекста? Каков score достоверности? Вы меряете end-to-end или на уровне компонентов?»
Если ваши метрики расплывчаты, интервьюер скорее всего решит, что вы не понимаете, как работают RAG-системы в продакшене.
Подход к оценке, который отличает джунов от сеньоров:
Джун: Тестирует всё end-to-end и надеется, что сработает.
Сеньор: Внедряет метрики на уровне компонентов, автоматизированную оценку в CI/CD и мониторинг в продакшене.
Суровая реальность продакшена:
Упомяните оценку по методу LLM-as-a-judge.
«Я бы использовал GPT-4 для оценки faithfulness, сравнивая сгенерированные ответы с полученным контекстом, а затем отслеживал распределение скоров over time, чтобы поймать дрейф.»
Это покажет, что вы в курсе современных методов оценки.
Вопрос, который завершает интервью:
«Как бы вы реализовали такую оценку в продакшене?»
Возможный ответ:
- Автоматизированные оценки компонентов в CI/CD
- Мониторинг в реальном времени с оповещениями
- Асинхронная батч-оценка продакшен-трафика
Понимание причин сбоев RAG > заучивание архитектур трансформеров.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👎4👍1
#conference
Вчера налутал книжек на AI RnD дне Сберовском. Каждая книжка за лучший вопрос из зала (видимо, я умею задавать хорошие вопросы).
Вообще я считаю хороший вопрос уважением к спикеру. Если тебе интересен доклад, то интересный вопрос проявляет внимание к теме доклада и показывает, что ты не просто слышишь, но слушаешь. Ну и всегда хочется что-то из деталей выяснить у рассказчика, это я люблю.
Конечно, всегда есть кулуары. Но не всегда получается поймать спикера, да и не всегда есть время, ибо графики мероприятий обычно весьма плотненькие.
А завтра можно будет позадавать вопросы уже мне и коллегам на AI Conf. Если будете не ней - забегайте на наши доклады и секцию копайлотов в разработке.
Вчера налутал книжек на AI RnD дне Сберовском. Каждая книжка за лучший вопрос из зала (видимо, я умею задавать хорошие вопросы).
Вообще я считаю хороший вопрос уважением к спикеру. Если тебе интересен доклад, то интересный вопрос проявляет внимание к теме доклада и показывает, что ты не просто слышишь, но слушаешь. Ну и всегда хочется что-то из деталей выяснить у рассказчика, это я люблю.
Конечно, всегда есть кулуары. Но не всегда получается поймать спикера, да и не всегда есть время, ибо графики мероприятий обычно весьма плотненькие.
А завтра можно будет позадавать вопросы уже мне и коллегам на AI Conf. Если будете не ней - забегайте на наши доклады и секцию копайлотов в разработке.
❤🔥8
Forwarded from Клуб CDO (PostoplanBot)
Коллеги из Evidently AI собрали впечатляющий ресурс: “ML and LLM system design — 650 case studies”. Это структурированная база реальных кейсов от 100+ компаний о том, как применяют ML и LLM в продакшене: какие метрики используют, как проектируют системы, оценивают качество и безопасность, и запускают в масштаб. Удобно фильтровать по индустриям и типам задач (рекомендательные системы, поиск/ранжирование, fraud‑детекция, CV, NLP, Generative AI, RAG и др.).
https://www.evidentlyai.com/ml-system-design
https://www.evidentlyai.com/ml-system-design
Evidentlyai
Evidently AI - ML and LLM system design: 650 case studies
How do top companies apply AI? A database of 650 case studies from 100+ companies with practical ML use cases, LLM applications, and learnings from designing ML and LLM systems.
👀6
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
❤🔥4