Neural Kovalskii@neuraldeep P.1491

Проблема №2: Миграция фильтров без должного тестирования

GuardRails для фильтрации NSWF контента для b2c продукта

TL;DR: За 4 дня новый NSFW-фильтр на базе LLM с Structured Output обработал ~10k запросов, отклонил 1840 (18.4% rejection rate) с 8% false positives. Все улучшения через prompt engineering без code changes. Цель - снизить FP до 2-3% через оптимизацию промпта без увеличения latency/токенов. Real-time дашборд дает полное понимание работы системы. Продолжаем итерации для достижения production-ready точности.

Достаточно острая тема в b2c сегменте фильтрация text input запросов от пользователей на предмет пикантных тем

Прошло 4 дня с момента релиза обновленного фильтра для NSWF(запрещенка) контента генерации изображений и видео, за 4 дня к нам попало почти ~10к органических запросов из них было отклонено 1840 запросов

Проанализировали их все глазами и получили 8% FP(ложных детектов)

На текущий момент понятно что можно улучшить внутри промпта для фильтра хочу сократить количество ложных минимум на 5% но я хочу прийти к 2-3% без увеличения скорости работы и кол-ва токенов а это значит что мы продолжаем тесты!

И кстати инструмент визуализации и аналитики полностью навайбкожен, как по мне дает риалтайм понимание что просходит с фильтром и его работой

🔥285

www.tgoop.com/neuraldeep/1491

2.91K viewsedited Jun 15 at 18:56

tgoop.com/neuraldeep/1491

Create: 2025-06-15
Last Update: 2025-10-12 21:44:41

GuardRails для фильтрации NSWF контента для b2c продукта

TL;DR: За 4 дня новый NSFW-фильтр на базе LLM с Structured Output обработал ~10k запросов, отклонил 1840 (18.4% rejection rate) с 8% false positives. Все улучшения через prompt engineering без code changes. Цель - снизить FP до 2-3% через оптимизацию промпта без увеличения latency/токенов. Real-time дашборд дает полное понимание работы системы. Продолжаем итерации для достижения production-ready точности.

BY Neural Kovalskii

Share with your friend now:
tgoop.com/neuraldeep/1491

Telegram News

GuardRails для фильтрации NSWF контента для b2c продукта