tgoop.com/neuraldeep/1491
Create:
Last Update:
Last Update:
GuardRails для фильтрации NSWF контента для b2c продукта
TL;DR: За 4 дня новый NSFW-фильтр на базе LLM с Structured Output обработал ~10k запросов, отклонил 1840 (18.4% rejection rate) с 8% false positives. Все улучшения через prompt engineering без code changes. Цель - снизить FP до 2-3% через оптимизацию промпта без увеличения latency/токенов. Real-time дашборд дает полное понимание работы системы. Продолжаем итерации для достижения production-ready точности.
Достаточно острая тема в b2c сегменте фильтрация text input запросов от пользователей на предмет пикантных тем
Прошло 4 дня с момента релиза обновленного фильтра для NSWF(запрещенка) контента генерации изображений и видео, за 4 дня к нам попало почти ~10к органических запросов из них было отклонено 1840 запросов
Проанализировали их все глазами и получили 8% FP(ложных детектов)
На текущий момент понятно что можно улучшить внутри промпта для фильтра хочу сократить количество ложных минимум на 5% но я хочу прийти к 2-3% без увеличения скорости работы и кол-ва токенов а это значит что мы продолжаем тесты!
И кстати инструмент визуализации и аналитики полностью навайбкожен, как по мне дает риалтайм понимание что просходит с фильтром и его работой
BY Neural Kovalskii

Share with your friend now:
tgoop.com/neuraldeep/1491