NEURALDEEP Telegram 1552
40k Telegram каналов: массовая аналитика на RTX 4090 за 48 часов

Задача на 1.5 млрд токенов
«Вошли и вышли, приключение на 20 минут»

Попали в руки 40 000 Telegram каналов

Задача: привести к единой таксономии через анализ постов, описаний и названий каналов

Масштаб
2 млн постов (по 20-50 с каждого канала)
3 млрд символов → после очистки 1.5 млрд токенов

Нужны метатеги + категории для каждого канала

Железо vs Облако: честный расчёт

GPT-4o-mini в облаке: $150 (≈12 200₽) за весь объём, мгновенно

RTX 4090 сборка (250k₽): 48 часов непрерывной работы

Точка окупаемости: 20+ экспериментов (250k₽ / 12k₽ = 20 запусков)

Двухэтапная архитектура

Этап 1 Извлечение метатегов
Задача: из постов канала получить топ-10 тегов, описывающих тематику

{
"channel_tags": [
"искусственный_интеллект",
"машинное_обучение",
"нейросети"
]
}


Алгоритм
1. Канал → фильтруем посты (мин. 50 символов)
2. Батчи по 30 постов → T-lite-it-1.0 → 3-5 тегов за запрос
3. До 3 батчей на канал (макс. 20 тегов)
4. Частотный анализ → топ-10 финальных тегов канала

Построение таксономии из реальных данных

Создание финальной таксономии:
1. Частотный анализ: собрал ВСЕ метатеги → выбрал топ-1000 самых частых
2. Claude Opus/Sonnet 4: скормил топ-1000 тегов → получил 50 базовых категорий
3. Deep Research: дополнил таксономию до 60 категорий через анализ пропущенных тематик
4. Финальный список: 60 категорий покрывают 95% всех каналов

Этап 2: Категоризация по таксономии
Задача: метатеги канала → 2-3 категории из 60 выведенных из данных

Схема сопоставления
{
"mappings": [{
"channel_name": "Neural Deep",
"categories": ["artificial_intelligence", "technology_innovation"]
}]
}


Алгоритм:
1. Загружаем готовые метатеги каналов
2. Батчи по 15 каналов → промпт с таксономией (60 категорий из реальных данных)
3. T-lite-it-1.0 выбирает подходящие категории из выведенного списка
4. Результат: channel_info + metaTags + taxonomy_categories

Точность спросите вы?

Проверил 1000 каналов вручную:
- 79% точность категоризации — канал в правильной категории
- 86% точность метатегов — теги релевантны контенту

Что работает отлично:
IT/Tech каналы → точные теги и категории
Новостные каналы → четкая категоризация
Образовательный контент → стабильное качество

Проблемные зоны:
Мемные каналы → размытые категории
Микс-контент → сложно выбрать главную тему
Рекламные посты → портят всё тегирование канала
Каналы с частой рекламой дают нерелевантные теги

Технические детали

Модель: T-lite-it-1.0 — русская версия Qwen2.5-7B от T-Tech
Железо: RTX 4090 (24GB VRAM) + AMD Ryzen 3
Потоки: 10 для метатегов, 20 для категоризации
Guided JSON: xgrammar для стабильного парсинга
vLLM



Еще раз про экономику

Разовая задача: Облако в 20 раз дешевле
20+ экспериментов: Железо окупается
Постоянная аналитика: Железо экономит x5-10

Преимущества собственного железа:
- Полный контроль процесса
- Эксперименты без страха за бюджет
- Конфиденциальность данных
- Возможность тонкой настройки


48 часов работы GPU → структурированная база с:
- Метатегами для каждого канала (из реальных постов)
- Таксономией, выведенной из топ-1000 тегов (не абстрактной)
- 79% точность категоризации
- 60 категорий покрывают 95% каналов
- Готовая основа для поиска и рекомендаций

Кстати сверху еще сделали векторизацию на bge-m3 получился бомбический семантический поиск!

Фотка сервера в коментах
601🔥8421👍12💯1



tgoop.com/neuraldeep/1552
Create:
Last Update:

40k Telegram каналов: массовая аналитика на RTX 4090 за 48 часов

Задача на 1.5 млрд токенов
«Вошли и вышли, приключение на 20 минут»

Попали в руки 40 000 Telegram каналов

Задача: привести к единой таксономии через анализ постов, описаний и названий каналов

Масштаб
2 млн постов (по 20-50 с каждого канала)
3 млрд символов → после очистки 1.5 млрд токенов

Нужны метатеги + категории для каждого канала

Железо vs Облако: честный расчёт

GPT-4o-mini в облаке: $150 (≈12 200₽) за весь объём, мгновенно

RTX 4090 сборка (250k₽): 48 часов непрерывной работы

Точка окупаемости: 20+ экспериментов (250k₽ / 12k₽ = 20 запусков)

Двухэтапная архитектура

Этап 1 Извлечение метатегов
Задача: из постов канала получить топ-10 тегов, описывающих тематику

{
"channel_tags": [
"искусственный_интеллект",
"машинное_обучение",
"нейросети"
]
}


Алгоритм
1. Канал → фильтруем посты (мин. 50 символов)
2. Батчи по 30 постов → T-lite-it-1.0 → 3-5 тегов за запрос
3. До 3 батчей на канал (макс. 20 тегов)
4. Частотный анализ → топ-10 финальных тегов канала

Построение таксономии из реальных данных

Создание финальной таксономии:
1. Частотный анализ: собрал ВСЕ метатеги → выбрал топ-1000 самых частых
2. Claude Opus/Sonnet 4: скормил топ-1000 тегов → получил 50 базовых категорий
3. Deep Research: дополнил таксономию до 60 категорий через анализ пропущенных тематик
4. Финальный список: 60 категорий покрывают 95% всех каналов

Этап 2: Категоризация по таксономии
Задача: метатеги канала → 2-3 категории из 60 выведенных из данных

Схема сопоставления
{
"mappings": [{
"channel_name": "Neural Deep",
"categories": ["artificial_intelligence", "technology_innovation"]
}]
}


Алгоритм:
1. Загружаем готовые метатеги каналов
2. Батчи по 15 каналов → промпт с таксономией (60 категорий из реальных данных)
3. T-lite-it-1.0 выбирает подходящие категории из выведенного списка
4. Результат: channel_info + metaTags + taxonomy_categories

Точность спросите вы?

Проверил 1000 каналов вручную:
- 79% точность категоризации — канал в правильной категории
- 86% точность метатегов — теги релевантны контенту

Что работает отлично:
IT/Tech каналы → точные теги и категории
Новостные каналы → четкая категоризация
Образовательный контент → стабильное качество

Проблемные зоны:
Мемные каналы → размытые категории
Микс-контент → сложно выбрать главную тему
Рекламные посты → портят всё тегирование канала
Каналы с частой рекламой дают нерелевантные теги

Технические детали

Модель: T-lite-it-1.0 — русская версия Qwen2.5-7B от T-Tech
Железо: RTX 4090 (24GB VRAM) + AMD Ryzen 3
Потоки: 10 для метатегов, 20 для категоризации
Guided JSON: xgrammar для стабильного парсинга
vLLM



Еще раз про экономику

Разовая задача: Облако в 20 раз дешевле
20+ экспериментов: Железо окупается
Постоянная аналитика: Железо экономит x5-10

Преимущества собственного железа:
- Полный контроль процесса
- Эксперименты без страха за бюджет
- Конфиденциальность данных
- Возможность тонкой настройки


48 часов работы GPU → структурированная база с:
- Метатегами для каждого канала (из реальных постов)
- Таксономией, выведенной из топ-1000 тегов (не абстрактной)
- 79% точность категоризации
- 60 категорий покрывают 95% каналов
- Готовая основа для поиска и рекомендаций

Кстати сверху еще сделали векторизацию на bge-m3 получился бомбический семантический поиск!

Фотка сервера в коментах

BY Neural Kovalskii




Share with your friend now:
tgoop.com/neuraldeep/1552

View MORE
Open in Telegram


Telegram News

Date: |

The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content.
from us


Telegram Neural Kovalskii
FROM American